このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231106となっている論文です。

PDF登録状況(公開日: 20231106)

TitleAuthorsAbstract論文公表日・翻訳日
# SoK:産業侵入検知研究における評価

SoK: Evaluations in Industrial Intrusion Detection Research ( http://arxiv.org/abs/2311.02929v1 )

ライセンス: Link先を確認
Olav Lamberts, Konrad Wolsing, Eric Wagner, Jan Pennekamp, Jan Bauer, Klaus Wehrle, Martin Henze, (参考訳) 産業システムは、破壊的な結果をもたらす可能性のあるサイバー攻撃によってますます脅かされている。 このような攻撃に対抗するために、工業用侵入検知システムは、最も洗練された侵入でさえタイムリーに発見しようと試みている。 社会への批判から、この急速に成長するフィールドは様々な背景から研究者を惹きつけ、2021年だけで130の新たな発見アプローチを生み出した。 この大きな勢いは、様々な有望な道の探索を促進するが、同様に研究の景観を断片化し、有望な進歩を埋めるリスクを負う。 そのため、このリスクを軽減し、現実の応用性を備えた持続可能な科学的進歩への取り組みを促進するために、健全で理解可能な評価が必要である。 そこで本稿では,産業侵入検知研究の現状を理解するために,本分野の評価手法を体系的に分析する。 609の論文を分析したところ, この研究分野の急速な成長は, 肯定的かつ否定的な結果をもたらすことがわかった。 公開データセットの利用の増加を観察する一方で、パブリッシュは依然として平均1.3データセットしか評価せず、頻繁に使用されるベンチマークメトリクスは曖昧である。 同時に、新しく開発されたベンチマークメトリクスの採用は、ほとんど進歩していない。 最後に、系統分析により、関係するすべてのアクターに対して実行可能なレコメンデーションを提供し、研究分野全体を前進させます。

Industrial systems are increasingly threatened by cyberattacks with potentially disastrous consequences. To counter such attacks, industrial intrusion detection systems strive to timely uncover even the most sophisticated breaches. Due to its criticality for society, this fast-growing field attracts researchers from diverse backgrounds, resulting in 130 new detection approaches in 2021 alone. This huge momentum facilitates the exploration of diverse promising paths but likewise risks fragmenting the research landscape and burying promising progress. Consequently, it needs sound and comprehensible evaluations to mitigate this risk and catalyze efforts into sustainable scientific progress with real-world applicability. In this paper, we therefore systematically analyze the evaluation methodologies of this field to understand the current state of industrial intrusion detection research. Our analysis of 609 publications shows that the rapid growth of this research field has positive and negative consequences. While we observe an increased use of public datasets, publications still only evaluate 1.3 datasets on average, and frequently used benchmarking metrics are ambiguous. At the same time, the adoption of newly developed benchmarking metrics sees little advancement. Finally, our systematic analysis enables us to provide actionable recommendations for all actors involved and thus bring the entire research field forward.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-06
# 量子鍵分布のための非決定論的擬似乱数発生器

Non Deterministic Pseudorandom Generator for Quantum Key Distribution ( http://arxiv.org/abs/2311.03024v1 )

ライセンス: Link先を確認
Arun Mishra, Kanaka Raju Pandiri, Anupama Arjun Pandit, Lucy Sharma, (参考訳) 量子鍵分布(QKD)は、量子プロセスを通じてワンタイムパッド(OTP)の完全な機密性を達成するために成長する。 QKDの重要なコンポーネントの1つは、キーを生成するための量子ランダム数生成器(QRNG)である。 残念なことに、これらのQRNGは直ちに使用可能なビットを生成するのではなく、高いエントロピーを持つ生ビットを生成する。 QRNGが生成する乱数の前には、多くの事前処理が必要である。 これは、ボトルネックをランダムな数生成率で生成し、それに依存するQKDシステムを引き起こす。 量子ランダム数生成器の中心部分として使用される後処理手法のこのラグナラを回避するために、エントロピー(非決定性)と量子セキュリティを満足する代替アプローチを探索する。 量子セキュアプリミティブに基づく擬似乱数生成器は、物理ランダム性(QRNGの量子力学的プロセス)を用いた任意の乱数生成器よりもはるかに高速であり、暗号アプリケーションに必要な均一ビットを提供することができるため、後処理問題の代替となる可能性がある。 本研究では,ポスト量子プリミティブに基づく擬似ランダム生成器を提案する。 この乱数生成の中心的なテーマは、ハード格子問題によって生成される非決定論的エントロピーを持つPRNGを設計することである。 我々は、LWEのガウス誤差による非決定性を利用して、QKDのエントロピー要件を満たす非決定性PRNGを構築する。 さらに,Die-Harder TestによるPRNGの評価を行った。

Quantum Key Distribution(QKD) thrives to achieve perfect secrecy of One time Pad (OTP) through quantum processes. One of the crucial components of QKD are Quantum Random Number Generators(QRNG) for generation of keys. Unfortunately, these QRNG does not immediately produce usable bits rather it produces raw bits with high entropy but low uniformity which can be hardly used by any cryptographic system. A lot of pre-processing is required before the random numbers generated by QRNG to be usable. This causes a bottle neck in random number generation rate as well as QKD system relying on it. To avoid this lacuna of post-processing methods employed as a central part of Quantum Random Number Generators alternative approaches that satisfy the entropy(non determinism) and quantum security is explored. Pseudorandom generators based on quantum secure primitives could be an alternative to the post-processing problem as PRNGs are way more faster than any random number generator employing physical randomness (quantum mechanical process in QRNG) as well as it can provide uniform bits required for cryptography application. In this work we propose a pseudorandom generator based on post quantum primitives. The central theme of this random number generator is designing PRNG with non deterministic entropy generated through hard lattice problem - Learning with errors. We leverage the non determinism by Gaussian errors of LWE to construct non-deterministic PRNG satisfying the entropy requirement of QKD. Further, the paper concludes by evaluating the PRNG through Die-Harder Test.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-06
# Orion: プライベートディープニューラルネットワーク推論のための完全同型暗号化コンパイラ

Orion: A Fully Homomorphic Encryption Compiler for Private Deep Neural Network Inference ( http://arxiv.org/abs/2311.03470v1 )

ライセンス: Link先を確認
Austin Ebel, Karthik Garimella, Brandon Reagen, (参考訳) 完全同型暗号化(FHE)は、暗号化されたデータに対する計算を有効にすることで、プライバシーとセキュリティを大幅に改善する可能性がある。 これはディープラーニングでは特に当てはまり、今日では多くの人気のあるユーザサービスがニューラルネットワークを利用している。 FHEでセキュアな神経推論を大規模に展開する上で直面する大きな課題のひとつは、それらをFHEドメインに効果的にマッピングすることだ。 FHEは、大きなベクトルのパッケージ化、高価なローテーションの処理、複雑な歪んだ畳み込みの正しく実装など、多くのプログラミング上の課題を提起する。 これにより、プログラミングのFHE推論はパフォーマンスやエラーの少ないものになりがちである。 本稿では,ニューラル推論のための自動最適化FHEコンパイラOrionを用いて,これらの課題を克服する。 OrionはPyTorch仕様のネットワークをFHEに自動的にマッピングし、一般的なレイヤタイプと任意のテンソル形状とストライドを処理する。 さらに、高密度なFHEベクトルパッキング、効率的な回転、演算の最小化と性能向上の両立を図る新しい最適化法を開発した。 私たちはOrionをオープンソースとして実装し、FHEディープラーニングコミュニティが使用している一般的なベンチマークで評価しています。 We compare Orion to multiple state-of-the-art Solutions and report iso-accuracy speedups range to 2.7$\times$ to 20.5$\times$。

Fully Homomorphic Encryption (FHE) has the potential to substantially improve privacy and security by enabling computation on encrypted data. This is especially true with deep learning, as today many popular user services are powered by neural networks. One of the major challenges facing wide-scale deployment of FHE-secured neural inference is effectively mapping them to the FHE domain. FHE poses many programming challenges including packing large vectors, handling expensive rotations, and correctly implementing complex strided convolutions. This makes programming FHE inferences prone to poor performance and errors. In this paper we overcome these challenges with Orion, an automated optimizing FHE compiler for neural inference. Orion automatically maps PyTorch-specified networks to FHE, handling common layer types and arbitrary tensor shapes and strides. Moreover, we develop novel optimizations that balance dense FHE vector packing, efficient rotations, and minimize operations to improve performance. We have implemented Orion, which will be open sourced, and evaluated it on common benchmarks used by the FHE deep learning community. We compare Orion to multiple state-of-the-art solutions and report iso-accuracy speedups ranging from 2.7$\times$ to 20.5$\times$.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-06
# DAO分散化:投票ブロックのエントロピー、贈賄、ダークDAO

DAO Decentralization: Voting-Bloc Entropy, Bribery, and Dark DAOs ( http://arxiv.org/abs/2311.03530v1 )

ライセンス: Link先を確認
James Austgen, Andrés Fábrega, Sarah Allen, Kushal Babel, Mahimna Kelkar, Ari Juels, (参考訳) 分散型自治機構(DAO)は、スマートコントラクトを使用して、共通の目標に向かって作業するコミュニティを育成する。 従来の分散化の定義では、DAOフォールの「D」は多様で公平な参加の特色を捉えていない。 本稿では,DAOの投票における分散化の幅広い概念を定式化したVBE(Voting-Bloc Entropy)を提案する。 VBEは、参加者のユーティリティ機能の類似性を一連の提案で測定する。 我々はVBEを用いて、投票代表団の分散化効果、提案のバンドル、贈収賄、二次投票に関する多くの結果を証明している。 この結果から,DAO分散化の実践的提案が得られた。 この結果の1つは、DAOの分散化に伴うシステム的収賄のリスクを浮き彫りにしている。 この脅威が現実的であることを示すため、我々は、DAO投票で使用されるものを含む、アイデンティティシステムのプライバシー保護のための汚職機構であるダークDAOを初めて現実的に実現した。 私たちのDark-DAOプロトタイプは、Ethereum DAOに対する攻撃に、Oasis Sapphireブロックチェーンの信頼できる実行環境(TEE)を使用しています。 これは、ダークDAOがDAOガバナンスの現実的な将来的な関心事であることを示している。

Decentralized Autonomous Organizations (DAOs) use smart contracts to foster communities working toward common goals. Existing definitions of decentralization, however-the 'D' in DAO-fall short of capturing key properties characteristic of diverse and equitable participation. We propose a new metric called Voting-Bloc Entropy (VBE, pronounced ''vibe'') that formalizes a broad notion of decentralization in voting on DAO proposals. VBE measures the similarity of participants' utility functions across a set of proposals. We use VBE to prove a number of results about the decentralizing effects of vote delegation, proposal bundling, bribery, and quadratic voting. Our results lead to practical suggestions for enhancing DAO decentralization. One of our results highlights the risk of systemic bribery with increasing DAO decentralization. To show that this threat is realistic, we present the first practical realization of a Dark DAO, a proposed mechanism for privacy-preserving corruption of identity systems, including those used in DAO voting. Our Dark-DAO prototype uses trusted execution environments (TEEs) in the Oasis Sapphire blockchain for attacks on Ethereum DAOs. It demonstrates that Dark DAOs constitute a realistic future concern for DAO governance.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-06
# MIRAGE:アタックグラフの雇用によるマルチバイナリ画像リスク評価

MIRAGE: Multi-Binary Image Risk Assessment with Attack Graph Employment ( http://arxiv.org/abs/2311.03565v1 )

ライセンス: Link先を確認
David Tayouri, Telem Nachum, Asaf Shabtai, (参考訳) 攻撃者は既知の脆弱性を利用してデバイスのファームウェアとファームウェアバイナリ間の通信に侵入し、それらの間を通り抜ける。 サイバーセキュリティを改善するために、組織は使用するファームウェアのリスクを特定し、軽減する必要がある。 アタックグラフ(AG)は、識別された脆弱性を攻撃者がファームウェアイメージを妥協するために実行する一連のアクションからなるアタックパスに整理することで、ファームウェアのリスクを評価し、視覚的に表示する。 本稿では,AGをファームウェアリスク評価に活用する。 MIRAGE(Multi-binary Image Risk Assessment with Attack Graph Employment)は,ファームウェア間の攻撃ベクトルと脆弱な相互作用を識別するフレームワークである。 提案するファームウェアAG生成フレームワークのユースケースには、リスクのある外部インタラクションの識別、サプライチェーンのリスク評価、デジタルツインによるセキュリティ分析などがある。 MIRAGEフレームワークを評価するために,703個のファームウェア画像のデータセットを収集した。 また、ファームウェアバイナリのリスクを検証し、ファームウェアイメージのデータセット上でモデルの実装を実証し、最もリスクの高いバイナリをリストアップするモデルを提案する。

Attackers can exploit known vulnerabilities to infiltrate a device's firmware and the communication between firmware binaries, in order to pass between them. To improve cybersecurity, organizations must identify and mitigate the risks of the firmware they use. An attack graph (AG) can be used to assess and visually display firmware's risks by organizing the identified vulnerabilities into attack paths composed of sequences of actions attackers may perform to compromise firmware images. In this paper, we utilize AGs for firmware risk assessment. We propose MIRAGE (Multi-binary Image Risk Assessment with Attack Graph Employment), a framework for identifying potential attack vectors and vulnerable interactions between firmware binaries; MIRAGE accomplishes this by generating AGs for firmware inter-binary communication. The use cases of the proposed firmware AG generation framework include the identification of risky external interactions, supply chain risk assessment, and security analysis with digital twins. To evaluate the MIRAGE framework, we collected a dataset of 703 firmware images. We also propose a model for examining the risks of firmware binaries, demonstrate the model's implementation on the dataset of firmware images, and list the riskiest binaries.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-06
# SeL4によるOpenBSDの正式なドライバ検証

OpenBSD formal driver verification with SeL4 ( http://arxiv.org/abs/2311.03585v1 )

ライセンス: Link先を確認
Adriana Nicolae, Paul Irofti, Ioana Leustean, (参考訳) seL4マイクロカーネルは現在、完全に公式に認証されている唯一のカーネルである。 一般に、カーネルのコードのセキュリティを確保することへの関心は、オペレーティングシステム全体において重要な役割を担っている。 オペレーティングシステムの基本的な特徴の1つは、デバイスのハンドリングを抽象化することである。 この抽象化は、ハードウェアを管理するソフトウェアであるデバイスドライバによって表現される。 ソフトウェアコンポーネントの適切な検証により,ハードウェアの故障がない限り,デバイスが正常に動作することを保証する。この記事では,デバイスドライバの動作をモデル化し,コード実装が期待する動作と一致することを示す。 この証明はIsabelle/HOLで書かれており、CからIsabelleへのコード変換はC-to-Isabelle ParserとAutoCorresツールを使用して自動的に行われる。 我々は、seL4マイクロカーネルの検証により、その効率が既に示されていたため、イザベルの定理証明器を選択する。

The seL4 microkernel is currently the only kernel that has been fully formally verified. In general, the increased interest in ensuring the security of a kernel's code results from its important role in the entire operating system. One of the basic features of an operating system is that it abstracts the handling of devices. This abstraction is represented by device drivers - the software that manages the hardware. A proper verification of the software component could ensure that the device would work properly unless there is a hardware failure.In this paper, we choose to model the behavior of a device driver and build the proof that the code implementation matches the expected behavior. The proof was written in Isabelle/HOL, the code translation from C to Isabelle was done automatically by the use of the C-to-Isabelle Parser and AutoCorres tools. We choose Isabelle theorem prover because its efficiency was already shown through the verification of seL4 microkernel.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-06
# 任意のRowhammer閾値に対するスケーラブルで構成可能なトラッキング

Scalable and Configurable Tracking for Any Rowhammer Threshold ( http://arxiv.org/abs/2308.14889v2 )

ライセンス: Link先を確認
Anish Saxena, Moinuddin Qureshi, (参考訳) Rowhammer Threshold (TRH) は過去10年間で139Kから4.8Kに減少している。 ローハンマーの典型的な緩和は攻撃行を追跡することに依存している。 可能な攻撃者の数はしきい値の低下とともに増加するため、そのような行をストレージ効率のよい方法で確実に追跡することは困難である。 低閾値では、Grapheneのような学術トラッカーは禁止的なSRAMオーバーヘッド(数十KBからMB)を必要とする。 DSAC-TRRのような業界からの最近のDRAMトラッカーは、ほぼ追従し、ストレージオーバーヘッドを減らすために保証された保護を犠牲にし、DRAMはローハンマー攻撃に弱いままである。 理想的には、我々は、安全かつ正確に追跡するスケーラブルなトラッカーを求め、任意に低いしきい値を追跡することができる一方で、無視可能な専用SRAMとパフォーマンスオーバーヘッドを発生させます。 そこで我々は,Any Rowhammer Threshold用のスケーラブルなトラッカーSTARTを提案する。 専用のSRAM構造に頼るのではなく、STARTは追跡メタデータを保存するためにLLC(Last-Level Cache)を動的に再利用する。 STARTは、メモリに数百万行が含まれているのに対して、典型的なワークロードは64msのリフレッシュ期間内に行の小さなサブセットにしか触れないため、オンデマンドでのトラッキングエントリの割り当てはストレージを大幅に削減する、という観察に基づいている。 アプリケーションがメモリ内の多くの行にアクセスしない場合、STARTはLLCのキャパシティを予約しない。 そうでなければ、STARTは要求に応じて設定されたキャッシュの1-way、2-way、または8-wayを動的に使用する。 STARTはメタデータを保存するためにLLCの容量の9.4%を消費しており、これはメモリの各行に対してLLCにカウンタを割り当てるよりも5倍低い。 また,大規模メモリシステムのためのメモリマップSTARTであるSTART-Mを提案する。 我々の設計では、新たに追加された構造に対してわずか4KBのSRAMしか必要とせず、100未満のTRHでも、理想化されたトラッキングの1%以内に動作します。

The Rowhammer vulnerability continues to get worse, with the Rowhammer Threshold (TRH) reducing from 139K activations to 4.8K activations over the last decade. Typical Rowhammer mitigations rely on tracking aggressor rows. The number of possible aggressors increases with lowering thresholds, making it difficult to reliably track such rows in a storage-efficient manner. At lower thresholds, academic trackers such as Graphene require prohibitive SRAM overheads (hundreds of KBs to MB). Recent in-DRAM trackers from industry, such as DSAC-TRR, perform approximate tracking, sacrificing guaranteed protection for reduced storage overheads, leaving DRAM vulnerable to Rowhammer attacks. Ideally, we seek a scalable tracker that tracks securely and precisely, and incurs negligible dedicated SRAM and performance overheads, while still being able to track arbitrarily low thresholds. To that end, we propose START - a Scalable Tracker for Any Rowhammer Threshold. Rather than relying on dedicated SRAM structures, START dynamically repurposes a small fraction the Last-Level Cache (LLC) to store tracking metadata. START is based on the observation that while the memory contains millions of rows, typical workloads touch only a small subset of rows within a refresh period of 64ms, so allocating tracking entries on demand significantly reduces storage. If the application does not access many rows in memory, START does not reserve any LLC capacity. Otherwise, START dynamically uses 1-way, 2-way, or 8-way of the cache set based on demand. START consumes, on average, 9.4% of the LLC capacity to store metadata, which is 5x lower compared to dedicating a counter in LLC for each row in memory. We also propose START-M, a memory-mapped START for large-memory systems. Our designs require only 4KB SRAM for newly added structures and perform within 1% of idealized tracking even at TRH of less than 100.
翻訳日:2024-03-19 07:22:30 公開日:2023-11-06
# 概念空間から量子概念へ:形式化と構造化概念モデル学習

From Conceptual Spaces to Quantum Concepts: Formalising and Learning Structured Conceptual Models ( http://arxiv.org/abs/2401.08585v1 )

ライセンス: Link先を確認
Sean Tull, Razin A. Shaikh, Sara Sabrina Zemljic and Stephen Clark(参考訳) 本稿では、概念空間の圏論的一般化を用いた構造化概念のための新しいモデリングフレームワークを提案し、概念表現がデータからどのように自動的に学習できるかを古典的および量子的2つの全く異なるインスタンス化を用いて示す。 この研究の貢献は、我々のフレームワークの徹底したカテゴリ理論的形式化です。 我々は、圏論、特に量子過程を記述するための弦図の使用は、我々のアプローチの最も重要な特徴のいくつかを解明するのに役立つと主張している。 我々は、Gardenforsの古典的な概念空間の枠組みの上に構築され、認識は凸空間を用いて幾何学的にモデル化される。 形状・色・大きさ・位置の領域からの概念が、古典的実装においてガウス的概念として表現され、量子的効果として表現される単純な形状のイメージからどのように学べるかを示す。 古典的なケースでは、概念のβ-VAEモデルにインスパイアされた新しいモデルを開発するが、概念の名称がグラフィカルモデルの一部となるように言語とより密接な関係を持つように設計されている。 量子の場合、概念は概念分類を行うように訓練されたハイブリッド古典量子ネットワークによって学習され、古典画像処理は畳み込みニューラルネットワークによって行われ、量子表現はパラメータ化された量子回路によって生成される。 最後に、我々の概念の量子モデルがGardenforsの意味で概念空間とみなすことができるかどうかを考察する。

In this article we present a new modelling framework for structured concepts using a category-theoretic generalisation of conceptual spaces, and show how the conceptual representations can be learned automatically from data, using two very different instantiations: one classical and one quantum. A contribution of the work is a thorough category-theoretic formalisation of our framework. We claim that the use of category theory, and in particular the use of string diagrams to describe quantum processes, helps elucidate some of the most important features of our approach. We build upon Gardenfors' classical framework of conceptual spaces, in which cognition is modelled geometrically through the use of convex spaces, which in turn factorise in terms of simpler spaces called domains. We show how concepts from the domains of shape, colour, size and position can be learned from images of simple shapes, where concepts are represented as Gaussians in the classical implementation, and quantum effects in the quantum one. In the classical case we develop a new model which is inspired by the Beta-VAE model of concepts, but is designed to be more closely connected with language, so that the names of concepts form part of the graphical model. In the quantum case, concepts are learned by a hybrid classical-quantum network trained to perform concept classification, where the classical image processing is carried out by a convolutional neural network and the quantum representations are produced by a parameterised quantum circuit. Finally, we consider the question of whether our quantum models of concepts can be considered conceptual spaces in the Gardenfors sense.
翻訳日:2024-01-22 10:03:09 公開日:2023-11-06
# EuroSATとTransfer Learningを用いた土地利用と土地被覆(LULC)のマッピング

Mapping of Land Use and Land Cover (LULC) using EuroSAT and Transfer Learning ( http://arxiv.org/abs/2401.02424v1 )

ライセンス: Link先を確認
Suman Kunwar, Jannatul Ferdush(参考訳) 世界の人口が拡大を続けるにつれて、天然資源の需要は増大する。 残念ながら、人間の活動は温室効果ガス排出量の23%を占める。 ポジティブな点として、リモートセンシング技術は環境管理に有用なツールとして現れています。 これらの技術は, 土地利用の監視, 都市計画, 農業, 気候変動緩和, 災害復旧, 環境モニタリングなどの分野の進展を促進する。 AI、コンピュータビジョン、地球観測データの最近の進歩は、土地利用地図における前例のない精度を実現している。 転送学習とRGBバンドによる微調整により,土地利用分析における99.19%の精度を達成した。 このような知見は, 保全・都市計画政策に活用することができる。

As the global population continues to expand, the demand for natural resources increases. Unfortunately, human activities account for 23% of greenhouse gas emissions. On a positive note, remote sensing technologies have emerged as a valuable tool in managing our environment. These technologies allow us to monitor land use, plan urban areas, and drive advancements in areas such as agriculture, climate change mitigation, disaster recovery, and environmental monitoring. Recent advances in AI, computer vision, and earth observation data have enabled unprecedented accuracy in land use mapping. By using transfer learning and fine-tuning with RGB bands, we achieved an impressive 99.19% accuracy in land use analysis. Such findings can be used to inform conservation and urban planning policies.
翻訳日:2024-01-15 09:59:23 公開日:2023-11-06
# 生体計測の理論的限界

The theoretical limits of biometry ( http://arxiv.org/abs/2312.00019v1 )

ライセンス: Link先を確認
Ga\"elle Candel(参考訳) バイオメトリは認識精度の観点からその能力を証明する。 現在、生体認証パスポートによる自動境界制御や、指紋や顔認識アルゴリズムを備えたスマートフォンやコンピュータのロック解除に広く利用されている。 アイデンティティ検証は広く民主化されているが、追加の手がかりのない純粋な識別はまだ進行中である。 識別の困難さは集団の大きさに依存するが、集団が大きくなるほど混乱リスクが大きくなる。 衝突防止のためには、生体計測特性をかなりのグループに拡張するには十分に識別できなければならず、アルゴリズムはそれらの差異を正確に捉えることができるべきである。 ほとんどのバイオメトリックスは純粋に実験的であり、結果をより小さいグループやより大きなグループに外挿することは不可能である。 本研究では,生体認証システムの誤差率を管理する識別可能性問題に関する理論的解析を提案する。 本研究では,騒音発生時の衝突防止に必要となる独立ビット数と個体群の大きさの関係を示す。 この作業は、メモリ要件の最低バウンダリを提供する。 この結果は、地球全体の生物測定が通常のディスクに収まるため、ノイズや冗長性のためのスペースが残されているため、非常に有益である。

Biometry has proved its capability in terms of recognition accuracy. Now, it is widely used for automated border control with the biometric passport, to unlock a smartphone or a computer with a fingerprint or a face recognition algorithm. While identity verification is widely democratized, pure identification with no additional clues is still a work in progress. The identification difficulty depends on the population size, as the larger the group is, the larger the confusion risk. For collision prevention, biometric traits must be sufficiently distinguishable to scale to considerable groups, and algorithms should be able to capture their differences accurately. Most biometric works are purely experimental, and it is impossible to extrapolate the results to a smaller or a larger group. In this work, we propose a theoretical analysis of the distinguishability problem, which governs the error rates of biometric systems. We demonstrate simple relationships between the population size and the number of independent bits necessary to prevent collision in the presence of noise. This work provides the lowest lower bound for memory requirements. The results are very encouraging, as the biometry of the whole Earth population can fit in a regular disk, leaving some space for noise and redundancy.
翻訳日:2023-12-11 04:04:13 公開日:2023-11-06
# リアルタイムディジタルツイン

Real-time Digital Twins ( http://arxiv.org/abs/2311.14691v1 )

ライセンス: Link先を確認
Dirk Hartmann(参考訳) 私たちは、技術的進化によって引き起こされる爆発的な複雑さの世界と、非常に揮発的な社会経済環境に住んでいます。 複雑さの管理は、安全で持続可能で効率的な産業制御ソリューションの提供や、気候変動のような今日の世界的な課題の解決など、日々の意思決定において重要な問題である。 しかし、複雑さのレベルは、インフォームドな意思決定を行う認知能力に十分達しています。 デジタルツイン(Digital Twins)は、現実とデジタルの世界を緊密に統合し、複雑なシステムの意思決定をサポートするための重要な手段である。 実際のカウンター部分の仮想予測と最適化を通じて、運用と戦略上の決定を前もって行うことができる。 ここでは,高度にダイナミックな産業資産とプロセスのオンライン予測と最適化のために,リアルタイムデジタル双生児に焦点を当てる。 それらは、新しい、より効率的な制御と最適化の概念のために、産業的モノのインターネットのコンテキストにおいて重要な機会を提供する。 これにより、産業環境でのデータ可用性という今日の制限を克服するために、新しい技術に対するモノのインターネットのニーズを満たす。 今日のモデルベースとデータベース、そしてエッジベースとクラウドベースのアプローチの相補的な技術の統合は、産業プロセスパフォーマンス最適化ソリューションを再想像する可能性がある。

We live in a world of exploding complexity driven by technical evolution as well as highly volatile socio-economic environments. Managing complexity is a key issue in everyday decision making such as providing safe, sustainable, and efficient industrial control solutions as well as solving today's global grand challenges such as the climate change. However, the level of complexity has well reached our cognitive capability to take informed decisions. Digital Twins, tightly integrating the real and the digital world, are a key enabler to support decision making for complex systems. They allow informing operational as well as strategic decisions upfront through accepted virtual predictions and optimizations of their real-world counter parts. Here we focus on real-time Digital Twins for online prediction and optimization of highly dynamic industrial assets and processes. They offer significant opportunities in the context of the industrial Internet of Things for novel and more effective control and optimization concepts. Thereby, they meet the Internet of Things needs for novel technologies to overcome today's limitations in terms of data availability in industrial contexts. Integrating today's seemingly complementary technologies of model-based and data-based, as well as edge-based and cloud-based approaches has the potential to re-imagine industrial process performance optimization solutions.
翻訳日:2023-12-03 14:08:12 公開日:2023-11-06
# 進化都市:柔軟でアジャイルで共生的なシステムを目指して

Evolutionary City: Towards a Flexible, Agile and Symbiotic System ( http://arxiv.org/abs/2311.14690v1 )

ライセンス: Link先を確認
Xi Chen, Wei Hu, Jingru Yu, Ding Wang, Shengyue Yao, Yilun Lin, Fei-Yue Wang(参考訳) 都市の成長は時々、需要の変化に対応するのに苦労する厳格なインフラに繋がる。 本稿では,このようなダイナミックな需要に都市がより効率的に対応できるよう,新たなアプローチを提案する。 既存の都市システムの複雑さと柔軟性から生じる限界を識別する。 高度なセンシング技術による都市の適応性知覚の向上、グラフベースの手法による並列シミュレーション、分散的かつ自律的な組織と運用によるドメイン間の自律的な意思決定を容易にするためのフレームワークが提示される。 特に、これらの技術を実践するために共生機構が採用され、都市管理をよりアジャイルで応答性が高いものにしている。 ケーススタディでは、レーン割り当てを調整することで、このアプローチがトラフィックフローを最適化する方法について検討する。 このケースは、交通効率を高めるだけでなく、排出を減らす。 提案された進化的都市は持続可能な都市開発に関する新しい視点を提供し、都市システムにおける統合的知性の重要性を高く評価している。

Urban growth sometimes leads to rigid infrastructure that struggles to adapt to changing demand. This paper introduces a novel approach, aiming to enable cities to evolve and respond more effectively to such dynamic demand. It identifies the limitations arising from the complexity and inflexibility of existing urban systems. A framework is presented for enhancing the city's adaptability perception through advanced sensing technologies, conducting parallel simulation via graph-based techniques, and facilitating autonomous decision-making across domains through decentralized and autonomous organization and operation. Notably, a symbiotic mechanism is employed to implement these technologies practically, thereby making urban management more agile and responsive. In the case study, we explore how this approach can optimize traffic flow by adjusting lane allocations. This case not only enhances traffic efficiency but also reduces emissions. The proposed evolutionary city offers a new perspective on sustainable urban development, highliting the importance of integrated intelligence within urban systems.
翻訳日:2023-12-03 14:07:55 公開日:2023-11-06
# 運転中に携帯電話のオンライン配車ソフトウェアに影響を与える要因分析:中国を事例として

Analyze Factors Influencing Drivers' Cell Phone Online Ride-hailing Software Using While driving: A Case Study in China ( http://arxiv.org/abs/2311.14689v1 )

ライセンス: Link先を確認
Xiangnan Song (1), Xianghong Li (1), Kai Yin (2), Huimin Qi (1), Xufei Fang (1) ((1) Department of Transportation, Henan Polytechnic University, Jiaozuo 454003, China,(2) School of traffic and transportation, Beijing Jiaotong University, Beijing 100044, China)(参考訳) 交通の安全は、多くの人々にとってますます人気のある交通手段となっているオンライン配車サービスの性能に大きく影響されている。 運転中に受注を受けるドライバーによる携帯電話のオンライン配車ソフトウェアの使用が、オンライン配車に伴う交通事故の原因の1つであることにはほとんど注意が払われていない。 本稿では、計画行動の延長理論を採用し、運転中の注文を受け付けるために、中国のオンライン配車ドライバーの携帯電話配車ソフトウェア利用の行動に影響を与える要因について検討する。 その結果,態度,主観的規範,知覚的行動制御が行動意図に有意かつ肯定的な影響を与えていることがわかった。 行動意図は態度に最も強く影響される。 集団規範が行動意図に直接的かつ重大な影響を与えることはない。 それにもかかわらず、集団規範は態度、主観的規範、知覚的行動制御に実質的かつ有益な影響を与える。 本研究は, 調停効果テストを通じて, 態度, 主観的規範, 知覚的行動制御が, 集団規範が行動意図に与える影響において, 調停的, モデレート的役割を果たすことを見出した。 これらの知見は、オンライン配車ドライバー間の安全な運転を促進する効果的な措置を開発するための、関係部署に理論的ガイダンスを与えることができる。

The road safety of traffic is greatly affected by the driving performance of online ride-hailing, which has become an increasingly popular travel option for many people. Little attention has been paid to the fact that the use of cell phone online ride-hailing software by drivers to accept orders while driving is one of the causes of traffic accidents involving online ride-hailing. This paper, adopting the extended theory of planned behavior, investigates the factors that factors influencing the behavior of Chinese online ride-hailing drivers cell phone ride-hailing software usage to accept orders while driving. Results showed that attitudes, subjective norms, and perceived behavioral control have a significant and positive effect on behavioral intentions. Behavioral intention is most strongly influenced by attitude. There is no direct and significant impact of group norms on behavioral intention. Nonetheless, group norms exert a substantial and beneficial influence on attitude, subjective norms, and perceived behavioral control. This study has discovered, through a mediating effect test, that attitude, subjective norm, and perceived behavioral control play a mediating and moderating role in the impact of group norm on behavioral intention. These findings can offer theoretical guidance to relevant departments in developing effective measures for promoting safe driving among online ride-hailing drivers.
翻訳日:2023-12-03 14:07:40 公開日:2023-11-06
# 新型コロナウイルスは会議を再考する-人工知能会議の環境影響評価

COVID-19 Imposes Rethinking of Conferencing -- Environmental Impact Assessment of Artificial Intelligence Conferences ( http://arxiv.org/abs/2311.14692v1 )

ライセンス: Link先を確認
Pavlina Mitsou, Nikoleta-Victoria Tsakalidou, Eleni Vrochidou, George A. Papakostas(参考訳) 新型コロナウイルス(COVID-19)による温室効果ガスの排出が突然減少していることに気づいた。 この重要な観測に基づいて、我々は、科学会議の大気汚染の影響を定量化し、グリーンカンファレンスが世界規模の炭素フットプリントを再現する代替方法を探究し、提案する研究を行うことに決めた。 具体的には、科学的な影響要因、規模、そして航空旅行参加の影響を測定するための組織的な手続きに基づいて、人工知能コミュニティの最も人気のあるカンファレンスに焦点を当てた。 人工知能のような最先端の主題の体系的な定量化が、環境意識の幅広い枠組みの中でその会議の足跡を定義するために行われるのは、これが初めてである。 以上より,グリーンカンファレンスの実施方法の一覧では,仮想的な方法が第1位であることに留意した。 最適な会議の場所選択の代替案は、最大63.9%のco2排出量の節約を実証している。

It has been noticed that through COVID-19 greenhouse gas emissions had a sudden reduction. Based on this significant observation, we decided to conduct a research to quantify the impact of scientific conferences' air-travelling, explore and suggest alternative ways for greener conferences to re-duce the global carbon footprint. Specifically, we focused on the most popular conferences for the Artificial Intelligence community based on their scientific impact factor, their scale, and the well-organized proceedings towards measuring the impact of air travelling participation. This is the first time that systematic quantification of a state-of-the-art subject like Artificial Intelligence takes place to define its conferencing footprint in the broader frames of environmental awareness. Our findings highlight that the virtual way is the first on the list of green conferences' conduction although there are serious concerns about it. Alternatives to optimal conferences' location selection have demonstrated savings on air-travelling CO2 emissions of up to 63.9%.
翻訳日:2023-12-03 13:51:34 公開日:2023-11-06
# サルポックス病検出のための深層学習技術の進歩に関する最近の調査

A Recent Survey of the Advancements in Deep Learning Techniques for Monkeypox Disease Detection ( http://arxiv.org/abs/2311.10754v1 )

ライセンス: Link先を確認
Saddam Hussain Khan, Rashid Iqbal, Saeeda Naz (Artifical Intelligence Lab, Department of Computer Systems Engineering, University of Engineering and Applied Science (UEAS), Swat, Pakistan)(参考訳) サルポックス(英: Monkeypox)は、アフリカで最初に発見され、2022年半ばに世界的注目を集めたサルポックスウイルスの一群であるサルポックスウイルスによって引き起こされた動物感染症である。 症状は頭痛、風邪、発熱、天然ポックス、麻疹、ニワトリポックス様の皮膚症状、whoが世界的な公衆衛生のパンデミックとして公式に発表したのは2022年7月-2022年である。 適度な診断は、疾患の重症度の評価、臨床評価、適切な治療計画の決定に不可欠である。 伝統的に、皮膚病変のPCR検査はWHOによる一次診断の基準と考えられており、症状管理が一次治療であり、重篤な症例ではテコビリマトのような抗ウイルス薬である。 しかし、病院内の手動分析は公衆衛生上の緊急事態、特にパンデミックやパンデミックの場合において重大な課題となる。 そこで本研究では,皮膚病変画像におけるMPの自動検出のための深層学習(DL)手法を,広範囲かつ効率的に分析する。 これらのdl技術は、深層cnn、深層cnnsアンサンブル、深層ハイブリッド学習、新しく開発された、およびmpを診断するための視覚トランスフォーマといったカテゴリに広く分類されている。 さらに,本論文では,各種情報源からのベンチマークデータセットとその収集,前処理技術,評価指標について述べる。 調査はまた、新たな概念を簡単に探り、研究のギャップ、限界、応用を特定し、診断プロセスの課題を概説する。 本調査は,dl研究の展望領域に関する貴重な知見を提供し,研究者への道筋としての役割を期待する。

Monkeypox is a zoonotic infectious disease induced by the Monkeypox virus, part of the poxviridae orthopoxvirus group initially discovered in Africa and gained global attention in mid-2022 with cases reported outside endemic areas. Symptoms include headaches, chills, fever, smallpox, measles, and chickenpox-like skin manifestations and the WHO officially announced monkeypox as a global public health pandemic, in July-2022. Timely diagnosis is imperative for assessing disease severity, conducting clinical evaluations, and determining suitable treatment plans. Traditionally, PCR testing of skin lesions is considered a benchmark for the primary diagnosis by WHO, with symptom management as the primary treatment and antiviral drugs like tecovirimat for severe cases. However, manual analysis within hospitals poses a substantial challenge during public health emergencies, particularly in the case of epidemics and pandemics. Therefore, this survey paper provides an extensive and efficient analysis of deep learning (DL) methods for the automatic detection of MP in skin lesion images. These DL techniques are broadly grouped into categories, including deep CNN, Deep CNNs ensemble, deep hybrid learning, the newly developed, and Vision transformer for diagnosing MP. Additionally, the paper addresses benchmark datasets and their collection from various authentic sources, pre-processing techniques, and evaluation metrics. The survey also briefly delves into emerging concepts, identifies research gaps, limitations, and applications, and outlines challenges in the diagnosis process. This survey furnishes valuable insights into the prospective areas of DL study and is anticipated to serve as a path for researchers.
翻訳日:2023-11-27 00:48:03 公開日:2023-11-06
# EControl: 圧縮とエラー制御による高速分散最適化

EControl: Fast Distributed Optimization with Compression and Error Control ( http://arxiv.org/abs/2311.05645v1 )

ライセンス: Link先を確認
Yuan Gao and Rustem Islamov and Sebastian Stich(参考訳) 現代の分散トレーニングは通信オーバーヘッドを減らすために通信圧縮に大きく依存している。 本研究では,通信オーバヘッドを低減するために,一般的な圧縮機のクラスを用いたアルゴリズムについて検討する。 しかし、単純な実装は、しばしば圧縮バイアスによる不安定な収束や指数発散につながる。 Error Compensation (EC) は、圧縮演算子によって強化されたモデルのトレーニング中に上記の問題を緩和するための非常に一般的なメカニズムである。 データ均質状態におけるECの有効性と比較して、データ均質状態におけるECの実践性と理論的基礎の理解は限られている。 既存の収束解析は通常、境界勾配、境界データの均一性、大規模なバッチアクセスといった強い仮定に依存しており、現代の機械学習アプリケーションでは利用できないことが多い。 フィードバック信号の強度を制御して誤り補償を制御できる新しいメカニズムであるEControlを提案することで、現在の問題の大半を解決する。 標準強凸,一般凸,非凸設定におけるe制御の高速収束を問題やデータの不均一性に関する追加の仮定なしに証明する。 提案手法の有効性を示すため,広範囲な数値評価を行い,理論的な結果を支持する。

Modern distributed training relies heavily on communication compression to reduce the communication overhead. In this work, we study algorithms employing a popular class of contractive compressors in order to reduce communication overhead. However, the naive implementation often leads to unstable convergence or even exponential divergence due to the compression bias. Error Compensation (EC) is an extremely popular mechanism to mitigate the aforementioned issues during the training of models enhanced by contractive compression operators. Compared to the effectiveness of EC in the data homogeneous regime, the understanding of the practicality and theoretical foundations of EC in the data heterogeneous regime is limited. Existing convergence analyses typically rely on strong assumptions such as bounded gradients, bounded data heterogeneity, or large batch accesses, which are often infeasible in modern machine learning applications. We resolve the majority of current issues by proposing EControl, a novel mechanism that can regulate error compensation by controlling the strength of the feedback signal. We prove fast convergence for EControl in standard strongly convex, general convex, and nonconvex settings without any additional assumptions on the problem or data heterogeneity. We conduct extensive numerical evaluations to illustrate the efficacy of our method and support our theoretical findings.
翻訳日:2023-11-19 14:29:28 公開日:2023-11-06
# 自然言語処理アルゴリズムを用いた高エントロピー合金(HEA)文献のデータ駆動知識要約の性能予測

Performance Prediction of Data-Driven Knowledge summarization of High Entropy Alloys (HEAs) literature implementing Natural Language Processing algorithms ( http://arxiv.org/abs/2311.07584v1 )

ライセンス: Link先を確認
Akshansh Mishra, Vijaykumar S Jatti, Vaishnavi More, Anish Dasgupta, Devarrishi Dixit and Eyob Messele Sefene(参考訳) 音声言語を解釈する能力は自然言語処理と関連している。 言葉が相互にどのように関連しているか、どのように使用されるか、どんな設定でAIに教える。 自然言語処理(NLP)の目標は、マシンインテリジェンスに人間の脳と同じように言葉を処理させることだ。 これにより、自然言語を処理することによって、機械知能がテキストデータを解釈、整理、理解することができる。 この技術は、AIが人間よりも早く言語を習得するので、音声や文字によるコミュニケーションを理解できます。 本研究では,5つのNLPアルゴリズム,すなわちGeneism, Sumy, Luhn, Latent Semantic Analysis (LSA), Kull-back-Liebler (KL) al-gorithmを,高エントロピー合金(HEAs)の知識要約のために初めて実装した。 これらのアルゴリズムの性能予測はBLEUスコアとROUGEスコアを用いて行われる。 その結果,Lunhnアルゴリズムは,他のアルゴリズムと比較して,知識要約タスクの精度が最も高いことがわかった。

The ability to interpret spoken language is connected to natural language processing. It involves teaching the AI how words relate to one another, how they are meant to be used, and in what settings. The goal of natural language processing (NLP) is to get a machine intelligence to process words the same way a human brain does. This enables machine intelligence to interpret, arrange, and comprehend textual data by processing the natural language. The technology can comprehend what is communicated, whether it be through speech or writing because AI pro-cesses language more quickly than humans can. In the present study, five NLP algorithms, namely, Geneism, Sumy, Luhn, Latent Semantic Analysis (LSA), and Kull-back-Liebler (KL) al-gorithm, are implemented for the first time for the knowledge summarization purpose of the High Entropy Alloys (HEAs). The performance prediction of these algorithms is made by using the BLEU score and ROUGE score. The results showed that the Luhn algorithm has the highest accuracy score for the knowledge summarization tasks compared to the other used algorithms.
翻訳日:2023-11-19 14:18:11 公開日:2023-11-06
# AI Chatbot for Genesodic Future Thinking (EFT) Cue Texts for Health

AI Chatbot for Generating Episodic Future Thinking (EFT) Cue Texts for Health ( http://arxiv.org/abs/2311.06300v1 )

ライセンス: Link先を確認
Sareh Ahmadi, Edward A. Fox(参考訳) 本稿では,AIを活用したチャットボットを用いて,遅延割引を低減させるEpsodic Future Thinking (EFT) キューテキストを生成することで,健康改善を支援する。 以前の研究では、EDTは不適応な健康行動に対処することが示されている。 これらの研究には、参加者、研究者と協力し、将来の出来事を鮮明に想像し、その後に頻繁にレビューする記述を書き、傾向から即時報酬への移行を確実にした。 それによって行動の変化が促進され、治療の順守やライフスタイルの修正といった健康上のタスクを支援する。 ai chatbotは、ユーザーがパーソナライズしたeftを生成し、現在の労働集約型面接ベースのプロセスを自動化できるように設計されている。 これにより、ETF介入の効率が向上し、よりアクセスしやすくなり、特に教育的背景やコミュニケーション上の課題に制限のある人たちをターゲットにすることができる。 AIをETF介入に活用することにより、多様な人口におけるアクセスの拡大と健康改善を期待する。

We describe an AI-powered chatbot to aid with health improvement by generating Episodic Future Thinking (EFT) cue texts that should reduce delay discounting. In prior studies, EFT has been shown to address maladaptive health behaviors. Those studies involved participants, working with researchers, vividly imagining future events, and writing a description that they subsequently will frequently review, to ensure a shift from an inclination towards immediate rewards. That should promote behavior change, aiding in health tasks such as treatment adherence and lifestyle modifications. The AI chatbot is designed to guide users in generating personalized EFTs, automating the current labor-intensive interview-based process. This can enhance the efficiency of EFT interventions and make them more accessible, targeting specifically those with limited educational backgrounds or communication challenges. By leveraging AI for EFT intervention, we anticipate broadened access and improved health outcomes across diverse populations
翻訳日:2023-11-19 14:15:58 公開日:2023-11-06
# STRIDE:分子の逆設計のための構造誘導生成

STRIDE: Structure-guided Generation for Inverse Design of Molecules ( http://arxiv.org/abs/2311.06297v1 )

ライセンス: Link先を確認
Shehtab Zaman, Denis Akhiyarov, Mauricio Araya-Polo, Kenneth Chiu(参考訳) 機械学習、特にディープラーニングは、分子や材料設計に影響を及ぼしている。 特に、医薬品設計のための生成モデルのための高品質な小分子データへのアクセスが増加する中、医薬品発見の結果は有望である。 しかし、触媒、抗酸化剤、金属-有機フレームワークなどの重要な材料では、このような大きなデータセットは利用できない。 限られたサンプルと構造的類似性を持つ分子の族は、特に工業用途に広く用いられている。 よく知られているように、このような小さなデータセットでは、リトレーニングや微調整さえ難しい。 新規で実質的に応用可能な分子はよく知られた分子の誘導体であり、データの不足に対処するアプローチを示唆している。 この問題を解決するために、既知の分子によって誘導される無条件生成モデルで新規分子を生成する生成分子ワークフローである$\textbf{STRIDE}$を導入する。 高度に特殊な抗酸化物質分子群からトレーニングデータの外の分子を生成する。 生成分子は、平均21.7%低い合成アクセシビリティスコアを持ち、生成分子の5.9%のイオン化ポテンシャルを誘導する。

Machine learning and especially deep learning has had an increasing impact on molecule and materials design. In particular, given the growing access to an abundance of high-quality small molecule data for generative modeling for drug design, results for drug discovery have been promising. However, for many important classes of materials such as catalysts, antioxidants, and metal-organic frameworks, such large datasets are not available. Such families of molecules with limited samples and structural similarities are especially prevalent for industrial applications. As is well-known, retraining and even fine-tuning are challenging on such small datasets. Novel, practically applicable molecules are most often derivatives of well-known molecules, suggesting approaches to addressing data scarcity. To address this problem, we introduce $\textbf{STRIDE}$, a generative molecule workflow that generates novel molecules with an unconditional generative model guided by known molecules without any retraining. We generate molecules outside of the training data from a highly specialized set of antioxidant molecules. Our generated molecules have on average 21.7% lower synthetic accessibility scores and also reduce ionization potential by 5.9% of generated molecules via guiding.
翻訳日:2023-11-19 14:15:39 公開日:2023-11-06
# アインシュタインの局所性

Einstein locality ( http://arxiv.org/abs/2311.06296v1 )

ライセンス: Link先を確認
Sheng Feng(参考訳) 非局所性は量子力学の基本的な側面であり、量子情報科学の重要な資源である。 非局所性の「スプーキー」な性質は、そのグラモラスな謎を明らかにするための絶え間ない研究熱意を刺激した。 ここでは,ベル非局所性とアインシュタイン非局所性との間の本質的な混同を明らかにするアインシュタイン局所性の発見について報告する。 量子力学のアインシュタイン局所性は重ね合わせ原理を探求することで認識され、アインシュタイン局所性モデルはベル非局所性の本質に関する画像的洞察を得るために構築される。 さらに、エンタングル光子を用いた二重スリット実験は、現実におけるアインシュタイン局所性の証拠として提示されている。 この研究は、非局所性を理解するための概念的なブレークスルーとなり、量子科学と技術に大きな影響を与えるだろう。

Nonlocality is a fundamental aspect of quantum mechanics and an important resource in quantum information science. The ``spooky" nature of nonlocality has stimulated persistent research enthusiasm to uncover its glamorous mystery. Here I report on the discovery of Einstein locality that clarifies an essential confusion between Bell nonlocality and Einstein nonlocality. The Einstein locality of quantum mechanics is recognized via exploring the superposition principle and an Einstein locality model is built to gain a pictorial insight into the essence of Bell nonlocality. Moreover, existential results of double-slit experiments with entangled photons are presented as the evidence of Einstein locality in reality. This work should constitute a conceptual breakthrough towards understanding nonlocality and will have far-reaching impacts on quantum science and technology.
翻訳日:2023-11-19 14:15:23 公開日:2023-11-06
# GPT4All: オープンソースの圧縮言語モデルのエコシステム

GPT4All: An Ecosystem of Open Source Compressed Language Models ( http://arxiv.org/abs/2311.04931v1 )

ライセンス: Link先を確認
Yuvanesh Anand, Zach Nussbaum, Adam Treat, Aaron Miller, Richard Guo, Ben Schmidt, GPT4All Community, Brandon Duderstadt, Andriy Mulyar(参考訳) 大規模言語モデル(LLM)は、最近、専門的および学術的なベンチマークで人間レベルのパフォーマンスを達成した。 これらのモデルのアクセシビリティは性能に遅れを取っている。 最先端のLCMはコストのかかるインフラを必要としており、レート制限、ジオロック、検閲されたウェブインターフェースを通じてのみアクセス可能である。 本稿では,LPMへのアクセスを民主化することを目的とした,人気のオープンソースリポジトリであるGPT4Allについて述べる。 我々は、オリジナルのGPT4Allモデルファミリの技術的な詳細と、単一のモデルから完全に誕生したオープンソースエコシステムへのGPT4Allプロジェクトの進化について概説する。 本論文は,GPT4Allのオリジナルモデルの技術的概要と,その後のGPT4Allオープンソースエコシステムの成長に関するケーススタディとして機能することを願っている。

Large language models (LLMs) have recently achieved human-level performance on a range of professional and academic benchmarks. The accessibility of these models has lagged behind their performance. State-of-the-art LLMs require costly infrastructure; are only accessible via rate-limited, geo-locked, and censored web interfaces; and lack publicly available code and technical reports. In this paper, we tell the story of GPT4All, a popular open source repository that aims to democratize access to LLMs. We outline the technical details of the original GPT4All model family, as well as the evolution of the GPT4All project from a single model into a fully fledged open source ecosystem. It is our hope that this paper acts as both a technical overview of the original GPT4All models as well as a case study on the subsequent growth of the GPT4All open source ecosystem.
翻訳日:2023-11-10 17:06:50 公開日:2023-11-06
# プラネタリー交通カメラの校正に向けて

Toward Planet-Wide Traffic Camera Calibration ( http://arxiv.org/abs/2311.04243v1 )

ライセンス: Link先を確認
Khiem Vuong, Robert Tamburo, Srinivasa G. Narasimhan(参考訳) 屋外カメラの普及にもかかわらず、自動分析の可能性は、部分的にはキャリブレーションの問題のために、ほとんど未解決のままである。 内在パラメータや外在パラメータを含む正確なカメラキャリブレーションデータがないことは、キャプチャーされたビデオからの正確な現実世界距離測定を妨げる。 そこで,本稿では,道路レベルの画像を用いて3次元モデルを構築し,車内交通カメラの正確なキャリブレーションを容易にするスケーラブルな枠組みを提案する。 特に,100以上のグローバルトラヒックカメラの3dシーン再構成と正確な位置決めを実現し,十分なストリートレベル画像を持つ任意のカメラにスケーラブルである。 評価のために,本手法が既存の自動キャリブレーション技術よりも大幅に向上していることを示す20台の完全キャリブレーショントラヒックカメラのデータセットを紹介する。 さらに,3次元車両再構成と速度測定による洞察を抽出することにより,交通分析における我々のアプローチの有用性を強調し,自動分析に屋外カメラを用いる可能性を広げる。

Despite the widespread deployment of outdoor cameras, their potential for automated analysis remains largely untapped due, in part, to calibration challenges. The absence of precise camera calibration data, including intrinsic and extrinsic parameters, hinders accurate real-world distance measurements from captured videos. To address this, we present a scalable framework that utilizes street-level imagery to reconstruct a metric 3D model, facilitating precise calibration of in-the-wild traffic cameras. Notably, our framework achieves 3D scene reconstruction and accurate localization of over 100 global traffic cameras and is scalable to any camera with sufficient street-level imagery. For evaluation, we introduce a dataset of 20 fully calibrated traffic cameras, demonstrating our method's significant enhancements over existing automatic calibration techniques. Furthermore, we highlight our approach's utility in traffic analysis by extracting insights via 3D vehicle reconstruction and speed measurement, thereby opening up the potential of using outdoor cameras for automated analysis.
翻訳日:2023-11-09 18:22:17 公開日:2023-11-06
# aiを利用した無人車両支援型リコンフィギャラブルインテリジェントサーフェス:展開、プロトタイピング、実験、機会

AI-Enabled Unmanned Vehicle-Assisted Reconfigurable Intelligent Surfaces: Deployment, Prototyping, Experiments, and Opportunities ( http://arxiv.org/abs/2311.04241v1 )

ライセンス: Link先を確認
Li-Hsiang Shen, Kai-Ten Feng, Ta-Sung Lee, Yuan-Chun Lin, Shih-Cheng Lin, Chia-Chan Chang, Sheng-Fuh Chang(参考訳) 第6世代(6G)技術の発展に伴い、無線データ要求の要件はますます高まっている。 再構成可能なインテリジェントサーフェス(RIS)は、サービスカバレッジを拡張し、消費電力を減らし、スペクトル効率を向上する6G技術の1つである。 本稿では、理論およびハードウェアの観点からのRISデプロイメントの基礎と、人工知能(AI)と機械学習の利用について述べる。 我々は、ミリ波基地局(bs)と受信機に関連する2バンド自動誘導車(agv)のris支援を含むris(i-dris)プロトタイプのインテリジェント展開を行った。 RISはAGVに配置され、インシデント/リフレクション角が設定されている。 一方、mmWave BSと受信機は、システムスループットを得るためにダウンリンクパケットを監視するエッジサーバに関連付けられている。 我々は複数のAGV-RISエージェントとAGV-RIS当たりのサブエージェントに関連付けられた多エージェント強化学習方式を設計した。 実験の結果, 定常測定は異なる側面とシナリオで示された。 i-Drisは、100MHzの帯域幅で最大980 Mbpsの伝送スループットに到達できる。 最後に、RISを内蔵した無線通信ネットワークを利用する際のいくつかの機会と今後の課題を強調した。

The requirement of wireless data demands is increasingly high as the sixth-generation (6G) technology evolves. Reconfigurable intelligent surface (RIS) is promisingly deemed to be one of 6G techniques for extending service coverage, reducing power consumption, and enhancing spectral efficiency. In this article, we have provided some fundamentals of RIS deployment in theory and hardware perspectives as well as utilization of artificial intelligence (AI) and machine learning. We conducted an intelligent deployment of RIS (i-Dris) prototype, including dual-band auto-guided vehicle (AGV) assisted RISs associated with an mmWave base station (BS) and a receiver. The RISs are deployed on the AGV with configured incident/reflection angles. While, both the mmWave BS and receiver are associated with an edge server monitoring downlink packets for obtaining system throughput. We have designed a federated multi-agent reinforcement learning scheme associated with several AGV-RIS agents and sub-agents per AGV-RIS consisting of the deployment of position, height, orientation and elevation angles. The experimental results presented the stationary measurement in different aspects and scenarios. The i-Dris can reach up to 980 Mbps transmission throughput under a bandwidth of 100 MHz with comparably low complexity as well as rapid deployment, which outperforms the other existing works. At last, we highlight some opportunities and future issues in leveraging RIS-empowered wireless communication networks.
翻訳日:2023-11-09 18:22:01 公開日:2023-11-06
# 環境影響型マルチエージェント強化学習

Environmental-Impact Based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2311.04240v1 )

ライセンス: Link先を確認
Farinaz Alamiyan-Harandi, Pouria Ramazi(参考訳) 本稿では,社会的ジレンマにおける集団的成果に対する個人的影響の促進と強化を目的として,環境影響型マルチエージェント強化学習(emurel)手法を提案する。 Inequity Aversionモデルにインスパイアされたエージェントは、環境への影響に乗じて自分の報酬を仲間の報酬と比較する。 その報酬が仲間の1人の報酬を超えると、エージェントは自分の報酬を減らしてその仲間に対して「社会的責任」を取る。 したがって、エージェントが現在の状態に達するのに影響力が低いほど、他のエージェントが社会的責任を負うようになる。 クリーンアップ(収穫)テスト環境での実験では、エミュリルを訓練したエージェントがより効果的に協力することを学び、2つの最先端の報酬再形成法と社会的影響に基づいて訓練された場合と比較して、同じ協力レベルを維持しながら、合計で5,4\%$ (39\%$) と$20\%$ (44\%$) の報酬を得る。

To promote cooperation and strengthen the individual impact on the collective outcome in social dilemmas, we propose the Environmental-impact Multi-Agent Reinforcement Learning (EMuReL) method where each agent estimates the "environmental impact" of every other agent, that is, the difference in the current environment state compared to the hypothetical environment in the absence of that other agent. Inspired by the Inequity Aversion model, the agent then compares its own reward with those of its fellows multiplied by their environmental impacts. If its reward exceeds the scaled reward of one of its fellows, the agent takes "social responsibility" toward that fellow by reducing its own reward. Therefore, the less influential an agent is in reaching the current state, the more social responsibility is taken by other agents. Experiments in the Cleanup (resp. Harvest) test environment demonstrate that agents trained based on EMuReL learn to cooperate more effectively and obtain $54\%$ ($39\%$) and $20\%$ ($44\%$) more total rewards while preserving the same cooperation levels compared to when they are trained based on the two state-of-the-art reward reshaping methods inequity aversion and social influence.
翻訳日:2023-11-09 18:21:36 公開日:2023-11-06
# マルチエージェント強化学習における優しさ

Kindness in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2311.04239v1 )

ライセンス: Link先を確認
Farinaz Alamiyan-Harandi, Mersad Hassanjani, Pouria Ramazi(参考訳) 人間社会では、人々はしばしば自分の決定に公平さを取り入れ、優しく行動する人々に親切であることによって相互に扱う。 彼らは、結果を監視するだけでなく、意図も考慮して、他人の行動の優しさを評価する。 この行動概念は、MARL(Multi-Agent Reinforcement Learning)における協調エージェントの訓練に適応することができる。 そこで我々は,エージェントの意図を,エージェントが利用できる行動の環境影響に関する反実的推論によって測定するKindMARL法を提案する。 具体的には、エージェントが別のアクションを選択した場合に、現在の環境状態を現在の環境状態の推定と比較する。 各エージェントの報酬は、そのアクションの結果として、その仲間の報酬との違いは、フェローの意図に乗じて、フェローの「近親相姦」として扱われる。 報酬比較の結果がエージェントの優越性を確認すると、相手の優しさを認識し、自身の報酬を減らす。 クリーンアップおよびハーベスト環境における実験結果から,KindMARL法に基づくトレーニングにより,エージェントが89\%(resp。 37 %) および44% (resp。 43 %) が不平等回避法と社会的影響法に基づくトレーニングよりも報酬が多かった。 KindMARLの有効性は、交通信号制御問題における実験によってさらに支持されている。

In human societies, people often incorporate fairness in their decisions and treat reciprocally by being kind to those who act kindly. They evaluate the kindness of others' actions not only by monitoring the outcomes but also by considering the intentions. This behavioral concept can be adapted to train cooperative agents in Multi-Agent Reinforcement Learning (MARL). We propose the KindMARL method, where agents' intentions are measured by counterfactual reasoning over the environmental impact of the actions that were available to the agents. More specifically, the current environment state is compared with the estimation of the current environment state provided that the agent had chosen another action. The difference between each agent's reward, as the outcome of its action, with that of its fellow, multiplied by the intention of the fellow is then taken as the fellow's "kindness". If the result of each reward-comparison confirms the agent's superiority, it perceives the fellow's kindness and reduces its own reward. Experimental results in the Cleanup and Harvest environments show that training based on the KindMARL method enabled the agents to earn 89\% (resp. 37\%) and 44% (resp. 43\%) more total rewards than training based on the Inequity Aversion and Social Influence methods. The effectiveness of KindMARL is further supported by experiments in a traffic light control problem.
翻訳日:2023-11-09 18:21:09 公開日:2023-11-06
# VB-FTRLによる対数損失を伴うオンライン学習量子状態

Online Learning Quantum States with the Logarithmic Loss via VB-FTRL ( http://arxiv.org/abs/2311.04237v1 )

ライセンス: Link先を確認
Wei-Fu Tseng and Kai-Chun Chen and Zi-Hong Xiao and Yen-Huan Li(参考訳) 対数損失を伴うオンライン学習量子状態 (LL-OLQS) はオンラインポートフォリオ選択の量子一般化であり、30年以上にわたってオンライン学習の分野で古典的な問題であった。 この問題は、最大類似量子状態トモグラフィのためのランダム化最適化アルゴリズムを設計する際にも現れる。 最近、Jezequel et al. (arXiv:2209.13932) が提案した VB-FTRL アルゴリズムは、計算複雑性が適度であるOPS のアルゴリズムとしては初めて、ほぼ後悔すべきものである。 本稿では,LL-OLQSのVB-FTRLを一般化する。 d$ は次元を表し、$T$ はラウンドの数を表す。 一般化されたアルゴリズムはLL-OLQSに対して$O ( d^2 \log ( d + T ) )$の後悔率を達成する。 アルゴリズムの各イテレーションは、例えば切断平面法によって多項式時間で実装できる半定値プログラムを解いて構成される。 比較すると、LL-OLQSの最もよく知られた後悔率は、指数重み法によるO(d^2 \log T )$である。 しかし、LL-OLQSの指数重み付け法に対する明示的な実装は存在しない。 一般化を容易にするために,VB凸の概念を導入する。 VB凸性は、凸となる任意の関数に関連する対数障壁に対して十分条件であり、独立した関心を持つ。

Online learning quantum states with the logarithmic loss (LL-OLQS) is a quantum generalization of online portfolio selection, a classic open problem in the field of online learning for over three decades. The problem also emerges in designing randomized optimization algorithms for maximum-likelihood quantum state tomography. Recently, Jezequel et al. (arXiv:2209.13932) proposed the VB-FTRL algorithm, the first nearly regret-optimal algorithm for OPS with moderate computational complexity. In this note, we generalize VB-FTRL for LL-OLQS. Let $d$ denote the dimension and $T$ the number of rounds. The generalized algorithm achieves a regret rate of $O ( d^2 \log ( d + T ) )$ for LL-OLQS. Each iteration of the algorithm consists of solving a semidefinite program that can be implemented in polynomial time by, e.g., cutting-plane methods. For comparison, the best-known regret rate for LL-OLQS is currently $O ( d^2 \log T )$, achieved by the exponential weight method. However, there is no explicit implementation available for the exponential weight method for LL-OLQS. To facilitate the generalization, we introduce the notion of VB-convexity. VB-convexity is a sufficient condition for the logarithmic barrier associated with any function to be convex and is of independent interest.
翻訳日:2023-11-09 18:20:48 公開日:2023-11-06
# 分散型エージェントベース協調学習による個人間ウェアラブルセンサによる人間活動認識

Distributed Agent-Based Collaborative Learning in Cross-Individual Wearable Sensor-Based Human Activity Recognition ( http://arxiv.org/abs/2311.04236v1 )

ライセンス: Link先を確認
Ahmad Esmaeili and Zahra Ghorrati and Eric T. Matson(参考訳) ウェアラブルセンサー技術の急速な成長は、パーソナライズされたコンテキスト対応のヒューマンアクティビティ認識の分野に大きく貢献する。 この領域におけるデータソースの本質的に分散化の性質を考えると、その分散化能力を備えたマルチエージェントシステムの利用は、スケーラブルで適応可能でプライバシを重視した方法論の開発を促進する機会となる。 本稿では,センサ搭載デバイスの個々のユーザが分散ネットワーク内のエージェントとして機能し,人間活動の学習と分類の包括的プロセスに総合的に寄与するマルチエージェント原則に基づく協調型分散学習手法を提案する。 提案手法では,各個人が保持する活動監視データのプライバシに加えて,学習プロセスの監視を行う外部サーバの必要性を排除し,従来の集中型モデルの限界を克服し,各ユーザのユニークな属性に適応する可能性を示す。 提案手法は, PAMAP2 と HARTH の2つのパブリックアクセス型人間行動認識データセットに対して, 様々な設定で実験的に検証されている。 実験結果は,局所的およびグローバル的一般化の観点から,集中型構成と対比した場合の,個人間協調学習の有効性を強調した。

The rapid growth of wearable sensor technologies holds substantial promise for the field of personalized and context-aware Human Activity Recognition. Given the inherently decentralized nature of data sources within this domain, the utilization of multi-agent systems with their inherent decentralization capabilities presents an opportunity to facilitate the development of scalable, adaptable, and privacy-conscious methodologies. This paper introduces a collaborative distributed learning approach rooted in multi-agent principles, wherein individual users of sensor-equipped devices function as agents within a distributed network, collectively contributing to the comprehensive process of learning and classifying human activities. In this proposed methodology, not only is the privacy of activity monitoring data upheld for each individual, eliminating the need for an external server to oversee the learning process, but the system also exhibits the potential to surmount the limitations of conventional centralized models and adapt to the unique attributes of each user. The proposed approach has been empirically tested on two publicly accessible human activity recognition datasets, specifically PAMAP2 and HARTH, across varying settings. The provided empirical results conclusively highlight the efficacy of inter-individual collaborative learning when contrasted with centralized configurations, both in terms of local and global generalization.
翻訳日:2023-11-09 18:20:23 公開日:2023-11-06
# LLMは単純なルールに従うことができるか?

Can LLMs Follow Simple Rules? ( http://arxiv.org/abs/2311.04235v1 )

ライセンス: Link先を確認
Norman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian, Lulwa Aljeraisy, Dan Hendrycks, David Wagner(参考訳) LLM(Large Language Models)は,実世界の責任を増大させると同時に展開されるため,これらのシステムの振る舞いを信頼性の高い方法で特定・制約できることが重要である。 モデル開発者は、"乱用コンテンツを生成しない"など、モデルの明示的なルールを設定したがるかもしれませんが、これらはジェイルブレイクのテクニックによって回避されます。 llmが開発者が提供するルールにどのように順応するかを評価するには、通常、手作業によるレビューが必要であり、監視やメソッドの開発が遅くなる。 本稿では,llmsにおけるルール追従能力を測定するためのプログラムフレームワークであるルール追従言語評価シナリオ(rules)を提案する。 ルールは15の単純なテキストシナリオで構成されており、モデルが人間と対話しながら自然言語で一連のルールに従うように指示される。 各シナリオは簡潔な評価プログラムを持ち、モデルが会話におけるルールを破ったかどうかを判断する。 シナリオにおけるモデルの振る舞いを手作業で探究することで、攻撃戦略の6つのカテゴリを特定し、手動テストからのユニークな会話と、6つのカテゴリから戦略を体系的に実装する2つのテストケースを収集します。 GPT-4 や Llama 2 など,さまざまなプロプライエタリでオープンなモデルに対して,GPT-4 が最も優れたモデルであるにもかかわらず,すべてのモデルが多様な逆手作りユーザ入力に影響を受けやすいことがわかった。 さらに,勾配に基づく攻撃下でのオープンモデルを評価し,重大な脆弱性を見つける。 我々は、手動攻撃と自動攻撃の両方に対する探索と防御の研究のための挑戦的な新しい環境として、RuLESを提案する。

As Large Language Models (LLMs) are deployed with increasing real-world responsibilities, it is important to be able to specify and constrain the behavior of these systems in a reliable manner. Model developers may wish to set explicit rules for the model, such as "do not generate abusive content", but these may be circumvented by jailbreaking techniques. Evaluating how well LLMs follow developer-provided rules in the face of adversarial inputs typically requires manual review, which slows down monitoring and methods development. To address this issue, we propose Rule-following Language Evaluation Scenarios (RuLES), a programmatic framework for measuring rule-following ability in LLMs. RuLES consists of 15 simple text scenarios in which the model is instructed to obey a set of rules in natural language while interacting with the human user. Each scenario has a concise evaluation program to determine whether the model has broken any rules in a conversation. Through manual exploration of model behavior in our scenarios, we identify 6 categories of attack strategies and collect two suites of test cases: one consisting of unique conversations from manual testing and one that systematically implements strategies from the 6 categories. Across various popular proprietary and open models such as GPT-4 and Llama 2, we find that all models are susceptible to a wide variety of adversarial hand-crafted user inputs, though GPT-4 is the best-performing model. Additionally, we evaluate open models under gradient-based attacks and find significant vulnerabilities. We propose RuLES as a challenging new setting for research into exploring and defending against both manual and automatic attacks on LLMs.
翻訳日:2023-11-09 18:20:00 公開日:2023-11-06
# 脳波からのfMRI信号予測のための正弦波表現ネットワークの活用

Leveraging sinusoidal representation networks to predict fMRI signals from EEG ( http://arxiv.org/abs/2311.04234v1 )

ライセンス: Link先を確認
Yamin Li, Ange Lou, Catie Chang(参考訳) 現代の神経科学において、機能的磁気共鳴イメージング(fMRI)は脳全体の活動のダイナミックスに非侵襲的な窓を提供する重要な非置換可能なツールである。 それにもかかわらず、fMRIは血行動態のぼかしや、高コスト、不動性、金属インプラントとの互換性に制限されている。 脳波(EEG)はfMRIと相補的であり、高時間分解能で皮質電気活動を直接記録できるが、空間分解能はより限られており、深部皮質下脳構造に関する情報を回復できない。 脳波からfMRI情報を得る能力は、より広い脳領域にわたるコスト効率の良いイメージングを可能にする。 さらに、脳波の能力を増強するだけでなく、モード間モデルによってfMRI信号の解釈が促進される。 しかし、脳波とfMRIはどちらも高次元であり、人工物に近づきやすいため、現在、脳波からfMRIをモデル化することは困難である。 この課題に対処するために,マルチチャネル脳波から直接fMRI信号を予測できる新しいアーキテクチャを提案する。 本モデルでは,脳波から周波数情報を学習する正弦波表現ネットワーク(siren)を実装し,その後のエンコーダ・デコーダへの入力として機能し,特定の脳領域からfmri信号を効果的に再構成する。 我々は,脳波-fMRI同時データセットを8被験者で評価し,皮質下 fMRI 信号の予測の可能性について検討した。 その結果,本モデルは最近の最先端モデルよりも優れており,機能的ニューロイメージングデータをモデル化するために,深層ニューラルネットワークの周期的活性化関数を活用する可能性を示している。

In modern neuroscience, functional magnetic resonance imaging (fMRI) has been a crucial and irreplaceable tool that provides a non-invasive window into the dynamics of whole-brain activity. Nevertheless, fMRI is limited by hemodynamic blurring as well as high cost, immobility, and incompatibility with metal implants. Electroencephalography (EEG) is complementary to fMRI and can directly record the cortical electrical activity at high temporal resolution, but has more limited spatial resolution and is unable to recover information about deep subcortical brain structures. The ability to obtain fMRI information from EEG would enable cost-effective, imaging across a wider set of brain regions. Further, beyond augmenting the capabilities of EEG, cross-modality models would facilitate the interpretation of fMRI signals. However, as both EEG and fMRI are high-dimensional and prone to artifacts, it is currently challenging to model fMRI from EEG. To address this challenge, we propose a novel architecture that can predict fMRI signals directly from multi-channel EEG without explicit feature engineering. Our model achieves this by implementing a Sinusoidal Representation Network (SIREN) to learn frequency information in brain dynamics from EEG, which serves as the input to a subsequent encoder-decoder to effectively reconstruct the fMRI signal from a specific brain region. We evaluate our model using a simultaneous EEG-fMRI dataset with 8 subjects and investigate its potential for predicting subcortical fMRI signals. The present results reveal that our model outperforms a recent state-of-the-art model, and indicates the potential of leveraging periodic activation functions in deep neural networks to model functional neuroimaging data.
翻訳日:2023-11-09 18:19:32 公開日:2023-11-06
# 気候不変機械学習

Climate-Invariant Machine Learning ( http://arxiv.org/abs/2112.08440v3 )

ライセンス: Link先を確認
Tom Beucler, Pierre Gentine, Janni Yuval, Ankitesh Gupta, Liran Peng, Jerry Lin, Sungduk Yu, Stephan Rasp, Fiaz Ahmed, Paul A. O'Gorman, J. David Neelin, Nicholas J. Lutsko, Michael Pritchard(参考訳) 気候変動を予測することは一般化の問題であり、過去、現在、そして将来の気候の物理的モデルを用いて最近の過去を外挿する。 現在の気候モデルは、モデル予測の不確実性の主要な原因であるモデルグリッドサイズよりも規模が小さいプロセスの表現を必要とする。 最近の機械学習(ML)アルゴリズムは、そのようなプロセス表現を改善することを約束するが、訓練されていない気候体制に悪影響を及ぼす傾向がある。 物理と統計の世界を最大限に活用するために、我々は、気候プロセスの知識をMLアルゴリズムに取り入れた「気候不変」MLと呼ばれる新しいフレームワークを提案し、3つの異なる大気モデルにおいて、幅広い気候条件と構成にわたって高いオフライン精度を維持することができることを示した。 以上の結果から,地球系プロセスのデータ駆動モデルに物理知識を明示的に組み込むことで,その一貫性,データの効率,一般化性が向上することが示唆された。

Projecting climate change is a generalization problem: we extrapolate the recent past using physical models across past, present, and future climates. Current climate models require representations of processes that occur at scales smaller than model grid size, which have been the main source of model projection uncertainty. Recent machine learning (ML) algorithms hold promise to improve such process representations, but tend to extrapolate poorly to climate regimes they were not trained on. To get the best of the physical and statistical worlds, we propose a new framework -- termed "climate-invariant" ML -- incorporating knowledge of climate processes into ML algorithms, and show that it can maintain high offline accuracy across a wide range of climate conditions and configurations in three distinct atmospheric models. Our results suggest that explicitly incorporating physical knowledge into data-driven models of Earth system processes can improve their consistency, data efficiency, and generalizability across climate regimes.
翻訳日:2023-11-08 23:16:42 公開日:2023-11-06
# ロボット学習のための統計的保証付き分散シフトのタスク駆動検出

Task-Driven Detection of Distribution Shifts with Statistical Guarantees for Robot Learning ( http://arxiv.org/abs/2106.13703v6 )

ライセンス: Link先を確認
Alec Farid, Sushant Veer, Divyanshu Pachisia, Anirudha Majumdar(参考訳) 私たちの目標は、ロボットが、異なる分布から引き起こされた環境で、ロボットがいつ動いているかを検出するために、分散(ood)検出を行うことです。 我々は、確率的近似(PAC)-ベイズ理論を利用して、トレーニング分布の性能を保証したポリシーを訓練する。 OOD検出の考え方は以下の直観に依拠する: テスト環境に縛られた性能の侵害は、ロボットがOODを動作させている証拠となる。 p-値と濃度不等式に基づいて統計的手法を用いてこれを定式化する。 このアプローチは、検出者の偽陽性率と偽陰性率の両方のバウンダリを含むOOD検出の信頼性境界を保証し、ロボットのパフォーマンスに影響を及ぼす変化にのみ敏感なタスク駆動型である。 我々は,風乱や障害物密度の異なる環境において,身近な形状やポーズの物体や視覚に基づく障害物回避を行うドローンを用いた把持作業におけるシミュレーションとハードウェアのアプローチを実証する。 我々の例は、ほんの数回の試行でタスク駆動型OOD検出ができることを示している。

Our goal is to perform out-of-distribution (OOD) detection, i.e., to detect when a robot is operating in environments drawn from a different distribution than the ones used to train the robot. We leverage Probably Approximately Correct (PAC)-Bayes theory to train a policy with a guaranteed bound on performance on the training distribution. Our idea for OOD detection relies on the following intuition: violation of the performance bound on test environments provides evidence that the robot is operating OOD. We formalize this via statistical techniques based on p-values and concentration inequalities. The approach provides guaranteed confidence bounds on OOD detection including bounds on both the false positive and false negative rates of the detector and is task-driven and only sensitive to changes that impact the robot's performance. We demonstrate our approach in simulation and hardware for a grasping task using objects with unfamiliar shapes or poses and a drone performing vision-based obstacle avoidance in environments with wind disturbances and varied obstacle densities. Our examples demonstrate that we can perform task-driven OOD detection within just a handful of trials.
翻訳日:2023-11-08 23:16:28 公開日:2023-11-06
# ログ精度変換器の論理

A Logic for Expressing Log-Precision Transformers ( http://arxiv.org/abs/2210.02671v6 )

ライセンス: Link先を確認
William Merrill and Ashish Sabharwal(参考訳) トランスフォーマーベースの言語モデルの推論能力を理解する一つの方法は、入力テキストで解決できる論理規則の種類を記述することである。 近年、Chiangら (2023) は、有限精度変換器は一階述語論理の一般化において等価に表現できることを示した。 しかし、有限精度変圧器は弱い変圧器変圧器であり、これは我々が示すように、単一のヘッドは一定数のトークンにしか対応できず、特に均一な注意を表現できないためである。 広く参加することは変圧器のコア機能であるため、普遍的に参加できる最小限の表現モデルが論理的にも特徴付けられるかどうかを問う。 この目的のために、前方パスが$\log n$の精度で計算される変圧器を長さ$n$の文脈で解析する。 我々は,任意の対数精度変換器を一階述語論理文として等価に表現できることを証明した。 これは最も強い既知の上界であり、対数精度変換器の論理的特徴である。

One way to interpret the reasoning power of transformer-based language models is to describe the types of logical rules they can resolve over some input text. Recently, Chiang et al. (2023) showed that finite-precision transformers can be equivalently expressed in a generalization of first-order logic. However, finite-precision transformers are a weak transformer variant because, as we show, a single head can only attend to a constant number of tokens and, in particular, cannot represent uniform attention. Since attending broadly is a core capability for transformers, we ask whether a minimally more expressive model that can attend universally can also be characterized in logic. To this end, we analyze transformers whose forward pass is computed in $\log n$ precision on contexts of length $n$. We prove that any log-precision transformer can be equivalently expressed as a first-order logic sentence that, in addition to standard universal and existential quantifiers, may also contain majority-vote quantifiers. This is the tightest known upper bound and first logical characterization of log-precision transformers.
翻訳日:2023-11-08 23:11:43 公開日:2023-11-06
# 非線形反応拡散方程式の効率的な量子アルゴリズムとエネルギー推定

Efficient quantum algorithm for nonlinear reaction-diffusion equations and energy estimation ( http://arxiv.org/abs/2205.01141v2 )

ライセンス: Link先を確認
Dong An, Di Fang, Stephen Jordan, Jin-Peng Liu, Guang Hao Low, Jiasu Wang(参考訳) 非線形微分方程式は多くの分野において豊富な現象を示すが、解くのは非常に難しい。 最近、liuら。 [1] は、$R < 1$ という条件の下で、散逸2次微分方程式に対する最初の効率的な量子アルゴリズムを示し、$R$ は$\ell_2$ノルムを用いて、散逸の非線形性の比を測った。 ここでは、非線形偏微分方程式(PDE)のクラスである反応拡散方程式の[1]に基づく効率的な量子アルゴリズムを開発する。 これを達成するために、[1] で導入されたカールマン線型化アプローチを改善して、$R_D < 1$ という条件の下でより高速な収束率を得る。 $R_D$は空間格子点数$n$とは独立であり、$R$は$n$で増加するので、高次元系では$R_D<1$は$R<1$よりもかなり軽く、PDEを近似するためのグリッド精製の下で収束することができる。 量子アルゴリズムの応用として、古典物理学における解釈を持つフィッシャー・kppおよびアレン・カーン方程式を考える。 特に、導関数情報を抽出するために量子状態を後処理することで、溶液中の平均2乗運動エネルギーを推定する方法を示す。

Nonlinear differential equations exhibit rich phenomena in many fields but are notoriously challenging to solve. Recently, Liu et al. [1] demonstrated the first efficient quantum algorithm for dissipative quadratic differential equations under the condition $R < 1$, where $R$ measures the ratio of nonlinearity to dissipation using the $\ell_2$ norm. Here we develop an efficient quantum algorithm based on [1] for reaction-diffusion equations, a class of nonlinear partial differential equations (PDEs). To achieve this, we improve upon the Carleman linearization approach introduced in [1] to obtain a faster convergence rate under the condition $R_D < 1$, where $R_D$ measures the ratio of nonlinearity to dissipation using the $\ell_{\infty}$ norm. Since $R_D$ is independent of the number of spatial grid points $n$ while $R$ increases with $n$, the criterion $R_D<1$ is significantly milder than $R<1$ for high-dimensional systems and can stay convergent under grid refinement for approximating PDEs. As applications of our quantum algorithm we consider the Fisher-KPP and Allen-Cahn equations, which have interpretations in classical physics. In particular, we show how to estimate the mean square kinetic energy in the solution by postprocessing the quantum state that encodes it to extract derivative information.
翻訳日:2023-11-08 23:08:23 公開日:2023-11-06
# 有限標本から高次元ヒルベルト値関数への近近近多項式近似の効率的な計算アルゴリズムについて

On efficient algorithms for computing near-best polynomial approximations to high-dimensional, Hilbert-valued functions from limited samples ( http://arxiv.org/abs/2203.13908v2 )

ライセンス: Link先を確認
Ben Adcock, Simone Brugiapaglia, Nick Dexter, Sebastian Moraga(参考訳) スパース多項式近似は、限られたサンプルから滑らかで高次元あるいは無限次元の関数を近似するのに不可欠である。 これは計算科学や工学における重要なタスクであり、例えば、関数がパラメトリックあるいは確率微分方程式(DE)の解写像である不確実量化における代理モデリングである。 しかし、スパース多項式近似は完全な理論を欠いている。 一方で、正則函数に対する指数的あるいは代数的収束率を主張する最良の$s$項多項式近似の理論が発達している。 一方、そのような近似を計算するための(重み付けされた)$\ell^1$-minimizationのような成熟した方法がある。 これらの手法のサンプルの複雑さは, 圧縮センシングを用いて解析されているが, 最高の$s$-term近似値が得られるかどうかは完全には分かっていない。 さらに、これらの手法は非線形最適化問題の最小化を含むため、それぞれアルゴリズムではない。 この論文はこれらのギャップを閉じる。 具体的には, 有限次元, 無限次元, 正則関数, ヒルベルト値関数に対する近似を, 最高の$s$-term レートで計算する堅牢で効率的なアルゴリズムが存在するか? 我々は, 指数的あるいは代数的収束率を主張するアルゴリズムと理論的保証を導入し, サンプリング, アルゴリズム的, 物理的離散化誤差に対するロバスト性を導入することで, 肯定的に答える。 我々はスカラー関数とヒルベルト値関数の両方に取り組み、これはパラメトリックあるいは確率的Dsの鍵となる。 本研究は,ヒルベルト空間における重み付き$\ell^1$-minimization問題の解法を再開した原始双対反復を含む既存手法の大幅な発展を含む。 これらのアルゴリズムの有効性を示す数値実験により,本理論を補足する。

Sparse polynomial approximation has become indispensable for approximating smooth, high- or infinite-dimensional functions from limited samples. This is a key task in computational science and engineering, e.g., surrogate modelling in uncertainty quantification where the function is the solution map of a parametric or stochastic differential equation (DE). Yet, sparse polynomial approximation lacks a complete theory. On the one hand, there is a well-developed theory of best $s$-term polynomial approximation, which asserts exponential or algebraic rates of convergence for holomorphic functions. On the other, there are increasingly mature methods such as (weighted) $\ell^1$-minimization for computing such approximations. While the sample complexity of these methods has been analyzed with compressed sensing, whether they achieve best $s$-term approximation rates is not fully understood. Furthermore, these methods are not algorithms per se, as they involve exact minimizers of nonlinear optimization problems. This paper closes these gaps. Specifically, we consider the following question: are there robust, efficient algorithms for computing approximations to finite- or infinite-dimensional, holomorphic and Hilbert-valued functions from limited samples that achieve best $s$-term rates? We answer this affirmatively by introducing algorithms and theoretical guarantees that assert exponential or algebraic rates of convergence, along with robustness to sampling, algorithmic, and physical discretization errors. We tackle both scalar- and Hilbert-valued functions, this being key to parametric or stochastic DEs. Our results involve significant developments of existing techniques, including a novel restarted primal-dual iteration for solving weighted $\ell^1$-minimization problems in Hilbert spaces. Our theory is supplemented by numerical experiments demonstrating the efficacy of these algorithms.
翻訳日:2023-11-08 23:07:56 公開日:2023-11-06
# 確率論的逆行攻撃・逆行訓練

Probabilistic Categorical Adversarial Attack & Adversarial Training ( http://arxiv.org/abs/2210.09364v3 )

ライセンス: Link先を確認
Han Xu, Pengfei He, Jie Ren, Yuxuan Wan, Zitao Liu, Hui Liu, Jiliang Tang(参考訳) 敵対的な例の存在は、人々が安全クリティカルなタスクにディープニューラルネットワーク(DNN)を適用することに大きな懸念をもたらします。 しかし, カテゴリデータを用いた逆例の生成は重要な問題であるが, 広範囲にわたる探索が欠如している。 従来確立された手法では,攻撃を成功させるのに非常に時間がかかる,欲求検索手法が利用されていた。 これはまた、カテゴリデータに対する敵の訓練や潜在的な防御の開発を制限する。 そこで本研究では, 離散最適化問題を, 投影勾配降下によって効率的に解くことのできる連続問題に移す確率的カテゴリー的逆襲攻撃 (pcaa) を提案する。 本稿では,その最適性と時間的複雑さを理論的に解析し,現在の強欲攻撃に対する大きな優位性を示す。 さらに,本攻撃に基づいて,効率的な対向訓練フレームワークを提案する。 包括的実証研究を通じて,提案する攻撃・防御アルゴリズムの有効性を正当化する。

The existence of adversarial examples brings huge concern for people to apply Deep Neural Networks (DNNs) in safety-critical tasks. However, how to generate adversarial examples with categorical data is an important problem but lack of extensive exploration. Previously established methods leverage greedy search method, which can be very time-consuming to conduct successful attack. This also limits the development of adversarial training and potential defenses for categorical data. To tackle this problem, we propose Probabilistic Categorical Adversarial Attack (PCAA), which transfers the discrete optimization problem to a continuous problem that can be solved efficiently by Projected Gradient Descent. In our paper, we theoretically analyze its optimality and time complexity to demonstrate its significant advantage over current greedy based attacks. Moreover, based on our attack, we propose an efficient adversarial training framework. Through a comprehensive empirical study, we justify the effectiveness of our proposed attack and defense algorithms.
翻訳日:2023-11-08 22:54:41 公開日:2023-11-06
# 絶対安定性を持つ離散時間結晶

Discrete Time Crystals with Absolute Stability ( http://arxiv.org/abs/2305.08925v2 )

ライセンス: Link先を確認
Krzysztof Giergiel, Jia Wang, Bryan J. Dalton, Peter Hannaford, Krzysztof Sacha(参考訳) 回転ポテンシャルによって周期的に駆動されるリング上の相互作用ボソンは、絶対安定性が証明できる離散時間結晶を支持できることを示す。 絶対安定性は、離散時間結晶状態の正確なマッピングによって、空間翻訳対称性の自発的な破れを示す時間非依存モデルの低次固有状態に示される。 このマッピングにより、系の加熱と離散時間結晶の破壊につながる残効時間依存項が存在しないことが保証される。 また,マッピングが近似的であり,離散時間結晶の絶対安定性を保証できない周期的蹴りボソンについても解析を行った。 ボソンズ模型は、不安定性の潜在的な源となる可能性に加えて、異なる時間と空間対称性の破れの間の相互作用や、温度貯水池との接触時の時間結晶挙動の安定性を調べるための豊富な場を示す。

We show that interacting bosons on a ring which are driven periodically by a rotating potential can support discrete time crystals whose absolute stability can be proven. The absolute stability is demonstrated by an exact mapping of discrete time crystal states to low-lying eigenstates of a time-independent model that reveals spontaneous breaking of space translation symmetry. The mapping ensures that there are no residual time-dependent terms that could lead to heating of the system and destruction of discrete time crystals. We also analyze periodically kicked bosons where the mapping is approximate only and cannot guarantee the absolute stability of discrete time crystals. Besides illustrating potential sources of instability, the kicked bosons model demonstrates a rich field for investigating the interplay between different time and space symmetry breaking, as well as the stability of time crystal behavior in contact with a thermal reservoir.
翻訳日:2023-11-08 22:45:12 公開日:2023-11-06
# ロボットマニピュレーションのための形状からシェーディング

Shape from Shading for Robotic Manipulation ( http://arxiv.org/abs/2304.11824v2 )

ライセンス: Link先を確認
Arkadeep Narayan Chaudhury, Leonid Keselman and Christopher G. Atkeson(参考訳) 照明の制御は、低計算コストで物体表面の正規性や深さの不連続性に関する高品質な情報を生成することができる。 本研究では、ロボット操作のためのテーブルトップスケールオブジェクトの高品質な情報を生成するロボットワークスペーススケール制御照明手法を実証する。 入射方向照明アプローチの低い角度で、単色ランバータ天体の表面正規と深度不連続を正確に捉えることができる。 形状推定に対するこのアプローチは 1)単点真空グリッパーを用いた汎用把持に有用である。 2)既知の物体の変形を測定することができ、 3) 既知のオブジェクトのポーズを推定し、ロボットのワークスペース内の未知のオブジェクトを追跡する。

Controlling illumination can generate high quality information about object surface normals and depth discontinuities at a low computational cost. In this work we demonstrate a robot workspace-scaled controlled illumination approach that generates high quality information for table top scale objects for robotic manipulation. With our low angle of incidence directional illumination approach, we can precisely capture surface normals and depth discontinuities of monochromatic Lambertian objects. We show that this approach to shape estimation is 1) valuable for general purpose grasping with a single point vacuum gripper, 2) can measure the deformation of known objects, and 3) can estimate pose of known objects and track unknown objects in the robot's workspace.
翻訳日:2023-11-08 22:43:10 公開日:2023-11-06
# moleclues: 予測モデルに対する分子配座の最大分布

MoleCLUEs: Molecular Conformers Maximally In-Distribution for Predictive Models ( http://arxiv.org/abs/2306.11681v2 )

ライセンス: Link先を確認
Michael Maser, Natasa Tagasovska, Jae Hyeon Lee, Andrew Watkins(参考訳) 構造に基づく分子ML(SBML)モデルは入力ジオメトリに非常に敏感であり、大きな分散を伴う予測を与えることができる。 本稿では,予測の不確実性を明示的に最小化するコンフォーメータを生成することにより,そのようなモデルのコンフォーメーション選択の課題を軽減する手法を提案する。 これを達成するために、我々は、潜伏後部を微分可能なアレタリックおよびエピステマティック不確かさの推定を計算する。 次に, 勾配降下により, 低い不確かさの方向に新しい潜伏剤を反復的にサンプリングする。 コンバータデコーダと共同で予測モデルをトレーニングする際、新しい潜伏埋め込みを対応する入力にマッピングし、それをtextit{MoleCLUEs} 、または(分子)反ファクトの潜伏不確実性説明をcitep{antoran2020getting} と呼ぶ。 薬物特性を最大信頼度で3次元構造から予測するためのアルゴリズムの評価を行った。 また,コンホメータ最適化から得られた構造軌跡を解析し,SBMLにおける不確実性の原因について考察する。

Structure-based molecular ML (SBML) models can be highly sensitive to input geometries and give predictions with large variance. We present an approach to mitigate the challenge of selecting conformations for such models by generating conformers that explicitly minimize predictive uncertainty. To achieve this, we compute estimates of aleatoric and epistemic uncertainties that are differentiable w.r.t. latent posteriors. We then iteratively sample new latents in the direction of lower uncertainty by gradient descent. As we train our predictive models jointly with a conformer decoder, the new latent embeddings can be mapped to their corresponding inputs, which we call \textit{MoleCLUEs}, or (molecular) counterfactual latent uncertainty explanations \citep{antoran2020getting}. We assess our algorithm for the task of predicting drug properties from 3D structure with maximum confidence. We additionally analyze the structure trajectories obtained from conformer optimizations, which provide insight into the sources of uncertainty in SBML.
翻訳日:2023-11-08 22:32:59 公開日:2023-11-06
# ニューラル演算子の表現性向上のためのエンリッチメントアプローチと地震学への応用

An enrichment approach for enhancing the expressivity of neural operators with applications to seismology ( http://arxiv.org/abs/2306.04096v2 )

ライセンス: Link先を確認
Ehsan Haghighat, Umair bin Waheed, George Karniadakis(参考訳) 固有方程式は地震波の伝播と震源位置の定位において中心的な役割を果たす。 近年の進展にもかかわらず、一般化された固有演算子を学習する必要があるため、リアルタイム地震定位は依然として困難である。 我々は,現在のオペレーター学習モデルの限界に対処するために,新しい深層学習アーキテクチャであるencented-deeponet (en-deeponet)を導入する。 加算と減算操作と新しい「ルート」ネットワークを利用することで、en-deeponetは特にそのような演算子の学習に適しており、トレーニングコストを増加させずに最大4桁の精度向上を達成している。 本研究では,En-DeepONetの変動速度および到着時間条件における地震定位効果を示す。 この結果から,En-DeepONetは実利な速度モデルに対して,リアルタイムな低中心位置定位を実現する方法であることがわかった。 提案手法は, 地震学, 破壊力学, 位相場問題など, 様々な科学的問題に適用可能な, 作用素学習の著しい進歩を示す。

The Eikonal equation plays a central role in seismic wave propagation and hypocenter localization, a crucial aspect of efficient earthquake early warning systems. Despite recent progress, real-time earthquake localization remains challenging due to the need to learn a generalizable Eikonal operator. We introduce a novel deep learning architecture, Enriched-DeepONet (En-DeepONet), addressing the limitations of current operator learning models in dealing with moving-solution operators. Leveraging addition and subtraction operations and a novel `root' network, En-DeepONet is particularly suitable for learning such operators and achieves up to four orders of magnitude improved accuracy without increased training cost. We demonstrate the effectiveness of En-DeepONet in earthquake localization under variable velocity and arrival time conditions. Our results indicate that En-DeepONet paves the way for real-time hypocenter localization for velocity models of practical interest. The proposed method represents a significant advancement in operator learning that is applicable to a gamut of scientific problems, including those in seismology, fracture mechanics, and phase-field problems.
翻訳日:2023-11-08 22:31:03 公開日:2023-11-06
# MTurk上でのロバストな能動選好励振アルゴリズムの展開 : COVID-19患者プライオリティ化のための設計・インターフェース・評価

Deploying a Robust Active Preference Elicitation Algorithm on MTurk: Experiment Design, Interface, and Evaluation for COVID-19 Patient Prioritization ( http://arxiv.org/abs/2306.04061v2 )

ライセンス: Link先を確認
Caroline M. Johnston, Patrick Vossler, Simon Blessenohl, Phebe Vayanos(参考訳) 優先適用は、AIや最適化を活用して、マーケティングから公共政策に至るまで、ステークホルダーの好みを学習する。 arxiv:2003.01899のオンラインロバストな選好誘惑手順は、個人の真の効用を効果的に学習する点で、他の様々な誘惑手順よりも優れていることがシミュレーションで示されている。 しかし、任意のシミュレーションと同様に、この手法は、シミュレーションを超えて真となると容易に検証できない一連の仮定を作る。 そこで本研究では,新型コロナウイルス(covid-19)患者の病院資源不足に対する優先順位付け方針の選定という課題に着目し,実ユーザによるロバストな手法の有効性を検証することを提案する。 この目的のために我々は,ユーザが選択した中程度の対数比較に対して,選択肢間の嗜好を報告できる,嗜好評価のためのオンラインプラットフォームを開発した。 我々は,amazon mechanical turk (mturk) の193人の従業員を募集し,その好みを報告し,ロバストな手法が,arxiv:2003.01899のシミュレート結果において,より高機能なポリシーを推奨する上で,次の最善の手法である21%のランダムクエリ要求を上回っていることを実証した。

Preference elicitation leverages AI or optimization to learn stakeholder preferences in settings ranging from marketing to public policy. The online robust preference elicitation procedure of arXiv:2003.01899 has been shown in simulation to outperform various other elicitation procedures in terms of effectively learning individuals' true utilities. However, as with any simulation, the method makes a series of assumptions that cannot easily be verified to hold true beyond simulation. Thus, we propose to validate the robust method's performance using real users, focusing on the particular challenge of selecting policies for prioritizing COVID-19 patients for scarce hospital resources during the pandemic. To this end, we develop an online platform for preference elicitation where users report their preferences between alternatives over a moderate number of pairwise comparisons chosen by a particular elicitation procedure. We recruit 193 Amazon Mechanical Turk (MTurk) workers to report their preferences and demonstrate that the robust method outperforms asking random queries by 21%, the next best performing method in the simulated results of arXiv:2003.01899, in terms of recommending policies with a higher utility.
翻訳日:2023-11-08 22:30:43 公開日:2023-11-06
# srn-sz:超解像ニューラルネットワークを用いた科学的誤り境界ロスイ圧縮

SRN-SZ: Deep Leaning-Based Scientific Error-bounded Lossy Compression with Super-resolution Neural Networks ( http://arxiv.org/abs/2309.04037v3 )

ライセンス: Link先を確認
Jinyang Liu, Sheng Di, Sian Jin, Kai Zhao, Xin Liang, Zizhong Chen, Franck Cappello(参考訳) 現代のスーパーコンピューティングシステムの計算能力とスケールの急速な成長は、エクサスケール科学データの管理において大きな課題を提起した。 科学的データの利用性を維持するため,制約のあるデータ歪みを伴う科学的データのサイズ削減に不可欠な手法として,誤差バウンド損失圧縮を提案する。 様々な科学シミュレーションによって生成された多様なデータセットのうち、特定のデータセットは、従来のテクニックで既存のエラーバウンドの損失圧縮機では効果的に圧縮できない。 人工知能の最近の成功は、ニューラルネットワークをエラーバウンドの損失圧縮機に統合するきっかけとなった。 しかし、これらの作品はまだ圧縮率や極めて低い効率に苦しむ。 本稿では,超解像ニューラルネットワークによって実装された階層的データグリッド拡張パラダイムを活用した,深層学習に基づく科学的エラーバウンドロスイ圧縮器であるsrn-szを提案する。 SRN-SZはその圧縮に最も高度な超解像ネットワーク HAT を適用している。 各種の最先端圧縮機との比較実験において、SRN-SZは最大75%の圧縮比を同じ誤差境界下で達成し、最大80%の圧縮比を同じPSNR下で達成する。

The fast growth of computational power and scales of modern super-computing systems have raised great challenges for the management of exascale scientific data. To maintain the usability of scientific data, error-bound lossy compression is proposed and developed as an essential technique for the size reduction of scientific data with constrained data distortion. Among the diverse datasets generated by various scientific simulations, certain datasets cannot be effectively compressed by existing error-bounded lossy compressors with traditional techniques. The recent success of Artificial Intelligence has inspired several researchers to integrate neural networks into error-bounded lossy compressors. However, those works still suffer from limited compression ratios and/or extremely low efficiencies. To address those issues and improve the compression on the hard-to-compress datasets, in this paper, we propose SRN-SZ, which is a deep learning-based scientific error-bounded lossy compressor leveraging the hierarchical data grid expansion paradigm implemented by super-resolution neural networks. SRN-SZ applies the most advanced super-resolution network HAT for its compression, which is free of time-costing per-data training. In experiments compared with various state-of-the-art compressors, SRN-SZ achieves up to 75% compression ratio improvements under the same error bound and up to 80% compression ratio improvements under the same PSNR than the second-best compressor.
翻訳日:2023-11-08 22:22:18 公開日:2023-11-06
# ウォルシュ系列を用いた効率的な量子状態生成

Efficient Quantum State Preparation with Walsh Series ( http://arxiv.org/abs/2307.08384v2 )

ライセンス: Link先を確認
Julien Zylberman and Fabrice Debbasch(参考訳) ウォルシュシリーズローダ (WSL) と呼ばれる新しい近似量子状態準備法 (QSP) が導入された。 WSLは、1つの実変数の実数値関数によって定義される量子状態に近似し、深さは数$n$の量子ビットとは独立である。 2つのアプローチが提示されている: 最初の1つは、$o(1/\sqrt{\epsilon})$で切れたウォルシュ級数によって目標の量子状態に近似し、ここで$\epsilon$は不完全性の項における近似の精度である。 回路の深さも$o(1/\sqrt{\epsilon})$であり、サイズは$o(n+1/\sqrt{\epsilon})$であり、1つのancilla qubitのみである。 第2の方法はスパースウォルシュ級数で正確に量子状態を表す。 WSLは、$s$-sparse Walshシリーズを$n$-qubitsにロードし、深さが2倍の$s$と$k$、Walsh関数のインデックスのバイナリ分解で$1$の最大ビット数である。 関連する量子回路はスパースウォルシュ・シリーズを、深さ$O(sk)$、サイズ$O(n+sk)$と1つのアンシラ量子ビットで誤差$\epsilon$に近似する。 どちらの場合も、プロトコルは成功の確率が$P=\Theta(\epsilon)$のRepeat-Until-Success (RUS) プロシージャであり、WSL ({\sl resp) に対する平均総時間は$O(1/\epsilon^{3/2})$である。 sparse wsl)に対して$o(sk/\epsilon)$です。 振幅増幅は$O(1/\sqrt{\epsilon})$$$\epsilon$の合計時間依存性によって減少するが、関連する量子回路のサイズと深さを増大させ、$n$に線形に依存する。 これらのプロトコルは、任意のパラメータに指数的スケーリングを持たず、全体的な効率のよいアルゴリズムを提供する。 それらは任意の複素値、多変量、ほぼすべての微分可能関数に一般化することができる。 Repeat-Until-Success Walsh Series Loaderは、回路深さとキュービット数に依存しない平均総時間を持つ量子状態を作成する唯一の方法である。

A new approximate Quantum State Preparation (QSP) method is introduced, called the Walsh Series Loader (WSL). The WSL approximates quantum states defined by real-valued functions of single real variables with a depth independent of the number $n$ of qubits. Two approaches are presented: the first one approximates the target quantum state by a Walsh Series truncated at order $O(1/\sqrt{\epsilon})$, where $\epsilon$ is the precision of the approximation in terms of infidelity. The circuit depth is also $O(1/\sqrt{\epsilon})$, the size is $O(n+1/\sqrt{\epsilon})$ and only one ancilla qubit is needed. The second method represents accurately quantum states with sparse Walsh series. The WSL loads $s$-sparse Walsh Series into $n$-qubits with a depth doubly-sparse in $s$ and $k$, the maximum number of bits with value $1$ in the binary decomposition of the Walsh function indices. The associated quantum circuit approximates the sparse Walsh Series up to an error $\epsilon$ with a depth $O(sk)$, a size $O(n+sk)$ and one ancilla qubit. In both cases, the protocol is a Repeat-Until-Success (RUS) procedure with a probability of success $P=\Theta(\epsilon)$, giving an averaged total time of $O(1/\epsilon^{3/2})$ for the WSL ({\sl resp.} $O(sk/\epsilon)$ for the sparse WSL). Amplitude amplification can be used to reduce by a factor $O(1/\sqrt{\epsilon})$ the total time dependency with $\epsilon$ but increases the size and depth of the associated quantum circuits, making them linearly dependent on $n$. These protocols give overall efficient algorithms with no exponential scaling in any parameter. They can be generalized to any complex-valued, multi-variate, almost-everywhere-differentiable function. The Repeat-Until-Success Walsh Series Loader is so far the only method which prepares a quantum state with a circuit depth and an averaged total time independent of the number of qubits.
翻訳日:2023-11-08 22:18:09 公開日:2023-11-06
# 機械学習と現実的なシミュレーションを用いた水中ドッキングの効率的な検出制御システム:包括的アプローチ

An Efficient Detection and Control System for Underwater Docking using Machine Learning and Realistic Simulation: A Comprehensive Approach ( http://arxiv.org/abs/2311.01522v2 )

ライセンス: Link先を確認
Jalil Chavez-Galaviz, Jianwen Li, Matthew Bergman, Miras Mengdibayev, Nina Mahmoudian(参考訳) 水中ドッキングは、自律水中車両(AUV)の持続的な運用を可能にするために重要である。 そのため、AUVは、非常にダイナミックな海底環境のために複雑であるドッキングステーションを検出し、位置を特定できなければならない。 イメージベースのソリューションは、この環境に適応するための高い獲得率と多用途な代替手段を提供するが、水中環境は、視認性、高い濁度、歪みといった課題を呈する。 これに加えて、水中ドッキング能力を検証するフィールド実験は、実験を行うのに必要な特別な機器と安全上の考慮のために、コストと危険が伴う。 この研究は、異なるディープラーニングアーキテクチャを比較し、水中ドッキング検出と分類を行う。 最高の性能を持つアーキテクチャは、教師-学生パラダイムの下で知識蒸留を用いて圧縮され、ネットワークのメモリフットプリントを削減し、リアルタイムの実装を可能にする。 シミュレーションと現実のギャップを低減するため、GAN(Generative Adversarial Network)を用いて画像間変換を行い、ガゼボシミュレーション画像をリアルな水中画像に変換する。 得られた画像は水中画像形成モデルを用いて処理され、異なる水面下での画像減衰をシミュレートする。 提案手法はAUVドッキング成功率に応じて評価され,古典的視覚法と比較された。 シミュレーションの結果,水中の潮流によらず,高濁度シナリオでは20%の改善が見られた。 さらに,市販のAUV Iver3に実験結果を示すことにより,提案手法の性能を示す。

Underwater docking is critical to enable the persistent operation of Autonomous Underwater Vehicles (AUVs). For this, the AUV must be capable of detecting and localizing the docking station, which is complex due to the highly dynamic undersea environment. Image-based solutions offer a high acquisition rate and versatile alternative to adapt to this environment; however, the underwater environment presents challenges such as low visibility, high turbidity, and distortion. In addition to this, field experiments to validate underwater docking capabilities can be costly and dangerous due to the specialized equipment and safety considerations required to conduct the experiments. This work compares different deep-learning architectures to perform underwater docking detection and classification. The architecture with the best performance is then compressed using knowledge distillation under the teacher-student paradigm to reduce the network's memory footprint, allowing real-time implementation. To reduce the simulation-to-reality gap, a Generative Adversarial Network (GAN) is used to do image-to-image translation, converting the Gazebo simulation image into a realistic underwater-looking image. The obtained image is then processed using an underwater image formation model to simulate image attenuation over distance under different water types. The proposed method is finally evaluated according to the AUV docking success rate and compared with classical vision methods. The simulation results show an improvement of 20% in the high turbidity scenarios regardless of the underwater currents. Furthermore, we show the performance of the proposed approach by showing experimental results on the off-the-shelf AUV Iver3.
翻訳日:2023-11-08 22:10:07 公開日:2023-11-06
# 幾何学的制約画像分割のための量子最適化法

A Quantum Optimization Method for Geometric Constrained Image Segmentation ( http://arxiv.org/abs/2310.20154v2 )

ライセンス: Link先を確認
Nam H. Le, Milan Sonka, Fatima Toor(参考訳) 量子画像処理は、量子コンピューティングと画像処理コミュニティの両方から注目を集めている分野である。 問題指向グラフの最適表面分割とハイブリッド量子古典最適化のためのグラフ理論アプローチを組み合わせた新しい手法を提案する。 表面セグメンテーションは、現実的セグメンテーションの表面変動を制御するために滑らかさ制約を課すグラフ分割問題として古典的にモデル化される。 具体的には、セグメンテーションは、グラフノードをソースに分割する最小のs-tカットによって識別されるソースセットを指す。 sink (複数形 sinks) (t) セット。 結果として得られる表面は、ソースとシンクの境界に位置するグラフノードから構成される。 有向エッジ、接続性、エッジ容量を含む問題特異的グラフの特徴は、等価イジングハミルトニアンの基底状態エネルギーに対応する最小値を持つ二次目的関数に埋め込まれている。 本研究は、医用画像解析において重要な応用を有する画像分割問題における量子プロセッサの利用を探求する。 本稿では,LOGISMOSの量子実装に関する理論的基礎と,簡単な画像に対するシミュレーション研究の結果について述べる。 量子近似最適化アルゴリズム (qaoa) を用いて, 対象関数の最適セグメンテーションを符号化するビットストリング解の同定と基底状態エネルギーの決定を目的とした2つのシミュレーション研究を行った。 目的関数は2次元および3次元画像の表面セグメンテーションに関連するタスクをスムーズな制約を組み込んで符号化する。 そこで本研究では, 幾何拘束面分割問題に対して, 最小解に対応する複数の極小点を最適に求めることにより, 提案手法が解決できることを実証する。

Quantum image processing is a growing field attracting attention from both the quantum computing and image processing communities. We propose a novel method in combining a graph-theoretic approach for optimal surface segmentation and hybrid quantum-classical optimization of the problem-directed graph. The surface segmentation is modeled classically as a graph partitioning problem in which a smoothness constraint is imposed to control surface variation for realistic segmentation. Specifically, segmentation refers to a source set identified by a minimum s-t cut that divides graph nodes into the source (s) and sink (t) sets. The resulting surface consists of graph nodes located on the boundary between the source and the sink. Characteristics of the problem-specific graph, including its directed edges, connectivity, and edge capacities, are embedded in a quadratic objective function whose minimum value corresponds to the ground state energy of an equivalent Ising Hamiltonian. This work explores the use of quantum processors in image segmentation problems, which has important applications in medical image analysis. Here, we present a theoretical basis for the quantum implementation of LOGISMOS and the results of a simulation study on simple images. Quantum Approximate Optimization Algorithm (QAOA) approach was utilized to conduct two simulation studies whose objective was to determine the ground state energies and identify bitstring solutions that encode the optimal segmentation of objective functions. The objective function encodes tasks associated with surface segmentation in 2-D and 3-D images while incorporating a smoothness constraint. In this work, we demonstrate that the proposed approach can solve the geometric-constrained surface segmentation problem optimally with the capability of locating multiple minimum points corresponding to the globally minimal solution.
翻訳日:2023-11-08 22:09:04 公開日:2023-11-06
# DGFN: 二重生成フローネットワーク

DGFN: Double Generative Flow Networks ( http://arxiv.org/abs/2310.19685v3 )

ライセンス: Link先を確認
Elaine Lau, Nikhil Vemgal, Doina Precup, Emmanuel Bengio(参考訳) 深層学習は薬物発見の有効なツールとして現れており、予測モデルと生成モデルの両方に応用される可能性がある。 Generative Flow Networks (GFlowNets/GFNs) は、多種多様な候補を生成する能力、特に小さな分子生成タスクで認識される手法である。 本稿では、DGFN(Double GFlowNets)を紹介する。 強化学習とDouble Deep Q-Learningからインスピレーションを得て,これらのトラジェクトリをサンプリングするターゲットネットワークを導入し,メインネットワークをこれらのトラジェクトリで更新する。 実験の結果、dgfnsはスパース報酬ドメインと高次元状態空間の探索を効果的に促進することが明らかとなった。

Deep learning is emerging as an effective tool in drug discovery, with potential applications in both predictive and generative models. Generative Flow Networks (GFlowNets/GFNs) are a recently introduced method recognized for the ability to generate diverse candidates, in particular in small molecule generation tasks. In this work, we introduce double GFlowNets (DGFNs). Drawing inspiration from reinforcement learning and Double Deep Q-Learning, we introduce a target network used to sample trajectories, while updating the main network with these sampled trajectories. Empirical results confirm that DGFNs effectively enhance exploration in sparse reward domains and high-dimensional state spaces, both challenging aspects of de-novo design in drug discovery.
翻訳日:2023-11-08 22:08:37 公開日:2023-11-06
# 量子LDPC符号の復号化のためのグラフニューラルネットワーク

Graph Neural Networks for Enhanced Decoding of Quantum LDPC Codes ( http://arxiv.org/abs/2310.17758v2 )

ライセンス: Link先を確認
Anqi Gong, Sebastian Cammerer, Joseph M. Renes(参考訳) 本研究では,量子低密度パリティチェック(LDPC)符号に対する完全微分可能な反復デコーダを提案する。 提案アルゴリズムは,古典的信念伝達(BP)復号段階と中間グラフニューラルネットワーク(GNN)層から構成される。 両方のコンポーネントデコーダは同じスパースデコードグラフ上で定義され、大きなコードへのシームレスな統合とスケーラビリティを実現する。 核となるアイデアは、連続するbp実行間でgnnコンポーネントを使用することであり、前回のbp実行からの知識が、デコードグラフのセットや短いサイクルをトラッピングすることによって引き起こされるローカルなミニマに詰まれば、次のbp実行をより初期化するために活用できる。 これにより、提案するデコーダは、量子LDPC符号の設計制約から生じる準最適BPデコーダグラフの補償を学ぶことができる。 デコーダ全体が微分可能であるため、勾配降下に基づくトレーニングが可能である。 提案手法は,ランダム摂動,強化フィードバック,拡張,順序統計復号 (osd) などの後処理手法と比較し,注意深く設計した学習プロセスが誤差床を著しく低下させることを示す。 その結果,提案するデコーダは,処理後試行回数を大幅に減らして,従来の3つの手法よりも優れていた。 実験のソースコードはオンラインで入手できます。

In this work, we propose a fully differentiable iterative decoder for quantum low-density parity-check (LDPC) codes. The proposed algorithm is composed of classical belief propagation (BP) decoding stages and intermediate graph neural network (GNN) layers. Both component decoders are defined over the same sparse decoding graph enabling a seamless integration and scalability to large codes. The core idea is to use the GNN component between consecutive BP runs, so that the knowledge from the previous BP run, if stuck in a local minima caused by trapping sets or short cycles in the decoding graph, can be leveraged to better initialize the next BP run. By doing so, the proposed decoder can learn to compensate for sub-optimal BP decoding graphs that result from the design constraints of quantum LDPC codes. Since the entire decoder remains differentiable, gradient descent-based training is possible. We compare the error rate performance of the proposed decoder against various post-processing methods such as random perturbation, enhanced feedback, augmentation, and ordered-statistics decoding (OSD) and show that a carefully designed training process lowers the error-floor significantly. As a result, our proposed decoder outperforms the former three methods using significantly fewer post-processing attempts. The source code of our experiments is available online.
翻訳日:2023-11-08 22:07:43 公開日:2023-11-06
# プログラマブル量子アニールを用いたかごめ格子上の横界等方性モデルのシミュレーション

Simulating the Transverse Field Ising Model on the Kagome Lattice using a Programmable Quantum Annealer ( http://arxiv.org/abs/2310.06698v2 )

ライセンス: Link先を確認
Pratyankara Narasimhan, Stephan Humeniuk, Ananda Roy, Victor Drouin-Touchette(参考訳) 幾何学による競合する相互作用の存在は、量子スピンモデルにフラストレーションをもたらす。 その結果、このような系の基底状態は、しばしば熱効果や量子効果によって持ち上げることができる大きな縮退性を示す。 そのような例として、カゴメ格子上の反強磁性イジングモデルがある。 三角格子上の同じモデルは、乱れ機構による順序付けにより、小さな横磁場に対してゼロ温度で順序付けされるが、カゴメ格子はそのような効果に抵抗し、短距離スピン相関と自明な常磁性相のみを示す。 このモデルをD-Waveの量子アニールの最新のアーキテクチャであるAdvantage2のプロトタイプに埋め込む。 高度な埋め込みとキャリブレーション技術を用いて,現在利用可能なプロトタイプの全グラフ上に,231箇所の開・周期境界条件を混合したカゴメ格子を埋め込むことができる。 フォワードアニーリング実験により,有限長磁場下では3分の1の磁化高原を示し,エントロピーが減少する古典的なスピン液体状態と一致することを示した。 次に、アニール・ポーズ・クエンチプロトコルを用いて、有限横方向および長手方向でのモデルの平衡から生じる実験的な状態のアンサンブルを抽出する。 これにより、部分位相図を構築し、システムが古典的なスピン液体の制約されたヒルベルト空間を、横方向の場に従えば出ることを確認できる。 この結果と先行する理論結果と量子モンテカルロシミュレーションを結びつけ,ここで実現した量子シミュレーションの有効性を検証し,d波量子アニーラの性能に関する知見を抽出し,非自明な量子系を平衡的にシミュレートする。

The presence of competing interactions due to geometry leads to frustration in quantum spin models. As a consequence, the ground state of such systems often displays a large degeneracy that can be lifted due to thermal or quantum effects. One such example is the antiferromagnetic Ising model on the Kagome lattice. It was shown that while the same model on the triangular lattice is ordered at zero temperature for small transverse field due to an order by disorder mechanism, the Kagome lattice resists any such effects and exhibits only short range spin correlations and a trivial paramagnetic phase. We embed this model on the latest architecture of D-Wave's quantum annealer, the Advantage2 prototype, which uses the highly connected Zephyr graph. Using advanced embedding and calibration techniques, we are able to embed a Kagome lattice with mixed open and periodic boundary conditions of 231 sites on the full graph of the currently available prototype. Through forward annealing experiments, we show that under a finite longitudinal field the system exhibits a one-third magnetization plateau, consistent with a classical spin liquid state of reduced entropy. An anneal-pause-quench protocol is then used to extract an experimental ensemble of states resulting from the equilibration of the model at finite transverse and longitudinal field. This allows us to construct a partial phase diagram and confirm that the system exits the constrained Hilbert space of the classical spin liquid when subjected to a transverse field. We connect our results to previous theoretical results and quantum Monte Carlo simulation, which helps us confirm the validity of the quantum simulation realized here, thereby extracting insight into the performance of the D-Wave quantum annealer to simulate non-trivial quantum systems in equilibrium.
翻訳日:2023-11-08 22:06:20 公開日:2023-11-06
# 筋電図に基づくジェスチャ分類のための誤差強調によるユーザトレーニング

User Training with Error Augmentation for Electromyogram-based Gesture Classification ( http://arxiv.org/abs/2309.07289v2 )

ライセンス: Link先を確認
Yunus Bicer, Niklas Smedemark-Margulies, Basak Celik, Elifnur Sunger, Ryan Orendorff, Stephanie Naufel, Tales Imbiriba, Deniz Erdo\u{g}mu\c{s}, Eugene Tunik, Mathew Yarossi(参考訳) 手首バンド構成の8電極から表面筋電図(sEMG)活性を抽出し,ユーザインタフェースをリアルタイムに制御するシステムの設計と試験を行った。 sEMGデータは、リアルタイムで手の動きを分類する機械学習アルゴリズムにストリームされた。 最初のモデルキャリブレーションを行った後、被験者は、人間の学習段階における3種類のフィードバックのうちの1つとして、ジェスチャ分類アルゴリズムからの予測確率を変更せずに表示し、これらの確率に誤差の隠れた増減を適用し、フィードバックなしの検証フィードバックを提示した。 ユーザのパフォーマンスは一連のミニゲームで評価され、被験者は8つのジェスチャーでゲームアバターを操作し、タスクを完了させる必要があった。 実験の結果,ベースラインと比較して,フィードバック条件の修正により精度が著しく向上し,ジェスチャクラス分離が向上した。 これらの結果から,フィードバック操作によるゲーミフィケーションユーザインタフェースにおけるリアルタイムフィードバックは,sEMGに基づくジェスチャー認識アプリケーションにおいて,直感的かつ迅速かつ正確なタスク獲得を可能にする可能性が示唆された。

We designed and tested a system for real-time control of a user interface by extracting surface electromyographic (sEMG) activity from eight electrodes in a wrist-band configuration. sEMG data were streamed into a machine-learning algorithm that classified hand gestures in real-time. After an initial model calibration, participants were presented with one of three types of feedback during a human-learning stage: veridical feedback, in which predicted probabilities from the gesture classification algorithm were displayed without alteration, modified feedback, in which we applied a hidden augmentation of error to these probabilities, and no feedback. User performance was then evaluated in a series of minigames, in which subjects were required to use eight gestures to manipulate their game avatar to complete a task. Experimental results indicated that, relative to baseline, the modified feedback condition led to significantly improved accuracy and improved gesture class separation. These findings suggest that real-time feedback in a gamified user interface with manipulation of feedback may enable intuitive, rapid, and accurate task acquisition for sEMG-based gesture recognition applications.
翻訳日:2023-11-08 22:04:58 公開日:2023-11-06
# クライミングロボットによる岩盤割れ検出のための骨格型アプローチ

A Skeleton-based Approach For Rock Crack Detection Towards A Climbing Robot Application ( http://arxiv.org/abs/2309.05139v2 )

ライセンス: Link先を確認
Josselin Somerville Roberts, Paul-Emile Giacomelli, Yoni Gozlan, Julia Di(参考訳) 従来の車輪付きロボットは、科学的に興味深いが危険な洞窟環境を横切ることができない。 ReachBotのような登山ロボットは、不規則な表面の特徴を把握し、障害物を克服するためにクライミング動作を実行することができる。 そこで本研究では,岩盤のひび割れやエッジを検出する手法であるスケルトン交点損失(skil)を提案する。 SKILは、ラベルの骨格を利用する薄いオブジェクトセグメンテーションのために設計された損失である。 岩面画像のデータセットを収集し、手動で注釈付けし、生成されたデータで拡張した。 シンオブジェクトセグメンテーションのための新しいメトリクスグループであるlineaccが提案されており、スコアに対するオブジェクト幅の影響を最小限に抑えることができる。 加えて、この計量は翻訳に対する感受性が低く、薄い物体上のサイコロのような古典的計量を計算するとき、しばしば0のスコアとなる。 我々の微調整モデルは、血管の分節のような類似の細い物体の分節タスクにおける従来の手法よりも優れており、ロボットシステムへの統合の約束を示す。

Conventional wheeled robots are unable to traverse scientifically interesting, but dangerous, cave environments. Multi-limbed climbing robot designs, such as ReachBot, are able to grasp irregular surface features and execute climbing motions to overcome obstacles, given suitable grasp locations. To support grasp site identification, we present a method for detecting rock cracks and edges, the SKeleton Intersection Loss (SKIL). SKIL is a loss designed for thin object segmentation that leverages the skeleton of the label. A dataset of rock face images was collected, manually annotated, and augmented with generated data. A new group of metrics, LineAcc, has been proposed for thin object segmentation such that the impact of the object width on the score is minimized. In addition, the metric is less sensitive to translation which can often lead to a score of zero when computing classical metrics such as Dice on thin objects. Our fine-tuned models outperform previous methods on similar thin object segmentation tasks such as blood vessel segmentation and show promise for integration onto a robotic system.
翻訳日:2023-11-08 22:04:38 公開日:2023-11-06
# 制約付き・非拘束型低レベル問題に対する二段階確率勾配法

Inexact bilevel stochastic gradient methods for constrained and unconstrained lower-level problems ( http://arxiv.org/abs/2110.00604v3 )

ライセンス: Link先を確認
Tommaso Giovannelli, Griffin Dean Kent, Luis Nunes Vicente(参考訳) 2段階の確率的最適化の定式化は、連続学習、ニューラルネットワーク検索、逆学習、ハイパーパラメータチューニングなど、多くの機械学習コンテキストで活用されている。 確率的二段階最適化問題は、変数の数が多い場合や制約がある場合の最適化や学習において困難になる。 本稿では,非線形および非凸な低レベル制約を持つ二レベル問題に対する二レベル確率勾配法を提案する。 また,低レベル非拘束ケースと制約付きケースの両方を扱った包括的収束理論を示し,低レベル問題の不等式解,随伴公式の不等式計算(随伴方程式の不等式やノイマン級数の使用による),関連する勾配,ヘシアン,ヤコビアンのノイズ推定など,随伴勾配(超次勾配とも呼ばれる)の不等式を全て網羅する。 大規模学習における二段階最適化の活用を促進するため,二階微分を必要としない低ランクな実用的二段階確率勾配法(BSG-N-FD,~BSG-1)を開発した。

Two-level stochastic optimization formulations have become instrumental in a number of machine learning contexts such as continual learning, neural architecture search, adversarial learning, and hyperparameter tuning. Practical stochastic bilevel optimization problems become challenging in optimization or learning scenarios where the number of variables is high or there are constraints. In this paper, we introduce a bilevel stochastic gradient method for bilevel problems with nonlinear and possibly nonconvex lower-level constraints. We also present a comprehensive convergence theory that addresses both the lower-level unconstrained and constrained cases and covers all inexact calculations of the adjoint gradient (also called hypergradient), such as the inexact solution of the lower-level problem, inexact computation of the adjoint formula (due to the inexact solution of the adjoint equation or use of a truncated Neumann series), and noisy estimates of the gradients, Hessians, and Jacobians involved. To promote the use of bilevel optimization in large-scale learning, we have developed new low-rank practical bilevel stochastic gradient methods (BSG-N-FD and~BSG-1) that do not require second-order derivatives and, in the lower-level unconstrained case, dismiss any matrix-vector products.
翻訳日:2023-11-08 20:18:41 公開日:2023-11-06
# UCBに基づくトップ2アルゴリズムの非漸近解析

Non-Asymptotic Analysis of a UCB-based Top Two Algorithm ( http://arxiv.org/abs/2210.05431v3 )

ライセンス: Link先を確認
Marc Jourdan, R\'emy Degenne(参考訳) バンディット識別のためのトップ2サンプリングルールは、2つの候補アーム、リーダー、挑戦者の中から次のアームを選択する方法である。 その単純さと優れた経験的パフォーマンスにより、近年は注目を集めている。 しかし、固定信頼最善腕識別では、最上位2つの方法に対する理論的保証は、誤差レベルが失われるときのみ漸近的に得られる。 そこで本論文では,誤りレベルを考慮に入れたトップ2アルゴリズムのサンプル複雑性について,最初の非漸近上限を導出する。 本分析では,後悔最小化アルゴリズムをリーダとして使用するのに十分な特性を強調する。 これらの特性は UCB アルゴリズムによって満足され,提案した UCB ベースの Top Two アルゴリズムは非漸近的保証と競合的経験的性能を同時に享受する。

A Top Two sampling rule for bandit identification is a method which selects the next arm to sample from among two candidate arms, a leader and a challenger. Due to their simplicity and good empirical performance, they have received increased attention in recent years. However, for fixed-confidence best arm identification, theoretical guarantees for Top Two methods have only been obtained in the asymptotic regime, when the error level vanishes. In this paper, we derive the first non-asymptotic upper bound on the expected sample complexity of a Top Two algorithm, which holds for any error level. Our analysis highlights sufficient properties for a regret minimization algorithm to be used as leader. These properties are satisfied by the UCB algorithm, and our proposed UCB-based Top Two algorithm simultaneously enjoys non-asymptotic guarantees and competitive empirical performance.
翻訳日:2023-11-08 20:10:07 公開日:2023-11-06
# NLP技術を用いた非公式ドキュメンテーションに基づくAPIのコード要約に向けて

Towards Code Summarization of APIs Based on Unofficial Documentation Using NLP Techniques ( http://arxiv.org/abs/2208.06318v3 )

ライセンス: Link先を確認
AmirHossein Naghshzan(参考訳) 各プログラミング言語には、API、メソッド、クラスで開発者をガイドする公式ドキュメントが付属している。 しかし、いくつかのケースでは、公式ドキュメントは必要な情報を得るための効率的な方法ではない。 結果として、開発者は他のソース(Stack OverflowやGitHubなど)を参照して、API、実装、使用方法、公式ドキュメントが提供できない可能性のある他の情報などを学ぶことができる。 本研究では,NLP技術を用いた非公式なドキュメンテーションを利用して,APIやメソッドの要約を生成する手法を提案する。 この結果から, 生成した要約は競争力があり, ソフトウェア開発やメンテナンスタスクにおいて, 開発者を導くための補完的情報源として利用できることがわかった。

Each programming language comes with official documentation to guide developers with APIs, methods, and classes. However, in some cases, official documentation is not an efficient way to get the needed information. As a result, developers may consult other sources (e.g., Stack Overflow, GitHub) to learn more about an API, its implementation, usage, and other information that official documentation may not provide. In this research, we propose an automatic approach to generate summaries for APIs and methods by leveraging unofficial documentation using NLP techniques. Our findings demonstrate that the generated summaries are competitive, and can be used as a complementary source for guiding developers in software development and maintenance tasks.
翻訳日:2023-11-08 20:08:53 公開日:2023-11-06
# 分解:ニューラルネットワークの構造的構成性の証拠

Break It Down: Evidence for Structural Compositionality in Neural Networks ( http://arxiv.org/abs/2301.10884v2 )

ライセンス: Link先を確認
Michael A. Lepori, Thomas Serre, Ellie Pavlick(参考訳) 現代のニューラルネットワークは、視覚と言語の両方のタスクで素晴らしいパフォーマンスを実現していますが、それらを実装する機能についてはほとんど知りません。 1つの可能性として、ニューラルネットワークが暗黙的に複雑なタスクをサブルーチンに分解し、これらのサブルーチンに対するモジュラーなソリューションを実装し、タスクに対する全体的なソリューションに構成する。 もう1つの可能性は、単に新しい入力を学習したテンプレートにマッチさせることを学習し、タスクの分解を完全に免れることである。 ここでは,様々なアーキテクチャ,タスク,事前学習体制において,視覚と言語の両方でこの問題を調査するために,モデルプルーニング手法を活用する。 以上の結果から,モジュールサブネットワークによるサブルーチンのソリューションの実装は,他のサブネットワークの機能を維持しながら実現可能であることが示唆された。 これは、ニューラルネットワークが構成性を学ぶことができ、特別なシンボリックメカニズムの必要性を回避できることを示唆している。

Though modern neural networks have achieved impressive performance in both vision and language tasks, we know little about the functions that they implement. One possibility is that neural networks implicitly break down complex tasks into subroutines, implement modular solutions to these subroutines, and compose them into an overall solution to a task - a property we term structural compositionality. Another possibility is that they may simply learn to match new inputs to learned templates, eliding task decomposition entirely. Here, we leverage model pruning techniques to investigate this question in both vision and language across a variety of architectures, tasks, and pretraining regimens. Our results demonstrate that models often implement solutions to subroutines via modular subnetworks, which can be ablated while maintaining the functionality of other subnetworks. This suggests that neural networks may be able to learn compositionality, obviating the need for specialized symbolic mechanisms.
翻訳日:2023-11-08 19:55:53 公開日:2023-11-06
# 屋内Wi-Fiを用いたデバイス不要な壁面位置検出のための注意深度学習

Attention-Enhanced Deep Learning for Device-Free Through-the-Wall Presence Detection Using Indoor WiFi System ( http://arxiv.org/abs/2304.13105v2 )

ライセンス: Link先を確認
Li-Hsiang Shen, Kuan-I Lu, An-Hung Hsiao and Kai-Ten Feng(参考訳) 屋内環境における人的存在の正確な検出は,エネルギー管理やセキュリティなど,様々な用途において重要である。 本稿では,WiFi信号のチャネル状態情報(CSI)を用いた人間の存在検知システムを提案する。 本システムでは,CSIデータから情報サブキャリアを自動選択するためのアテンション・エンハンスド・ディープ・ラーニング(ALPD)と,CSIにおける時間的依存を捉えるための双方向長短期記憶(LSTM)ネットワークを利用する。 さらに、静的な状態における人間の存在検出の精度を向上させるために静的な特徴を利用する。 提案するALPDシステムは,CSIデータセットを収集するための一対のWiFiアクセスポイント(AP)をデプロイすることで評価し,さらにいくつかのベンチマークと比較した。 その結果,alpdシステムは,特に干渉の有無において,精度の点でベンチマークを上回っていることがわかった。 さらに、双方向送信データは、安定性と精度の向上、およびトレーニング用データ収集のコスト削減の訓練に有用である。 提案するALPDシステムは,WiFi CSI信号を用いた人的存在検出において有望な結果を示す。

Accurate detection of human presence in indoor environments is important for various applications, such as energy management and security. In this paper, we propose a novel system for human presence detection using the channel state information (CSI) of WiFi signals. Our system named attention-enhanced deep learning for presence detection (ALPD) employs an attention mechanism to automatically select informative subcarriers from the CSI data and a bidirectional long short-term memory (LSTM) network to capture temporal dependencies in CSI. Additionally, we utilize a static feature to improve the accuracy of human presence detection in static states. We evaluate the proposed ALPD system by deploying a pair of WiFi access points (APs) for collecting CSI dataset, which is further compared with several benchmarks. The results demonstrate that our ALPD system outperforms the benchmarks in terms of accuracy, especially in the presence of interference. Moreover, bidirectional transmission data is beneficial to training improving stability and accuracy, as well as reducing the costs of data collection for training. Overall, our proposed ALPD system shows promising results for human presence detection using WiFi CSI signals.
翻訳日:2023-11-08 19:44:52 公開日:2023-11-06
# 物体認識・検出のための視覚言語モデルにおける属性コンテキストの役割の検討

Investigating the Role of Attribute Context in Vision-Language Models for Object Recognition and Detection ( http://arxiv.org/abs/2303.10093v2 )

ライセンス: Link先を確認
Kyle Buettner, Adriana Kovashka(参考訳) 画像キャプチャペアから学習した視覚言語アライメントは、オブジェクト認識や検出といったタスクに役立つことが示されている。 メソッドは主に、オブジェクトクラス名がどの程度うまく学習されているかという観点で評価されるが、キャプションには、オブジェクトアライメントを学ぶ際に考慮すべきリッチな属性コンテキストも含まれている。 学習におけるこのコンテキストの使い方や、タスクが属性やオブジェクト理解を必要とする場合にモデルが成功するかどうかは不明だ。 このギャップに対処するために,視覚言語モデルにおける属性の役割を広範囲に分析する。 具体的には,属性コンテキストの存在と意味に対するモデルの感度を測定し,教師なし句の接地と記述手法による分類による対象埋め込みへの影響を計測する。 さらに,オープンボキャブラリーオブジェクト検出,きめ細かいテキスト領域検索,帰属タスクの訓練における属性コンテキストの有用性について検討した。 その結果, 属性コンテキストは, 検出のためのアライメントを学習する際には無駄になり, 属性の意味は埋め込みにおいて適切に考慮されず, 属性のみによるクラス記述は有効ではないことがわかった。 属性の利点を高めるための有効な戦略は、形容詞に基づく否定的なキャプションによる対照的な訓練である。

Vision-language alignment learned from image-caption pairs has been shown to benefit tasks like object recognition and detection. Methods are mostly evaluated in terms of how well object class names are learned, but captions also contain rich attribute context that should be considered when learning object alignment. It is unclear how methods use this context in learning, as well as whether models succeed when tasks require attribute and object understanding. To address this gap, we conduct extensive analysis of the role of attributes in vision-language models. We specifically measure model sensitivity to the presence and meaning of attribute context, gauging influence on object embeddings through unsupervised phrase grounding and classification via description methods. We further evaluate the utility of attribute context in training for open-vocabulary object detection, fine-grained text-region retrieval, and attribution tasks. Our results show that attribute context can be wasted when learning alignment for detection, attribute meaning is not adequately considered in embeddings, and describing classes by only their attributes is ineffective. A viable strategy that we find to increase benefits from attributes is contrastive training with adjective-based negative captions.
翻訳日:2023-11-08 19:42:10 公開日:2023-11-06
# 説明可能な脳年齢予測のためのプロトタイプ学習

Prototype Learning for Explainable Brain Age Prediction ( http://arxiv.org/abs/2306.09858v2 )

ライセンス: Link先を確認
Linde S. Hesse, Nicola K. Dinsdale, Ana I. L. Namburete(参考訳) 深層学習モデルの説明可能性の欠如は、臨床実践におけるそのようなモデルの採用を制限する。 プロトタイプベースのモデルは、本質的に説明可能な予測を提供することができるが、これらは主に分類タスクのために設計されている。 そこで本研究では,回帰タスクに特化したプロトタイプベースモデルであるExPeRTを提案する。 提案モデルでは,プロトタイプラベルの重み付き平均値を用いて,学習したプロトタイプのラテント空間における距離からサンプル予測を行う。 潜在空間における距離はラベルの違いに相対して正規化され、各プロトタイプはトレーニングセットからサンプルとして可視化することができる。 画像レベルの距離はパッチレベルの距離からさらに構築され、両者のパッチは最適なトランスポートを用いて構造的に一致する。 これにより、推論時にパッチレベルの詳細を持つサンプルベースの説明が提供される。 成人MRIと胎児超音波の2つの画像データセットを用いて脳年齢予測モデルを提案する。 提案手法は,モデル推論プロセスに関する知見を提供しながら,最先端の予測性能を達成した。

The lack of explainability of deep learning models limits the adoption of such models in clinical practice. Prototype-based models can provide inherent explainable predictions, but these have predominantly been designed for classification tasks, despite many important tasks in medical imaging being continuous regression problems. Therefore, in this work, we present ExPeRT: an explainable prototype-based model specifically designed for regression tasks. Our proposed model makes a sample prediction from the distances to a set of learned prototypes in latent space, using a weighted mean of prototype labels. The distances in latent space are regularized to be relative to label differences, and each of the prototypes can be visualized as a sample from the training set. The image-level distances are further constructed from patch-level distances, in which the patches of both images are structurally matched using optimal transport. This thus provides an example-based explanation with patch-level detail at inference time. We demonstrate our proposed model for brain age prediction on two imaging datasets: adult MR and fetal ultrasound. Our approach achieved state-of-the-art prediction performance while providing insight into the model's reasoning process.
翻訳日:2023-11-08 19:33:48 公開日:2023-11-06
# トランスフォーマーの誕生:メモリビューポイント

Birth of a Transformer: A Memory Viewpoint ( http://arxiv.org/abs/2306.00802v2 )

ライセンス: Link先を確認
Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon Bottou(参考訳) トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。 しかし、より広くデプロイされるため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要性が高まっている。 これらのモデルはトレーニングデータから大量の知識を蓄積し、彼らのコンテキストやプロンプトで提供される新しい情報に迅速に適応するように見える。 本研究では,グローバルあるいはコンテキスト固有なビッグラム分布からトークンが生成される合成設定を考慮し,これらの2種類の知識のバランスについて検討する。 簡易な2層変圧器の訓練過程を慎重に解析することにより,大域的ビッグラムの高速学習と,テキスト内ビッグラムの「インダクションヘッド」機構の開発が遅いことを示す。 重み行列の役割を連想記憶として強調し、学習中に勾配が学習を可能にするかの理論的な洞察を与え、データ分散特性の役割を研究する。

Large language models based on transformers have achieved great empirical successes. However, as they are deployed more widely, there is a growing need to better understand their internal mechanisms in order to make them more reliable. These models appear to store vast amounts of knowledge from their training data, and to adapt quickly to new information provided in their context or prompt. We study how transformers balance these two types of knowledge by considering a synthetic setup where tokens are generated from either global or context-specific bigram distributions. By a careful empirical analysis of the training process on a simplified two-layer transformer, we illustrate the fast learning of global bigrams and the slower development of an "induction head" mechanism for the in-context bigrams. We highlight the role of weight matrices as associative memories, provide theoretical insights on how gradients enable their learning during training, and study the role of data-distributional properties.
翻訳日:2023-11-08 19:31:58 公開日:2023-11-06
# 変圧器の長大化に及ぼす位置符号化の影響

The Impact of Positional Encoding on Length Generalization in Transformers ( http://arxiv.org/abs/2305.19466v2 )

ライセンス: Link先を確認
Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy(参考訳) 長さ一般化(long generalization)は、小さなトレーニングコンテキストからより大きなものに一般化する能力であり、トランスフォーマーベースの言語モデルの開発において重要な課題である。 位置符号化(PE)は長さ一般化に影響を及ぼす主要な要因とされているが、下流タスクにおける外挿に対する異なるPEスキームの正確な影響は明らかでない。 本稿では, 絶対位置埋め込み (APE) , T5 の相対 PE, ALiBi, Rotary を含む5つの異なる位置符号化アプローチを用いたデコーダのみの変換器の長さ一般化性能の比較実験を行い, 位置符号化 (NoPE) のない変換器について検討した。 我々の評価は、推論と数学的タスクのバッテリーを含む。 その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。 さらに重要なことは、NoPEは他の明示的な位置符号化手法よりも優れており、追加の計算は不要である。 理論的には、NPEは絶対的かつ相対的なPEの両方を表現できるが、SGDで訓練すると、T5の相対的なPE注意パターンにほとんど似ている。 最後に、スクラッチパッドは必ずしも長さの一般化を解くのに役立ちませんし、そのフォーマットがモデルの性能に大きな影響を与えます。 全体としては,デコーダのみのトランスフォーマーがより長いシーケンスをうまく一般化するためには,明示的な位置埋め込みが不可欠ではないことを示唆している。

Length generalization, the ability to generalize from small training context sizes to larger ones, is a critical challenge in the development of Transformer-based language models. Positional encoding (PE) has been identified as a major factor influencing length generalization, but the exact impact of different PE schemes on extrapolation in downstream tasks remains unclear. In this paper, we conduct a systematic empirical study comparing the length generalization performance of decoder-only Transformers with five different position encoding approaches including Absolute Position Embedding (APE), T5's Relative PE, ALiBi, and Rotary, in addition to Transformers without positional encoding (NoPE). Our evaluation encompasses a battery of reasoning and mathematical tasks. Our findings reveal that the most commonly used positional encoding methods, such as ALiBi, Rotary, and APE, are not well suited for length generalization in downstream tasks. More importantly, NoPE outperforms other explicit positional encoding methods while requiring no additional computation. We theoretically demonstrate that NoPE can represent both absolute and relative PEs, but when trained with SGD, it mostly resembles T5's relative PE attention patterns. Finally, we find that scratchpad is not always helpful to solve length generalization and its format highly impacts the model's performance. Overall, our work suggests that explicit position embeddings are not essential for decoder-only Transformers to generalize well to longer sequences.
翻訳日:2023-11-08 19:31:42 公開日:2023-11-06
# 長距離依存のオンライン学習

Online learning of long-range dependencies ( http://arxiv.org/abs/2305.15947v2 )

ライセンス: Link先を確認
Nicolas Zucchet, Robert Meier, Simon Schug, Asier Mujika, Jo\~ao Sacramento(参考訳) オンライン学習は、リカレントニューラルネットワークにおける効率的な長期クレジット割り当てを可能にするという約束を持っている。 しかしながら、現在のアルゴリズムは、スケーラブルでないか、長距離依存関係を学習できないかによって、オフラインのバックプロパゲーションに欠けています。 本稿では、1つの推論パスのメモリと計算要求を2倍にするだけでよい高性能オンライン学習アルゴリズムを提案する。 我々は、最近、特に強力なアーキテクチャモチーフであるマルチレイヤネットワークにおいて、独立したリカレントモジュールを活用することで、これを実現する。 合成メモリ問題の実験と、挑戦的な長距離アリーナベンチマークスイートでは、我々のアルゴリズムが競争力を発揮し、オンライン学習によって達成できる新しい標準を確立する。 この長距離依存を学習する能力は、脳内の学習に対する新たな視点を与え、ニューロモルフィックコンピューティングにおける有望な道を開く。

Online learning holds the promise of enabling efficient long-term credit assignment in recurrent neural networks. However, current algorithms fall short of offline backpropagation by either not being scalable or failing to learn long-range dependencies. Here we present a high-performance online learning algorithm that merely doubles the memory and computational requirements of a single inference pass. We achieve this by leveraging independent recurrent modules in multi-layer networks, an architectural motif that has recently been shown to be particularly powerful. Experiments on synthetic memory problems and on the challenging long-range arena benchmark suite reveal that our algorithm performs competitively, establishing a new standard for what can be achieved through online learning. This ability to learn long-range dependencies offers a new perspective on learning in the brain and opens a promising avenue in neuromorphic computing.
翻訳日:2023-11-08 19:30:16 公開日:2023-11-06
# インコンテキスト学習のためのカバレッジに基づくサンプル選択

Coverage-based Example Selection for In-Context Learning ( http://arxiv.org/abs/2305.14907v3 )

ライセンス: Link先を確認
Shivanshu Gupta, Matt Gardner, Sameer Singh(参考訳) インコンテキスト学習(icl:in-context learning)は、プロンプトをいくつかのタスク例で条件付けすることで、新しいタスクを実行するための大きな言語モデルの能力である。 最も類似した例を独立にランク付けして選択する標準的なアプローチは、重要な情報を省略しながら冗長な例を選択する。 本研究では、BERTScore-Recall(BSR)が、テスト入力の推論パターンなど、より健全な側面を示すより良い例を選択していることを示す。 さらに、bsrと多くの標準メトリクスを拡張して、簡単に最適化可能なセットレベルのメトリクスを作りました。 6つのタスクにまたがる15のデータセットと7つのLLMにまたがって、(1)BSRは、ボード全体のコンテキスト内サンプル選択において優れた指標であり、(2)構成的タスクでは、Set-BSRを用いた選択は、平均17ポイントまで、そしてトレーニング不要であるにもかかわらず、タスクやLLM固有のトレーニングを利用するメソッドを超越していることを示す。

In-context learning (ICL), the ability of large language models to perform novel tasks by conditioning on a prompt with a few task examples, requires these examples to be informative about the test instance. The standard approach of independently ranking and selecting the most similar examples selects redundant examples while omitting important information. In this work, we show that BERTScore-Recall (BSR) selects better examples that demonstrate more of the salient aspects, e.g. reasoning patterns, of the test input. We further extend BSR and many standard metrics to easily optimizable set-level metrics, giving still better coverage of those salient aspects. On 15 datasets spanning 6 tasks and with 7 diverse LLMs, we show that (1) BSR is the superior metric for in-context example selection across the board, and (2) for compositional tasks, set selection using Set-BSR outperforms independent ranking by up to 17 points on average and, despite being training-free, surpasses methods that leverage task or LLM-specific training.
翻訳日:2023-11-08 19:30:00 公開日:2023-11-06
# congfu: 薬物相乗効果予測のための条件グラフ融合

CongFu: Conditional Graph Fusion for Drug Synergy Prediction ( http://arxiv.org/abs/2305.14517v2 )

ライセンス: Link先を確認
Oleksii Tsepa, Bohdan Naida, Anna Goldenberg, Bo Wang(参考訳) 薬物シナジーは、複数の薬物の増幅された併用効果によって特徴づけられ、治療結果の最適化に極めて重要である。 薬物のシナジーに関する限られたデータは、大量の薬物の組み合わせとテストコストから生まれ、予測方法の必要性を動機付けている。 本稿では,薬物相乗効果を予測するための新しい条件付きグラフ融合層congfuについて紹介する。 CongFuは、グローバルコンテキスト内の局所グラフコンテキストと条件付きグラフデータを抽出するために、アテンションメカニズムとボトルネックを使用する。 モジュールアーキテクチャは、読み出しやグラフエンコーダを含むレイヤモジュールの柔軟な置き換えを可能にし、多様なアプリケーションのカスタマイズを容易にする。 CongFuの性能を評価するために、薬物相乗効果予測のための3つの異なる設定を含む4つのデータセットの総合的な実験を行った。 CongFuは12のベンチマークデータセットのうち11の最先端の結果を達成し、薬物シナジーの複雑なパターンをキャプチャする能力を示している。 アブレーション研究を通じて,個々の層成分の意義を検証し,全体的な予測性能への寄与を肯定する。 最後に,遺伝子に対する薬物の影響を解明するための説明可能性戦略を提案する。 テストされていない薬物ペアにおける薬物相乗効果の予測と,提案した説明可能性アプローチを活用することで,医薬品の組み合わせの最適化とパーソナライズドメディカル化に向けた新たな道を開く。

Drug synergy, characterized by the amplified combined effect of multiple drugs, is critically important for optimizing therapeutic outcomes. Limited data on drug synergy, arising from the vast number of possible drug combinations and testing costs, motivate the need for predictive methods. In this work, we introduce CongFu, a novel Conditional Graph Fusion Layer, designed to predict drug synergy. CongFu employs an attention mechanism and a bottleneck to extract local graph contexts and conditionally fuse graph data within a global context. Its modular architecture enables flexible replacement of layer modules, including readouts and graph encoders, facilitating customization for diverse applications. To evaluate the performance of CongFu, we conduct comprehensive experiments on four datasets, encompassing three distinct setups for drug synergy prediction. CongFu achieves state-of-the-art results on 11 out of 12 benchmark datasets, demonstrating its ability to capture intricate patterns of drug synergy. Through ablation studies, we validate the significance of individual layer components, affirming their contributions to overall predictive performance. Finally, we propose an explainability strategy for elucidating the effect of drugs on genes. By addressing the challenge of predicting drug synergy in untested drug pairs and utilizing our proposed explainability approach, CongFu opens new avenues for optimizing drug combinations and advancing personalized medicine.
翻訳日:2023-11-08 19:29:37 公開日:2023-11-06
# fairo: ループ内人間システムのためのシーケンシャル・デシジョン・メイキングにおけるフェアネス・アウェア適応

FAIRO: Fairness-aware Adaptation in Sequential-Decision Making for Human-in-the-Loop Systems ( http://arxiv.org/abs/2307.05857v2 )

ライセンス: Link先を確認
Tianyu Zhao, Mojtaba Taherisadr, Salma Elmalaki(参考訳) HITL(Human-in-the-Loop)環境における逐次決定システムにおける公平性の達成は、特に、異なる行動と期待を持つ複数の人間が、システム内の同じ適応決定によって影響を受ける場合において重要な関心事である。 この人的変動係数は、ある時点で公正であると考えられる政策が、人間間および人的変動から生じる人間の嗜好の変化により、時間とともに差別的になる可能性があるため、複雑さを増す。 本稿では,人間の行動の変動や時間経過に伴う人の嗜好の変化を考慮し,エクイティレンズからの公平性問題に対処する。 本稿では,これらの概念を意思決定プロセスに取り入れた,htl適応における公平性を考慮したシーケンシャル決定アルゴリズムfairoを提案する。 特にfairoは、options reinforcement learningフレームワークを利用して、この複雑なフェアネスタスクを個々の人間の好みに基づいた適応型サブタスクに分解する。 我々は、共有適応決定問題を持つ3種類のHITLアプリケーション設定に一般化するためにFAIROを設計する。 さらに、公正なポリシーがアプリケーションのユーティリティと矛盾することがあることも認識しています。 この課題に対処するため、我々はFAIROでフェアネスユーティリティトレードオフを提供し、システム設計者は特定のアプリケーション要件に基づいてフェアネスとユーティリティの目標をバランスさせることができる。 3つのHITLアプリケーションに対するFAIROの広範囲な評価は、その一般化性と、人間の多様性を考慮しつつ公正性を促進する効果を示す。 平均すると、FAIROは3つのアプリケーション全体にわたる他の方法と比較して35.36%改善できる。

Achieving fairness in sequential-decision making systems within Human-in-the-Loop (HITL) environments is a critical concern, especially when multiple humans with different behavior and expectations are affected by the same adaptation decisions in the system. This human variability factor adds more complexity since policies deemed fair at one point in time may become discriminatory over time due to variations in human preferences resulting from inter- and intra-human variability. This paper addresses the fairness problem from an equity lens, considering human behavior variability, and the changes in human preferences over time. We propose FAIRO, a novel algorithm for fairness-aware sequential-decision making in HITL adaptation, which incorporates these notions into the decision-making process. In particular, FAIRO decomposes this complex fairness task into adaptive sub-tasks based on individual human preferences through leveraging the Options reinforcement learning framework. We design FAIRO to generalize to three types of HITL application setups that have the shared adaptation decision problem. Furthermore, we recognize that fairness-aware policies can sometimes conflict with the application's utility. To address this challenge, we provide a fairness-utility tradeoff in FAIRO, allowing system designers to balance the objectives of fairness and utility based on specific application requirements. Extensive evaluations of FAIRO on the three HITL applications demonstrate its generalizability and effectiveness in promoting fairness while accounting for human variability. On average, FAIRO can improve fairness compared with other methods across all three applications by 35.36%.
翻訳日:2023-11-08 19:19:07 公開日:2023-11-06
# ProtoDiff: タスクガイド拡散によるプロトタイプネットワークの学習

ProtoDiff: Learning to Learn Prototypical Networks by Task-Guided Diffusion ( http://arxiv.org/abs/2306.14770v2 )

ライセンス: Link先を確認
Yingjun Du, Zehao Xiao, Shengcai Liao, Cees Snoek(参考訳) プロトタイプベースのメタラーニングは、数少ない学習課題に対処する強力なテクニックとして登場した。 しかし、限られた例から単純な平均関数を用いて決定論的プロトタイプを推定することは脆弱なプロセスである。 この制限を克服するために,メタトレーニングフェーズ中にタスク誘導拡散モデルを活用する新しいフレームワークであるProtoDiffを導入し,プロトタイプを段階的に生成し,効率的なクラス表現を提供する。 具体的には、タスク毎のプロトタイプのオーバーフィットを達成するために一連のプロトタイプが最適化され、個々のタスクにオーバーフィットしたプロトタイプを正確に得ることができる。 さらに,プロトタイプ空間内にタスク誘導拡散プロセスを導入することで,バニラプロトタイプから過剰に適合したプロトタイプへ遷移する生成過程のメタラーニングを可能にする。 ProtoDiffは、メタテスト段階でランダムノイズからタスク固有のプロトタイプを徐々に生成し、新しいタスクで利用可能な限られたサンプルに条件付けする。 さらに,訓練の迅速化とProtoDiffの性能向上を図るため,残余プロトタイプの空間性を活用した残余プロトタイプ学習を提案する。 我々は,基礎となるプロトタイプ分布を正確に把握し,一般化を促進する能力を示すため,徹底的なアブレーション研究を行う。 ドメイン内、クロスドメイン、および少数タスクの少数ショット分類における新しい最先端のパフォーマンスは、ProtoDiffのメリットをさらに裏付けるものだ。

Prototype-based meta-learning has emerged as a powerful technique for addressing few-shot learning challenges. However, estimating a deterministic prototype using a simple average function from a limited number of examples remains a fragile process. To overcome this limitation, we introduce ProtoDiff, a novel framework that leverages a task-guided diffusion model during the meta-training phase to gradually generate prototypes, thereby providing efficient class representations. Specifically, a set of prototypes is optimized to achieve per-task prototype overfitting, enabling accurately obtaining the overfitted prototypes for individual tasks. Furthermore, we introduce a task-guided diffusion process within the prototype space, enabling the meta-learning of a generative process that transitions from a vanilla prototype to an overfitted prototype. ProtoDiff gradually generates task-specific prototypes from random noise during the meta-test stage, conditioned on the limited samples available for the new task. Furthermore, to expedite training and enhance ProtoDiff's performance, we propose the utilization of residual prototype learning, which leverages the sparsity of the residual prototype. We conduct thorough ablation studies to demonstrate its ability to accurately capture the underlying prototype distribution and enhance generalization. The new state-of-the-art performance on within-domain, cross-domain, and few-task few-shot classification further substantiates the benefit of ProtoDiff.
翻訳日:2023-11-08 19:18:01 公開日:2023-11-06
# 因果フレームワークの比較: 潜在的な結果、構造モデル、グラフ、抽象化

Comparing Causal Frameworks: Potential Outcomes, Structural Models, Graphs, and Abstractions ( http://arxiv.org/abs/2306.14351v2 )

ライセンス: Link先を確認
Duligur Ibeling, Thomas Icard(参考訳) 本稿では,ルービン因果モデル (RCM) と構造因果モデル (SCM) の因果推論における関係を明確かつ正確にすることを目的とする。 中立的な論理的視点を採用し、それ以前の作業に基づいて、RCMがSCMで表現できることに必要なものを示す。 主要な結果は、SCMフレームワークによって暗示される代数的原則に違反しているものを含む全てのRCMが、表現可能なRCMの抽象化として現れることを示している。 最後に,RCM の古典的応用において,SCM の原理に重要な役割を果たすことによって,この和解的視点の力を説明する。

The aim of this paper is to make clear and precise the relationship between the Rubin causal model (RCM) and structural causal model (SCM) frameworks for causal inference. Adopting a neutral logical perspective, and drawing on previous work, we show what is required for an RCM to be representable by an SCM. A key result then shows that every RCM -- including those that violate algebraic principles implied by the SCM framework -- emerges as an abstraction of some representable RCM. Finally, we illustrate the power of this conciliatory perspective by pinpointing an important role for SCM principles in classic applications of RCMs; conversely, we offer a characterization of the algebraic constraints implied by a graph, helping to substantiate further comparisons between the two frameworks.
翻訳日:2023-11-08 19:17:38 公開日:2023-11-06
# sparsityのルーフライン:スパースニューラルネットワークのハードウェア限界を理解する

The Sparsity Roofline: Understanding the Hardware Limits of Sparse Neural Networks ( http://arxiv.org/abs/2310.00496v2 )

ライセンス: Link先を確認
Cameron Shinn, Collin McCarthy, Saurav Muralidharan, Muhammad Osama, John D. Owens(参考訳) 本稿では,ニューラルネットワークの空間性を評価する視覚的パフォーマンスモデルであるSparsity Rooflineを紹介する。 Sparsity Rooflineは、ネットワークの正確性、疎性、理論推論の高速化を共同でモデル化する。 提案手法では最適化されたカーネルの実装やベンチマークは必要とせず,高密度でスパースなカーネルが適切に最適化された場合,理論的な高速化は実際のスピードアップに等しい。 本手法は,スパースネットワーク性能を推定する新たな解析モデルを用いて実現し,複数の実世界のコンピュータビジョンアーキテクチャを用いた予測高速化の検証を行う。 我々は,1) 機械学習研究者が,実装されていない,あるいは最適化されていないブロック構造化された疎結合パターンの性能をいかに予測できるか,(2) ハードウェアデザイナがハードウェアにおける新しい疎結合パターンや疎結合データフォーマットのパフォーマンスに与える影響を予測できるかを示す。 どちらのシナリオにおいても、sparsityのルーフラインはパフォーマンスの専門家がsparsityのレジームを最も高いパフォーマンスの可能性で識別するのに役立つ。

We introduce the Sparsity Roofline, a visual performance model for evaluating sparsity in neural networks. The Sparsity Roofline jointly models network accuracy, sparsity, and theoretical inference speedup. Our approach does not require implementing and benchmarking optimized kernels, and the theoretical speedup becomes equal to the actual speedup when the corresponding dense and sparse kernels are well-optimized. We achieve this through a novel analytical model for predicting sparse network performance, and validate the predicted speedup using several real-world computer vision architectures pruned across a range of sparsity patterns and degrees. We demonstrate the utility and ease-of-use of our model through two case studies: (1) we show how machine learning researchers can predict the performance of unimplemented or unoptimized block-structured sparsity patterns, and (2) we show how hardware designers can predict the performance implications of new sparsity patterns and sparse data formats in hardware. In both scenarios, the Sparsity Roofline helps performance experts identify sparsity regimes with the highest performance potential.
翻訳日:2023-11-08 19:07:38 公開日:2023-11-06
# 資源拘束型X線脅威検出のためのTiny YOLOの検討

A Study on Tiny YOLO for Resource Constrained Xray Threat Detection ( http://arxiv.org/abs/2309.15601v2 )

ライセンス: Link先を確認
Raghav Ambati, Ayon Borthakur(参考訳) 本稿では,X線脅威検出などのエッジデバイスアプリケーションへの適合性を念頭に,複数のネットワークを実装し,解析する。 本研究では,最先端のyoloオブジェクト検出モデルを用いて,セキュリティバッグスクリーニング画像における脅威検出の課題を解決する。 我々は、Tiny YOLO、QCFS Tiny YOLO、SNN Tiny YOLOの3つのモデルの設計と研究を行った。 小型のyolov7モデルにおいて、スパイク活性化関数の活性化とともに、ゼロの変換誤差を計算した代替活性化関数を利用する。 この Tiny YOLO の \textit{QCFS} バージョンは、超低レイテンシと高効率 SNN アーキテクチャからアクティベーション機能を複製する。 CLCXrayはオープンソースのX線脅威検出データセットである。 さらに,同じx線脅威検出データセット上で,小さなヨーロを吐き出す挙動についても検討した。

This paper implements and analyzes multiple networks with the goal of understanding their suitability for edge device applications such as X-ray threat detection. In this study, we use the state-of-the-art YOLO object detection model to solve this task of detecting threats in security baggage screening images. We designed and studied three models - Tiny YOLO, QCFS Tiny YOLO, and SNN Tiny YOLO. We utilize an alternative activation function calculated to have zero expected conversion error with the activation of a spiking activation function in our Tiny YOLOv7 model. This \textit{QCFS} version of the Tiny YOLO replicates the activation function from ultra-low latency and high-efficiency SNN architecture. It achieves state-of-the-art performance on CLCXray, an open-source X-ray threat Detection dataset. In addition, we also study the behavior of a Spiking Tiny YOLO on the same X-ray threat Detection dataset.
翻訳日:2023-11-08 19:07:18 公開日:2023-11-06
# ニューラルネットワークの最大の違い - Radon-Kolmogorov-Smirnovテスト

Maximum Mean Discrepancy Meets Neural Networks: The Radon-Kolmogorov-Smirnov Test ( http://arxiv.org/abs/2309.02422v3 )

ライセンス: Link先を確認
Seunghoon Paik, Michael Celentano, Alden Green, Ryan J. Tibshirani(参考訳) 最大平均差分法(英: Maximum mean discrepancy, MMD)とは、ある関数空間に生きるデータ変換のすべての選択に対して$P$と他の$Q$との平均差を最大化することに基づく、非パラメトリックな2サンプルテストの一般的なクラスを指す。 我々は,$\textit{radon bounded variation}$ (rbv) とニューラルネットワーク (parhi and nowak, 2021, 2023) の関数をつなぐ最近の研究に触発されて,与えられた滑らかな順序 $k \geq 0$ の rbv 空間における単位球として $\mathcal{f}$ を取ることで定義される mmd について検討した。 このテストは$\textit{radon-kolmogorov-smirnov}$ (rks) テストと呼ばれ、よく知られた古典的なkolmogorov-smirnov (ks) テストの多次元および高次な滑らかさへの一般化と見なすことができる。 RKSテストの目撃者 – 最大平均差を達成する関数$f$ – は常に、ニューラルネットワーク内の1つのニューロンのリッジスプラインである、ということを証明します。 これにより、現代のディープラーニングツールキットのパワーを活用して、RKSテストの基盤となる基準を最適化できます。 我々は、RKSテストが任意の異なるペア$P \not=Q$の分布を区別し、その漸近的なヌル分布を導出し、RKSテストの強度と弱みを従来のカーネルMDテストと比較する広範な実験を行うことを証明した。

Maximum mean discrepancy (MMD) refers to a general class of nonparametric two-sample tests that are based on maximizing the mean difference over samples from one distribution $P$ versus another $Q$, over all choices of data transformations $f$ living in some function space $\mathcal{F}$. Inspired by recent work that connects what are known as functions of $\textit{Radon bounded variation}$ (RBV) and neural networks (Parhi and Nowak, 2021, 2023), we study the MMD defined by taking $\mathcal{F}$ to be the unit ball in the RBV space of a given smoothness order $k \geq 0$. This test, which we refer to as the $\textit{Radon-Kolmogorov-Smirnov}$ (RKS) test, can be viewed as a generalization of the well-known and classical Kolmogorov-Smirnov (KS) test to multiple dimensions and higher orders of smoothness. It is also intimately connected to neural networks: we prove that the witness in the RKS test -- the function $f$ achieving the maximum mean difference -- is always a ridge spline of degree $k$, i.e., a single neuron in a neural network. This allows us to leverage the power of modern deep learning toolkits to (approximately) optimize the criterion that underlies the RKS test. We prove that the RKS test has asymptotically full power at distinguishing any distinct pair $P \not= Q$ of distributions, derive its asymptotic null distribution, and carry out extensive experiments to elucidate the strengths and weakenesses of the RKS test versus the more traditional kernel MMD test.
翻訳日:2023-11-08 19:06:08 公開日:2023-11-06
# 人間のループ:協調的かつ説明可能なベイズ最適化

Looping in the Human: Collaborative and Explainable Bayesian Optimization ( http://arxiv.org/abs/2310.17273v3 )

ライセンス: Link先を確認
Masaki Adachi, Brady Planden, David A. Howey, Krikamol Muandet, Michael A. Osborne, Siu Lun Chau(参考訳) 多くのオプティマイザと同様に、ベイジアン最適化は不透明さのためにユーザの信頼を得られないことが多い。 人間中心のオプティマイザを開発する試みは行われているが、ユーザー知識はよく特定されエラーのないものであり、主に最適化プロセスのスーパーバイザーとして利用している。 我々はこれらの仮定を緩和し、コラボレーティブおよび説明可能なベイズ最適化(CoExBO)フレームワークとのよりバランスのとれた人間-AIパートナーシップを提案する。 ユーザが知識モデルを提供することを明示的に要求する代わりに、CoExBOは好み学習を使用して最適化に対する人間の洞察をシームレスに統合し、結果としてユーザの好みに共鳴するアルゴリズムの提案を行う。 coexboは、各イテレーションの候補選択を説明して信頼を育み、ユーザに最適化を明確に理解させる。 さらに、coexboはno-harmの保証を提供し、ユーザーが間違いを犯すことができる。極端な敵意介入であっても、アルゴリズムはバニラベイズ最適化に漸近的に収束する。 リチウムイオン電池設計における人間-aiチームによる実験により,coexboの有効性を検証する。

Like many optimizers, Bayesian optimization often falls short of gaining user trust due to opacity. While attempts have been made to develop human-centric optimizers, they typically assume user knowledge is well-specified and error-free, employing users mainly as supervisors of the optimization process. We relax these assumptions and propose a more balanced human-AI partnership with our Collaborative and Explainable Bayesian Optimization (CoExBO) framework. Instead of explicitly requiring a user to provide a knowledge model, CoExBO employs preference learning to seamlessly integrate human insights into the optimization, resulting in algorithmic suggestions that resonate with user preference. CoExBO explains its candidate selection every iteration to foster trust, empowering users with a clearer grasp of the optimization. Furthermore, CoExBO offers a no-harm guarantee, allowing users to make mistakes; even with extreme adversarial interventions, the algorithm converges asymptotically to a vanilla Bayesian optimization. We validate CoExBO's efficacy through human-AI teaming experiments in lithium-ion battery design, highlighting substantial improvements over conventional methods.
翻訳日:2023-11-08 18:55:13 公開日:2023-11-06
# 4D-Editor:セマンティック蒸留による動的神経放射場における対話型オブジェクトレベルの編集

4D-Editor: Interactive Object-level Editing in Dynamic Neural Radiance Fields via Semantic Distillation ( http://arxiv.org/abs/2310.16858v2 )

ライセンス: Link先を確認
Dadong Jiang, Zhihui Ke, Xiaobo Zhou, Xidong Shi(参考訳) 本稿では,動的シーンにおけるインタラクティブなオブジェクトレベルの編集(削除,再色,変換,構成など)を対象とする。 近年,neural radiance field (nerf) で表現された静的シーンを柔軟に編集する手法が提案されているが,時間変化の動的シーンの類似性は限られている。 この問題を解決するために,対話型セマンティック駆動編集フレームワークである4D-Editorを提案する。 我々は,編集後の空間的時間的一貫性を維持するために,ハイブリッドな意味的特徴蒸留を取り入れたオリジナルの動的NeRFの拡張を提案する。 さらに、動的NeRF内のオブジェクト分割精度を大幅に向上させ、編集プロセスを支援するRecursive Selection Refinementを設計する。 さらに,編集後の不完全なシーンキャプチャによる穴を埋めるために,マルチビューのリプロジェクション・インパインティングを開発した。 実世界における大規模な実験と編集例により、4D-Editorが動的NeRF上でのフォトリアリスティックな編集を実現することが示された。 プロジェクトページ:https://patrickddj.github.io/4D-Editor

This paper targets interactive object-level editing (e.g., deletion, recoloring, transformation, composition) in dynamic scenes. Recently, some methods aiming for flexible editing static scenes represented by neural radiance field (NeRF) have shown impressive synthesis quality, while similar capabilities in time-variant dynamic scenes remain limited. To solve this problem, we propose 4D-Editor, an interactive semantic-driven editing framework, allowing editing multiple objects in a dynamic NeRF with user strokes on a single frame. We propose an extension to the original dynamic NeRF by incorporating a hybrid semantic feature distillation to maintain spatial-temporal consistency after editing. In addition, we design Recursive Selection Refinement that significantly boosts object segmentation accuracy within a dynamic NeRF to aid the editing process. Moreover, we develop Multi-view Reprojection Inpainting to fill holes caused by incomplete scene capture after editing. Extensive experiments and editing examples on real-world demonstrate that 4D-Editor achieves photo-realistic editing on dynamic NeRFs. Project page: https://patrickddj.github.io/4D-Editor
翻訳日:2023-11-08 18:54:54 公開日:2023-11-06
# 化学反応ネットワークアンサンブルを用いた生成モデルの自律学習

Autonomous Learning of Generative Models with Chemical Reaction Network Ensembles ( http://arxiv.org/abs/2311.00975v2 )

ライセンス: Link先を確認
William Poole, Thomas E. Ouldridge, and Manoj Gopalkrishnan(参考訳) ミクロンサイズの相互作用分子の袋は、複雑で変動する環境の内部モデルを自律的に学習できるのか? 本研究では, 制御理論, 機械学習理論, 化学反応ネットワーク理論, 統計物理学から知見を導き, 化学系が複雑な分布を自律的に学習できる汎用アーキテクチャを構築する。 提案手法は, 相対エントロピーコスト関数の勾配降下という, 機械学習の最適化作業の化学的実装の形をとる。 本研究では, この手法が化学反応ネットワークの詳細なバランスを保ち, 複雑な分布の学習に隠れたユニットを使用できることを示す。 この結果は積分フィードバック制御の形式として再キャストされる。 最後に、明示的な物理モデルを用いた学習により、このプロセスに関連する熱力学的コストとトレードオフを導出することができる。

Can a micron sized sack of interacting molecules autonomously learn an internal model of a complex and fluctuating environment? We draw insights from control theory, machine learning theory, chemical reaction network theory, and statistical physics to develop a general architecture whereby a broad class of chemical systems can autonomously learn complex distributions. Our construction takes the form of a chemical implementation of machine learning's optimization workhorse: gradient descent on the relative entropy cost function. We show how this method can be applied to optimize any detailed balanced chemical reaction network and that the construction is capable of using hidden units to learn complex distributions. This result is then recast as a form of integral feedback control. Finally, due to our use of an explicit physical model of learning, we are able to derive thermodynamic costs and trade-offs associated to this process.
翻訳日:2023-11-08 18:42:02 公開日:2023-11-06
# HIVエピデミックプランを終了する米国評価のためのマルチエージェント強化学習フレームワーク

A Multi-Agent Reinforcement Learning Framework for Evaluating the U.S. Ending the HIV Epidemic Plan ( http://arxiv.org/abs/2311.00855v2 )

ライセンス: Link先を確認
Dinesh Sharma, Ankit Shah, Chaitra Gopalappa(参考訳) ヒト免疫不全ウイルス(hiv)は米国の主要な公衆衛生上の懸念事項であり、毎年約120万人がhivに感染し、3万5000人が新たに感染している。 HIVの負担と医療アクセスには、アメリカ全土にかなりの地理的格差がある。 2019 Ending the HIV Epidemic(EHE)イニシアチブは、診断、治療、予防介入のカバレッジを改善し、HIV感染率の高い管轄区域を優先することで、2030年までに新しい感染症を90%削減することを目指している。 介入の組み合わせの最適なスケールアップを特定することは、リソースの割り当てを知らせるのに役立つ。 既存のhiv決定分析モデルは、特定の都市や国民全体を評価し、司法上の相互作用や違いを無視する。 本稿では,地域別意思決定分析が可能なマルチエージェント強化学習(MARL)モデルを提案する。 カリフォルニア州とフロリダ州の司法管轄区域で実施された実験分析では、MARLの最適な政策は単一エージェントRLの政策と大きく異なり、管轄区域の変動と相互作用の影響が強調された。 この研究は、HIVの包括的モデリングと国家空間、行動空間、報酬関数の定式化を利用することで、公衆衛生政策を通知するためのMARLの強みと適用性を実証し、EHEに通知するための全国レベルに拡張するための枠組みを提供する。

Human immunodeficiency virus (HIV) is a major public health concern in the United States, with about 1.2 million people living with HIV and 35,000 newly infected each year. There are considerable geographical disparities in HIV burden and care access across the U.S. The 2019 Ending the HIV Epidemic (EHE) initiative aims to reduce new infections by 90% by 2030, by improving coverage of diagnoses, treatment, and prevention interventions and prioritizing jurisdictions with high HIV prevalence. Identifying optimal scale-up of intervention combinations will help inform resource allocation. Existing HIV decision analytic models either evaluate specific cities or the overall national population, thus overlooking jurisdictional interactions or differences. In this paper, we propose a multi-agent reinforcement learning (MARL) model, that enables jurisdiction-specific decision analyses but in an environment with cross-jurisdictional epidemiological interactions. In experimental analyses, conducted on jurisdictions within California and Florida, optimal policies from MARL were significantly different than those generated from single-agent RL, highlighting the influence of jurisdictional variations and interactions. By using comprehensive modeling of HIV and formulations of state space, action space, and reward functions, this work helps demonstrate the strengths and applicability of MARL for informing public health policies, and provides a framework for expanding to the national-level to inform the EHE.
翻訳日:2023-11-08 18:41:50 公開日:2023-11-06
# Neuroformer:脳データのためのマルチモーダルおよびマルチタスク生成準備

Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data ( http://arxiv.org/abs/2311.00136v2 )

ライセンス: Link先を確認
Antonis Antoniades, Yiyi Yu, Joseph Canzano, William Wang, Spencer LaVere Smith(参考訳) 最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。 視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータを自己回帰時空間生成問題に再編成した。 neuroformer(ニューロフォーマー)は、システムの神経科学におけるデータの複雑さを扱うために特別に設計されたマルチモーダル、マルチタスク生成前訓練トランスフォーマー(gpt)モデルである。 機能サイズと線形にスケールし、任意の数のモダリティを処理でき、振る舞いの予測のような下流タスクに適応できる。 最初にシミュレーションデータセットでニューロフォーマーを訓練したところ、シミュレーションされた神経回路の活動を正確に予測しただけでなく、方向を含む基礎となる神経回路接続を内在的に推測した。 神経反応をデコードするために事前訓練されたとき、モデルはほんの数ショットの微調整でマウスの振る舞いを予測し、モデルが明示的に監督することなく、神経表現自身から直接それを行う方法を学習し始めることを示唆した。 我々は,神経反応と行動に関する共同トレーニングが,モデルが非教師的方法で行動表現と神経表現を関連付ける能力を高めることを示すために,アブレーション研究を使用した。 これらの結果は、ニューロフォーマーが神経データセットとその創発的特性を分析し、脳に関連するモデルや仮説の発達を知らせることができることを示している。

State-of-the-art systems neuroscience experiments yield large-scale multimodal data, and these data sets require new tools for analysis. Inspired by the success of large pretrained models in vision and language domains, we reframe the analysis of large-scale, cellular-resolution neuronal spiking data into an autoregressive spatiotemporal generation problem. Neuroformer is a multimodal, multitask generative pretrained transformer (GPT) model that is specifically designed to handle the intricacies of data in systems neuroscience. It scales linearly with feature size, can process an arbitrary number of modalities, and is adaptable to downstream tasks, such as predicting behavior. We first trained Neuroformer on simulated datasets, and found that it both accurately predicted simulated neuronal circuit activity, and also intrinsically inferred the underlying neural circuit connectivity, including direction. When pretrained to decode neural responses, the model predicted the behavior of a mouse with only few-shot fine-tuning, suggesting that the model begins learning how to do so directly from the neural representations themselves, without any explicit supervision. We used an ablation study to show that joint training on neuronal responses and behavior boosted performance, highlighting the model's ability to associate behavioral and neural representations in an unsupervised manner. These findings show that Neuroformer can analyze neural datasets and their emergent properties, informing the development of models and hypotheses associated with the brain.
翻訳日:2023-11-08 18:40:35 公開日:2023-11-06
# AdaSub: 低次元部分空間における2次情報を用いた確率最適化

AdaSub: Stochastic Optimization Using Second-Order Information in Low-Dimensional Subspaces ( http://arxiv.org/abs/2310.20060v2 )

ライセンス: Link先を確認
Jo\~ao Victor Galv\~ao da Mata and Martin S. Andersen(参考訳) 本研究では,現在および過去の情報に基づいて適応的に定義される低次元部分空間において,二次情報に基づく探索方向を計算する確率的最適化アルゴリズムadasubを提案する。 一階法と比較して二階法の方が収束特性は良いが、各イテレーションでヘッセン行列を計算する必要性は計算コストを過大にし、実用的でない。 この問題に対処するため,提案手法は,探索のための部分空間次元の選択を可能にすることにより,計算コストとアルゴリズム効率の管理を可能にする。 我々のコードはgithubで無料で入手でき、予備的な数値結果は、adasubが所定の精度に達するのに必要な時間とイテレーション数で人気のある確率最適化器を上回っていることを示している。

We introduce AdaSub, a stochastic optimization algorithm that computes a search direction based on second-order information in a low-dimensional subspace that is defined adaptively based on available current and past information. Compared to first-order methods, second-order methods exhibit better convergence characteristics, but the need to compute the Hessian matrix at each iteration results in excessive computational expenses, making them impractical. To address this issue, our approach enables the management of computational expenses and algorithm efficiency by enabling the selection of the subspace dimension for the search. Our code is freely available on GitHub, and our preliminary numerical results demonstrate that AdaSub surpasses popular stochastic optimizers in terms of time and number of iterations required to reach a given accuracy.
翻訳日:2023-11-08 18:39:41 公開日:2023-11-06
# 重なり合うスパース画像の深層学習に基づく分解:ニュートリノ相互作用の頂点への応用

Deep-learning-based decomposition of overlapping-sparse images: application at the vertex of neutrino interactions ( http://arxiv.org/abs/2310.19695v2 )

ライセンス: Link先を確認
Sa\'ul Alonso-Monsalve, Davide Sgalaberna, Xingyu Zhao, Adrien Molines, Clark McGrew, Andr\'e Rubbia(参考訳) 画像分解は様々なコンピュータビジョンタスクにおいて重要な役割を担い、視覚的コンテンツの基本的なレベルでの分析と操作を可能にする。 重なり合う画像は、複数のオブジェクトやシーンが部分的にお互いを遮っているときに起こり、分解アルゴリズムに特有の課題をもたらす。 このタスクはスパース画像を扱う際に強化され、意味のある情報の不足がコンポーネントの正確な抽出を複雑にする。 本稿では,多次元重なりスパース画像内の個々の物体を正確に抽出する深層学習の力を利用する解と,撮像検出器から得られた重なり粒子の分解を伴う高エネルギー物理学における直接的応用について述べる。 ニュートリノ相互作用の頂点における独立粒子を同定し、測定し、複数の荷電粒子が重複する検出器像を観測することを期待する。 深層学習によって頂点での検出器活動の像を分解することで、特定された低運動量粒子の運動パラメータを推定し、ニュートリノ現象の再構成されたエネルギー分解能を高めることができる。 また, 上記の手法と完全微分可能生成モデルを組み合わせることで, さらに画像分解を改善し, その結果, 測定パラメータの分解能を向上し, 前例のない結果を得る。 この改良はニュートリノのフレーバー振動を管理するパラメータを正確に測定し、物質と反物質の間の対称性を探索するために重要である。

Image decomposition plays a crucial role in various computer vision tasks, enabling the analysis and manipulation of visual content at a fundamental level. Overlapping images, which occur when multiple objects or scenes partially occlude each other, pose unique challenges for decomposition algorithms. The task intensifies when working with sparse images, where the scarcity of meaningful information complicates the precise extraction of components. This paper presents a solution that leverages the power of deep learning to accurately extract individual objects within multi-dimensional overlapping-sparse images, with a direct application in high-energy physics with decomposition of overlaid elementary particles obtained from imaging detectors. In particular, the proposed approach tackles a highly complex yet unsolved problem: identifying and measuring independent particles at the vertex of neutrino interactions, where one expects to observe detector images with multiple indiscernible overlapping charged particles. By decomposing the image of the detector activity at the vertex through deep learning, it is possible to infer the kinematic parameters of the identified low-momentum particles - which otherwise would remain neglected - and enhance the reconstructed energy resolution of the neutrino event. We also present an additional step - that can be tuned directly on detector data - combining the above method with a fully-differentiable generative model to improve the image decomposition further and, consequently, the resolution of the measured parameters, achieving unprecedented results. This improvement is crucial for precisely measuring the parameters that govern neutrino flavour oscillations and searching for asymmetries between matter and antimatter.
翻訳日:2023-11-08 18:39:26 公開日:2023-11-06
# ViDa: バイオフィジカルインフォームドディープグラフ埋め込みを用いたDNAハイブリダイゼーションの可視化

ViDa: Visualizing DNA hybridization trajectories with biophysics-informed deep graph embeddings ( http://arxiv.org/abs/2311.03411v1 )

ライセンス: Link先を確認
Chenwei Zhang, Jordan Lovrod, Boyan Beronov, Khanh Dao Duc, Anne Condon(参考訳) 可視化ツールは、合成生物学者や分子プログラマーが核酸反応の複雑な反応性経路を理解するのに役立つ。 本稿では,CTMCモデルに基づく二次構造状態空間の2次元埋め込みを用いたDNA反応軌跡の可視化手法であるViDaを提案する。 この目的のために,二次構造隣接部の散乱変換,変分オートエンコーダ,非線形次元低減法を統合する。 熱力学的特徴と運動力学的特徴の両方を捉えるドメイン固有教師付き用語でトレーニング損失を増大させる。 2つのよく研究されたDNAハイブリダイゼーション反応におけるViDaの評価を行った。 以上の結果から,dna状態空間の可視化において,ドメイン特有の機能により品質が大幅に向上し,異なる折りたたみ経路を分離し,支配的反応機構に対する有用な知見が得られることが示された。

Visualization tools can help synthetic biologists and molecular programmers understand the complex reactive pathways of nucleic acid reactions, which can be designed for many potential applications and can be modelled using a continuous-time Markov chain (CTMC). Here we present ViDa, a new visualization approach for DNA reaction trajectories that uses a 2D embedding of the secondary structure state space underlying the CTMC model. To this end, we integrate a scattering transform of the secondary structure adjacency, a variational autoencoder, and a nonlinear dimensionality reduction method. We augment the training loss with domain-specific supervised terms that capture both thermodynamic and kinetic features. We assess ViDa on two well-studied DNA hybridization reactions. Our results demonstrate that the domain-specific features lead to significant quality improvements over the state-of-the-art in DNA state space visualization, successfully separating different folding pathways and thus providing useful insights into dominant reaction mechanisms.
翻訳日:2023-11-08 18:31:54 公開日:2023-11-06
# DP-DCAN:シングルセルクラスタリングのための差分プライベート・ディープコントラストオートエンコーダネットワーク

DP-DCAN: Differentially Private Deep Contrastive Autoencoder Network for Single-cell Clustering ( http://arxiv.org/abs/2311.03410v1 )

ライセンス: Link先を確認
Huifa Li, Jie Fu, Zhili Chen, Xiaomin Yang, Haitao Liu, Xinpeng Ling(参考訳) 単細胞RNAシークエンシング(scRNA-seq)は遺伝子発現の転写学的解析において重要である。 近年,ディープラーニングは高次元単細胞データの解析を容易にする。 残念ながら、ディープラーニングモデルはユーザに関する機密情報を漏洩する可能性がある。 その結果、ディファレンシャルプライバシ(dp)はプライバシを保護するためにますます使われています。 しかし、既存のDP手法は通常、ニューラルネットワーク全体を摂動させて差分プライバシーを達成し、結果として性能上のオーバーヘッドが大きい。 この課題に対処するため,本研究では,ネットワーク中央の次元レデュースベクトルのみを出力するオートエンコーダの特異性を活用し,単一セルクラスタリングのための部分的ネットワーク摂動による差分プライベート・ディープ・コントラシブ・オートエンコーダネットワーク(DP-DCAN)を設計する。 部分的なネットワークだけがノイズを伴って追加されるため、パフォーマンスの改善は明らかで2倍になる。 6つのデータセットの実験結果から,DP-DCANは従来のDP方式よりもネットワーク摂動が優れていることが確認された。 さらに,DP-DCANは敵攻撃に対して強い強靭性を示す。 コードはhttps://github.com/LFD-byte/DP-DCANで公開されている。

Single-cell RNA sequencing (scRNA-seq) is important to transcriptomic analysis of gene expression. Recently, deep learning has facilitated the analysis of high-dimensional single-cell data. Unfortunately, deep learning models may leak sensitive information about users. As a result, Differential Privacy (DP) is increasingly used to protect privacy. However, existing DP methods usually perturb whole neural networks to achieve differential privacy, and hence result in great performance overheads. To address this challenge, in this paper, we take advantage of the uniqueness of the autoencoder that it outputs only the dimension-reduced vector in the middle of the network, and design a Differentially Private Deep Contrastive Autoencoder Network (DP-DCAN) by partial network perturbation for single-cell clustering. Since only partial network is added with noise, the performance improvement is obvious and twofold: one part of network is trained with less noise due to a bigger privacy budget, and the other part is trained without any noise. Experimental results of six datasets have verified that DP-DCAN is superior to the traditional DP scheme with whole network perturbation. Moreover, DP-DCAN demonstrates strong robustness to adversarial attacks. The code is available at https://github.com/LFD-byte/DP-DCAN.
翻訳日:2023-11-08 18:31:37 公開日:2023-11-06
# ディープグラフ埋め込み法によるDNA反応軌跡の可視化

Visualizing DNA reaction trajectories with deep graph embedding approaches ( http://arxiv.org/abs/2311.03409v1 )

ライセンス: Link先を確認
Chenwei Zhang, Khanh Dao Duc, Anne Condon(参考訳) 合成生物学者や分子プログラマーは、新しい核酸反応を設計し、多くの潜在的な応用がある。 ドメインの専門家がそのような反応の折り畳み経路シミュレーションの複雑な出力を理解するのを助けるために、優れた視覚化ツールが必要である。 ここでは, 二次構造のエネルギー環境におけるDNA反応の折りたたみ軌道を可視化するための新しいアプローチであるViDaを紹介する。 我々は,高次元データを2次元ユークリッド空間にマッピングするために,深層グラフ埋め込みモデルと共通次元還元手法を統合する。 得られた2つのDNAハイブリダイゼーション反応に対するViDaの評価を行った。 予備的な結果は,vidaの可視化が異なる折り畳み機構を持つ軌道をうまく分離し,ユーザにとって有用な洞察を与え,dna動態の可視化における現在の技術を大きく改善することを示唆している。

Synthetic biologists and molecular programmers design novel nucleic acid reactions, with many potential applications. Good visualization tools are needed to help domain experts make sense of the complex outputs of folding pathway simulations of such reactions. Here we present ViDa, a new approach for visualizing DNA reaction folding trajectories over the energy landscape of secondary structures. We integrate a deep graph embedding model with common dimensionality reduction approaches, to map high-dimensional data onto 2D Euclidean space. We assess ViDa on two well-studied and contrasting DNA hybridization reactions. Our preliminary results suggest that ViDa's visualization successfully separates trajectories with different folding mechanisms, thereby providing useful insight to users, and is a big improvement over the current state-of-the-art in DNA kinetics visualization.
翻訳日:2023-11-08 18:31:14 公開日:2023-11-06
# イジングマシン上での多層ニューラルネットワークの訓練

Training Multi-layer Neural Networks on Ising Machine ( http://arxiv.org/abs/2311.03408v1 )

ライセンス: Link先を確認
Xujie Song, Tong Liu, Shengbo Eben Li, Jingliang Duan, Wenxuan Wang and Keqiang Li(参考訳) 専用の量子デバイスとして、イジングマシンは大規模なバイナリ最適化問題をミリ秒で解決することができる。 生成人工知能の繁栄により、フィードフォワードニューラルネットワークのトレーニングにIsingマシンを活用することへの関心が高まっている。 しかし,既存の手法では複雑な非線形ネットワークトポロジのため,単層フィードフォワードネットワークのトレーニングしかできない。 本稿では,量子化ニューラルネットワーク(QNN)を学習するためのIsing学習アルゴリズムを提案する。 私たちが知る限り、これはIsingマシン上でマルチレイヤフィードフォワードネットワークをトレーニングする最初のアルゴリズムであり、勾配ベースのバックプロパゲーションに代わるものだ。 まず、ニューロン接続とアクティベーション関数を等価性制約として表現することにより、QNNを2次制約付きバイナリ最適化(QCBO)問題として定式化する。 すべての量子化変数はバイナリエンコーディングプロトコルに基づいてバイナリビットによって符号化される。 第2に、QCBOは2次非制約バイナリ最適化(QUBO)問題に変換され、Isingマシンで効率的に解ける。 この変換はペナルティ関数とローゼンバーグ順序還元の両方を活用し、同時に等式制約を取り除き、高次損失関数を二次関数に還元する。 いくつかの仮定で、理論解析により、アルゴリズムの空間複雑性は$\mathcal{o}(h^2l + hln\log h)$であり、必要な数のイジングスピンを定量化する。 最後に、mnistデータセット上のシミュレーションイジングマシンを用いてアルゴリズムの有効性を検証する。 700msの焼鈍後、分類精度は98.3%に達する。 100ラン中、最適な解を見つける成功確率は72%である。 イジングマシンのスピン数の増加とともに、我々のアルゴリズムはより深いニューラルネットワークを訓練する可能性がある。

As a dedicated quantum device, Ising machines could solve large-scale binary optimization problems in milliseconds. There is emerging interest in utilizing Ising machines to train feedforward neural networks due to the prosperity of generative artificial intelligence. However, existing methods can only train single-layer feedforward networks because of the complex nonlinear network topology. This paper proposes an Ising learning algorithm to train quantized neural network (QNN), by incorporating two essential techinques, namely binary representation of topological network and order reduction of loss function. As far as we know, this is the first algorithm to train multi-layer feedforward networks on Ising machines, providing an alternative to gradient-based backpropagation. Firstly, training QNN is formulated as a quadratic constrained binary optimization (QCBO) problem by representing neuron connection and activation function as equality constraints. All quantized variables are encoded by binary bits based on binary encoding protocol. Secondly, QCBO is converted to a quadratic unconstrained binary optimization (QUBO) problem, that can be efficiently solved on Ising machines. The conversion leverages both penalty function and Rosenberg order reduction, who together eliminate equality constraints and reduce high-order loss function into a quadratic one. With some assumptions, theoretical analysis shows the space complexity of our algorithm is $\mathcal{O}(H^2L + HLN\log H)$, quantifying the required number of Ising spins. Finally, the algorithm effectiveness is validated with a simulated Ising machine on MNIST dataset. After annealing 700 ms, the classification accuracy achieves 98.3%. Among 100 runs, the success probability of finding the optimal solution is 72%. Along with the increasing number of spins on Ising machine, our algorithm has the potential to train deeper neural networks.
翻訳日:2023-11-08 18:31:00 公開日:2023-11-06
# 単一光子による高次状態生成のためのガウス型ボーソンサンプラーのシード化

Seeding Gaussian boson samplers with single photons for enhanced state generation ( http://arxiv.org/abs/2311.03432v1 )

ライセンス: Link先を確認
Valerio Crescimanna, Aaron Z. Goldberg, Khabat Heshami(参考訳) 非ガウス量子状態は連続変数系を持つフォールトトレラント量子計算に不可欠である。 通常、そのような状態の生成は成功確率と結果の状態の品質の間のトレードオフを伴う。 例えば、圧縮された光をマルチモード干渉計に注入し、光子数出力の特定のパターンを1つのモードを除いてポストセレクトすることは、基本的に確率的タスクであり、猫の状態、ゴッテマン・キタエフ・プレスキル状態(GKP)などを生成することができる。 我々は、この構成に非ガウス的資源状態、特に単一光子を加え、それが望ましい状態の品質と生成可能性をどのように改善するかを示す。 たった2つのモードで、単一の光子源を追加することで、GKP状態の忠実度が0.68から0.95に改善され、そして1秒加えると、成功確率が8倍になる。 これらのことは、光の望ましい状態を生成するための追加の共通の非ガウス的資源の有用性を示している。

Non-Gaussian quantum states are crucial to fault-tolerant quantum computation with continuous-variable systems. Usually, generation of such states involves tradeoffs between success probability and quality of the resultant state. For example, injecting squeezed light into a multimode interferometer and postselecting on certain patterns of photon-number outputs in all but one mode, a fundamentally probabilistic task, can herald the creation of cat states, Gottesman-Kitaev-Preskill (GKP) states, and more. We consider the addition of a non-Gaussian resource state, particularly single photons, to this configuration and show how it improves the qualities and generation probabilities of desired states. With only two modes, adding a single photon source improves GKP-state fidelity from 0.68 to 0.95 and adding a second then increases the success probability eightfold; for cat states with a fixed target fidelity, the probability of success can be improved by factors of up to 4 by adding single-photon sources. These demonstrate the usefulness of additional commonplace non-Gaussian resources for generating desirable states of light.
翻訳日:2023-11-08 18:19:18 公開日:2023-11-06
# ProPath: 病原性に特異的なタンパク質言語モデル

ProPath: Disease-Specific Protein Language Model for Variant Pathogenicity ( http://arxiv.org/abs/2311.03429v1 )

ライセンス: Link先を確認
Huixin Zhan, Zijun (Frank) Zhang(参考訳) 病原性と良性の遺伝的変異の臨床的変異分類は、臨床遺伝学において重要な課題である。 近年、タンパク質言語モデルの提案により、弱い教師付きまたは教師なしの訓練により、汎用的変異効果予測(VEP)の精度が向上した。 しかしながら、これらのVEPは疾患特異的ではなく、治療点における適応を制限する。 この問題に対処するために,siamのネットワークを介して希少なミスセンスにおける疑似ログ様度比を捉えるために,propath と呼ばれる変種 \textsc{path} 生成のための病特異的な \textsc{pro}tein 言語モデルを提案する。 訓練中にみられなかった心疾患と不整脈に対する臨床変異セットを用いて,事前学習した言語モデルに対するプロパスの性能評価を行った。 我々の結果は、ProPathが事前訓練されたESM1bを超え、両方のデータセットでAUCが5\%以上改善されていることを示している。 さらに,本モデルは,両データセットのベースライン全体において,最高性能を達成した。 したがって、当社のProPathは、特に疾患関連や臨床応用に有用な、強力な疾患特異的変異効果予測を提供する。

Clinical variant classification of pathogenic versus benign genetic variants remains a pivotal challenge in clinical genetics. Recently, the proposition of protein language models has improved the generic variant effect prediction (VEP) accuracy via weakly-supervised or unsupervised training. However, these VEPs are not disease-specific, limiting their adaptation at point-of-care. To address this problem, we propose a disease-specific \textsc{pro}tein language model for variant \textsc{path}ogenicity, termed ProPath, to capture the pseudo-log-likelihood ratio in rare missense variants through a siamese network. We evaluate the performance of ProPath against pre-trained language models, using clinical variant sets in inherited cardiomyopathies and arrhythmias that were not seen during training. Our results demonstrate that ProPath surpasses the pre-trained ESM1b with an over $5\%$ improvement in AUC across both datasets. Furthermore, our model achieved the highest performances across all baselines for both datasets. Thus, our ProPath offers a potent disease-specific variant effect prediction, particularly valuable for disease associations and clinical applicability.
翻訳日:2023-11-08 18:18:57 公開日:2023-11-06
# QFTを用いた局所時空領域のモデリング計測の歴史におけるエピソードについて

Note on episodes in the history of modeling measurements in local spacetime regions using QFT ( http://arxiv.org/abs/2311.03428v1 )

ライセンス: Link先を確認
Doreen Fraser, Maria Papageorgiou(参考訳) 相対論的量子場理論(qft)のための測定理論の定式化は近年活発な研究分野となっている。 QEDにおける漸近測定フレームワークとは対照的に,新たな提案では,局所的な時空領域における測定のための測定フレームワークの提供を目指している。 本稿では,同時代の研究者が自身の研究の先駆者であると認識した量子論史のエピソードを調査し,qftの局所的測定理論に対する現在のアプローチの土台を築いた方法について論じる。

The formulation of a measurement theory for relativistic quantum field theory (QFT) has recently been an active area of research. In contrast to the asymptotic measurement framework that was enshrined in QED, the new proposals aim to supply a measurement framework for measurements in local spacetime regions. This paper surveys episodes in the history of quantum theory that contemporary researchers have identified as precursors to their own work and discusses how they laid the groundwork for current approaches to local measurement theory for QFT.
翻訳日:2023-11-08 18:18:37 公開日:2023-11-06
# TSP変換器:全体的情景理解のためのタスク特化プロンプト強化変圧器

TSP-Transformer: Task-Specific Prompts Boosted Transformer for Holistic Scene Understanding ( http://arxiv.org/abs/2311.03427v1 )

ライセンス: Link先を確認
Shuo Wang, Jing Li, Zibo Zhao, Dongze Lian, Binbin Huang, Xiaomei Wang, Zhengxin Li, Shenghua Gao(参考訳) 全体像理解にはセマンティックセグメンテーション、表面正規推定、オブジェクト境界検出、深さ推定などが含まれる。 この問題の鍵となる側面は表現を効果的に学習することであり、各サブタスクは相関するだけでなく、異なる属性の上に構築される。 視覚的プロンプトチューニングにインスパイアされたタスク特化プロンプト変換器(TSP-Transformer)を提案する。 初期はバニラトランス、外側にはタスク固有のプロンプトエンコーダがあり、タスク固有のプロンプトが拡張されている。 これにより、トランス層は共有部分から汎用情報を学習し、タスク固有の能力が付与される。 まず、タスク固有のプロンプトが各タスクの誘導先として効果的に機能する。 さらに、タスク固有のプロンプトは、異なるタスクに対するタスク固有の表現学習を好むスイッチとして見ることができる。 NYUD-v2 と PASCAL-Context の大規模な実験により,本手法は最先端の性能を実現し,本手法の有効性を検証した。 私たちはまた、以下のリンクhttps://github.com/tb2-sy/tsp-transformerでコードを提供しています。

Holistic scene understanding includes semantic segmentation, surface normal estimation, object boundary detection, depth estimation, etc. The key aspect of this problem is to learn representation effectively, as each subtask builds upon not only correlated but also distinct attributes. Inspired by visual-prompt tuning, we propose a Task-Specific Prompts Transformer, dubbed TSP-Transformer, for holistic scene understanding. It features a vanilla transformer in the early stage and tasks-specific prompts transformer encoder in the lateral stage, where tasks-specific prompts are augmented. By doing so, the transformer layer learns the generic information from the shared parts and is endowed with task-specific capacity. First, the tasks-specific prompts serve as induced priors for each task effectively. Moreover, the task-specific prompts can be seen as switches to favor task-specific representation learning for different tasks. Extensive experiments on NYUD-v2 and PASCAL-Context show that our method achieves state-of-the-art performance, validating the effectiveness of our method for holistic scene understanding. We also provide our code in the following link https://github.com/tb2-sy/TSP-Transformer.
翻訳日:2023-11-08 18:18:28 公開日:2023-11-06
# GQKVA: クエリ、キー、値のグルーピングによるトランスフォーマーの効率的な事前トレーニング

GQKVA: Efficient Pre-training of Transformers by Grouping Queries, Keys, and Values ( http://arxiv.org/abs/2311.03426v1 )

ライセンス: Link先を確認
Farnoosh Javadi, Walid Ahmed, Habib Hajimolahoseini, Foozhan Ataiefard, Mohammad Hassanpour, Saina Asani, Austin Wen, Omar Mohamed Awad, Kangling Liu, Yang Liu(参考訳) 大量トランスフォーマーベースのモデルは、遅くて計算集約的な事前学習や過度パラメトリゼーションなど、いくつかの課題に直面している。 本稿では,クエリ,キー,値のグルーピングを一般化したGQKVAという多元的手法を提案する。 GQKVAはモデルサイズを小さくしながらトランスフォーマーの事前訓練を高速化するように設計されている。 GQKVAのさまざまなバリエーションによる実験では、パフォーマンスとモデルサイズの間に明確なトレードオフが示され、リソースと時間制限に基づいてカスタマイズされた選択が可能になる。 また,より軽量で高速な代替手段があるため,従来の多頭注意アプローチが必ずしも最善の選択ではないことも示唆した。 画像分類の作業において, モデルサイズを約4%削減しつつ, 精度を約0.3%向上させたvitを用いて実験を行った。 さらに,最も攻撃的なモデル縮小実験の結果,モデルサイズが約15%削減され,精度は1%程度低下した。

Massive transformer-based models face several challenges, including slow and computationally intensive pre-training and over-parametrization. This paper addresses these challenges by proposing a versatile method called GQKVA, which generalizes query, key, and value grouping techniques. GQKVA is designed to speed up transformer pre-training while reducing the model size. Our experiments with various GQKVA variants highlight a clear trade-off between performance and model size, allowing for customized choices based on resource and time limitations. Our findings also indicate that the conventional multi-head attention approach is not always the best choice, as there are lighter and faster alternatives available. We tested our method on ViT, which achieved an approximate 0.3% increase in accuracy while reducing the model size by about 4% in the task of image classification. Additionally, our most aggressive model reduction experiment resulted in a reduction of approximately 15% in model size, with only around a 1% drop in accuracy.
翻訳日:2023-11-08 18:18:07 公開日:2023-11-06
# 医療データセットにおけるバイアスの検出と軽減のためのai誘導データ中心戦略

An AI-Guided Data Centric Strategy to Detect and Mitigate Biases in Healthcare Datasets ( http://arxiv.org/abs/2311.03425v1 )

ライセンス: Link先を確認
Faris F. Gulamali, Ashwin S. Sawant, Lora Liharska, Carol R. Horowitz, Lili Chan, Patricia H. Kovatch, Ira Hofer, Karandeep Singh, Lynne D. Richardson, Emmanuel Mensah, Alexander W Charney, David L. Reich, Jianying Hu, Girish N. Nadkarni(参考訳) 医療における診断と予後アルゴリズムの採用は、不利な集団に対する偏見の持続性に関する懸念につながっている。 バイアスの検出と軽減のためのディープラーニング手法は、モデルの変更、最適化戦略、成功レベルの違いによるしきい値校正に重点を置いている。 ここでは,データ中心,モデル非依存,タスク非依存のアプローチを生成し,サンプルサイズ (aequity) の小さなサンプルサイズで,異なるグループがいかに簡単に学習できるかという関係を調査し,データセットバイアスを評価する。 次に、サブポピュレーション全体にわたるAEq値の体系的分析を適用し、医療における既知の2つのケースにおいて、人種的偏見の顕在性を識別し緩和する。 AEqは、医療データセットのバイアスを診断し、修正することで、エクイティの前進に適用できる、新しく広く適用可能なメトリクスである。

The adoption of diagnosis and prognostic algorithms in healthcare has led to concerns about the perpetuation of bias against disadvantaged groups of individuals. Deep learning methods to detect and mitigate bias have revolved around modifying models, optimization strategies, and threshold calibration with varying levels of success. Here, we generate a data-centric, model-agnostic, task-agnostic approach to evaluate dataset bias by investigating the relationship between how easily different groups are learned at small sample sizes (AEquity). We then apply a systematic analysis of AEq values across subpopulations to identify and mitigate manifestations of racial bias in two known cases in healthcare - Chest X-rays diagnosis with deep convolutional neural networks and healthcare utilization prediction with multivariate logistic regression. AEq is a novel and broadly applicable metric that can be applied to advance equity by diagnosing and remediating bias in healthcare datasets.
翻訳日:2023-11-08 18:17:51 公開日:2023-11-06
# Lift Satisfiability Checking における対称性の利用

Using Symmetries to Lift Satisfiability Checking ( http://arxiv.org/abs/2311.03424v1 )

ライセンス: Link先を確認
Pierre Carbonnelle and Gottfried Schenner and Maurice Bruynooghe and Bart Bogaerts and Marc Denecker(参考訳) 情報を失うことなく、構造(解釈としても知られる)をより小さな領域に圧縮するために、対称性がどのように使われるかを分析する。 この分析は、圧縮領域における満足度問題を解く可能性を示唆する。 そこで本研究では2段階の新規手法を提案する。 i) 満足すべき文は,ドメイン圧縮を可能にする ``lifted'' 語彙上で,自動的に同感可能な文に翻訳される。 (ii)満足構造が見つかるまで(当初不明な)圧縮領域を成長させることにより、持ち上げられた文の満足度をチェックする。 鍵となる問題は、この充足構造が、満足すべき原文を満たす非圧縮構造に常に拡張できることである。 本稿では,集合で拡張した一階述語論理における文の適切な翻訳について述べる。 実験の結果,生成的構成問題に対する高速化がみられた。 この方法は複雑なデータ構造上で動作するソフトウェアの検証にも応用できる。 翻訳のさらなる改良は今後の作業のために残されている。

We analyze how symmetries can be used to compress structures (also known as interpretations) onto a smaller domain without loss of information. This analysis suggests the possibility to solve satisfiability problems in the compressed domain for better performance. Thus, we propose a 2-step novel method: (i) the sentence to be satisfied is automatically translated into an equisatisfiable sentence over a ``lifted'' vocabulary that allows domain compression; (ii) satisfiability of the lifted sentence is checked by growing the (initially unknown) compressed domain until a satisfying structure is found. The key issue is to ensure that this satisfying structure can always be expanded into an uncompressed structure that satisfies the original sentence to be satisfied. We present an adequate translation for sentences in typed first-order logic extended with aggregates. Our experimental evaluation shows large speedups for generative configuration problems. The method also has applications in the verification of software operating on complex data structures. Further refinements of the translation are left for future work.
翻訳日:2023-11-08 18:17:34 公開日:2023-11-06
# 空間コントラストを用いた効率的な低出力オブジェクト分類

Efficient and Low-Footprint Object Classification using Spatial Contrast ( http://arxiv.org/abs/2311.03422v1 )

ライセンス: Link先を確認
Matthew Belding, Daniel C. Stumpp, Rajkumar Kubendran(参考訳) イベントベースのビジョンセンサは従来、低消費電力と低レイテンシのセンシングとコンピューティングの潜在的な時間的コントラストを計算する。 本研究では,局所空間コントラスト (localized spatial contrast, sc) を2つの異なるしきい値法と絶対値法で用いるイベント型センサの代替パラダイムについて検討した。 時間的センサと比較して空間コントラストの遅さを考慮し、そのようなハードウェアセンサの理論的シミュレーション出力を探索する。 さらに,よく知られたディープニューラルネットワーク(dnn)を用いたドイツのトラヒックサインデータセット(gtsrb)を用いて,トラヒックサイン分類を評価する。 本研究では,高精細RGB画像やDNNと比較して,入力データ使用量(少なくとも12倍)とメモリリソース(17.5倍)を大幅に削減したバイナリ化DNNを用いて,分類に必要な有意な画像特徴を効果的に捉えることができることを示す。 バイナリ化されたMicronNetは空間コントラストを用いて94.4%のF1スコアを達成する。 したがって、SCはパワーとリソース制約のあるエッジコンピューティング環境へのデプロイを大いに約束します。

Event-based vision sensors traditionally compute temporal contrast that offers potential for low-power and low-latency sensing and computing. In this research, an alternative paradigm for event-based sensors using localized spatial contrast (SC) under two different thresholding techniques, relative and absolute, is investigated. Given the slow maturity of spatial contrast in comparison to temporal-based sensors, a theoretical simulated output of such a hardware sensor is explored. Furthermore, we evaluate traffic sign classification using the German Traffic Sign dataset (GTSRB) with well-known Deep Neural Networks (DNNs). This study shows that spatial contrast can effectively capture salient image features needed for classification using a Binarized DNN with significant reduction in input data usage (at least 12X) and memory resources (17.5X), compared to high precision RGB images and DNN, with only a small loss (~2%) in macro F1-score. Binarized MicronNet achieves an F1-score of 94.4% using spatial contrast, compared to only 56.3% when using RGB input images. Thus, SC offers great promise for deployment in power and resource constrained edge computing environments.
翻訳日:2023-11-08 18:17:21 公開日:2023-11-06
# 造形回復性脳状態復号のためのホップフィールド強化深層ニューラルネットワーク

Hopfield-Enhanced Deep Neural Networks for Artifact-Resilient Brain State Decoding ( http://arxiv.org/abs/2311.03421v1 )

ライセンス: Link先を確認
Arnau Marin-Llobet and Arnau Manasanch and Maria V. Sanchez-Vives(参考訳) 睡眠覚醒サイクルのような、高度に同期した状態から非同期な神経パターンまで、脳の状態の研究は、脳の時空間的ダイナミクスと行動との密接な関係を評価するための基礎となる。 しかし、これらを正確に識別する新しい技術の開発は、ノイズ、アーティファクト、および準最適記録品質の存在によってしばしば損なわれるため、依然として課題である。 本研究では, ホップフィールド・ネットワークとコンボリューショナル・ニューラル・ネットワーク(CNN)を組み合わせた2段階の計算フレームワークを提案し, 麻酔レベルの違いによるラット神経記録の脳状態の分類を行った。 枠組みの堅牢性を評価するため,我々は意図的にノイズアーティファクトを神経記録に導入した。 2つの比較モデル – 同じノイズの入力を処理するスタンドアロンCNNと,アーティファクトフリーなデータでトレーニングおよびテストされた別のCNN – に対して,私たちのハイブリッドHopfield-CNNパイプラインを評価した。 様々なレベルのデータ圧縮とノイズ強度のパフォーマンスは、我々のフレームワークが効果的にアーティファクトを軽減し、より低いノイズレベルでクリーンデータcnnと同等のレベルに到達できることを示しました。 本研究は主に小規模実験に有効であるが, 多様な実世界の環境におけるスケーラビリティとロバスト性を改善するために, 高度なディープラーニングモデルとホップフィールドネットワークモデルの必要性を強調した。

The study of brain states, ranging from highly synchronous to asynchronous neuronal patterns like the sleep-wake cycle, is fundamental for assessing the brain's spatiotemporal dynamics and their close connection to behavior. However, the development of new techniques to accurately identify them still remains a challenge, as these are often compromised by the presence of noise, artifacts, and suboptimal recording quality. In this study, we propose a two-stage computational framework combining Hopfield Networks for artifact data preprocessing with Convolutional Neural Networks (CNNs) for classification of brain states in rat neural recordings under different levels of anesthesia. To evaluate the robustness of our framework, we deliberately introduced noise artifacts into the neural recordings. We evaluated our hybrid Hopfield-CNN pipeline by benchmarking it against two comparative models: a standalone CNN handling the same noisy inputs, and another CNN trained and tested on artifact-free data. Performance across various levels of data compression and noise intensities showed that our framework can effectively mitigate artifacts, allowing the model to reach parity with the clean-data CNN at lower noise levels. Although this study mainly benefits small-scale experiments, the findings highlight the necessity for advanced deep learning and Hopfield Network models to improve scalability and robustness in diverse real-world settings.
翻訳日:2023-11-08 18:16:56 公開日:2023-11-06
# ツイート自己報告コービッド19の分類のためのR-dropによるテキスト強化

Text Augmentations with R-drop for Classification of Tweets Self Reporting Covid-19 ( http://arxiv.org/abs/2311.03420v1 )

ライセンス: Link先を確認
Sumam Francis, Marie-Francine Moens(参考訳) 本稿では,ソーシャル・メディア・マイニング・フォー・ヘルス2023共有タスクのためのモデルを提案する。 われわれのチームは最初の課題に対処し、Covid-19の診断を自己報告するツイートを分類した。 我々のアプローチは、多種多様なテキスト拡張を組み込んだ分類モデルと、R-dropを用いたデータ拡張と過剰適合の軽減、モデルの有効性の向上である。 我々の先行モデルは、R-dropで強化され、同義語、予約語、バック翻訳のような拡張され、タスク平均と中央値スコアを上回っます。 本システムでは,印象的なf1スコアである0.877をテストセットで達成する。

This paper presents models created for the Social Media Mining for Health 2023 shared task. Our team addressed the first task, classifying tweets that self-report Covid-19 diagnosis. Our approach involves a classification model that incorporates diverse textual augmentations and utilizes R-drop to augment data and mitigate overfitting, boosting model efficacy. Our leading model, enhanced with R-drop and augmentations like synonym substitution, reserved words, and back translations, outperforms the task mean and median scores. Our system achieves an impressive F1 score of 0.877 on the test set.
翻訳日:2023-11-08 18:16:34 公開日:2023-11-06
# 話者情報を用いたキーワードスポッティングのパーソナライズ

Personalizing Keyword Spotting with Speaker Information ( http://arxiv.org/abs/2311.03419v1 )

ライセンス: Link先を確認
Beltr\'an Labrador, Pai Zhu, Guanlong Zhao, Angelo Scorza Scarpati, Quan Wang, Alicia Lozano-Diez, Alex Park, Ignacio L\'opez Moreno(参考訳) キーワードスポッティングシステムは、様々なアクセントと年齢グループを持つ多様な人口に一般化するのに苦労することが多い。 この課題に対処するために,複数の情報源から学習する新しい手法であるFiLM(Feature-wise Linear Modulation)を用いて,話者情報をキーワードスポッティングに統合する手法を提案する。 テキスト依存型話者認識システムとテキスト依存型話者認識システムの両方を探索し、入力オーディオと事前登録されたユーザオーディオの両方からこれらの情報を抽出する実験を行った。 我々は,多種多様なデータセットを用いてシステム評価を行い,特に表現不足話者群においてキーワード検出精度を大幅に向上させる。 さらに,提案手法ではパラメータ数を1%増加させるだけで,レイテンシや計算コストに最小限の影響があるため,現実のアプリケーションでは実用的ソリューションとなる。

Keyword spotting systems often struggle to generalize to a diverse population with various accents and age groups. To address this challenge, we propose a novel approach that integrates speaker information into keyword spotting using Feature-wise Linear Modulation (FiLM), a recent method for learning from multiple sources of information. We explore both Text-Dependent and Text-Independent speaker recognition systems to extract speaker information, and we experiment on extracting this information from both the input audio and pre-enrolled user audio. We evaluate our systems on a diverse dataset and achieve a substantial improvement in keyword detection accuracy, particularly among underrepresented speaker groups. Moreover, our proposed approach only requires a small 1% increase in the number of parameters, with a minimum impact on latency and computational cost, which makes it a practical solution for real-world applications.
翻訳日:2023-11-08 18:16:23 公開日:2023-11-06
# 臨床構造データに対するフェデレーション学習:工学的アプローチと統計的アプローチの比較

Federated Learning for Clinical Structured Data: A Benchmark Comparison of Engineering and Statistical Approaches ( http://arxiv.org/abs/2311.03417v1 )

ライセンス: Link先を確認
Siqi Li, Di Miao, Qiming Wu, Chuan Hong, Danny D'Agostino, Xin Li, Yilin Ning, Yuqing Shang, Huazhu Fu, Marcus Eng Hock Ong, Hamed Haddadi, Nan Liu(参考訳) federated learning(fl)は、医療コラボレーションにおけるデータプライバシの保護に有望な可能性を示している。 flという言葉は元々エンジニアリングコミュニティによって作られたが、統計学の分野でも同様のプライバシー保護アルゴリズムも研究されている。 しかし、統計的FLアルゴリズムは、工学的なアルゴリズムに比べて認識がかなり少ない。 私たちの目標は、エンジニアリングドメインと統計ドメインの両方からflフレームワークを初めて包括的に比較することで、ギャップを埋めることにあります。 シミュレーションデータと実世界のデータを用いて5つのFLフレームワークを評価した。 その結果,統計的flアルゴリズムはモデル係数に対する偏り点推定を少なくし,信頼区間推定に便利であることがわかった。 対照的に、工学に基づく手法はより正確な予測を生成し、時には中央プール型モデルや統計型flモデルを超える。 本研究は,両手法の相対的強みと弱みを強調し,今後のflアプリケーションへの認知度向上と統合の必要性を強調した。

Federated learning (FL) has shown promising potential in safeguarding data privacy in healthcare collaborations. While the term "FL" was originally coined by the engineering community, the statistical field has also explored similar privacy-preserving algorithms. Statistical FL algorithms, however, remain considerably less recognized than their engineering counterparts. Our goal was to bridge the gap by presenting the first comprehensive comparison of FL frameworks from both engineering and statistical domains. We evaluated five FL frameworks using both simulated and real-world data. The results indicate that statistical FL algorithms yield less biased point estimates for model coefficients and offer convenient confidence interval estimations. In contrast, engineering-based methods tend to generate more accurate predictions, sometimes surpassing central pooled and statistical FL models. This study underscores the relative strengths and weaknesses of both types of methods, emphasizing the need for increased awareness and their integration in future FL applications.
翻訳日:2023-11-08 18:16:08 公開日:2023-11-06
# PowerFlowNet: メッセージパッシングGNNを活用して電力フロー近似を改善する

PowerFlowNet: Leveraging Message Passing GNNs for Improved Power Flow Approximation ( http://arxiv.org/abs/2311.03415v1 )

ライセンス: Link先を確認
Nan Lin, Stavros Orfanoudakis, Nathan Ordonez Cardenas, Juan S. Giraldo, Pedro P. Vergara(参考訳) 最新の電気ネットワークの効率的な運用と計画には、精度と効率のよい電力フロー分析が不可欠である。 したがって、高精度で高速なソリューションを提供する大規模電力ネットワークを処理できるスケーラブルなアルゴリズムが必要である。 グラフニューラルネットワーク(gnns)は,基盤となるパワーネットワークグラフから特徴的な特徴をキャプチャする能力を活用することで,pf近似の速度向上に有望なアプローチとして登場している。 本研究では,従来のNewton-Raphson法と同じような性能を示すPF近似のための新しいGNNアーキテクチャであるPowerFlowNetを紹介するが,単純なIEEE 14バスシステムでは4倍,フランス高電圧ネットワーク(6470rte)では145倍の高速化を実現している。 一方、DC緩和法などの従来の近似手法では、性能と実行時間で大幅に上回っているため、PowerFlowNetは実世界のPF分析に非常に有望なソリューションである。 さらに,powerflownetの性能,スケーラビリティ,解釈可能性,アーキテクチャ依存性を徹底的に検証し,詳細な実験評価を行い,本手法の有効性を検証する。 この評価は、電力系統解析におけるGNNの挙動と潜在的な応用に関する洞察を与える。

Accurate and efficient power flow (PF) analysis is crucial in modern electrical networks' efficient operation and planning. Therefore, there is a need for scalable algorithms capable of handling large-scale power networks that can provide accurate and fast solutions. Graph Neural Networks (GNNs) have emerged as a promising approach for enhancing the speed of PF approximations by leveraging their ability to capture distinctive features from the underlying power network graph. In this study, we introduce PowerFlowNet, a novel GNN architecture for PF approximation that showcases similar performance with the traditional Newton-Raphson method but achieves it 4 times faster in the simple IEEE 14-bus system and 145 times faster in the realistic case of the French high voltage network (6470rte). Meanwhile, it significantly outperforms other traditional approximation methods, such as the DC relaxation method, in terms of performance and execution time; therefore, making PowerFlowNet a highly promising solution for real-world PF analysis. Furthermore, we verify the efficacy of our approach by conducting an in-depth experimental evaluation, thoroughly examining the performance, scalability, interpretability, and architectural dependability of PowerFlowNet. The evaluation provides insights into the behavior and potential applications of GNNs in power system analysis.
翻訳日:2023-11-08 18:15:54 公開日:2023-11-06
# 無人航空機用エンジンマウントの3次元マルチクリテリア設計と最適化のための生成ニューラルネットワークアプローチ

A Generative Neural Network Approach for 3D Multi-Criteria Design Generation and Optimization of an Engine Mount for an Unmanned Air Vehicle ( http://arxiv.org/abs/2311.03414v1 )

ライセンス: Link先を確認
Christoph Petroll and Sebastian Eilermann and Philipp Hoefer and Oliver Niggemann(参考訳) 近年のコンピュータビジョンで最も有望な発展の1つは、機能条件に基づく3d設計の再構築と生成のための生成ニューラルネットワークの利用である。 ここでニューラルネットワークは、機能と幾何学の間の依存性を非常に効果的な方法で学習する。 ニューラルネットワークの場合、関数は条件付きで特定の幾何学に変換される。 しかし、設計生成が反映する必要がある条件が多ければ多いほど、明確な依存関係を学ぶことが難しくなります。 これは、これまでのニューラルネットワーク構造では考慮されていない様々な条件による多重基準設計問題につながる。 本稿では,無人航空機(UAV)モーターマウントに関連する3次元設計ユースケースについて,このマルチ基準課題に対処する。 我々は1万の抽象的な3Dデザインを生成し、それらを3つの物理分野(力学、熱力学、空気力学)のシミュレーションに含めます。 次に,条件変分オートエンコーダ (CVAE) を幾何と対応する多条件関数制約を入力として訓練する。 我々は、トレーニングされたCVAEとマーチングキューブアルゴリズムを用いて、シミュレーションに基づく評価のためのメッシュを生成する。 結果は生成されたUAV設計で評価される。 その後、トレーニングニューラルネットワークを用いて、自己定義機能条件下で最適化された設計を生成する能力を示す。

One of the most promising developments in computer vision in recent years is the use of generative neural networks for functionality condition-based 3D design reconstruction and generation. Here, neural networks learn dependencies between functionalities and a geometry in a very effective way. For a neural network the functionalities are translated in conditions to a certain geometry. But the more conditions the design generation needs to reflect, the more difficult it is to learn clear dependencies. This leads to a multi criteria design problem due various conditions, which are not considered in the neural network structure so far. In this paper, we address this multi-criteria challenge for a 3D design use case related to an unmanned aerial vehicle (UAV) motor mount. We generate 10,000 abstract 3D designs and subject them all to simulations for three physical disciplines: mechanics, thermodynamics, and aerodynamics. Then, we train a Conditional Variational Autoencoder (CVAE) using the geometry and corresponding multicriteria functional constraints as input. We use our trained CVAE as well as the Marching cubes algorithm to generate meshes for simulation based evaluation. The results are then evaluated with the generated UAV designs. Subsequently, we demonstrate the ability to generate optimized designs under self-defined functionality conditions using the trained neural network.
翻訳日:2023-11-08 18:15:33 公開日:2023-11-06
# Discret2Di -- モデルベース診断のためのディープラーニングに基づく離散化

Discret2Di -- Deep Learning based Discretization for Model-based Diagnosis ( http://arxiv.org/abs/2311.03413v1 )

ライセンス: Link先を確認
Lukas Moddemann and Henrik Sebastian Steude and Alexander Diedrich and Oliver Niggemann(参考訳) 一貫性に基づく診断は、技術的応用を診断するための確立されたアプローチであるが、特に動的マルチモーダル時系列のモデリングに悩まされている。 マシンラーニングは明らかなソリューションであるように思えるが、詳細を見ると明確ではない。 論理計算がまだ使われるなら、動的時系列はどのように離散世界へ転送できるか? 本稿では,一貫性に基づく診断のための論理式の自動学習手法としてDiscret2Diを提案する。 これらの論理計算には一貫性の明確な概念を提供することによる利点があるが、力学系の離散化に依存する重要な問題がある。 提示されたソリューションは、時系列と記号領域の両方からの機械学習を組み合わせて、一貫性に基づく診断のための論理規則の学習を自動化する。

Consistency-based diagnosis is an established approach to diagnose technical applications, but suffers from significant modeling efforts, especially for dynamic multi-modal time series. Machine learning seems to be an obvious solution, which becomes less obvious when looking at details: Which notion of consistency can be used? If logical calculi are still to be used, how can dynamic time series be transferred into the discrete world? This paper presents the methodology Discret2Di for automated learning of logical expressions for consistency-based diagnosis. While these logical calculi have advantages by providing a clear notion of consistency, they have the key problem of relying on a discretization of the dynamic system. The solution presented combines machine learning from both the time series and the symbolic domain to automate the learning of logical rules for consistency-based diagnosis.
翻訳日:2023-11-08 18:15:17 公開日:2023-11-06
# 残差学習による白色物質拡散度からの年齢予測

Predicting Age from White Matter Diffusivity with Residual Learning ( http://arxiv.org/abs/2311.03500v1 )

ライセンス: Link先を確認
Chenyu Gao, Michael E. Kim, Ho Hin Lee, Qi Yang, Nazirah Mohd Khairi, Praitayini Kanakaraj, Nancy R. Newlin, Derek B. Archer, Angela L. Jefferson, Warren D. Taylor, Brian D. Boyd, Lori L. Beason-Held, Susan M. Resnick, The BIOCARD Study Team, Yuankai Huo, Katherine D. Van Schaik, Kurt G. Schilling, Daniel Moyer, Ivana I\v{s}gum, Bennett A. Landman(参考訳) 特定の年代帯で予想されるものと矛盾する画像所見は、神経疾患の早期の指標となり、死亡リスクが増大する可能性がある。 このようなずれに敏感なバイオマーカーを開発する上では, 構造MRIデータからの時系列年齢推定や, 期待値からの偏差が重要な課題となっている。 構造解析を補完する拡散テンソルイメージング(DTI)は、脳白質内の加齢に伴う微細構造変化を同定するのに有効であることが証明されており、脳の年齢予測に有望な追加のモダリティとして提示されている。 初期の研究では、DTIの年齢推定の利点を生かそうとしているが、この予測の成功は、DTIのデータで利用できるマクロ構造的特徴よりも、DTIが提供するユニークなミクロ構造的特徴と微分的特徴に起因しているという証拠はない。 そこで本研究では, 通常の白色物質の加齢変化を捉えるために, ホワイトマター比年齢推定法を開発した。 具体的には,dtiスカラー画像から年齢を予測する際のマクロ構造情報を2つの異なる手法で意図的に無視する。 最初の方法は、興味のある領域からのみ微細な特徴を抽出することに依存する。 2つ目は、画像から直接特徴を学習するために3D残差ニューラルネットワーク(ResNets)を適用している。 未確認データを用いて試験すると、第1の方法は、認知正常な被験者に対して6.11年の平均絶対誤差(MAE)を、第2の方法は認知正常な参加者に対して6.62年の平均絶対誤差(MAE)を、第2の方法は認知正常な参加者に対して4.69年の平均絶対誤差(MAE)を、第4の方法は認知正常な参加者に対して4.96年を達成する。 ResNetモデルは脳年齢予測のための微妙で非マクロな特徴を捉える。

Imaging findings inconsistent with those expected at specific chronological age ranges may serve as early indicators of neurological disorders and increased mortality risk. Estimation of chronological age, and deviations from expected results, from structural MRI data has become an important task for developing biomarkers that are sensitive to such deviations. Complementary to structural analysis, diffusion tensor imaging (DTI) has proven effective in identifying age-related microstructural changes within the brain white matter, thereby presenting itself as a promising additional modality for brain age prediction. Although early studies have sought to harness DTI's advantages for age estimation, there is no evidence that the success of this prediction is owed to the unique microstructural and diffusivity features that DTI provides, rather than the macrostructural features that are also available in DTI data. Therefore, we seek to develop white-matter-specific age estimation to capture deviations from normal white matter aging. Specifically, we deliberately disregard the macrostructural information when predicting age from DTI scalar images, using two distinct methods. The first method relies on extracting only microstructural features from regions of interest. The second applies 3D residual neural networks (ResNets) to learn features directly from the images, which are non-linearly registered and warped to a template to minimize macrostructural variations. When tested on unseen data, the first method yields mean absolute error (MAE) of 6.11 years for cognitively normal participants and MAE of 6.62 years for cognitively impaired participants, while the second method achieves MAE of 4.69 years for cognitively normal participants and MAE of 4.96 years for cognitively impaired participants. We find that the ResNet model captures subtler, non-macrostructural features for brain age prediction.
翻訳日:2023-11-08 18:09:14 公開日:2023-11-06
# 大規模連想記憶から取り出すためのインコンテキスト・エクササイズ

In-Context Exemplars as Clues to Retrieving from Large Associative Memory ( http://arxiv.org/abs/2311.03498v1 )

ライセンス: Link先を確認
Jiachen Zhao(参考訳) 近年,自然言語処理において大規模言語モデル(llm)が著しく進歩している。 llmの最も代表的な能力は、インコンテキスト学習(icl)であり、トレーニングなしで、インコンテキストの例からパターンを学習できる。 ICLの性能は、使用される例に大きく依存する。 しかし、文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかは定かではない。 本稿では,連想記憶モデルからの文脈検索を概念化し,ICLに関する新たな視点を示す。 ホップフィールドネットワークに基づくICLの理論的枠組みを確立する。 このフレームワークに基づき,インコンテキストの例題が icl のパフォーマンスにどのように影響を与えるかを検討し,より効率的な例題選択を提案する。 本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当て、LCMの理解を促進する可能性がある。

Recently, large language models (LLMs) have made remarkable progress in natural language processing. The most representative ability of LLMs is in-context learning (ICL), which enables LLMs to learn patterns from in-context exemplars without training. The performance of ICL greatly depends on the exemplars used. However, how to choose exemplars remains unclear due to the lack of understanding of how in-context learning works. In this paper, we present a novel perspective on ICL by conceptualizing it as contextual retrieval from a model of associative memory. We establish a theoretical framework of ICL based on Hopfield Networks. Based on our framework, we look into how in-context exemplars influence the performance of ICL and propose more efficient active exemplar selection. Our study sheds new light on the mechanism of ICL by connecting it to memory retrieval, with potential implications for advancing the understanding of LLMs.
翻訳日:2023-11-08 18:08:18 公開日:2023-11-06
# 分散ベイズ学習における非同期局所計算

Asynchronous Local Computations in Distributed Bayesian Learning ( http://arxiv.org/abs/2311.03496v1 )

ライセンス: Link先を確認
Kinjal Bhar, He Bai, Jemin George, Carl Busart(参考訳) 機械学習(ML)の分野がセンサネットワークやロボット工学、その他多くのマルチエージェントシステムにまで拡大しているため、推論アルゴリズムの分散展開は多くの注目を集めている。 これらのアルゴリズムは、複数のエージェントが収集した分散データから未知のパラメータを協調的に学習する。 このようなアルゴリズムには、エージェント内計算とエージェント間通信という2つの競合する側面がある。 従来、アルゴリズムは両方を同期的に実行するように設計されている。 しかしながら、ある状況では、信頼できない、時間を要する、あるいはリソースを消費する、といった理由で、コミュニケーションチャネルの粗悪な使用が必要である。 本稿では,高速計算と通信オーバヘッドを同時に低減するゴシップ型非同期通信を提案する。 連続するエージェント間通信間のアクティブエージェントによる複数の(局所)エージェント内計算の効果を解析した。 局所計算では,unadjusted langevin algorithm (ula) mcmcによるベイズサンプリングを用いる。 通信は、連結グラフ(例えば、分散学習)上で行われると仮定されるが、結果は、中央サーバ(例えば、連合学習)があるコーディネートされた通信に拡張することができる。 我々は理論的にその過程の収束率を定量化する。 提案アルゴリズムの有効性を示すために,実世界のデータセットと同様に玩具問題に対するシミュレーションを行い,分類タスクを行うためのmlモデルを訓練する。 我々は、特に低データ範囲において、高速な初期収束と性能精度の向上を観察する。 UCI MLレポジトリのガンマ望遠鏡とmHealthデータセットで,それぞれ平均78%,90%以上の分類精度を達成した。

Due to the expanding scope of machine learning (ML) to the fields of sensor networking, cooperative robotics and many other multi-agent systems, distributed deployment of inference algorithms has received a lot of attention. These algorithms involve collaboratively learning unknown parameters from dispersed data collected by multiple agents. There are two competing aspects in such algorithms, namely, intra-agent computation and inter-agent communication. Traditionally, algorithms are designed to perform both synchronously. However, certain circumstances need frugal use of communication channels as they are either unreliable, time-consuming, or resource-expensive. In this paper, we propose gossip-based asynchronous communication to leverage fast computations and reduce communication overhead simultaneously. We analyze the effects of multiple (local) intra-agent computations by the active agents between successive inter-agent communications. For local computations, Bayesian sampling via unadjusted Langevin algorithm (ULA) MCMC is utilized. The communication is assumed to be over a connected graph (e.g., as in decentralized learning), however, the results can be extended to coordinated communication where there is a central server (e.g., federated learning). We theoretically quantify the convergence rates in the process. To demonstrate the efficacy of the proposed algorithm, we present simulations on a toy problem as well as on real world data sets to train ML models to perform classification tasks. We observe faster initial convergence and improved performance accuracy, especially in the low data range. We achieve on average 78% and over 90% classification accuracy respectively on the Gamma Telescope and mHealth data sets from the UCI ML repository.
翻訳日:2023-11-08 18:07:55 公開日:2023-11-06
# 統一乱数生成ハードウェア設計を生成、シミュレート、デプロイするために高レベル合成と大規模言語モデルを活用する

Leveraging High-Level Synthesis and Large Language Models to Generate, Simulate, and Deploy a Uniform Random Number Generator Hardware Design ( http://arxiv.org/abs/2311.03489v1 )

ライセンス: Link先を確認
James T. Meech(参考訳) 本稿では,大規模言語モデルツールを用いたハードウェア設計のための高レベル合成手法を提案する。 この方法論は、大きな言語モデルを除くオープンソースツールのみを使用する。 ケーススタディとして,我々の手法を用いて,whidboneインタフェースを用いた変分連続乱数生成器の設計を行った。 大規模言語モデル生成シミュレーションとdieharder randomness test suiteを用いて,乱数生成器設計の機能と品質を検証する。 ケーススタディでは,大規模言語モデルチャットログ,Pythonスクリプト,Verilogスクリプト,シミュレーション結果をすべて文書化しています。 オープンソースシリコン130nm設計ツールと組み合わされたハードウェア設計手法は、アプリケーション固有の集積回路設計に革命をもたらすと信じています。 われわれの手法は、モノのインターネットのためのドメイン固有のコンピューティングアクセラレータを構築する際の参入障壁を著しく低くし、より近代的なプロセスノードにおける後の製造のためのコンセプトプロトタイプの証明を行う。

We present a new high-level synthesis methodology for using large language model tools to generate hardware designs. The methodology uses exclusively open-source tools excluding the large language model. As a case study, we use our methodology to generate a permuted congruential random number generator design with a wishbone interface. We verify the functionality and quality of the random number generator design using large language model-generated simulations and the Dieharder randomness test suite. We document all the large language model chat logs, Python scripts, Verilog scripts, and simulation results used in the case study. We believe that our method of hardware design generation coupled with the open source silicon 130 nm design tools will revolutionize application-specific integrated circuit design. Our methodology significantly lowers the bar to entry when building domain-specific computing accelerators for the Internet of Things and proof of concept prototypes for later fabrication in more modern process nodes.
翻訳日:2023-11-08 18:07:17 公開日:2023-11-06
# プライバシーに敏感なレコメンダシステムのためのマルチリゾリューション拡散

Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems ( http://arxiv.org/abs/2311.03488v1 )

ライセンス: Link先を確認
Derek Lilienthal, Paul Mello, Magdalini Eirinaki, Stas Tiomkin(参考訳) 推奨システムはWebエクスペリエンスの不可欠なコンポーネントになっているが、ユーザデータへの依存度が高いため、プライバシやセキュリティ上の懸念が高まる。 ユーザデータを合成データで置換することは、これらの懸念に対処できますが、現実のデータセットを正確に複製することは、非常に難しい問題です。 生成AIの最近の進歩は、様々な領域にわたる現実的なデータを生成するための拡散モデルの印象的な能力を示している。 本研究では,高精度なリコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャするスコアベース拡散推奨モデル(sdrm)を提案する。 SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。 提案手法は, 生成逆数ネットワーク, 変分オートエンコーダなどの競合するベースラインよりも優れており, 様々なデータセットを合成し, 元のデータをRecall@$n$で4.30%, NDCG@$n$で4.65%改善する拡散モデルを提案する。

While recommender systems have become an integral component of the Web experience, their heavy reliance on user data raises privacy and security concerns. Substituting user data with synthetic data can address these concerns, but accurately replicating these real-world datasets has been a notoriously challenging problem. Recent advancements in generative AI have demonstrated the impressive capabilities of diffusion models in generating realistic data across various domains. In this work we introduce a Score-based Diffusion Recommendation Model (SDRM), which captures the intricate patterns of real-world datasets required for training highly accurate recommender systems. SDRM allows for the generation of synthetic data that can replace existing datasets to preserve user privacy, or augment existing datasets to address excessive data sparsity. Our method outperforms competing baselines such as generative adversarial networks, variational autoencoders, and recently proposed diffusion models in synthesizing various datasets to replace or augment the original data by an average improvement of 4.30% in Recall@$n$ and 4.65% in NDCG@$n$.
翻訳日:2023-11-08 18:06:31 公開日:2023-11-06
# CLIP-Motion:Consecutive Observations を用いたロボット行動のリワード関数学習

CLIP-Motion: Learning Reward Functions for Robotic Actions Using Consecutive Observations ( http://arxiv.org/abs/2311.03485v1 )

ライセンス: Link先を確認
Xuzhe Dang and Stefan Edelkamp and Nicolas Ribault(参考訳) 本稿では,クリップベースモデルのパワーを利用してロボット動作の報奨関数を学習する新しい手法を提案する。 伝統的な報酬関数の設計は、しばしば手動のフィーチャエンジニアリングに依存し、一連のタスクをまたいで一般化するのに苦労する。 当社のアプローチでは,状態特徴と画像入力を効果的に処理するCLIPの機能を活用して,この問題を回避する。 一対の連続的な観測から、我々のモデルはそれらの間で実行される動きを特定することに長けている。 対象物に対するグリッパーの指示や立方体の位置の調整など,ロボットのさまざまな動作にまたがる結果を示す。 実験的な評価を通して,ロボット工学の領域において,動作を正確に推定する手法の習熟度と強化学習能力の向上を約束する。

This paper presents a novel method for learning reward functions for robotic motions by harnessing the power of a CLIP-based model. Traditional reward function design often hinges on manual feature engineering, which can struggle to generalize across an array of tasks. Our approach circumvents this challenge by capitalizing on CLIP's capability to process both state features and image inputs effectively. Given a pair of consecutive observations, our model excels in identifying the motion executed between them. We showcase results spanning various robotic activities, such as directing a gripper to a designated target and adjusting the position of a cube. Through experimental evaluations, we underline the proficiency of our method in precisely deducing motion and its promise to enhance reinforcement learning training in the realm of robotics.
翻訳日:2023-11-08 18:06:06 公開日:2023-11-06
# 野生における表情認識のためのマルチロス型特徴融合とトップ2投票アンサンブル決定戦略

Multi Loss-based Feature Fusion and Top Two Voting Ensemble Decision Strategy for Facial Expression Recognition in the Wild ( http://arxiv.org/abs/2311.03478v1 )

ライセンス: Link先を確認
Guangyao Zhou, Yuanlun Xie, Wenhong Tian(参考訳) 野生の表情認識(fer)は、画像品質の影響を受ける課題であり、コンピュータビジョンに広く関心を集めている。 FERのための特徴融合とアンサンブル戦略を同時に使用する研究はない。 本稿では,従来の研究と異なり,単一モデルにおける内部的特徴融合と複数ネットワーク間の特徴融合,およびアンサンブル戦略を適用した。 本稿では,R18+FAMLという新しいシングルモデルとR18+FAML-FGA-T2Vというアンサンブルモデルを提案する。 ResNet18 (R18) の構造に基づいて、R18+FAMLは内部のフィーチャーフュージョンと3つのアテンションブロックを組み合わせることで、特徴抽出の多様性を向上させる。 R18+FAMLの性能向上のために,複数のネットワークの特徴抽出のために畳み込みカーネルを融合させる遺伝的アルゴリズム(FGA)に基づくネットワーク間の特徴融合を提案する。 R18+FAMLとFGAに基づいて、より包括的な分類情報を考慮したFERの分類を支援するための1つのアンサンブル戦略、すなわちトップ2投票(T2V)を提案する。 上記の戦略を組み合わせることで、R18+FAML-FGA-T2Vは主要な表現認識領域に集中することができる。 我々のシングルモデル R18+FAML とアンサンブルモデル R18+FAML-FGA-T2V が$\left(90.32, 62.17, 65.83 \right);%$と$\left(91.59, 63.27, 66.63 \right);% 挑戦的不均衡なFERデータセット RAF-DB, AffectNet-8 と AffectNet-7 のそれぞれでそれぞれ、最先端の結果を上回っている。

Facial expression recognition (FER) in the wild is a challenging task affected by the image quality and has attracted broad interest in computer vision. There is no research using feature fusion and ensemble strategy for FER simultaneously. Different from previous studies, this paper applies both internal feature fusion for a single model and feature fusion among multiple networks, as well as the ensemble strategy. This paper proposes one novel single model named R18+FAML, as well as one ensemble model named R18+FAML-FGA-T2V to improve the performance of the FER in the wild. Based on the structure of ResNet18 (R18), R18+FAML combines internal Feature fusion and three Attention blocks using Multiple Loss functions (FAML) to improve the diversity of the feature extraction. To improve the performance of R18+FAML, we propose a Feature fusion among networks based on the Genetic Algorithm (FGA), which can fuse the convolution kernels for feature extraction of multiple networks. On the basis of R18+FAML and FGA, we propose one ensemble strategy, i.e., the Top Two Voting (T2V) to support the classification of FER, which can consider more classification information comprehensively. Combining the above strategies, R18+FAML-FGA-T2V can focus on the main expression-aware areas. Extensive experiments demonstrate that our single model R18+FAML and the ensemble model R18+FAML-FGA-T2V achieve the accuracies of $\left( 90.32, 62.17, 65.83 \right)\%$ and $\left( 91.59, 63.27, 66.63 \right)\%$ on three challenging unbalanced FER datasets RAF-DB, AffectNet-8 and AffectNet-7 respectively, both outperforming the state-of-the-art results.
翻訳日:2023-11-08 18:05:48 公開日:2023-11-06
# fina:ヒトサイバ・フィジカルシステムの意思決定における副作用の公平性

FinA: Fairness of Adverse Effects in Decision-Making of Human-Cyber-Physical-System ( http://arxiv.org/abs/2311.03468v1 )

ライセンス: Link先を確認
Tianyu Zhao, Salma Elmalaki(参考訳) HCPS(Human-Cyber-Physical-Systems)における意思決定システムにおける公正性の確保は、特に様々な行動や期待を持った多様な個人が、同じアプリケーション空間内で共存し、システム内の共有制御行動の影響を受けている場合の、強い懸念である。 これらの行動の長期的悪影響は、歴史的経験と相互作用が公正性の個々の知覚を形作るにつれ、さらに課題を生じさせる。 本稿では,人間の行動の動的性質や嗜好の変化を考慮しつつ,副作用の持続的な影響を認識しながら,副作用の公平性の観点からフェアネスの課題について論じる。 HCPSコンテキスト内にFinA(Fairness-in-Adverse-Effects)の概念を正式に導入する。 副作用の短期的側面と長期的側面を包括的に包括してFinAの5つの定式化を行った。 筆者らはFinAアプローチの有効性を実証的に検証するため,スマートホームの領域内でのHCPSアプリケーションの評価を行った。 評価の結果,FinAの採用は個人間の公正感の全体的な知覚を著しく向上させ,最先端の手法と比較して平均66.7%の改善が得られた。

Ensuring fairness in decision-making systems within Human-Cyber-Physical-Systems (HCPS) is a pressing concern, particularly when diverse individuals, each with varying behaviors and expectations, coexist within the same application space, influenced by a shared set of control actions in the system. The long-term adverse effects of these actions further pose the challenge, as historical experiences and interactions shape individual perceptions of fairness. This paper addresses the challenge of fairness from an equity perspective of adverse effects, taking into account the dynamic nature of human behavior and evolving preferences while recognizing the lasting impact of adverse effects. We formally introduce the concept of Fairness-in-Adverse-Effects (FinA) within the HCPS context. We put forth a comprehensive set of five formulations for FinA, encompassing both the instantaneous and long-term aspects of adverse effects. To empirically validate the effectiveness of our FinA approach, we conducted an evaluation within the domain of smart homes, a pertinent HCPS application. The outcomes of our evaluation demonstrate that the adoption of FinA significantly enhances the overall perception of fairness among individuals, yielding an average improvement of 66.7% when compared to the state-of-the-art method.
翻訳日:2023-11-08 18:05:07 公開日:2023-11-06
# 神々の遊び--多世界解釈の誤り

On playing gods: The fallacy of the many-worlds interpretation ( http://arxiv.org/abs/2311.03467v1 )

ライセンス: Link先を確認
Luis C. Barbado and Flavio Del Santo(参考訳) 本稿では、量子論のいわゆる多世界解釈(MWI)を論証する方法論的議論を示す。 文献におけるいくつかの既知の批判は、確率の十分な説明の欠如やMWIの膨大な存在論的コストなど、この解釈の問題点を既に指摘している。 しかし、われわれの批判は、いかなるバージョンのMWIの技術的な詳細にも及ばず、同時により一般的で急進的である。 実際、MWIが主要な例である理論のクラス全体が、自然科学に関する事実と呼ばれる科学の基本的な信条を満たすことに失敗していることを示している。 MWIのようなアプローチの問題は、具体的な量子測定結果に関する観察された実証的な証拠を再現するためには、理論が実際に任意の種類の現象、最終的には全ての現象に適用されるという暗黙の仮定を必要とすることである。 我々はこの誤りを全体論的推論ループと呼び、これは自然科学の事実とは相容れないことを示し、MWIは耐え難いことを示し、それを反証する。

We present a methodological argument to refute the so-called many-worlds interpretation (MWI) of quantum theory. Several known criticisms in the literature have already pointed out problematic aspects of this interpretation, such as the lack of a satisfactory account of probabilities, or the huge ontological cost of MWI. Our criticism, however, does not go into the technical details of any version of MWI, but is at the same time more general and more radical. We show, in fact, that a whole class of theories--of which MWI is a prime example--fails to satisfy some basic tenets of science which we call facts about natural science. The problem of approaches the likes of MWI is that, in order to reproduce the observed empirical evidence about any concrete quantum measurement outcome, they require as a tacit assumption that the theory does in fact apply to an arbitrarily large range of phenomena, and ultimately to all phenomena. We call this fallacy the holistic inference loop, and we show that this is incompatible with the facts about natural science, rendering MWI untenable and dooming it to be refuted.
翻訳日:2023-11-08 18:04:44 公開日:2023-11-06
# 原子物理学実験のための低位相ノイズ共振器自己注入型レーザーシステム

A low phase noise cavity transmission self-injection locked laser system for atomic physics experiments ( http://arxiv.org/abs/2311.03461v1 )

ライセンス: Link先を確認
Ludwig Krinner, Lennart Pelzer, Nicolas Spethmann, Kai Dietze, Piet O. Schmidt(参考訳) スペクトル純度の高いレーザーは、量子計算や量子シミュレーションのような応用のために、光時計や原子および分子量子ビットのコヒーレント操作には不可欠である。 基準値へのレーザーの安定化は、狭い線幅と高いスペクトル純度を与えることができる。 しかし、広く使われているダイオードレーザーは高速位相ノイズを示し、高忠実度量子ビット操作を防止する。 ここでは, 媒体微細空洞を用いた自己注入型ロックダイオードレーザーシステムについて述べる。 キャビティは安定した共振周波数を提供するだけでなく、約100kHzのキャビティ線幅を超える位相ノイズの低通過フィルタとして機能し、結果としてdcから注入ロック限界までの低位相ノイズが生じる。 我々は、期待されるレーザー性能をモデル化し、スペクトル分析器として1つのトラップ付き$^{40}$Ca$^{+}$-ionを用いてベンチマークする。 本研究では,100kHz〜2MHzのフーリエ周波数におけるレーザの高速位相ノイズを,最先端のポウンド・ドレーバー・ホール安定化型拡張キャビティレーザーよりも20-30dBの-110dBc/Hzと-120dBc/Hzのノイズフロアに抑制することを示した。 この強い抑制は、光量子ビットの操作中に不整合(spurious)スピンフリップを回避し、量子論理分光法、量子シミュレーション、量子計算に応用したダイオードレーザーを用いたレーザー駆動ゲートを改善する。

Lasers with high spectral purity are indispensable for optical clocks and coherent manipulation of atomic and molecular qubits for applications such as quantum computing and quantum simulation. Stabilisation of the laser to a reference can provide a narrow linewidth and high spectral purity. However, widely-used diode lasers exhibit fast phase noise that prevents high fidelity qubit manipulation. Here we demonstrate a self-injection locked diode laser system utilizing a medium finesse cavity. The cavity not only provides a stable resonance frequency, but at the same time acts as a low-pass filter for phase noise beyond the cavity linewidth of around 100 kHz, resulting in low phase noise from dc to the injection lock limit. We model the expected laser performance and benchmark it using a single trapped $^{40}$Ca$^{+}$-ion as a spectrum analyser. We show that the fast phase noise of the laser at relevant Fourier frequencies of 100 kHz to >2 MHz is suppressed to a noise floor of between -110 dBc/Hz and -120 dBc/Hz, an improvement of 20 to 30 dB over state-of-the-art Pound-Drever-Hall-stabilized extended-cavity diode lasers. This strong suppression avoids incoherent (spurious) spin flips during manipulation of optical qubits and improves laser-driven gates in using diode lasers with applications in quantum logic spectroscopy, quantum simulation and quantum computation.
翻訳日:2023-11-08 18:04:25 公開日:2023-11-06
# 閉じ込められたイオン量子コンピュータの正確なシャットリングに対するブール充足性の利用

Using Boolean Satisfiability for Exact Shuttling in Trapped-Ion Quantum Computers ( http://arxiv.org/abs/2311.03454v1 )

ライセンス: Link先を確認
Daniel Schoenberger, Stefan Hillmich, Matthias Brandl, Robert Wille(参考訳) トラップイオンはスケーラブルな量子コンピュータを構築するための有望な技術である。 量子ビット品質を提供するだけでなく、量子電荷結合デバイス(Quantum Charge Coupled Device, QCCD)アーキテクチャと呼ばれるモジュラーアーキテクチャも実現している。 これらのデバイス内では、イオンはトラップ全体と、ストレージ用のメモリゾーンや実際の計算のための処理ゾーンなど、様々な専用ゾーンを通して(移動)移動することができる。 しかし、この動きは必要な時間ステップでコストを発生させ、デコヒーレンスの確率を増大させ、従って最小化すべきである。 本稿では,boolean satisfiability によるイオントラップの運動の形式化を提案する。 この形式化により、与えられた量子アルゴリズムとデバイスアーキテクチャに必要な最小時間ステップを決定することができ、デコヒーレンス確率を低減できる。 実験的な評価により、提案されたアプローチを使って、最小限の結果(すなわち、下界)を初めて決定できることが確認される。 提案手法のオープンソース実装はhttps://github.com/cda-tum/mqt-ion-shuttlerで公開されている。

Trapped ions are a promising technology for building scalable quantum computers. Not only can they provide a high qubit quality, but they also enable modular architectures, referred to as Quantum Charge Coupled Device (QCCD) architecture. Within these devices, ions can be shuttled (moved) throughout the trap and through different dedicated zones, e.g., a memory zone for storage and a processing zone for the actual computation. However, this movement incurs a cost in terms of required time steps, which increases the probability of decoherence, and, thus, should be minimized. In this paper, we propose a formalization of the possible movements in ion traps via Boolean satisfiability. This formalization allows for determining the minimal number of time steps needed for a given quantum algorithm and device architecture, hence reducing the decoherence probability. An empirical evaluation confirms that -- using the proposed approach -- minimal results (i.e., the lower bound) can be determined for the first time. An open-source implementation of the proposed approach is publicly available at https://github.com/cda-tum/mqt-ion-shuttler.
翻訳日:2023-11-08 18:04:00 公開日:2023-11-06
# 多体物理学の量子シミュレーションをベンチマークするための対称性に基づくプロトコル

A symmetry-based protocol to benchmark quantum simulation of many-body physics ( http://arxiv.org/abs/2311.03452v1 )

ライセンス: Link先を確認
Aditya Prakash, Bharath Hebbe Madhusudhana(参考訳) マルチボディシステムの量子シミュレーション、特に超低温原子と閉じ込められたイオンを用いると、量子制御のユニークな形態が示され、ハミルトンによって生成されるマルチキュービットゲートの直接の実装である。 結果として、十分に確立されたゲートベンチマーク技術はこの形での量子制御には適さないため、ベンチマークに関してもユニークな課題に直面している。 ここでは,対象多体ハミルトニアンの対称性を,量子シミュレーションにおける実験誤差のベンチマークや特徴付けに利用できることを示す。 我々は2種類の誤りを考察する。 (i)適用ハミルトニアン及び適用ハミルトニアンにおける系統的誤差から生じる一元的誤差 (ii) 応用ハミルトニアンにおけるランダムなショットツーショット変動から生じる正準非マルコフ誤差 理想的には時間的に一定である対象ハミルトニアン自体の期待値のダイナミクスを用いてこれらの誤差を特徴づけることができることを示す。 誤差が存在する場合、ターゲットハミルトニアンの期待値は、演算子熱化仮説(OTH)を満たすときに特徴的な熱化ダイナミクスを示す。 すなわち、短い時間における振動と、長い時間限界における定常値への緩和である。 定常状態値はコヒーレント誤差の特徴付けに利用できるが、振動の振幅は非マルコフ誤差を推定するために用いられる。 これらの結果に基づいてユニタリエラーを特徴付けるための2つの実験プロトコルを開発し、そのうちの1つはシングルキュービットのアドレス処理を必要とし、もう1つはそうでない。 また,非マルコフ誤りの検出と部分的特徴付けを行うプロトコルを開発した。

Quantum simulation of many-body systems, particularly using ultracold atoms and trapped ions, presents a unique form of quantum control -- it is a direct implementation of a multi-qubit gate generated by the Hamiltonian. As a consequence, it also faces a unique challenge in terms of benchmarking, because the well-established gate benchmarking techniques are unsuitable for this form of quantum control. Here we show that the symmetries of the target many-body Hamiltonian can be used to benchmark and even characterize experimental errors in the quantum simulation. We consider two forms of errors: (i) unitary errors arising out of systematic errors in the applied Hamiltonian and (ii) canonical non-Markovian errors arising out of random shot-to-shot fluctuations in the applied Hamiltonian. We show that the dynamics of the expectation value of the target Hamiltonian itself, which is ideally constant in time, can be used to characterize these errors. In the presence of errors, the expectation value of the target Hamiltonian shows a characteristic thermalization dynamics, when it satisfies the operator thermalization hypothesis (OTH). That is, an oscillation in the short time followed by relaxation to a steady-state value in the long time limit. We show that while the steady-state value can be used to characterize the coherent errors, the amplitude of the oscillations can be used to estimate the non-Markovian errors. We develop two experimental protocols to characterize the unitary errors based on these results, one of which requires single-qubit addressing and the other one doesn't. We also develop a protocol to detect and partially characterize non-Markovian errors.
翻訳日:2023-11-08 18:03:42 公開日:2023-11-06
# LAIONs Denへ:マルチモーダルデータセットにおけるヘイトの調査

Into the LAIONs Den: Investigating Hate in Multimodal Datasets ( http://arxiv.org/abs/2311.03449v1 )

ライセンス: Link先を確認
Abeba Birhane, Vinay Prabhu, Sang Han, Vishnu Naresh Boddeti, Alexandra Sasha Luccioni(参考訳) 「モデルをスケールし、データをスケールし、計算をスケール」は、今日の生成AIの世界における支配的な感情である。 モデルスケーリングの影響は広く研究されているが、私たちはデータスケーリングの表面とその影響をひっかき始めたばかりです。 これはlaionのような視覚言語データセットの文脈において特に重要である。 これらのデータセットは継続的に拡大しており、品質、合法性、コンテンツといった多くの欠点があることで知られているcommon crawlのような大規模インターネットダンプをベースに構築されている。 データセットは大規模な生成モデルのバックボーンとして機能し、有害な社会バイアスや歴史的バイアスやステレオタイプの運用と持続に寄与する。 本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果を検討する。 その結果,HCR(Hate Content Rate)と呼ばれる指標を用いて,ヘイトコンテンツがデータセットスケールで約12%増加し,質的,定量的に測定された。 また,画像のみに基づいて計算されたnsfw値に基づくデータセットのフィルタリングは,alt-textの有害コンテンツをすべて排除するものではないことを見出した。 むしろ、保守的なフィルタリングを行うときでさえ、憎悪、ターゲット、攻撃的なテキストが残されていることがわかったのです。 最終的には、AIコミュニティにおけるデータセットのキュレーションと使用に関する結果の重要性に関するリフレクションと議論で終わります。 コードとメタデータのアセットはhttps://github.com/vinayprabhu/hate_scalingで公開されている。 コンテンツ警告:本論文は、混乱、苦痛、および/または攻撃的なヘイトフルテキストの例を含む。

'Scale the model, scale the data, scale the compute' is the reigning sentiment in the world of generative AI today. While the impact of model scaling has been extensively studied, we are only beginning to scratch the surface of data scaling and its consequences. This is especially of critical importance in the context of vision-language datasets such as LAION. These datasets are continually growing in size and are built based on large-scale internet dumps such as the Common Crawl, which is known to have numerous drawbacks ranging from quality, legality, and content. The datasets then serve as the backbone for large generative models, contributing to the operationalization and perpetuation of harmful societal and historical biases and stereotypes. In this paper, we investigate the effect of scaling datasets on hateful content through a comparative audit of two datasets: LAION-400M and LAION-2B. Our results show that hate content increased by nearly 12% with dataset scale, measured both qualitatively and quantitatively using a metric that we term as Hate Content Rate (HCR). We also found that filtering dataset contents based on Not Safe For Work (NSFW) values calculated based on images alone does not exclude all the harmful content in alt-text. Instead, we found that trace amounts of hateful, targeted, and aggressive text remain even when carrying out conservative filtering. We end with a reflection and a discussion of the significance of our results for dataset curation and usage in the AI community. Code and the meta-data assets curated in this paper are publicly available at https://github.com/vinayprabhu/hate_scaling. Content warning: This paper contains examples of hateful text that might be disturbing, distressing, and/or offensive.
翻訳日:2023-11-08 18:03:19 公開日:2023-11-06
# 量子モンテカルロシミュレーションにおける相互作用フェルミオンに対する指数観測量の積分アルゴリズム

An integral algorithm of exponential observables for interacting fermions in quantum Monte Carlo simulation ( http://arxiv.org/abs/2311.03448v1 )

ライセンス: Link先を確認
Xu Zhang, Gaopei Pan, Bin-Bin Chen, Kai Sun, Zi Yang Meng(参考訳) 指数オブザーバブルは$\log \langle e^{\hat{x}}\rangle$(ここで$\hat{x}$は膨大な量)と定式化され、自由エネルギーと絡み合いエントロピーを含む量子多体系の研究において重要な役割を果たす。 e^{X}$ が熱力学極限において指数的に大きい(あるいは小さい)ことを考えると、この指数量の期待値を正確に計算することは大きな課題となる。 本稿では, 量子モンテカルロ法(DQMC)を用いて, 相互作用するフェルミオン系における可観測物を定量化するための包括的アルゴリズムを提案する。 このアルゴリズムを2次元半充填ハバードモデルに適用した。 強結合限界では, 内部エネルギーから導出した従来の方法に比べ, 精度が大幅に向上することを示した。 また, この手法は n 番目の r\'enyi のエントロピーを高精度かつ効率的に測定できることを示す。 さらに注目すべきは、この改善が計算複雑性の増大を伴わないことだ。 このアルゴリズムは指数的変動を効果的に抑制し、容易に他のモデルに一般化することができる。

Exponential observables, formulated as $\log \langle e^{\hat{X}}\rangle$ where $\hat{X}$ is an extensive quantity, play a critical role in study of quantum many-body systems, examples of which include the free-energy and entanglement entropy. Given that $e^{X}$ becomes exponentially large (or small) in the thermodynamic limit, accurately computing the expectation value of this exponential quantity presents a significant challenge. In this Letter, we propose a comprehensive algorithm for quantifying these observables in interacting fermion systems, utilizing the determinant quantum Monte Carlo (DQMC) method. We have applied this novel algorithm to the 2D half-filled Hubbard model. At the strong coupling limit, our method showcases a significant accuracy improvement compared to conventional methods that are derived from the internal energy. We also illustrate that this novel approach delivers highly efficient and precise measurements of the nth R\'enyi entanglement entropy. Even more noteworthy is that this improvement comes without incurring increases in computational complexity. This algorithm effectively suppresses exponential fluctuations and can be easily generalized to other models.
翻訳日:2023-11-08 18:02:54 公開日:2023-11-06
# 一般流体力学の展望

Generalized hydrodynamics: a perspective ( http://arxiv.org/abs/2311.03438v1 )

ライセンス: Link先を確認
Benjamin Doyon, Sarang Gopalakrishnan, Frederik M{\o}ller, J\"org Schmiedmayer, Romain Vasseur(参考訳) 従来の流体力学は、長寿命の励起が少ない系を記述する。 しかし、ある次元では、多くの実験的な系は、積分可能な極限に近づいたため、高温でも多くの長寿命励起を特徴とする。 このようなモデルは従来の流体力学では扱えない。 一般化流体力学(英語版)(GHD)の枠組みは、1次元モデルの力学を扱うために最近開発され、積分可能性、流体力学、運動論のアイデアを組み合わせて輸送の定量的理論を考案した。 GHDは1次元輸送に関する長年にわたるいくつかの疑問を解決し、保存された量の輸送を超えた動的問題や統合不可能なシステムの研究にも利用されてきた。 本稿では,ghdの主なアイデアと予測を紹介するとともに,ghdフレームワークの最近の理論的拡張と実験的なテストについて調査するとともに,ghdの視点が解明できるであろうトランスポートにおけるいくつかの疑問について述べる。

Conventional hydrodynamics describes systems with few long-lived excitations. In one dimension, however, many experimentally relevant systems feature a large number of long-lived excitations even at high temperature, because they are proximate to integrable limits. Such models cannot be treated using conventional hydrodynamics. The framework of generalized hydrodynamics (GHD) was recently developed to treat the dynamics of one-dimensional models: it combines ideas from integrability, hydrodynamics, and kinetic theory to come up with a quantitative theory of transport. GHD has successfully settled several longstanding questions about one-dimensional transport; it has also been leveraged to study dynamical questions beyond the transport of conserved quantities, and to systems that are not integrable. In this article we introduce the main ideas and predictions of GHD, survey some of the most recent theoretical extensions and experimental tests of the GHD framework, and discuss some open questions in transport that the GHD perspective might elucidate.
翻訳日:2023-11-08 18:02:35 公開日:2023-11-06
# United We Stand, Divided We Fall: UnityGraph for Unsupervised procedure Learning from Videos

United We Stand, Divided We Fall: UnityGraph for Unsupervised Procedure Learning from Videos ( http://arxiv.org/abs/2311.03550v1 )

ライセンス: Link先を確認
Siddhant Bansal, Chetan Arora, C.V. Jawahar(参考訳) 同じタスクの複数のビデオが与えられた場合、手順学習はキーステップを特定し、タスクを実行する順番を決定する。 この目的のために、既存のアプローチでは、2つのビデオから生成された信号を使用する。 これは、アルゴリズムがビデオ間の視点を欠いているため、キーステップの発見が困難になる。 代わりに,教師なしグラフ型手続き学習(gpl)フレームワークを提案する。 GPLは、ビデオ内のコンテキストとビデオ間のコンテキストの両方を取得するために、タスクのすべてのビデオをグラフとして表現する新しいUnityGraphで構成されている。 さらに、同じキーステップに対する同様の埋め込みを得るために、UnityGraphの埋め込みはNode2Vecアルゴリズムを使って教師なしの方法で更新される。 最後に、キーステップを特定するために、KMeansを使って埋め込みをクラスタ化する。 我々は、ベンチマークのProceL、CrossTask、EgoProceLでGPLをテストし、サードパーティのデータセットで2%、最先端でEgoProceLで3.6%の平均的な改善を実現した。

Given multiple videos of the same task, procedure learning addresses identifying the key-steps and determining their order to perform the task. For this purpose, existing approaches use the signal generated from a pair of videos. This makes key-steps discovery challenging as the algorithms lack inter-videos perspective. Instead, we propose an unsupervised Graph-based Procedure Learning (GPL) framework. GPL consists of the novel UnityGraph that represents all the videos of a task as a graph to obtain both intra-video and inter-videos context. Further, to obtain similar embeddings for the same key-steps, the embeddings of UnityGraph are updated in an unsupervised manner using the Node2Vec algorithm. Finally, to identify the key-steps, we cluster the embeddings using KMeans. We test GPL on benchmark ProceL, CrossTask, and EgoProceL datasets and achieve an average improvement of 2% on third-person datasets and 3.6% on EgoProceL over the state-of-the-art.
翻訳日:2023-11-08 17:55:39 公開日:2023-11-06
# InterVLS:ビジョンランゲージサロゲートによる対話型モデル理解と改善

InterVLS: Interactive Model Understanding and Improvement with Vision-Language Surrogates ( http://arxiv.org/abs/2311.03547v1 )

ライセンス: Link先を確認
Jinbin Huang, Wenbin He, Liang Gou, Liu Ren, Chris Bryan(参考訳) ディープラーニングモデルは重要なアプリケーションで広く使われ、デプロイ前のモデルの理解と改善の必要性を強調している。 視覚的な概念に基づく手法は、この目的のためにますます使われるが、(1)ほとんどの概念は解釈可能性に欠け、(2)既存の手法はモデル知識を必要とし、しばしば実行時に利用できない。 さらに (3) には、後述のモデル改善のためのノーコードメソッドがない。 これらの問題に対処するため、InterVLSを提示する。 本システムは,テキスト整列の概念を発見し,モデルに依存しない線形サロゲートによる影響を測定することによって,モデル理解を容易にする。 ビジュアル分析を利用することで、InterVLSは概念ベースの説明とパフォーマンスの洞察を提供する。 これにより、ユーザーは概念の影響を調整してモデルを更新できる。 ユーザスタディでintervlを評価し,その機能を2つのシナリオで示す。 その結果、InterVLSは、モデルに対する影響力ある概念を特定し、洞察を得て、モデルを改善するために概念の影響を調整するのに役立つことが示唆された。 我々は研究結果に基づいて議論を締めくくった。

Deep learning models are widely used in critical applications, highlighting the need for pre-deployment model understanding and improvement. Visual concept-based methods, while increasingly used for this purpose, face challenges: (1) most concepts lack interpretability, (2) existing methods require model knowledge, often unavailable at run time. Additionally, (3) there lacks a no-code method for post-understanding model improvement. Addressing these, we present InterVLS. The system facilitates model understanding by discovering text-aligned concepts, measuring their influence with model-agnostic linear surrogates. Employing visual analytics, InterVLS offers concept-based explanations and performance insights. It enables users to adjust concept influences to update a model, facilitating no-code model improvement. We evaluate InterVLS in a user study, illustrating its functionality with two scenarios. Results indicates that InterVLS is effective to help users identify influential concepts to a model, gain insights and adjust concept influence to improve the model. We conclude with a discussion based on our study results.
翻訳日:2023-11-08 17:55:22 公開日:2023-11-06
# 境界損失を伴うセグメンテーション学習における点アノテーションの活用

Leveraging point annotations in segmentation learning with boundary loss ( http://arxiv.org/abs/2311.03537v1 )

ライセンス: Link先を確認
Eva Breznik, Hoel Kervadec, Filip Malmberg, Joel Kullberg, H{\aa}kan Ahlstr\"om, Marleen de Bruijne, Robin Strand(参考訳) 本稿では,点教師ありセマンティックセグメンテーションのための強度ベース距離マップと境界損失の組み合わせについて検討する。 設計により、境界損失は、それらが生じる対象から遠く離れた偽陽性に対してより強いペナルティを課す。 したがって、弱監督には直感的に不適切であり、そこでは基底の真理ラベルは実際の対象よりもはるかに小さくなり、ある量の偽陽性(例えば弱い基底の真理)が実際には望ましい。 強度認識距離を使用することで、この欠点を軽減し、トレーニング損失を大幅に増加させることなく、一定の量の偽陽性を発生させることができる。 境界損失を弱い監督の下で直接適用する動機は、完全に監督されたセグメンテーションタスクにおいて大きな成功を収めるだけでなく、文献に既存の弱い監督された手法で通常必要とされる追加の事前情報や外部情報を必要としないことである。 この定式化は、その単純さと計算効率のため、既存のCRFベースの正規化器よりも魅力的である。 ACDC (heart segmentation) と POEM (who-body abdominal organ segmentation) の2種類のマルチクラスデータセットで実験を行った。 予備的な結果が奨励され、この監督戦略が大きな可能性を秘めていることを示している。 ACDCでは、CRF-lossベースのアプローチよりも優れており、POEMデータではそれと同等に動作する。 すべての実験のコードは公開されています。

This paper investigates the combination of intensity-based distance maps with boundary loss for point-supervised semantic segmentation. By design the boundary loss imposes a stronger penalty on the false positives the farther away from the object they occur. Hence it is intuitively inappropriate for weak supervision, where the ground truth label may be much smaller than the actual object and a certain amount of false positives (w.r.t. the weak ground truth) is actually desirable. Using intensity-aware distances instead may alleviate this drawback, allowing for a certain amount of false positives without a significant increase to the training loss. The motivation for applying the boundary loss directly under weak supervision lies in its great success for fully supervised segmentation tasks, but also in not requiring extra priors or outside information that is usually required -- in some form -- with existing weakly supervised methods in the literature. This formulation also remains potentially more attractive than existing CRF-based regularizers, due to its simplicity and computational efficiency. We perform experiments on two multi-class datasets; ACDC (heart segmentation) and POEM (whole-body abdominal organ segmentation). Preliminary results are encouraging and show that this supervision strategy has great potential. On ACDC it outperforms the CRF-loss based approach, and on POEM data it performs on par with it. The code for all our experiments is openly available.
翻訳日:2023-11-08 17:55:06 公開日:2023-11-06
# PcLast: 計画可能な継続的遅延状態を発見する

PcLast: Discovering Plannable Continuous Latent States ( http://arxiv.org/abs/2311.03534v1 )

ライセンス: Link先を確認
Anurag Koul, Shivakanth Sujit, Shaoru Chen, Ben Evans, Lili Wu, Byron Xu, Rajan Chari, Riashat Islam, Raihan Seraj, Yonathan Efroni, Lekan Molu, Miro Dudik, John Langford, Alex Lamb(参考訳) 目標条件付き計画の利点は、豊富な高次元観測の学習された低次元表現から得られる。 小型の潜在表現は、変分オートエンコーダや逆ダイナミクスから学習されることが多いが、目標条件付き計画では状態の余裕を無視し、サンプル効率のよい計画能力を妨げている。 本稿では,有効な事前計画のために,到達可能な状態を関連付ける表現を学習する。 まず、多段階逆ダイナミクスを持つ潜在表現を学習し(注意をそらす情報を取り除くため)、その表現を$\ell_2$空間で結合可能な状態に変換する。 提案手法は各種シミュレーションテストベッドで厳密に検証されている。 報酬ベースおよび報酬なし設定の数値的な結果はサンプリング効率が大幅に向上し、計算効率の良い階層的計画を可能にする階層化された状態抽象化が得られる。

Goal-conditioned planning benefits from learned low-dimensional representations of rich, high-dimensional observations. While compact latent representations, typically learned from variational autoencoders or inverse dynamics, enable goal-conditioned planning they ignore state affordances, thus hampering their sample-efficient planning capabilities. In this paper, we learn a representation that associates reachable states together for effective onward planning. We first learn a latent representation with multi-step inverse dynamics (to remove distracting information); and then transform this representation to associate reachable states together in $\ell_2$ space. Our proposals are rigorously tested in various simulation testbeds. Numerical results in reward-based and reward-free settings show significant improvements in sampling efficiency, and yields layered state abstractions that enable computationally efficient hierarchical planning.
翻訳日:2023-11-08 17:54:42 公開日:2023-11-06
# 大規模言語モデルの自然言語説明における不確かさの定量化

Quantifying Uncertainty in Natural Language Explanations of Large Language Models ( http://arxiv.org/abs/2311.03533v1 )

ライセンス: Link先を確認
Sree Harsha Tanneru, Chirag Agarwal, Himabindu Lakkaraju(参考訳) 大規模言語モデル (LLM) は、いくつかの高度な自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。 近年のプロンプト処理では、中間推論ステップとLLM予測のプロキシ説明として機能するキートークンが提案されている。 しかし、これらの説明が信頼性が高く、LCMの挙動を反映しているかどうかは不明である。 本研究では LLM の説明における不確実性を定量化するための最初の試みである。 この目的のために、生成した説明の不確かさを定量化するために、$\textit{verbalized uncertainty}$と$\textit{probing uncertainty}$という2つの新しいメトリクスを提案する。 言語化された不確実性は、llmにその説明に対する自信を示すよう促すが、不確実性を調査することは、不確実性を定量化する手段としてサンプルとモデルの摂動を利用する。 ベンチマークデータセットの実証分析により,不確実性は説明信頼の信頼できる推定値ではないことが明らかとなった。 さらに, 不確実性推定は説明の忠実性と相関し, 高い忠実性を持つ説明に対応する不確実性が低くなることを示した。 本研究は, LLM説明における不確実性の定量化の課題と機会に関する知見を提供し, 基礎モデルの信頼性に関するより広範な議論に寄与する。

Large Language Models (LLMs) are increasingly used as powerful tools for several high-stakes natural language processing (NLP) applications. Recent prompting works claim to elicit intermediate reasoning steps and key tokens that serve as proxy explanations for LLM predictions. However, there is no certainty whether these explanations are reliable and reflect the LLMs behavior. In this work, we make one of the first attempts at quantifying the uncertainty in explanations of LLMs. To this end, we propose two novel metrics -- $\textit{Verbalized Uncertainty}$ and $\textit{Probing Uncertainty}$ -- to quantify the uncertainty of generated explanations. While verbalized uncertainty involves prompting the LLM to express its confidence in its explanations, probing uncertainty leverages sample and model perturbations as a means to quantify the uncertainty. Our empirical analysis of benchmark datasets reveals that verbalized uncertainty is not a reliable estimate of explanation confidence. Further, we show that the probing uncertainty estimates are correlated with the faithfulness of an explanation, with lower uncertainty corresponding to explanations with higher faithfulness. Our study provides insights into the challenges and opportunities of quantifying uncertainty in LLM explanations, contributing to the broader discussion of the trustworthiness of foundation models.
翻訳日:2023-11-08 17:54:27 公開日:2023-11-06
# フェアネス・スティッチ:ニューラルネットワーク・デバイアスにおけるモデル・スティッチの可能性

The Fairness Stitch: Unveiling the Potential of Model Stitching in Neural Network De-Biasing ( http://arxiv.org/abs/2311.03532v1 )

ライセンス: Link先を確認
Modar Sulaiman and Kallol Roy(参考訳) 機械学習モデルにおける公正性の追求は、銀行ローン承認から顔検出まで、さまざまなアプリケーションにおいて重要な研究課題となっている。 さまざまな領域で人工知能アルゴリズムが広く採用されているにもかかわらず、これらのモデルにおけるバイアスや差別の存在に関する懸念は続いている。 そこで本研究では, 深層学習モデルの公平性を高めるために, TFS(The Fairness Stitch)と呼ばれる新しい手法を提案する。 フェアネス制約を取り入れつつ、モデルステッチとトレーニングを共同で組み合わせる方法。 本研究では, celeba と utkface の2つの既知のデータセットの包括的評価を行い, 提案手法の有効性を評価した。 提案手法を既存のベースライン手法と体系的に比較する。 この結果から,公平性と性能のバランスの取れたトレードオフを実現する上での顕著な改善が明らかとなり,バイアス問題に対処し,機械学習モデルにおける等価な結果の育成に本手法が期待できる可能性を強調した。 本稿では,De-biasingの深層学習モデルにおける最終層の有効性の従来の知恵に挑戦する。

The pursuit of fairness in machine learning models has emerged as a critical research challenge in different applications ranging from bank loan approval to face detection. Despite the widespread adoption of artificial intelligence algorithms across various domains, concerns persist regarding the presence of biases and discrimination within these models. To address this pressing issue, this study introduces a novel method called "The Fairness Stitch (TFS)" to enhance fairness in deep learning models. This method combines model stitching and training jointly, while incorporating fairness constraints. In this research, we assess the effectiveness of our proposed method by conducting a comprehensive evaluation of two well-known datasets, CelebA and UTKFace. We systematically compare the performance of our approach with the existing baseline method. Our findings reveal a notable improvement in achieving a balanced trade-off between fairness and performance, highlighting the promising potential of our method to address bias-related challenges and foster equitable outcomes in machine learning models. This paper poses a challenge to the conventional wisdom of the effectiveness of the last layer in deep learning models for de-biasing.
翻訳日:2023-11-08 17:54:04 公開日:2023-11-06
# 写真は自分がどこにいるかを「矛盾」で答えられる」とコメント。

Comment on "Photons can tell 'contradictory' answer about where they have been'' ( http://arxiv.org/abs/2311.03525v1 )

ライセンス: Link先を確認
Gregory Reznik, Carlotta Versmold, Jan Dziewior, Florian Huber, Harald Weinfurter, Justin Dressel, Lev Vaidman(参考訳) YuanとFeng [Eur. Phys. J. Plus 138:70, 2023]は、Dananらによって行われたネストしたマッハ・ツェンダー干渉計の実験の修正を提案した。 [植物誌 lett. rev. lett. 111:240402, 2013] では、光子がどこにいたのか、トレースが異なる方法でローカルにインプリントされたとき、光子には「矛盾する」答えがあると主張した。 彼らは、彼らの結果は「三経路干渉の観点」から理解可能であるが、ダナンらによって提唱された「不連続な軌跡」の観点からは説明が難しいと結論付けた。 我々は、弱いトレースアプローチ(「不連続軌道」の視点に基づく)は、元豊実験の一貫した説明を与えると主張する。 フォトンの矛盾するメッセージは、ダナンらの実験的方法が不適切な設定で適用されたときに、それらがどこにあったかを示す光子の例である。

Yuan and Feng [Eur. Phys. J. Plus 138:70, 2023] recently proposed a modification of the nested Mach-Zehnder interferometer experiment performed by Danan et al. [Phys. Rev. Lett. 111:240402, 2013] and argued that photons give "contradictory" answers about where they have been, when traces are locally imprinted on them in different ways. They concluded that their results are comprehensible from what they call the "three-path interference viewpoint", but difficult to explain from the "discontinuous trajectory" viewpoint advocated by Danan et al. We argue that the weak trace approach (the basis of the "discontinuous trajectory" viewpoint) provides a consistent explanation of the Yuan-Feng experiment. The contradictory messages of the photons are just another example of photons lying about where they have been when the experimental method of Danan et al. is applied in an inappropriate setup.
翻訳日:2023-11-08 17:53:45 公開日:2023-11-06
# オープンワールド半教師付き学習理解のためのグラフ理論フレームワーク

A Graph-Theoretic Framework for Understanding Open-World Semi-Supervised Learning ( http://arxiv.org/abs/2311.03524v1 )

ライセンス: Link先を確認
Yiyou Sun and Zhenmei Shi and Yixuan Li(参考訳) オープンワールド半教師付き学習は、ラベル付き集合と既知のクラスとの事前知識を活用することにより、ラベル付きデータにおいて既知のクラスと新しいクラスの両方を推論することを目的としている。 その重要性にもかかわらず、この問題には理論的根拠が欠けている。 本稿では,グラフの分解によってクラスタリングが理論的に特徴付けられるオープンワールド設定に適したグラフ理論フレームワークを形式化し,ギャップを埋める。 我々のグラフ理論フレームワークは実用的なアルゴリズムを照らし、保証を提供する。 特に、グラフ定式化に基づいて、SORL(Spectral Open World Representation Learning)と呼ばれるアルゴリズムを適用し、損失を最小限に抑えることは、グラフ上のスペクトル分解と等価であることを示す。 このような等価性により、既知のクラスと新しいクラスのクラスタリング性能に縛られる証明可能なエラーを導出し、ラベル付きデータが役立ったときに厳密に分析することができる。 経験的に、SORLは、理論的な保証を享受しながら、実用的な使用にアピールする一般的なベンチマークデータセットにおいて、いくつかの強力なベースラインをマッチまたは上回ることができる。

Open-world semi-supervised learning aims at inferring both known and novel classes in unlabeled data, by harnessing prior knowledge from a labeled set with known classes. Despite its importance, there is a lack of theoretical foundations for this problem. This paper bridges the gap by formalizing a graph-theoretic framework tailored for the open-world setting, where the clustering can be theoretically characterized by graph factorization. Our graph-theoretic framework illuminates practical algorithms and provides guarantees. In particular, based on our graph formulation, we apply the algorithm called Spectral Open-world Representation Learning (SORL), and show that minimizing our loss is equivalent to performing spectral decomposition on the graph. Such equivalence allows us to derive a provable error bound on the clustering performance for both known and novel classes, and analyze rigorously when labeled data helps. Empirically, SORL can match or outperform several strong baselines on common benchmark datasets, which is appealing for practical usage while enjoying theoretical guarantees.
翻訳日:2023-11-08 17:53:26 公開日:2023-11-06
# 脳ネットワークと知性: 静止状態fmriデータに対するグラフニューラルネットワークによるアプローチ

Brain Networks and Intelligence: A Graph Neural Network Based Approach to Resting State fMRI Data ( http://arxiv.org/abs/2311.03520v1 )

ライセンス: Link先を確認
Bishal Thapaliya, Esra Akbas, Jiayu Chen, Raam Sapkota, Bhaskar Ray, Pranav Suresh, Vince Calhoun, Jingyu Liu(参考訳) Resting-state functional magnetic resonance imaging (rsfMRI)は、特定のタスクや刺激に頼らずに脳の機能的組織を捉えることができるため、脳機能と認知過程の関係を調査するための強力なツールである。 本稿では,rsfMRIによる静的機能ネットワーク接続行列上のグラフニューラルネットワークを用いて,インテリジェンス(流体,結晶化,全知能)を予測するBrainRGINという新しいモデリングアーキテクチャを提案する。 既存のグラフ畳み込みネットワークから拡張したアプローチでは、クラスタリングベースの埋め込みおよびグラフ同型ネットワークをグラフ畳み込み層に組み込んで、脳サブネットワーク組織の性質と効率的なネットワーク表現を、topkプールと注意に基づく読み出し関数と組み合わせて反映する。 提案するアーキテクチャを大規模データセット,特に青年期脳認知発達データセット上で評価し,知能の個人差を予測する上での有効性を実証した。 我々のモデルは、既存の関連するグラフアーキテクチャや他の従来の機械学習モデルよりも低い平均二乗誤差と高い相関スコアを達成しました。 中前頭回は流体および結晶化知能の両方に重要な寄与を示し、これらの認知過程におけるその重要な役割を示唆した。 total composite scoreは、脳の様々な領域を識別し、全体の知能の複雑な性質を基礎としている。

Resting-state functional magnetic resonance imaging (rsfMRI) is a powerful tool for investigating the relationship between brain function and cognitive processes as it allows for the functional organization of the brain to be captured without relying on a specific task or stimuli. In this paper, we present a novel modeling architecture called BrainRGIN for predicting intelligence (fluid, crystallized, and total intelligence) using graph neural networks on rsfMRI derived static functional network connectivity matrices. Extending from the existing graph convolution networks, our approach incorporates a clustering-based embedding and graph isomorphism network in the graph convolutional layer to reflect the nature of the brain sub-network organization and efficient network expression, in combination with TopK pooling and attention-based readout functions. We evaluated our proposed architecture on a large dataset, specifically the Adolescent Brain Cognitive Development Dataset, and demonstrated its effectiveness in predicting individual differences in intelligence. Our model achieved lower mean squared errors and higher correlation scores than existing relevant graph architectures and other traditional machine learning models for all of the intelligence prediction tasks. The middle frontal gyrus exhibited a significant contribution to both fluid and crystallized intelligence, suggesting their pivotal role in these cognitive processes. Total composite scores identified a diverse set of brain regions to be relevant which underscores the complex nature of total intelligence.
翻訳日:2023-11-08 17:53:06 公開日:2023-11-06
# 自己注意改善に基づく高分解能電力機器認識

High-resolution power equipment recognition based on improved self-attention ( http://arxiv.org/abs/2311.03518v1 )

ライセンス: Link先を確認
Siyi Zhang, Cheng Liu, Xiang Li, Xin Zhai, Zhen Wei, Sizhe Li, Xun Ma(参考訳) 変圧器画像認識の分野では,変圧器検査の自動化が注目されている。 しかし,既存のモデルではパラメータ数が制限されているため,高解像度画像を直接適用することはできない。 この課題に対処するため,本論文では,この問題に適した深層自己注意ネットワークの改良について紹介する。 提案モデルは,基本ネットワーク,地域提案ネットワーク,対象領域の抽出とセグメント化のためのモジュール,最終予測ネットワークの4つの主要コンポーネントからなる。 本論文の革新的アプローチは, 部分ローカライゼーションと認識のプロセスを切り離して, ローカライゼーションのための低分解能画像と認識のための高分解能画像とを区別するものである。 さらに、深層自己注意ネットワークの予測機構は、画像の意味的文脈を独自に取り入れ、認識性能を大幅に改善する。 比較実験により、この手法は他の2つの一般的な目標認識モデルよりも優れており、電気機器の点検を自動化するための画期的な視点を提供する。

The current trend of automating inspections at substations has sparked a surge in interest in the field of transformer image recognition. However, due to restrictions in the number of parameters in existing models, high-resolution images can't be directly applied, leaving significant room for enhancing recognition accuracy. Addressing this challenge, the paper introduces a novel improvement on deep self-attention networks tailored for this issue. The proposed model comprises four key components: a foundational network, a region proposal network, a module for extracting and segmenting target areas, and a final prediction network. The innovative approach of this paper differentiates itself by decoupling the processes of part localization and recognition, initially using low-resolution images for localization followed by high-resolution images for recognition. Moreover, the deep self-attention network's prediction mechanism uniquely incorporates the semantic context of images, resulting in substantially improved recognition performance. Comparative experiments validate that this method outperforms the two other prevalent target recognition models, offering a groundbreaking perspective for automating electrical equipment inspections.
翻訳日:2023-11-08 17:52:42 公開日:2023-11-06
# SoundCam: 室内音響を使って人間を見つけるためのデータセット

SoundCam: A Dataset for Finding Humans Using Room Acoustics ( http://arxiv.org/abs/2311.03517v1 )

ライセンス: Link先を確認
Mason Wang, Samuel Clarke, Jui-Hsien Wang, Ruohan Gao, Jiajun Wu(参考訳) 部屋の音響特性は、部屋の形状、部屋内の物体、そして部屋の特定の位置の産物である。 部屋の音響特性は、音源とリスナー位置の間のインパルス応答(RIR)によって特徴づけられるか、部屋に存在する自然信号の記録から大まかに推測される。 室内の物体の位置の変化は、RIRによって特徴づけられるように、部屋の音響特性の計測可能な変化を引き起こす。 既存のRIRのデータセットは、環境内のオブジェクトの位置を体系的に変更しないか、あるいはシミュレーションされたRIRのみで構成されている。 SoundCamは、Wildの部屋から公開されたユニークなRIRのデータセットとして最大です。 これには、室内のインパルス応答の10チャンネルの実世界計測と、コントロールされた音響実験室、部屋内リビングルーム、会議室を含む3つの部屋における2000の10チャンネルの音楽記録が含まれる。 これらの測定は、人間の検出や識別、位置の追跡など、興味深いタスクに利用できることを示す。

A room's acoustic properties are a product of the room's geometry, the objects within the room, and their specific positions. A room's acoustic properties can be characterized by its impulse response (RIR) between a source and listener location, or roughly inferred from recordings of natural signals present in the room. Variations in the positions of objects in a room can effect measurable changes in the room's acoustic properties, as characterized by the RIR. Existing datasets of RIRs either do not systematically vary positions of objects in an environment, or they consist of only simulated RIRs. We present SoundCam, the largest dataset of unique RIRs from in-the-wild rooms publicly released to date. It includes 5,000 10-channel real-world measurements of room impulse responses and 2,000 10-channel recordings of music in three different rooms, including a controlled acoustic lab, an in-the-wild living room, and a conference room, with different humans in positions throughout each room. We show that these measurements can be used for interesting tasks, such as detecting and identifying humans, and tracking their positions.
翻訳日:2023-11-08 17:52:20 公開日:2023-11-06
# ワンウェイ関数からの古典鍵を用いた量子公開鍵暗号化の不可能性に向けて

Towards the Impossibility of Quantum Public Key Encryption with Classical Keys from One-Way Functions ( http://arxiv.org/abs/2311.03512v1 )

ライセンス: Link先を確認
Samuel Bouaziz--Ermann, Alex B. Grilo, Damien Vergnaud, and Quoc-Huy Vu(参考訳) 近年、セキュリティは古典的プロトコルよりも弱い計算仮定に依存している量子プロトコルの提案への関心が高まっている。 近年,量子公開鍵を考えると,一方方向関数(OWF)からの公開鍵暗号(PKE)が可能であることが確認されている。 Impagliazzo と Rudich (STOC'89) の不合理な結果を考えると、OWF の古典的な PKE は期待できないことに注意。 しかし、量子公開鍵の分布は難しい課題である。 したがって、我々の研究を動機付ける主な疑問は、 owf の量子 pke が古典的公開鍵を持つ場合に可能かどうかである。 このようなプロトコルは、暗号文も古典的であり、古典的な通信を伴う量子強化鍵増幅(KA)のAusstrin et al.(CRYPTO'22)の不合理性の結果を考えると不可能である。 本稿では,従来の公開鍵を用いたpkeのブラックボックス分離と,austrinらによって初めて導入された多項式相性予想に基づくowfからの量子暗号文に着目した。 より正確には、PKEの復号アルゴリズムがOWFに問い合わせない場合の分離を示す。 我々は、Austroinらの手法を拡張して結果を証明し、プロトコルの最後のメッセージが量子状態となるような拡張古典的通信モデルにおいて、KAに対する攻撃を示す。

There has been a recent interest in proposing quantum protocols whose security relies on weaker computational assumptions than their classical counterparts. Importantly to our work, it has been recently shown that public-key encryption (PKE) from one-way functions (OWF) is possible if we consider quantum public keys. Notice that we do not expect classical PKE from OWF given the impossibility results of Impagliazzo and Rudich (STOC'89). However, the distribution of quantum public keys is a challenging task. Therefore, the main question that motivates our work is if quantum PKE from OWF is possible if we have classical public keys. Such protocols are impossible if ciphertexts are also classical, given the impossibility result of Austrin et al. (CRYPTO'22) of quantum enhanced key-agreement (KA) with classical communication. In this paper, we focus on black-box separation for PKE with classical public key and quantum ciphertext from OWF under the polynomial compatibility conjecture, first introduced in Austrin et al.. More precisely, we show the separation when the decryption algorithm of the PKE does not query the OWF. We prove our result by extending the techniques of Austrin et al. and we show an attack for KA in an extended classical communication model where the last message in the protocol can be a quantum state.
翻訳日:2023-11-08 17:52:02 公開日:2023-11-06
# スマートフォンにおける医療処方獲得のための音声対話システム : 開発・コーパス・評価

Spoken Dialogue System for Medical Prescription Acquisition on Smartphone: Development, Corpus and Evaluation ( http://arxiv.org/abs/2311.03510v1 )

ライセンス: Link先を確認
Ali Can Kocabiyikoglu and Fran\c{c}ois Portet and Jean-Marc Babouchkine and Prudence Gibert and Herv\'e Blanchon and Ga\"etan Gavazzi(参考訳) 病院情報システム(HIS)は医療機関の不可欠な部分となり、現在、処方支援ソフトウェアを組み込んでいる。 処方支援ソフトウェアは構造化情報取得を可能にし、処方薬の安全性、適切性、効率を改善し、有害薬物イベント(ADE)の数を減らす。 しかし、そのようなシステムは、医師が医療を提供する代わりに情報を入力するコンピュータに費やす時間を増やす。 さらに、新規来院医は、それぞれのHISが独自のインターフェースを持っているため、複雑なインターフェースを管理することを学ぶ必要がある。 本稿では,スマートフォン上でアクセス可能な音声対話システムとして,e-prescribing softwareの自然言語インタフェースを提案する。 このシステムにより、加入者は通常の習慣に近い形で、口頭で処方を記録できる。 システムは、規定ソフトウェアによってチェックされる準備ができている処方薬の正式な表現を抽出し、対話を使用して、必須情報、正しいエラー、特定の状況の警告を行う。 我々の知る限り,音声による処方対話システムは存在しないため,対話モデリング,意味抽出,データ拡張に重点を置き,低リソース環境において開発したシステムを提案する。 このシステムは55人の参加者で野生で評価された。 以上の結果から,当システムの平均処方時間は66.15秒,他の専門家は35.64秒であり,医師は76\%,他の専門家は72\%であった。 すべての評価データが記録され、注釈付けされ、PxCorpusは、コミュニティで利用可能となった最初の発声薬用処方薬コーパスである(\url{https://doi.org/10.5281/zenodo.6524162})。

Hospital information systems (HIS) have become an essential part of healthcare institutions and now incorporate prescribing support software. Prescription support software allows for structured information capture, which improves the safety, appropriateness and efficiency of prescriptions and reduces the number of adverse drug events (ADEs). However, such a system increases the amount of time physicians spend at a computer entering information instead of providing medical care. In addition, any new visiting clinician must learn to manage complex interfaces since each HIS has its own interfaces. In this paper, we present a natural language interface for e-prescribing software in the form of a spoken dialogue system accessible on a smartphone. This system allows prescribers to record their prescriptions verbally, a form of interaction closer to their usual practice. The system extracts the formal representation of the prescription ready to be checked by the prescribing software and uses the dialogue to request mandatory information, correct errors or warn of particular situations. Since, to the best of our knowledge, there is no existing voice-based prescription dialogue system, we present the system developed in a low-resource environment, focusing on dialogue modeling, semantic extraction and data augmentation. The system was evaluated in the wild with 55 participants. This evaluation showed that our system has an average prescription time of 66.15 seconds for physicians and 35.64 seconds for other experts, and a task success rate of 76\% for physicians and 72\% for other experts. All evaluation data were recorded and annotated to form PxCorpus, the first spoken drug prescription corpus that has been made fully available to the community (\url{https://doi.org/10.5281/zenodo.6524162}).
翻訳日:2023-11-08 17:51:38 公開日:2023-11-06
# mfaan:マルチ機能認証ネットワークでオーディオディープフェイクを発表

MFAAN: Unveiling Audio Deepfakes with a Multi-Feature Authenticity Network ( http://arxiv.org/abs/2311.03509v1 )

ライセンス: Link先を確認
Karthik Sivarama Krishnan, Koushik Sivarama Krishnan(参考訳) 現代のデジタル時代には、ディープフェイクの拡散は情報拡散の正当性に重大な挑戦をもたらす。 特にオーディオのディープフェイクは、誤報キャンペーンにおいて重大なリスクを生じさせるような現実的だ。 この脅威に対処するために,我々は,製作された音声コンテンツを検出するための高度アーキテクチャであるmfaan(multi-feature audio authenticity network)を紹介する。 MFAANは、メル周波数ケプストラム係数(MFCC)、線形周波数ケプストラム係数(LFCC)、クロマ短時間フーリエ変換(Chroma-STFT)など、様々な音響表現の強度を活用するために設計された複数の並列パスを組み込んでいる。 これらの特徴を相乗的に融合させることで、MFAANは音声コンテンツの微妙な理解を達成し、真の録音と操作された録音の堅牢な区別を促進する。 2つのベンチマークデータセットである'In-the-Wild' Audio Deepfake DataとThe Fake-or-Real Datasetに対するMFAANの予備的な評価は、それぞれ98.93%と94.47%の精度を達成した。 このような結果は、MFAANの有効性だけでなく、ディープフェイクオーディオコンテンツとの戦いにおける重要なツールとしての可能性を強調している。

In the contemporary digital age, the proliferation of deepfakes presents a formidable challenge to the sanctity of information dissemination. Audio deepfakes, in particular, can be deceptively realistic, posing significant risks in misinformation campaigns. To address this threat, we introduce the Multi-Feature Audio Authenticity Network (MFAAN), an advanced architecture tailored for the detection of fabricated audio content. MFAAN incorporates multiple parallel paths designed to harness the strengths of different audio representations, including Mel-frequency cepstral coefficients (MFCC), linear-frequency cepstral coefficients (LFCC), and Chroma Short Time Fourier Transform (Chroma-STFT). By synergistically fusing these features, MFAAN achieves a nuanced understanding of audio content, facilitating robust differentiation between genuine and manipulated recordings. Preliminary evaluations of MFAAN on two benchmark datasets, 'In-the-Wild' Audio Deepfake Data and The Fake-or-Real Dataset, demonstrate its superior performance, achieving accuracies of 98.93% and 94.47% respectively. Such results not only underscore the efficacy of MFAAN but also highlight its potential as a pivotal tool in the ongoing battle against deepfake audio content.
翻訳日:2023-11-08 17:51:08 公開日:2023-11-06
# 代謝可塑性機構としてのアストロサイトとネットワーク機能

Astrocytes as a mechanism for meta-plasticity and contextually-guided network function ( http://arxiv.org/abs/2311.03508v1 )

ライセンス: Link先を確認
Lulu Gong, Fabio Pasqualetti, Thomas Papouin and ShiNung Ching(参考訳) アストロサイトは哺乳類の脳において高度に発現し、高度にエニグマティックな細胞型である。 伝統的に基本的な生理的サステナンスの仲介者として見なされ、アストロサイトは神経計算においてより直接的な役割を果たすことが認識されている。 この概念に対する概念的な挑戦は、天体活動がニューロンのそれとは全く異なる形態をとるという事実であり、特に、時間スケールのオーダーで起こる。 本稿では,タスクパラメータのゆらぎがタスク内要求よりもはるかに遅い場合において,このような時間スケールの分離によってアストロサイトがコンテキスト依存的な設定で学習できる可能性について論じる。 この考え方は、アストロサイトが生理的共変数のホストに対する感受性のため、神経回路のダイナミクスを機能的にサルエントな方法で調節するのに特に適しているという最近の仮定に基づいている。 神経-シナプス-アストロサイト相互作用の一般的なモデルを構築し、アストロサイトーシスの調節がどのようにメタ可塑性の形態になるかを形式的に解析し、シナプスとニューロンが時間の関数として適応するかを変化させる。 次に,このモデルをバンディットに基づく強化学習タスク環境に組み込むことにより,時間スケールの分離されたアストロサイト変調が,複数の変動するコンテキストを学習できることを示す。 実際、これらのネットワークは動的に均質なネットワークや従来の非ネットワークベースの帯域幅アルゴリズムよりもはるかに確実に学習する。 以上の結果から,脳内の神経-アストロサイト相互作用の存在が,時間スケールの異なる学習やタスク関連情報を回路力学へ伝達する上でどのような効果があるかが示唆された。

Astrocytes are a highly expressed and highly enigmatic cell-type in the mammalian brain. Traditionally viewed as a mediator of basic physiological sustenance, it is increasingly recognized that astrocytes may play a more direct role in neural computation. A conceptual challenge to this idea is the fact that astrocytic activity takes a very different form than that of neurons, and in particular, occurs at orders-of-magnitude slower time-scales. In the current paper, we engage how such time-scale separation may endow astrocytes with the capability to enable learning in context-dependent settings, where fluctuations in task parameters may occur much more slowly than within-task requirements. This idea is based on the recent supposition that astrocytes, owing to their sensitivity to a host of physiological covariates, may be particularly well poised to modulate the dynamics of neural circuits in functionally salient ways. We pose a general model of neural-synaptic-astrocyte interaction and use formal analysis to characterize how astrocytic modulation may constitute a form of meta-plasticity, altering the ways in which synapses and neurons adapt as a function of time. We then embed this model in a bandit-based reinforcement learning task environment, and show how the presence of time-scale separated astrocytic modulation enables learning over multiple fluctuating contexts. Indeed, these networks learn far more reliably versus dynamically homogenous networks and conventional non-network-based bandit algorithms. Our results indicate how the presence of neural-astrocyte interaction in the brain may benefit learning over different time-scale and the conveyance of task relevant contextual information onto circuit dynamics.
翻訳日:2023-11-08 17:50:46 公開日:2023-11-06
# 顔ランドマークと生体信号を用いたマルチモーダル応力検出

Multimodal Stress Detection Using Facial Landmarks and Biometric Signals ( http://arxiv.org/abs/2311.03606v1 )

ライセンス: Link先を確認
Majid Hosseini, Morteza Bodaghi, Ravi Teja Bhupatiraju, Anthony Maida, Raju Gottumukkala(参考訳) 様々なセンシング技術の開発は、個人のストレスと幸福の測定を改善している。 ウェアラブルや顔の感情認識のような単一信号モダリティによって進歩は進んでいるが、複数のモダリティを統合することでストレスのより包括的な理解が可能になる。 マルチモーダル学習は、単一の信号に頼るのではなく、それぞれのモダリティの強さを活かすことを目的としている。 限られた被験者からの高次元データの処理と統合の複雑さを考えると、さらなる研究が必要である。 初期のストレスや感情信号の融合、例えば、基本的な機械学習手法と1D-CNN手法を用いた特徴レベルの融合など、多くの研究が注目されている。 本稿では,顔のランドマークと生体信号を統合するストレス検出のためのマルチモーダル学習手法を提案する。 顔のランドマークを用いた生体信号と2次元CNNからの1D-CNNモデルを統合するため, このマルチモーダル統合を様々な早期融合・後期融合技術と組み合わせて検証した。 モデルの一般化性を厳密なテストで評価し,1つの対象に関連するすべてのサンプルを除外してモデルをトレーニングする。 以上の結果から, 遅延核融合の精度は94.39 %, 早期核融合の精度は98.38 %であった。 この研究は、マルチモーダルアプローチによるストレス検出の強化に関する貴重な洞察に貢献する。 提案研究は,マルチモーダルアプローチを用いたストレス検出における重要な知識を提供する。

The development of various sensing technologies is improving measurements of stress and the well-being of individuals. Although progress has been made with single signal modalities like wearables and facial emotion recognition, integrating multiple modalities provides a more comprehensive understanding of stress, given that stress manifests differently across different people. Multi-modal learning aims to capitalize on the strength of each modality rather than relying on a single signal. Given the complexity of processing and integrating high-dimensional data from limited subjects, more research is needed. Numerous research efforts have been focused on fusing stress and emotion signals at an early stage, e.g., feature-level fusion using basic machine learning methods and 1D-CNN Methods. This paper proposes a multi-modal learning approach for stress detection that integrates facial landmarks and biometric signals. We test this multi-modal integration with various early-fusion and late-fusion techniques to integrate the 1D-CNN model from biometric signals and 2-D CNN using facial landmarks. We evaluate these architectures using a rigorous test of models' generalizability using the leave-one-subject-out mechanism, i.e., all samples related to a single subject are left out to train the model. Our findings show that late-fusion achieved 94.39\% accuracy, and early-fusion surpassed it with a 98.38\% accuracy rate. This research contributes valuable insights into enhancing stress detection through a multi-modal approach. The proposed research offers important knowledge in improving stress detection using a multi-modal approach.
翻訳日:2023-11-08 17:43:34 公開日:2023-11-06
# 広帯域非線形量子光学における有効場理論の導出にシステム保存法を用いる : カスケード二次非線形のケーススタディ

Using system-reservoir methods to derive effective field theories for broadband nonlinear quantum optics: a case study on cascaded quadratic nonlinearities ( http://arxiv.org/abs/2311.03597v1 )

ライセンス: Link先を確認
Chris Gustin, Ryotatsu Yanagimoto, Edwin Ng, Tatsuhiro Onodera, Hideo Mabuchi(参考訳) 広帯域量子光学系では、多数の周波数成分間の非線形相互作用は、ヒューリスティック解析に反する複雑なダイナミクスを引き起こす。 本研究では, 貯水池の自由度を分解し, 残りの系に有効なモデル(有効場理論)を確立するための摂動的枠組みを導入する。 本手法は,分割されたサブシステムの近似対角化とマスター方程式手法を組み合わせたものである。 逐次光学的$\chi^{(2)}$(四次)非線形性の一例として,衣料基本モードの自己相変調と衣料基本モードと第二調和モードのクロス相変調として力学を構成できることを示す。 次に,2光子損失チャネルのような基本波動特性の創発的特徴を,2光子損失チャネルのような2次高調波自由度を正式に排除し,分散的および散逸的パラメータ体系における縮尺モデルの精度について検討する。 本研究は, 広帯域非線形量子フォトニクスにおける複素力学の精度, 直感的な縮退モデルを導出するためのシステム貯留法の有用性を強調した。

In broadband quantum optical systems, nonlinear interactions among a large number of frequency components induce complex dynamics that may defy heuristic analysis. In this work we introduce a perturbative framework for factoring out reservoir degrees of freedom and establishing a concise effective model (effective field theory) for the remaining system. Our approach combines approximate diagonalization of judiciously partitioned subsystems with master equation techniques. We consider cascaded optical $\chi^{(2)}$ (quadratic) nonlinearities as an example and show that the dynamics can be construed (to leading order) as self-phase modulations of dressed fundamental modes plus cross-phase modulations of dressed fundamental and second-harmonic modes. We then formally eliminate the second-harmonic degrees of freedom and identify emergent features of the fundamental wave dynamics, such as two-photon loss channels, and examine conditions for accuracy of the reduced model in dispersive and dissipative parameter regimes. Our results highlight the utility of system-reservoir methods for deriving accurate, intuitive reduced models for complex dynamics in broadband nonlinear quantum photonics.
翻訳日:2023-11-08 17:43:07 公開日:2023-11-06
# カナディアン・ハウス・オブ・コモンズによるカナダ労働力における人工知能技術の意義に関する概説: 生成型人工知能がaiと労働のモデルを破壊している

Brief for the Canada House of Commons Study on the Implications of Artificial Intelligence Technologies for the Canadian Labor Force: Generative Artificial Intelligence Shatters Models of AI and Labor ( http://arxiv.org/abs/2311.03595v1 )

ライセンス: Link先を確認
Morgan R. Frank(参考訳) 生成人工知能(AI)の進歩は、仕事、教育、生産性、そして仕事の未来への関心を喚起している。 過去の技術と同様に、生成的AIは大量失業につながらないかもしれない。 しかし、過去の技術とは異なり、ジェネレーティブaiは創造的で認知的で、潜在的にユビキタスであり、今日のオートメーション予測の一般的な仮定に適さない。 既存の予測では、生成AIは以前自動化に免疫があると考えられていた職業の労働者に影響を与えることが示唆されている。 AIの全機能とアプリケーションが出現するにつれて、政策立案者は労働者のキャリア適応性を促進するべきである。 この目標は、労働力の混乱に直面している労働者の早期指標を特定するために、雇用分離と失業率に関するデータの改善を必要とする。 さらに、先進的な政策は、将来の仕事の要求に備えつつ、AIによる学習をツールとして扱えるように教育プログラムにインセンティブを与えるべきである。

Exciting advances in generative artificial intelligence (AI) have sparked concern for jobs, education, productivity, and the future of work. As with past technologies, generative AI may not lead to mass unemployment. But, unlike past technologies, generative AI is creative, cognitive, and potentially ubiquitous which makes the usual assumptions of automation predictions ill-suited for today. Existing projections suggest that generative AI will impact workers in occupations that were previously considered immune to automation. As AI's full set of capabilities and applications emerge, policy makers should promote workers' career adaptability. This goal requires improved data on job separations and unemployment by locality and job titles in order to identify early-indicators for the workers facing labor disruption. Further, prudent policy should incentivize education programs to accommodate learning with AI as a tool while preparing students for the demands of the future of work.
翻訳日:2023-11-08 17:42:45 公開日:2023-11-06
# pinky: 現代のマルウェア指向動的情報検索ツール

Pinky: A Modern Malware-oriented Dynamic Information Retrieval Tool ( http://arxiv.org/abs/2311.03588v1 )

ライセンス: Link先を確認
Paul Irofti(参考訳) 本稿では,情報検索とアンチマルウェア技術に使用できるリバースエンジニアリングツールを提案する。 私たちの主な貢献は、エミュレーションプロセスに関する洞察を提供することを目的としたインスツルメンテーションフレームワークの設計と実装です。 サンプルエミュレーションはバイナリコードの中間表現への変換とコンパイルと実行によって実現される。 この設計により、情報検索、リバースエンジニアリング、デバッギング、アンチマルウェア製品との統合など、複数のタスクに使用できる汎用ツールになります。

We present here a reverse engineering tool that can be used for information retrieval and anti-malware techniques. Our main contribution is the design and implementation of an instrumentation framework aimed at providing insight on the emulation process. Sample emulation is achieved via translation of the binary code to an intermediate representation followed by compilation and execution. The design makes this a versatile tool that can be used for multiple task such as information retrieval, reverse engineering, debugging, and integration with anti-malware products.
翻訳日:2023-11-08 17:42:25 公開日:2023-11-06
# オンライン紛争の次元:アゴニズムのモデリングに向けて

Dimensions of Online Conflict: Towards Modeling Agonism ( http://arxiv.org/abs/2311.03584v1 )

ライセンス: Link先を確認
Matt Canute, Mali Jin, hannah holtzclaw, Alberto Lusoli, Philippa R Adams, Mugdha Pandya, Maite Taboada, Diana Maynard, Wendy Hui Kyong Chun(参考訳) アゴニズムは多様な視点と堅固な議論を育むことで民主的対話において重要な役割を担っている。 オンライン紛争の領域内には別のタイプのヘイトフル・アタゴニズムがあり、これは建設的な対話を損なう。 オンライン上の競合検出は、プラットフォームのモデレーションと収益化の中心である。 民主的な対話にも欠かせないが、アゴニズムの形をとる場合に限られる。 これら2つの対立をモデル化するために、トレンドの議論のトピックに関連するtwitterの会話を収集した。 本稿では,対立の原因,ターゲット,展開する修辞的戦略など,会話における対立のさまざまな次元をラベル付けするための包括的なアノテーションスキーマを提案する。 このスキーマを使用して、複数のラベルで約4,000の会話を注釈付けしました。 次に,ロジスティック回帰モデルとトランスフォーマティブモデルの両方をデータセット上でトレーニングし,参加者の数やインタラクションの構造など,会話からのコンテキストを取り入れた。 その結果、コンテクストラベルはコンフリクトを識別し、モデルがトピックのバリエーションに対して堅牢になるのに役立つ。 本研究はコンフリクトの異なる次元の概念化、豊富な注釈付きデータセット、コンテンツモデレーションに寄与する有望な結果に寄与する。

Agonism plays a vital role in democratic dialogue by fostering diverse perspectives and robust discussions. Within the realm of online conflict there is another type: hateful antagonism, which undermines constructive dialogue. Detecting conflict online is central to platform moderation and monetization. It is also vital for democratic dialogue, but only when it takes the form of agonism. To model these two types of conflict, we collected Twitter conversations related to trending controversial topics. We introduce a comprehensive annotation schema for labelling different dimensions of conflict in the conversations, such as the source of conflict, the target, and the rhetorical strategies deployed. Using this schema, we annotated approximately 4,000 conversations with multiple labels. We then trained both logistic regression and transformer-based models on the dataset, incorporating context from the conversation, including the number of participants and the structure of the interactions. Results show that contextual labels are helpful in identifying conflict and make the models robust to variations in topic. Our research contributes a conceptualization of different dimensions of conflict, a richly annotated dataset, and promising results that can contribute to content moderation.
翻訳日:2023-11-08 17:42:17 公開日:2023-11-06
# AlphaZero と Tabu Search による超大型グラフの探索

Finding Increasingly Large Extremal Graphs with AlphaZero and Tabu Search ( http://arxiv.org/abs/2311.03583v1 )

ライセンス: Link先を確認
Abbas Mehrabian, Ankit Anand, Hyunjik Kim, Nicolas Sonnerat, Matej Balog, Gheorghe Comanici, Tudor Berariu, Andrew Lee, Anian Ruoss, Anna Bulanova, Daniel Toyama, Sam Blackwell, Bernardino Romera Paredes, Petar Veli\v{c}kovi\'c, Laurent Orseau, Joonkyung Lee, Anurag Murty Naredla, Doina Precup and Adam Zsolt Wagner(参考訳) この研究は、1975年のerd\h{o}sの予想に触発された中心極値グラフ理論の問題を研究するもので、与えられた大きさ(ノード数)のグラフを見つけることを目的としており、3サイクルまたは4サイクルを持つことなく辺の数を最大化している。 この問題を逐次意思決定問題として定式化し,ニューラルネットワーク誘導木探索であるalphazeroと,ヒューリスティック局所探索法であるtabu searchを比較した。 どちらの方法も、カリキュラムを導入することによって、より小さなサイズのよいグラフを使って、より大きなグラフの検索をjump-startする -- いくつかのサイズで最先端の下限を改善する。 また,グラフ空間における探索学習のためのフレキシブルなグラフ生成環境と置換不変ネットワークアーキテクチャを提案する。

This work studies a central extremal graph theory problem inspired by a 1975 conjecture of Erd\H{o}s, which aims to find graphs with a given size (number of nodes) that maximize the number of edges without having 3- or 4-cycles. We formulate this problem as a sequential decision-making problem and compare AlphaZero, a neural network-guided tree search, with tabu search, a heuristic local search method. Using either method, by introducing a curriculum -- jump-starting the search for larger graphs using good graphs found at smaller sizes -- we improve the state-of-the-art lower bounds for several sizes. We also propose a flexible graph-generation environment and a permutation-invariant network architecture for learning to search in the space of graphs.
翻訳日:2023-11-08 17:41:46 公開日:2023-11-06
# 格子場理論のための生成拡散モデル

Generative Diffusion Models for Lattice Field Theory ( http://arxiv.org/abs/2311.03578v1 )

ライセンス: Link先を確認
Lingxiao Wang, Gert Aarts and Kai Zhou(参考訳) 本研究では, 確率微分方程式の観点から生成拡散モデル(dms)と確率量子化を結びつけ, 機械学習と格子場理論の関係を考察する。 本稿では,Langevin方程式によって駆動される確率過程を逆転させて,初期分布からサンプルを生成し,対象分布を近似することにより,DMを概念化できることを示す。 玩具モデルでは,DMが効果的な行動を学ぶ能力を強調している。 さらに、2次元の$\phi^4$量子格子場理論における構成を生成するためのグローバルサンプリングとして機能する可能性を示した。

This study delves into the connection between machine learning and lattice field theory by linking generative diffusion models (DMs) with stochastic quantization, from a stochastic differential equation perspective. We show that DMs can be conceptualized by reversing a stochastic process driven by the Langevin equation, which then produces samples from an initial distribution to approximate the target distribution. In a toy model, we highlight the capability of DMs to learn effective actions. Furthermore, we demonstrate its feasibility to act as a global sampler for generating configurations in the two-dimensional $\phi^4$ quantum lattice field theory.
翻訳日:2023-11-08 17:41:21 公開日:2023-11-06
# 大気乱流中の物体セグメンテーションのための教師なし領域成長ネットワーク

Unsupervised Region-Growing Network for Object Segmentation in Atmospheric Turbulence ( http://arxiv.org/abs/2311.03572v1 )

ライセンス: Link先を確認
Dehao Qin, Ripon Saha, Suren Jayasuriya, Jinwei Ye and Nianyi Li(参考訳) 本稿では,大気乱流の影響を受ける動的シーン用に調整された2段階の教師なしフォアグラウンドオブジェクトセグメンテーションネットワークを提案する。 第1段階では、乱流歪み画像列からの平均光フローを利用して、新しい領域成長アルゴリズムを供給し、動画内の各移動物体の予備マスクを作成する。 第2段階では、一貫性と損失のグループ化を備えたu-netアーキテクチャを採用し、それらのマスクを時空間的アライメントを最適化する。 我々の手法はラベル付きトレーニングデータを必要としないし、長距離ビデオの様々な乱流強度で機能する。 さらに,手動でアノテートした地中真実マスクを用いて,乱流の影響のあるビデオの最初の移動物体分割データセットをリリースする。 本手法は,現在の教師なし手法と比較して,セグメント化精度とロバスト性に優れることを示す。

In this paper, we present a two-stage unsupervised foreground object segmentation network tailored for dynamic scenes affected by atmospheric turbulence. In the first stage, we utilize averaged optical flow from turbulence-distorted image sequences to feed a novel region-growing algorithm, crafting preliminary masks for each moving object in the video. In the second stage, we employ a U-Net architecture with consistency and grouping losses to further refine these masks optimizing their spatio-temporal alignment. Our approach does not require labeled training data and works across varied turbulence strengths for long-range video. Furthermore, we release the first moving object segmentation dataset of turbulence-affected videos, complete with manually annotated ground truth masks. Our method, evaluated on this new dataset, demonstrates superior segmentation accuracy and robustness as compared to current state-of-the-art unsupervised methods.
翻訳日:2023-11-08 17:41:05 公開日:2023-11-06
# Cal-DETR:校正検出変換器

Cal-DETR: Calibrated Detection Transformer ( http://arxiv.org/abs/2311.03570v1 )

ライセンス: Link先を確認
Muhammad Akhtar Munir, Salman Khan, Muhammad Haris Khan, Mohsen Ali, Fahad Shahbaz Khan(参考訳) いくつかのコンピュータビジョンタスクで印象的な予測性能を示す一方で、ディープニューラルネットワーク(dnn)は自信過剰な予測を行う傾向がある。 これにより、多くの安全クリティカルなアプリケーションでDNNの採用と利用が制限される。 近年ではDNNの校正への取り組みも行われているが、ほとんど全てが分類作業に重点を置いている。 驚くべきことに、現代のDNNベースの物体検出器、特に検出変換器の校正にはほとんど注意が払われていない。 本稿では,特にDeformable-DETR,UP-DETR,DINOのキャリブレーション検出トランス(Cal-DETR)のメカニズムを提案する。 我々は、列車時の校正経路を追求し、以下の貢献をする。 まず,変圧器を用いた物体検出装置における不確かさを定量化する手法を提案する。 次に,不確実性を利用してクラスロジットを変調する不確実性誘導ロジット変調機構を開発する。 第3に,検出固有の損失の正規化器として機能するロジット混合手法を開発し,不確実性誘導ロジット変調手法を補完してキャリブレーション性能をさらに向上させる。 最後に、私たちは3つのドメイン内と4つのドメイン外シナリオにまたがる広範な実験を行います。 その結果,cal-detrは,検出性能を維持したり改善したりしながら,領域内および領域外検出のキャリブレーションにおいて,競合する列車時間法に対して有効であることがわかった。 私たちのコードベースと事前トレーニングされたモデルは、 \url{https://github.com/akhtarvision/cal-detr}でアクセスできます。

Albeit revealing impressive predictive performance for several computer vision tasks, deep neural networks (DNNs) are prone to making overconfident predictions. This limits the adoption and wider utilization of DNNs in many safety-critical applications. There have been recent efforts toward calibrating DNNs, however, almost all of them focus on the classification task. Surprisingly, very little attention has been devoted to calibrating modern DNN-based object detectors, especially detection transformers, which have recently demonstrated promising detection performance and are influential in many decision-making systems. In this work, we address the problem by proposing a mechanism for calibrated detection transformers (Cal-DETR), particularly for Deformable-DETR, UP-DETR and DINO. We pursue the train-time calibration route and make the following contributions. First, we propose a simple yet effective approach for quantifying uncertainty in transformer-based object detectors. Second, we develop an uncertainty-guided logit modulation mechanism that leverages the uncertainty to modulate the class logits. Third, we develop a logit mixing approach that acts as a regularizer with detection-specific losses and is also complementary to the uncertainty-guided logit modulation technique to further improve the calibration performance. Lastly, we conduct extensive experiments across three in-domain and four out-domain scenarios. Results corroborate the effectiveness of Cal-DETR against the competing train-time methods in calibrating both in-domain and out-domain detections while maintaining or even improving the detection performance. Our codebase and pre-trained models can be accessed at \url{https://github.com/akhtarvision/cal-detr}.
翻訳日:2023-11-08 17:40:39 公開日:2023-11-06
# インクルーシブ・ポートレート:レースを意識した人間のループ技術

Inclusive Portraits: Race-Aware Human-in-the-Loop Technology ( http://arxiv.org/abs/2311.03567v1 )

ライセンス: Link先を確認
Claudia Flores-Saviaga, Christopher Curtis and Saiph Savage(参考訳) AIは、人々の顔の自動検証など、さまざまなサービスの処理に革命をもたらした。 自動化されたアプローチは、大量の顔の検証においてそのスピードと効率を実証しているが、有色人種のコミュニティを含む特定のコミュニティのコンテンツを処理する際の課題に直面することがある。 この課題は、ヒューマンワーカーがAIと連携してエラーを最小限に抑える"Human-in-the-loop"(HITL)アプローチの採用を促している。 しかし、ほとんどのHITLアプローチは労働者の個性や背景を考慮していない。 本稿では,人種を意識した人物認識システムを設計するために,人種に関する社会理論と結びつく新しいアプローチであるインクルーシブ・ポートレート(ip)を提案する。 顔認証のためにHuman-in-the-loop(HITL)システムにレースを組み込むことで、特に有色人種に配信されるサービスにおいて、パフォーマンスが著しく向上することを示す。 また, 労働者を均質群として扱うのではなく, 個々の労働者特性をhitlシステムの設計において考慮することの重要性を強調する。 我々の研究は、より包括的で公平なAIサービスを開発する上で重要な設計上の意味を持っている。

AI has revolutionized the processing of various services, including the automatic facial verification of people. Automated approaches have demonstrated their speed and efficiency in verifying a large volume of faces, but they can face challenges when processing content from certain communities, including communities of people of color. This challenge has prompted the adoption of "human-in-the-loop" (HITL) approaches, where human workers collaborate with the AI to minimize errors. However, most HITL approaches do not consider workers' individual characteristics and backgrounds. This paper proposes a new approach, called Inclusive Portraits (IP), that connects with social theories around race to design a racially-aware human-in-the-loop system. Our experiments have provided evidence that incorporating race into human-in-the-loop (HITL) systems for facial verification can significantly enhance performance, especially for services delivered to people of color. Our findings also highlight the importance of considering individual worker characteristics in the design of HITL systems, rather than treating workers as a homogenous group. Our research has significant design implications for developing AI-enhanced services that are more inclusive and equitable.
翻訳日:2023-11-08 17:39:39 公開日:2023-11-06
# 敵対的データセットの測定

Measuring Adversarial Datasets ( http://arxiv.org/abs/2311.03566v1 )

ライセンス: Link先を確認
Yuanchen Bai, Raoyi Huang, Vijay Viswanathan, Tzu-Sheng Kuo, Tongshuang Wu(参考訳) さまざまなドメインでaiシステムが広く普及する中、安全を維持し、望ましくないエラーを防ぐために、敵対的堅牢性を確保することがますます重要になっている。 研究者は、標準ベンチマークデータセットでは明らかにできないモデルの欠陥をキャプチャするために、さまざまな逆データセット(摂動を通じて)をキュレートした。 しかし、これらの逆転例が元のデータポイントとどのように異なるかは分かっておらず、これらの逆転変換の意図的および意図しない結果を測定する方法論はいまだ存在しない。 本研究では,難易度,多様性,不一致の次元において,NLPタスクのテキストインスタンスを記述した既存の定量化指標を体系的に調査した。 我々は,現在の敵効果データセットを複数選択し,元の敵効果データセットと敵効果データセットの分布を比較した。 結果は、これらのデータセットがメトリクスの観点からより困難になる理由と、基礎となる前提に合致するかどうかについて、貴重な洞察を提供する。

In the era of widespread public use of AI systems across various domains, ensuring adversarial robustness has become increasingly vital to maintain safety and prevent undesirable errors. Researchers have curated various adversarial datasets (through perturbations) for capturing model deficiencies that cannot be revealed in standard benchmark datasets. However, little is known about how these adversarial examples differ from the original data points, and there is still no methodology to measure the intended and unintended consequences of those adversarial transformations. In this research, we conducted a systematic survey of existing quantifiable metrics that describe text instances in NLP tasks, among dimensions of difficulty, diversity, and disagreement. We selected several current adversarial effect datasets and compared the distributions between the original and their adversarial counterparts. The results provide valuable insights into what makes these datasets more challenging from a metrics perspective and whether they align with underlying assumptions.
翻訳日:2023-11-08 17:39:14 公開日:2023-11-06
# 連続行動空間を有する低域MDP

Low-Rank MDPs with Continuous Action Spaces ( http://arxiv.org/abs/2311.03564v1 )

ライセンス: Link先を確認
Andrew Bennett, Nathan Kallus, Miruna Oprescu(参考訳) 低ランクマルコフ決定プロセス(mdps)は、最近、強化学習(rl)領域内で有望なフレームワークとして登場し、ほぼ正しい(pac)学習保証を可能にしつつ、表現学習のためのmlアルゴリズムも取り入れている。 しかし、現在の低ランク MDP の手法は、有限作用空間のみを考慮し、空境界を $|\mathcal{A}| \to \infty$ とし、それらの適用性を大幅に制限する点で制限されている。 本研究では,このような手法を連続的な動作を伴う設定に拡張する問題について検討し,この拡張を行うための複数の具体的なアプローチを検討する。 ケーススタディとして,低ランクMDPを用いたPAC RLの報酬非依存手法であるセミナルFLAMBEアルゴリズム(Agarwal et al., 2020)を検討する。 アルゴリズムの変更がなければ,アクションの連続性が許される場合に類似したpacバウンドが得られることを示す。 具体的には、遷移関数のモデルがホルダー滑らか性条件 w.r.t. 作用を満たし、ポリシークラスが一様に有界な最小密度を持つか、報酬関数もホルダー滑らかであるとき、滑らか性の順序に依存する多項式pacバウンドを得る。

Low-Rank Markov Decision Processes (MDPs) have recently emerged as a promising framework within the domain of reinforcement learning (RL), as they allow for provably approximately correct (PAC) learning guarantees while also incorporating ML algorithms for representation learning. However, current methods for low-rank MDPs are limited in that they only consider finite action spaces, and give vacuous bounds as $|\mathcal{A}| \to \infty$, which greatly limits their applicability. In this work, we study the problem of extending such methods to settings with continuous actions, and explore multiple concrete approaches for performing this extension. As a case study, we consider the seminal FLAMBE algorithm (Agarwal et al., 2020), which is a reward-agnostic method for PAC RL with low-rank MDPs. We show that, without any modifications to the algorithm, we obtain similar PAC bound when actions are allowed to be continuous. Specifically, when the model for transition functions satisfies a Holder smoothness condition w.r.t. actions, and either the policy class has a uniformly bounded minimum density or the reward function is also Holder smooth, we obtain a polynomial PAC bound that depends on the order of smoothness.
翻訳日:2023-11-08 17:38:43 公開日:2023-11-06
# sea you later: uavベースのマルチオブジェクトトラッキングのためのメタデータガイド付き長期再識別

Sea You Later: Metadata-Guided Long-Term Re-Identification for UAV-Based Multi-Object Tracking ( http://arxiv.org/abs/2311.03561v1 )

ライセンス: Link先を確認
Cheng-Yen Yang, Hsiang-Wei Huang, Zhongyu Jiang, Heng-Cheng Kuo, Jie Mei, Chung-I Huang, Jenq-Neng Hwang(参考訳) 海中コンピュータビジョンにおけるUAVに対するマルチオブジェクト追跡(MOT)におけるReIDの再同定はいくつかの理由から困難である。 より具体的には、小型目標の特性の性質とドローンのジンバルの突然の動きにより、短期的再識別(ReID)は困難である。 長期的なReIDは、見た目の多様性の欠如に悩まされている。 これらの課題に対応するために,Metadata Guided MOT (MG-MOT) と呼ばれる適応型モーションベースMOTアルゴリズムを提案する。 このアルゴリズムは、短期追跡データをコヒーレントな長期追跡に効果的に統合し、gps位置、ドローン高度、カメラの向きなど、uavの重要なメタデータを活用する。 このMOTアルゴリズムの有効性を検証するために大規模な実験を行った。 上記のシナリオを包含するシードロネシー追跡データセットを利用することで、uavベースの海上物体追跡チャレンジの最新版において、69.5%の最先端のhotaと85.9%のidf1で、大幅な性能向上を達成している。

Re-identification (ReID) in multi-object tracking (MOT) for UAVs in maritime computer vision has been challenging for several reasons. More specifically, short-term re-identification (ReID) is difficult due to the nature of the characteristics of small targets and the sudden movement of the drone's gimbal. Long-term ReID suffers from the lack of useful appearance diversity. In response to these challenges, we present an adaptable motion-based MOT algorithm, called Metadata Guided MOT (MG-MOT). This algorithm effectively merges short-term tracking data into coherent long-term tracks, harnessing crucial metadata from UAVs, including GPS position, drone altitude, and camera orientations. Extensive experiments are conducted to validate the efficacy of our MOT algorithm. Utilizing the challenging SeaDroneSee tracking dataset, which encompasses the aforementioned scenarios, we achieve a much-improved performance in the latest edition of the UAV-based Maritime Object Tracking Challenge with a state-of-the-art HOTA of 69.5% and an IDF1 of 85.9% on the testing split.
翻訳日:2023-11-08 17:38:19 公開日:2023-11-06
# MRIデータを用いたアルツハイマー病進行予測のための時空間類似度尺度に基づくマルチタスク学習

Spatio-Temporal Similarity Measure based Multi-Task Learning for Predicting Alzheimer's Disease Progression using MRI Data ( http://arxiv.org/abs/2311.03557v1 )

ライセンス: Link先を確認
Xulong Wang, Yu Zhang, Menghui Zhou, Tong Liu, Jun Qi, Po Yang(参考訳) アルツハイマー病(AD)の進行を追跡できる様々なバイオマーカーの同定と利用が近年注目され、臨床医が迅速な意思決定を行えるようになった。 従来の進行モデルは、MRI/PET画像から興味のある領域(平均皮質厚みや局所体積など)で形態学的バイオマーカーを抽出することに焦点を当てている。 これらは効果があるが、時間とともに脳ROIの関係を無視し、相乗的劣化を引き起こす。 本稿では,これらのバイオマーカー間の相乗的劣化関係を探索するために,AD進行を効果的に予測し,バイオマーカー間の臨界関係を敏感に捉えるために,新しい時空間類似度尺度に基づくマルチタスク学習手法を提案する。 具体的には,時間とともに変化するバイオマーカーの変化の大きさと速度を推定するための時間的尺度を最初に定義する。 この傾向をベクトルに変換すると、統一ベクトル空間(空間)におけるバイオマーカー間のこの変数を比較する。 実験の結果,roiに基づく直接学習と比較して,本手法は疾患進行の予測に有効であることがわかった。 また, 病状進行において重要な役割を担うバイオマーカー間の関係の変化を, 経時的安定性の選択によって識別することができる。 皮質体積と表面積の相乗的劣化バイオマーカーが認知的予測に有意な影響を与えることを証明した。

Identifying and utilising various biomarkers for tracking Alzheimer's disease (AD) progression have received many recent attentions and enable helping clinicians make the prompt decisions. Traditional progression models focus on extracting morphological biomarkers in regions of interest (ROIs) from MRI/PET images, such as regional average cortical thickness and regional volume. They are effective but ignore the relationships between brain ROIs over time, which would lead to synergistic deterioration. For exploring the synergistic deteriorating relationship between these biomarkers, in this paper, we propose a novel spatio-temporal similarity measure based multi-task learning approach for effectively predicting AD progression and sensitively capturing the critical relationships between biomarkers. Specifically, we firstly define a temporal measure for estimating the magnitude and velocity of biomarker change over time, which indicate a changing trend(temporal). Converting this trend into the vector, we then compare this variability between biomarkers in a unified vector space(spatial). The experimental results show that compared with directly ROI based learning, our proposed method is more effective in predicting disease progression. Our method also enables performing longitudinal stability selection to identify the changing relationships between biomarkers, which play a key role in disease progression. We prove that the synergistic deteriorating biomarkers between cortical volumes or surface areas have a significant effect on the cognitive prediction.
翻訳日:2023-11-08 17:37:58 公開日:2023-11-06
# コンテキストアンロック:大規模言語モデルを用いたテキストベースの感情分類データセット

Context Unlocks Emotions: Text-based Emotion Classification Dataset Auditing with Large Language Models ( http://arxiv.org/abs/2311.03551v1 )

ライセンス: Link先を確認
Daniel Yang, Aditya Kommineni, Mohammad Alshehri, Nilamadhab Mohanty, Vedant Modi, Jonathan Gratch, Shrikanth Narayanan(参考訳) テキストデータに文脈情報がないため、テキストベースの感情分類データセットのアノテーションプロセスは困難である。 その結果、このようなデータセットには、語彙内のすべての関連する感情を考慮しないラベルがしばしば含まれる。 このテキスト入力とラベルのミスアライメントは、トレーニングされた機械学習モデルのパフォーマンスを低下させる可能性がある。 データセット全体を注釈付けすることは、大規模に実行できないコストと時間を要する作業であるため、大きな言語モデルの表現能力を用いて、入力テキストに追加のコンテキストを合成し、注釈付き感情ラベルとの整合性を高めることを提案する。 本稿では,このような文脈情報を強化するための促進戦略を動機付けるために,テキストコンテキストの形式的定義を提案する。 強化された文脈の有効性を示すために、人間と経験的両方の評価を提供する。 本手法は経験的・人的評価の両面から入力ラベルとラベルのアライメントを改善する。

The lack of contextual information in text data can make the annotation process of text-based emotion classification datasets challenging. As a result, such datasets often contain labels that fail to consider all the relevant emotions in the vocabulary. This misalignment between text inputs and labels can degrade the performance of machine learning models trained on top of them. As re-annotating entire datasets is a costly and time-consuming task that cannot be done at scale, we propose to use the expressive capabilities of large language models to synthesize additional context for input text to increase its alignment with the annotated emotional labels. In this work, we propose a formal definition of textual context to motivate a prompting strategy to enhance such contextual information. We provide both human and empirical evaluation to demonstrate the efficacy of the enhanced context. Our method improves alignment between inputs and their human-annotated labels from both an empirical and human-evaluated standpoint.
翻訳日:2023-11-08 17:37:33 公開日:2023-11-06
# 自治コミュニティにおけるガバナンスキャプチャ:セルボ・クロアチア語ウィキペディアの質的比較

Governance Capture in a Self-Governing Community: A Qualitative Comparison of the Serbo-Croatian Wikipedias ( http://arxiv.org/abs/2311.03616v1 )

ライセンス: Link先を確認
Zarine Kharazian, Kate Starbird, Benjamin Mako Hill(参考訳) どんなタイプのガバナンスアレンジメントによって、一部のオンライングループが偽情報キャンペーンに対してより脆弱になるのか? この質問に答えるために,クロアチア語版とセルビア語版ウィキペディアの質的比較分析を行った。 少なくとも2011年から2020年にかけて、クロアチア語版ウィキペディアは、極右バイアスと完全な偽情報を導入した少数の管理者グループによって引き継がれた。 セルビア語版ウィキペディアは大きさと年齢にほぼ類似しており、多くの言語的・文化的特徴を共有しており、同様の脅威に直面しているが、この運命をほとんど避けたようである。 クロスファンクショナルなプラットフォームレベルの役割における,両コミュニティと他メンバのインタビューに関する基礎的な理論分析に基づいて,クロアチアのウィキペディアにおいて,目標としての高い認知的価値,初期官僚的オープンさの限定,個人主義的かつ非公式な組織形態の選好という3つの特徴の収束が,ガバナンス獲得の機会の窓口となったことを示唆する。 本研究は, オンラインコミュニティの運営基盤が, 組織的偽情報キャンペーンやその他の影響活動において重要な役割を担っていることを示唆している。

What types of governance arrangements makes some self-governed online groups more vulnerable to disinformation campaigns? To answer this question, we present a qualitative comparative analysis of the Croatian and Serbian Wikipedia editions. We do so because between at least 2011 and 2020, the Croatian language version of Wikipedia was taken over by a small group of administrators who introduced far-right bias and outright disinformation; dissenting editorial voices were reverted, banned, and blocked. Although Serbian Wikipedia is roughly similar in size and age, shares many linguistic and cultural features, and faced similar threats, it seems to have largely avoided this fate. Based on a grounded theory analysis of interviews with members of both communities and others in cross-functional platform-level roles, we propose that the convergence of three features -- high perceived value as a target, limited early bureaucratic openness, and a preference for personalistic, informal forms of organization over formal ones -- produced a window of opportunity for governance capture on Croatian Wikipedia. Our findings illustrate that online community governing infrastructures can play a crucial role in systematic disinformation campaigns and other influence operations.
翻訳日:2023-11-08 17:27:15 公開日:2023-11-06
# cafe: 地理的分散データセンターにおけるカーボンアウェアフェデレート学習

CAFE: Carbon-Aware Federated Learning in Geographically Distributed Data Centers ( http://arxiv.org/abs/2311.03615v1 )

ライセンス: Link先を確認
Jieming Bian, Shaolei Ren, Jie Xu(参考訳) 大規模人工知能(ai)モデルの訓練には、重要な計算能力とエネルギーが必要であり、環境影響の可能性のある炭素フットプリントの増加に繋がる。 本稿は、地理的に分散した(地理的に分散した)データセンターでAIモデルをトレーニングする際の課題を考察し、学習性能と炭素フットプリントのバランスを強調する。 我々はフェデレートラーニング(FL)を、生データよりもモデルパラメータ交換を優先し、データのプライバシとローカル規制の遵守を保証するソリューションとみなす。 地域ごとの炭素強度の変動を考慮したCAFE(Carbon-Aware Federated Learning)と呼ばれる新しいフレームワークを提案し,固定的な炭素フットプリント予算内でのトレーニングを最適化する。 このアプローチでは,コアセット選択を学習性能評価に活用し,リアプノフドリフトプラスペナルティフレームワークを用いて将来の炭素強度の予測不可能性に対処し,データセンタ選択の組合せ複雑性に対処する効率的なアルゴリズムを考案する。 実世界の炭素強度データを用いた広範囲なシミュレーションにより,環境影響を最小限に抑えながら,学習性能を最適化する既存の手法よりも優れていることを示す。

Training large-scale artificial intelligence (AI) models demands significant computational power and energy, leading to increased carbon footprint with potential environmental repercussions. This paper delves into the challenges of training AI models across geographically distributed (geo-distributed) data centers, emphasizing the balance between learning performance and carbon footprint. We consider Federated Learning (FL) as a solution, which prioritizes model parameter exchange over raw data, ensuring data privacy and compliance with local regulations. Given the variability in carbon intensity across regions, we propose a new framework called CAFE (short for Carbon-Aware Federated Learning) to optimize training within a fixed carbon footprint budget. Our approach incorporates coreset selection to assess learning performance, employs the Lyapunov drift-plus-penalty framework to address the unpredictability of future carbon intensity, and devises an efficient algorithm to address the combinatorial complexity of the data center selection. Through extensive simulations using real-world carbon intensity data, we demonstrate the efficacy of our algorithm, highlighting its superiority over existing methods in optimizing learning performance while minimizing environmental impact.
翻訳日:2023-11-08 17:26:47 公開日:2023-11-06
# stonybook : 小説の大規模解析のためのシステムと資源

STONYBOOK: A System and Resource for Large-Scale Analysis of Novels ( http://arxiv.org/abs/2311.03614v1 )

ライセンス: Link先を確認
Charuta Pethe, Allen Kim, Rajesh Prabhakar, Tanzir Pial, Steven Skiena(参考訳) 本は歴史的に物語が伝えられる主要なメカニズムである。 本稿では,小説の大規模解析のための資料集として,(1)小説の注釈を標準xml形式に変換するための,オープンソースのエンド・ツー・エンドのnlp分析パイプライン,(2)個別にクリーン・アノテートされた小説49,207冊のコレクション,(3)これら文学作品の大規模集約分析のための関連webインターフェースを備えたデータベースを開発した。 アノテーションシステムで提供される主要な機能とそのユーティリティについて述べる。 本稿では,本サイトから,文字の発生と相互作用の可視化,類似書籍,代表語彙,音声統計の一部,可読性指標などの分析アーティファクトのサンプルを提示する。 また,大量の小説の質的・定量的解析における注釈形式の利用について述べる。

Books have historically been the primary mechanism through which narratives are transmitted. We have developed a collection of resources for the large-scale analysis of novels, including: (1) an open source end-to-end NLP analysis pipeline for the annotation of novels into a standard XML format, (2) a collection of 49,207 distinct cleaned and annotated novels, and (3) a database with an associated web interface for the large-scale aggregate analysis of these literary works. We describe the major functionalities provided in the annotation system along with their utilities. We present samples of analysis artifacts from our website, such as visualizations of character occurrences and interactions, similar books, representative vocabulary, part of speech statistics, and readability metrics. We also describe the use of the annotated format in qualitative and quantitative analysis across large corpora of novels.
翻訳日:2023-11-08 17:26:25 公開日:2023-11-06
# 皮質内脳-コンピュータインタフェースのプラグ・アンド・プレイ安定性:シームレス脳-テキストコミュニケーションの1年間の実証

Plug-and-Play Stability for Intracortical Brain-Computer Interfaces: A One-Year Demonstration of Seamless Brain-to-Text Communication ( http://arxiv.org/abs/2311.03611v1 )

ライセンス: Link先を確認
Chaofei Fan, Nick Hahn, Foram Kamdar, Donald Avansino, Guy H. Wilson, Leigh Hochberg, Krishna V. Shenoy, Jaimie M. Henderson, Francis R. Willett(参考訳) 皮質内脳-コンピュータインターフェース(iBCI)は、筋萎縮性側索硬化症(ALS)などの神経疾患を持つ人々への迅速なコミュニケーションの回復を約束している。 しかし、ハイパフォーマンスを維持するために、iBCIは通常、何日も経つニューラル記録の変化に対処するために頻繁に再校正が必要である。 これにより、iBCIユーザはiBCIの使用をやめ、教師付きデータ収集に従事し、iBCIシステムの使用が困難になる。 本稿では,ユーザを中断することなく通信iBCIの自己校正を可能にする手法を提案する。 提案手法は,iBCI出力の誤りを自動的に訂正するために,大規模言語モデル(LM)を利用する。 自己校正プロセスでは、修正された出力("pseudo-labels")を使用して、iBCIデコーダをオンラインで継続的に更新する。 1年以上 (403日) 以上経過し, 1 名の臨床試験参加者と Pseudo-labels (CORP) フレームワークを用いた継続的オンライン校正を行った。 CORP はオンライン手書き iBCI タスクにおいて 93.84% の安定した復号精度を達成し、他のベースライン手法よりも大幅に優れていた。 特に、これはヒトが関与するiBCI安定デモとしては最長となる。 本研究は,iBCIの長期安定化を図った最初の証拠であり,iBCIの臨床的翻訳における大きな障壁に対処するものである。

Intracortical brain-computer interfaces (iBCIs) have shown promise for restoring rapid communication to people with neurological disorders such as amyotrophic lateral sclerosis (ALS). However, to maintain high performance over time, iBCIs typically need frequent recalibration to combat changes in the neural recordings that accrue over days. This requires iBCI users to stop using the iBCI and engage in supervised data collection, making the iBCI system hard to use. In this paper, we propose a method that enables self-recalibration of communication iBCIs without interrupting the user. Our method leverages large language models (LMs) to automatically correct errors in iBCI outputs. The self-recalibration process uses these corrected outputs ("pseudo-labels") to continually update the iBCI decoder online. Over a period of more than one year (403 days), we evaluated our Continual Online Recalibration with Pseudo-labels (CORP) framework with one clinical trial participant. CORP achieved a stable decoding accuracy of 93.84% in an online handwriting iBCI task, significantly outperforming other baseline methods. Notably, this is the longest-running iBCI stability demonstration involving a human participant. Our results provide the first evidence for long-term stabilization of a plug-and-play, high-performance communication iBCI, addressing a major barrier for the clinical translation of iBCIs.
翻訳日:2023-11-08 17:26:08 公開日:2023-11-06
# radix-netsのテスト: 実行可能なスパーストポロジの進歩

Testing RadiX-Nets: Advances in Viable Sparse Topologies ( http://arxiv.org/abs/2311.03609v1 )

ライセンス: Link先を確認
Kevin Kwak, Zack West, Hayden Jananthan, Jeremy Kepner(参考訳) データの指数的な成長は、MLの研究と産業利用に対する計算上の要求を引き起こした。 ハイパーパラメタライズドディープニューラルネットワーク(DNN)のスパシフィケーションは、複雑なデータのより単純な表現を生成する。 過去の研究では、一部のスパースネットワークは、密度の高いネットワークと同様のパフォーマンスを達成し、ランタイムとストレージを削減している。 スパースDNNのサブグループであるRadiX-Netsは、神経接続の欠如に対処する一様性を維持している。 密度の高いネットワークに依存しない生成は、より速い漸近的なトレーニングをもたらし、コストのかかる刈り取りの必要性を取り除く。 しかしながら、RadiX-Netsに関する作業はほとんど行われておらず、テストは難しい。 本稿ではTensorFlowにおけるRadiX-Netのテストスイートを提案する。 radix-netのパフォーマンスをテストして,スケーラブルなモデルの処理を合理化し,ネットワークトポロジー,初期化,トレーニング動作の関係を明らかにする。 また,同様のスパーシティ・トレインのモデルが良好であるのに対して,不整合かつ精度を低下させる「スタレンジモデル」に遭遇した。

The exponential growth of data has sparked computational demands on ML research and industry use. Sparsification of hyper-parametrized deep neural networks (DNNs) creates simpler representations of complex data. Past research has shown that some sparse networks achieve similar performance as dense ones, reducing runtime and storage. RadiX-Nets, a subgroup of sparse DNNs, maintain uniformity which counteracts their lack of neural connections. Generation, independent of a dense network, yields faster asymptotic training and removes the need for costly pruning. However, little work has been done on RadiX-Nets, making testing challenging. This paper presents a testing suite for RadiX-Nets in TensorFlow. We test RadiX-Net performance to streamline processing in scalable models, revealing relationships between network topology, initialization, and training behavior. We also encounter "strange models" that train inconsistently and to lower accuracy while models of similar sparsity train well.
翻訳日:2023-11-08 17:25:41 公開日:2023-11-06
# アイランド遺伝的アルゴリズムによる量子回路の合成

Synthesis of Quantum Circuits with an Island Genetic Algorithm ( http://arxiv.org/abs/2106.03115v2 )

ライセンス: Link先を確認
Fernando T. Miranda, Pedro Paulo Balbi and Pedro C.S. Costa(参考訳) 量子ハードウェアの進歩は控えめなステップで起こるが、古典的なコンピュータで動くシミュレータは量子アルゴリズムを構築するための貴重なテストベッドを提供する。 ある操作を実行するユニタリ行列が与えられると、たとえ入力ユニタリの近似としても等価な量子回路を得ることは非自明なタスクであり、探索問題としてモデル化することができる。 本研究は、島モデルの概念に基づく進化的探索アルゴリズムを示し、その等価回路におけるユニタリ行列の分解を行う。 量子ウォーカーのコイン、トッフォリゲート、フレドキンゲートの3つの問題が研究されている。 提案したアルゴリズムは量子回路の分解に効率的であることが証明され、汎用的なアプローチとして利用可能な計算力によってのみ制限される。

While advances in quantum hardware occur in modest steps, simulators running on classical computers provide a valuable test bed for the construction of quantum algorithms. Given a unitary matrix that performs certain operation, obtaining the equivalent quantum circuit, even if as an approximation of the input unitary, is a non-trivial task and can be modeled as a search problem. This work presents an evolutionary search algorithm based on the island model concept, for the decomposition of unitary matrices in their equivalent circuit. Three problems are explored: the coin for the quantum walker, the Toffoli gate and the Fredkin gate. The algorithm proposed proved to be efficient in decomposition of quantum circuits, and as a generic approach, it is limited only by the available computational power.
翻訳日:2023-11-08 02:15:36 公開日:2023-11-06
# 単元演算子に対するタンパー検出

Tamper Detection against Unitary Operators ( http://arxiv.org/abs/2105.04487v4 )

ライセンス: Link先を確認
Naresh Goud Boddu and Upendra S. Kapshikar(参考訳) 改ざんする敵に対するストレージデバイスのセキュリティは、古典暗号においてよく研究されているトピックである。 このようなモデルは、相手にブラックボックスアクセスを与え、その目的は、格納されたメッセージを保護するか、改ざんがあればプロトコルを中止することである。 本研究では,量子能力を持つ敵に対して,タンパー検出符号の理論の範囲を広げる。 我々は、$k$-qubit 量子メッセージ $\vert m\rangle$ をエンコードして$n$-qubit 量子コードワード $\vert {\psi_m} \rangle$ を得るエンコードおよびデコードスキームを検討する。 量子符号語 $\vert {\psi_m} \rangle$ は、いくつかの既知の改ざんユニタリ族 $\mathcal{u}_{\mathsf{adv}}$ ($\mathbb{c}^{2^n}$ で作用する) からユニタリ $u$ によって逆に改ざんすることができる。 まず,ユニタリ演算子の作用によって生じる改ざんを検知する,\emph{quantum tamper detection codes} の一般研究を開始する。 改ざんがなければ、元のメッセージを出力したいと思います。 任意のユニタリ作用素の族に対して、量子タンパー検出符号が存在することを示し、従ってユニタリ作用素が恒等作用素に近すぎることを条件として、任意の定数 $\alpha \in (0,1/6)$ に対して$\vert\mathcal{u}_{\mathsf{adv}} \vert <2^{2^{\alpha n}}$ とする。 我々が構築した量子タンパー検出符号は、jafargholi と wichs~['15] によって研究された \emph{classical tamper detection codes} の量子変種と考えられる。 さらに、メッセージセット $\mathcal{M}$ が古典的であるとき、そのような構造は、$\mathcal{U}_{\mathsf{Adv}}$ の任意の $\mathcal{U}_{\mathsf{Adv}}$ に対して \emph{non-malleable code} として実現可能であることを示す。

Security of a storage device against a tampering adversary has been a well-studied topic in classical cryptography. Such models give black-box access to an adversary, and the aim is to protect the stored message or abort the protocol if there is any tampering. In this work, we extend the scope of the theory of tamper detection codes against an adversary with quantum capabilities. We consider encoding and decoding schemes that are used to encode a $k$-qubit quantum message $\vert m\rangle$ to obtain an $n$-qubit quantum codeword $\vert {\psi_m} \rangle$. A quantum codeword $\vert {\psi_m} \rangle$ can be adversarially tampered via a unitary $U$ from some known tampering unitary family $\mathcal{U}_{\mathsf{Adv}}$ (acting on $\mathbb{C}^{2^n}$). Firstly, we initiate the general study of \emph{quantum tamper detection codes}, which detect if there is any tampering caused by the action of a unitary operator. In case there was no tampering, we would like to output the original message. We show that quantum tamper detection codes exist for any family of unitary operators $\mathcal{U}_{\mathsf{Adv}}$, such that $\vert\mathcal{U}_{\mathsf{Adv}} \vert < 2^{2^{\alpha n}}$ for some constant $\alpha \in (0,1/6)$; provided that unitary operators are not too close to the identity operator. Quantum tamper detection codes that we construct can be considered to be quantum variants of \emph{classical tamper detection codes} studied by Jafargholi and Wichs~['15], which are also known to exist under similar restrictions. Additionally, we show that when the message set $\mathcal{M}$ is classical, such a construction can be realized as a \emph{non-malleable code} against any $\mathcal{U}_{\mathsf{Adv}}$ of size up to $2^{2^{\alpha n}}$.
翻訳日:2023-11-08 02:15:25 公開日:2023-11-06
# ProtoryNet - Prototype Trajectoriesの解釈可能なテキスト分類

ProtoryNet - Interpretable Text Classification Via Prototype Trajectories ( http://arxiv.org/abs/2007.01777v5 )

ライセンス: Link先を確認
Dat Hong, Tong Wang, Stephen S. Baek(参考訳) 本稿では,ProtoryNetと呼ばれるテキスト分類のための新しい解釈可能なディープニューラルネットワークを提案する。 現代言語学におけるプロトタイプ理論に動機づけられたProtoryNetは、テキストシーケンスで各文の最も類似したプロトタイプを見つけ、各文の近接したRNNバックボーンを対応するアクティブプロトタイプに供給することで予測を行う。 RNNのバックボーンは、プロトタイプの時間パターンをキャプチャします。 プロトタイプの軌跡は、人間がテキストを分析する方法に似た、RNNモデルの推論過程の直感的できめ細かな解釈を可能にする。 また,モデルが使用するプロトタイプの総数を削減し,解釈性を向上させるためのプロトタイプの刈り込み手順も設計した。 複数の公開データセットの実験によると、ProtoryNetはベースラインのプロトタイプベースのディープニューラルネットよりも正確であり、最先端のブラックボックスモデルと比較してパフォーマンスギャップを低減する。 さらに、プロトタイププルーニング後の結果のProtoryNetモデルでは、すべてのデータセットのプロトタイプが20ほど必要とせず、解釈可能性に大きなメリットがある。 さらに,ProtoryNetがプロトタイプベースの手法よりも直感的で理解しやすいことを示す調査結果を報告する。

We propose a novel interpretable deep neural network for text classification, called ProtoryNet, based on a new concept of prototype trajectories. Motivated by the prototype theory in modern linguistics, ProtoryNet makes a prediction by finding the most similar prototype for each sentence in a text sequence and feeding an RNN backbone with the proximity of each sentence to the corresponding active prototype. The RNN backbone then captures the temporal pattern of the prototypes, which we refer to as prototype trajectories. Prototype trajectories enable intuitive and fine-grained interpretation of the reasoning process of the RNN model, in resemblance to how humans analyze texts. We also design a prototype pruning procedure to reduce the total number of prototypes used by the model for better interpretability. Experiments on multiple public data sets show that ProtoryNet is more accurate than the baseline prototype-based deep neural net and reduces the performance gap compared to state-of-the-art black-box models. In addition, after prototype pruning, the resulting ProtoryNet models only need less than or around 20 prototypes for all datasets, which significantly benefits interpretability. Furthermore, we report a survey result indicating that human users find ProtoryNet more intuitive and easier to understand than other prototype-based methods.
翻訳日:2023-11-08 02:13:56 公開日:2023-11-06
# 低温原子実験のための動的低ノイズマイクロ波源

Dynamical low-noise microwave source for cold-atom experiments ( http://arxiv.org/abs/2003.10989v3 )

ライセンス: Link先を確認
Bernd Meyer-Hoppe, Maximilian Baron, Christophe Cassens, Fabian Anders, Alexander Idel, Jan Peise, Carsten Klempt(参考訳) 量子状態における超低温原子アンサンブルの生成と操作は、超低ノイズ性能を持つ動的制御可能なマイクロ波場の適用を必要とする。 ここでは、2つの独立制御可能な出力経路を持つ低位相マイクロ波源を提案する。 どちらの経路も、超微細な遷移に対して$^{87}$rbで$6.835\,$ghz$\pm$ $25\,$mhzの範囲で周波数を生成する。 提案するマイクロ波源は、2つの市販の周波数シンセサイザーを組み合わせ、超低雑音発振器を7,$GHzで、直接ディジタルシンセサイザーを無線周波数で使用する。 周波数,振幅,位相の高速更新は,周波数,振幅,位相の時間スケールで10~100khzの範囲で480\,\mu$radの低積分位相雑音を示す。 極めてダイナミックな制御により、形状のパルスの発生と複合パルスの展開により、様々なノイズ源の影響を抑えることができる。

The generation and manipulation of ultracold atomic ensembles in the quantum regime require the application of dynamically controllable microwave fields with ultra-low noise performance. Here, we present a low-phase-noise microwave source with two independently controllable output paths. Both paths generate frequencies in the range of $6.835\,$GHz $\pm$ $25\,$MHz for hyperfine transitions in $^{87}$Rb. The presented microwave source combines two commercially available frequency synthesizers: an ultra-low-noise oscillator at $7\,$GHz and a direct digital synthesizer for radiofrequencies. We demonstrate a low integrated phase noise of $480\,\mu$rad in the range of $10\,$Hz to $100\,$kHz and fast updates of frequency, amplitude and phase in sub-$\mu$s time scales. The highly dynamic control enables the generation of shaped pulse forms and the deployment of composite pulses to suppress the influence of various noise sources.
翻訳日:2023-11-08 02:13:30 公開日:2023-11-06
# セマンティクスセグメンテーションのための単眼深度事前学習の有効性について

On the Viability of Monocular Depth Pre-training for Semantic Segmentation ( http://arxiv.org/abs/2203.13987v4 )

ライセンス: Link先を確認
Dong Lao, Alex Wong, Samuel Lu and Stefano Soatto(参考訳) 本研究では,1つの画像から深度を推定するための事前学習と,下流からセマンティックセグメンテーションへの変換を目的としたイメージネット分類などのセマンティックタスクのためのモデルの事前学習との比較について検討する。 幾何学的タスクの事前学習が意味的タスクへの下流移動に有効かどうかという問題は2つの理由において重要である。 実際には、もしそれが実現可能ならば、大規模な人間のアノテーションによる事前訓練コストとバイアスを削減できる。 しかし、もしそうでなければ、人間によるアノテーションは、そのアノテーションの努力を正当化するほど強力な帰納的手段であると断言するでしょう。 意味的に一貫性のある領域にラベルを割り当てる能力は、どのように出現したのでしょうか? 幾何学的タスクの事前学習が、環境の規則性(ギブソンが「切り離された物体」と呼んだもの)を活用する「対象」という概念を創り出すのに十分であれば、ラベルを整列する問題として意味推論のギャップを減らせることになる。 これらの仮説をテストするために、我々はkitti、cityscapes、nyu-v2のような一般的なベンチマークを使用して、最小の微調整を必要とする複数の制御された実験を設計した。 深度事前トレーニングは、平均5.8% mIoU と5.2% の精度で ImageNet の事前トレーニングと比較して性能を上回ることがわかった。 驚くべきことに、同じ測光再投射誤差を最適化する際の奥行き推定に密接に関連する光学的フロー推定は、かなり効果が低いことが判明した。

We explore how pre-training a model to infer depth from a single image compares to pre-training the model for a semantic task, e.g. ImageNet classification, for the purpose of downstream transfer to semantic segmentation. The question of whether pre-training on geometric tasks is viable for downstream transfer to semantic tasks is important for two reasons, one practical and the other scientific. In practice, if it were viable, one could reduce pre-training costs and bias due to human annotation at scale. If, however, it were not, then that would affirm human annotation as an inductive vehicle so powerful to justify the annotation effort. Yet the bootstrapping question would still be unanswered: How did the ability to assign labels to semantically coherent regions emerge? If pre-training on a geometric task was sufficient to prime a notion of 'object', leveraging the regularities of the environment (what Gibson called 'detached objects'), that would reduce the gap to semantic inference as a matter of aligning labels, which could be done with few examples. To test these hypotheses, we have designed multiple controlled experiments that require minimal fine-tuning, using common benchmarks such as KITTI, Cityscapes, and NYU-V2: We explore different forms of supervision for depth estimation, training pipelines, and data resolutions for semantic fine-tuning. We find that depth pre-training exceeds performance relative to ImageNet pre-training on average by 5.8% mIoU and 5.2% pixel accuracy. Surprisingly, we find that optical flow estimation, which is a closely related task to depth estimation as it optimizes the same photometric reprojection error, is considerably less effective.
翻訳日:2023-11-08 02:09:41 公開日:2023-11-06
# 量子コードの最小距離問題の硬さについて

On the Hardness of the Minimum Distance Problem of Quantum Codes ( http://arxiv.org/abs/2203.04262v2 )

ライセンス: Link先を確認
Upendra Kapshikar and Srijita Kundu(参考訳) 量子誤り訂正符号の距離を求める問題の難しさについて検討する。 古典符号の類似問題は、近似形式でさえNPハードであることが知られている。 量子符号の場合、復号に関する様々な問題はNPハードであることが知られているが、距離問題の硬さは以前にも研究されていない。 本研究では,安定化器量子符号の最小距離を求めることはNPハードであることを示す。 この結果は、古典的な符号とグラフを用いて量子コードを構成する量子コードのためのCWSフレームワークを用いて、古典的な最小距離問題を量子問題に還元することで得られる。 この結果に使用される主要な技術ツールは、4サイクル自由グラフのいわゆるグラフ状態距離の低い値である。 特に、4サイクル自由グラフ $G$ の場合、そのグラフ状態距離は $\delta$ または $\delta+1$ のいずれかであり、$\delta$ は$G$ の最小頂点次数である。 安定化器コードからCSSコードへのよく知られた削減により,CSSコードから最小距離の発見もNPハードであることが示唆された。

We study the hardness of the problem of finding the distance of quantum error-correcting codes. The analogous problem for classical codes is known to be NP-hard, even in approximate form. For quantum codes, various problems related to decoding are known to be NP-hard, but the hardness of the distance problem has not been studied before. In this work, we show that finding the minimum distance of stabilizer quantum codes exactly or approximately is NP-hard. This result is obtained by reducing the classical minimum distance problem to the quantum problem, using the CWS framework for quantum codes, which constructs a quantum code using a classical code and a graph. A main technical tool used for our result is a lower bound on the so-called graph state distance of 4-cycle free graphs. In particular, we show that for a 4-cycle free graph $G$, its graph state distance is either $\delta$ or $\delta+1$, where $\delta$ is the minimum vertex degree of $G$. Due to a well-known reduction from stabilizer codes to CSS codes, our results also imply that finding the minimum distance of CSS codes is also NP-hard.
翻訳日:2023-11-08 02:08:23 公開日:2023-11-06
# モノトーン学習

Monotone Learning ( http://arxiv.org/abs/2202.05246v3 )

ライセンス: Link先を確認
Olivier Bousquet and Amit Daniely and Haim Kaplan and Yishay Mansour and Shay Moran and Uri Stemmer(参考訳) 学習データの量は,学習アルゴリズムの一般化能力を決定する重要な要因の1つである。 直感的には、トレーニングデータの増加に伴ってエラー率が低下すると予想する。 おそらく意外なことに、この直観を形式化しようとする自然な試みは、興味深く挑戦的な数学的問題を引き起こす。 例えば、パターン認識に関する古典的な本では、devroye, gyorfi, lugosi (1996) が {monotone} bayes- consistent algorithm が存在するかどうかを問うている。 この問題はペストフ(2021年)が単調ベイズ整合アルゴリズムの複雑な構成を用いて二進分類を解くまで、25年以上にわたって解き放たれていた。 各学習アルゴリズムAは、類似した性能を持つ単調な学習アルゴリズムAに変換可能であることを示す。 これにより、Devroye et al (1996), Viering, Mey, and Loog (2019), Viering and Loog (2021), Mhammedi (2021), の質問に答えることができる。 この変換は、様々な文脈で単調学習者を意味する:例えば、ペストフの結果を任意の数のラベルで分類するタスクへと拡張する。 これは二分分類に合わせたペストフの仕事とは対照的である。 さらに,モノトーンアルゴリズムの誤差について一様境界を与える。 これにより、我々の変換は分散のない設定に適用できる。 例えば、pac学習では、すべての学習可能なクラスが単調pac学習者を受け入れることを意味する。 これは、Viering, Mey, and Loog (2019)、Viering and Loog (2021)、Mhammedi (2021)によって解決される。

The amount of training-data is one of the key factors which determines the generalization capacity of learning algorithms. Intuitively, one expects the error rate to decrease as the amount of training-data increases. Perhaps surprisingly, natural attempts to formalize this intuition give rise to interesting and challenging mathematical questions. For example, in their classical book on pattern recognition, Devroye, Gyorfi, and Lugosi (1996) ask whether there exists a {monotone} Bayes-consistent algorithm. This question remained open for over 25 years, until recently Pestov (2021) resolved it for binary classification, using an intricate construction of a monotone Bayes-consistent algorithm. We derive a general result in multiclass classification, showing that every learning algorithm A can be transformed to a monotone one with similar performance. Further, the transformation is efficient and only uses a black-box oracle access to A. This demonstrates that one can provably avoid non-monotonic behaviour without compromising performance, thus answering questions asked by Devroye et al (1996), Viering, Mey, and Loog (2019), Viering and Loog (2021), and by Mhammedi (2021). Our transformation readily implies monotone learners in a variety of contexts: for example it extends Pestov's result to classification tasks with an arbitrary number of labels. This is in contrast with Pestov's work which is tailored to binary classification. In addition, we provide uniform bounds on the error of the monotone algorithm. This makes our transformation applicable in distribution-free settings. For example, in PAC learning it implies that every learnable class admits a monotone PAC learner. This resolves questions by Viering, Mey, and Loog (2019); Viering and Loog (2021); Mhammedi (2021).
翻訳日:2023-11-08 02:07:43 公開日:2023-11-06
# 入力次元の異なるデータセット間でのトランスファーラーニング--線形回帰のアルゴリズムと解析

Transfer-Learning Across Datasets with Different Input Dimensions: An Algorithm and Analysis for the Linear Regression Case ( http://arxiv.org/abs/2202.05069v4 )

ライセンス: Link先を確認
Luis Pedro Silvestrin, Harry van Zanten, Mark Hoogendoorn, Ger Koole(参考訳) 新しいセンサーと監視デバイスの開発により、より多くのデータソースが機械学習モデルの入力として利用できるようになる。 これらは一方、モデルの精度を向上させるのに役立ちます。 一方で、これらの新しい入力と過去のデータを組み合わせることは、まだ十分に研究されていない課題である。 本研究では,新しいデータと過去のデータを異なる入力次元で組み合わせた移動学習アルゴリズムを提案する。 このアプローチは、通常の最小二乗法と同等の計算複雑性で実装が容易で、ハイパーパラメータチューニングを必要としないため、新しいデータが制限された場合に簡単に適用できる。 他のアプローチとは異なり、その頑健性に関する厳密な理論的研究を行い、新しいデータのみを利用するベースラインで比較することはできないことを示した。 提案手法は,9つの実生活データセット上での最先端性能を実現し,線形移動学習アルゴリズムである線形DSFTより優れ,非線形DSFTと互換性のある性能を実現する。

With the development of new sensors and monitoring devices, more sources of data become available to be used as inputs for machine learning models. These can on the one hand help to improve the accuracy of a model. On the other hand, combining these new inputs with historical data remains a challenge that has not yet been studied in enough detail. In this work, we propose a transfer learning algorithm that combines new and historical data with different input dimensions. This approach is easy to implement, efficient, with computational complexity equivalent to the ordinary least-squares method, and requires no hyperparameter tuning, making it straightforward to apply when the new data is limited. Different from other approaches, we provide a rigorous theoretical study of its robustness, showing that it cannot be outperformed by a baseline that utilizes only the new data. Our approach achieves state-of-the-art performance on 9 real-life datasets, outperforming the linear DSFT, another linear transfer learning algorithm, and performing comparably to non-linear DSFT.
翻訳日:2023-11-08 02:07:14 公開日:2023-11-06
# 量子後連想記憶

A Post-Quantum Associative Memory ( http://arxiv.org/abs/2201.12305v3 )

ライセンス: Link先を確認
Ludovico Lami, Daniel Goldwater, Gerardo Adesso(参考訳) 連想記憶(Associative memory)は、その部分的開示によって完全に検索できる情報を記憶する装置である。 我々は,いくつかの基本的な操作公理を満足する物理理論の最も一般的なクラスを表現する一般確率論(gpts)の枠組みの中で,連想記憶のおもちゃモデルとそれを行う究極の限界について検討する。 私たちは、gptの次元がどれくらい大きいか自問自答し、n$が完全に区別可能な特性で2^m$の状態に対応できるようにします。 このような最小次元を$d(n,m)$ と呼ぶ。 Danzer と Gr\"unbaum によって古い結果を呼び起こすと、GPT が古典的あるいは量子的である必要がある場合、$d(2,m)=m+1$ が $O(2^m)$ と比較されることを示す。 これは、GPTが古典理論と量子理論の両方を指数関数的に上回るタスクの例をもたらす。 より一般に、固定された$N$と漸近的に大きい$m$を解決し、すべての$N\geq 2$に対して$d(N,m) \leq m^{1+o_N(1)}$(m\to\infty$)を証明し、古典的および量子理論よりも指数関数的に改善する。 最後に、与えられた gpt に対して最大$n$-wise の相互識別可能な集合を見つけるという一般問題に対する数値的アプローチを開発し、これは$n$-regular hypergraphs 上の最大クライク問題の例と見なすことができる。

Associative memories are devices storing information that can be fully retrieved given partial disclosure of it. We examine a toy model of associative memory and the ultimate limitations it is subjected to within the framework of general probabilistic theories (GPTs), which represent the most general class of physical theories satisfying some basic operational axioms. We ask ourselves how large the dimension of a GPT should be so that it can accommodate $2^m$ states with the property that any $N$ of them are perfectly distinguishable. Call $d(N,m)$ the minimal such dimension. Invoking an old result by Danzer and Gr\"unbaum, we prove that $d(2,m)=m+1$, to be compared with $O(2^m)$ when the GPT is required to be either classical or quantum. This yields an example of a task where GPTs outperform both classical and quantum theory exponentially. More generally, we resolve the case of fixed $N$ and asymptotically large $m$, proving that $d(N,m) \leq m^{1+o_N(1)}$ (as $m\to\infty$) for every $N\geq 2$, which yields again an exponential improvement over classical and quantum theories. Finally, we develop a numerical approach to the general problem of finding the largest $N$-wise mutually distinguishable set for a given GPT, which can be seen as an instance of the maximum clique problem on $N$-regular hypergraphs.
翻訳日:2023-11-08 02:06:56 公開日:2023-11-06
# コンピュータビジョンを用いた魚の追跡技術に関する調査研究

A Survey of Fish Tracking Techniques Based on Computer Vision ( http://arxiv.org/abs/2110.02551v4 )

ライセンス: Link先を確認
Weiran Li, Zhenbo Li, Fei Li, Meng Yuan, Chaojun Cen, Yanyu Qi, Qiannan Guo, You Li(参考訳) 魚追跡は, 運動軌跡の取得と異常行動の同定のための重要な技術である。 しかし、オクルージョン、マルチスケール追跡、魚の変形など、かなりの課題に直面している。 特に、現存するレビューは、コンピュータビジョンベースの魚追跡アプローチの包括的な概要を提供するよりも、行動分析に重点を置いている。 本稿では,過去7年間(2017-2023年)における魚類追跡技術の進歩について概観する。 基本的な定位と追跡法に重点を置いた多様な魚追跡手法を探求している。 また,水中画像強調や再同定などの魚追跡システムに統合される補助プラグインについても検討した。 さらに,魚追跡研究におけるオープンソースのデータセット,評価指標,課題,応用について概説する。 最後に、視覚ベースの魚追跡技術の洞察と今後の方向性に関する包括的な議論が行われる。 魚追跡アルゴリズムの開発において,我々の研究が部分的に参考になることを期待している。

Fish tracking is a key technology for obtaining movement trajectories and identifying abnormal behavior. However, it faces considerable challenges, including occlusion, multi-scale tracking, and fish deformation. Notably, extant reviews have focused more on behavioral analysis rather than providing a comprehensive overview of computer vision-based fish tracking approaches. This paper presents a comprehensive review of the advancements of fish tracking technologies over the past seven years (2017-2023). It explores diverse fish tracking techniques with an emphasis on fundamental localization and tracking methods. Auxiliary plugins commonly integrated into fish tracking systems, such as underwater image enhancement and re-identification, are also examined. Additionally, this paper summarizes open-source datasets, evaluation metrics, challenges, and applications in fish tracking research. Finally, a comprehensive discussion offers insights and future directions for vision-based fish tracking techniques. We hope that our work could provide a partial reference in the development of fish tracking algorithms.
翻訳日:2023-11-08 02:04:54 公開日:2023-11-06
# オンライン変化点検出に対する対比的アプローチ

A Contrastive Approach to Online Change Point Detection ( http://arxiv.org/abs/2206.10143v3 )

ライセンス: Link先を確認
Artur Goldman, Nikita Puchkin, Valeriia Shcherbakova, and Uliana Vinogradova(参考訳) オンライン変化点検出のための新しい手法を提案する。 提案手法は,変化前分布と変化後分布との差分尺度を最大化するものである。 これはパラメトリックシナリオと非パラメトリックシナリオの両方に適した柔軟な手順につながる。 術式の平均走行距離と検出遅延に対する非漸近的境界を証明した。 アルゴリズムの効率性は、合成および実世界のデータセットに関する数値実験で示される。

We suggest a novel procedure for online change point detection. Our approach expands an idea of maximizing a discrepancy measure between points from pre-change and post-change distributions. This leads to a flexible procedure suitable for both parametric and nonparametric scenarios. We prove non-asymptotic bounds on the average running length of the procedure and its expected detection delay. The efficiency of the algorithm is illustrated with numerical experiments on synthetic and real-world data sets.
翻訳日:2023-11-08 01:56:05 公開日:2023-11-06
# $p$-sparsified Sketchesによるジェネリックリプシッツ損失の高速カーネル法

Fast Kernel Methods for Generic Lipschitz Losses via $p$-Sparsified Sketches ( http://arxiv.org/abs/2206.03827v7 )

ライセンス: Link先を確認
Tamim El Ahmad, Pierre Laforgue, Florence d'Alch\'e-Buc(参考訳) カーネル法(英: kernel method)は、計算上の重要な制限に苦しめながら、しっかりとした理論的基礎を享受する学習アルゴリズムである。 縮小次元の部分空間の解を求めることからなるスケッチは、これらの計算負担を軽減するためのよく研究されたアプローチである。 しかし、ガウスのスケッチのような統計的に正確なスケッチは、通常はヌルエントリをほとんど含んでおらず、カーネルメソッドや非疎グラム行列への応用は、実際には遅いままである。 本稿では,スパルサライズド・ガウス(およびラデマッハ)のスケッチが理論的に有価な近似を生成する一方で,効率の良い \emph{decomposition trick} による重要な時間と空間の節約を可能にしていることを示す。 提案手法をサポートするため,本手法では,ロバスト回帰からマルチクォンタイル回帰まで,幅広いアプリケーションに対して新たな保証を提供することにより,汎用リプシッツ損失を伴う単一および複数出力カーネル問題に対する過大なリスク境界を導出する。 我々の理論結果は,SOTAスケッチ法に対するアプローチの実証的優位性を示す実験と補完される。

Kernel methods are learning algorithms that enjoy solid theoretical foundations while suffering from important computational limitations. Sketching, which consists in looking for solutions among a subspace of reduced dimension, is a well studied approach to alleviate these computational burdens. However, statistically-accurate sketches, such as the Gaussian one, usually contain few null entries, such that their application to kernel methods and their non-sparse Gram matrices remains slow in practice. In this paper, we show that sparsified Gaussian (and Rademacher) sketches still produce theoretically-valid approximations while allowing for important time and space savings thanks to an efficient \emph{decomposition trick}. To support our method, we derive excess risk bounds for both single and multiple output kernel problems, with generic Lipschitz losses, hereby providing new guarantees for a wide range of applications, from robust regression to multiple quantile regression. Our theoretical results are complemented with experiments showing the empirical superiority of our approach over SOTA sketching methods.
翻訳日:2023-11-08 01:55:02 公開日:2023-11-06
# 知識蒸留における知識の希薄化

What Knowledge Gets Distilled in Knowledge Distillation? ( http://arxiv.org/abs/2205.16004v3 )

ライセンス: Link先を確認
Utkarsh Ojha, Yuheng Li, Anirudh Sundara Rajan, Yingyu Liang, Yong Jae Lee(参考訳) 知識蒸留は教師ネットワークから学生ネットワークへ有用な情報を伝達することを目的としており、目前の課題に対する生徒のパフォーマンス向上を主な目的としている。 長年にわたり、新しい技術や知識蒸留のユースケースが発達してきた。 しかし、様々な改善があったにもかかわらず、コミュニティのプロセスに対する根本的な理解には大きなギャップがあるようだ。 具体的には、知識蒸留で蒸留される知識は何か。 言い換えれば、学生はどんなふうに教師に似ていますか。 同じ方法でオブジェクトをローカライズするのでしょうか? 同じ敵のサンプルに騙されるのか? データ不変性は似ているか? 我々の研究はこれらの質問に答えるために包括的な研究を行っている。 既存の手法はタスク性能の向上を超えて間接的にこれらの特性を蒸留できることを示す。 さらに,なぜ知識蒸留がこのように機能するのかを考察し,本研究の成果にも実用的意味があることを示す。

Knowledge distillation aims to transfer useful information from a teacher network to a student network, with the primary goal of improving the student's performance for the task at hand. Over the years, there has a been a deluge of novel techniques and use cases of knowledge distillation. Yet, despite the various improvements, there seems to be a glaring gap in the community's fundamental understanding of the process. Specifically, what is the knowledge that gets distilled in knowledge distillation? In other words, in what ways does the student become similar to the teacher? Does it start to localize objects in the same way? Does it get fooled by the same adversarial samples? Does its data invariance properties become similar? Our work presents a comprehensive study to try to answer these questions. We show that existing methods can indeed indirectly distill these properties beyond improving task performance. We further study why knowledge distillation might work this way, and show that our findings have practical implications as well.
翻訳日:2023-11-08 01:53:51 公開日:2023-11-06
# 強化学習を用いた量子熱機械における電力効率トレードオフのモデルフリー最適化

Model-free optimization of power/efficiency tradeoffs in quantum thermal machines using reinforcement learning ( http://arxiv.org/abs/2204.04785v2 )

ライセンス: Link先を確認
Paolo Andrea Erdman, Frank No\'e(参考訳) 量子熱機械(quantum thermal machine)は、マイクロまたはナノスケールで熱と働きの変換を可能にするオープン量子システムである。 このような平衡系を最適に制御することは、量子技術やデバイスへの応用において非常に難しい課題である。 量子熱エンジンと冷蔵庫の効率と電力の最適トレードオフである平衡外熱力学サイクルを同定するために,強化学習に基づく汎用モデルフリーフレームワークを提案する。 この方法は量子熱機械の知識もシステムモデルも量子状態の知識も必要としない。 代わりに、熱流束のみを観測するので、シミュレーションと実験装置の両方に適用できる。 本研究では,超伝導量子ビットに基づく実験現実的な冷凍機のモデルと,量子調和振動子に基づく熱エンジンを用いて実験を行った。 どちらの場合も、最適電力効率トレードオフを表すパレートフロントと対応するサイクルを識別する。 このような解は、オットーサイクルの最適化や量子摩擦の低減など、文献における以前の提案よりも優れている。

A quantum thermal machine is an open quantum system that enables the conversion between heat and work at the micro or nano-scale. Optimally controlling such out-of-equilibrium systems is a crucial yet challenging task with applications to quantum technologies and devices. We introduce a general model-free framework based on Reinforcement Learning to identify out-of-equilibrium thermodynamic cycles that are Pareto optimal trade-offs between power and efficiency for quantum heat engines and refrigerators. The method does not require any knowledge of the quantum thermal machine, nor of the system model, nor of the quantum state. Instead, it only observes the heat fluxes, so it is both applicable to simulations and experimental devices. We test our method on a model of an experimentally realistic refrigerator based on a superconducting qubit, and on a heat engine based on a quantum harmonic oscillator. In both cases, we identify the Pareto-front representing optimal power-efficiency tradeoffs, and the corresponding cycles. Such solutions outperform previous proposals made in the literature, such as optimized Otto cycles, reducing quantum friction.
翻訳日:2023-11-08 01:52:37 公開日:2023-11-06
# 量子不明瞭性によるアクセス不能情報へのアクセス

Accessing inaccessible information via quantum indistinguishability ( http://arxiv.org/abs/2203.16592v4 )

ライセンス: Link先を確認
Sebastian Horvat, Borivoje Daki\'c(参考訳) 本稿では,その情報を符号化する「ターゲット」粒子を空間的に移動させることで,情報を少し学習する情報理論タスクを提示・解析する。 一方、目的粒子と区別できない場合のみ、追加で独立に準備された量子粒子を用いることでタスクを解くことができることを示す。 一方, 対象粒子と絡み合っている場合のみ, 識別可能な量子粒子を用いることで解くことができる。 そこで,本課題は,独立に生成した識別不能な量子粒子に固有の絡み合いを情報処理に応用する新しい例を示す。 重要なことに、我々のプロトコルの新規性は、関連する粒子間の空間的重なりを必要としないことである。 我々のタスクを解く量子力学プロトコルのクラスを分析することに加えて、我々は結果を一般化し、暗号に適用する可能な方法に向かって行動する。

In this paper we present and analyze an information-theoretic task that consists in learning a bit of information by spatially moving the "target" particle that encodes it. We show that, on one hand, the task can be solved with the use of additional independently prepared quantum particles, only if these are indistinguishable from the target particle. On the other hand, the task can be solved with the use of distinguishable quantum particles, only if they are entangled with the target particle. Our task thus provides a new example in which the entanglement apparently inherent to independently prepared indistinguishable quantum particles is put into use for information processing. Importantly, a novelty of our protocol lies in that it does not require any spatial overlap between the involved particles. Besides analyzing the class of quantum-mechanical protocols that solve our task, we gesture towards possible ways of generalizing our results and of applying them in cryptography.
翻訳日:2023-11-08 01:52:20 公開日:2023-11-06
# 被覆木を用いた最小分離による安定スパースガウス過程

Numerically Stable Sparse Gaussian Processes via Minimum Separation using Cover Trees ( http://arxiv.org/abs/2210.07893v3 )

ライセンス: Link先を確認
Alexander Terenin, David R. Burt, Artem Artemev, Seth Flaxman, Mark van der Wilk, Carl Edward Rasmussen, and Hong Ge(参考訳) ガウス過程は、地理空間モデリングやベイズ最適化、潜在ガウスモデルなど、より大きな機械学習や意思決定システムの一部として頻繁に展開される。 システム内では、ガウスのプロセスモデルがシステムの他の部分と正しく相互作用するために、安定かつ信頼性の高い方法で実行する必要がある。 本研究では,誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。 そこで本研究では,まず数値安定性を考察し,ガウス過程モデルが不安定な典型例を示す。 補間文献で開発された安定性理論を基礎として, 数値的に安定な計算を行うための誘導点の条件を十分かつ必要条件として導出する。 地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。 これは、独立した関心を持つ被覆木データ構造の変更によって行われる。 さらに,少数の性能をトレードオフして安定性をさらに向上する,ガウス確率を持つ回帰に対する別のスパース近似を提案する。 本研究では,空間タスクにおける誘導点法の安定性と予測性能の関係を示す例を示す。

Gaussian processes are frequently deployed as part of larger machine learning and decision-making systems, for instance in geospatial modeling, Bayesian optimization, or in latent Gaussian models. Within a system, the Gaussian process model needs to perform in a stable and reliable manner to ensure it interacts correctly with other parts of the system. In this work, we study the numerical stability of scalable sparse approximations based on inducing points. To do so, we first review numerical stability, and illustrate typical situations in which Gaussian process models can be unstable. Building on stability theory originally developed in the interpolation literature, we derive sufficient and in certain cases necessary conditions on the inducing points for the computations performed to be numerically stable. For low-dimensional tasks such as geospatial modeling, we propose an automated method for computing inducing points satisfying these conditions. This is done via a modification of the cover tree data structure, which is of independent interest. We additionally propose an alternative sparse approximation for regression with a Gaussian likelihood which trades off a small amount of performance to further improve stability. We provide illustrative examples showing the relationship between stability of calculations and predictive performance of inducing point methods on spatial tasks.
翻訳日:2023-11-08 01:44:12 公開日:2023-11-06
# 変調光学による重力エンタングルメントの増強

Enhanced Gravitational Entanglement via Modulated Optomechanics ( http://arxiv.org/abs/2209.12656v2 )

ライセンス: Link先を確認
A. Douglas K. Plato, Dennis R\"atzel, Chuanqi Wan(参考訳) 与えられた相互作用の非古典性を決定する上での絡み合いの役割は、ここ数年で大きな注目を集めている。 特に、重力場の量子的性質をテストするための新しい実験的提案の基礎として。 以上の結果から, 光学結合の変調により, 2つの分離した光学機械系間の重力による絡み合いが著しく増加することが示された。 これは、低質量の高周波システム(量子状態に到達するのに便利)では最もよく発音され、数桁の改善や測定窓の拡大につながる可能性がある。 しかし、大きな障害が残っている。 特に,変調は絡み合いの改善と同じ速度でデコヒーレンス効果を増大させることがわかった。 これは、ノイズの制約(位置 d.o.f に作用する)が環境の粒子の質量、分離、温度にのみ依存し、新しい量子制御によって改善できないという証拠を増大させる。 最後に,量子相関の観測とクレーア・ラオ境界による測定精度の限界との密接な関係を強調する。 即ち、重力場の重畳を探索すると、検出器の感度と絡み合いの検証に類似した要求が生じる。

The role of entanglement in determining the non-classicality of a given interaction has gained significant traction over the last few years. In particular, as the basis for new experimental proposals to test the quantum nature of the gravitational field. Here we show that the rate of gravity mediated entanglement between two otherwise isolated optomechanical systems can be significantly increased by modulating the optomechanical coupling. This is most pronounced for low mass, high frequency systems - convenient for reaching the quantum regime - and can lead to improvements of several orders of magnitude, as well as a broadening of the measurement window. Nevertheless, significant obstacles still remain. In particular, we find that modulations increase decoherence effects at the same rate as the entanglement improvements. This adds to the growing evidence that the constraint on noise (acting on the position d.o.f) depends only on the particle mass, separation, and temperature of the environment and cannot be improved by novel quantum control. Finally, we highlight the close connection between the observation of quantum correlations and the limits of measurement precision derived via the Cram\'er-Rao Bound. An immediate consequence is that probing superpositions of the gravitational field places similar demands on detector sensitivity as entanglement verification.
翻訳日:2023-11-08 01:43:29 公開日:2023-11-06
# 特定のインスタンスの認識を含む継続的少数ショット学習ベンチマークの拡張

Expanding continual few-shot learning benchmarks to include recognition of specific instances ( http://arxiv.org/abs/2209.07863v3 )

ライセンス: Link先を確認
Gideon Kowadlo, Abdelrahman Ahmed, Amir Mayan, David Rawlinson(参考訳) 継続的学習と数少ない学習は、より広範な機械学習(ml)能力に向けた重要なフロンティアである。 両者とも多くの仕事があるが、この2つを組み合わせる作業はほとんどない。 例外として、Antoniou et al. arXiv:2004.11967のCFSLフレームワークがある。 本研究では,現実の状況下での知的エージェント行動において重要な,幅広い課題を捉える2つの方法でCFSLを拡張した。 まず、CFSLを改良して、通常より多くのクラスが提示される標準的な連続学習実験に匹敵するようにします。 第二に、私たちはクラスの特定の事例を認識する必要がある「インスタンステスト」を導入します -- MLでは通常無視される動物の認知能力です。 これらの条件下でMLモデルの性能を最初に検討するために、元のCFSL作業から代表ベースラインモデルを選択し、リプレイによるモデル変種を追加した。 予想通り、より多くのクラスを学ぶことはcfslの実験よりも難しく、興味深いことに、画像インスタンスとクラスが提示される方法が分類性能に影響する。 驚くべきことに、ベースラインインスタンステストの精度は他の分類タスクに匹敵するが、かなりの閉塞とノイズが与えられていない。 統合のためのリプレイの使用により、両方のタスク、特にインスタンステストのパフォーマンスが大幅に向上する。

Continual learning and few-shot learning are important frontiers in progress towards broader Machine Learning (ML) capabilities. There is a growing body of work in both, but few works combining the two. One exception is the Continual few-shot Learning (CFSL) framework of Antoniou et al. arXiv:2004.11967. In this study, we extend CFSL in two ways that capture a broader range of challenges, important for intelligent agent behaviour in real-world conditions. First, we modify CFSL to make it more comparable to standard continual learning experiments, where usually a much larger number of classes are presented. Second, we introduce an 'instance test' which requires recognition of specific instances of classes -- a capability of animal cognition that is usually neglected in ML. For an initial exploration of ML model performance under these conditions, we selected representative baseline models from the original CFSL work and added a model variant with replay. As expected, learning more classes is more difficult than the original CFSL experiments, and interestingly, the way in which image instances and classes are presented affects classification performance. Surprisingly, accuracy in the baseline instance test is comparable to other classification tasks, but poor given significant occlusion and noise. The use of replay for consolidation improves performance substantially for both types of tasks, but particularly the instance test.
翻訳日:2023-11-08 01:42:41 公開日:2023-11-06
# リプキン-メシュコフ-グリックモデルにおける拡散複雑性の時間発展

Time evolution of spread complexity in quenched Lipkin-Meshkov-Glick model ( http://arxiv.org/abs/2208.10520v3 )

ライセンス: Link先を確認
Mir Afrasiar, Jaydeep Kumar Basak, Bidyut Dey, Kunal Pal, Kuntal Pal(参考訳) 我々は,Lipkin-Meshkov-Glick(LMG)モデルにおける急激な量子クエンチ後の時間発展状態の拡散複雑性を,システムが臨界点に向かってクエンチされたときの量子相転移のプローブとして利用する。 クリロフ基底の有効元数の増大を研究することにより、これらは事前割り当てされたカットオフ以上の拡散複雑性に寄与し、LMGモデルの2つの相がいかに区別できるかを示す。 また,非臨界および臨界クエンチ後の拡散エントロピーの時間発展についても検討した。 また, 拡散エントロピーに寄与する和は, lmgモデルの対称相において破壊相と比較して緩やかに収束し, 臨界クエンチの場合, 拡散エントロピーは後期に対数的に発散することを示した。

We use the spread complexity of a time evolved state after a sudden quantum quench in the Lipkin-Meshkov-Glick (LMG) model prepared in the ground state as a probe of quantum phase transition when the system is quenched towards the critical point. By studying the growth of the effective number of elements of the Krylov basis, those contribute to the spread complexity more than a preassigned cut off, we show how the two phases of the LMG model can be distinguished. We also explore the time evolution of spread entropy after both non-critical and critical quenches. We show that the sum contributing to the spread entropy converges slowly in the symmetric phase of the LMG model compared to that of the broken phase, and for a critical quench, the spread entropy diverges logarithmically at late times.
翻訳日:2023-11-08 01:42:08 公開日:2023-11-06
# odeを用いた潜在空間における合成可能なテキスト制御

Composable Text Controls in Latent Space with ODEs ( http://arxiv.org/abs/2208.00638v3 )

ライセンス: Link先を確認
Guangyi Liu, Zeyu Feng, Yuan Gao, Zichao Yang, Xiaodan Liang, Junwei Bao, Xiaodong He, Shuguang Cui, Zhen Li, Zhiting Hu(参考訳) 現実世界のテキストアプリケーションは、属性のテキストを編集したり、キーワードや構造を操作したり、所望のプロパティの新しいテキストを生成するなど、幅広いテキスト制御操作を行うことが多い。 従来の作業は通常、個別または特定の操作サブセットを実行するために言語モデル(LM)を学習/微調整する。 近年の研究では、複雑なシーケンス空間におけるコストのかかる探索や最適化を伴う、プラグ・アンド・プレイ方式の操作の組み合わせを研究している。 本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための新しい効率的なアプローチを提案する。 テキスト潜在ベクトルの低次元性と微分可能性により、任意のプラグイン演算子(例えば属性分類器)を与えられた通常の微分方程式(ODE)に基づいて効率的なサンプリング器を開発することができる。 事前訓練されたLM(例えば GPT2)を効率的な適応により潜在空間に接続することにより、サンプルベクトルを所望のテキストシーケンスにデコードする。 フレキシブルなアプローチでは、さまざまな制御演算子(知覚、緊張、形式、キーワードなど)が、異なるドメインから関連するデータを使って取得できる。 実験により,これらの操作者を構成することによって,高品質テキストの生成や編集が容易になり,従来手法に比べて生成品質や効率が大幅に向上することを示した。

Real-world text applications often involve composing a wide range of text control operations, such as editing the text w.r.t. an attribute, manipulating keywords and structure, and generating new text of desired properties. Prior work typically learns/finetunes a language model (LM) to perform individual or specific subsets of operations. Recent research has studied combining operations in a plug-and-play manner, often with costly search or optimization in the complex sequence space. This paper proposes a new efficient approach for composable text operations in the compact latent space of text. The low-dimensionality and differentiability of the text latent vector allow us to develop an efficient sampler based on ordinary differential equations (ODEs) given arbitrary plug-in operators (e.g., attribute classifiers). By connecting pretrained LMs (e.g., GPT2) to the latent space through efficient adaption, we then decode the sampled vectors into desired text sequences. The flexible approach permits diverse control operators (sentiment, tense, formality, keywords, etc.) acquired using any relevant data from different domains. Experiments show that composing those operators within our approach manages to generate or edit high-quality text, substantially improving over previous methods in terms of generation quality and efficiency.
翻訳日:2023-11-08 01:40:55 公開日:2023-11-06
# 高階・高階ラベル相関を用いたマルチラベル分類

Multi-label Classification with High-rank and High-order Label Correlations ( http://arxiv.org/abs/2207.04197v2 )

ライセンス: Link先を確認
Chongjie Si, Yuheng Jia, Ran Wang, Min-Ling Zhang, Yanghe Feng, Chongxiao Qu(参考訳) ラベル相関の活用はマルチラベル分類において重要である。 従来の手法では, ラベル行列を低ランク行列分解による潜在ラベル空間に変換することにより, 高階ラベル相関を捉える。 しかし、ラベル行列は一般にフルランクまたは近似フルランク行列であり、低ランク分解は不適切である。 さらに、潜在空間では、ラベルの相関関係が暗黙化する。 そこで本研究では,高次ラベル相関を明示的に表現する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。 さらに,入力の局所幾何構造を通じてラベル相関を推定し,モデルパラメータを同時推定し,相互拡張を実現する。 12個のベンチマークデータセットの比較研究により,提案アルゴリズムの有効性が検証された。 悪用された高次ラベル相関は経験的に常識と一致している。 私たちのコードはhttps://github.com/chongjie-si/homiで公開しています。

Exploiting label correlations is important to multi-label classification. Previous methods capture the high-order label correlations mainly by transforming the label matrix to a latent label space with low-rank matrix factorization. However, the label matrix is generally a full-rank or approximate full-rank matrix, making the low-rank factorization inappropriate. Besides, in the latent space, the label correlations will become implicit. To this end, we propose a simple yet effective method to depict the high-order label correlations explicitly, and at the same time maintain the high-rank of the label matrix. Moreover, we estimate the label correlations and infer model parameters simultaneously via the local geometric structure of the input to achieve mutual enhancement. Comparative studies over twelve benchmark data sets validate the effectiveness of the proposed algorithm in multi-label classification. The exploited high-order label correlations are consistent with common sense empirically. Our code is publicly available at https://github.com/Chongjie-Si/HOMI.
翻訳日:2023-11-08 01:39:26 公開日:2023-11-06
# 弱注意機構による油井間隔のロバスト表現

Robust representations of oil wells' intervals via sparse attention mechanism ( http://arxiv.org/abs/2212.14246v3 )

ライセンス: Link先を確認
Alina Ermilova, Nikita Baramiia, Valerii Kornilov, Sergey Petrakov, Alexey Zaytsev(参考訳) トランスフォーマーベースのニューラルネットワークアーキテクチャは、自然言語処理(NLP)からコンピュータビジョン(CV)まで、さまざまな領域で最先端の結果を達成する。 トランスフォーマーの鍵となるアイデアであるアテンション機構は、多くの分野ですでに大きなブレークスルーをもたらしている。 時系列データの実装も注目されている。 しかし,入力シーケンス長に対する注意計算の二次的複雑さから,資源需要の高いトランスフォーマの応用は制限される。 さらに、産業時系列に対する修正は、その適用の地平線の拡大を複雑にする欠落値やノイズ値に対して堅牢である必要がある。 これらの問題に対処するため、正規化変圧器(reguformers)と呼ばれる効率的な変圧器のクラスを導入する。 我々は,ロバスト性の向上と計算コストの削減を目的として,ドロップアウトアイデアに触発された正規化手法を実装した。 私たちの実験の焦点は、石油とガスのデータ、すなわち、多変量時系列の顕著な例であるwell logsにあります。 目標は、類似性と表現学習の問題を解決することである。 このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。 実験により、Reguformerのすべてのバリエーションは、以前開発されたRNN、古典的トランスフォーマーモデル、そして、InformerやPerformerのような頑健な修正を、良インターバルの分類と得られた良インターバルの表現の品質の観点から上回っていることが示された。 さらに,モデルの欠落や不正確なデータに対する持続可能性も,他のデータよりも大きなマージンを越えている。 Reguformerが十分にインターバルな類似性タスクで達成した最良の結果は、PR~AUCスコアが0.983に等しいことである。

Transformer-based neural network architectures achieve state-of-the-art results in different domains, from natural language processing (NLP) to computer vision (CV). The key idea of Transformers, the attention mechanism, has already led to significant breakthroughs in many areas. The attention has found their implementation for time series data as well. However, due to the quadratic complexity of the attention calculation regarding input sequence length, the application of Transformers is limited by high resource demands. Moreover, their modifications for industrial time series need to be robust to missing or noised values, which complicates the expansion of the horizon of their application. To cope with these issues, we introduce the class of efficient Transformers named Regularized Transformers (Reguformers). We implement the regularization technique inspired by the dropout ideas to improve robustness and reduce computational expenses. The focus in our experiments is on oil&gas data, namely, well logs, a prominent example of multivariate time series. The goal is to solve the problems of similarity and representation learning for them. To evaluate our models for such problems, we work with an industry-scale open dataset consisting of well logs of more than 20 wells. The experiments show that all variations of Reguformers outperform the previously developed RNNs, classical Transformer model, and robust modifications of it like Informer and Performer in terms of well-intervals' classification and the quality of the obtained well-intervals' representations. Moreover, the sustainability to missing and incorrect data in our models exceeds that of others by a significant margin. The best result that the Reguformer achieves on well-interval similarity task is the mean PR~AUC score equal to 0.983, which is comparable to the classical Transformer and outperforms the previous models.
翻訳日:2023-11-08 01:32:13 公開日:2023-11-06
# 高次元量子量回帰を用いたトランスファー学習の推定と推定

Estimation and inference for transfer learning with high-dimensional quantile regression ( http://arxiv.org/abs/2211.14578v3 )

ライセンス: Link先を確認
Jiayu Huang, Mingqiu Wang, Yuanshan Wu(参考訳) 転送学習は、ソースドメインからの情報を活用して、ターゲットタスクの性能を高めるための重要な技術となっている。 高次元データの頻度にもかかわらず、ヘテロジニティと重い尾は現在の移動学習手法によって十分に説明できないため、結果として得られる性能を損なう可能性がある。 本稿では,ソース領域とターゲット領域における不均一性と重テールに対応する高次元分位回帰モデルの枠組みにおける伝達学習手順を提案する。 我々は、微妙に選択された転送可能なソースドメインに基づいて、転送学習推定器の誤差境界を確立し、重要な選択基準とより大きなソースタスクのサンプルサイズに対して、低いエラー境界を達成可能であることを示す。 さらに,伝達学習の手法を再度設計した伝達学習推定器の1ステップ劣化推定器である二重移動学習推定器を提唱することにより,高次元量子化回帰係数の個々の成分に対する有効信頼区間と仮説テスト手順を提案する。 データ分割手法を採用することにより、負の転送を回避し、高い確率で転送可能なソースを特定することを保証する転送可能性検出手法を提案する。 シミュレーションの結果,提案手法は好意的かつ説得力のある性能を示し,実例を解析して実用性をさらに明らかにした。

Transfer learning has become an essential technique to exploit information from the source domain to boost performance of the target task. Despite the prevalence in high-dimensional data, heterogeneity and heavy tails are insufficiently accounted for by current transfer learning approaches and thus may undermine the resulting performance. We propose a transfer learning procedure in the framework of high-dimensional quantile regression models to accommodate heterogeneity and heavy tails in the source and target domains. We establish error bounds of transfer learning estimator based on delicately selected transferable source domains, showing that lower error bounds can be achieved for critical selection criterion and larger sample size of source tasks. We further propose valid confidence interval and hypothesis test procedures for individual component of high-dimensional quantile regression coefficients by advocating a double transfer learning estimator, which is one-step debiased estimator for the transfer learning estimator wherein the technique of transfer learning is designed again. By adopting data-splitting technique, we advocate a transferability detection approach that guarantees to circumvent negative transfer and identify transferable sources with high probability. Simulation results demonstrate that the proposed method exhibits some favorable and compelling performances and the practical utility is further illustrated by analyzing a real example.
翻訳日:2023-11-08 01:30:21 公開日:2023-11-06
# batmannet:分子表現のためのバイブランチマスクグラフトランスフォーマーオートエンコーダ

BatmanNet: Bi-branch Masked Graph Transformer Autoencoder for Molecular Representation ( http://arxiv.org/abs/2211.13979v3 )

ライセンス: Link先を確認
Zhen Wang, Zheng Feng, Yanjun Li, Bowen Li, Yongrui Wang, Chulin Sha, Min He, Xiaolin Li(参考訳) グラフニューラルネットワーク(GNN)をAIDD(AI-driven drug discovery)に応用する試みが盛んに行われているが、特にラベル付き分子が不十分な場合には、効果的な分子表現学習は未解決の課題である。 近年の研究では、ラベルなしデータセットの自己教師付き学習によって事前訓練された大きなGNNモデルにより、下流の分子特性予測タスクにおける転送性能が向上することが示唆されている。 しかしながら、これらの研究におけるアプローチには、複数の複雑な自己教師付きタスクと大規模データセットが必要である。 本稿では,分子の局所的情報と大域的情報を同時に学習する単純かつ効果的な自己教師付き戦略を考案し,さらに分子表現を学習するための新しいバイブランチマスクグラフトランスフォーマオートエンコーダ(batmannet)を提案する。 BatmanNetは2つの補完グラフと非対称グラフオートエンコーダを備えており、それぞれ欠損ノードとエッジをマスクされた分子グラフから再構築する。 この設計により、バットマンネットは分子の構造と意味情報を効果的に捉え、分子表現の性能を向上させることができる。 BatmanNetは13のベンチマークデータセットで、分子特性予測、薬物-薬物相互作用、薬物-標的相互作用など、複数の薬物発見タスクの最先端の結果を達成し、分子表現学習におけるその大きな可能性と優位性を実証している。

Although substantial efforts have been made using graph neural networks (GNNs) for AI-driven drug discovery (AIDD), effective molecular representation learning remains an open challenge, especially in the case of insufficient labeled molecules. Recent studies suggest that big GNN models pre-trained by self-supervised learning on unlabeled datasets enable better transfer performance in downstream molecular property prediction tasks. However, the approaches in these studies require multiple complex self-supervised tasks and large-scale datasets, which are time-consuming, computationally expensive, and difficult to pre-train end-to-end. Here, we design a simple yet effective self-supervised strategy to simultaneously learn local and global information about molecules, and further propose a novel bi-branch masked graph transformer autoencoder (BatmanNet) to learn molecular representations. BatmanNet features two tailored complementary and asymmetric graph autoencoders to reconstruct the missing nodes and edges, respectively, from a masked molecular graph. With this design, BatmanNet can effectively capture the underlying structure and semantic information of molecules, thus improving the performance of molecular representation. BatmanNet achieves state-of-the-art results for multiple drug discovery tasks, including molecular properties prediction, drug-drug interaction, and drug-target interaction, on 13 benchmark datasets, demonstrating its great potential and superiority in molecular representation learning.
翻訳日:2023-11-08 01:29:57 公開日:2023-11-06
# dirac-fock基底状態の新しい定義

A new definition of the Dirac-Fock ground state ( http://arxiv.org/abs/2211.10196v4 )

ライセンス: Link先を確認
Eric S\'er\'e (CEREMADE)(参考訳) dirac-fock(df)モデルは、相対論的効果が無視できない場合、量子化学におけるhartree-fock(hf)近似を置き換える。 ディラック作用素は下から有界ではないので、基底状態の概念はこのモデルでは問題となり、文献ではいくつかの定義が提案されている。 我々は,HF に対するリーブの緩和的変動原理に着想を得た DF エネルギーの基底状態に対する新しい定義を与える。 我々の定義と存在証明は以前のdfの著作よりも単純で自然なものであるが、非相対論的の場合よりも技術的なものである。 まず、ある非線形不動点方程式を満たす物理的に許容される密度行列の集合を構築する必要がある。 そして、基底状態はこの集合上のDFエネルギーの最小値として見出される。

The Dirac-Fock (DF) model replaces the Hartree-Fock (HF) approximation in quantum chemistry when relativistic effects cannot be neglected. Since the Dirac operator is not bounded from below, the notion of ground state is problematic in this model, and several definitions have been proposed in the literature. We give a new definition for the ground state of the DF energy, inspired of Lieb's relaxed variational principle for HF. Our definition and existence proof are simpler and more natural than in previous works on DF, but remains more technical than in the nonrelativistic case. One first needs to construct a set of physically admissible density matrices that satisfy a certain nonlinear fixed-point equation: we do this by introducing an iterative procedure, described in an abstract context. Then the ground state is found as a minimizer of the DF energy on this set.
翻訳日:2023-11-08 01:29:07 公開日:2023-11-06
# 企業倒産予測におけるマルチモーダル学習と深層生成モデルの利用

Using multimodal learning and deep generative models for corporate bankruptcy prediction ( http://arxiv.org/abs/2211.08405v4 )

ライセンス: Link先を確認
Rogelio A. Mancisidor and Kjersti Aas(参考訳) 10-KのMDA(Management's Discussion \& Analysis)セクションなどのファイナンシャルファイリングからのテキストデータは、倒産モデルの予測精度を改善するために使われてきた。 しかし、実際には、すべての公共企業に対してMDAセクションを得ることはできない。 mdaの欠如の主な理由は次の2つです。 一 すべての企業がMDAを提出しなければならないわけではない。 (II)MDA部のクロール・スクラップ時に技術的問題が発生する。 本研究は,mdaテキストを入手できない企業があるという課題を解決するために,破産予測モデルにおけるマルチモーダル学習の概念を,我々の知識を最大限に活用するために初めて紹介する。 条件付きマルチモーダル判別(conditional multimodal discriminative, cmmd)モデルを用いて、会計、市場、テキストのモーダルから情報を埋め込むマルチモーダル表現を学習する。 cmmdモデルは、モデルトレーニングのためにすべてのデータモダリティを持つサンプルを必要とする。 テスト時には、CMMDモデルは、倒産予測にさらに使用されるマルチモーダル表現を生成するために、会計と市場モダリティへのアクセスのみを必要とする。 この事実は、テキストデータと異なり、すべての企業で会計データと市場データを利用できるため、テキストデータを用いた破産予測モデルの使用を現実的かつ可能としている。 本研究の結果から,提案手法の分類性能は,従来の多くの分類器モデルと比較して優れていることが示された。 また,本提案手法は,少数の企業に対してのみ予測を行うことができるため,テキストデータによる過去の倒産モデルの限界を解消する。

Textual data from financial filings, e.g., the Management's Discussion \& Analysis (MDA) section in Form 10-K, has been used to improve the prediction accuracy of bankruptcy models. In practice, however, we cannot obtain the MDA section for all public companies. The two main reasons for the lack of MDA are: (i) not all companies are obliged to submit the MDA and (ii) technical problems arise when crawling and scrapping the MDA section. This research introduces for the first time, to the best of our knowledge, the concept of multimodal learning in bankruptcy prediction models to solve the problem that for some companies we are unable to obtain the MDA text. We use the Conditional Multimodal Discriminative (CMMD) model to learn multimodal representations that embed information from accounting, market, and textual modalities. The CMMD model needs a sample with all data modalities for model training. At test time, the CMMD model only needs access to accounting and market modalities to generate multimodal representations, which are further used to make bankruptcy predictions. This fact makes the use of bankruptcy prediction models using textual data realistic and possible, since accounting and market data are available for all companies unlike textual data. The empirical results in this research show that the classification performance of our proposed methodology is superior compared to that of a large number of traditional classifier models. We also show that our proposed methodology solves the limitation of previous bankruptcy models using textual data, as they can only make predictions for a small proportion of companies.
翻訳日:2023-11-08 01:28:29 公開日:2023-11-06
# MARLlib: スケーラブルで効率的なマルチエージェント強化学習ライブラリ

MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning Library ( http://arxiv.org/abs/2210.13708v4 )

ライセンス: Link先を確認
Siyi Hu, Yifan Zhong, Minquan Gao, Weixun Wang, Hao Dong, Xiaodan Liang, Zhihui Li, Xiaojun Chang, Yaodong Yang(参考訳) マルチエージェント強化学習(marl:multi-agent reinforcement learning)の分野で研究者が直面する大きな課題は、マルチエージェントタスクとアルゴリズムの組み合わせに対して高速かつ互換性のある開発を提供するライブラリの識別に関するものである。 本稿では,3つの主要なメカニズムを活用することで,上記の課題に対処するライブラリであるMARLlibを提案する。 1)標準化されたマルチエージェント環境ラッパー 2)エージェントレベルのアルゴリズムの実装、及び 3)柔軟な政策マッピング戦略。 これらのメカニズムを利用することで、MARLlibはマルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離し、現在のタスクの属性に基づいてトレーニング戦略を自動的に変更することができる。 MARLlibライブラリのソースコードはGitHubで公開されている: \url{https://github.com/Replicable-MARL/MARLlib}。

A significant challenge facing researchers in the area of multi-agent reinforcement learning (MARL) pertains to the identification of a library that can offer fast and compatible development for multi-agent tasks and algorithm combinations, while obviating the need to consider compatibility issues. In this paper, we present MARLlib, a library designed to address the aforementioned challenge by leveraging three key mechanisms: 1) a standardized multi-agent environment wrapper, 2) an agent-level algorithm implementation, and 3) a flexible policy mapping strategy. By utilizing these mechanisms, MARLlib can effectively disentangle the intertwined nature of the multi-agent task and the learning process of the algorithm, with the ability to automatically alter the training strategy based on the current task's attributes. The MARLlib library's source code is publicly accessible on GitHub: \url{https://github.com/Replicable-MARL/MARLlib}.
翻訳日:2023-11-08 01:27:51 公開日:2023-11-06
# object as query: 任意の2dオブジェクト検出器を3d検出へ持ち上げる

Object as Query: Lifting any 2D Object Detector to 3D Detection ( http://arxiv.org/abs/2301.02364v3 )

ライセンス: Link先を確認
Zitian Wang, Zehao Huang, Jiahui Fu, Naiyan Wang, Si Liu(参考訳) マルチビュー画像からの3Dオブジェクト検出は、ここ数年で注目されている。 既存の方法は、主に多視点画像から3D表現を確立し、オブジェクト検出に高密度な検出ヘッドを採用するか、オブジェクトをローカライズするために3D空間に分散されたオブジェクトクエリを使用する。 本稿では,多視点3次元物体検出装置(MV2D)を設計し,任意の2次元物体検出器を多視点3次元物体検出へ持ち上げる。 MV2Dは2D検出器を利用して、リッチな画像意味論に基づくオブジェクトクエリを生成する。 これらの動的に生成されたクエリはmv2dが視野内のオブジェクトをリコールし、3dオブジェクトをローカライズする強力な能力を示すのに役立つ。 生成したクエリに対しては、ノイズからの干渉を抑制する特定のオブジェクトの特徴に焦点を合わせるように、スパースクロスアテンションモジュールを設計します。 nuscenesデータセットの評価結果は動的オブジェクトクエリを示し、スパース特徴集約は3次元検出能力を促進することができる。 MV2Dは既存の手法の中でも最先端の性能を示している。 MV2Dが将来の研究の新たなベースラインになることを期待している。 コードは \url{https://github.com/tusen-ai/MV2D} で入手できる。

3D object detection from multi-view images has drawn much attention over the past few years. Existing methods mainly establish 3D representations from multi-view images and adopt a dense detection head for object detection, or employ object queries distributed in 3D space to localize objects. In this paper, we design Multi-View 2D Objects guided 3D Object Detector (MV2D), which can lift any 2D object detector to multi-view 3D object detection. Since 2D detections can provide valuable priors for object existence, MV2D exploits 2D detectors to generate object queries conditioned on the rich image semantics. These dynamically generated queries help MV2D to recall objects in the field of view and show a strong capability of localizing 3D objects. For the generated queries, we design a sparse cross attention module to force them to focus on the features of specific objects, which suppresses interference from noises. The evaluation results on the nuScenes dataset demonstrate the dynamic object queries and sparse feature aggregation can promote 3D detection capability. MV2D also exhibits a state-of-the-art performance among existing methods. We hope MV2D can serve as a new baseline for future research. Code is available at \url{https://github.com/tusen-ai/MV2D}.
翻訳日:2023-11-08 01:17:45 公開日:2023-11-06
# 開量子系におけるpoincar\e対称性による還元ダイナミクス

Reduced dynamics with Poincar\'e symmetry in an open quantum system ( http://arxiv.org/abs/2301.01451v3 )

ライセンス: Link先を確認
Akira Matsumura(参考訳) 我々は、環境に結合した開量子系の還元ダイナミクスがポアンカルの対称性をいかに認めるかを考える。 減少ダイナミクスは、初期相関を伴わずに全ユニタリ進化から環境をトレースすることによって与えられる動的写像によって記述される。 我々は Poincar\'e 群の下で不変な動的写像を研究する。 poincar\'e 群のユニタリ表現理論に基づいて、そのような力学写像を与える体系的な方法を開発した。 このようにして、有限スピンと有限スピンと非ゼロ運動量を持つ無質量粒子を持つ大粒子の動的写像を導出する。 スピンレス質量粒子のダイナミックマップを例示し,poincar\'e生成器の保存について考察した。 すると、ポアンカルの不変量と四運動量保存の写像を見つける。 さらに,角運動量と昇圧演算子の保存がスピンレス質量粒子ユニタリの写像となることを示す。

We consider how the reduced dynamics of an open quantum system coupled to an environment admits the Poincar\'e symmetry. The reduced dynamics is described by a dynamical map, which is given by tracing out the environment from the total unitary evolution without initial correlations. We investigate the dynamical map which is invariant under the Poincar\'e group. Based on the unitary representation theory of the Poincar\'e group, we develop a systematic way to give such a dynamical map. Using this way, we derive the dynamical map of a massive particle with a finite spin and a massless particle with a finite spin and a nonzero momentum. The dynamical map of a spinless massive particle is exemplified and the conservation of the Poincar\'e generators is discussed. We then find the map with the Poincar\'e invariance and the four-momentum conservation. Further, we show that the conservation of the angular momentum and the boost operator makes the map of a spinless massive particle unitary
翻訳日:2023-11-08 01:17:24 公開日:2023-11-06
# 強凸関数制約付き凸最適化のための効率的一階法

Efficient First-order Methods for Convex Optimization with Strongly Convex Function Constraints ( http://arxiv.org/abs/2212.11143v3 )

ライセンス: Link先を確認
Zhenwei Lin, Qi Deng(参考訳) 本稿では,強凸関数制約を受ける凸関数を最小化するための一階一元二元アルゴリズムを高速化する。 我々の研究に先立ち、最も複雑な境界は$\mathcal{O}(1/{\varepsilon})$であり、強い凸性仮定を利用してこの結果を改善する方法は不明である。 我々は,ラグランジュ関数の強い凸性を漸進的に推定する新しい手法を開発し,この問題に対処する。 このアプローチは、強凸対角点最適化の複雑さの下限にマッチする、$\mathcal{o}(1/\sqrt{\varepsilon})$の複雑さを改善する。 特にGoogleのパーソナライズされたPageRank問題では,スパーシリティを誘導する制約付き最適化において,メソッドの優れたパフォーマンスを示す。 さらに, 提案手法の再開版では, 最適解のスパーシティパターンを, 有限ステップ内で効果的に識別できることを示した。

In this paper, we introduce faster first-order primal-dual algorithms for minimizing a convex function subject to strongly convex function constraints. Before our work, the best complexity bound was $\mathcal{O}(1/{\varepsilon})$, and it remains unclear how to improve this result by leveraging the strong convexity assumption. We address this issue by developing novel techniques to progressively estimate the strong convexity of the Lagrangian function. Our approach yields an improved complexity of $\mathcal{O}(1/\sqrt{\varepsilon})$, matching the complexity lower bound for strongly-convex-concave saddle point optimization. We show the superior performance of our methods in sparsity-inducing constrained optimization, notably Google's personalized PageRank problem. Furthermore, we show that a restarted version of the proposed methods can effectively identify the sparsity pattern of the optimal solution within a finite number of steps, a result that appears to have independent significance.
翻訳日:2023-11-08 01:16:47 公開日:2023-11-06
# 量子力学における表現自由形式性について

On the representation-free formalism in quantum mechanics ( http://arxiv.org/abs/2212.10597v7 )

ライセンス: Link先を確認
V. D. Efros(参考訳) ブラケット形式は一般に量子力学において表現自由な考慮を実行するために適用される。 この目的のために効率的な手段を提供するが、同時に欠点もそれ固有のものである。 これらのいくつかは、ブラケット表記法が関連する作用素の定義の領域を扱うのに適さないという事実に由来する。 もう一つの欠点は、双空間形式であるブラケット形式が自然な一空間的視点を除外していることである。 本研究では,簡潔な表現自由スキームを構築した。 このスキームにはブラケット形式に欠点はない。 同時に、このスキームはブラケットスキームによって提供されるもの全てのような量子力学的な考慮を実行するための効率的な手段を提供する。 このスキームは、ブラケットスキームとは対照的に、一空間と双空間の両方の解釈を可能にする。 以上より先に、ブラケット形式主義の強みと欠点に対処する。

The bra-ket formalism is generally applied to carry out representation-free considerations in quantum mechanics. It provides efficient means for this purpose, but at the same time, drawbacks are inherent in it. Some of these originate from the fact that the bra-ket notation is not suitable to handle the domains of the definitions of operators involved. An additional drawback is that the bra-ket formalism, being a dual-space formalism, excludes the natural one-space point of view. In the present work, a concise representation-free scheme is constructed. This scheme has no drawbacks of the bra-ket formalism. At the same time, this scheme provides the efficient means to carry out quantum mechanical considerations, such as all those offered by the bra-ket scheme. The present scheme allows both the one-space and dual-space interpretations, in contrast to the bra-ket scheme. Before the above, the strengths and drawbacks of the bra-ket formalism are addressed.
翻訳日:2023-11-08 01:16:27 公開日:2023-11-06
# 製品量子化マスク画像モデリングによる画像圧縮

Image Compression with Product Quantized Masked Image Modeling ( http://arxiv.org/abs/2212.07372v2 )

ライセンス: Link先を確認
Alaaeldin El-Nouby, Matthew J. Muckley, Karen Ullrich, Ivan Laptev, Jakob Verbeek, Herv\'e J\'egou(参考訳) 最近のニューラル圧縮法は、人気のあるhyperpriorフレームワークに基づいている。 Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。 これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。 本研究では,画像圧縮のためのベクトル量子化を再考することにより,これらの研究線を近づけることを試みる。 VQ-VAEフレームワーク上に構築し、いくつかの修正を導入する。 まず、バニラベクトル量子化器を積量子化器で置き換える。 ベクトルとスカラー量子化の間の中間解は、より広い速度歪み点の集合を可能にする: 暗黙的に、非常に大きなコードブックを必要とする高品質な量子化器を定義する。 第二に、自己教師付き学習および生成画像モデルにおけるMasked Image Modeling(MIM)の成功に触発され、量子化潜在符号の共依存性をモデル化してエントロピー符号化を改善する条件付きエントロピーモデルを提案する。 結果として得られるPQ-MIMモデルは驚くほど効果的である。 また、知覚的損失(例えば、敵)に最適化された場合、FIDとKIDの指標でHiFiCを上回っている。 最後に、pq-mimは画像生成フレームワークと互換性があるので、さらなるトレーニングや微調整をすることなく、圧縮と生成のハイブリッドモードで動作できることを定性的に示します。 その結果、画像が200バイト、すなわち1ツイート未満に圧縮される、極端な圧縮方式を探求する。

Recent neural compression methods have been based on the popular hyperprior framework. It relies on Scalar Quantization and offers a very strong compression performance. This contrasts from recent advances in image generation and representation learning, where Vector Quantization is more commonly employed. In this work, we attempt to bring these lines of research closer by revisiting vector quantization for image compression. We build upon the VQ-VAE framework and introduce several modifications. First, we replace the vanilla vector quantizer by a product quantizer. This intermediate solution between vector and scalar quantization allows for a much wider set of rate-distortion points: It implicitly defines high-quality quantizers that would otherwise require intractably large codebooks. Second, inspired by the success of Masked Image Modeling (MIM) in the context of self-supervised learning and generative image models, we propose a novel conditional entropy model which improves entropy coding by modelling the co-dependencies of the quantized latent codes. The resulting PQ-MIM model is surprisingly effective: its compression performance on par with recent hyperprior methods. It also outperforms HiFiC in terms of FID and KID metrics when optimized with perceptual losses (e.g. adversarial). Finally, since PQ-MIM is compatible with image generation frameworks, we show qualitatively that it can operate under a hybrid mode between compression and generation, with no further training or finetuning. As a result, we explore the extreme compression regime where an image is compressed into 200 bytes, i.e., less than a tweet.
翻訳日:2023-11-08 01:15:23 公開日:2023-11-06
# xCodeEval: コード理解、生成、翻訳、検索のための大規模マルチ言語マルチタスクベンチマーク

xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval ( http://arxiv.org/abs/2303.03004v4 )

ライセンス: Link先を確認
Mohammad Abdullah Matin Khan, M Saiful Bari, Xuan Long Do, Weishi Wang, Md Rizwan Parvez, Shafiq Joty(参考訳) 近年、事前学習された大規模言語モデル(llms)は、自然言語記述からコードを生成する、バグの多いコードを修正する、言語間のコード変換、関連するコードセグメントの検索に優れた能力を示している。 しかしながら、これらのモデルの評価は、1つまたは2つの特定のタスクだけに分散して行われ、いくつかの言語では、部分的な粒度(例えば関数)レベルで行われ、多くの場合、適切なトレーニングデータを持たない。 さらに懸念されるのは、ほとんどの場合、生成されたコードの評価は、実際の実行ではなく、参照コードと単なる語彙的に重複しているという点である。 私たちは、これまでで最大の実行可能なマルチリンガルマルチタスクベンチマークであるxcodeevalを紹介します。ドキュメントレベルのコーディング例($6.5$bトークン)は、実行レベルの並列処理を備えたプログラム言語が最大11ドルに及ぶ、750ドルのユニークな問題から成っています。 コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。 xCodeEvalは実行ベースの評価を採用し、11ドルのすべての言語でユニットテストベースの実行をサポートするマルチ言語コード実行エンジンであるExecEvalを提供する。 バリデーション/テストセットにおける複数の属性に対するテキストコードサンプルの分散化の課題に対処するために,幾何学平均とグラフ理論に基づく新しいデータ分割とデータ選択スキーマを提案する。 OpenAIのLLM(ゼロショット)とオープンLLM(ゼロショットと微調整)によるタスクと言語の実験では、**xCodeEval**が言語モデルの現在の進歩と同様に非常に難しいことが示されています。

Recently, pre-trained large language models (LLMs) have shown impressive abilities in generating codes from natural language descriptions, repairing buggy codes, translating codes between languages, and retrieving relevant code segments. However, the evaluation of these models has often been performed in a scattered way on only one or two specific tasks, in a few languages, at a partial granularity (e.g., function) level, and in many cases without proper training data. Even more concerning is that in most cases the evaluation of generated codes has been done in terms of mere lexical overlap with a reference code rather than actual execution. We introduce xCodeEval, the largest executable multilingual multitask benchmark to date consisting of $25$M document-level coding examples ($16.5$B tokens) from about $7.5$K unique problems covering up to $11$ programming languages with execution-level parallelism. It features a total of $7$ tasks involving code understanding, generation, translation and retrieval. xCodeEval adopts an execution-based evaluation and offers a multilingual code execution engine, ExecEval that supports unit test based execution in all the $11$ languages. To address the challenge of balancing the distributions of text-code samples over multiple attributes in validation/test sets, we propose a novel data splitting and a data selection schema based on the geometric mean and graph-theoretic principle. Our experiments with OpenAI's LLMs (zero-shot) and open-LLMs (zero-shot and fine-tuned) on the tasks and languages demonstrate **xCodeEval** to be quite challenging as per the current advancements in language models.
翻訳日:2023-11-08 01:06:38 公開日:2023-11-06
# 深層学習による医用画像分割のためのマスク処理による余剰画素補間の評価

Evaluation of Extra Pixel Interpolation with Mask Processing for Medical Image Segmentation with Deep Learning ( http://arxiv.org/abs/2302.11522v2 )

ライセンス: Link先を確認
Olivier Rukundo(参考訳) 現在のデータセットのマスク処理は、bicubic(bic)やbilinear(bil)interpolationのような余分なピクセルを生成するアルゴリズムとは対照的に、nearly neighbor(nn)interpolationのような余分なピクセルを生成するinterpolationアルゴリズムに依存しています。 本研究は,nnベースのマスク処理に対する代替手法を提案し,その深層学習結果への影響を評価した。 本研究では,BICベースの画像とマスク処理とBICとNNベースの画像とマスク処理の両方が,NNベースの画像とマスク処理に与える影響を評価した。 bic-bicモデル/ネットワークは8.9578 %(画像サイズ256 x 256)と1.0496 %(画像サイズ384 x 384)であり、nn-nnネットワークは8.3127 %(画像サイズ256 x 256)と0.2887 %(画像サイズ384 x 384)でnn-nnネットワークが増加した。

Current dataset mask processing operations relies on interpolation algorithms that do not produce extra pixels, such as nearest neighbor (NN) interpolation, as opposed to algorithms that do produce extra pixels, like bicubic (BIC) or bilinear (BIL) interpolation. In our previous study, the author proposed an alternative approach to NN-based mask processing and evaluated its effects on deep learning training outcomes. In this study, the author evaluated the effects of both BIC-based image and mask processing and BIC-and-NN-based image and mask processing versus NN-based image and mask processing. The evaluation revealed that the BIC-BIC model/network was an 8.9578 % (with image size 256 x 256) and a 1.0496 % (with image size 384 x 384) increase of the NN-NN network compared to the NN-BIC network which was an 8.3127 % (with image size 256 x 256) and a 0.2887 % (with image size 384 x 384) increase of the NN-NN network.
翻訳日:2023-11-08 01:06:11 公開日:2023-11-06
# データプルーニングとニューラルスケーリング法則--スコアベースアルゴリズムの基本的限界

Data pruning and neural scaling laws: fundamental limitations of score-based algorithms ( http://arxiv.org/abs/2302.06960v3 )

ライセンス: Link先を確認
Fadhel Ayed and Soufiane Hayou(参考訳) データプルーニングアルゴリズムは、最適化プロセスのメモリと計算コストを減らすために一般的に使用される。 近年の実証実験により、ランダムなデータの刈り取りは依然として強力なベースラインであり、高い圧縮領域において既存のデータ刈り出し手法、すなわちデータのわずか30〜%未満が保持されている方法よりも優れていることが判明した。 この制度は最近、いわゆるニューラルスケーリングの法則の改善におけるデータプルーニングの役割によって、多くの関心を集めている。 [sorscher et al.] では、サンプルパワーの法則を破るために、高品質なデータプルーニングアルゴリズムが必要であることを示した。 本研究では,スコアベースのデータプルーニングアルゴリズムに着目し,そのようなアルゴリズムが高圧縮方式で失敗する理由を理論的,実証的に示す。 本稿では,データプルーニングのための'No Free Lunch'定理と,この高圧縮方式における既存のプルーニングアルゴリズムの性能向上を目的としたキャリブレーションプロトコルについて述べる。

Data pruning algorithms are commonly used to reduce the memory and computational cost of the optimization process. Recent empirical results reveal that random data pruning remains a strong baseline and outperforms most existing data pruning methods in the high compression regime, i.e., where a fraction of $30\%$ or less of the data is kept. This regime has recently attracted a lot of interest as a result of the role of data pruning in improving the so-called neural scaling laws; in [Sorscher et al.], the authors showed the need for high-quality data pruning algorithms in order to beat the sample power law. In this work, we focus on score-based data pruning algorithms and show theoretically and empirically why such algorithms fail in the high compression regime. We demonstrate ``No Free Lunch" theorems for data pruning and present calibration protocols that enhance the performance of existing pruning algorithms in this high compression regime using randomization.
翻訳日:2023-11-08 01:04:23 公開日:2023-11-06
# 量子エンジンとしてのジョセフソン接合

The Josephson junction as a quantum engine ( http://arxiv.org/abs/2302.04762v4 )

ライセンス: Link先を確認
Robert Alicki and Micha{\l} Horodecki and Alejandro Jenkins and Marcin {\L}obejko and Gerardo Su\'arez(参考訳) ジョゼフソン接合(jj)の超伝導電極におけるクーパー対を開放系として扱い、アンドレエフ散乱を介して電子の外部浴槽に結合する。 浴槽間の不平衡はJJに適用される直流バイアスを生成する。 弱結合極限において,JJ の主特性,そのヒステリシス,離散シャピロステップの周期電圧駆動時の出現など,JJ の主特徴と一致する単純な動的記述を提供するマルコフマスター方程式を得る。 また, このモデルでは, 平均電圧$V$あたりの周波数$\Omega = 2 e V / \hbar$でJJの電気双極子の自己発振を示す。 この自己振動は、非線形運動方程式の「隠れ引力」と関連付けられ、周波数$\Omega$とその調和を持つ単色放射の観測結果を説明する。 量子エンジンとしてのJJのこの図は、ジョセフソン効果を不可逆的な過程として解き、量子熱力学や力学系の理論において新たな視点を開こうとするものである。

We treat the Cooper pairs in the superconducting electrodes of a Josephson junction (JJ) as an open system, coupled via Andreev scattering to external baths of electrons. The disequilibrium between the baths generates the direct-current bias applied to the JJ. In the weak-coupling limit we obtain a Markovian master equation that provides a simple dynamical description consistent with the main features of the JJ, including the form of the current-voltage characteristic, its hysteresis, and the appearance under periodic voltage driving of discrete Shapiro steps. For small dissipation, our model also exhibits a self-oscillation of the JJ's electrical dipole with frequency $\Omega = 2 e V / \hbar$ around mean voltage $V$. This self-oscillation, associated with "hidden attractors" of the nonlinear equations of motion, explains the observed production of monochromatic radiation with frequency $\Omega$ and its harmonics. We argue that this picture of the JJ as a quantum engine resolves open questions about the Josephson effect as an irreversible process and could open new perspectives in quantum thermodynamics and in the theory of dynamical systems.
翻訳日:2023-11-08 01:04:04 公開日:2023-11-06
# PAC-Bayes境界の導出のための統一的レシピ

A unified recipe for deriving (time-uniform) PAC-Bayes bounds ( http://arxiv.org/abs/2302.03421v4 )

ライセンス: Link先を確認
Ben Chugg, Hongjian Wang, Aaditya Ramdas(参考訳) PAC-ベイジアン一般化境界を導出するための統一的枠組みを提案する。 この話題に関する他の文献とは異なり、我々の境界は任意の時効(すなわち、時間ユニフォーム)であり、固定されたサンプルサイズだけでなく、常に停止時間を保持することを意味する。 私たちのアプローチは以下の順に4つのツールを組み合わせています。 a)非負のスーパーマリンタレスまたは逆サブマリンタレス (b)混合物の方法 (c)Donsker-Varadhan式(または他の凸双対性原理) (d) ヴィルの不平等。 我々の主な成果は、離散確率過程の幅広いクラスに対応するPAC-Bayes定理である。 この結果は、シーガー、マクレスター、マウラー、カトニといった有名な古典的PAC-ベイズ境界の時間一様版と最近の多くの境界に加えてどのように意味するかを示す。 いくつかの新しい境界も提示する。 我々はまた,従来の仮定,特に非定常損失関数と非定常損失関数を緩和することを可能にする。 つまり、過去の境界の導出を統一し、将来の境界の探索を容易にする: スーパーマーチンゲールまたはサブマーチンゲール条件が満たされているかどうかを単にチェックし、もしそうであれば(時間一様)pac-bayesバウンドを保証できる。

We present a unified framework for deriving PAC-Bayesian generalization bounds. Unlike most previous literature on this topic, our bounds are anytime-valid (i.e., time-uniform), meaning that they hold at all stopping times, not only for a fixed sample size. Our approach combines four tools in the following order: (a) nonnegative supermartingales or reverse submartingales, (b) the method of mixtures, (c) the Donsker-Varadhan formula (or other convex duality principles), and (d) Ville's inequality. Our main result is a PAC-Bayes theorem which holds for a wide class of discrete stochastic processes. We show how this result implies time-uniform versions of well-known classical PAC-Bayes bounds, such as those of Seeger, McAllester, Maurer, and Catoni, in addition to many recent bounds. We also present several novel bounds. Our framework also enables us to relax traditional assumptions; in particular, we consider nonstationary loss functions and non-i.i.d. data. In sum, we unify the derivation of past bounds and ease the search for future bounds: one may simply check if our supermartingale or submartingale conditions are met and, if so, be guaranteed a (time-uniform) PAC-Bayes bound.
翻訳日:2023-11-08 01:03:45 公開日:2023-11-06
# ベイズニューラルネットワークを探索するフラット

Flat Seeking Bayesian Neural Networks ( http://arxiv.org/abs/2302.02713v5 )

ライセンス: Link先を確認
Van-Anh Nguyen, Tung-Long Vuong, Hoang Phan, Thanh-Toan Do, Dinh Phung, Trung Le(参考訳) ベイズニューラルネットワーク(BNN)は、モデルパラメータに事前分布を付与し、観測データに基づいて後続分布を推定することにより、ディープラーニングモデルに対する確率論的解釈を提供する。 後方分布からサンプリングされたモデルは、アンサンブル予測と予測の不確かさの定量化に使用できる。 シャープ性の低いディープラーニングモデルの方が一般化能力が高いことはよく知られている。 しかし、既存の後進推論は定式化の観点からはシャープネス/フラットネスを意識していないため、これらのモデルからサンプリングされたモデルの鋭さが高まる可能性がある。 本稿では,ベイズ設定の理論と,シャープネスを意識した後部における変分推論手法を開発する。 特に、鋭さを認識できる後方モデルと、この鋭さを認識できる後方を推定する最適近似モデルでは、より平坦性が向上し、より高い一般化能力を持つ可能性がある。 我々は、最先端のベイジアンニューラルネットワークとシャープネス認識後部を併用して実験を行い、フラットな探索相手が関心のあるすべての指標においてベースラインを上回っていることを示す。

Bayesian Neural Networks (BNNs) provide a probabilistic interpretation for deep learning models by imposing a prior distribution over model parameters and inferring a posterior distribution based on observed data. The model sampled from the posterior distribution can be used for providing ensemble predictions and quantifying prediction uncertainty. It is well-known that deep learning models with lower sharpness have better generalization ability. However, existing posterior inferences are not aware of sharpness/flatness in terms of formulation, possibly leading to high sharpness for the models sampled from them. In this paper, we develop theories, the Bayesian setting, and the variational inference approach for the sharpness-aware posterior. Specifically, the models sampled from our sharpness-aware posterior, and the optimal approximate posterior estimating this sharpness-aware posterior, have better flatness, hence possibly possessing higher generalization ability. We conduct experiments by leveraging the sharpness-aware posterior with state-of-the-art Bayesian Neural Networks, showing that the flat-seeking counterparts outperform their baselines in all metrics of interest.
翻訳日:2023-11-08 01:03:00 公開日:2023-11-06
# 過パラメータ低ランクマトリクスセンシングにおけるプリコンディショニングのパワー

The Power of Preconditioning in Overparameterized Low-Rank Matrix Sensing ( http://arxiv.org/abs/2302.01186v3 )

ライセンス: Link先を確認
Xingyu Xu, Yandi Shen, Yuejie Chi, Cong Ma(参考訳) 真のランクが不明な場合や、行列が不条件である場合の低ランク行列センシング問題に対処するための事前条件付き勾配降下法である、$\textsf{scaledgd($\lambda$)}$を提案する。 オーバーパラメータ化係数表現を使用すると、$\textsf{ScaledGD($\lambda$)}$は小さなランダム初期化から始まり、減衰プレコンディショニングの特定の形式で勾配降下して、オーバーパラメータ化や悪曲率に対処する。 プリコンディショナーによって引き起こされる光計算オーバーヘッドを犠牲にして、$\textsf{ScaledGD($\lambda$)}$は、過小評価でさえもバニラ勾配降下($\textsf{GD}$)と比較して非常に堅牢である。 具体的には、ガウス設計の下で、$\textsf{ScaledGD($\lambda$)}$は条件数と問題次元に関して対数的にしかスケールしない少数の反復の後に、真の低ランク行列に一定の線形速度で収束することを示す。 これにより、条件数に対する多項式依存に苦しむvanilla $\textsf{GD}$の収束率を大幅に改善する。 我々の研究は、過パラメータ学習における一般化を損なうことなく収束を加速する前処理の力を示す。

We propose $\textsf{ScaledGD($\lambda$)}$, a preconditioned gradient descent method to tackle the low-rank matrix sensing problem when the true rank is unknown, and when the matrix is possibly ill-conditioned. Using overparametrized factor representations, $\textsf{ScaledGD($\lambda$)}$ starts from a small random initialization, and proceeds by gradient descent with a specific form of damped preconditioning to combat bad curvatures induced by overparameterization and ill-conditioning. At the expense of light computational overhead incurred by preconditioners, $\textsf{ScaledGD($\lambda$)}$ is remarkably robust to ill-conditioning compared to vanilla gradient descent ($\textsf{GD}$) even with overprameterization. Specifically, we show that, under the Gaussian design, $\textsf{ScaledGD($\lambda$)}$ converges to the true low-rank matrix at a constant linear rate after a small number of iterations that scales only logarithmically with respect to the condition number and the problem dimension. This significantly improves over the convergence rate of vanilla $\textsf{GD}$ which suffers from a polynomial dependency on the condition number. Our work provides evidence on the power of preconditioning in accelerating the convergence without hurting generalization in overparameterized learning.
翻訳日:2023-11-08 01:02:41 公開日:2023-11-06
# 一般パラメータ化と線形収束を考慮した政策鏡用新フレームワーク

A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence ( http://arxiv.org/abs/2301.13139v3 )

ライセンス: Link先を確認
Carlo Alfano, Rui Yuan, Patrick Rebeschini(参考訳) TRPOやPPOのような強化学習における近代的なポリシー最適化手法は、パラメータ化されたポリシーの使用によって成功している。 しかし、このクラスのアルゴリズム、特に表の設定では理論的な保証が確立されているが、一般的なパラメータ化スキームの使用はほとんど不当である。 本稿では,一般パラメータ化を自然に適応するミラー降下に基づくポリシー最適化のための新しい枠組みを提案する。 このスキームによって引き起こされるポリシークラスは、既知のクラス、例えばsoftmaxを復元し、ミラーマップの選択に応じて新しいクラスを生成する。 この枠組みを用いて,一般パラメータ化を含むポリシー勾配に基づく手法の線形収束を保証する最初の結果を得る。 一般的なパラメータ化スキームに適合するフレームワークの能力を実証するため、浅層ニューラルネットワークを用いた場合のサンプル複雑性を示し、従来の最適結果の改善を示し、古典的な制御タスクにおける理論的主張の有効性を実証的に検証した。

Modern policy optimization methods in reinforcement learning, such as TRPO and PPO, owe their success to the use of parameterized policies. However, while theoretical guarantees have been established for this class of algorithms, especially in the tabular setting, the use of general parameterization schemes remains mostly unjustified. In this work, we introduce a novel framework for policy optimization based on mirror descent that naturally accommodates general parameterizations. The policy class induced by our scheme recovers known classes, e.g., softmax, and generates new ones depending on the choice of mirror map. Using our framework, we obtain the first result that guarantees linear convergence for a policy-gradient-based method involving general parameterization. To demonstrate the ability of our framework to accommodate general parameterization schemes, we provide its sample complexity when using shallow neural networks, show that it represents an improvement upon the previous best results, and empirically validate the effectiveness of our theoretical claims on classic control tasks.
翻訳日:2023-11-08 01:02:13 公開日:2023-11-06
# カーネル回帰の不変性から得られる特異なサンプル複雑度

The Exact Sample Complexity Gain from Invariances for Kernel Regression ( http://arxiv.org/abs/2303.14269v2 )

ライセンス: Link先を確認
Behrooz Tahmasebi, Stefanie Jegelka(参考訳) 実際、モデルへの不変性エンコーディングはサンプルの複雑さを改善する。 本研究では,この現象を理論的観点から研究する。 特に、多様体上の群作用に不変な対象関数を持つコンパクト多様体上のカーネルリッジ回帰に対するミニマックス最適レートを提供する。 我々の結果は任意の滑らかなコンパクトリー群作用、あるいは正次元の群に対しても成り立つ。 有限群の場合、利得は群のサイズによって標本の数を効果的に乗算する。 正の次元の群について、ゲインは商空間の体積に比例する因子に加えて多様体の次元の減少によって観測される。 我々の証明は、不変多項式を使用するより一般的な戦略とは対照的に、微分幾何学の観点を取る。 不変性を持つ学習に関するこの新しい幾何学的視点は、独立した関心を持つかもしれない。

In practice, encoding invariances into models improves sample complexity. In this work, we study this phenomenon from a theoretical perspective. In particular, we provide minimax optimal rates for kernel ridge regression on compact manifolds, with a target function that is invariant to a group action on the manifold. Our results hold for any smooth compact Lie group action, even groups of positive dimension. For a finite group, the gain effectively multiplies the number of samples by the group size. For groups of positive dimension, the gain is observed by a reduction in the manifold's dimension, in addition to a factor proportional to the volume of the quotient space. Our proof takes the viewpoint of differential geometry, in contrast to the more common strategy of using invariant polynomials. This new geometric viewpoint on learning with invariances may be of independent interest.
翻訳日:2023-11-07 23:21:12 公開日:2023-11-06
# モーションマター: カメラの生理的改善のためのニューラルモーショントランスファー

Motion Matters: Neural Motion Transfer for Better Camera Physiological Measurement ( http://arxiv.org/abs/2303.12059v4 )

ライセンス: Link先を確認
Akshay Paruchuri, Xin Liu, Yulu Pan, Shwetak Patel, Daniel McDuff, Soumyadip Sengupta(参考訳) カメラに基づく生理学的測定のための機械学習モデルは、代表的なトレーニングデータがないため、弱い一般化が可能である。 身体の動きは、ビデオから微妙な脈拍を回復しようとするときに最も重要なノイズ源の1つである。 我々は,興味の生理的変化を保ちながら,動きの変動を導入するデータ拡張の一形態として,運動伝達を考察する。 遠隔光胸シンモグラフィ (rppg) の課題における映像強調のためのニューラルビデオ合成手法を適用し, 運動増強の効果について検討した。 1)規模及び規模 2)運動の種類。 公開データセットの動作強化バージョンをトレーニングした後、PUREデータセットのさまざまな最先端メソッドを使用して、既存のデータセット間結果よりも47%改善されていることを示す。 また, TS-CANを用いて, 5つのベンチマークデータセットのデータセット間比較を行い, 最大79%の改善率を示す。 本研究は, カメラを用いた生理学的センシングモデルの改良のためのデータ拡張手法として, モーショントランスファーの有用性を示す。 我々は3つの公開データセット(UBFC-rPPG、PURE、SCAMPS)上のデータ拡張技術としてモーション転送を使用するためのコードをリリースした。

Machine learning models for camera-based physiological measurement can have weak generalization due to a lack of representative training data. Body motion is one of the most significant sources of noise when attempting to recover the subtle cardiac pulse from a video. We explore motion transfer as a form of data augmentation to introduce motion variation while preserving physiological changes of interest. We adapt a neural video synthesis approach to augment videos for the task of remote photoplethysmography (rPPG) and study the effects of motion augmentation with respect to 1) the magnitude and 2) the type of motion. After training on motion-augmented versions of publicly available datasets, we demonstrate a 47% improvement over existing inter-dataset results using various state-of-the-art methods on the PURE dataset. We also present inter-dataset results on five benchmark datasets to show improvements of up to 79% using TS-CAN, a neural rPPG estimation method. Our findings illustrate the usefulness of motion transfer as a data augmentation technique for improving the generalization of models for camera-based physiological sensing. We release our code for using motion transfer as a data augmentation technique on three publicly available datasets, UBFC-rPPG, PURE, and SCAMPS, and models pre-trained on motion-augmented data here: https://motion-matters.github.io/
翻訳日:2023-11-07 23:19:15 公開日:2023-11-06
# 分類とロバスト回帰のための代替損失関数はニューラルネットワークの精度を向上させる

Alternate Loss Functions for Classification and Robust Regression Can Improve the Accuracy of Artificial Neural Networks ( http://arxiv.org/abs/2303.09935v2 )

ライセンス: Link先を確認
Mathew Mithra Noel, Arindam Banerjee, Geraldine Bessie Amali D, Venkataraman Muthiah-Nakarajan(参考訳) すべての機械学習アルゴリズムは損失、コスト、ユーティリティ、報酬関数を使用して学習目標を符号化し、学習プロセスを監督する。 学習を監督するこの関数は、しばしば認識されていないハイパーパラメータであり、不正な出力がどのようにペナル化され、パフォーマンスを改善するために調整されるかを決定する。 本稿では,ニューラルネットワークの学習速度と最終的な精度が,ニューラルネットワークの学習に使用される損失関数に大きく依存することを示す。 特に、微分値は損失関数が異なる場合に大きく異なることができ、勾配降下に基づくバックプロパゲーション(BP)訓練後の性能が著しく異なる。 本稿では,従来のクロスエントロピー損失と比較して,凸だがペナルティ誤差が異なる新たな損失関数の性能への影響について検討する。 様々なベンチマークタスクの性能を著しく向上させる2つの新しい分類損失関数を提案する。 異常数がかなり多いデータセットの2乗誤差,フーバ損失,ログコッシュ損失を上回る,新しい損失関数であるsmooth absolute errorが提案されている。 この滑らかな絶対誤差損失関数は無限に微分可能であり、ロバスト回帰に用いられるフーバーおよびログコッシュ損失よりも絶対誤差損失に近い。

All machine learning algorithms use a loss, cost, utility or reward function to encode the learning objective and oversee the learning process. This function that supervises learning is a frequently unrecognized hyperparameter that determines how incorrect outputs are penalized and can be tuned to improve performance. This paper shows that training speed and final accuracy of neural networks can significantly depend on the loss function used to train neural networks. In particular derivative values can be significantly different with different loss functions leading to significantly different performance after gradient descent based Backpropagation (BP) training. This paper explores the effect on performance of using new loss functions that are also convex but penalize errors differently compared to the popular Cross-entropy loss. Two new classification loss functions that significantly improve performance on a wide variety of benchmark tasks are proposed. A new loss function call smooth absolute error that outperforms the Squared error, Huber and Log-Cosh losses on datasets with significantly many outliers is proposed. This smooth absolute error loss function is infinitely differentiable and more closely approximates the absolute error loss compared to the Huber and Log-Cosh losses used for robust regression.
翻訳日:2023-11-07 23:18:33 公開日:2023-11-06
# 確率補間体:流れと拡散の統一的枠組み

Stochastic Interpolants: A Unifying Framework for Flows and Diffusions ( http://arxiv.org/abs/2303.08797v3 )

ライセンス: Link先を確認
Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden(参考訳) フローベースおよび拡散ベースを統一する生成モデルのクラスを紹介する。 これらのモデルは、Albergo & Vanden-Eijnden (2023) で提案されたフレームワークを拡張し、任意の確率密度関数を正確に有限時間でブリッジするために 'stochastic interpolants' と呼ばれる幅広い時間確率過程のクラスを使用できる。 これらの補間体は、2つの所定の密度のデータと、橋を柔軟に形作る追加の潜在変数を組み合わせることで構築される。 確率補間器の時間依存性確率密度関数は、可変拡散係数を持つフォッカー・プランク方程式の族と同様に、一階輸送方程式を満たすことが示されている。 個々のサンプルの時間的進化を考慮すると、この視点はすぐに、確率フロー方程式に基づく決定論的および確率的生成モデルと、調整可能なノイズレベルを持つ確率微分方程式の両方をもたらす。 これらのモデルに入るドリフト係数は、単純な二次目的関数のユニークな最小値として特徴づけられる時間依存速度場であり、補間密度のスコアの新しい目的である。 これらの二次目的の最小化は、確率力学に基づく生成モデルの可能性を制御するが、決定論的ダイナミクスの確率制御はより厳密であることを示す。 また,スコアベース拡散モデル,確率的局所化過程,確率的解法,整流流といった他の手法との関係についても検討した。 さらに, 確率的補間体は, 補間体を明示的に最適化する場合に, 2つの対象密度間のシュル=オディンガー橋を回収することを示した。 最後にアルゴリズム的な側面を議論し,そのアプローチを数値例で示す。

A class of generative models that unifies flow-based and diffusion-based methods is introduced. These models extend the framework proposed in Albergo & Vanden-Eijnden (2023), enabling the use of a broad class of continuous-time stochastic processes called `stochastic interpolants' to bridge any two arbitrary probability density functions exactly in finite time. These interpolants are built by combining data from the two prescribed densities with an additional latent variable that shapes the bridge in a flexible way. The time-dependent probability density function of the stochastic interpolant is shown to satisfy a first-order transport equation as well as a family of forward and backward Fokker-Planck equations with tunable diffusion coefficient. Upon consideration of the time evolution of an individual sample, this viewpoint immediately leads to both deterministic and stochastic generative models based on probability flow equations or stochastic differential equations with an adjustable level of noise. The drift coefficients entering these models are time-dependent velocity fields characterized as the unique minimizers of simple quadratic objective functions, one of which is a new objective for the score of the interpolant density. We show that minimization of these quadratic objectives leads to control of the likelihood for generative models built upon stochastic dynamics, while likelihood control for deterministic dynamics is more stringent. We also discuss connections with other methods such as score-based diffusion models, stochastic localization processes, probabilistic denoising techniques, and rectifying flows. In addition, we demonstrate that stochastic interpolants recover the Schr\"odinger bridge between the two target densities when explicitly optimizing over the interpolant. Finally, algorithmic aspects are discussed and the approach is illustrated on numerical examples.
翻訳日:2023-11-07 23:17:47 公開日:2023-11-06
# 吸収による洪水:複雑ネットワーク上の不均一帯域の効率的なプロトコル

Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks ( http://arxiv.org/abs/2303.05445v3 )

ライセンス: Link先を確認
Junghyun Lee, Laura Schmid, Se-Young Yun(参考訳) マルチアームのバンディットはシーケンシャルな意思決定のモデル化に広く使われており、オンラインレコメンデーションシステムやワイヤレスネットワークなど、多くの現実のアプリケーションで広く使われている。 我々は,各エージェントがそれぞれ異なるアームを持つバンドイットインスタンスを解くマルチエージェント設定について検討する。 彼らの目標は、あるネットワーク上の通信プロトコルを介して協力しながら、グループの後悔を最小限にすることである。 この問題に関する以前の文献では、腕の不均一性とネットワークエージェントを別々に考慮していた。 本稿では,両方の特徴を包含する設定を導入する。 この新しい設定のために、我々はまず、古典的なUTBポリシーと組み合わされた標準洪水プロトコルに対する厳格な後悔の分析を行う。 そこで本稿では,複雑なネットワークの浸水による通信コストの低減を図るため,FwA(Flooding with absorption)と呼ばれる新しいプロトコルを提案する。 以上の結果について理論的解析を行い,洪水時のFwAの利点について考察する。 最後に、FwAが他のネットワークプロトコルと比較して最小限の性能損失にもかかわらず、通信コストを大幅に低下させるという、動的ネットワークを含む様々なシナリオを実験的に検証する。

Multi-armed bandits are extensively used to model sequential decision-making, making them ubiquitous in many real-life applications such as online recommender systems and wireless networking. We consider a multi-agent setting where each agent solves their own bandit instance endowed with a different set of arms. Their goal is to minimize their group regret while collaborating via some communication protocol over a given network. Previous literature on this problem only considered arm heterogeneity and networked agents separately. In this work, we introduce a setting that encompasses both features. For this novel setting, we first provide a rigorous regret analysis for a standard flooding protocol combined with the classic UCB policy. Then, to mitigate the issue of high communication costs incurred by flooding in complex networks, we propose a new protocol called Flooding with Absorption (FwA). We provide a theoretical analysis of the resulting regret bound and discuss the advantages of using FwA over flooding. Lastly, we experimentally verify on various scenarios, including dynamic networks, that FwA leads to significantly lower communication costs despite minimal regret performance loss compared to other network protocols.
翻訳日:2023-11-07 23:17:19 公開日:2023-11-06
# mawseo: 悪質なオンラインプロモーションのためのウィキ検索中毒

MAWSEO: Adversarial Wiki Search Poisoning for Illicit Online Promotion ( http://arxiv.org/abs/2304.11300v2 )

ライセンス: Link先を確認
Zilong Lin, Zhengyi Li, Xiaojing Liao, XiaoFeng Wang, Xiaozhong Liu(参考訳) Wiki検索中毒(Wiki search poisoning for illicit promotion)は、ウィキ記事の編集と、関連するクエリのWiki検索結果による不正なビジネスの促進を目的としたサイバー犯罪である。 本稿では,Wiki上のステルスブラックハットSEOが自動化可能であることを示す研究を報告する。 我々の技術はMAWSEOと呼ばれ、現実のサイバー犯罪の目的を達成するために、ランクアップ、破壊的検出回避、トピック関連性、セマンティック一貫性、プロモーションコンテンツのユーザ認識(警告はしない)など、敵対的な修正を用いています。 評価とユーザスタディにより、MAWSEOは、最先端のWiki破壊検知器をバイパスし、アラームを発生させることなく、Wikiユーザーにプロモーションコンテンツを届けることのできる、敵の破壊的編集を効果的かつ効率的に生成できることが示されている。 さらに, ウィキエコシステムにおける攻撃に対するコヒーレンスに基づく検出および破壊行為検出の敵意訓練を含む潜在的防御について検討した。

As a prominent instance of vandalism edits, Wiki search poisoning for illicit promotion is a cybercrime in which the adversary aims at editing Wiki articles to promote illicit businesses through Wiki search results of relevant queries. In this paper, we report a study that, for the first time, shows that such stealthy blackhat SEO on Wiki can be automated. Our technique, called MAWSEO, employs adversarial revisions to achieve real-world cybercriminal objectives, including rank boosting, vandalism detection evasion, topic relevancy, semantic consistency, user awareness (but not alarming) of promotional content, etc. Our evaluation and user study demonstrate that MAWSEO is capable of effectively and efficiently generating adversarial vandalism edits, which can bypass state-of-the-art built-in Wiki vandalism detectors, and also get promotional content through to Wiki users without triggering their alarms. In addition, we investigated potential defense, including coherence based detection and adversarial training of vandalism detection, against our attack in the Wiki ecosystem.
翻訳日:2023-11-07 23:08:40 公開日:2023-11-06
# 多エネルギー管理システムにおける安全強化学習のためのハード制約付き適応安全層

An adaptive safety layer with hard constraints for safe reinforcement learning in multi-energy management systems ( http://arxiv.org/abs/2304.08897v3 )

ライセンス: Link先を確認
Glenn Ceusters, Muhammad Andy Putratama, R\"udiger Franke, Ann Now\'e, Maarten Messagie(参考訳) ハード制約付き安全強化学習(rl)は、マルチエネルギ管理システムの最適制御方向として有望である。 環境固有の制約関数自体が優先順位であり、完全なモデルではない。 そのため、プロジェクト固有の事前および進行中のエンジニアリング作業は引き続き削減され、基礎となるシステムダイナミクスのより良い表現は依然として学習され、モデリングバイアスは最小限に抑えられます。 しかし、制約関数だけであっても、事前に正確に提供することは必ずしも簡単ではないため、潜在的に安全でない振る舞いにつながる。 本稿では, サンプル効率が高く, 等式制約を定式化する可能性を維持しつつ, 初期有用性を高めるために, オプトレイヤー法とセーフフォールバック法を組み合わせた2つの新しい手法を提案する。 (II) 自己改善型制約を導入し, 制約関数の精度を向上し, 新たなデータが利用可能になり, より良いポリシーを学習できるようにする。 どちらの進歩も制約の定式化をRLの定式化から切り離しているため、新しい(おそらくはより良い)RLアルゴリズムはドロップイン置換として機能する。 シミュレーションによるマルチエネルギーシステムのケーススタディでは,初期効用は86.1% (OptLayerPolicy) に対して92.4% (OptLayerPolicy) に増加し,訓練後の政策は104.9% (GreyOptLayerPolicy) に,バニラRLベンチマークと比較して103.4% (OptLayer) に増加した。 最適化問題にサロゲート関数を導入するには特に注意が必要であるが,新たに提示したgreyoptlayerpolicy法が最も有利であると結論する。

Safe reinforcement learning (RL) with hard constraint guarantees is a promising optimal control direction for multi-energy management systems. It only requires the environment-specific constraint functions itself a priori and not a complete model. The project-specific upfront and ongoing engineering efforts are therefore still reduced, better representations of the underlying system dynamics can still be learnt, and modelling bias is kept to a minimum. However, even the constraint functions alone are not always trivial to accurately provide in advance, leading to potentially unsafe behaviour. In this paper, we present two novel advancements: (I) combining the OptLayer and SafeFallback method, named OptLayerPolicy, to increase the initial utility while keeping a high sample efficiency and the possibility to formulate equality constraints. (II) introducing self-improving hard constraints, to increase the accuracy of the constraint functions as more and new data becomes available so that better policies can be learnt. Both advancements keep the constraint formulation decoupled from the RL formulation, so new (presumably better) RL algorithms can act as drop-in replacements. We have shown that, in a simulated multi-energy system case study, the initial utility is increased to 92.4% (OptLayerPolicy) compared to 86.1% (OptLayer) and that the policy after training is increased to 104.9% (GreyOptLayerPolicy) compared to 103.4% (OptLayer) - all relative to a vanilla RL benchmark. Although introducing surrogate functions into the optimisation problem requires special attention, we conclude that the newly presented GreyOptLayerPolicy method is the most advantageous.
翻訳日:2023-11-07 23:07:20 公開日:2023-11-06
# 心電図と臨床報告のマルチモーダル学習による心血管記録の自動検索

Automated Cardiovascular Record Retrieval by Multimodal Learning between Electrocardiogram and Clinical Report ( http://arxiv.org/abs/2304.06286v3 )

ライセンス: Link先を確認
Jielin Qiu, Jiacheng Zhu, Shiqi Liu, William Han, Jingqi Zhang, Chaojing Duan, Michael Rosenberg, Emerson Liu, Douglas Weber, Ding Zhao(参考訳) 心電図の自動解釈(ECG)は,機械学習手法の進歩とともに注目されている。 関心の高まりにもかかわらず、近年の研究では、臨床心臓疾患の診断において重要な側面である、経験者臨床医が生み出した診断報告を無視する分類や回帰タスクのみに焦点を当てている。 本稿では,Large Language Models (LLM) と Vision-Transformer (ViT) モデルにおける最近のブレークスルーを活用し,ECGの解釈に新しいアプローチを導入する。 心電図診断を分類または回帰タスクとして扱うのではなく、入力された心電図データに基づいて最も類似した臨床症例を自動的に同定する別の方法を提案する。 また,ECGを画像として解釈しやすく,利用しやすいため,符号化された画像としてECGを処理し,符号化されたECG画像とECG診断レポートの視覚言語アライメントを共同学習するための視覚言語学習パラダイムを採用する。 画像に心電図をエンコードすることで,効率的な心電図検索システムを実現することができる。 さらに重要なことに、この発見は未開発の地域で診断サービスを提供する上で重要なリソースとなり得る。

Automated interpretation of electrocardiograms (ECG) has garnered significant attention with the advancements in machine learning methodologies. Despite the growing interest, most current studies focus solely on classification or regression tasks, which overlook a crucial aspect of clinical cardio-disease diagnosis: the diagnostic report generated by experienced human clinicians. In this paper, we introduce a novel approach to ECG interpretation, leveraging recent breakthroughs in Large Language Models (LLMs) and Vision-Transformer (ViT) models. Rather than treating ECG diagnosis as a classification or regression task, we propose an alternative method of automatically identifying the most similar clinical cases based on the input ECG data. Also, since interpreting ECG as images is more affordable and accessible, we process ECG as encoded images and adopt a vision-language learning paradigm to jointly learn vision-language alignment between encoded ECG images and ECG diagnosis reports. Encoding ECG into images can result in an efficient ECG retrieval system, which will be highly practical and useful in clinical applications. More importantly, our findings could serve as a crucial resource for providing diagnostic services in underdeveloped regions.
翻訳日:2023-11-07 23:06:20 公開日:2023-11-06
# イオンキャビティ系における3次例外点

Third-order exceptional point in an ion-cavity system ( http://arxiv.org/abs/2304.05886v3 )

ライセンス: Link先を確認
Jinuk Kim, Taegyu Ha, Donggeon Kim, Dowon Lee, Ki-Se Lee, Jongcheol Won, Youngil Moon, Moonjoo Lee(参考訳) イオンキャビティ設定における3次例外点(EP3)の観測方法について検討する。 ラムダ型のレベル設定では、イオンはポンプ磁場によって駆動され、共振器は別の弱いレーザー磁場でプローブされる。 我々は、イオンの励起状態の高度非対称分岐比を利用して弱励起極限を満たすので、非エルミート的ハミルトニアン$(H_{\textrm{nH}})$を構築することができる。 共振器透過スペクトルに適合すると、$H_{\textrm{nH}}$の固有値が得られる。 EP3は、ポンプレーザのラビ周波数と原子空洞結合が系の損失率を一定にバランスする点に現れる。 可能な実験パラメータが提供される。

We investigate a scheme for observing the third-order exceptional point (EP3) in an ion-cavity setting. In the lambda-type level configuration, the ion is driven by a pump field, and the resonator is probed with another weak laser field. We exploit the highly asymmetric branching ratio of an ion's excited state to satisfy the weak-excitation limit, which allows us to construct the non-Hermitian Hamiltonian $(H_{\textrm{nH}})$. Via fitting the cavity-transmission spectrum, the eigenvalues of $H_{\textrm{nH}}$ are obtained. The EP3 appears at a point where the Rabi frequency of the pump laser and the atom-cavity coupling constant balance the loss rates of the system. Feasible experimental parameters are provided.
翻訳日:2023-11-07 23:05:42 公開日:2023-11-06
# モロッコ方言における感情分析データセット--アラビア語とラテン文字方言のギャップを埋める

Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between Arabic and Latin Scripted dialect ( http://arxiv.org/abs/2303.15987v2 )

ライセンス: Link先を確認
Mouad Jbel, Imad Hafidi, Abdulmutallib Metrane(参考訳) 感情や意見をテキストで表現する自動的プロセスである感性分析は、自然言語処理の分野で広く研究されてきた。 しかし、まだ表現されていない側面の1つはモロッコ方言の感情分析であり、独特な言語的景観と複数の文字が共存している。 感情分析における以前の研究は主にアラビア文字を用いた方言を対象としていた。 これらの取り組みは貴重な洞察を提供したが、アラビア語とラテン文字の混合を特徴とするモロッコのウェブコンテンツの複雑さを完全に捉えていないかもしれない。 その結果,モロッコの言語多様性のスペクトル全体を網羅する感情分析の拡張の重要性が示唆された。 我々の研究の中心は、モロッコ方言の感情分析のための最大の公開データセットの作成であり、アラビア語の文字だけでなくラテン文字で書かれたモロッコ方言も含んでいる。 多様なテキストデータを組み立てることで、モロッコ方言で20000の手動ラベル付きテキストと、モロッコ方言の停止単語のリストを一般公開したデータセットを構築することができました。 感情分析を行うために,複数の機械学習モデルについて比較研究を行い,データセットとの互換性を評価した。 生データと前処理データの両方を用いて,前処理の重要性を示す実験を行った。 モデルで92%の精度を達成でき、その責任をさらに証明するために、モロッコ方言のより小さな公開データセットでモデルをテストすることができ、その結果は良好でした。

Sentiment analysis, the automated process of determining emotions or opinions expressed in text, has seen extensive exploration in the field of natural language processing. However, one aspect that has remained underrepresented is the sentiment analysis of the Moroccan dialect, which boasts a unique linguistic landscape and the coexistence of multiple scripts. Previous works in sentiment analysis primarily targeted dialects employing Arabic script. While these efforts provided valuable insights, they may not fully capture the complexity of Moroccan web content, which features a blend of Arabic and Latin script. As a result, our study emphasizes the importance of extending sentiment analysis to encompass the entire spectrum of Moroccan linguistic diversity. Central to our research is the creation of the largest public dataset for Moroccan dialect sentiment analysis that incorporates not only Moroccan dialect written in Arabic script but also in Latin letters. By assembling a diverse range of textual data, we were able to construct a dataset with a range of 20 000 manually labeled text in Moroccan dialect and also publicly available lists of stop words in Moroccan dialect. To dive into sentiment analysis, we conducted a comparative study on multiple Machine learning models to assess their compatibility with our dataset. Experiments were performed using both raw and preprocessed data to show the importance of the preprocessing step. We were able to achieve 92% accuracy in our model and to further prove its liability we tested our model on smaller publicly available datasets of Moroccan dialect and the results were favorable.
翻訳日:2023-11-07 23:04:36 公開日:2023-11-06
# 二次元磁性金属のトポロジカル超伝導

Topological Superconductivity in Two-Dimensional Altermagnetic Metals ( http://arxiv.org/abs/2305.10479v2 )

ライセンス: Link先を確認
Di Zhu, Zheng-Yang Zhuang, Zhigang Wu, Zhongbo Yan(参考訳) 磁性金属を超伝導状態に持ち込むことは、非伝統的な超伝導体や潜在的にトポロジカル超伝導体を実現するための重要なアプローチである。 第3次コリニア磁性相に分類される交代磁性は、バンド構造の興味深い運動量依存スピンスプリッティングを引き起こし、対称性の強化されたゼロネット磁化による偶数個のスピン偏極フェルミ表面をもたらす。 本研究では,d-wave altermagnetism と rashba スピン軌道結合を持つ2次元金属の超伝導に及ぼす新しい磁気秩序の影響について検討する。 具体的には、拡張された魅力的なハバード相互作用を検討し、この系で起こり得る超伝導ペアのタイプを決定し、それらが位相的性質を持つかどうかを確認する。 自己整合平均場計算により、この系は一般にスピン-シングレットs波とスピン-トリップレットp波ペアリングの混合を好んでおり、後者に反磁性が有益である。 詳細な計算によって支持される対称性の議論を用いて、p波対が支配的になると、一階と二階の両方を含む多くのトポロジカル超伝導体が現れることを示す。 特に、2階のトポロジカル超伝導体は$\mathcal{C}_{4z}\mathcal{T}$対称性によって強制され、マヨラナ角モードのスピン分極を一意な絡み合った構造にすることができる。 本研究は, 反磁性金属が本質的非古典的超伝導とトポロジカル超伝導を探求するための魅力的な基盤であることを示す。

Bringing magnetic metals into superconducting states represents an important approach for realizing unconventional superconductors and potentially even topological superconductors. Altermagnetism, classified as a third basic collinear magnetic phase, gives rise to intriguing momentum-dependent spin-splitting of the band structure, and results in an even number of spin-polarized Fermi surfaces due to the symmetry-enforced zero net magnetization. In this work, we investigate the effect of this new magnetic order on the superconductivity of a two-dimensional metal with d-wave altermagnetism and Rashba spin-orbital coupling. Specifically we consider an extended attractive Hubbard interaction, and determine the types of superconducting pairing that can occur in this system and ascertain whether they possess topological properties. Through self-consistent mean-field calculations, we find that the system in general favors a mixture of spin-singlet s-wave and spin-triplet p-wave pairings, and that the altermagnetism is beneficial to the latter. Using symmetry arguments supported by detailed calculations, we show that a number of topological superconductors, including both first-order and second-order ones, can emerge when the p-wave pairing dominates. In particular, we find that the second-order topological superconductor is enforced by a $\mathcal{C}_{4z}\mathcal{T}$ symmetry, which renders the spin polarization of Majorana corner modes into a unique entangled structure. Our study demonstrates that altermagnetic metals are fascinating platforms for the exploration of intrinsic unconventional superconductivity and topological superconductivity.
翻訳日:2023-11-07 22:56:43 公開日:2023-11-06
# C-Eval: ファンデーションモデルのためのマルチレベル中国語評価スイート

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models ( http://arxiv.org/abs/2305.08322v3 )

ライセンス: Link先を確認
Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, Yao Fu, Maosong Sun, Junxian He(参考訳) 新しいNLPベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。 基礎モデルの高度な知識と推論能力を評価するための,中国初の総合評価スイートであるc-evalを提案する。 C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。 質問は、人文科学から科学、工学まで、52の異なる分野にまたがる。 C-EvalにはC-Eval Hardが伴い、C-Evalの高度な推論能力を必要とする非常に困難な課題のサブセットである。 英語と中国語の両方のモデルを含む、c-evalにおける最も先進的なllmを包括的に評価する。 その結果、gpt-4のみが平均精度60%以上を達成できたことが示され、現在のllmの改善の余地が依然として残っていることが示唆された。 c-evalはファンデーションモデルの重要な強みと欠点を分析し、中国ユーザーの開発と成長を促進するのに役立つと予測している。

New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.
翻訳日:2023-11-07 22:55:46 公開日:2023-11-06
# ドアベルカメラの軽量化検出

Lightweight Delivery Detection on Doorbell Cameras ( http://arxiv.org/abs/2305.07812v2 )

ライセンス: Link先を確認
Pirazh Khorramshahi, Zhe Wu, Tianchen Wang, Luke Deluccia, Hongcheng Wang(参考訳) 近年の映像ベース行動認識と強固な時空間モデリングの進歩にもかかわらず、提案手法の多くは計算資源の豊富さに頼り、大規模で計算集約的な畳み込みやトランスフォーマーベースのニューラルネットワークを実行して十分な結果を得る。 これにより、電力とコンピューティングリソースが制限されたエッジデバイスへのそのようなモデルのデプロイが制限される。 本研究では、重要なスマートホームアプリケーション、ビデオベースの配信検出、リソース制約されたドアベルカメラ上で動作可能な、このタスクのためのシンプルで軽量なパイプラインを提案する。 提案手法は,移動自在な3DCNNネットワークを用いて,一連の粗い活動提案を生成するための動作手段に依存している。 そこで我々は,ネットワークが強固な時空間的特徴を学習することを支援する新しい半教師付きアテンションモジュールを設計し,ネットワークによる予測の不確かさを定量化するためのエビデンスに基づく最適化目標を採用する。 当社のキュレーションしたデリバリデータセットにおける実験結果は,パイプラインの有意な有効性を示し,自由かつ相当な推論時間パフォーマンス向上を達成するためのトレーニングフェーズノベルティのメリットを強調する。

Despite recent advances in video-based action recognition and robust spatio-temporal modeling, most of the proposed approaches rely on the abundance of computational resources to afford running huge and computation-intensive convolutional or transformer-based neural networks to obtain satisfactory results. This limits the deployment of such models on edge devices with limited power and computing resources. In this work we investigate an important smart home application, video based delivery detection, and present a simple and lightweight pipeline for this task that can run on resource-constrained doorbell cameras. Our method relies on motion cues to generate a set of coarse activity proposals followed by their classification with a mobile-friendly 3DCNN network. To train we design a novel semi-supervised attention module that helps the network to learn robust spatio-temporal features and adopt an evidence-based optimization objective that allows for quantifying the uncertainty of predictions made by the network. Experimental results on our curated delivery dataset shows the significant effectiveness of our pipeline and highlights the benefits of our training phase novelties to achieve free and considerable inference-time performance gains.
翻訳日:2023-11-07 22:55:29 公開日:2023-11-06
# BERT と Query-Aware LSH を用いたインフォームドキュメンテーションにおけるコード例推薦の改善 : 比較検討

Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative Study ( http://arxiv.org/abs/2305.03017v4 )

ライセンス: Link先を確認
Sajjad Rahmani, AmirHossein Naghshzan, Latifa Guerrouj(参考訳) 本研究は,コードスニペットの用意により,開発者がかなりの時間を節約できるソフトウェア開発者の支援を目的としたコード例の推薦について検討する。 私たちの研究の焦点はStack Overflowで、特にJavaプログラミング言語のコンテキストにおいて、議論やソリューションをコーディングするのによく使われるリソースです。 我々は,LLM(Large Language Model)であるBERTを適用し,コード例を意味情報を抽出して数値ベクトルに変換する。 これらの数値表現が準備されたら、Locality-Sensitive Hashing (LSH) を用いて近似近傍隣人(ANN)を同定する。 LSHにはランダム・ハイパープレーン・ベースLSHとクエリ・アウェアLSHの2つのバリエーションがある。 これらの2つのアプローチを,hitrate, mean reciprocal rank (mrr), average execution time, associatedの4つのパラメータで厳密に比較した。 本研究では,Random Hyperplane-based (RH) 法よりもQuery-Aware (QA) 法の方が優れた性能を示した。 具体的には、RHアプローチと比較して、クエリペアに対してHitRateを20~35倍に改善した。 さらに、ハッシュテーブルの作成とデータサンプルのバケットへの割り当てを少なくとも4倍高速にすることで、QAアプローチは大幅に時間効率が向上した。 コード例をミリ秒以内に返すことができるが、RHアプローチは通常、コード例を推奨するのに数秒を要する。 QAアプローチの優れたパフォーマンスのため、最先端のベースラインであるPostFinderとFaCoYに対してテストしました。 提案手法は,有効なコード推薦の可能性を証明した。

Our research investigates the recommendation of code examples to aid software developers, a practice that saves developers significant time by providing ready-to-use code snippets. The focus of our study is Stack Overflow, a commonly used resource for coding discussions and solutions, particularly in the context of the Java programming language. We applied BERT, a powerful Large Language Model (LLM) that enables us to transform code examples into numerical vectors by extracting their semantic information. Once these numerical representations are prepared, we identify Approximate Nearest Neighbors (ANN) using Locality-Sensitive Hashing (LSH). Our research employed two variants of LSH: Random Hyperplane-based LSH and Query-Aware LSH. We rigorously compared these two approaches across four parameters: HitRate, Mean Reciprocal Rank (MRR), Average Execution Time, and Relevance. Our study revealed that the Query-Aware (QA) approach showed superior performance over the Random Hyperplane-based (RH) method. Specifically, it exhibited a notable improvement of 20\% to 35\% in HitRate for query pairs compared to the RH approach. Furthermore, the QA approach proved significantly more time-efficient, with its speed in creating hashing tables and assigning data samples to buckets being at least four times faster. It can return code examples within milliseconds, whereas the RH approach typically requires several seconds to recommend code examples. Due to the superior performance of the QA approach, we tested it against PostFinder and FaCoY, the state-of-the-art baselines. Our QA method showed comparable efficiency proving its potential for effective code recommendation.
翻訳日:2023-11-07 22:53:07 公開日:2023-11-06
# FOCUS:多言語モデルの単言語特化のための効果的な埋め込み初期化

FOCUS: Effective Embedding Initialization for Monolingual Specialization of Multilingual Models ( http://arxiv.org/abs/2305.14481v2 )

ライセンス: Link先を確認
Konstantin Dobler and Gerard de Melo(参考訳) ウォームスタートとして高リソース言語に事前トレーニングされたモデル重みを使用すると、データの必要性が減少し、他の、特に低リソース言語のための高品質言語モデルを得るための計算が可能になる。 しかし、ターゲット言語に特化した新しいトークン化子を使いたければ、ソースモデルの埋め込みマトリックスを転送することはできない。 本稿では,ソースモデルの埋め込み行列の情報に基づいて,新しいトークン化器に対して,組込み行列を効果的に初期化する新しい組込み初期化手法であるsparsemaxを用いて,高速に重なり合うトークンの組み合わせを提案する。 FOCUSは、新たに追加されたトークンを、ソースとターゲット語彙の重複におけるトークンの組み合わせとして表現している。 重なり合うトークンは、補助的な静的トークン埋め込み空間における意味的類似性に基づいて選択される。 我々は,マルチリンガルなXLM-Rをソースモデルとして使用することに着目し,FOCUSが言語モデリングや下流タスク(NLI,QA,NER)において,ランダム初期化や過去の作業より優れていることを示す。

Using model weights pretrained on a high-resource language as a warm start can reduce the need for data and compute to obtain high-quality language models for other, especially low-resource, languages. However, if we want to use a new tokenizer specialized for the target language, we cannot transfer the source model's embedding matrix. In this paper, we propose FOCUS - Fast Overlapping Token Combinations Using Sparsemax, a novel embedding initialization method that initializes the embedding matrix effectively for a new tokenizer based on information in the source model's embedding matrix. FOCUS represents newly added tokens as combinations of tokens in the overlap of the source and target vocabularies. The overlapping tokens are selected based on semantic similarity in an auxiliary static token embedding space. We focus our study on using the multilingual XLM-R as a source model and empirically show that FOCUS outperforms random initialization and previous work in language modeling and on a range of downstream tasks (NLI, QA, and NER).
翻訳日:2023-11-07 22:43:31 公開日:2023-11-06
# ChatCoT: チャットベースの大規模言語モデルに基づくツール拡張型Chain-of-Thought Reasoning

ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models ( http://arxiv.org/abs/2305.14323v3 )

ライセンス: Link先を確認
Zhipeng Chen, Kun Zhou, Beichen Zhang, Zheng Gong, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 大規模言語モデル(llm)は様々な評価ベンチマークで優れた性能を達成しているが、特定の知識とマルチホップ推論を必要とする複雑な推論タスクにはまだ苦労している。 推論能力を向上させるために,チャットベースのLLM(ChatGPTなど)のためのツール拡張チェーン推論フレームワークChatCoTを提案する。 ChatCoTでは、チャットを通じてより自然な方法でツールを活用するために、マルチターン会話として思考の連鎖(CoT)推論をモデル化します。 各ターンで、LSMはツールと対話するか、推論を実行することができる。 提案手法は,チャットベースのLLMのマルチターン会話能力を効果的に活用し,思考連鎖とツール操作を統一的に統合する。 特に,ツールやタスク,推論形式に関する知識によって会話の初期段階を初期化し,ステップバイステップのツールによる推論を行う反復的ツール推論ステップを提案する。 2つの複雑な推論データセット(MATHとHotpotQA)の実験結果は、ChatCoTが複雑な推論タスクに与える影響を示し、最先端のベースラインに対して7.9%の相対的な改善を実現している。 私たちのコードとデータは、 \url{https://github.com/rucaibox/chatcot} で利用可能です。

Although large language models (LLMs) have achieved excellent performance in a variety of evaluation benchmarks, they still struggle in complex reasoning tasks which require specific knowledge and multi-hop reasoning. To improve the reasoning abilities, we propose ChatCoT, a tool-augmented chain-of-thought reasoning framework for chat-based LLMs (e.g., ChatGPT). In ChatCoT, we model the chain-of-thought (CoT) reasoning as multi-turn conversations, to utilize tools in a more natural way through chatting. At each turn, LLMs can either interact with tools or perform the reasoning. Our approach can effectively leverage the multi-turn conversation ability of chat-based LLMs, and integrate the thought chain following and tools manipulation in a unified way. Specially, we initialize the early turns of the conversation by the knowledge about tools, tasks, and reasoning format, and propose an iterative tool-augmented reasoning step to perform step-by-step tool-augmented reasoning. The experiment results on two complex reasoning datasets (MATH and HotpotQA) have shown the effectiveness of ChatCoT on complex reasoning tasks, achieving a 7.9% relative improvement over the state-of-the-art baseline. Our code and data are available at: \url{https://github.com/RUCAIBOX/ChatCoT}.
翻訳日:2023-11-07 22:43:11 公開日:2023-11-06
# イオンの準安定状態を用いた量子チャネルの実験的識別

Experimental quantum channel discrimination using metastable states of a trapped ion ( http://arxiv.org/abs/2305.14272v2 )

ライセンス: Link先を確認
Kyle DeBry, Jasmine Sinanan-Singh, Colin D. Bruzewicz, David Reens, May E. Kim, Matthew P. Roychowdhury, Robert McConnell, Isaac L. Chuang, and John Chiaverini(参考訳) 本稿では,3つの量子チャネル間の精度と不明瞭な単一ショット識別を,1つの捕捉された$^{40}\text{Ca}^{+}$イオンを用いて実験的に実証する。 3つのチャネルは、自然の古典的アナログである反復的な単一チャネルクエリを使ってあいまいに区別できない。 我々は6次元の$\text{D}_{5/2}$状態空間を量子情報処理に利用するための技術を開発し、古典的な無線通信で使用される位相シフト鍵と振幅シフト鍵データエンコーディングの量子チャネルアナログを識別するためのプロトコルを実装した。 それぞれのケースで99\%以上の識別精度が達成され、既知の実験不足によって完全に制限される。

We present experimental demonstrations of accurate and unambiguous single-shot discrimination between three quantum channels using a single trapped $^{40}\text{Ca}^{+}$ ion. The three channels cannot be distinguished unambiguously using repeated single channel queries, the natural classical analogue. We develop techniques for using the 6-dimensional $\text{D}_{5/2}$ state space for quantum information processing, and we implement protocols to discriminate quantum channel analogues of phase shift keying and amplitude shift keying data encodings used in classical radio communication. The demonstrations achieve discrimination accuracy exceeding $99\%$ in each case, limited entirely by known experimental imperfections.
翻訳日:2023-11-07 22:42:48 公開日:2023-11-06
# 制限:350以上の言語における階層モデルを用いた言語識別・誤認・翻訳

LIMIT: Language Identification, Misidentification, and Translation using Hierarchical Models in 350+ Languages ( http://arxiv.org/abs/2305.14263v2 )

ライセンス: Link先を確認
Milind Agarwal, Md Mahfuz Ibn Alam, Antonios Anastasopoulos(参考訳) 入力テキスト/オーディオの言語を知ることは、タグ、パーサー、翻訳システムなど、ほとんどすべてのNLPツールを使用するための第一歩である。 言語識別はよく研究されている問題であり、時には解決されることもある。実際、データや計算上の課題が不足しているため、現在のシステムは世界の7000の言語の大部分を正確に識別することはできない。 このボトルネックに対処するために、まず、350以上の言語で50Kの多言語および並列児童話のコーパスMCS-350をコンパイルする。 MCS-350は、短いテキストの言語識別のベンチマークとして機能し、低リソースのインドおよびアフリカの言語で1400以上の新しい翻訳方向を示す。 第2に,flores-200ベンチマークにおいて,子どもの物語データセットのエラーを55%(0.71から0.32),エラーを40%(0.23から0.14)削減する,言語識別のための新しい誤推定分解階層モデルである limit を提案する。 提案手法は,大規模モデルをスクラッチから再訓練する必要をなくし,システム的誤予測パターンのみに依存することで,低リソース言語への言語識別範囲を拡大することができる。

Knowing the language of an input text/audio is a necessary first step for using almost every NLP tool such as taggers, parsers, or translation systems. Language identification is a well-studied problem, sometimes even considered solved; in reality, due to lack of data and computational challenges, current systems cannot accurately identify most of the world's 7000 languages. To tackle this bottleneck, we first compile a corpus, MCS-350, of 50K multilingual and parallel children's stories in 350+ languages. MCS-350 can serve as a benchmark for language identification of short texts and for 1400+ new translation directions in low-resource Indian and African languages. Second, we propose a novel misprediction-resolution hierarchical model, LIMIt, for language identification that reduces error by 55% (from 0.71 to 0.32) on our compiled children's stories dataset and by 40% (from 0.23 to 0.14) on the FLORES-200 benchmark. Our method can expand language identification coverage into low-resource languages by relying solely on systemic misprediction patterns, bypassing the need to retrain large models from scratch.
翻訳日:2023-11-07 22:42:35 公開日:2023-11-06
# NTK近似が有効である際のタイト条件

Tight conditions for when the NTK approximation is valid ( http://arxiv.org/abs/2305.13141v3 )

ライセンス: Link先を確認
Enric Boix-Adsera, Etai Littwin(参考訳) 正方形損失を有するモデルのトレーニングにおいて,ニューラルタンジェントカーネル(NTK)近似が有効であるかどうかを検討した。 chizat et al. 2019 の遅延トレーニング設定では、ntk近似に対する$\alpha = o(t)$ suffices の係数でモデルを再スケーリングすることで、トレーニング時間が $t$ になるまで有効になることを示した。 我々の限界は、以前のChizatらによる2019年の限界よりも強く改善されており、これはより大きな再スケーリング係数である$\alpha = O(T^2)$を必要とした。

We study when the neural tangent kernel (NTK) approximation is valid for training a model with the square loss. In the lazy training setting of Chizat et al. 2019, we show that rescaling the model by a factor of $\alpha = O(T)$ suffices for the NTK approximation to be valid until training time $T$. Our bound is tight and improves on the previous bound of Chizat et al. 2019, which required a larger rescaling factor of $\alpha = O(T^2)$.
翻訳日:2023-11-07 22:40:53 公開日:2023-11-06
# DreamWaltz:複雑な3Dアニマタブルアバターでシーンを作る

DreamWaltz: Make a Scene with Complex 3D Animatable Avatars ( http://arxiv.org/abs/2305.12529v3 )

ライセンス: Link先を確認
Yukun Huang, Jianan Wang, Ailing Zeng, He Cao, Xianbiao Qi, Yukai Shi, Zheng-Jun Zha, Lei Zhang(参考訳) 本稿では,テキストガイダンスとパラメトリック人体を用いた複雑な3Dアバターの生成とアニメーションを行う新しいフレームワークであるDreamWaltzを紹介する。 最近の方法では、テキストから3次元の共通オブジェクトの生成が奨励されているが、高品質でアニマタブルな3Dアバターを作成することは依然として困難である。 高品質な3Dアバターを作成するためにDreamWaltz氏は、標準ポーズによる暗黙的な神経表現を最適化するために、3D一貫性のオクルージョン対応スコア蒸留(SDS)を提案する。 3D対応スケルトンコンディショニングによるビューアラインの監視が可能で、アーティファクトや複数の顔なしで複雑なアバター生成が可能になる。 アニメーションでは,様々なポーズに条件付き拡散モデルの豊富な画像からアニマタブルな3次元アバター表現を学習し,任意のポーズを伴わずに複雑な非リップアバターをアニメーション化することができる。 幅広い評価から、ドリームワルツは複雑な形や外観、そしてアニメーションのための新しいポーズを取ることができる3dアバターを作成するための効果的でロバストなアプローチであることが示されている。 提案手法により,アバター・アバター,アバター・オブジェクト,アバター・シーン相互作用などの多種多様な構成の複雑なシーンの創出が可能となった。 より鮮明な3dアバターとアニメーションの結果については、https://dreamwaltz3d.github.io/を参照。

We present DreamWaltz, a novel framework for generating and animating complex 3D avatars given text guidance and parametric human body prior. While recent methods have shown encouraging results for text-to-3D generation of common objects, creating high-quality and animatable 3D avatars remains challenging. To create high-quality 3D avatars, DreamWaltz proposes 3D-consistent occlusion-aware Score Distillation Sampling (SDS) to optimize implicit neural representations with canonical poses. It provides view-aligned supervision via 3D-aware skeleton conditioning which enables complex avatar generation without artifacts and multiple faces. For animation, our method learns an animatable 3D avatar representation from abundant image priors of diffusion model conditioned on various poses, which could animate complex non-rigged avatars given arbitrary poses without retraining. Extensive evaluations demonstrate that DreamWaltz is an effective and robust approach for creating 3D avatars that can take on complex shapes and appearances as well as novel poses for animation. The proposed framework further enables the creation of complex scenes with diverse compositions, including avatar-avatar, avatar-object and avatar-scene interactions. See https://dreamwaltz3d.github.io/ for more vivid 3D avatar and animation results.
翻訳日:2023-11-07 22:40:42 公開日:2023-11-06
# Moment Matching Denoisingギブズサンプリング

Moment Matching Denoising Gibbs Sampling ( http://arxiv.org/abs/2305.11650v2 )

ライセンス: Link先を確認
Mingtian Zhang and Alex Hawkins-Hooker and Brooks Paige and David Barber(参考訳) エネルギーベースモデル(ebms)は複雑なデータ分布をモデリングするための汎用フレームワークを提供する。 しかし、ESMからのトレーニングとサンプリングは引き続き大きな課題を呈している。 スケーラブルなEMMトレーニングのための広く使われているDenoising Score Matching (DSM) 法は不整合の問題に悩まされ、エネルギーモデルが「ノイズの多い」データ分布を学習する。 そこで本研究では,DSM で十分に訓練された 'ノイズ' モデルが与えられた場合に,基礎となるクリーンモデルから効果的なサンプリングを可能にする,モーメントマッチングを用いた効率的なサンプリングフレームワークを提案する。 関連手法と比較して,本手法の利点を考察し,高次元データセットへの拡張方法を示す。

Energy-Based Models (EBMs) offer a versatile framework for modeling complex data distributions. However, training and sampling from EBMs continue to pose significant challenges. The widely-used Denoising Score Matching (DSM) method for scalable EBM training suffers from inconsistency issues, causing the energy model to learn a `noisy' data distribution. In this work, we propose an efficient sampling framework: (pseudo)-Gibbs sampling with moment matching, which enables effective sampling from the underlying clean model when given a `noisy' model that has been well-trained via DSM. We explore the benefits of our approach compared to related methods and demonstrate how to scale the method to high-dimensional datasets.
翻訳日:2023-11-07 22:39:46 公開日:2023-11-06
# 画像復調のためのPDEインフォームド有効ロバストモデルNODE-ImgNet

NODE-ImgNet: a PDE-informed effective and robust model for image denoising ( http://arxiv.org/abs/2305.11049v2 )

ライセンス: Link先を確認
Xinheng Xie, Yue Wu, Hao Ni, Cuiyu He(参考訳) 画像分割のための従来の偏微分方程式(pde)のアプローチに触発されて、ニューラル常微分方程式(ノード)と畳み込みニューラルネットワーク(cnn)ブロックを組み合わせた、node-imgnetと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 NODE-ImgNetは本質的にPDEモデルであり、動的システムはPDEの明示的な仕様なしで暗黙的に学習される。 これは、学習プロセス中にアーティファクトを導入する際の典型的な問題を自然に回避します。 残余ネットワーク(ResNet)の連続的変種と見なすことができるようなNODE構造を起動することで、画像の復調においてその利点を継承し、精度とパラメータ効率を向上させる。 特に,gaussian noiseによるグレー画像やカラー画像,実雑音画像など,さまざまなシナリオにおいて一貫した効果を示し,小型画像データセットからの学習において優れていることを示す。

Inspired by the traditional partial differential equation (PDE) approach for image denoising, we propose a novel neural network architecture, referred as NODE-ImgNet, that combines neural ordinary differential equations (NODEs) with convolutional neural network (CNN) blocks. NODE-ImgNet is intrinsically a PDE model, where the dynamic system is learned implicitly without the explicit specification of the PDE. This naturally circumvents the typical issues associated with introducing artifacts during the learning process. By invoking such a NODE structure, which can also be viewed as a continuous variant of a residual network (ResNet) and inherits its advantage in image denoising, our model achieves enhanced accuracy and parameter efficiency. In particular, our model exhibits consistent effectiveness in different scenarios, including denoising gray and color images perturbed by Gaussian noise, as well as real-noisy images, and demonstrates superiority in learning from small image datasets.
翻訳日:2023-11-07 22:39:33 公開日:2023-11-06
# 不確実性検出のためのガウス過程プローブ(GPP)

Gaussian Process Probes (GPP) for Uncertainty-Aware Probing ( http://arxiv.org/abs/2305.18213v2 )

ライセンス: Link先を確認
Zi Wang and Alexander Ku and Jason Baldridge and Thomas L. Griffiths and Been Kim(参考訳) モデルが表現できる概念とできない概念を理解することは、効果的で責任あるモデルの使用から分散データの検出に至るまで、多くのタスクに基礎を置いてきた。 ガウス過程プローブ(gpp)は,モデルによって表される概念の不確かさを探索し測定するための,統一的で単純なフレームワークである。 線形プローブ法のベイズ拡大として、gppは(概念の)分類器上の分布がモデルによって誘導されるかを問う。 この分布は、モデルが何を表すかと、モデルが何を表すかのプローブがどれだけ自信があるかを測定するのに使うことができる。 GPPは入力のベクトル表現(例えばアクティベーション)を持つ任意の事前学習モデルに適用できる。 トレーニングデータや勾配、アーキテクチャへのアクセスは必要ありません。 合成画像と実画像の両方を含むデータセット上でGPPを検証する。 実験では,(1)ごく少数の例でもモデルの概念表現を探索できること,(2)認識的不確実性(プローブがどの程度自信を持っているか)と排他的不確実性(モデルに対する概念のファジィ性)の双方を正確に測定すること,(3)これらの不確実性測定と古典的手法を用いて分布データから検出できることが示されている。 GPPはガウス的プロセスを使用して、データ効率、汎用性、不確実性を意識したツールを提供し、機械学習モデルの能力を理解し評価する。

Understanding which concepts models can and cannot represent has been fundamental to many tasks: from effective and responsible use of models to detecting out of distribution data. We introduce Gaussian process probes (GPP), a unified and simple framework for probing and measuring uncertainty about concepts represented by models. As a Bayesian extension of linear probing methods, GPP asks what kind of distribution over classifiers (of concepts) is induced by the model. This distribution can be used to measure both what the model represents and how confident the probe is about what the model represents. GPP can be applied to any pre-trained model with vector representations of inputs (e.g., activations). It does not require access to training data, gradients, or the architecture. We validate GPP on datasets containing both synthetic and real images. Our experiments show it can (1) probe a model's representations of concepts even with a very small number of examples, (2) accurately measure both epistemic uncertainty (how confident the probe is) and aleatory uncertainty (how fuzzy the concepts are to the model), and (3) detect out of distribution data using those uncertainty measures as well as classic methods do. By using Gaussian processes to expand what probing can offer, GPP provides a data-efficient, versatile and uncertainty-aware tool for understanding and evaluating the capabilities of machine learning models.
翻訳日:2023-11-07 22:32:13 公開日:2023-11-06
# 正規化)ワッサーシュタイン分布ロバストモデルに対する厳密な一般化保証

Exact Generalization Guarantees for (Regularized) Wasserstein Distributionally Robust Models ( http://arxiv.org/abs/2305.17076v2 )

ライセンス: Link先を確認
Wa\"iss Azizian (DAO), Franck Iutzeler (DAO), J\'er\^ome Malick (DAO)(参考訳) ワッサースタイン分布にロバストな推定器は、不確実性の下で予測と意思決定の強力なモデルとして現れた。 これらの推定器は魅力的な一般化を保証する: 訓練分布から得られる頑健な目標は、高い確率で真のリスクの正確な上限である。 しかし、既存の保証は次元の呪いに苦しむか、特定の設定に制限されるか、あるいは散発的なエラー用語に繋がる。 本稿では,これらの一般化保証がモデルの一般的なクラスを実際に保持し,次元性の呪いに苦しむことなく,テスト時の分布シフトをカバーできることを示す。 また,これらの結果は,新たに導入されたwasserstein分布的ロバストな問題の正規化問題に引き継がれることも証明した。

Wasserstein distributionally robust estimators have emerged as powerful models for prediction and decision-making under uncertainty. These estimators provide attractive generalization guarantees: the robust objective obtained from the training distribution is an exact upper bound on the true risk with high probability. However, existing guarantees either suffer from the curse of dimensionality, are restricted to specific settings, or lead to spurious error terms. In this paper, we show that these generalization guarantees actually hold on general classes of models, do not suffer from the curse of dimensionality, and can even cover distribution shifts at testing. We also prove that these results carry over to the newly-introduced regularized versions of Wasserstein distributionally robust problems.
翻訳日:2023-11-07 22:31:30 公開日:2023-11-06
# スパンジング林による分化性クラスタリング

Differentiable Clustering with Perturbed Spanning Forests ( http://arxiv.org/abs/2305.16358v3 )

ライセンス: Link先を確認
Lawrence Stewart (DI-ENS), Francis S Bach (DI-ENS), Felipe Llinares L\'opez, Quentin Berthet(参考訳) 我々は,最小重量のスパンジング林の確率的摂動に基づく識別可能なクラスタリング手法を提案する。 これにより、効率的な勾配でエンドツーエンドのトレーニング可能なパイプラインにクラスタリングを組み込むことができます。 提案手法は,高雑音のデータセットや挑戦的ジオメトリなど,困難な設定でも良好に動作することを示す。 また、この演算を用いて部分クラスタリングデータから効率よく学習するアドホック損失を定式化する。 教師付きおよび半教師付きタスクのための複数のデータセットでその性能を示す。

We introduce a differentiable clustering method based on stochastic perturbations of minimum-weight spanning forests. This allows us to include clustering in end-to-end trainable pipelines, with efficient gradients. We show that our method performs well even in difficult settings, such as data sets with high noise and challenging geometries. We also formulate an ad hoc loss to efficiently learn from partial clustering data using this operation. We demonstrate its performance on several data sets for supervised and semi-supervised tasks.
翻訳日:2023-11-07 22:30:56 公開日:2023-11-06
# 固定信頼とそれ以上のための$\varepsilon$-best-arm識別アルゴリズム

An $\varepsilon$-Best-Arm Identification Algorithm for Fixed-Confidence and Beyond ( http://arxiv.org/abs/2305.16041v2 )

ライセンス: Link先を確認
Marc Jourdan, R\'emy Degenne, Emilie Kaufmann(参考訳) 確率的バンドイットにおいて, eb-tc$-varepsilon$-best arm identificationのための新しいサンプリング規則であるeb-tc$-varepsilon$を提案する。 これは最良腕識別のために解析された上位2つのアルゴリズムの最初の例である。 EB-TC$\varepsilon$ は *anytime* サンプリングルールであり、固定された信頼度や固定された予算識別(予算の事前の知識なしで)の修正なしに使用できる。 eb-tc$\varepsilon$の3種類の理論保証を提供する。 まず, 一定の信頼度設定において, 推定されたサンプル複雑性の境界を証明し, その漸近的最適性と探索パラメータの適応チューニングを組み合わせる。 これらの結果は,任意の時間における誤差の確率と,任意の誤差パラメータの上限で補うことができ,任意の時間におけるその単純な後悔の上限をさらに高めることができる。 最後に,EB-TC$\varepsilon$が既存のアルゴリズムと比較して,異なる設定で良好に動作することを示す。

We propose EB-TC$\varepsilon$, a novel sampling rule for $\varepsilon$-best arm identification in stochastic bandits. It is the first instance of Top Two algorithm analyzed for approximate best arm identification. EB-TC$\varepsilon$ is an *anytime* sampling rule that can therefore be employed without modification for fixed confidence or fixed budget identification (without prior knowledge of the budget). We provide three types of theoretical guarantees for EB-TC$\varepsilon$. First, we prove bounds on its expected sample complexity in the fixed confidence setting, notably showing its asymptotic optimality in combination with an adaptive tuning of its exploration parameter. We complement these findings with upper bounds on its probability of error at any time and for any error parameter, which further yield upper bounds on its simple regret at any time. Finally, we show through numerical simulations that EB-TC$\varepsilon$ performs favorably compared to existing algorithms, in different settings.
翻訳日:2023-11-07 22:30:49 公開日:2023-11-06
# 大規模言語モデルの計画能力について : 批判的考察

On the Planning Abilities of Large Language Models : A Critical Investigation ( http://arxiv.org/abs/2305.15771v2 )

ライセンス: Link先を確認
Karthik Valmeekam, Matthew Marquez, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 本稿では,一般ウェブコーパスで学習したLCMにおける創発的推論能力の主張に着目し,その計画能力について検討した。 本研究の目的は,(1)コモンセンス計画における自律的計画作成におけるllmの有効性と,(2)外部計画者や検証者に対するヒューリスティックな指導の源として機能するllm-modulo設定におけるllmの可能性を評価することである。 我々は、国際計画コンペティションで採用されているものと類似したドメインの一連のインスタンスを生成し、自律とヒューリスティックの2つの異なるモードでllmを評価することにより、体系的な研究を行う。 その結果,llmsが自律的に実行可能な計画を生成する能力は限定的であり,最適モデル (gpt-4) の平均成功率は約12%であった。 しかし、LSM-Modulo設定の結果はより有望である。 LLM-Modulo設定では、LLM生成したプランは、基礎となる音響プランナの探索プロセスを改善し、外部検証器が生成したプランに対するフィードバックを提供し、LLMをバックプロンプトしてプラン生成を改善することを実証する。

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) the effectiveness of LLMs in generating plans autonomously in commonsense planning tasks and (2) the potential of LLMs in LLM-Modulo settings where they act as a source of heuristic guidance for external planners and verifiers. We conduct a systematic study by generating a suite of instances on domains similar to the ones employed in the International Planning Competition and evaluate LLMs in two distinct modes: autonomous and heuristic. Our findings reveal that LLMs' ability to generate executable plans autonomously is rather limited, with the best model (GPT-4) having an average success rate of ~12% across the domains. However, the results in the LLM-Modulo setting show more promise. In the LLM-Modulo setting, we demonstrate that LLM-generated plans can improve the search process for underlying sound planners and additionally show that external verifiers can help provide feedback on the generated plans and back-prompt the LLM for better plan generation.
翻訳日:2023-11-07 22:30:33 公開日:2023-11-06
# C-STS: 条件付きセマンティックテキストの類似性

C-STS: Conditional Semantic Textual Similarity ( http://arxiv.org/abs/2305.15093v2 )

ライセンス: Link先を確認
Ameet Deshpande, Carlos E. Jimenez, Howard Chen, Vishvak Murahari, Victoria Graf, Tanmay Rajpurohit, Ashwin Kalyan, Danqi Chen, Karthik Narasimhan(参考訳) nlpの基本的なタスクであるsemantic textual similarity(sts)は、一対の文間の類似度を測定し、情報検索や自然言語理解といった分野で広く応用されている。 しかし、文の類似性は、興味の特定の側面によって本質的に曖昧である。 本研究では,自然言語で記述された特徴(ヘリオ,コンディション)に基づいて文の類似度を測定する条件STS(Conditional STS)と呼ばれる新しいタスクを提案することで,この曖昧さを解決する。 例えば、「NBAプレーヤーが3点を放つ」という文と「男がテニスボールを空中に投げてサービスする」という文の類似性は、「ボールの動き」(上下の両方)と「ボールの大きさ」(大小1つ)の条件よりも高い。 C-STSの利点は2つある: 1) STSの主観性とあいまいさを低減し、(2) 多様な自然言語条件によるきめ細かい言語モデルの評価を可能にする。 テストにいくつかの最先端モデルを導入し、STS(SimCSE、Flan-T5、GPT-4など)でうまく機能している人でさえ、C-STSが困難であることが分かりました。 セマンティック類似性と自然言語理解のより包括的な評価を促進するため、私たちは19K近いC-STSサンプルとコードを他の人に提供し、モデルをトレーニングし、テストします。

Semantic textual similarity (STS), a cornerstone task in NLP, measures the degree of similarity between a pair of sentences, and has broad application in fields such as information retrieval and natural language understanding. However, sentence similarity can be inherently ambiguous, depending on the specific aspect of interest. We resolve this ambiguity by proposing a novel task called Conditional STS (C-STS) which measures sentences' similarity conditioned on an feature described in natural language (hereon, condition). As an example, the similarity between the sentences "The NBA player shoots a three-pointer." and "A man throws a tennis ball into the air to serve." is higher for the condition "The motion of the ball" (both upward) and lower for "The size of the ball" (one large and one small). C-STS's advantages are two-fold: (1) it reduces the subjectivity and ambiguity of STS and (2) enables fine-grained language model evaluation through diverse natural language conditions. We put several state-of-the-art models to the test, and even those performing well on STS (e.g. SimCSE, Flan-T5, and GPT-4) find C-STS challenging; all with Spearman correlation scores below 50. To encourage a more comprehensive evaluation of semantic similarity and natural language understanding, we make nearly 19K C-STS examples and code available for others to train and test their models.
翻訳日:2023-11-07 22:28:47 公開日:2023-11-06
# 事前学習モデルによるフェデレーション学習の最終レイヤの案内

Guiding The Last Layer in Federated Learning with Pre-Trained Models ( http://arxiv.org/abs/2306.03937v2 )

ライセンス: Link先を確認
Gwen Legate, Nicolas Bernier, Lucas Caccia, Edouard Oyallon, Eugene Belilovsky(参考訳) フェデレートラーニング(FL)は、データを共有することなく、多数の参加者に対してモデルをトレーニングできる新興パラダイムである。 近年,既存のFLアルゴリズムの初期化点として事前学習モデルを用いることによる効果が検討され始めているが,これらの手法は集中学習環境からの効率的な移動学習文献を無視している。 ここでは,先行研究で考慮された事前学習モデルからflの問題を再検討し,それをコンピュータビジョン伝達学習問題に拡張する。 まず、線形分類ヘッドの取り付けは、多くの場合、効率的かつ効果的であることを示す。 次に、FL設定において、NCM(Nearest Class Means)を用いた分類器の適合は、既存の提案よりも正確に、桁違いに効率的に行うことができ、高い性能が得られることを示す。 最後に,二相法を用いて分類器を取得し,モデルを微調整することで,高速収束を生じさせ,フェデレーション設定における一般化を改善できることを実証する。 本手法は,モデル性能を向上しつつ,通信コストと計算コストを削減できる可能性を実証する。

Federated Learning (FL) is an emerging paradigm that allows a model to be trained across a number of participants without sharing data. Recent works have begun to consider the effects of using pre-trained models as an initialization point for existing FL algorithms; however, these approaches ignore the vast body of efficient transfer learning literature from the centralized learning setting. Here we revisit the problem of FL from a pre-trained model considered in prior work and expand it to a set of computer vision transfer learning problems. We first observe that simply fitting a linear classification head can be efficient and effective in many cases. We then show that in the FL setting, fitting a classifier using the Nearest Class Means (NCM) can be done exactly and orders of magnitude more efficiently than existing proposals, while obtaining strong performance. Finally, we demonstrate that using a two-phase approach of obtaining the classifier and then fine-tuning the model can yield rapid convergence and improved generalization in the federated setting. We demonstrate the potential our method has to reduce communication and compute costs while achieving better model performance.
翻訳日:2023-11-07 22:18:46 公開日:2023-11-06
# 連続状態空間における反則最適作用列の探索

Finding Counterfactually Optimal Action Sequences in Continuous State Spaces ( http://arxiv.org/abs/2306.03929v2 )

ライセンス: Link先を確認
Stratis Tsirtsis, Manuel Gomez-Rodriguez(参考訳) 臨床医が患者に対する一連の治療決定の有効性を熟考するたびに、異なる判断を下すと患者の健康が改善する致命的な時間ステップを特定しようとすることがある。 因果推論と強化学習の交差における最近の手法は、上記の臨床医と同様に、逐次的な意思決定プロセスを遡及的に分析する人間の専門家を助けることを約束しているが、彼らは有限個の独立した状態を持つ環境に焦点を当ててきた。 しかし、多くの応用において、環境の状態は本質的に連続的である。 本稿では,このギャップを埋めることを目的とする。 まず,有限ホライズンマルコフ決定過程と多岐にわたる単射構造因果モデルを用いて,離散作用と連続状態の列を形式的に特徴付ける。 この特徴付けに基づいて, 反事実的最適作用列を求める問題を定式化し, 一般に多項式時間で解くことはできないことを示す。 そこで,本研究では,環境力学のリプシッツ連続性の自然な形の下で最適解を返すことを保証した,$A^*$アルゴリズムに基づく探索手法を開発した。 実際の臨床データを用いた実験から,本手法は実際は非常に効率的であり,シーケンシャルな意思決定タスクに興味深い洞察を与える可能性が示唆された。

Whenever a clinician reflects on the efficacy of a sequence of treatment decisions for a patient, they may try to identify critical time steps where, had they made different decisions, the patient's health would have improved. While recent methods at the intersection of causal inference and reinforcement learning promise to aid human experts, as the clinician above, to retrospectively analyze sequential decision making processes, they have focused on environments with finitely many discrete states. However, in many practical applications, the state of the environment is inherently continuous in nature. In this paper, we aim to fill this gap. We start by formally characterizing a sequence of discrete actions and continuous states using finite horizon Markov decision processes and a broad class of bijective structural causal models. Building upon this characterization, we formalize the problem of finding counterfactually optimal action sequences and show that, in general, we cannot expect to solve it in polynomial time. Then, we develop a search method based on the $A^*$ algorithm that, under a natural form of Lipschitz continuity of the environment's dynamics, is guaranteed to return the optimal solution to the problem. Experiments on real clinical data show that our method is very efficient in practice, and it has the potential to offer interesting insights for sequential decision making tasks.
翻訳日:2023-11-07 22:18:24 公開日:2023-11-06
# scilit: 共同科学文献発見,要約,引用生成のためのプラットフォーム

SciLit: A Platform for Joint Scientific Literature Discovery, Summarization and Citation Generation ( http://arxiv.org/abs/2306.03535v2 )

ライセンス: Link先を確認
Nianlong Gu, Richard H.R. Hahnloser(参考訳) 科学的な文章は、大規模で急速に進化する分野における時間を要するプロセスである関連論文の検索、要約、引用を含む。 これらのプロセスを相互運用可能にすることで、自然言語処理(NLP)はエンドツーエンドの補助書記ツールを作成する機会を提供する。 本稿では,関連論文を自動的に推薦し,ハイライトを抽出するパイプラインSciLitを提案し,ユーザが提供するコンテキストやキーワードを考慮した論文の引用として参照文を提案する。 scilitは、紙のデータベースの追加と削除を柔軟に処理する2段階のプレフェッチと再ランキングの文学検索システムを使用して、数十億の論文の大規模なデータベースからの論文を効率的に推奨する。 推奨論文を抽出要約として表示し、提供された文脈に沿った要約文を抽象的に生成し、選択されたキーワードを参照する便利なユーザインタフェースを提供する。 文献発見と科学的執筆を支援するツールがhttps://scilit.vercel.appで公開されている。

Scientific writing involves retrieving, summarizing, and citing relevant papers, which can be time-consuming processes in large and rapidly evolving fields. By making these processes inter-operable, natural language processing (NLP) provides opportunities for creating end-to-end assistive writing tools. We propose SciLit, a pipeline that automatically recommends relevant papers, extracts highlights, and suggests a reference sentence as a citation of a paper, taking into consideration the user-provided context and keywords. SciLit efficiently recommends papers from large databases of hundreds of millions of papers using a two-stage pre-fetching and re-ranking literature search system that flexibly deals with addition and removal of a paper database. We provide a convenient user interface that displays the recommended papers as extractive summaries and that offers abstractively-generated citing sentences which are aligned with the provided context and which mention the chosen keyword(s). Our assistive tool for literature discovery and scientific writing is available at https://scilit.vercel.app
翻訳日:2023-11-07 22:17:53 公開日:2023-11-06
# 監視量子イジング鎖における偽真空崩壊に対するモンテカルロ行列生成状態のアプローチ

Monte Carlo matrix-product-state approach to the false vacuum decay in the monitored quantum Ising chain ( http://arxiv.org/abs/2306.01067v3 )

ライセンス: Link先を確認
Jeff Maki, Anna Berti, Iacopo Carusotto, Alberto Biella(参考訳) 本研究では, 強磁性量子イジング鎖の局所磁化の連続的なモニタリングにより, 弱長手磁場下での真空崩壊を特徴付ける。 準安定状態, 偽真空でシステムを初期化することにより, 真真空の共鳴気泡を生成するコヒーレントダイナミクスと, 熱を誘導し量子相関の量を減少させる測定との競合について検討する。 この目的のために, 行列積状態と確率的量子軌道との組合せに基づく数値的手法を応用し, 連続的測定の存在下で相互作用する多体系の軌道分解非平衡ダイナミクスのシミュレーションを可能にする。 測定値の存在が真空崩壊にどのように影響するかを示す。短時間で局所的な最小値からの離脱が加速され、長い時間でシステムは無限温度の非コヒーレント混合物に熱化する。 大きな測定レートでは、システムは量子ゼノレジームに入る。 擬似真空崩壊と熱化物理学は、磁化、連結相関関数、軌道分解エントロピーによって特徴づけられる。

In this work we characterize the false vacuum decay in the ferromagnetic quantum Ising chain with a weak longitudinal field subject to continuous monitoring of the local magnetization. Initializing the system in a metastable state, the false vacuum, we study the competition between coherent dynamics, which tends to create resonant bubbles of the true vacuum, and measurements which induce heating and reduce the amount of quantum correlations. To this end we exploit a numerical approach based on the combination of matrix product states with stochastic quantum trajectories which allows for the simulation of the trajectory-resolved non-equilibrium dynamics of interacting many-body systems in the presence of continuous measurements. We show how the presence of measurements affects the false vacuum decay: at short times the departure from the local minimum is accelerated while at long times the system thermalizes to an infinite-temperature incoherent mixture. For large measurement rates the system enters a quantum Zeno regime. The false vacuum decay and the thermalization physics are characterized in terms of the magnetization, connected correlation function, and the trajectory-resolved entanglement entropy.
翻訳日:2023-11-07 22:15:24 公開日:2023-11-06
# 可視性制限下での能動視覚強化学習

Active Vision Reinforcement Learning under Limited Visual Observability ( http://arxiv.org/abs/2306.00975v2 )

ライセンス: Link先を確認
Jinghuan Shang and Michael S. Ryoo(参考訳) 本研究では,能動視覚強化学習(ActiveVision-RL)について検討し,具体的エージェントが部分的に観察可能な環境下での視覚的観察を制御しながら,同時にタスクのアクションポリシーを学習する。 前者は運動政策、後者は感覚政策と表現する。 例えば、人間が目の動き(感覚ポリシー)とともに手操作(運動ポリシー)によって現実世界のタスクを解く。 ActiveVision-RLは、相互の影響から2つのポリシーの調整に挑戦する。 そこで本研究では,運動・感覚政策を別々にモデル化するフレームワークであるsugarl, sensorimotor understanding active reinforcement learningを提案する。 この学習可能な報酬はsensorimotor rewardモジュールによって割り当てられ、感覚ポリシーにインセンティブを与えて、人間のsensorimotorステージにインスパイアされた、自身の運動動作を推論するのに最適な観察を選択する。 一連の実験を通して, 観測可能性条件の多岐にわたる手法の有効性と, 既存のRLアルゴリズムへの適応性を示す。 本手法により得られた感覚ポリシーは,効果的な視覚戦略を示す。

In this work, we investigate Active Vision Reinforcement Learning (ActiveVision-RL), where an embodied agent simultaneously learns action policy for the task while also controlling its visual observations in partially observable environments. We denote the former as motor policy and the latter as sensory policy. For example, humans solve real world tasks by hand manipulation (motor policy) together with eye movements (sensory policy). ActiveVision-RL poses challenges on coordinating two policies given their mutual influence. We propose SUGARL, Sensorimotor Understanding Guided Active Reinforcement Learning, a framework that models motor and sensory policies separately, but jointly learns them using with an intrinsic sensorimotor reward. This learnable reward is assigned by sensorimotor reward module, incentivizes the sensory policy to select observations that are optimal to infer its own motor action, inspired by the sensorimotor stage of humans. Through a series of experiments, we show the effectiveness of our method across a range of observability conditions and its adaptability to existed RL algorithms. The sensory policies learned through our method are observed to exhibit effective active vision strategies.
翻訳日:2023-11-07 22:14:49 公開日:2023-11-06
# LAMM: 言語支援マルチモーダル命令-チューニングデータセット、フレームワーク、ベンチマーク

LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark ( http://arxiv.org/abs/2306.06687v3 )

ライセンス: Link先を確認
Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Jing Shao, Wanli Ouyang(参考訳) 汎用AIエージェントを達成するための有望なアプローチとして、大規模な言語モデルが登場した。 オープンソースのllmコミュニティは、自然言語処理を通じて人間と機械の対話をサポートするエージェントの開発を大いに加速させた。 しかし、世界との人間の相互作用は、モダリティとしてのテキストだけでなく、視覚などの他のモダリティも重要である。 gpt-4vやbardといったマルチモーダル大規模言語モデルに関する最近の研究は、視覚モダリティの処理における効果を実証している。 しかし、これらの作品の透明性は限られており、学術研究を支援するには不十分である。 我々の知る限り、言語支援型マルチモーダル命令チューニングデータセット、フレームワーク、ベンチマークを含む、この分野における最初のオープンソース取り組みの1つであるLAMMを紹介します。 我々の目標は、MLLMのトレーニングと評価のエコシステムとしてLAMMを確立することであり、アイデアと実行のギャップを埋めることのできるAIエージェントを促進することに集中することで、シームレスな人間とAIのインタラクションを可能にすることです。 私たちの主な貢献は3倍です。 1) 2次元ビジョンと3次元ビジョンの幅広いビジョンタスクをカバーする包括的なデータセットとベンチマークを提案する。 広範な実験によって、データセットとベンチマークの有効性が検証されます。 2)MLLMのマルチモーダル・チューニング・データセットとベンチマークを構築するための詳細な方法論を概説し,MLLM研究を多様な領域,タスク,モダリティに迅速に拡張する方法について述べる。 3)モダリティ拡張に最適化されたMLLMトレーニングフレームワークを提供する。 また、今後の研究を加速するために、ベースラインモデル、総合的な実験観測、分析も提供する。 私たちのベースラインモデルは24 a100 gpu時間以内にトレーニングされ、フレームワークはv100でトレーニングをサポートし、rtx3090はオープンソースソサエティによって利用可能です。

Large language models have emerged as a promising approach towards achieving general-purpose AI agents. The thriving open-source LLM community has greatly accelerated the development of agents that support human-machine dialogue interaction through natural language processing. However, human interaction with the world extends beyond only text as a modality, and other modalities such as vision are also crucial. Recent works on multi-modal large language models, such as GPT-4V and Bard, have demonstrated their effectiveness in handling visual modalities. However, the transparency of these works is limited and insufficient to support academic research. To the best of our knowledge, we present one of the very first open-source endeavors in the field, LAMM, encompassing a Language-Assisted Multi-Modal instruction tuning dataset, framework, and benchmark. Our aim is to establish LAMM as a growing ecosystem for training and evaluating MLLMs, with a specific focus on facilitating AI agents capable of bridging the gap between ideas and execution, thereby enabling seamless human-AI interaction. Our main contribution is three-fold: 1) We present a comprehensive dataset and benchmark, which cover a wide range of vision tasks for 2D and 3D vision. Extensive experiments validate the effectiveness of our dataset and benchmark. 2) We outline the detailed methodology of constructing multi-modal instruction tuning datasets and benchmarks for MLLMs, enabling rapid scaling and extension of MLLM research to diverse domains, tasks, and modalities. 3) We provide a primary but potential MLLM training framework optimized for modality extension. We also provide baseline models, comprehensive experimental observations, and analysis to accelerate future research. Our baseline model is trained within 24 A100 GPU hours, framework supports training with V100 and RTX3090 is available thanks to the open-source society.
翻訳日:2023-11-07 22:04:07 公開日:2023-11-06
# FLSL: 機能レベルの自己教師型学習

FLSL: Feature-level Self-supervised Learning ( http://arxiv.org/abs/2306.06203v4 )

ライセンス: Link先を確認
Qing Su, Anton Netchaev, Hai Li, and Shihao Ji(参考訳) 現在の自己教師型学習(SSL)手法(例えば、SimCLR, DINO, VICReg, MOCOv3)は、主にインスタンスレベルでの表現を目標としており、オブジェクト検出やセグメンテーションなどの高密度な予測タスクには適さない。 共同埋め込みとクラスタリングにトランスフォーマーを用いることにより,FLSL(Feature-Level Self-supervised Learning)と呼ばれる2レベル特徴クラスタリングSSL法を提案する。 FLSL問題の形式的定義を示し、平均シフトおよびk平均視点から目的を構築する。 FLSLは目覚しいセマンティッククラスタ表現を促進し,ビュー内およびビュー間特徴クラスタリングに適した埋め込みスキームを学習する。 実験の結果、FLSLは高密度予測タスクにおいて大幅に改善し、対象検出では44.9 (+2.8)% APと46.5% AP、MS-COCOでは40.8 (+2.3)% APと42.1% APを達成した。 FLSL は UAVDT 上の UAV17 オブジェクト検出や DAVIS 2017 上のビデオインスタンスセグメンテーションなど,既存の SSL メソッドよりも一貫して優れている。 ソースコードはhttps://github.com/isl-cv/flslで入手できる。

Current self-supervised learning (SSL) methods (e.g., SimCLR, DINO, VICReg,MOCOv3) target primarily on representations at instance level and do not generalize well to dense prediction tasks, such as object detection and segmentation.Towards aligning SSL with dense predictions, this paper demonstrates for the first time the underlying mean-shift clustering process of Vision Transformers (ViT), which aligns well with natural image semantics (e.g., a world of objects and stuffs). By employing transformer for joint embedding and clustering, we propose a two-level feature clustering SSL method, coined Feature-Level Self-supervised Learning (FLSL). We present the formal definition of the FLSL problem and construct the objectives from the mean-shift and k-means perspectives. We show that FLSL promotes remarkable semantic cluster representations and learns an embedding scheme amenable to intra-view and inter-view feature clustering. Experiments show that FLSL yields significant improvements in dense prediction tasks, achieving 44.9 (+2.8)% AP and 46.5% AP in object detection, as well as 40.8 (+2.3)% AP and 42.1% AP in instance segmentation on MS-COCO, using Mask R-CNN with ViT-S/16 and ViT-S/8 as backbone, respectively. FLSL consistently outperforms existing SSL methods across additional benchmarks, including UAV17 object detection on UAVDT, and video instance segmentation on DAVIS 2017.We conclude by presenting visualization and various ablation studies to better understand the success of FLSL. The source code is available at https://github.com/ISL-CV/FLSL.
翻訳日:2023-11-07 22:03:24 公開日:2023-11-06
# 小さな量子状態の説明可能な表現学習

Explainable Representation Learning of Small Quantum States ( http://arxiv.org/abs/2306.05694v3 )

ライセンス: Link先を確認
Felix Frohnert and Evert van Nieuwenburg(参考訳) 教師なし機械学習モデルは、明示的な人間のガイダンスや機能エンジニアリングを必要とせずに、トレーニングデータの内部表現を構築する。 この学習された表現は、目の前のタスクにどのデータの特徴が関係しているかについての洞察を提供する。 量子物理学の文脈では、人間の介入なしに量子状態を記述するためのトレーニングモデルは、機械が複雑な量子状態をどのように表現するかを理解するための有望なアプローチを提供する。 学習表現を解釈する能力は、量子システムの非自明な特徴とその効率的な表現に対する新しい視点を与えるかもしれない。 パラメータ化量子回路によって生成される2量子密度行列上に生成モデルを訓練する。 一連の計算実験において,モデルの学習された表現とその内部的データ理解について検討する。 モデルが量子状態と基礎となる絡み合い特性を関連づける解釈可能な表現を学ぶことを観察する。 特に,本実験の結果は,モデルの潜在表現が絡み合い尺度の一致と直接相関していることを示した。 この研究の洞察は、量子状態の解釈可能な機械学習への概念実証を表している。 我々のアプローチは、機械が小さな量子システムを自律的に表現する方法の洞察を与える。

Unsupervised machine learning models build an internal representation of their training data without the need for explicit human guidance or feature engineering. This learned representation provides insights into which features of the data are relevant for the task at hand. In the context of quantum physics, training models to describe quantum states without human intervention offers a promising approach to gaining insight into how machines represent complex quantum states. The ability to interpret the learned representation may offer a new perspective on non-trivial features of quantum systems and their efficient representation. We train a generative model on two-qubit density matrices generated by a parameterized quantum circuit. In a series of computational experiments, we investigate the learned representation of the model and its internal understanding of the data. We observe that the model learns an interpretable representation which relates the quantum states to their underlying entanglement characteristics. In particular, our results demonstrate that the latent representation of the model is directly correlated with the entanglement measure concurrence. The insights from this study represent proof of concept towards interpretable machine learning of quantum states. Our approach offers insight into how machines learn to represent small-scale quantum systems autonomously.
翻訳日:2023-11-07 22:02:31 公開日:2023-11-06
# 古典的および量子的ブラフト・アリモトアルゴリズムのブレグマン近近観

A Bregman Proximal Perspective on Classical and Quantum Blahut-Arimoto Algorithms ( http://arxiv.org/abs/2306.04492v2 )

ライセンス: Link先を確認
Kerry He, James Saunderson, Hamza Fawzi(参考訳) Blahut-Arimotoアルゴリズムは、古典的なチャネル容量とレート歪み関数を計算するためのよく知られた方法である。 近年の研究では、これらの量の様々な量子アナログを計算するためにこのアルゴリズムを拡張している。 本稿では,ブラフト・アリモトアルゴリズムがブレグマン近位法の一種であるミラー降下の特別な例であり,制約付き凸最適化のための勾配降下のよく研究された一般化であることを示す。 近年開発された凸解析ツールを用いて,Blahut-Arimotoアルゴリズムの相対的滑らかさと強い凸性に基づく解析が,既知のサブ線形および線形収束率を回復することを示す。 このブレグマン近位視点は、ブラフト・アリモト型アルゴリズムが直接適用できない情報理論の問題を解くために、類似収束保証付き関連アルゴリズムを導出することができる。 この枠組みは、エネルギー制約付き古典的および量子的チャネル容量、古典的および量子的速度歪み関数、およびエンタングルメントの相対エントロピーの近似を、いずれも証明可能な収束保証とともに計算する。

The Blahut-Arimoto algorithm is a well-known method to compute classical channel capacities and rate-distortion functions. Recent works have extended this algorithm to compute various quantum analogs of these quantities. In this paper, we show how these Blahut-Arimoto algorithms are special instances of mirror descent, which is a type of Bregman proximal method, and a well-studied generalization of gradient descent for constrained convex optimization. Using recently developed convex analysis tools, we show how analysis based on relative smoothness and strong convexity recovers known sublinear and linear convergence rates for Blahut-Arimoto algorithms. This Bregman proximal viewpoint allows us to derive related algorithms with similar convergence guarantees to solve problems in information theory for which Blahut-Arimoto-type algorithms are not directly applicable. We apply this framework to compute energy-constrained classical and quantum channel capacities, classical and quantum rate-distortion functions, and approximations of the relative entropy of entanglement, all with provable convergence guarantees.
翻訳日:2023-11-07 22:01:57 公開日:2023-11-06
# aecif-net : 視覚検査における自動構造状態評価のための注意強化型協調核融合ネットワーク

AECIF-Net: An Attention-Enhanced Co-Interactive Fusion Network for Automated Structural Condition Assessment in Visual Inspection ( http://arxiv.org/abs/2307.07643v2 )

ライセンス: Link先を確認
Chenyu Zhang, Zhaozheng Yin, Ruwen Qin(参考訳) ヴィジュアルインスペクションにおける構造条件評価を自動化するために必要な土木インフラの状態を効率的に監視する。 本稿では,視覚ブリッジ検査における自動構造状態評価のための注意強化型協調型核融合ネットワーク(aecif-net)を提案する。 AECIF-Netは、検査画像中の要素の構造要素とセグメント表面欠陥を同時に解析することができる。 2つのタスク固有の再学習サブネットを統合し、全体的な機能埋め込みからタスク固有の特徴を抽出する。 協調機能融合モジュールは、さらに空間相関を捉え、タスク間の情報共有を容易にする。 実験結果から,AECIF-Netは現状の手法よりも優れており,元素セグメンテーションでは92.11% mIoU,新しいベンチマークデータセットSteel Bridge Condition Inspection Visual (SBCIV) では87.16% mIoUの腐食セグメンテーションでは87.16% mIoUであった。 アブレーション研究はaecif-netの設計のメリットを検証し、ケーススタディは構造状態評価を自動化する能力を示している。

Efficiently monitoring the condition of civil infrastructures necessitates automating the structural condition assessment in visual inspection. This paper proposes an Attention-Enhanced Co-Interactive Fusion Network (AECIF-Net) for automatic structural condition assessment in visual bridge inspection. AECIF-Net can simultaneously parse structural elements and segment surface defects on the elements in inspection images. It integrates two task-specific relearning subnets to extract task-specific features from an overall feature embedding. A co-interactive feature fusion module further captures the spatial correlation and facilitates information sharing between tasks. Experimental results demonstrate that the proposed AECIF-Net outperforms the current state-of-the-art approaches, achieving promising performance with 92.11% mIoU for element segmentation and 87.16% mIoU for corrosion segmentation on the test set of the new benchmark dataset Steel Bridge Condition Inspection Visual (SBCIV). An ablation study verifies the merits of the designs for AECIF-Net, and a case study demonstrates its capability to automate structural condition assessment.
翻訳日:2023-11-07 21:54:20 公開日:2023-11-06
# タスクと運動計画のための身体的生涯学習

Embodied Lifelong Learning for Task and Motion Planning ( http://arxiv.org/abs/2307.06870v2 )

ライセンス: Link先を確認
Jorge Mendez-Mendez and Leslie Pack Kaelbling and Tom\'as Lozano-P\'erez(参考訳) 家庭に長時間展開するロボットは、真の生涯学習問題に直面している。 ユーザーに支援を提供するため、ロボットは蓄積された経験を活用し、自身の知識と技能を向上させる必要がある。 我々は,タスク・アンド・モーション・プランニング(TAMP)のための生涯学習の新たな定式化により,この設定を定式化する。 TAMPのモジュラリティを突破し、計画立案者に対して候補となる連続パラメータを生成する生成モデルの混合を開発する。 既存のほとんどの生涯学習アプローチは、さまざまなモデル間でデータの共有方法を決定するが、我々のアプローチは、共有モデルと非共有モデルを学び、各モデルの状態理解のプロキシとして機能する補助タスクに基づいて、計画中にオンラインを使用する方法を決定する。 提案手法は,2dドメインと行動ドメインの計画成功において(時間とともに,ベースラインと比較して)実質的な改善を示す。

A robot deployed in a home over long stretches of time faces a true lifelong learning problem. As it seeks to provide assistance to its users, the robot should leverage any accumulated experience to improve its own knowledge and proficiency. We formalize this setting with a novel formulation of lifelong learning for task and motion planning (TAMP), which endows our learner with the compositionality of TAMP systems. Exploiting the modularity of TAMP, we develop a mixture of generative models that produces candidate continuous parameters for a planner. Whereas most existing lifelong learning approaches determine a priori how data is shared across various models, our approach learns shared and non-shared models and determines which to use online during planning based on auxiliary tasks that serve as a proxy for each model's understanding of a state. Our method exhibits substantial improvements (over time and compared to baselines) in planning success on 2D and BEHAVIOR domains.
翻訳日:2023-11-07 21:53:39 公開日:2023-11-06
# 改良ハミルトンを用いた格子QCDの量子シミュレーション

Quantum Simulation of Lattice QCD with Improved Hamiltonians ( http://arxiv.org/abs/2307.05593v3 )

ライセンス: Link先を確認
Anthony N. Ciavarella(参考訳) 格子ゲージ理論の量子シミュレーションはQCDのリアルタイムダイナミクスを直接探究すると予想されるが、ゲージ場の必要な切り離しと好ましくはスケールしない。 改良されたハミルトニアンは、SU(3)コグト・ススキンド・ハミルトニアンに対するゲージ場切断の影響を正すために導かれる。 1+1d$ で示されるように、これは低彩色電場切断により、様々なカップリングとクォーク質量にわたって、断続的理論の特徴を定量的に再現することができる。 3+1d$ では、改良されたハミルトニアンが、スタッガー付き質量を持たないフェルミオンを持つ格子 qcd に対して導出される。 強い結合限界において、スペクトルは2つのフレーバーqcdの側面を定性的に再現し、小さなシステムのシミュレーションはibmの量子プロセッサで行われることが示されている。

Quantum simulations of lattice gauge theories are anticipated to directly probe the real time dynamics of QCD, but scale unfavorably with the required truncation of the gauge fields. Improved Hamiltonians are derived to correct for the effects of gauge field truncations on the SU(3) Kogut-Susskind Hamiltonian. It is shown in $1+1D$ that this enables low chromo-electric field truncations to quantitatively reproduce features of the untruncated theory over a range of couplings and quark masses. In $3+1D$, an improved Hamiltonian is derived for lattice QCD with staggered massless fermions. It is shown in the strong coupling limit that the spectrum qualitatively reproduces aspects of two flavor QCD and simulations of a small system are performed on IBM's {\tt Perth} quantum processor.
翻訳日:2023-11-07 21:52:53 公開日:2023-11-06
# Distill-SODA:ソースフリーなオープンセットドメイン適応のための自己監督型視覚変換器

Distill-SODA: Distilling Self-Supervised Vision Transformer for Source-Free Open-Set Domain Adaptation in Computational Pathology ( http://arxiv.org/abs/2307.04596v2 )

ライセンス: Link先を確認
Guillaume Vray, Devavrat Tomar, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) コンピュータ病理モデルの開発は、スライド画像全体から手動の組織タイピングを減らし、ソースドメインからラベルのないシフト対象ドメインに知識を伝達し、未知のカテゴリを特定するために不可欠である。 本稿では,上記の課題に対処して,オープンソースフリーなオープンセットドメイン適応という現実的な設定を提案する。 本手法は,未ラベルのターゲットデータセットに事前学習したソースモデルを適用することに焦点を当て,クローズドセットとオープンセットの両方を包含する。 未知のクラスのセマンティクスシフトに対処するだけでなく、我々のフレームワークでは、ソースとターゲットの組織サンプル間の色の変化として現れる共変量シフトも扱っています。 本手法は, 自己教師型視覚変換器(ViT)から知識を抽出し, 強靭に事前学習したトランスフォーマーモデルや, 対象領域からの知識を含む組織学的データセットからのガイダンスを抽出する。 そこで本研究では,ViTを自己学習する上でのハードポジティクスとして機能する,新しいスタイルに基づく逆データ拡張手法を提案する。 これに続いて、我々は、疑似ラベルが弱いソースモデルで、セマンティックに類似したターゲット画像をクラスタリングする。 このプロセスを強化するために、擬似ラベルの信頼度を補正し、文脈化された埋め込み空間内で重み付けされたクラスプロトタイプを計算することを目的とした閉集合親和性スコア(CSAS)を提案する。 本手法は,大腸癌評価のための3つの病理組織学的データセットの最先端として確立されている。 特に、我々の自己学習手法はオープンセット検出手法とシームレスに統合され、クローズドセットおよびオープンセット認識タスクの性能が向上する。

Developing computational pathology models is essential for reducing manual tissue typing from whole slide images, transferring knowledge from the source domain to an unlabeled, shifted target domain, and identifying unseen categories. We propose a practical setting by addressing the above-mentioned challenges in one fell swoop, i.e., source-free open-set domain adaptation. Our methodology focuses on adapting a pre-trained source model to an unlabeled target dataset and encompasses both closed-set and open-set classes. Beyond addressing the semantic shift of unknown classes, our framework also deals with a covariate shift, which manifests as variations in color appearance between source and target tissue samples. Our method hinges on distilling knowledge from a self-supervised vision transformer (ViT), drawing guidance from either robustly pre-trained transformer models or histopathology datasets, including those from the target domain. In pursuit of this, we introduce a novel style-based adversarial data augmentation, serving as hard positives for self-training a ViT, resulting in highly contextualized embeddings. Following this, we cluster semantically akin target images, with the source model offering weak pseudo-labels, albeit with uncertain confidence. To enhance this process, we present the closed-set affinity score (CSAS), aiming to correct the confidence levels of these pseudo-labels and to calculate weighted class prototypes within the contextualized embedding space. Our approach establishes itself as state-of-the-art across three public histopathological datasets for colorectal cancer assessment. Notably, our self-training method seamlessly integrates with open-set detection methods, resulting in enhanced performance in both closed-set and open-set recognition tasks.
翻訳日:2023-11-07 21:52:39 公開日:2023-11-06
# deduce:multi-head attention decoupled contrastive learningによるマルチオミクスデータに基づく癌サブタイプの検出

DEDUCE: Multi-head attention decoupled contrastive learning to discover cancer subtypes based on multi-omics data ( http://arxiv.org/abs/2307.04075v2 )

ライセンス: Link先を確認
Liangrui Pan, Dazhen Liu, Yutao Dou, Lian Wang, Zhichao Feng, Pengfei Rong, Liwen Xu, Shaoliang Peng(参考訳) がんの多様性が高く, 臨床的特徴も高いため, 癌サブタイプ間では, マルチオミクスデータと臨床特徴に有意差がみられた。 したがって、癌の診断、治療、予後には、癌サブタイプの同定と発見が不可欠である。 本研究では,非教師付きコントラスト学習のための注意機構に基づく一般化フレームワークを提案し,癌サブタイプの同定と特徴付けのためのがんマルチオミクスデータを解析した。 このフレームワークは、マルチオミクスデータの文脈的特徴や長距離依存性を深く抽出し、マルチオミクスデータにおけるノイズの影響を低減できる対称的非教師付きマルチヘッドアテンションエンコーダを含む。 提案フレームワークは,マルチオミクスデータの特徴を学習し,クラスタリングを行い,がんのサブタイプを同定するマルチヘッドアテンション機構に基づく,非結合型コントラスト学習モデル(DEDUCE)を含む。 マルチオミクスデータの特徴空間におけるサンプルとサンプル空間との類似度を計算してサブタイプをクラスタ化する。 基本的な考え方は、マルチオミクスのデータ特徴の異なる属性を分離し、対照的な用語としてそれらを学ぶことである。 正の例と負の例の差を測定するための対比的損失関数を構築し、この差を最小化し、モデルにより優れた特徴表現を学ぶように促す。 deduceモデルは、シミュレーションされたマルチオミクスデータセット、シングルセルマルチオミクスデータセット、癌マルチオミクスデータセットに関する大規模実験を行い、結果は10以上のディープラーニングモデルである。 最後に,deduceモデルを用いて6種類のaml癌を同定した。 AMLのGO機能増強、サブタイプ特異的生物学的機能およびGSEAの解析

Due to the high heterogeneity and clinical characteristics of cancer, there are significant differences in multi-omics data and clinical features among subtypes of different cancers. Therefore, the identification and discovery of cancer subtypes are crucial for the diagnosis, treatment, and prognosis of cancer. In this study, we proposed a generalization framework based on attention mechanisms for unsupervised contrastive learning to analyze cancer multi-omics data for the identification and characterization of cancer subtypes. The framework contains a symmetric unsupervised multi-head attention encoder, which can deeply extract contextual features and long-range dependencies of multi-omics data, reducing the impact of noise in multi-omics data. Importantly, the proposed framework includes a decoupled contrastive learning model (DEDUCE) based on a multi-head attention mechanism to learn multi-omics data features and clustering and identify cancer subtypes. This method clusters subtypes by calculating the similarity between samples in the feature space and sample space of multi-omics data. The basic idea is to decouple different attributes of multi-omics data features and learn them as contrasting terms. Construct a contrastive loss function to measure the difference between positive examples and negative examples, and minimize this difference, thereby encouraging the model to learn better feature representation. The DEDUCE model conducts large-scale experiments on simulated multi-omics data sets, single-cell multi-omics data sets and cancer multi-omics data sets, and the results are better than 10 deep learning models. Finally, we used the DEDUCE model to reveal six cancer subtypes of AML. By analyzing GO functional enrichment, subtype-specific biological functions and GSEA of AML,
翻訳日:2023-11-07 21:52:08 公開日:2023-11-06
# 組合せ最適化のための位相バイナライズスピントロニックオシレータとオルタナティブ古典法と量子法との比較

Phase-Binarized Spintronic Oscillators for Combinatorial Optimization, and Comparison with Alternative Classical and Quantum Methods ( http://arxiv.org/abs/2306.14528v2 )

ライセンス: Link先を確認
Neha Garg, Sanyam Singhal, Nakul Aggarwal, Aniket Sadashiva, Pranaba K. Muduli, Debanjan Bhowmik(参考訳) この問題を等価イジングモデルに変換し、その基底状態を得ることにより、新興ハードウェアによる組合せ最適化問題を効率的に解くことは、イジングコンピューティングとして知られている。 クラモトモデルによる位相二乗発振器 (pbo) は, ising計算のために提案されており, 様々なデバイス技術を用いて実験的に実装されている。 本稿では,四極結合型一様モードスピンホールナノ発振器(SHNO)のアレイを用いてPBOを実装し,4ノード完全重み付きグラフ上でのNP-Hard組合せ問題MaxCutを解くことを提案する。 我々はスピントロン振動子を2つの手法でモデル化する:スピン発振子の結合磁化ダイナミクスの近似モデルとランダウ・リフシッツ・ギルバート・スロンツウェスキー(LLGS)方程式に基づくそのような発振子のより正確な磁化ダイナミクスモデリングである。 次に、これらの室温動作スピン発振器の性能と一般化されたPBOを、同じMaxCut問題を解決する2つの代替手法と比較する:古典的近似アルゴリズムであるゲーマン・ウィリアムソン(GW)アルゴリズムと、量子近似最適化アルゴリズム(QAOA)として知られるノイジー中間スケール量子(NISQ)アルゴリズムである。 グラフサイズが最大20ノードの4種類のグラフに対して、一般化されたPBO(Kuramoto model)に対して得られる近似比(AR)と成功確率(SP)とスピン発振器は、GWの場合と同等であり、ほぼ全てのグラフインスタンスにおいてQAOAよりもはるかに高い。 さらに、GWとは異なり、一般化されたPBOやスピン発振器の解法時間(TTS)は、探索したインスタンスのグラフサイズとともに成長しない。 これは一般にPBOとスピン発振器にとって大きな利点であり、これらの問題の解決と、それらが提供する解の正確性である。

Solving combinatorial optimization problems efficiently through emerging hardware by converting the problem to its equivalent Ising model and obtaining its ground state is known as Ising computing. Phase-binarized oscillators (PBO), modeled through the Kuramoto model, have been proposed for Ising computing, and various device technologies have been used to experimentally implement such PBOs. In this paper, we show that an array of four dipole-coupled uniform-mode spin Hall nano oscillators (SHNOs) can be used to implement such PBOs and solve the NP-Hard combinatorial problem MaxCut on 4-node complete weighted graphs. We model the spintronic oscillators through two techniques: an approximate model for coupled magnetization dynamics of spin oscillators, and Landau Lifshitz Gilbert Slonckzweski (LLGS) equation-based more accurate magnetization dynamics modeling of such oscillators. Next, we compare the performance of these room-temperature-operating spin oscillators, as well as generalized PBOs, with two other alternative methods that solve the same MaxCut problem: a classical approximation algorithm, known as Goemans-Williamson's (GW) algorithm, and a Noisy Intermediate Scale Quantum (NISQ) algorithm, known as Quantum Approximation Optimization Algorithm (QAOA). For four types of graphs, with graph size up to twenty nodes, we show that approximation ratio (AR) and success probability (SP) obtained for generalized PBOs (Kuramoto model), as well as spin oscillators, are comparable to that for GW and much higher than that of QAOA for almost all graph instances. Moreover, unlike GW, the time to solution (TTS) for generalized PBOs and spin oscillators does not grow with graph size for the instances we have explored. This can be a major advantage for PBOs in general and spin oscillators specifically for solving these types of problems, along with the accuracy of solutions they deliver.
翻訳日:2023-11-07 21:51:06 公開日:2023-11-06
# ニューラルネットワークを用いた多視点3次元物体再構成と不確かさモデリング

Multi-view 3D Object Reconstruction and Uncertainty Modelling with Neural Shape Prior ( http://arxiv.org/abs/2306.11739v2 )

ライセンス: Link先を確認
Ziwei Liao, Steven L. Waslander(参考訳) セマンティックシーン理解には3次元オブジェクト再構成が重要である。 深度情報や咬合,騒音の欠如から,単眼画像から詳細な3次元形状を再構成することは困難である。 現在の手法のほとんどは、再構成の不確かさを意識せずに決定論的対象モデルを生成する。 本研究では,3dオブジェクトモデルの大規模データセットから物体形状分布を学習し,それを潜在空間にマッピングするニューラルオブジェクト表現を用いてこの問題に取り組む。 本稿では,その表現の一部として不確実性をモデル化し,個々の入力画像から直接不確実性コードを生成する不確実性認識エンコーダを定義する手法を提案する。 さらに,潜時符号の不確かさをSDF値に伝達し,各メッシュコンポーネントに対して局所的不確実性を持つ3次元オブジェクトメッシュを生成する手法を提案する。 最後に,マルチビュー観測から潜在コードを融合するためのベイズフレームワークによるインクリメンタル融合法を提案する。 本研究では,合成データと実データの両方でシステムを評価し,不確実性に基づく融合の有効性を実証し,3次元オブジェクトの再構成精度を向上させる。

3D object reconstruction is important for semantic scene understanding. It is challenging to reconstruct detailed 3D shapes from monocular images directly due to a lack of depth information, occlusion and noise. Most current methods generate deterministic object models without any awareness of the uncertainty of the reconstruction. We tackle this problem by leveraging a neural object representation which learns an object shape distribution from large dataset of 3d object models and maps it into a latent space. We propose a method to model uncertainty as part of the representation and define an uncertainty-aware encoder which generates latent codes with uncertainty directly from individual input images. Further, we propose a method to propagate the uncertainty in the latent code to SDF values and generate a 3d object mesh with local uncertainty for each mesh component. Finally, we propose an incremental fusion method under a Bayesian framework to fuse the latent codes from multi-view observations. We evaluate the system in both synthetic and real datasets to demonstrate the effectiveness of uncertainty-based fusion to improve 3D object reconstruction accuracy.
翻訳日:2023-11-07 21:49:57 公開日:2023-11-06
# 安定再帰視覚モデルを用いた人為的反応時間測定の計算

Computing a human-like reaction time metric from stable recurrent vision models ( http://arxiv.org/abs/2306.11582v2 )

ライセンス: Link先を確認
Lore Goetschalckx, Lakshmi Narasimhan Govindarajan, Alekh Karkada Ashok, Aarit Ahuja, David L. Sheinberg, Thomas Serre(参考訳) 視覚の計算モデルとしてのディープニューラルネットワークの採用は、これらのモデルを人間と「分離」する取り組みに刺激を与えた。 アライメントには行動選択があるが、選択パターンを特徴付けるだけでなく、視覚的な意思決定の時間的側面を捉えることは困難である。 本稿では、刺激計算可能なタスク最適化モデルから、反応時間の計算量を構築するための汎用方法論をスケッチする。 具体的には、繰り返し視覚モデルに蓄積された証拠を要約する主観的論理理論からの洞察を活用する新しい指標を提案する。 本尺度は,知覚的グループ化,メンタルシミュレーション,シーン分類の4つの異なる視覚的意思決定タスクにわたる刺激操作に対する人間の反応時間パターンに適合することを示す。 この研究は、他の様々な認知タスクの文脈におけるモデルと人間の視覚戦略の時間的アライメントを探索し、神経科学の検証可能な仮説を生成するための道を開いた。 コードとデータのリンクはプロジェクトページにある。 https://serre-lab.github.io/rnn_rts_site。

The meteoric rise in the adoption of deep neural networks as computational models of vision has inspired efforts to "align" these models with humans. One dimension of interest for alignment includes behavioral choices, but moving beyond characterizing choice patterns to capturing temporal aspects of visual decision-making has been challenging. Here, we sketch a general-purpose methodology to construct computational accounts of reaction times from a stimulus-computable, task-optimized model. Specifically, we introduce a novel metric leveraging insights from subjective logic theory summarizing evidence accumulation in recurrent vision models. We demonstrate that our metric aligns with patterns of human reaction times for stimulus manipulations across four disparate visual decision-making tasks spanning perceptual grouping, mental simulation, and scene categorization. This work paves the way for exploring the temporal alignment of model and human visual strategies in the context of various other cognitive tasks toward generating testable hypotheses for neuroscience. Links to the code and data can be found on the project page: https://serre-lab.github.io/rnn_rts_site.
翻訳日:2023-11-07 21:49:40 公開日:2023-11-06
# MetaGPT: マルチエージェント協調フレームワークのためのメタプログラミング

MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework ( http://arxiv.org/abs/2308.00352v5 )

ライセンス: Link先を確認
Sirui Hong, Mingchen Zhuge, Jonathan Chen, Xiawu Zheng, Yuheng Cheng, Ceyao Zhang, Jinlin Wang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu, J\"urgen Schmidhuber(参考訳) 大規模言語モデル(LLM)に基づくエージェントの社会を通じて,自動問題解決に顕著な進展がみられた。 既存のLLMベースのマルチエージェントシステムはすでに単純な対話処理を解くことができる。 しかし、より複雑なタスクへの解決策は、論理的矛盾によって複雑になる。 本稿では、LLMベースのマルチエージェントコラボレーションに効率的なヒューマンワークフローを組み込んだ革新的なメタプログラミングフレームワークであるMetaGPTを紹介する。 MetaGPTは標準化されたオペレーティング手順(SOP)を、より合理化されたワークフローのプロンプトシーケンスにエンコードすることで、人間のようなドメイン専門知識を持つエージェントが中間結果の検証とエラーの低減を可能にする。 MetaGPTはアセンブリラインのパラダイムを利用して様々なエージェントに多様な役割を割り当て、複雑なタスクを多くのエージェントが協力して作業するサブタスクに効率的に分割する。 協調ソフトウェアエンジニアリングベンチマークでは、MetaGPTは従来のチャットベースのマルチエージェントシステムよりも一貫性のあるソリューションを生成する。 私たちのプロジェクトはhttps://github.com/geekan/MetaGPTで見られます。

Remarkable progress has been made on automated problem solving through societies of agents based on large language models (LLMs). Existing LLM-based multi-agent systems can already solve simple dialogue tasks. Solutions to more complex tasks, however, are complicated through logic inconsistencies due to cascading hallucinations caused by naively chaining LLMs. Here we introduce MetaGPT, an innovative meta-programming framework incorporating efficient human workflows into LLM-based multi-agent collaborations. MetaGPT encodes Standardized Operating Procedures (SOPs) into prompt sequences for more streamlined workflows, thus allowing agents with human-like domain expertise to verify intermediate results and reduce errors. MetaGPT utilizes an assembly line paradigm to assign diverse roles to various agents, efficiently breaking down complex tasks into subtasks involving many agents working together. On collaborative software engineering benchmarks, MetaGPT generates more coherent solutions than previous chat-based multi-agent systems. Our project can be found at https://github.com/geekan/MetaGPT
翻訳日:2023-11-07 21:41:04 公開日:2023-11-06
# AIを用いた予測データ分析:微調整OpenAI LLMによるMT出力の後編集の必要性の評価

Predictive Data Analytics with AI: assessing the need for post-editing of MT output by fine-tuning OpenAI LLMs ( http://arxiv.org/abs/2308.00158v4 )

ライセンス: Link先を確認
Serge Gladkoff, Gleb Erofeev, Lifeng Han, Goran Nenadic(参考訳) 翻訳品質評価(TQE)は、現代翻訳生産プロセスにおける重要なステップである。 TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。 翻訳の品質を自動的に評価または見積もる能力は、プロセスの最適化を通じて大幅な効率向上をもたらす可能性がある。 この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。 OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。 英語からイタリア語,ドイツ語,フランス語,日本語,オランダ語,ポルトガル語,トルコ語,中国語への翻訳を含む「8つの言語ペア」について,翻訳品質予測タスクにおいて,微調整された「テキストbf{\textit{gpt3.5}}」が優れた性能を示すことを示す。 LLMのサイズを単純に増やすことで、OpenAIモデルの3つの異なるバージョンのパフォーマンスを比較することで、このタスクにおけるパフォーマンスが向上しない、という発見もある: \textbf{\textit{curie}}、 \textbf{\textit{davinci}}、 \textbf{\textit{gpt3.5}}、それぞれ13B、175B、および175Bパラメータ。

Translation Quality Evaluation (TQE) is an essential step of the modern translation production process. TQE is critical in assessing both machine translation (MT) and human translation (HT) quality without reference translations. The ability to evaluate or even simply estimate the quality of translation automatically may open significant efficiency gains through process optimisation. This work examines whether the state-of-the-art large language models (LLMs) can be used for this purpose. We take OpenAI models as the best state-of-the-art technology and approach TQE as a binary classification task. On \textbf{eight language pairs} including English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese, our experimental results show that fine-tuned \textbf{\textit{gpt3.5}} can demonstrate good performance on translation quality prediction tasks, i.e. \textit{whether the translation needs to be edited}. Another finding is that simply increasing the sizes of LLMs does not lead to apparent better performances on this task by comparing the performance of three different versions of OpenAI models: \textbf{\textit{curie}}, \textbf{\textit{davinci}}, and \textbf{\textit{gpt3.5}} with 13B, 175B, and 175B parameters, respectively.
翻訳日:2023-11-07 21:40:49 公開日:2023-11-06
# 言語モデルにおける複雑なスキルの創出の理論

A Theory for Emergence of Complex Skills in Language Models ( http://arxiv.org/abs/2307.15936v2 )

ライセンス: Link先を確認
Sanjeev Arora, Anirudh Goyal(参考訳) 今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。 この現象はよく理解されておらず、勾配に基づくトレーニングの数学的解析による力学的な説明は困難である。 本論文は,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,出現を解析し,異なるアプローチをとる。 貢献は以下の通り。 (a)LLMのクロスエントロピー損失を言語課題の根底にある基本的なスキルの能力に関連付ける統計的枠組み。 (b)スケーリング法則は、事前学習モデルが非常に効率的に学習できる誘導バイアスの強い形を意味することを示す数学的解析。 これを非公式に「em slingshot generalization」と呼ぶが、これは通常の一般化理論に違反するスキルの能力レベルを与えると見なされているからである。 (c)スリングショットの一般化の鍵となる例は、基本スキルそのものの能力と同じスケーリングと同等の速度で、$k$-tuplesのスキルを含むタスクを実行する能力が現われることである。

A major driver of AI products today is the fact that new skills emerge in language models when their parameter set and training corpora are scaled up. This phenomenon is poorly understood, and a mechanistic explanation via mathematical analysis of gradient-based training seems difficult. The current paper takes a different approach, analysing emergence using the famous (and empirical) Scaling Laws of LLMs and a simple statistical framework. Contributions include: (a) A statistical framework that relates cross-entropy loss of LLMs to competence on the basic skills that underlie language tasks. (b) Mathematical analysis showing that the Scaling Laws imply a strong form of inductive bias that allows the pre-trained model to learn very efficiently. We informally call this {\em slingshot generalization} since naively viewed it appears to give competence levels at skills that violate usual generalization theory. (c) A key example of slingshot generalization, that competence at executing tasks involving $k$-tuples of skills emerges essentially at the same scaling and same rate as competence on the elementary skills themselves.
翻訳日:2023-11-07 21:39:58 公開日:2023-11-06
# 連続性方程式とその位相空間量子力学への応用

The continuity equation and its applications in phase space quantum mechanics ( http://arxiv.org/abs/2307.12046v2 )

ライセンス: Link先を確認
Jaromir Tosiek and Luca Campobasso(参考訳) 内部自由度を持つ系の連続性方程式の量子位相空間バージョンが導出される。 1ドル -- d ディラック方程式が導入され、位相空間の対応する式が見つかる。 自由度を内在するセットアップにおける自由運動の位相空間表現と非相対論的・相対論的ケースにおける散乱について論じ、解説する。 非有界状態のウィグナー関数の特性を解析する。

A quantum phase space version of the continuity equation for systems with internal degrees of freedom is derived. The $1$ -- D Dirac equation is introduced and its phase space counterpart is found. The phase space representation of free motion and of scattering in a nonrelativistic and relativistic case for setups with internal degrees of freedom is discussed and illustrated. Properties of Wigner functions of unbound states are analysed.
翻訳日:2023-11-07 21:38:47 公開日:2023-11-06
# 感情刺激の理解と拡張が可能な大規模言語モデル

Large Language Models Understand and Can be Enhanced by Emotional Stimuli ( http://arxiv.org/abs/2307.11760v6 )

ライセンス: Link先を確認
Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie(参考訳) 感情の知性は日々の行動や相互作用に大きな影響を与えます。 大規模言語モデル(LLM)は、人工知能への取り組みとして、多くのタスクにおいて顕著なパフォーマンスを示すが、LLMが心的感情的な刺激を真に把握できるかどうかは不明である。 感情的な手がかりを理解して反応することは、問題解決において人間に明確な利点を与える。 本稿では,感情刺激を理解するためのllmの能力を探るための第一歩を踏み出す。 そこで我々はまず,Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 など,45のタスクを対象とした自動実験を行った。 我々のタスクは、包括的な評価シナリオを表す決定論的および生成的アプリケーションにまたがる。 私たちの自動実験では、llmは感情的知能を把握でき、そのパフォーマンスは感情的プロンプト(感情的プロンプトと感情的刺激を組み合わせたemotionprompt)によって改善できることが示されています。 既存の測定値を用いて自動的に評価できる決定論的タスクに加えて,106人の被験者を対象に,バニラと情緒の両方を用いて生成タスクの質を評価する。 人間の研究結果は、emotionpromptが生成的タスクのパフォーマンスを著しく向上させることを示している(パフォーマンス、真理、責任の指標の観点から平均10.9%改善)。 emotionpromptがllmで機能する理由と,そのパフォーマンスに影響する要因について,詳細な議論を行う。 我々は、EmotionPromptが人間とLLMの相互作用に関する学際的知識を探求するための新しい道筋であると仮定する。

Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.
翻訳日:2023-11-07 21:38:40 公開日:2023-11-06
# 人間の運動生成:調査

Human Motion Generation: A Survey ( http://arxiv.org/abs/2307.10894v2 )

ライセンス: Link先を確認
Wentao Zhu, Xiaoxuan Ma, Dongwoo Ro, Hai Ci, Jinlu Zhang, Jiaxin Shi, Feng Gao, Qi Tian, and Yizhou Wang(参考訳) 人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示す。 近年,動きデータ収集技術や生成手法が進歩し,人間の動き生成への関心が高まっている。 この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。 近年は顕著な進歩を遂げているが、人間の動きの複雑な性質と条件付き信号との暗黙的な関係により、課題が続いている。 本稿では,人間の運動生成に関する総合的な文献レビューを行う。 まず、人間の動作と生成モデルの背景を紹介し、続いて、テキストコンディショニング、オーディオコンディショニング、シーンコンディショニングの3つのメインストリームサブタスクの代表的な手法について検討する。 さらに,共通データセットと評価指標の概要について述べる。 最後に、オープンな問題について議論し、今後の研究の方向性について概説する。 この調査がコミュニティに,この急速に発展する分野の包括的可視化を提供し,優れた課題に対処する新たなアイデアを刺激してくれることを願っています。

Human motion generation aims to generate natural human pose sequences and shows immense potential for real-world applications. Substantial progress has been made recently in motion data collection technologies and generation methods, laying the foundation for increasing interest in human motion generation. Most research within this field focuses on generating human motions based on conditional signals, such as text, audio, and scene contexts. While significant advancements have been made in recent years, the task continues to pose challenges due to the intricate nature of human motion and its implicit relationship with conditional signals. In this survey, we present a comprehensive literature review of human motion generation, which, to the best of our knowledge, is the first of its kind in this field. We begin by introducing the background of human motion and generative models, followed by an examination of representative methods for three mainstream sub-tasks: text-conditioned, audio-conditioned, and scene-conditioned human motion generation. Additionally, we provide an overview of common datasets and evaluation metrics. Lastly, we discuss open problems and outline potential future research directions. We hope that this survey could provide the community with a comprehensive glimpse of this rapidly evolving field and inspire novel ideas that address the outstanding challenges.
翻訳日:2023-11-07 21:38:10 公開日:2023-11-06
# 異常な表面を包含する光機械的閉ループにおける選択的冷却とスクイーズ

Selective cooling and squeezing in a lossy optomechanical closed loop embodying an exceptional surface ( http://arxiv.org/abs/2307.09851v2 )

ライセンス: Link先を確認
Beyza S\"utl\"uo\u{g}lu Ege and Ceyhun Bulutay(参考訳) 1つの光と2つの退化機械共振器からなる閉ループ損失光学系を計算的に研究した。 これは、結合係数に由来するループ位相の基本的な合成小包である。 量子特性として,ターゲット共振器内の二次分散をプラーペット位相を通じて制御する方法について検討する。 光発振器と機械式発振器の高減衰定数に根ざした光加熱と機械式冷却係数の大きな違いが観察された。 これを機械的スクイーズと組み合わせるために、キャビティ励起レーザに振幅変調を課す。 数値解析は,瞬時行動の時間積分法と定常応答あるいは変調応答のフロッケ法という,相補的目的のための3つの手法に基づく。 後者はジェームズの実効ハミルトニアン法によりさらに検討され、これはスクイーズにおける上側バンド変調の役割を明確に明らかにしている。 我々は、非ハーミティリティが冷却の強化にどのように役立つか、そして例外的な点に近づいたかを物理的に把握する。 これは、メカニカル共振器結合の関数としての複素固有値 loci の挙動と関係している。 さらに,パラメータ空間は例外曲面であり,パラメータ変動下では例外点特異点が実験的に頑健であることを示す。 しかし、ポンプレーザのデチューニングは、メカニカル共鳴周波数に十分近い量でレッドサイドバンドに存在しない限り、例外的な表面から離れる。

A closed-loop lossy optomechanical system composed of one optical and two degenerate mechanical resonators is computationally studied. It represents an elementary synthetic plaquette with the loop phase originating from those of the coupling coefficients. As a specific quantum attribute, we explore how quadrature variances can be controlled in a targeted resonator through the plaquette phase. A stark disparity between the optical heating versus mechanical cooling factors is observed which is rooted in the high damping constant ratio of the optical and mechanical oscillators. To combine this with mechanical squeezing, an amplitude modulation is imposed over the cavity-pumping laser. Our numerical analysis is based on three approaches geared for complementary purposes: the time-integrator method for the instantaneous behavior and the Floquet technique for the steady-state or modulated response. The latter is further examined by the James' effective Hamiltonian method, which explicitly discloses the role of upper-sideband modulation for squeezing. We offer a physical insight into how the non-Hermiticity is instrumental in enhancing cooling and squeezing close to the exceptional points. This is linked to the behavior of complex eigenvalue loci as a function of the intermechanical resonator coupling. Moreover, we show that the parameter space comprises an exceptional surface, making the exceptional point singularities experimentally robust under parameter variations. However, the pump laser detuning breaks away from the exceptional surface unless it resides on the red-sideband by an amount sufficiently close to the mechanical resonance frequency.
翻訳日:2023-11-07 21:37:51 公開日:2023-11-06
# 近似物理モデルによる高能率・信頼性実世界強化学習の実現

Enabling Efficient, Reliable Real-World Reinforcement Learning with Approximate Physics-Based Models ( http://arxiv.org/abs/2307.08168v2 )

ライセンス: Link先を確認
Tyler Westenbroek, Jacob Levy, David Fridovich-Keil(参考訳) 我々は,実世界のデータを用いたロボット学習のための効率的かつ信頼性の高いポリシー最適化戦略の開発に注力する。 近年,シミュレーションにおける制御ポリシのトレーニングのパラダイムとして,ポリシー勾配法が登場している。 しかし、これらのアプローチはデータ効率が悪く、本物のロボットハードウェアでトレーニングするには信頼できないことが多い。 本稿では,(多分高度に単純化された)第一原理モデルを体系的に活用し,限られた実世界データで正確な制御方針を学習できる,新しい政策勾配に基づく政策最適化フレームワークを提案する。 アプローチ1)$は、ポリシー勾配のサンプル効率推定にモデルの導関数を使用し、2)$は、ポリシークラスに埋め込まれた低レベルのトラッキングコントローラを設計するためにモデルを使用する。 このフィードバックコントローラが単独のポリシー勾配手法の重要な限界をどのように克服するかを理論的分析によって見極めてくれる一方で、小さな車と四輪車によるハードウェア実験では、我々のアプローチが正確な制御戦略を、わずか数分の実際のデータで確実に学習できることが示されています。

We focus on developing efficient and reliable policy optimization strategies for robot learning with real-world data. In recent years, policy gradient methods have emerged as a promising paradigm for training control policies in simulation. However, these approaches often remain too data inefficient or unreliable to train on real robotic hardware. In this paper we introduce a novel policy gradient-based policy optimization framework which systematically leverages a (possibly highly simplified) first-principles model and enables learning precise control policies with limited amounts of real-world data. Our approach $1)$ uses the derivatives of the model to produce sample-efficient estimates of the policy gradient and $2)$ uses the model to design a low-level tracking controller, which is embedded in the policy class. Theoretical analysis provides insight into how the presence of this feedback controller overcomes key limitations of stand-alone policy gradient methods, while hardware experiments with a small car and quadruped demonstrate that our approach can learn precise control strategies reliably and with only minutes of real-world data.
翻訳日:2023-11-07 21:36:39 公開日:2023-11-06
# オンラインマルチカーネル並列化学習方式

An Online Multiple Kernel Parallelizable Learning Scheme ( http://arxiv.org/abs/2308.10101v2 )

ライセンス: Link先を確認
Emilio Ruiz-Moreno and Baltasar Beferull-Lozano(参考訳) 再生カーネルHilbert空間に基づく手法の性能は、再生カーネルの選択に敏感であることが知られている。 適切な再生カーネルの選択は、特にソリューションドメインに関する事前情報なしでデータ豊富なタスクにおいて、困難かつ計算的に要求される。 本稿では,カーネル選択バイアスを低減すべく,複数の単一のカーネルベースオンライン手法を組み合わせた学習手法を提案する。 提案手法は正規化された経験的リスク最小化凸問題として定式化されたタスクに適用できる。 より具体的には、我々の学習スキームは、任意のシングルカーネルソリューション空間を拡張できるマルチカーネル学習の定式化に基づいており、高性能なソリューションを見つける可能性を高めている。 さらに、並列化可能であり、異なる計算単位にまたがる計算負荷の分散を可能にする。 提案手法は, 累積正規化最小二乗法において, 単カーネルのオンライン手法を別々に比較し, 比較検討を行った。

The performance of reproducing kernel Hilbert space-based methods is known to be sensitive to the choice of the reproducing kernel. Choosing an adequate reproducing kernel can be challenging and computationally demanding, especially in data-rich tasks without prior information about the solution domain. In this paper, we propose a learning scheme that scalably combines several single kernel-based online methods to reduce the kernel-selection bias. The proposed learning scheme applies to any task formulated as a regularized empirical risk minimization convex problem. More specifically, our learning scheme is based on a multi-kernel learning formulation that can be applied to widen any single-kernel solution space, thus increasing the possibility of finding higher-performance solutions. In addition, it is parallelizable, allowing for the distribution of the computational load across different computing units. We show experimentally that the proposed learning scheme outperforms the combined single-kernel online methods separately in terms of the cumulative regularized least squares cost metric.
翻訳日:2023-11-07 21:28:59 公開日:2023-11-06
# 暗号通貨証券の大型言語モデル:chatgptは弁護士に取って代わることができるか?

Large Language Models in Cryptocurrency Securities Cases: Can ChatGPT Replace Lawyers? ( http://arxiv.org/abs/2308.06032v3 )

ライセンス: Link先を確認
Arianna Trozze, Toby Davies, and Bennett Kleinberg(参考訳) 大規模言語モデル(llm)は、法的システムへのアクセスを強化することができる。 しかし、法的業務遂行におけるその効果に関する実証的研究は乏しい。 我々は、LLMの法的推論と起草能力について研究し、AIが法的プロセスをサポートすることのできる多くの文脈の1つとして、暗号通貨を含む証券ケースを調査した。 検討する a) LLMは、事実のパターンに違反する可能性のある法律を正確に判定することができ、 b)llmに対して弁護士が書いた苦情に基づいて陪審員の意思決定に違いがあるか否か。 我々は実生活の事例からGPT-3.5まで事実パターンをフィードし、シナリオから正しい潜在的な違反を判断し、急激な違反を排除できる能力を評価する。 第二に、陪審員はllmと弁護士が書いた苦情を評価した。 GPT-3.5の法的推論スキルは弱かったが、将来のモデルの改善を期待している。 GPT-3.5は法的な起草に優れており、陪審員の判断は彼らの判断に基づく文書の著者と統計的に有意な関係は無かった。 LLMは法的理由づけを十分に行うことができないため、この段階では弁護士を置き換えることはできない。 しかし、彼らの起草スキル(おそらくは弁護士よりは劣っている)は、法的なサービスコストを下げることで、より多くの個人に正義をもたらすことができる。 我々の研究は、証券法や暗号通貨関連の不正行為と同様に、訴訟におけるllmsの法的起草と推論能力を体系的に研究した最初の研究である。

Large Language Models (LLMs) could enhance access to the legal system. However, empirical research on their effectiveness in conducting legal tasks is scant. We study securities cases involving cryptocurrencies as one of numerous contexts where AI could support the legal process, studying LLMs' legal reasoning and drafting capabilities. We examine whether a) an LLM can accurately determine which laws are potentially being violated from a fact pattern, and b) whether there is a difference in juror decision-making based on complaints written by a lawyer compared to an LLM. We feed fact patterns from real-life cases to GPT-3.5 and evaluate its ability to determine correct potential violations from the scenario and exclude spurious violations. Second, we had mock jurors assess complaints written by the LLM and lawyers. GPT-3.5's legal reasoning skills proved weak, though we expect improvement in future models, particularly given the violations it suggested tended to be correct (it merely missed additional, correct violations). GPT-3.5 performed better at legal drafting, and jurors' decisions were not statistically significantly associated with the author of the document upon which they based their decisions. Because LLMs cannot satisfactorily conduct legal reasoning tasks, they would be unable to replace lawyers at this stage. However, their drafting skills (though, perhaps, still inferior to lawyers), could provide access to justice for more individuals by reducing the cost of legal services. Our research is the first to systematically study LLMs' legal drafting and reasoning capabilities in litigation, as well as in securities law and cryptocurrency-related misconduct.
翻訳日:2023-11-07 21:27:14 公開日:2023-11-06
# 微分方程式解としてのファインチューン言語モデル

Fine-Tune Language Models as Differential Equation Solvers ( http://arxiv.org/abs/2308.05061v2 )

ライセンス: Link先を確認
Liu Yang, Siting Liu, Stanley J. Osher(参考訳) 科学機械学習の領域が拡大する中で、文脈内演算子学習は、重み更新のない推論段階において、学習演算子や誘導データを用いた微分方程式の解法において顕著なポテンシャルを示した。 しかし、現在のモデルの関数データへの過度な依存は、不注意に操作者に対する人間的洞察を見落としているかもしれない。 そこで本稿では,マルチモーダルパラダイムへのインコンテクスト演算子学習の変換について述べる。 特に,近年の大規模言語モデルの成功から着想を得て,自然言語記述と方程式を用いて表現された操作者に関する人間知識を統合するための"captions"の利用を提案する。 また,言語モデルライクなアーキテクチャをトレーニングするための新しいアプローチや,コンテキスト内演算子学習のための言語モデルを直接微調整する手法も導入する。 我々は単一モーダル学習タスクのベースラインを破り、性能の向上と機能データ要求の低減にマルチモーダル学習の有効性を実証した。 提案手法は,文脈内演算子学習を著しく改善するだけでなく,言語モデルに適用するための新たなパスを生成する。

In the growing domain of scientific machine learning, in-context operator learning has shown notable potential in learning operators and solving differential equations using prompted data, during the inference stage without weight updates. However, the current model's overdependence on function data, may inadvertently overlook the invaluable human insight into the operator. To address this, we present a transformation of in-context operator learning into a multi-modal paradigm. In particular, we take inspiration from the recent success of large language models, and propose using "captions" to integrate human knowledge about the operator, expressed through natural language descriptions and equations. Also, we introduce a novel approach to train a language-model-like architecture, or directly fine-tune existing language models, for in-context operator learning. We beat the baseline on single-modal learning tasks, and also demonstrated the effectiveness of multi-modal learning in enhancing performance and reducing function data requirements. The proposed method not only significantly improves in-context operator learning, but also creates a new path for the application of language models.
翻訳日:2023-11-07 21:26:48 公開日:2023-11-06
# AIコードジェネレータの脆弱性 - ターゲットデータに対する攻撃調査

Vulnerabilities in AI Code Generators: Exploring Targeted Data Poisoning Attacks ( http://arxiv.org/abs/2308.04451v2 )

ライセンス: Link先を確認
Domenico Cotroneo, Cristina Improta, Pietro Liguori, Roberto Natella(参考訳) AIベースのコードジェネレータは、自然言語(NL)からソフトウェアを書く開発者を支援する上で、重要な存在になっています。 しかし、それらは大量のデータに基づいてトレーニングされており、しばしば無害なオンラインソース(GitHub、HuggingFaceなど)から収集される。 その結果、AIモデルはデータ中毒の標的となる。つまり、悪意のあるサンプルをトレーニングデータに注入して脆弱性のあるコードを生成する攻撃である。 この脅威に対処するために、ターゲットとするデータ中毒戦略を考案し、AIコードジェネレータのセキュリティを調査する。 セキュリティ脆弱性を含むコードの増加を注入してトレーニングデータを汚染し、コード生成のためのさまざまな最先端モデルに対する攻撃の成功を評価する。 私たちの研究は、AIコードジェネレータが少量の毒にも弱いことを示しています。 特に攻撃の成功はモデルアーキテクチャと中毒率に大きく依存するが、脆弱性の種類には影響しない。 さらに、攻撃は事前訓練されたモデルによって生成されたコードの正しさに影響を及ぼさないため、検出は困難である。 最後に、我々の研究は、この脅威の理解と緩和に関する実践的な洞察を提供します。

AI-based code generators have become pivotal in assisting developers in writing software starting from natural language (NL). However, they are trained on large amounts of data, often collected from unsanitized online sources (e.g., GitHub, HuggingFace). As a consequence, AI models become an easy target for data poisoning, i.e., an attack that injects malicious samples into the training data to generate vulnerable code. To address this threat, we investigate the security of AI code generators by devising a targeted data poisoning strategy. We poison the training data by injecting increasing amounts of code containing security vulnerabilities and assess the attack's success on different state-of-the-art models for code generation. Our study shows that AI code generators are vulnerable to even a small amount of poison. Notably, the attack success strongly depends on the model architecture and poisoning rate, whereas it is not influenced by the type of vulnerabilities. Moreover, since the attack does not impact the correctness of code generated by pre-trained models, it is hard to detect. Lastly, our work offers practical insights into understanding and potentially mitigating this threat.
翻訳日:2023-11-07 21:26:27 公開日:2023-11-06
# 新しいタイプの自然崩壊モデルの提案

A proposal for a new kind of spontaneous collapse model ( http://arxiv.org/abs/2308.04415v2 )

ライセンス: Link先を確認
Nicol\`o Piccione(参考訳) 自然崩壊モデルは、物理機構が波動関数の崩壊の原因となる標準的な量子力学の修正であり、いわゆる「測定問題」を解決する手段を提供する。 これらのモデルで最も有名なのは、Ghirardi-Rimini-Weber(GRW)モデルとContinuous Spontaneous Localisation(CSL)モデルである。 本稿では,固定時空座標に位置する崩壊点の考え方に基づく,新しい非相対論的自発的崩壊モデルを提案する。 このモデルはGRWモデルとCSLモデルの両方の特性を共有し、異なる仮定から始める。 GRWモデルと非常によく似た力学を導出すると同時に,不明瞭な粒子の問題を自然に解くことができることを示す。 一方、CSLモデルの同じマスター方程式を得ることもできる。 そして,提案モデルがGRWモデルと概念的に類似した方法で測定問題をいかに解決するかを示す。 最後に, 崩壊を重力源として扱うことにより, 提案モデルがニュートン重力にも適応できることを示す。

Spontaneous collapse models are modifications of standard quantum mechanics in which a physical mechanism is responsible for the collapse of the wavefunction, thus providing a way to solve the so-called "measurement problem". The two most famous of these models are the Ghirardi-Rimini-Weber (GRW) model and the Continuous Spontaneous Localisation (CSL) models. Here, we propose a new kind of non-relativistic spontaneous collapse model based on the idea of collapse points situated at fixed spacetime coordinates. This model shares properties of both GRW and CSL models, while starting from different assumptions. We show that it can lead to a dynamics quite similar to that of the GRW model while also naturally solving the problem of indistinguishable particles. On the other hand, we can also obtain the same master equation of the CSL models. Then, we show how our proposed model solves the measurement problem in a manner conceptually similar to the GRW model. Finally, we show how the proposed model can also accommodate for Newtonian gravity by treating the collapses as gravitational sources.
翻訳日:2023-11-07 21:26:08 公開日:2023-11-06
# 公正かつ包括的参加予算:累積および二次投票インタフェースを用いた投票経験

Fair and Inclusive Participatory Budgeting: Voter Experience with Cumulative and Quadratic Voting Interfaces ( http://arxiv.org/abs/2308.04345v2 )

ライセンス: Link先を確認
Thomas Wellings, Fatemeh Banaie Heravan, Abhinav Sharma, Lodewijk Gelauff, Regula H\"anggli Fricker, Evangelos Pournaras(参考訳) 累積投票と2次投票は、特に参加予算の領域において、公平さと包摂性を促進する2つの分散投票方法である。 これらの利点にもかかわらず、累積および二次投票のためのグラフィカル投票インタフェースは、実装と有効利用が複雑である。 その結果、このような方法がデジタル投票プラットフォームで広く採用されることはなかった。 本稿では,最先端の投票プラットフォームであるstanford participatory budgetingにおいて,累積投票と二次投票の実装と評価を導入することで課題を解決する。 その結果、有権者は単純な方法を好むが、より表現力のある(かつ複雑な)累積投票の方が、単純だが表現力の低いkランク投票よりも好まれることがわかった。 実装された投票インターフェース要素は有用であり、より表現力のある投票方法に対する投票者の好みを支持する。 *

Cumulative and quadratic voting are two distributional voting methods that are expressive, promoting fairness and inclusion, particularly in the realm of participatory budgeting. Despite these benefits, graphical voter interfaces for cumulative and quadratic voting are complex to implement and use effectively. As a result, such methods have not seen yet widespread adoption on digital voting platforms. This paper addresses the challenge by introducing an implementation and evaluation of cumulative and quadratic voting within a state-of-the-art voting platform: Stanford Participatory Budgeting. The findings of the study show that while voters prefer simple methods, the more expressive (and complex) cumulative voting becomes the preferred one compared to k-ranking voting that is simpler but less expressive. The implemented voting interface elements are found useful and support the observed voters' preferences for more expressive voting methods. *
翻訳日:2023-11-07 21:25:52 公開日:2023-11-06
# 貯留層工学的キャビティマグノメカニクスによるマイクロ波出力場の強スキューズ

Strong squeezing of microwave output fields via reservoir-engineered cavity magnomechanics ( http://arxiv.org/abs/2308.02222v2 )

ライセンス: Link先を確認
Hang Qian, Xuan Zuo, Zhi-Yuan Fan, Jiong Cheng, Jie Li(参考訳) 本研究では,マイクロ波キャビティ,マグノンモード,機械振動モードからなるキャビティ磁気力学系を貯水池工学によりマイクロ波出力場の強スケズングを実現する方法を示す。 マグノンモードは、振動モードに関連する青と赤のサイドバンドの2つのマイクロ波場によって同時に駆動される。 この2音駆動は、キャビティ内フィールドに対して圧縮されたマグノニック貯水池を誘導し、キャビティ-マグノン状態のスワッピングによるスクイズドキャビティモードを生じさせ、さらに、スクイズドキャビティ出力フィールドを発生させる。 出力場のスクイーズは静止しており、キャビティ・マグノメカニクスで現在利用可能なパラメータを用いている。 この研究は、圧縮されたマイクロ波場の準備におけるキャビティマグノメカニカルシステムのポテンシャルを示し、量子情報科学と量子メトロロジーに有望な応用を見出すかもしれない。

We show how to achieve strong squeezing of a microwave output field by reservoir engineering a cavity magnomechanical system, consisting of a microwave cavity, a magnon mode, and a mechanical vibration mode. The magnon mode is simultaneously driven by two microwave fields at the blue and red sidebands associated with the vibration mode. The two-tone drive induces a squeezed magnonic reservoir for the intracavity field, leading to a squeezed cavity mode due to the cavity-magnon state swapping, which further yields a squeezed cavity output field. The squeezing of the output field is stationary and substantial using currently available parameters in cavity magnomechanics. The work indicates the potential of the cavity magnomechanical system in preparing squeezed microwave fields, and may find promising applications in quantum information science and quantum metrology.
翻訳日:2023-11-07 21:25:11 公開日:2023-11-06
# RADIO: 基準非依存のダビングビデオ合成

RADIO: Reference-Agnostic Dubbing Video Synthesis ( http://arxiv.org/abs/2309.01950v2 )

ライセンス: Link先を確認
Dongyeun Lee, Chaewon Kim, Sangjoon Yu, Jaejun Yoo, Gyeong-Moon Park(参考訳) 音声駆動音声ヘッド生成における最も難しい問題の一つは、正確な同期を確保しながら高精度なディテールを達成することである。 単一の参照画像だけを考えると、意味のあるアイデンティティ属性を抽出することがさらに難しくなり、しばしばネットワークが顔と唇の構造を近づきすぎてしまう。 これらの問題に対処するために、参照画像のポーズや表現に関係なく高品質な「ビデオ」を提供するためのフレームワークRADIOを導入する。 鍵となるのは、オーディオと参照機能からなる潜在空間を使用してデコーダ層を変調することだ。 さらに、特に唇領域において、高忠実度の詳細を強調するために、ViTブロックをデコーダに組み込む。 実験の結果,RADIOは忠実度を損なうことなく高い同期性を示すことがわかった。 特に,基準フレームが基礎的真理から著しく逸脱する過酷なシナリオでは,本手法は最先端手法よりも優れており,その頑健性が強調される。

One of the most challenging problems in audio-driven talking head generation is achieving high-fidelity detail while ensuring precise synchronization. Given only a single reference image, extracting meaningful identity attributes becomes even more challenging, often causing the network to mirror the facial and lip structures too closely. To address these issues, we introduce RADIO, a framework engineered to yield high-quality dubbed videos regardless of the pose or expression in reference images. The key is to modulate the decoder layers using latent space composed of audio and reference features. Additionally, we incorporate ViT blocks into the decoder to emphasize high-fidelity details, especially in the lip region. Our experimental results demonstrate that RADIO displays high synchronization without the loss of fidelity. Especially in harsh scenarios where the reference frame deviates significantly from the ground truth, our method outperforms state-of-the-art methods, highlighting its robustness.
翻訳日:2023-11-07 21:17:31 公開日:2023-11-06
# TSTTC:運転シナリオにおける時間対接触推定のための大規模データセット

TSTTC: A Large-Scale Dataset for Time-to-Contact Estimation in Driving Scenarios ( http://arxiv.org/abs/2309.01539v3 )

ライセンス: Link先を確認
Yuheng Shi, Zehao Huang, Yan Yan, Naiyan Wang, Xiaojie Guo(参考訳) 衝突リスクの評価にはttc(time-to-contact)推定が重要であり、様々な運転支援システムや自動運転システムで広く使われている。 過去数十年間、関連する理論やアルゴリズムの開発が見られた。 一般的な学習ベースの手法は、現実世界のシナリオで大規模なTTCデータセットを要求する。 本稿では,単眼カメラによるttc推定を促進するために,運転シーンにおける大規模オブジェクト指向ttcデータセットを提案する。 貴重なサンプルを収集し、TTC値の異なるデータを比較的バランスよく作成するために、数千時間の駆動データを経て、プリセットされたデータ分布で200K以上のシーケンスを選択する。 小型TTC症例の量を増大させるため,最新のニューラルレンダリング手法を用いてクリップを生成する。 さらに,TTC推定ベースラインを複数提供し,提案したデータセットに基づいて評価を行い,その効果を実証する。 提案されたデータセットはhttps://open-dataset.tusen.ai/TSTTCで公開されている。

Time-to-Contact (TTC) estimation is a critical task for assessing collision risk and is widely used in various driver assistance and autonomous driving systems. The past few decades have witnessed development of related theories and algorithms. The prevalent learning-based methods call for a large-scale TTC dataset in real-world scenarios. In this work, we present a large-scale object oriented TTC dataset in the driving scene for promoting the TTC estimation by a monocular camera. To collect valuable samples and make data with different TTC values relatively balanced, we go through thousands of hours of driving data and select over 200K sequences with a preset data distribution. To augment the quantity of small TTC cases, we also generate clips using the latest Neural rendering methods. Additionally, we provide several simple yet effective TTC estimation baselines and evaluate them extensively on the proposed dataset to demonstrate their effectiveness. The proposed dataset is publicly available at https://open-dataset.tusen.ai/TSTTC.
翻訳日:2023-11-07 21:17:15 公開日:2023-11-06
# 高速拡散em:ブラインド逆問題に対する拡散モデルとデコンボリューションへの応用

Fast Diffusion EM: a diffusion model for blind inverse problems with application to deconvolution ( http://arxiv.org/abs/2309.00287v2 )

ライセンス: Link先を確認
Charles Laroche, Andr\'es Almansa, Eva Coupete(参考訳) 拡散モデルを用いて逆問題を解くことは、研究の分野である。 現在の手法では、劣化が知られ、修復の質と多様性の観点から印象的な結果をもたらすと仮定している。 本研究では,これらのモデルの効率を利用して,ボケカーネルなどの劣化モデルの復元画像と未知パラメータを共同で推定する。 特に、よく知られた予測最小化(EM)推定法と拡散モデルに基づくアルゴリズムを設計した。 本手法は,拡散モデルから抽出したサンプルと最大化ステップを用いて,逆問題の対数類似度を近似し,未知のモデルパラメータを推定する。 最大化ステップでは、Plug \&Play Denoiserに基づいた新しいボケカーネル正規化も導入する。 拡散モデルの実行には時間がかかるため,アルゴリズムの高速バージョンを提供する。 ブラインド画像のデブラリングに関する広範囲な実験は,他の最先端手法と比較して,提案手法の有効性を示すものである。

Using diffusion models to solve inverse problems is a growing field of research. Current methods assume the degradation to be known and provide impressive results in terms of restoration quality and diversity. In this work, we leverage the efficiency of those models to jointly estimate the restored image and unknown parameters of the degradation model such as blur kernel. In particular, we designed an algorithm based on the well-known Expectation-Minimization (EM) estimation method and diffusion models. Our method alternates between approximating the expected log-likelihood of the inverse problem using samples drawn from a diffusion model and a maximization step to estimate unknown model parameters. For the maximization step, we also introduce a novel blur kernel regularization based on a Plug \& Play denoiser. Diffusion models are long to run, thus we provide a fast version of our algorithm. Extensive experiments on blind image deblurring demonstrate the effectiveness of our method when compared to other state-of-the-art approaches.
翻訳日:2023-11-07 21:16:02 公開日:2023-11-06
# ds4dh at #smm4h 2023: zero-shot adverse drug events normalization using sentence transformers and reciprocal-rank fusion

DS4DH at #SMM4H 2023: Zero-Shot Adverse Drug Events Normalization using Sentence Transformers and Reciprocal-Rank Fusion ( http://arxiv.org/abs/2308.12877v3 )

ライセンス: Link先を確認
Anthony Yazdani, Hossein Rouhizadeh, David Vicente Alvarez, Douglas Teodoro(参考訳) 本稿では,ds4dh (data science for digital health) group for the social media mining for health applications (smm4h) 2023 shared task 5 による有害薬物イベント正規化システムの性能評価について概説する。 共有タスク5は、規制活動用語のための医学的辞書の標準概念へのtwitterにおける有害薬物事象の言及の正規化を目標とした。 BERTファインタニングと文変換器によるゼロショット正規化と相互ランク融合という2段階のアプローチが特徴である。 精度は44.9%、リコールは40.5%、F1スコアは42.6%だった。 これは共有タスク5の中央値のパフォーマンスを10%上回り、すべての参加者の中で最高のパフォーマンスを示した。 これらの結果は,ソーシャルメディアのテキストマイニング分野における薬物イベント正規化の有効性と,その潜在的応用を実証するものである。

This paper outlines the performance evaluation of a system for adverse drug event normalization, developed by the Data Science for Digital Health (DS4DH) group for the Social Media Mining for Health Applications (SMM4H) 2023 shared task 5. Shared task 5 targeted the normalization of adverse drug event mentions in Twitter to standard concepts of the Medical Dictionary for Regulatory Activities terminology. Our system hinges on a two-stage approach: BERT fine-tuning for entity recognition, followed by zero-shot normalization using sentence transformers and reciprocal-rank fusion. The approach yielded a precision of 44.9%, recall of 40.5%, and an F1-score of 42.6%. It outperformed the median performance in shared task 5 by 10% and demonstrated the highest performance among all participants. These results substantiate the effectiveness of our approach and its potential application for adverse drug event normalization in the realm of social media text mining.
翻訳日:2023-11-07 21:14:07 公開日:2023-11-06
# 医療ルールwebサービスのための自動テスト生成:ノルウェーのがん登録簿におけるケーススタディ

Automated Test Generation for Medical Rules Web Services: A Case Study at the Cancer Registry of Norway ( http://arxiv.org/abs/2308.12805v2 )

ライセンス: Link先を確認
Christoph Laaber, Tao Yue, Shaukat Ali, Thomas Schwitalla, Jan F. Nyg{\aa}rd(参考訳) ノルウェーがん登録 (CRN) は、ノルウェーのがん患者に関するデータを収集、キュレート、管理し、対話的で人道的な社会技術決定支援ソフトウェアシステムによって支援している。 このソフトウェアシステムの自動テストは避けられないが、現在はCRNの実践に限られている。 そこで本研究では,AIベースのシステムレベルのテストツールであるEvoMasterを,CRNのソフトウェアシステムをテストする上での有効性で評価する産業ケーススタディを提案する。 特に、我々は、CRNの重要なコンポーネントであるCRNの医療ルールエンジンであるGURIに焦点を当てています。 我々は、EvoMasterのブラックボックスとホワイトボックスツールでGURIをテストし、コードカバレッジ、見つかったエラー、ドメイン固有のルールカバレッジに関するテストの有効性を調査します。 その結果、evomasterツールはすべて同じようなコードカバレッジ(約19%の行、13%のブランチ、20%のメソッド)を達成し、同様のエラー(guriのコードの1つ)を見つけることができた。 ドメイン固有のカバレッジに関しては、EvoMasterのブラックボックスツールは、アグリゲーションルールの100%、バリデーションルールの12.86%から25.81%、そして多様なルール実行結果、すなわち、アグリゲーションルールの86.84%から89.95%、バリデーションルールの0.93%から1.72%、アグリゲーションルールの1.70%から3.12%、バリデーションルールの1.58%から3.74%が失敗するテストを生成するのに最も効果的である。 さらに、ルールの10バージョン間で結果が一致していることも観察します。 これらの結果に基づいて、我々はEvoMasterのブラックボックスツールを使ってGURIをテストすることを推奨する。 それでもEvoMasterは、テストの有効性をさらに向上するために、ドメイン固有の最適化目標を採用するように拡張する必要がある。 最後に、学習した教訓と潜在的研究の方向性をまとめ、一般に適用できると考えている。

The Cancer Registry of Norway (CRN) collects, curates, and manages data related to cancer patients in Norway, supported by an interactive, human-in-the-loop, socio-technical decision support software system. Automated software testing of this software system is inevitable; however, currently, it is limited in CRN's practice. To this end, we present an industrial case study to evaluate an AI-based system-level testing tool, i.e., EvoMaster, in terms of its effectiveness in testing CRN's software system. In particular, we focus on GURI, CRN's medical rule engine, which is a key component at the CRN. We test GURI with EvoMaster's black-box and white-box tools and study their test effectiveness regarding code coverage, errors found, and domain-specific rule coverage. The results show that all EvoMaster tools achieve a similar code coverage; i.e., around 19% line, 13% branch, and 20% method; and find a similar number of errors; i.e., 1 in GURI's code. Concerning domain-specific coverage, EvoMaster's black-box tool is the most effective in generating tests that lead to applied rules; i.e., 100% of the aggregation rules and between 12.86% and 25.81% of the validation rules; and to diverse rule execution results; i.e., 86.84% to 89.95% of the aggregation rules and 0.93% to 1.72% of the validation rules pass, and 1.70% to 3.12% of the aggregation rules and 1.58% to 3.74% of the validation rules fail. We further observe that the results are consistent across 10 versions of the rules. Based on these results, we recommend using EvoMaster's black-box tool to test GURI since it provides good results and advances the current state of practice at the CRN. Nonetheless, EvoMaster needs to be extended to employ domain-specific optimization objectives to improve test effectiveness further. Finally, we conclude with lessons learned and potential research directions, which we believe are generally applicable.
翻訳日:2023-11-07 21:13:45 公開日:2023-11-06
# 量子インターネットの堅牢性とスケーラビリティに関する実践的制限

Practical limitations on robustness and scalability of quantum Internet ( http://arxiv.org/abs/2308.12739v2 )

ライセンス: Link先を確認
Abhishek Sadhu, Meghana Ayyala Somayajula, Karol Horodecki, Siddhartha Das(参考訳) 量子理論は、従来のシステムでは不可能な情報処理や計算タスクを可能にするため、既存のネットワークシステムを超えた量子インターネットの必要性と利用がある。 同時に、好ましく機能する量子インターネットの実現は、量子システムの伝送における高い損失、環境との相互作用による非一貫性、量子状態のフレギリティなど、基本的かつ実用的な課題によって妨げられる。 量子インターネットのスケールとロバスト性に関する制約を分析することにより,これらの制約の影響を考察する。 量子ネットワークを念頭に,セキュアな通信,委譲コンピューティング,エンドノード間のリソース分散のための実用的なボトルネックを提案する。 グラフ理論の抽象化の力(量子情報理論と関連する)に動機づけられ、グラフ理論の量子化器はネットワークの堅牢性を評価し、量子インターネット上で実行可能な通信のために通信線の臨界値を提供する。 特に、デバイス非依存の量子キーリピータとして、デバイス非依存の量子キー分布に有用な等方性状態の有用性の制限について議論する。 コンピュータ内で現在利用可能な量子プロセッサアーキテクチャを接続する衛星ベースのネットワークから、量子情報処理タスクを実行するためのロバスト性の分析まで、実用的関心のある量子ネットワークをいくつか検討する。 これらのタスクのいくつかは、エンタングルメント分布や量子テレポーテーションなど、デリゲート量子コンピューティングのためのプリミティブを形成する。 量子ネットワークのいくつかの例では、ネットワーク構造の構築、一対のノード間の最短経路の発見、ノードにおけるリソースの流れの最適化など、関心のある異なる量子ネットワークタスクを実行するアルゴリズムを提案する。

As quantum theory allows for information processing and computing tasks that otherwise are not possible with classical systems, there is a need and use of quantum Internet beyond existing network systems. At the same time, the realization of a desirably functional quantum Internet is hindered by fundamental and practical challenges such as high loss during transmission of quantum systems, decoherence due to interaction with the environment, fragility of quantum states, etc. We study the implications of these constraints by analyzing the limitations on the scaling and robustness of quantum Internet. Considering quantum networks, we present practical bottlenecks for secure communication, delegated computing, and resource distribution among end nodes. Motivated by the power of abstraction in graph theory (in association with quantum information theory), we consider graph-theoretic quantifiers to assess network robustness and provide critical values of communication lines for viable communication over quantum Internet. In particular, we begin by discussing limitations on usefulness of isotropic states as device-independent quantum key repeaters which otherwise could be useful for device-independent quantum key distribution. We consider some quantum networks of practical interest, ranging from satellite-based networks connecting far-off spatial locations to currently available quantum processor architectures within computers, and analyze their robustness to perform quantum information processing tasks. Some of these tasks form primitives for delegated quantum computing, e.g., entanglement distribution and quantum teleportation. For some examples of quantum networks, we present algorithms to perform different quantum network tasks of interest such as constructing the network structure, finding the shortest path between a pair of end nodes, and optimizing the flow of resources at a node.
翻訳日:2023-11-07 21:13:01 公開日:2023-11-06
# 保守作業における共有学習のための最適データプーリング

Optimal data pooling for shared learning in maintenance operations ( http://arxiv.org/abs/2308.12670v2 )

ライセンス: Link先を確認
Collin Drent and Melvin Drent and Geert-Jan van Houtum(参考訳) 本研究では,2つの共通保守作業における共有学習のための最適データプーリングについて検討する。 我々は、ポアソンの入力の対象となる一連のシステム、すなわち劣化または需要プロセスは、未知の確率で結合されると考えている。 これらのシステムに関わる決定問題は高次元マルコフ決定過程(MDP)である。 本稿では,MDP を 2 次元 MDP に還元し,構造解析と計算を可能にする分解結果を提案する。 この分解を利用して (i)プールデータがプールしない場合に比べて大幅なコスト削減につながることを実証し、 (II) 条件ベースのメンテナンス問題に対する最適ポリシーは制御限度ポリシーであり, 予備部品管理問題に対しては, プールされたデータに依存した整合レベルポリシーであることを示す。

We study optimal data pooling for shared learning in two common maintenance operations: condition-based maintenance and spare parts management. We consider a set of systems subject to Poisson input -- the degradation or demand process -- that are coupled through an a-priori unknown rate. Decision problems involving these systems are high-dimensional Markov decision processes (MDPs) and hence notoriously difficult to solve. We present a decomposition result that reduces such an MDP to two-dimensional MDPs, enabling structural analyses and computations. Leveraging this decomposition, we (i) demonstrate that pooling data can lead to significant cost reductions compared to not pooling, and (ii) show that the optimal policy for the condition-based maintenance problem is a control limit policy, while for the spare parts management problem, it is an order-up-to level policy, both dependent on the pooled data.
翻訳日:2023-11-07 21:12:30 公開日:2023-11-06
# ロングテール認識のための一様分布カテゴリプロトタイプ視覚言語フレームワーク

Uniformly Distributed Category Prototype-Guided Vision-Language Framework for Long-Tail Recognition ( http://arxiv.org/abs/2308.12522v2 )

ライセンス: Link先を確認
Siming Fu, Xiaoxuan He, Xinpeng Ding, Yuchen Cao, Hualiang Wang(参考訳) 近年,大規模事前学習型視覚言語モデルでは,長期認識におけるクラス不均衡を緩和する利点がある。 しかし、ロングテールデータ分布は、ヘッドとテールの間の距離が2つのテールカテゴリ間の距離よりもはるかに大きい表現空間を壊す可能性がある。 この不均一な特徴空間分布は、一様分散テストセット上で不明瞭で分離不能な決定境界を示し、その性能を低下させる。 これらの課題に対処するために、データ不均衡に起因する特徴空間バイアスを効果的に軽減する一意のプロトタイプ誘導視覚言語フレームワークを提案する。 特に,超球面上に均一に分布するカテゴリプロトタイプの集合を生成する。 画像テキストマッチングのためのカテゴリプロトタイプ誘導メカニズムにより、異なるクラスの特徴は、特徴空間における均一な分布を維持し、クラス境界を改善するこれらの個別かつ均一に分散したカテゴリプロトタイプに収束する。 さらに、提案した非関連テキストフィルタリングおよび属性拡張モジュールにより、無関係なノイズテキストを無視し、キー属性情報により集中し、フレームワークの堅牢性を高めることができる。 画像認識の微調整段階において、学習可能な分類器の正のバイアス問題に対処するため、ヘッドクラスの性能を維持しながらテールクラスの性能を補うクラス特徴量誘導型分類器を設計する。 提案手法は,長期学習における従来の視覚言語手法よりも高い性能を示し,最先端の性能を実現する。

Recently, large-scale pre-trained vision-language models have presented benefits for alleviating class imbalance in long-tailed recognition. However, the long-tailed data distribution can corrupt the representation space, where the distance between head and tail categories is much larger than the distance between two tail categories. This uneven feature space distribution causes the model to exhibit unclear and inseparable decision boundaries on the uniformly distributed test set, which lowers its performance. To address these challenges, we propose the uniformly category prototype-guided vision-language framework to effectively mitigate feature space bias caused by data imbalance. Especially, we generate a set of category prototypes uniformly distributed on a hypersphere. Category prototype-guided mechanism for image-text matching makes the features of different classes converge to these distinct and uniformly distributed category prototypes, which maintain a uniform distribution in the feature space, and improve class boundaries. Additionally, our proposed irrelevant text filtering and attribute enhancement module allows the model to ignore irrelevant noisy text and focus more on key attribute information, thereby enhancing the robustness of our framework. In the image recognition fine-tuning stage, to address the positive bias problem of the learnable classifier, we design the class feature prototype-guided classifier, which compensates for the performance of tail classes while maintaining the performance of head classes. Our method outperforms previous vision-language methods for long-tailed learning work by a large margin and achieves state-of-the-art performance.
翻訳日:2023-11-07 21:12:14 公開日:2023-11-06
# 論理に基づく脳インスパイアされたシーケンス学習モデル

A Brain-Inspired Sequence Learning Model based on a Logic ( http://arxiv.org/abs/2308.12486v2 )

ライセンス: Link先を確認
Bowen Xu(参考訳) シーケンス学習は知性の重要な側面である。 人工知能では、シーケンス予測タスクは通常、シーケンス学習モデルをテストするために使用される。 本稿では,非公理論理によって解釈可能なシーケンス学習モデルの設計とテストを行う。 学習メカニズムは仮説化、修正、リサイクルの3つのステップで構成されており、不十分な知識と資源を前提としてモデルが機能することを可能にする。 シーケンス予測タスクのための合成データセットを生成し、モデルのキャパシティをテストする。 その結果、モデルが異なる難易度でうまく機能することを示しました。 さらに、モデルが概念中心の表現を採用するため、理論的には破滅的な忘れ込みに悩まされず、実用的な結果もこの特性を支持する。 本稿では,論理的な学習列の可能性を示す。

Sequence learning is an essential aspect of intelligence. In Artificial Intelligence, sequence prediction task is usually used to test a sequence learning model. In this paper, a model of sequence learning, which is interpretable through Non-Axiomatic Logic, is designed and tested. The learning mechanism is composed of three steps, hypothesizing, revising, and recycling, which enable the model to work under the Assumption of Insufficient Knowledge and Resources. Synthetic datasets for sequence prediction task are generated to test the capacity of the model. The results show that the model works well within different levels of difficulty. In addition, since the model adopts concept-centered representation, it theoretically does not suffer from catastrophic forgetting, and the practical results also support this property. This paper shows the potential of learning sequences in a logical way.
翻訳日:2023-11-07 21:11:47 公開日:2023-11-06
# オンデマンド駆動ナビゲーションのための要求条件付きオブジェクト属性空間の学習

Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven Navigation ( http://arxiv.org/abs/2309.08138v3 )

ライセンス: Link先を確認
Hongcheng Wang, Andy Guan Hong Chen, Xiaoqi Li, Mingdong Wu, Hao Dong(参考訳) 視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。 vonタスクを成功させるためには、2つの必須条件を満たさなければならない:1) ユーザが希望するオブジェクトの名前を知る必要がある。 2) ユーザ指定オブジェクトは実際にシーン内に存在しなければならない。 これらの条件を満たすために、シミュレータはシーンのメタデータに予め定義されたオブジェクト名と位置を組み込むことができる。 しかし、現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。 馴染みのない環境の人間は、どのオブジェクトがシーンに存在するのかを知らないかもしれないし、実際に存在しないオブジェクトを誤って特定するかもしれない。 しかしながら、これらの課題にもかかわらず、人間は依然としてオブジェクトに対する要求があり、それは、シーン内に存在する他のオブジェクトと同等の方法で満たされる可能性がある。 そこで本研究では,ユーザの要求をタスク命令として活用し,その要求にマッチするオブジェクトを見つけるようエージェントに促す,要求駆動ナビゲーション(DDN)を提案する。 DDNは、事前に定義されたオブジェクトのカテゴリや名前にのみ依存するのではなく、ユーザの要求を満たすことに集中することで、VONの厳しい条件を緩和することを目的としている。 本稿では,大言語モデルから共通知識を抽出することにより,まずオブジェクトのテキスト属性特徴を取得する手法を提案する。 これらのテキスト属性機能は、Contrastive Language-Image Pre-training (CLIP)を使用して視覚的属性特徴と整列する。 視覚属性の特徴を事前知識として組み込むことで,ナビゲーションプロセスを強化する。 ProcThorデータセットによるAI2Thorの実験では、視覚特性の特徴がエージェントのナビゲーション性能を改善し、VONで一般的に使用されるベースラインメソッドよりも優れていた。

The task of Visual Object Navigation (VON) involves an agent's ability to locate a particular object within a given scene. In order to successfully accomplish the VON task, two essential conditions must be fulfilled:1) the user must know the name of the desired object; and 2) the user-specified object must actually be present within the scene. To meet these conditions, a simulator can incorporate pre-defined object names and positions into the metadata of the scene. However, in real-world scenarios, it is often challenging to ensure that these conditions are always met. Human in an unfamiliar environment may not know which objects are present in the scene, or they may mistakenly specify an object that is not actually present. Nevertheless, despite these challenges, human may still have a demand for an object, which could potentially be fulfilled by other objects present within the scene in an equivalent manner. Hence, we propose Demand-driven Navigation (DDN), which leverages the user's demand as the task instruction and prompts the agent to find the object matches the specified demand. DDN aims to relax the stringent conditions of VON by focusing on fulfilling the user's demand rather than relying solely on predefined object categories or names. We propose a method first acquire textual attribute features of objects by extracting common knowledge from a large language model. These textual attribute features are subsequently aligned with visual attribute features using Contrastive Language-Image Pre-training (CLIP). By incorporating the visual attribute features as prior knowledge, we enhance the navigation process. Experiments on AI2Thor with the ProcThor dataset demonstrate the visual attribute features improve the agent's navigation performance and outperform the baseline methods commonly used in VON.
翻訳日:2023-11-07 21:04:58 公開日:2023-11-06
# 生成的画像ダイナミクス

Generative Image Dynamics ( http://arxiv.org/abs/2309.07906v2 )

ライセンス: Link先を確認
Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski(参考訳) 本研究では,シーン動作に先立って画像空間をモデル化する手法を提案する。 本論文は,木,花,ろうそく,衣服の振動など,自然で振動的なダイナミクスを表現した実映像から抽出した運動軌跡の収集から学習した。 我々は、フーリエ領域に先立って、この密集した長期的な動きをモデル化する: 訓練されたモデルでは、周波数調整された拡散サンプリングプロセスを用いてスペクトル体積を予測し、ビデオ全体にわたる動きのテクスチャに変換することができる。 イメージベースのレンダリングモジュールに加えて、静止画をシームレスにループするビデオに変換したり、スペクトルボリュームを画像空間のモーダルベースとして解釈することで、実際の画像内のオブジェクトと現実的に対話できるなど、多くの下流アプリケーションで使用できる。

We present an approach to modeling an image-space prior on scene motion. Our prior is learned from a collection of motion trajectories extracted from real video sequences depicting natural, oscillatory dynamics such as trees, flowers, candles, and clothes swaying in the wind. We model this dense, long-term motion prior in the Fourier domain:given a single image, our trained model uses a frequency-coordinated diffusion sampling process to predict a spectral volume, which can be converted into a motion texture that spans an entire video. Along with an image-based rendering module, these trajectories can be used for a number of downstream applications, such as turning still images into seamlessly looping videos, or allowing users to realistically interact with objects in real pictures by interpreting the spectral volumes as image-space modal bases, which approximate object dynamics.
翻訳日:2023-11-07 21:04:13 公開日:2023-11-06
# pre:再パラメータエンコーダを用いた視覚言語プロンプト学習

PRE: Vision-Language Prompt Learning with Reparameterization Encoder ( http://arxiv.org/abs/2309.07760v2 )

ライセンス: Link先を確認
Anh Pham Thi Minh, An Duc Nguyen, Georgios Tzimiropoulos(参考訳) CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。 しかし、最適な性能を得るためには、下流画像分布とテキストクラス記述との整合を改善するために、プロンプトの手動選択が必要である。 この手動のプロンプトエンジニアリングは、ドメインの専門知識を必要とし、非常に時間がかかるため、実際にモデルをデプロイするための大きな課題です。 非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。 CoOpは手動のプロンプトよりも大幅に改善できるが、学習コンテキストは、同じデータセット内のより広い未確認クラスにさらに一般化できる。 本研究では,基本クラスを学習する能力を維持しつつ,学習可能なプロンプトの非知覚クラスへの一般化能力を高めるための,シンプルで効率的な手法であるreparameterization encoder (pre) を用いたプロンプト学習を提案する。 プロンプトを直接最適化する代わりに、Preはプロンプトエンコーダを使用して入力プロンプト埋め込みを再パラメータ化し、少数のサンプルからタスク固有の知識を探索する。 8つのベンチマークの実験と広範囲なアブレーション研究は、我々のアプローチが迅速な学習の効率的な方法であることを示している。 具体的には、preは、新しいクラスの平均精度が5.60%、調和平均が3%という注目すべき向上を達成している。

Large pre-trained vision-language models such as CLIP have demonstrated great potential in zero-shot transferability to downstream tasks. However, to attain optimal performance, the manual selection of prompts is necessary to improve alignment between the downstream image distribution and the textual class descriptions. This manual prompt engineering is the major challenge for deploying such models in practice since it requires domain expertise and is extremely time-consuming. To avoid non-trivial prompt engineering, recent work Context Optimization (CoOp) introduced the concept of prompt learning to the vision domain using learnable textual tokens. While CoOp can achieve substantial improvements over manual prompts, its learned context is worse generalizable to wider unseen classes within the same dataset. In this work, we present Prompt Learning with Reparameterization Encoder (PRE) - a simple and efficient method that enhances the generalization ability of the learnable prompt to unseen classes while maintaining the capacity to learn Base classes. Instead of directly optimizing the prompts, PRE employs a prompt encoder to reparameterize the input prompt embeddings, enhancing the exploration of task-specific knowledge from few-shot samples. Experiments and extensive ablation studies on 8 benchmarks demonstrate that our approach is an efficient method for prompt learning. Specifically, PRE achieves a notable enhancement of 5.60% in average accuracy on New classes and 3% in Harmonic mean compared to CoOp in the 16-shot setting, all achieved within a good training time.
翻訳日:2023-11-07 21:03:57 公開日:2023-11-06
# MRI並列画像再構成のための入射神経表現法

Implicit Neural Representation for MRI Parallel Imaging Reconstruction ( http://arxiv.org/abs/2309.06067v4 )

ライセンス: Link先を確認
Hao Li, Yusheng Zhou, Jianan Liu, Xiling Liu, Tao Huang, and Zhihan Lv(参考訳) 磁気共鳴画像(MRI)は常に長い取得時間に悩まされる。 並列イメージング(PI)は、特定のK空間線を周期的にスキップし、アンダーサンプリングされた測定から高品質な画像を再構成することでスキャン時間を短縮する1つの方法である。 近年,物体を空間座標の連続関数として表現する新しい深層学習法として暗黙的ニューラル表現(INR)が登場し,この関数は通常多層パーセプトロン(MLP)によってパラメータ化される。 本稿では,INRに基づく新しいMRI PI再構成手法を提案する。これは,再構成された完全サンプル画像をボクセル座標とアンダーサンプル画像の特徴ベクトルの関数として表現し,INRの一般化問題を克服する。 具体的には,異なるアンダーサンプリングスケールのMR画像からスケール非依存のボクセル特異な特徴を抽出し,座標ベクトルと結合して完全サンプリングされたMR画像の復元を行い,複数スケール再構成を実現する。 提案手法の性能は,公開されているMRIデータセットを用いて評価し,他の再構成手法と比較した。 提案手法が代替手法よりも優れていることを示す定量的評価を行った。

Magnetic resonance imaging (MRI) always suffers from long acquisition times. Parallel imaging (PI) is one solution to reduce scan time by periodically skipping certain K-space lines and then reconstructing high-quality images from undersampled measurements. Recently, implicit neural representation (INR) has emerged as a new deep learning method that represents an object as a continuous function of spatial coordinates, and this function is normally parameterized by a multilayer perceptron (MLP). In this paper, we propose a novel MRI PI reconstruction method based on INR, which represents the reconstructed fully-sampled images as the function of voxel coordinates and prior feature vectors of undersampled images to overcome the generalization problem of INR. Specifically, we introduce a scale-embedded encoder to produce scale-independent voxel-specific features from MR images with different undersampling scales and then concatenate with coordinate vectors to recover fully-sampled MR images, thus achieving multiple scale reconstructions. The performance of the proposed method was assessed by experimenting with publicly available MRI datasets and was compared with other reconstruction methods. Our quantitative evaluation demonstrates the superiority of the proposed method over alternative reconstruction methods.
翻訳日:2023-11-07 21:03:30 公開日:2023-11-06
# 人力支援型デクサラスグラフプのためのスコアベースグラフププリミティブの学習

Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping ( http://arxiv.org/abs/2309.06038v2 )

ライセンス: Link先を確認
Tianhao Wu, Mingdong Wu, Jiyao Zhang, Yunchong Gan, Hao Dong(参考訳) 人間の手が使用できない、あるいは不適当な状況において、個人を支援するための人為的なロボットハンドの使用が重要視されている。 本稿では,ロボットハンドの指制御方針を学習し,対象物の把握を支援することを目的とした,人間支援のデクスタース把持という新しいタスクを提案する。 従来の厳密な把握とは異なり、このタスクは、オブジェクトの幾何学に加えて、ポリシーが多様なユーザ意図に適応する必要があるため、より複雑な課題を示す。 この課題は、2つのサブモジュールからなるアプローチを提案することで解決される: ハンドオブジェクト-条件把握プリミティブであるGrasping Gradient Field~(GraspGF)と履歴条件残余ポリシー。 grabgfは、成功把握例セットから勾配を推定して「どのように」把握するかを学習し、残留ポリシーは、軌道履歴に基づいて、どの速度で「いつ」及びどの速度で把握動作を実行するべきかを決定する。 実験の結果,本手法がベースラインに比べて優れていることを示し,実世界のアプリケーションにおけるユーザ認識と実用性を強調した。 コードとデモは"https://sites.google.com/view/graspgf"で見ることができる。

The use of anthropomorphic robotic hands for assisting individuals in situations where human hands may be unavailable or unsuitable has gained significant importance. In this paper, we propose a novel task called human-assisting dexterous grasping that aims to train a policy for controlling a robotic hand's fingers to assist users in grasping objects. Unlike conventional dexterous grasping, this task presents a more complex challenge as the policy needs to adapt to diverse user intentions, in addition to the object's geometry. We address this challenge by proposing an approach consisting of two sub-modules: a hand-object-conditional grasping primitive called Grasping Gradient Field~(GraspGF), and a history-conditional residual policy. GraspGF learns `how' to grasp by estimating the gradient from a success grasping example set, while the residual policy determines `when' and at what speed the grasping action should be executed based on the trajectory history. Experimental results demonstrate the superiority of our proposed method compared to baselines, highlighting the user-awareness and practicality in real-world applications. The codes and demonstrations can be viewed at "https://sites.google.com/view/graspgf".
翻訳日:2023-11-07 21:03:09 公開日:2023-11-06
# 物理インフォームド・アテンションに基づく地域電気自動車充電需要予測のためのグラフ学習手法

A physics-informed and attention-based graph learning approach for regional electric vehicle charging demand prediction ( http://arxiv.org/abs/2309.05259v2 )

ライセンス: Link先を確認
Haohao Qu, Haoxuan Kuang, Jun Li, Linlin You(参考訳) 電気自動車(EV)の普及に伴い、EV充電スペースの使用を最適化することで、インテリジェントな輸送システムへの負荷の増大を大幅に軽減することができる。 このような最適化を実現する基盤として,都市部におけるEV充電需要予測のための時空間的手法が必要である。 データ駆動型ディープラーニング手法によっていくつかの解決策が提案されているが、これらのパフォーマンス指向手法は、課金要求と価格の逆関係を正しく扱うために誤解に苦しむ可能性がある。 本稿では,特徴抽出のためのグラフと時間的注意機構の統合と,知識伝達のためのモデル事前学習ステップにおける物理インフォームドメタラーニングの利用を可能にする新しいアプローチを提案する。 中国深センの18,013台のEV充電杭のデータセットによる評価結果から,PAGと呼ばれる提案手法は,現状の予測性能と価格変動による充電需要の適応的変化を理解することができることを示した。

Along with the proliferation of electric vehicles (EVs), optimizing the use of EV charging space can significantly alleviate the growing load on intelligent transportation systems. As the foundation to achieve such an optimization, a spatiotemporal method for EV charging demand prediction in urban areas is required. Although several solutions have been proposed by using data-driven deep learning methods, it can be found that these performance-oriented methods may suffer from misinterpretations to correctly handle the reverse relationship between charging demands and prices. To tackle the emerging challenges of training an accurate and interpretable prediction model, this paper proposes a novel approach that enables the integration of graph and temporal attention mechanisms for feature extraction and the usage of physic-informed meta-learning in the model pre-training step for knowledge transfer. Evaluation results on a dataset of 18,013 EV charging piles in Shenzhen, China, show that the proposed approach, named PAG, can achieve state-of-the-art forecasting performance and the ability in understanding the adaptive changes in charging demands caused by price fluctuations.
翻訳日:2023-11-07 21:02:14 公開日:2023-11-06
# PolyLUT:超低レイテンシFPGA LUTに基づく推論のための線形多項式学習

PolyLUT: Learning Piecewise Polynomials for Ultra-Low Latency FPGA LUT-based Inference ( http://arxiv.org/abs/2309.02334v2 )

ライセンス: Link先を確認
Marta Andronic and George A. Constantinides(参考訳) フィールドプログラマブルゲートアレイ(FPGA)はディープラーニング推論の実装に広く利用されている。 標準ディープニューラルネットワーク推論は、インターリーブされた線形写像と非線形活性化関数の計算を含む。 超低レイテンシ実装の以前の研究は、FPGAルックアップテーブル(LUT)内の線形マップと非線形アクティベーションの組み合わせをハードコードした。 我々の研究はFPGAのLUTがこれよりもはるかに多種多様な機能を実装するのに使えるという考えに動機づけられている。 本稿では,多変量多項式を基本構成ブロックとして,FPGAデプロイメントのためのニューラルネットワークのトレーニング手法を提案する。 本手法はソフトロジックの柔軟性を活用し,LUT内の多項式評価を最小限のオーバーヘッドで隠蔽する。 多項式構成ブロックを用いることで, 線形関数を用いた場合に比べてソフトロジックの層がかなり少なくなり, レイテンシが大幅に向上し, 面積が改善することを示した。 本手法の有効性を,ネットワーク侵入検出,CERN大型ハドロン衝突型加速器におけるジェット識別,MNISTデータセットを用いた手書き桁認識の3つのタスクで示す。

Field-programmable gate arrays (FPGAs) are widely used to implement deep learning inference. Standard deep neural network inference involves the computation of interleaved linear maps and nonlinear activation functions. Prior work for ultra-low latency implementations has hardcoded the combination of linear maps and nonlinear activations inside FPGA lookup tables (LUTs). Our work is motivated by the idea that the LUTs in an FPGA can be used to implement a much greater variety of functions than this. In this paper, we propose a novel approach to training neural networks for FPGA deployment using multivariate polynomials as the basic building block. Our method takes advantage of the flexibility offered by the soft logic, hiding the polynomial evaluation inside the LUTs with minimal overhead. We show that by using polynomial building blocks, we can achieve the same accuracy using considerably fewer layers of soft logic than by using linear functions, leading to significant latency and area improvements. We demonstrate the effectiveness of this approach in three tasks: network intrusion detection, jet identification at the CERN Large Hadron Collider, and handwritten digit recognition using the MNIST dataset.
翻訳日:2023-11-07 21:00:17 公開日:2023-11-06
# グリーン関数に対する極小特異性の原理

Principle of minimal singularity for Green's functions ( http://arxiv.org/abs/2309.02201v3 )

ライセンス: Link先を確認
Wenliang Li(参考訳) 整数値パラメータの解析的継続は、レゲ理論における角運動量、スピングラスにおけるレプリカの数、内部自由度数、次元正規化における時空次元、ウィルソンの正規化群といった深い洞察をもたらす。 本研究では,d$次元時空におけるディソン・シュウィンガー方程式の非定式化に対する2つの最近のアプローチに触発された相関関数の新たな解析的継続について考察する。 グリーン函数 $G_n=\<\phi^n\>$ が $n$ の複素値に対する解析的連続性を認めるならば、2つの異なるアプローチは自己整合問題に対する新しい原理によって統一される: 複素平面の特異性は最小である。 この原理は、クォート理論におけるグリーン関数の異なる分岐の融合として表される。 D=0$ に対して、複素カップリング定数 $g$ あるいは非整数パワー $m$ を含む一般 $g\phi^m$ 理論の閉形式解を得る。 d=1$ に対して、エルミート四量体および非エルミート立方体理論の急速に収束した結果を導出し、特異点の複雑性を $n=\infty$ で最小化する。

Analytic continuations of integer-valued parameters can lead to profound insights, such as angular momentum in Regge theory, the number of replicas in spin glasses, the number of internal degrees of freedom, the spacetime dimension in dimensional regularization and Wilson's renormalization group. In this work, we consider a new kind of analytic continuation of correlation functions, inspired by two recent approaches to underdetermined Dyson-Schwinger equations in $D$-dimensional spacetime. If the Green's functions $G_n=\<\phi^n\>$ admit analytic continuation to complex values of $n$, the two different approaches are unified by a novel principle for self-consistent problems: Singularities in the complex plane should be minimal. This principle manifests as the merging of different branches of Green's functions in the quartic theories. For $D=0$, we obtain the closed-form solutions of the general $g\phi^m$ theories, including the cases with complex coupling constant $g$ or non-integer power $m$. For $D=1$, we derive rapidly convergent results for the Hermitian quartic and non-Hermitian cubic theories by minimizing the complexity of the singularity at $n=\infty$.
翻訳日:2023-11-07 20:59:58 公開日:2023-11-06
# InfraParis: マルチモーダルとマルチタスクの自動運転データセット

InfraParis: A multi-modal and multi-task autonomous driving dataset ( http://arxiv.org/abs/2309.15751v2 )

ライセンス: Link先を確認
Gianni Franchi, Marwane Hariat, Xuanlong Yu, Nacim Belkhir, Antoine Manzanera and David Filliat(参考訳) 現在の自動運転コンピュータビジョンのためのディープニューラルネットワーク(dnn)は、通常、1種類のデータと都市シーンのみを含む特定のデータセットで訓練される。 結果として、これらのモデルは、新しいオブジェクト、ノイズ、夜間条件、および様々なシナリオを扱うのに苦労する。 コンピュータビジョンdnnの回復力を高める努力を続けているが、複数のモダリティを特徴とするベンチマークが欠如していることもあって、進歩は鈍化している。 本稿では,rgb,奥行き,赤外線の3つのモードにまたがる複数のタスクをサポートするinfraparisという,新しい汎用データセットを紹介する。 セマンティクスセグメンテーション,オブジェクト検出,深さ推定といったタスクのためのモデルを含む,最先端のベースライン技術を評価する。 さらなる視覚化とInfraParisのダウンロードリンクは、 \href{https://ensta-u2is.github.io/infraParis/}{https://ensta-u2is.github.io/infraParis/}で公開されている。

Current deep neural networks (DNNs) for autonomous driving computer vision are typically trained on specific datasets that only involve a single type of data and urban scenes. Consequently, these models struggle to handle new objects, noise, nighttime conditions, and diverse scenarios, which is essential for safety-critical applications. Despite ongoing efforts to enhance the resilience of computer vision DNNs, progress has been sluggish, partly due to the absence of benchmarks featuring multiple modalities. We introduce a novel and versatile dataset named InfraParis that supports multiple tasks across three modalities: RGB, depth, and infrared. We assess various state-of-the-art baseline techniques, encompassing models for the tasks of semantic segmentation, object detection, and depth estimation. More visualizations and the download link for InfraParis are available at \href{https://ensta-u2is.github.io/infraParis/}{https://ensta-u2is.github.io/infraParis/}.
翻訳日:2023-11-07 20:51:58 公開日:2023-11-06
# SGRec3D:オブジェクトレベルシーン再構成による自己監督型3次元グラフ学習

SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene Reconstruction ( http://arxiv.org/abs/2309.15702v2 )

ライセンス: Link先を確認
Sebastian Koch, Pedro Hermosilla, Narunas Vaskevicius, Mirco Colosi, Timo Ropinski(参考訳) 3dシーン理解の分野では、3dシーングラフがオブジェクトとその関係に関する幾何学的および意味的情報を結合した新しいシーン表現として登場している。 しかし、セマンティックな3dシーングラフを完全に教師付きで学習することは、オブジェクトレベルのアノテーションだけでなく、関係ラベルも必要となるため、本質的に困難である。 プレトレーニングアプローチは様々な分野で多くのメソッドのパフォーマンスを高めるのに役立ったが、3dシーングラフ予測のためのプレトレーニングはほとんど注目されていない。 さらに,従来のコントラッシブ・クラウド・ベースの事前学習手法は3次元シーングラフ学習には有効ではないことがわかった。 そこで本研究では,3次元シーングラフ予測のための自己教師付き事前学習手法であるSGRec3Dを提案する。 本稿では,3次元入力シーンをプリテキストタスクとしてグラフボトルネックから再構成する。 事前トレーニングを行うSGRec3Dは、オブジェクト関係ラベルを必要としないため、3Dシーン理解データセットを大規模に活用することができる。 最近のpoint cloudベースの事前トレーニングアプローチとは対照的に,提案手法は3dシーングラフの予測をかなり改善し,soma性能を向上し,他の3dシーングラフモデルよりもオブジェクト予測で+10%,関係予測で+4%向上した。 さらに,微調整時に10%のラベル付きデータの小さなサブセットのみを使用することで,事前トレーニングを行わずに同じモデルに勝ることを示す。

In the field of 3D scene understanding, 3D scene graphs have emerged as a new scene representation that combines geometric and semantic information about objects and their relationships. However, learning semantic 3D scene graphs in a fully supervised manner is inherently difficult as it requires not only object-level annotations but also relationship labels. While pre-training approaches have helped to boost the performance of many methods in various fields, pre-training for 3D scene graph prediction has received little attention. Furthermore, we find in this paper that classical contrastive point cloud-based pre-training approaches are ineffective for 3D scene graph learning. To this end, we present SGRec3D, a novel self-supervised pre-training method for 3D scene graph prediction. We propose to reconstruct the 3D input scene from a graph bottleneck as a pretext task. Pre-training SGRec3D does not require object relationship labels, making it possible to exploit large-scale 3D scene understanding datasets, which were off-limits for 3D scene graph learning before. Our experiments demonstrate that in contrast to recent point cloud-based pre-training approaches, our proposed pre-training improves the 3D scene graph prediction considerably, which results in SOTA performance, outperforming other 3D scene graph models by +10% on object prediction and +4% on relationship prediction. Additionally, we show that only using a small subset of 10% labeled data during fine-tuning is sufficient to outperform the same model without pre-training.
翻訳日:2023-11-07 20:51:40 公開日:2023-11-06
# multimodn-マルチモーダル、マルチタスク、解釈可能なモジュラーネットワーク

MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks ( http://arxiv.org/abs/2309.14118v2 )

ライセンス: Link先を確認
Vinitra Swamy, Malika Satayeva, Jibril Frej, Thierry Bossy, Thijs Vogels, Martin Jaggi, Tanja K\"aser, Mary-Anne Hartley(参考訳) ひとつのモデルで複数の実世界のタスクを予測するには、特に多様な機能領域が必要となることが多い。 マルチモーダル(MM)モデルは、複数のデータ型の相乗的予測ポテンシャルを抽出し、大きく異なるサイズ(画像、テキスト、音声など)の入力に整合した意味を持つ共有特徴空間を作成することを目的としている。 現在のほとんどのMMアーキテクチャはこれらの表現を並列に融合させ、解釈可能性を制限するだけでなく、モダリティの可用性への依存も生み出す。 マルチモーダル・モジュラーネットワークであるMultiModNは,任意の数,組み合わせ,あるいはモダリティの列で潜在表現を融合し,予測タスクの任意の数や組み合わせに対して,より詳細なリアルタイムな予測フィードバックを提供する。 MultiModNのコンポーザブルパイプラインは解釈可能な設計であり、本質的にはマルチタスクであり、偏りの欠如という根本的な問題に対して堅牢である。 実世界の10のタスクを対象としたベンチマークMMデータセット(医療診断,学術的性能,気象予測)の4つの実験を行い,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示した。 MNAR(Not-at-random)の欠如の難解なバイアスをシミュレートすることにより、MNARとは対照的に、並列核融合ベースラインは誤ってMNARを学習し、推論時に異なるMNARパターンに直面すると破滅的な失敗を被ることを示した。 我々の知る限りでは、これはMNARに耐性を持つMMモデリングに対する最初のアプローチである。 結論として、MultiModNはパフォーマンスを損なうことなく、詳細な洞察、堅牢性、柔軟性を提供します。

Predicting multiple real-world tasks in a single model often requires a particularly diverse feature space. Multimodal (MM) models aim to extract the synergistic predictive potential of multiple data types to create a shared feature space with aligned semantic meaning across inputs of drastically varying sizes (i.e. images, text, sound). Most current MM architectures fuse these representations in parallel, which not only limits their interpretability but also creates a dependency on modality availability. We present MultiModN, a multimodal, modular network that fuses latent representations in a sequence of any number, combination, or type of modality while providing granular real-time predictive feedback on any number or combination of predictive tasks. MultiModN's composable pipeline is interpretable-by-design, as well as innately multi-task and robust to the fundamental issue of biased missingness. We perform four experiments on several benchmark MM datasets across 10 real-world tasks (predicting medical diagnoses, academic performance, and weather), and show that MultiModN's sequential MM fusion does not compromise performance compared with a baseline of parallel fusion. By simulating the challenging bias of missing not-at-random (MNAR), this work shows that, contrary to MultiModN, parallel fusion baselines erroneously learn MNAR and suffer catastrophic failure when faced with different patterns of MNAR at inference. To the best of our knowledge, this is the first inherently MNAR-resistant approach to MM modeling. In conclusion, MultiModN provides granular insights, robustness, and flexibility without compromising performance.
翻訳日:2023-11-07 20:50:11 公開日:2023-11-06
# 強反発二層モデルにおける創発的feshbach共鳴からのペアリングドーム

Pairing dome from an emergent Feshbach resonance in a strongly repulsive bilayer model ( http://arxiv.org/abs/2309.13040v3 )

ライセンス: Link先を確認
Hannah Lange, Lukas Homeier, Eugene Demler, Ulrich Schollw\"ock, Annabelle Bohrdt and Fabian Grusdt(参考訳) 従来の超伝導を理解する鍵は、ドープ反強磁性体における移動電荷キャリアのペアリング機構を解き明かすことであり、強い反発性クーロン相互作用が存在する場合でも電荷間の効果的なアトラクションをもたらす。 本稿では, 有限ドーピング系において強く強化された, 強い結合エネルギーを持つ二層ニッケルの最小モデルにおけるペアリングについて検討する。 混合次元 (mixD) $t-J$ ladder は、小さな反発で密に束縛された穴 (閉チャネル) から、大きな反発でより空間的に拡張され、相関した個々の穴 (オープンチャネル) の対へと交差する。 我々は、原子Feshbach共鳴に類似して、アトラクションが閉じたチャネルによって媒介される、後者の効果的なモデルを引き出す。 密度行列再正規化群 (DMRG) シミュレーションを用いて, 約30 %$ドーピングで大きな結合エネルギーのドームを明らかにし, 隣接する2つのスピン電荷励起対からなるプラケットのテトラパルトン密度波の形成を観察した。 我々の研究は、ドープ量子磁石、特にni系超伝導体におけるペアリングの微視的理論への道を開くものであり、我々の予測は最先端の量子シミュレータで検証できる。

A key to understanding unconventional superconductivity lies in unraveling the pairing mechanism of mobile charge carriers in doped antiferromagnets, yielding an effective attraction between charges even in the presence of strong repulsive Coulomb interactions. Here, we study pairing in a minimal model of bilayer nickelates, featuring robust binding energies - despite dominant repulsive interactions - that are strongly enhanced in the finite doping regime. The mixed-dimensional (mixD) $t-J$ ladder we study features a crossover from tightly bound pairs of holes (closed channel) at small repulsion, to more spatially extended, correlated pairs of individual holes (open channel) at large repulsion. We derive an effective model for the latter, in which the attraction is mediated by the closed channel, in analogy to atomic Feshbach resonances. Using density matrix renormalization group (DMRG) simulations we reveal a dome of large binding energies at around $30\%$ doping and we observe the formation of a tetraparton density wave of plaquettes consisting of two spin-charge excitation pairs on neighboring rungs. Our work paves the way towards a microscopic theory of pairing in doped quantum magnets, in particular Ni-based superconductors, and our predictions can be tested in state-of-the-art quantum simulators.
翻訳日:2023-11-07 20:48:33 公開日:2023-11-06
# RadOnc-GPT:放射線腫瘍学のための大規模言語モデル

RadOnc-GPT: A Large Language Model for Radiation Oncology ( http://arxiv.org/abs/2309.10160v3 )

ライセンス: Link先を確認
Zhengliang Liu, Peilong Wang, Yiwei Li, Jason Holmes, Peng Shu, Lian Zhang, Chenbin Liu, Ninghao Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Samir H. Patel, Terence T. Sio, Tianming Liu, Wei Liu(参考訳) 本稿では,放射線オンコロジーに特化した大規模言語モデルRadOnc-GPTを提案する。 RadOnc-GPTは、アリゾナ州のマヨクリニックの放射線腫瘍学患者の大規模なデータセットに基づいて微調整された。 このモデルは、放射線治療のレギュラーを生成すること、最適な放射線モダリティを決定すること、患者診断の詳細に基づいて診断記述/ICDコードを提供する3つの重要なタスクを指導する。 RadOnc-GPT出力と大言語モデル出力を比較した結果,これらの3つの課題においてROUGEスコアが高かった。 この研究は、RadOnc-GPTのようなドメイン固有の知識を用いて、放射線腫瘍学のような高度に専門化された医療分野における変換能力を達成するために、大規模言語モデルを使用することの可能性を示した。 しかし,本モデルの臨床的妥当性には確認が必要であり,上記の3つの特定のタスクのみを専門とし,幅広い適用性に欠ける。 さらに、ROUGEスコアによる評価は、今後の研究で取り組むべき課題である、真の意味的および臨床的精度を反映していないかもしれない。

This paper presents RadOnc-GPT, a large language model specialized for radiation oncology through advanced tuning methods. RadOnc-GPT was finetuned on a large dataset of radiation oncology patient records from the Mayo Clinic in Arizona. The model employs instruction tuning on three key tasks - generating radiotherapy treatment regimens, determining optimal radiation modalities, and providing diagnostic descriptions/ICD codes based on patient diagnostic details. Evaluations conducted by comparing RadOnc-GPT outputs to general large language model outputs showed higher ROUGE scores in these three tasks. The study demonstrated the potential of using large language models fine-tuned using domain-specific knowledge like RadOnc-GPT to achieve transformational capabilities in highly specialized healthcare fields such as radiation oncology. However, our model's clinical relevance requires confirmation, and it specializes in only the aforementioned three specific tasks and lacks broader applicability. Furthermore, its evaluation through ROUGE scores might not reflect the true semantic and clinical accuracy - challenges we intend to address in future research.
翻訳日:2023-11-07 20:48:04 公開日:2023-11-06
# 多クラスラベルクエリを用いた意味セグメンテーションのためのアクティブラーニング

Active Learning for Semantic Segmentation with Multi-class Label Query ( http://arxiv.org/abs/2309.09319v2 )

ライセンス: Link先を確認
Sehyun Hwang, Sohyun Lee, Hoyoung Kim, Minhyeon Oh, Jungseul Ok, Suha Kwak(参考訳) 本稿ではセマンティックセグメンテーションのための新しいアクティブラーニング手法を提案する。 私たちのメソッドのコアは、新しいアノテーションクエリ設計にあります。 情報的局所画像領域(スーパーピクセルなど)をサンプリングし、それぞれの領域に対して、その領域に存在する全てのクラスを示すマルチホットベクトルに対してオラクルを要求する。 このマルチクラスラベリング戦略は、セグメンテーション、ポリゴン、さらにはクリックあたりのアノテーション時間という観点で支配的なクラスラベリングといった既存のものよりもはるかに効率的である。 しかし、個々のピクセルに部分ラベル(すなわち、候補クラスの集合)を割り当てると、トレーニングにおけるクラスあいまいさの問題が発生する。 そこで本稿では,部分ラベルを2段階に分けながらセマンティックセグメンテーションを学習するアルゴリズムを提案する。 第1段階では、部分ラベル学習と複数インスタンス学習によって動機付けられた2つの新しい損失関数を通じて、部分ラベルと直接セグメントモデルを訓練する。 第2段階では、モデルの教師付き学習に使用されるピクセル単位の擬似ラベルを生成して、部分ラベルの曖昧さを解消する。 マルチクラスラベリングに特化した新たな取得機能を備えており,アノテーションコストの削減を図りつつ,Cityscapes や PASCAL VOC 2012 での先行研究よりも優れていた。 私たちのコードと結果はhttps://github.com/sehyun03/mulactsegで入手できます。

This paper proposes a new active learning method for semantic segmentation. The core of our method lies in a new annotation query design. It samples informative local image regions (e.g., superpixels), and for each of such regions, asks an oracle for a multi-hot vector indicating all classes existing in the region. This multi-class labeling strategy is substantially more efficient than existing ones like segmentation, polygon, and even dominant class labeling in terms of annotation time per click. However, it introduces the class ambiguity issue in training as it assigns partial labels (i.e., a set of candidate classes) to individual pixels. We thus propose a new algorithm for learning semantic segmentation while disambiguating the partial labels in two stages. In the first stage, it trains a segmentation model directly with the partial labels through two new loss functions motivated by partial label learning and multiple instance learning. In the second stage, it disambiguates the partial labels by generating pixel-wise pseudo labels, which are used for supervised learning of the model. Equipped with a new acquisition function dedicated to the multi-class labeling, our method outperforms previous work on Cityscapes and PASCAL VOC 2012 while spending less annotation cost. Our code and results are available at https://github.com/sehyun03/MulActSeg.
翻訳日:2023-11-07 20:47:26 公開日:2023-11-06
# 自動運転におけるV2X協調認識の最近の進歩と課題

V2X Cooperative Perception for Autonomous Driving: Recent Advances and Challenges ( http://arxiv.org/abs/2310.03525v2 )

ライセンス: Link先を確認
Tao Huang, Jianan Liu, Xi Zhou, Dinh C. Nguyen, Mostafa Rahimi Azghadi, Yuxuan Xia, Qing-Long Han, Sumei Sun(参考訳) 正確な認識は、現代の交通システムにおける自律運転の推進と安全上の課題への対処に不可欠である。 物体認識のためのコンピュータビジョンの進歩にもかかわらず、現在の認識手法は複雑な現実世界の交通環境において困難に直面している。 物理的閉塞や限定的なセンサー視野といった課題は、個々の車両システムに持続する。 V2X技術を用いた協調認識(CP)は、これらの障害を克服し、自動化システムを強化するソリューションとして登場した。 CPの基本アーキテクチャと重要なコンポーネントを探求する研究もあるが、最新のイノベーション、特にV2X通信技術の文脈において、包括的な要約は残っていない。 このギャップに対処するため,本論文では,V2X通信技術の発展など,初期の調査から最近の発展まで,CP技術の進化を包括的に概観する。 さらに、V2XベースのCPワークフローを記述し、CPシステムコンポーネントの構造的理解を支援するために、同時代の汎用フレームワークも提案されている。 さらに本論文では,v2xベースのcp方法論を,その課題に基づいて分類する。 この分類学において、既存のデータセットとシミュレータを評価する広範な文献レビューが行われる。 最後に、自律運転におけるCPのオープン課題と今後の方向性について、知覚とV2X通信の進展を両立させることにより論じる。

Accurate perception is essential for advancing autonomous driving and addressing safety challenges in modern transportation systems. Despite significant advancements in computer vision for object recognition, current perception methods still face difficulties in complex real-world traffic environments. Challenges such as physical occlusion and limited sensor field of view persist for individual vehicle systems. Cooperative Perception (CP) with Vehicle-to-Everything (V2X) technologies has emerged as a solution to overcome these obstacles and enhance driving automation systems. While some research has explored CP's fundamental architecture and critical components, there remains a lack of comprehensive summaries of the latest innovations, particularly in the context of V2X communication technologies. To address this gap, this paper provides a comprehensive overview of the evolution of CP technologies, spanning from early explorations to recent developments, including advancements in V2X communication technologies. Additionally, a contemporary generic framework is also proposed to illustrate the V2X-based CP workflow, aiding in the structured understanding of CP system components. Furthermore, this paper categorizes prevailing V2X-based CP methodologies based on the critical issues they address. An extensive literature review is conducted within this taxonomy, evaluating existing datasets and simulators. Finally, open challenges and future directions in CP for autonomous driving are discussed by considering both perception and V2X communication advancements.
翻訳日:2023-11-07 20:39:59 公開日:2023-11-06
# 結合力学系における相互作用ネットワークの機械学習

Machine learning the interaction network in coupled dynamical systems ( http://arxiv.org/abs/2310.03378v2 )

ライセンス: Link先を確認
Pawan R. Bhure, M. S. Santhanam(参考訳) 相互作用する力学系の研究は、科学と工学の様々な分野に研究の関心を惹きつけ続けている。 相互作用する粒子の集合において、相互作用ネットワークは、様々なコンポーネントが相互にどのように相互作用するかに関する情報を含んでいる。 エージェントのダイナミクスからインタラクションネットワークに関する情報を推測することは、長年の関心の問題だ。 本研究では,自己教師付きニューラルネットワークモデルを用いて,インタラクションネットワークの回復と個々のエージェントのダイナミクスの予測という2つの結果を達成する。 これらの情報は、観測された軌跡データからのみ推測される。 この研究は、フークの法則相互作用と結合相(倉本)振動子を介する結合粒子の2つの力学系へのニューラルリレーショナル推論モデルの応用を示す。

The study of interacting dynamical systems continues to attract research interest in various fields of science and engineering. In a collection of interacting particles, the interaction network contains information about how various components interact with one another. Inferring the information about the interaction network from the dynamics of agents is a problem of long-standing interest. In this work, we employ a self-supervised neural network model to achieve two outcomes: to recover the interaction network and to predict the dynamics of individual agents. Both these information are inferred solely from the observed trajectory data. This work presents an application of the Neural Relational Inference model to two dynamical systems: coupled particles mediated by Hooke's law interaction and coupled phase (Kuramoto) oscillators.
翻訳日:2023-11-07 20:39:41 公開日:2023-11-06
# DiffAR:生音声波形生成のための拡散自己回帰モデル

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation ( http://arxiv.org/abs/2310.01381v2 )

ライセンス: Link先を確認
Roi Benita, Michael Elad, Joseph Keshet(参考訳) 拡散モデルは近年,高品質な音声生成に関係があることが示されている。 ほとんどの研究はスペクトログラムの生成に焦点が当てられており、それ故に、スペクトログラムを波形(ボコーダ)に変換するためのその後のモデルが必要である。 本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。 提案するモデルは自己回帰的であり、重複するフレームを順次生成し、各フレームが予め生成されたフレームの一部で条件付けされる。 これにより,高忠実度合成と時間的コヒーレンスを保ちながら,音声の持続時間の無制限化を効果的に行うことができる。 提案手法では,音素,振幅,ピッチ値の入力列によって音声を駆動できる非条件・条件付き音声生成モデルを実装した。 波形を直接扱うことには経験的な利点がある。 具体的には、発声フライのような局所的な音波の振る舞いを作成できるので、全体の波形がより自然に聞こえる。 さらに,提案した拡散モデルは確率的であり決定的ではないため,各推論はわずかに異なる波形変化を発生させ,有効な実現が可能となる。 実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して高品質な音声を生成することが示された。

Diffusion models have recently been shown to be relevant for high-quality speech generation. Most work has been focused on generating spectrograms, and as such, they further require a subsequent model to convert the spectrogram to a waveform (i.e., a vocoder). This work proposes a diffusion probabilistic end-to-end model for generating a raw speech waveform. The proposed model is autoregressive, generating overlapping frames sequentially, where each frame is conditioned on a portion of the previously generated one. Hence, our model can effectively synthesize an unlimited speech duration while preserving high-fidelity synthesis and temporal coherence. We implemented the proposed model for unconditional and conditional speech generation, where the latter can be driven by an input sequence of phonemes, amplitudes, and pitch values. Working on the waveform directly has some empirical advantages. Specifically, it allows the creation of local acoustic behaviors, like vocal fry, which makes the overall waveform sounds more natural. Furthermore, the proposed diffusion model is stochastic and not deterministic; therefore, each inference generates a slightly different waveform variation, enabling abundance of valid realizations. Experiments show that the proposed model generates speech with superior quality compared with other state-of-the-art neural speech generation systems.
翻訳日:2023-11-07 20:37:28 公開日:2023-11-06
# グラフ畳み込みネットワークを用いたロバスト心筋セグメンテーションに向けて

Towards Robust Cardiac Segmentation using Graph Convolutional Networks ( http://arxiv.org/abs/2310.01210v4 )

ライセンス: Link先を確認
Gilles Van De Vyver, Sarina Thomas, Guy Ben-Yosef, Sindre Hellum Olaisen, H\r{a}vard Dalen, Lasse L{\o}vstakken, and Erik Smistad(参考訳) 完全自動心筋分画は、心エコー検査から臨床測定を抽出する高速かつ再現可能な方法である。 u-netアーキテクチャは医学的なセグメンテーションのための最先端のディープラーニングアーキテクチャであり、平均的なエラーで心臓構造をリアルタイムでセグメンテーションすることができる。 しかし、このアーキテクチャは、しばしば解剖学的に正しくない大きな外れ値を生成する。 この研究はグラフ畳み込みニューラルネットワークの概念を用いて、各ピクセルをラベル付けするのではなく、興味のある構造の輪郭点を予測する。 本研究では,心臓解剖学に基づく2つの畳み込み輪を用いたグラフアーキテクチャを提案する。 さらに、この研究は、グラフ畳み込みアーキテクチャに関するアブレーション研究と、臨床HUNT4データセットに関する臨床測定の評価に寄与する。 最後に,U-Netとグラフネットワークのモデル間合意を,入力品質とセグメンテーション品質の両方の予測器として用いることを提案する。 この予測器は,分布外および不適な入力画像をリアルタイムに検出できることを示す。 ソースコード: https://github.com/gillesvntnu/gcn_multistructure

Fully automatic cardiac segmentation can be a fast and reproducible method to extract clinical measurements from an echocardiography examination. The U-Net architecture is the current state-of-the-art deep learning architecture for medical segmentation and can segment cardiac structures in real-time with average errors comparable to inter-observer variability. However, this architecture still generates large outliers that are often anatomically incorrect. This work uses the concept of graph convolutional neural networks that predict the contour points of the structures of interest instead of labeling each pixel. We propose a graph architecture that uses two convolutional rings based on cardiac anatomy and show that this eliminates anatomical incorrect multi-structure segmentations on the publicly available CAMUS dataset. Additionally, this work contributes with an ablation study on the graph convolutional architecture and an evaluation of clinical measurements on the clinical HUNT4 dataset. Finally, we propose to use the inter-model agreement of the U-Net and the graph network as a predictor of both the input and segmentation quality. We show this predictor can detect out-of-distribution and unsuitable input images in real-time. Source code is available online: https://github.com/gillesvntnu/GCN_multistructure
翻訳日:2023-11-07 20:36:43 公開日:2023-11-06
# hoh: 大きなオブジェクト数を持つマーカーレスマルチモーダル人間-オブジェクト-ヒューマンハンドオーバデータセット

HOH: Markerless Multimodal Human-Object-Human Handover Dataset with Large Object Count ( http://arxiv.org/abs/2310.00723v2 )

ライセンス: Link先を確認
Noah Wiederhold, Ava Megyeri, DiMaggio Paris, Sean Banerjee, Natasha Kholgade Banerjee(参考訳) 本研究では,136個のオブジェクトからなる大規模オブジェクトカウントデータセットであるhoh(human-object-human)ハンドオーバデータセットを提案し,ハンドオーバ研究,ヒューマンロボットハンドオーバ実装,ハンドオーバパラメータ推定におけるai(artificial intelligence)のデータ駆動研究を,人インタラクションの2dおよび3dデータから加速する。 HOHには、多視点RGBと深度データ、スケルトン、融合点雲、グリップタイプとハンドネスラベル、オブジェクト、ディペンダーハンド、レシーバハンド2Dと3Dセグメンテーション、ディペンダーとレシーバの快適性評価、および136個のオブジェクトと20個のディペンダー-レシーバペアからなる2,720個のハンドオーバインタラクションのためのペアリングオブジェクトメタデータとアライメント3Dモデルが含まれる。 また,hohを用いて学習したニューラルネットワークを用いて,把握,方向,軌道予測を行う実験結果を示す。 唯一の完全なマーカーレスハンドオーバキャプチャデータセットとして、HOHは自然な人間と人間のハンドオーバインタラクションを表し、身体追跡に特定の適合を必要とするマーカー付きデータセットによる課題を克服し、高解像度の手追跡を欠いている。 これまでのところ、hohはオブジェクト数、参加者数、役割反転を持つペア数、総相互作用において最大のハンドオーバデータセットである。

We present the HOH (Human-Object-Human) Handover Dataset, a large object count dataset with 136 objects, to accelerate data-driven research on handover studies, human-robot handover implementation, and artificial intelligence (AI) on handover parameter estimation from 2D and 3D data of person interactions. HOH contains multi-view RGB and depth data, skeletons, fused point clouds, grasp type and handedness labels, object, giver hand, and receiver hand 2D and 3D segmentations, giver and receiver comfort ratings, and paired object metadata and aligned 3D models for 2,720 handover interactions spanning 136 objects and 20 giver-receiver pairs-40 with role-reversal-organized from 40 participants. We also show experimental results of neural networks trained using HOH to perform grasp, orientation, and trajectory prediction. As the only fully markerless handover capture dataset, HOH represents natural human-human handover interactions, overcoming challenges with markered datasets that require specific suiting for body tracking, and lack high-resolution hand tracking. To date, HOH is the largest handover dataset in number of objects, participants, pairs with role reversal accounted for, and total interactions captured.
翻訳日:2023-11-07 20:35:57 公開日:2023-11-06
# データフィルタリングネットワーク

Data Filtering Networks ( http://arxiv.org/abs/2309.17425v3 )

ライセンス: Link先を確認
Alex Fang, Albin Madappally Jose, Amit Jain, Ludwig Schmidt, Alexander Toshev, Vaishaal Shankar(参考訳) 大規模なトレーニングセットは機械学習の基盤となり、言語モデリングとマルチモーダル学習の最近の進歩の基礎となっている。 事前トレーニングのためのデータキュレーションは、しばしばアドホックであるが、一般的なパラダイムの一つは、まずWebから大量のデータを収集し、この候補プールを様々なヒューリスティックを通して実際のトレーニングセットにフィルタリングすることである。 本研究では,データフィルタリングネットワーク(dfn)を学習する問題を,大規模な未計算データセットをフィルタリングする第2段階として検討する。 例えば、ImageNetでよく機能するモデルでは、少量の高品質なデータに基づいてトレーニングされるImageNetの精度が低いモデルよりも、トレーニングセットが悪くなります。 この知見に基づいて,最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。 さまざまなタスクにおいて、トレーニングされたvit-hは、imagenet上で84.4%のゼロショット転送精度を達成し、laion-2b、datacomp-1b、openaiのwitなど、他のデータセットでトレーニングされたパフォーマンスよりも優れています。 データセット設計のさらなる研究を促進するため、新たに20億のサンプルデータセットDFN-2Bをリリースし、公開データのみを使用して、高速なデータフィルタリングネットワークをゼロからトレーニング可能であることを示す。

Large training sets have become a cornerstone of machine learning and are the foundation for recent advances in language modeling and multimodal learning. While data curation for pre-training is often still ad-hoc, one common paradigm is to first collect a massive pool of data from the Web and then filter this candidate pool down to an actual training set via various heuristics. In this work, we study the problem of learning a data filtering network (DFN) for this second step of filtering a large uncurated dataset. Our key finding is that the quality of a network for filtering is distinct from its performance on downstream tasks: for instance, a model that performs well on ImageNet can yield worse training sets than a model with low ImageNet accuracy that is trained on a small amount of high-quality data. Based on our insights, we construct new data filtering networks that induce state-of-the-art image-text datasets. Specifically, our best performing dataset DFN-5B enables us to train state-of-the-art CLIP models for their compute budgets: among other improvements on a variety of tasks, a ViT-H trained on our dataset achieves 84.4% zero-shot transfer accuracy on ImageNet, out-performing models trained on other datasets such as LAION-2B, DataComp-1B, or OpenAI's WIT. In order to facilitate further research in dataset design, we also release a new 2 billion example dataset DFN-2B and show that high performance data filtering networks can be trained from scratch using only publicly available data.
翻訳日:2023-11-07 20:35:22 公開日:2023-11-06
# 生体医用3次元メッシュセグメンテーションにおけるミラーウェイト対称性の利点

Benefits of mirror weight symmetry for 3D mesh segmentation in biomedical applications ( http://arxiv.org/abs/2309.17076v2 )

ライセンス: Link先を確認
Vladislav Dordiuk, Maksim Dzhigil, Konstantin Ushenin(参考訳) 3Dメッシュセグメンテーションは多くのバイオメディカル応用において重要な課題である。 人体は左右対称であり、臓器の位置も様々である。 これにより,生体医学的セグメンテーションを行う畳み込みニューラルネットワークにおいて,回転および反転不変層の正の効果を期待できる。 本研究では,3次元メッシュセグメンテーションを行うニューラルネットワークにおける重み対称性の影響を示す。 病理血管構造(aneurysms)と従来の解剖学的構造(心室の心内膜と心外膜)に対する3次元メッシュセグメンテーションの問題を分析した。 局所幾何学的特徴は符号付き距離関数からのサンプリングとして符号化され、ニューラルネットワークは各メッシュノードの予測を行う。 ニューラルネットワークが3層以上の畳み込み層を持つ場合、重みの対称性は1〜3%向上し、学習可能なパラメータの数を8倍に減らすことができることを示した。 これは非常に小さなトレーニングセットでも有効です。

3D mesh segmentation is an important task with many biomedical applications. The human body has bilateral symmetry and some variations in organ positions. It allows us to expect a positive effect of rotation and inversion invariant layers in convolutional neural networks that perform biomedical segmentations. In this study, we show the impact of weight symmetry in neural networks that perform 3D mesh segmentation. We analyze the problem of 3D mesh segmentation for pathological vessel structures (aneurysms) and conventional anatomical structures (endocardium and epicardium of ventricles). Local geometrical features are encoded as sampling from the signed distance function, and the neural network performs prediction for each mesh node. We show that weight symmetry gains from 1 to 3% of additional accuracy and allows decreasing the number of trainable parameters up to 8 times without suffering the performance loss if neural networks have at least three convolutional layers. This also works for very small training sets.
翻訳日:2023-11-07 20:34:53 公開日:2023-11-06
# 視覚ナビゲーションのためのマルチモーダル大言語モデル

Multimodal Large Language Model for Visual Navigation ( http://arxiv.org/abs/2310.08669v2 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Vansh Dhar, Jialu Li, Bowen Zhang, Jian Zhang(参考訳) 大規模言語モデルを用いた視覚ナビゲーションの実現に向けた最近の取り組みは、主に複雑なプロンプトシステムの開発に焦点を当てている。 これらのシステムは、指示、観察、歴史を巨大なテキストプロンプトに組み込んで、事前訓練された大きな言語モデルと組み合わせて視覚的なナビゲーションを容易にする。 対照的に,我々のアプローチは,大規模なプロンプトエンジニアリングを必要とせず,ビジュアルナビゲーションのための大規模言語モデルを微調整することを目指している。 我々の設計には、単純なテキストプロンプト、現在の観測、過去の観測から情報を入力として収集する履歴収集モデルが含まれる。 出力には,エージェントがナビゲーション中に行う可能性のある動作の確率分布が提供される。 habitat-matterport 3d dataset (hm3d) からの人間によるデモンストレーションと衝突信号を用いてモデルをトレーニングした。 実験の結果, 本手法は最先端の動作クローニング法を上回っており, 衝突率を効果的に低減できることがわかった。

Recent efforts to enable visual navigation using large language models have mainly focused on developing complex prompt systems. These systems incorporate instructions, observations, and history into massive text prompts, which are then combined with pre-trained large language models to facilitate visual navigation. In contrast, our approach aims to fine-tune large language models for visual navigation without extensive prompt engineering. Our design involves a simple text prompt, current observations, and a history collector model that gathers information from previous observations as input. For output, our design provides a probability distribution of possible actions that the agent can take during navigation. We train our model using human demonstrations and collision signals from the Habitat-Matterport 3D Dataset (HM3D). Experimental results demonstrate that our method outperforms state-of-the-art behavior cloning methods and effectively reduces collision rates.
翻訳日:2023-11-07 20:26:50 公開日:2023-11-06
# ゆるい唇シンク船:人間フィードバックからの強化学習における長さバイアスの軽減

Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2310.05199v4 )

ライセンス: Link先を確認
Wei Shen, Rui Zheng, Wenyu Zhan, Jun Zhao, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 人間のフィードバックからの強化学習は重要な橋渡しとなり、大きな言語モデルと人間と社会の価値観を結びつける。 このアライメントには、報酬モデルを学ぶために膨大な人間のフィードバックが必要であり、その後言語モデルの微調整に使用される。 しかし、報酬モデルが意図した目的を回避できるショートカットを見つけることがしばしばあり、人間がより長い反応を好むと誤解を招く。 長さバイアスの出現は、しばしばより長い出力を好むようモデルに誘導するが、これらの出力内で有用な情報の増加には相当しない。 本稿では,報酬モデルとシーケンス長の影響を分離するためにProduct-of-Experts(PoE)技術を適用した革新的なソリューションを提案する。 我々のフレームワークでは、主要な専門家は人間の意図を理解することに集中し、偏りのある専門家は長さバイアスの識別と捕捉を目標としています。 偏見の学習をさらに促進するために,偏見に着目した専門家に摂動を導入し,意味情報の流路を乱す。 提案手法の有効性を実験的に検証し,シーケンス長に関わらず,言語モデルの性能が向上したことを示す。

Reinforcement learning from human feedback serves as a crucial bridge, aligning large language models with human and societal values. This alignment requires a vast corpus of human feedback to learn a reward model, which is subsequently used to finetune language models. However, we have identified that the reward model often finds shortcuts to bypass its intended objectives, misleadingly assuming that humans prefer longer responses. The emergence of length bias often induces the model to favor longer outputs, yet it doesn't equate to an increase in helpful information within these outputs. In this paper, we propose an innovative solution, applying the Product-of-Experts (PoE) technique to separate reward modeling from the influence of sequence length. In our framework, the main expert concentrates on understanding human intents, while the biased expert targets the identification and capture of length bias. To further enhance the learning of bias, we introduce perturbations into the bias-focused expert, disrupting the flow of semantic information. Experimental results validate the effectiveness of our approach, indicating that language model performance is improved, irrespective of sequence length.
翻訳日:2023-11-07 20:24:12 公開日:2023-11-06
# 強化リフォーム生成を伴う対話型質問応答モデルのロバストトレーニング

Robust Training for Conversational Question Answering Models with Reinforced Reformulation Generation ( http://arxiv.org/abs/2310.13505v2 )

ライセンス: Link先を確認
Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 知識グラフ(KG)上の会話質問応答モデル(ConvQA)は通常、金QAペアのベンチマークでトレーニングされ、テストされる。 これは、トレーニングが各データセットで見られる表面的なフォームに限られており、評価は少数の持たない質問に基づいて行われることを意味する。 提案するフレームワークであるREIGNを通じて,この制限された学習設定を修復する。 まず, 学習課題の再構成を体系的に生成し, モデルの頑健性を高め, 変形を表面化する。 このような質問の不完全性を考えると、これは特に難しい問題である。 第2に、深い強化学習を用いて、回答の質を向上させるための改良のみを施すことで、ConvQAモデルをより高いパフォーマンスに導く。 第3に、主要なモデルコンポーネントをひとつのベンチマークでトレーニングし、それをゼロショットで他のベンチマークに適用することの可能性を実証する。 最後に、訓練されたモデルに対する頑健さの厳密な評価のために、ベンチマークテストセットにGPT(サイズが20倍に増加する)を促すことによって生成される多種多様な改革を多数使用・リリースする。 以上の結果から,コンブQAモデルでは,ゴールドQAペアのみの標準トレーニングよりも有意に優れていた。

Models for conversational question answering (ConvQA) over knowledge graphs (KGs) are usually trained and tested on benchmarks of gold QA pairs. This implies that training is limited to surface forms seen in the respective datasets, and evaluation is on a small set of held-out questions. Through our proposed framework REIGN, we take several steps to remedy this restricted learning setup. First, we systematically generate reformulations of training questions to increase robustness of models to surface form variations. This is a particularly challenging problem, given the incomplete nature of such questions. Second, we guide ConvQA models towards higher performance by feeding it only those reformulations that help improve their answering quality, using deep reinforcement learning. Third, we demonstrate the viability of training major model components on one benchmark and applying them zero-shot to another. Finally, for a rigorous evaluation of robustness for trained models, we use and release large numbers of diverse reformulations generated by prompting GPT for benchmark test sets (resulting in 20x increase in sizes). Our findings show that ConvQA models with robust training via reformulations, significantly outperform those with standard training from gold QA pairs only.
翻訳日:2023-11-07 20:14:58 公開日:2023-11-06
# SalUn: 画像分類と生成の両方において、グラディエントベースのウェイトサリエンシによる機械学習の強化

SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation ( http://arxiv.org/abs/2310.12508v2 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Yihua Zhang, Dennis Wei, Eric Wong, Sijia Liu(参考訳) データレギュレーションの進化に伴い、マシンアンラーニング(MU)は、今日のAIモデルの信頼性と安全性を促進する重要なツールとなっている。 しかし、データおよび/またはウェイトパースペクティブに焦点を当てた既存のMUメソッドは、未学習の精度、安定性、ドメイン間の適用性の制限に悩まされることが多い。 これらの課題に対処するために、モデル説明における入力塩分と並行して、muにおける「重量塩分」の概念を導入する。 この革新はMUの注意をモデル全体よりも特定のモデルウェイトに向け、効率と効率を改善します。 saliency unlearning (salun)と呼ぶ結果、パフォーマンスのギャップを"exact"アンラーニング(忘れたデータセットを取り除いた後にゼロからリトレーニングする)で狭めます。 私たちの知る限り、SalUnは、画像分類と生成の両方において、データ、クラス、概念を忘れることの影響を効果的に消すのに十分な適応性を持つ最初の原則である。 例えば、SalUnは、CIFAR-10データセットの正確なアンラーニングに比べて0.2%の差で、高分散乱数データの忘れにおいて安定性の優位性をもたらす。 さらに、条件付き拡散モデルが有害な画像を生成するのを防ぐために、SalUnは100%近い未学習の精度を達成し、時代遅れの安定拡散やForget-Me-Notのような最先端のベースラインを上回っている。

With evolving data regulations, machine unlearning (MU) has become an important tool for fostering trust and safety in today's AI models. However, existing MU methods focusing on data and/or weight perspectives often grapple with limitations in unlearning accuracy, stability, and cross-domain applicability. To address these challenges, we introduce the concept of 'weight saliency' in MU, drawing parallels with input saliency in model explanation. This innovation directs MU's attention toward specific model weights rather than the entire model, improving effectiveness and efficiency. The resultant method that we call saliency unlearning (SalUn) narrows the performance gap with 'exact' unlearning (model retraining from scratch after removing the forgetting dataset). To the best of our knowledge, SalUn is the first principled MU approach adaptable enough to effectively erase the influence of forgetting data, classes, or concepts in both image classification and generation. For example, SalUn yields a stability advantage in high-variance random data forgetting, e.g., with a 0.2% gap compared to exact unlearning on the CIFAR-10 dataset. Moreover, in preventing conditional diffusion models from generating harmful images, SalUn achieves nearly 100% unlearning accuracy, outperforming current state-of-the-art baselines like Erased Stable Diffusion and Forget-Me-Not.
翻訳日:2023-11-07 20:14:21 公開日:2023-11-06
# GPT-4Vにおける視界外接地によるマークのセット

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V ( http://arxiv.org/abs/2310.11441v2 )

ライセンス: Link先を確認
Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao(参考訳) GPT-4Vのような大規模マルチモーダルモデル(LMM)の視覚的グラウンドリング能力を解き放つための新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。 図1(右)に示すように、私たちはSEEM/SAMのような市販のインタラクティブセグメンテーションモデルを使用して、画像を異なるレベルの粒度の領域に分割し、これらの領域を、アルファ数値、マスク、ボックスなどの一連のマークでオーバーレイします。 マーク付きイメージを入力として、gpt-4vは視覚的な接地を必要とする質問に答えることができる。 我々は,SoMの広範囲な視覚およびマルチモーダルタスクにおける有効性を検証するための総合的な実証的研究を行った。 例えば, ゼロショット設定における SoM を用いた GPT-4V は, RefCOCOg 上での参照表現の理解とセグメンテーションモデルに優れることを示した。 SoMプロンプトのコードは、https://github.com/microsoft/SoM.comで公開されている。

We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SEEM/SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM in zero-shot setting outperforms the state-of-the-art fully-finetuned referring expression comprehension and segmentation model on RefCOCOg. Code for SoM prompting is made public at: https://github.com/microsoft/SoM.
翻訳日:2023-11-07 20:13:28 公開日:2023-11-06
# 異方性熱機関の作業変動

Work Fluctuations in Ergotropic Heat Engines ( http://arxiv.org/abs/2310.10344v2 )

ライセンス: Link先を確認
Giovanni Chesi, Chiara Macchiavello and Massimiliano Federico Sacchi(参考訳) 2ストロークの量子オットーエンジン、すなわち2ストロークの量子オットーエンジンにおいて、熱ストロークは2つの異なる温度で2つの正準平衡の量子系からエルゴトロピー(循環ユニタリ進化による最大作業量)を抽出するように設計され、熱ストロークはそれぞれの貯水池に熱を戻す。 完全作業統計を導出することにより、エネルギー準位が2つの異なる周波数で等しく間隔づけられた2つのキュートリットについて、徹底的な研究を行う。 温度と周波数の値を変えることで、スワップ演算子$u_1$、アイドルスワップ$u_2$(クトリッツの1つが有効な量子ビットと見なされる)、エネルギー固有状態の非自明な置換$u_3$という3種類の最適ユニタリストロークしか見出されない。 U_1$と$U_2$はHermitianであるのに対して、$U_3$はそうではない。 この点が熱力学的不確実性関係(TURs)に影響を及ぼし、エントロピー生成の観点で抽出された作業の信号対雑音比を束縛する。 実際、強い詳細ゆらぎ定理から導かれる全ての TUR は変換 $U_3$ によって破られる。

We study the work fluctuations in ergotropic heat engines, namely two-strokes quantum Otto engines where the work stroke is designed to extract the ergotropy (the maximum amount of work by a cyclic unitary evolution) from a couple of quantum systems at canonical equilibrium at two different temperatures, whereas the heat stroke thermalizes back the systems to their respective reservoirs. We provide an exhaustive study for the case of two qutrits whose energy levels are equally spaced at two different frequencies by deriving the complete work statistics. By varying the values of temperatures and frequencies, only three kinds of optimal unitary strokes are found: the swap operator $U_1$, an idle swap $U_2$ (where one of the qutrits is regarded as an effective qubit), and a non trivial permutation of energy eigenstates $U_3$, which indeed corresponds to the composition of the two previous unitaries, namely $U_3=U_2 U_1$. While $U_1$ and $U_2$ are Hermitian (and hence involutions), $U_3$ is not. This point has an impact on the thermodynamic uncertainty relations (TURs) which bound the signal-to-noise ratio of the extracted work in terms of the entropy production. In fact, we show that all TURs derived from a strong detailed fluctuation theorem are violated by the transformation $U_3$.
翻訳日:2023-11-07 20:12:31 公開日:2023-11-06
# 合成データセットを用いた名前付きエンティティ認識のためのコンテキストランク付け学習

Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset ( http://arxiv.org/abs/2310.10118v2 )

ライセンス: Link先を確認
Arthur Amalvy (LIA), Vincent Labatut (LIA), Richard Dufour (LS2N - \'equipe TALN )(参考訳) 最近のトレーニング済みトランスフォーマーベースのモデルでは、名前付きエンティティ認識(NER)を高い精度で行うことができるが、小説全体のような長い文書に適用した場合、その限界範囲は問題である。 この問題を緩和するために、ソリューションはドキュメントレベルで関連するコンテキストを取得することです。 残念ながら、そのようなタスクに対する監督の欠如は、教師なしのアプローチに決着をつける必要があることを意味する。 そこで我々は,命令付き大規模言語モデル(LLM)であるAlpacaを用いて,文脈検索学習データセットを生成することを提案する。 このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。 本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。

While recent pre-trained transformer-based models can perform named entity recognition (NER) with great accuracy, their limited range remains an issue when applied to long documents such as whole novels. To alleviate this issue, a solution is to retrieve relevant context at the document level. Unfortunately, the lack of supervision for such a task means one has to settle for unsupervised approaches. Instead, we propose to generate a synthetic context retrieval training dataset using Alpaca, an instructiontuned large language model (LLM). Using this dataset, we train a neural context retriever based on a BERT model that is able to find relevant context for NER. We show that our method outperforms several retrieval baselines for the NER task on an English literary dataset composed of the first chapter of 40 books.
翻訳日:2023-11-07 20:11:43 公開日:2023-11-06
# クロスドメイン頭部再現のための表現領域翻訳ネットワーク

Expression Domain Translation Network for Cross-domain Head Reenactment ( http://arxiv.org/abs/2310.10073v2 )

ライセンス: Link先を確認
Taewoong Kang, Jeongsik Oh, Jaeseong Lee, Sunghyun Park, Jaegul Choo(参考訳) 頭部再現の著しい進歩にもかかわらず、既存の手法は、マンガキャラクタを含むヒト以外の領域に人間の動きを伝達することを目的としたクロスドメイン頭部再現の課題に直面している。 大きな目のような異なる外観のため、ドメイン外の画像から動きを抽出することは依然として困難である。 近年,AnimeCelebと呼ばれる大規模アニメデータセットと,アニメーションドメインへの変換のための最適化に基づくマッピング機能を含む,クロスドメインの頭部再現モデルが導入されている。 しかし,表現のサブセットに依存する写像関数では,様々な表現のマッピングに制限が課されることがわかった。 この課題を解決するために,人間表現をアニメ表現に変換する新しい表現ドメイン翻訳ネットワークを提案する。 具体的には,表現領域翻訳ネットワークの入力と出力の間の表現の幾何的整合性を維持するために,人間とアニメの3次元メッシュにおける頂点間の距離を減少させる3次元幾何認識損失関数を用いる。 これにより、2つのクロス表現ドメインに関して、忠実度と1対1のマッピングを強制する。 本手法は, 質的および定量的解析において既存の手法を上回り, クロスドメインヘッド再現の分野において有意な進歩を示した。

Despite the remarkable advancements in head reenactment, the existing methods face challenges in cross-domain head reenactment, which aims to transfer human motions to domains outside the human, including cartoon characters. It is still difficult to extract motion from out-of-domain images due to the distinct appearances, such as large eyes. Recently, previous work introduced a large-scale anime dataset called AnimeCeleb and a cross-domain head reenactment model, including an optimization-based mapping function to translate the human domain's expressions to the anime domain. However, we found that the mapping function, which relies on a subset of expressions, imposes limitations on the mapping of various expressions. To solve this challenge, we introduce a novel expression domain translation network that transforms human expressions into anime expressions. Specifically, to maintain the geometric consistency of expressions between the input and output of the expression domain translation network, we employ a 3D geometric-aware loss function that reduces the distances between the vertices in the 3D mesh of the human and anime. By doing so, it forces high-fidelity and one-to-one mapping with respect to two cross-expression domains. Our method outperforms existing methods in both qualitative and quantitative analysis, marking a significant advancement in the field of cross-domain head reenactment.
翻訳日:2023-11-07 20:11:28 公開日:2023-11-06
# 技術指標を用いた株価予測のための特徴選択と回帰手法

Feature selection and regression methods for stock price prediction using technical indicators ( http://arxiv.org/abs/2310.09903v4 )

ライセンス: Link先を確認
Fatemeh Moodi, Amir Jahangard-Rafsanjani, Sajad Zarifzadeh(参考訳) 技術的指標を含む多くの要因が株価予測に与える影響から、最良の指標を選ぶためには特徴の選択が重要である。 本研究は, 株価の急落を解消するために, 技術指標と機能選択, 回帰手法を用いている。 本研究の目的は、最小限の誤差で株式市場価格を予測することである。 提案手法により,3日間の時間ウィンドウで作成したデータを,回帰法に適した入力に変換する。 本稿では,apple社の過去13年間のデータから,レグレッシャ10台と技術指標123台について検討した。 その結果,5つの誤差に基づく評価基準が得られた。 提案手法の結果から, MLPSF は MLP よりも56/47% 高い性能を示した。 また、SVRSFはSVRに比べて67/42%改善されている。 LRSFは、LRに比べて76.7%改善した。 RISF法はリッジ回帰の72.82%も改善した。 DTRSB法はDTRよりも24.23%改善した。 KNNSBはKNN回帰よりも15.52%改善した。 RFSBはRFよりも6%改善した。 GBRSFはGBRよりも7%向上した。 最後に、ADASFとADASBもADA回帰よりも4%改善した。 またリッジとリニアレグレスは株価予測の最良の結果を得た。 その結果、株価予測に最適な指標は、シュイーズ_pro、パーセンテージ価格発振器、サーモ、減衰、アーチャーオンバランスボリューム、ボルリンガーバンド、シュイーズ、一目指標である。 その結果,提案指標と回帰法を組み合わせた適切な組み合わせを用いることで,閉口価格の予測精度が向上した。

Due to the influence of many factors, including technical indicators on stock price prediction, feature selection is important to choose the best indicators. This study uses technical indicators and features selection and regression methods to solve the problem of closing the stock market price. The aim of this research is to predict the stock market price with the least error. By the proposed method, the data created by the 3-day time window were converted to the appropriate input for regression methods. In this paper, 10 regressor and 123 technical indicators have been examined on data of the last 13 years of Apple Company. The results have been investigated by 5 error-based evaluation criteria. Based on results of the proposed method, MLPSF has 56/47% better performance than MLP. Also, SVRSF has 67/42% improved compared to SVR. LRSF was 76.7 % improved compared to LR. The RISF method also improved 72.82 % of Ridge regression. The DTRSB method had 24.23 % improvement over DTR. KNNSB had 15.52 % improvement over KNN regression. RFSB had a 6 % improvement over RF. GBRSF also improved at 7% over GBR. Finally, ADASF and ADASB also had a 4% improvement over the ADA regression. Also, Ridge and LinearRegression had the best results for stock price prediction. Based on results, the best indicators to predict stock price are: the Squeeze_pro, Percentage Price Oscillator, Thermo, Decay, Archer On-Balance Volume, Bollinger Bands, Squeeze and Ichimoku indicator. According to the results, the use of suitable combination of suggested indicators along with regression methods has resulted in high accuracy in predicting the closing price.
翻訳日:2023-11-07 20:10:45 公開日:2023-11-06
# 自由空間量子通信のための高エンハンスアクティブビームワンダー補正

Highly-enhanced active beam-wander-correction for free-space quantum communications ( http://arxiv.org/abs/2310.17900v2 )

ライセンス: Link先を確認
Dohoon Lim, Dongkyu Kim, Kyungdeuk Park, Dong-Gil Im, and Yong Sup Ihn(参考訳) 自由空間量子通信への実用化において、アクティブビームカップリングと安定化技術の利用は、特にバックグラウンドノイズを軽減するために、限られた検出領域や単一モードファイバ(SMF)へのカップリングを扱う際に、顕著な利点をもたらす。 本研究では,特に初期光学的アライメントがミスアライメントされた場合において,ビームをsmfに効率的に結合・安定化するように調整した,高度に強化されたアクティブビーム・ワンダー補正技術を導入する。 この目的を達成するために,smf自動結合アルゴリズムと分離安定化手法を実装し,大気乱流効果によるビームの移動を効果的かつ確実に補正する。 レーザ光(絡み合った光子)の結合効率(衝突数)の時間的変動を定量的に測定することにより,提案手法の性能を徹底的に検証した。 その結果, 2.6kmの大気乱流効果が存在する場合でも, 平均値とカップリング効率の標準偏差ともに有意な改善が認められた。 レーザー源を利用する場合、結合効率は50%以上の顕著な平均値増加を示し、標準偏差は4.4倍に向上する。 絡み合った光子源については、14%の微細平均値増加と標準偏差の近似2倍の改善が観察された。 さらに,提案手法は,自由空間チャネルの大気効果によって損なわれた偏光エンタングル状態の忠実度を,音源から直接測定した忠実度に近いレベルに復元することに成功した。 自由空間の量子通信だけでなく,高速レーザー通信においても,空間光ファイバーカップリングシステムの設計に役立ちます。

In practical applications to free-space quantum communications, the utilization of active beam coupling and stabilization techniques offers notable advantages, particularly when dealing with limited detecting areas or coupling into single-mode fibers(SMFs) to mitigate background noise. In this work, we introduce highly-enhanced active beam-wander-correction technique, specifically tailored to efficiently couple and stabilize beams into SMFs, particularly in scenarios where initial optical alignment with the SMF is misaligned. To achieve this objective, we implement a SMF auto-coupling algorithm and a decoupled stabilization method, effectively and reliably correcting beam wander caused by atmospheric turbulence effects. The performance of the proposed technique is thoroughly validated through quantitative measurements of the temporal variation in coupling efficiency(coincidence counts) of a laser beam(entangled photons). The results show significant improvements in both mean values and standard deviations of the coupling efficiency, even in the presence of 2.6 km atmospheric turbulence effects. When utilizing a laser source, the coupling efficiency demonstrates a remarkable mean value increase of over 50 %, accompanied by a substantial 4.4-fold improvement in the standard deviation. For the entangled photon source, a fine mean value increase of 14 % and an approximate 2-fold improvement in the standard deviation are observed. Furthermore,the proposed technique successfully restores the fidelity of the polarization-entangled state, which has been compromised by atmospheric effects in the free-space channel, to a level close to the fidelity measured directly from the source. Our work will be helpful in designing spatial light-fiber coupling system not only for free-space quantum communications but also for high-speed laser communications.
翻訳日:2023-11-07 20:02:59 公開日:2023-11-06
# 欠陥スペクトル: リッチセマンティックスを用いた大規模欠陥データセットの粒度図

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics ( http://arxiv.org/abs/2310.17316v2 )

ライセンス: Link先を確認
Shuai Yang, Zhifei Chen, Pengguang Chen, Xi Fang, Shu Liu, Yingcong Chen(参考訳) 閉ループ製造システムでは欠陥検査が最重要である。 しかし、欠陥検査のための既存のデータセットは、実際的なアプリケーションに必要な精度とセマンティックな粒度を欠いていることが多い。 本稿では,幅広い産業的欠陥に対して,正確かつ意味的,かつ大規模にアノテーションを提供する総合的なベンチマークである欠陥スペクトラムを紹介する。 4つの主要な産業ベンチマークに基づいて、データセットは既存のアノテーションを洗練し、1つのイメージ内の複数の欠陥タイプを区別して、リッチなセマンティック詳細を導入します。 さらに,限られたデータセットを扱う場合でも,高品質で多様な欠陥画像を生成するように設計された2段階の拡散型生成器である defect-gen を導入する。 欠陥遺伝子によって生成された合成画像は欠陥検査モデルの有効性を著しく向上させる。 全体として、Defect Spectrumデータセットは、欠陥検査研究の可能性を実証し、高度なモデルをテストおよび精錬するための堅固なプラットフォームを提供する。

Defect inspection is paramount within the closed-loop manufacturing system. However, existing datasets for defect inspection often lack precision and semantic granularity required for practical applications. In this paper, we introduce the Defect Spectrum, a comprehensive benchmark that offers precise, semantic-abundant, and large-scale annotations for a wide range of industrial defects. Building on four key industrial benchmarks, our dataset refines existing annotations and introduces rich semantic details, distinguishing multiple defect types within a single image. Furthermore, we introduce Defect-Gen, a two-stage diffusion-based generator designed to create high-quality and diverse defective images, even when working with limited datasets. The synthetic images generated by Defect-Gen significantly enhance the efficacy of defect inspection models. Overall, The Defect Spectrum dataset demonstrates its potential in defect inspection research, offering a solid platform for testing and refining advanced models.
翻訳日:2023-11-07 20:02:11 公開日:2023-11-06
# 大規模言語モデルはビデオ質問応答の時間的・因果的推論である

Large Language Models are Temporal and Causal Reasoners for Video Question Answering ( http://arxiv.org/abs/2310.15747v2 )

ライセンス: Link先を確認
Dohwan Ko, Ji Soo Lee, Wooyoung Kang, Byungseok Roh, Hyunwoo J. Kim(参考訳) 大規模言語モデル(LLM)は、幅広い自然言語理解および生成タスクにおいて顕著なパフォーマンスを示している。 ビデオ質問回答 (Video Question Answering, VideoQA) における時間的・因果的推論のために, LLM が $\textit{linguistic shortcuts}$ を有効活用するための先行情報を提供する。 しかしながら、そのような先行は、視覚的コンテンツを無視しながら、そのモデルを過度に疑問に答える$\textit{i.e.}$, $\textit{linguistic bias}$ へと導くことによって、ビデオQAの準最適結果を引き起こすことが多い。 これは 'ungrounded guesses' や 'hallucinations' とも呼ばれる。 この問題を解決するために,ビデオQA 上で LLM が先行する手法である Flipped-VQA を提案し,VQ とVA,QA のペアをそれぞれ付与する$\langle$V,Q,A$\rangle$ triplet のすべての組み合わせを,ソースペアとターゲットラベルをフリップすることで予測し,それらの複雑な関係を理解するために $\textit{i.e.}$,予測 A, Q, V のペアをそれぞれ与えられた VQ, VA, QA のペアを推定する。 本稿では,LLaMAにFlipped-VQAを適用してLLaMA-VQAを開発した。 さらに、Flipped-VQA は様々な LLM (OPT および GPT-J) に適用可能な汎用フレームワークであり、その性能を一貫して改善する。 我々は, Flipped-VQAが言語的ショートカットの活用を促進するだけでなく, 言語バイアスを緩和し, 問題の過度な回答を引き起こすことを実証的に示す。 コードはhttps://github.com/mlvlab/flipped-vqaで入手できる。

Large Language Models (LLMs) have shown remarkable performances on a wide range of natural language understanding and generation tasks. We observe that the LLMs provide effective priors in exploiting $\textit{linguistic shortcuts}$ for temporal and causal reasoning in Video Question Answering (VideoQA). However, such priors often cause suboptimal results on VideoQA by leading the model to over-rely on questions, $\textit{i.e.}$, $\textit{linguistic bias}$, while ignoring visual content. This is also known as `ungrounded guesses' or `hallucinations'. To address this problem while leveraging LLMs' prior on VideoQA, we propose a novel framework, Flipped-VQA, encouraging the model to predict all the combinations of $\langle$V, Q, A$\rangle$ triplet by flipping the source pair and the target label to understand their complex relationships, $\textit{i.e.}$, predict A, Q, and V given a VQ, VA, and QA pairs, respectively. In this paper, we develop LLaMA-VQA by applying Flipped-VQA to LLaMA, and it outperforms both LLMs-based and non-LLMs-based models on five challenging VideoQA benchmarks. Furthermore, our Flipped-VQA is a general framework that is applicable to various LLMs (OPT and GPT-J) and consistently improves their performances. We empirically demonstrate that Flipped-VQA not only enhances the exploitation of linguistic shortcuts but also mitigates the linguistic bias, which causes incorrect answers over-relying on the question. Code is available at https://github.com/mlvlab/Flipped-VQA.
翻訳日:2023-11-07 20:01:02 公開日:2023-11-06
# 高度なAIによる社会規模リスク評価のための国際コンソーシアム

An International Consortium for Evaluations of Societal-Scale Risks from Advanced AI ( http://arxiv.org/abs/2310.14455v3 )

ライセンス: Link先を確認
Ross Gruetzemacher, Alan Chan, Kevin Frazier, Christy Manning, \v{S}t\v{e}p\'an Los, James Fox, Jos\'e Hern\'andez-Orallo, John Burden, Matija Franklin, Cl\'iodhna N\'i Ghuidhir, Mark Bailey, Daniel Eth, Toby Pilditch, Kyle Kilian(参考訳) AIの高度な進歩とフロンティアAIシステム(AI能力フロンティアの境界を推し進める先進的なAIシステム)からのリスクを踏まえると、AIガバナンスと規制スキームの作成と実装は優先順位付けと実質的な投資に値する。 しかし現状は維持不可能であり、率直に言って危険である。 規制のギャップにより、AIラボは最小限の監視で研究、開発、デプロイメント活動を行うことができた。 これに対し、フロンティアAIシステムの開発と展開のリスクを評価する手段として、フロンティアAIシステム評価が提案されている。 しかし、AIリスク評価エコシステムは、評価者の多様性の制限、努力の最適部分配分、逆インセンティブなど、大きな調整課題に直面している。 本稿では,AI開発者とサードパーティのAIリスク評価者の両方からなる,AIリスク評価のための国際コンソーシアムの形でのソリューションを提案する。 このようなコンソーシアムは、責任あるスケーリングポリシーの管理や評価に基づくリスク対応の調整など、先進的なAIから社会規模のリスクを緩和する国際的な取り組みにおいて重要な役割を果たす可能性がある。 本稿では、現在の評価エコシステムとその欠点を議論し、先進的なaiリスク評価のための国際コンソーシアムを提案し、その実施に関する課題を議論し、以前の国際機関から学べる教訓と国際aiガバナンス機関の既存の提案について議論し、最後に、コンソーシアムの設立を進めるための具体的な手順を推奨する。 (i)利害関係者からのフィードバック (ii)追加調査を行う (iii)利害関係者のためのワークショップを実施します。 (iv)フィードバックを分析し、最終提案を作成する。 (v)募金、及び (vi)コンソーシアムを作成する。

Given rapid progress toward advanced AI and risks from frontier AI systems (advanced AI systems pushing the boundaries of the AI capabilities frontier), the creation and implementation of AI governance and regulatory schemes deserves prioritization and substantial investment. However, the status quo is untenable and, frankly, dangerous. A regulatory gap has permitted AI labs to conduct research, development, and deployment activities with minimal oversight. In response, frontier AI system evaluations have been proposed as a way of assessing risks from the development and deployment of frontier AI systems. Yet, the budding AI risk evaluation ecosystem faces significant coordination challenges, such as a limited diversity of evaluators, suboptimal allocation of effort, and perverse incentives. This paper proposes a solution in the form of an international consortium for AI risk evaluations, comprising both AI developers and third-party AI risk evaluators. Such a consortium could play a critical role in international efforts to mitigate societal-scale risks from advanced AI, including in managing responsible scaling policies and coordinated evaluation-based risk response. In this paper, we discuss the current evaluation ecosystem and its shortcomings, propose an international consortium for advanced AI risk evaluations, discuss issues regarding its implementation, discuss lessons that can be learnt from previous international institutions and existing proposals for international AI governance institutions, and, finally, we recommend concrete steps to advance the establishment of the proposed consortium: (i) solicit feedback from stakeholders, (ii) conduct additional research, (iii) conduct a workshop(s) for stakeholders, (iv) analyze feedback and create final proposal, (v) solicit funding, and (vi) create a consortium.
翻訳日:2023-11-07 19:58:38 公開日:2023-11-06
# AI分類器に対する対向ロバストネス尺度の存在, 独自性, 拡張性について

On existence, uniqueness and scalability of adversarial robustness measures for AI classifiers ( http://arxiv.org/abs/2310.14421v2 )

ライセンス: Link先を確認
Illia Horenko(参考訳) 一般化線形モデル(GLM)およびエントロピーAI(EAI)に対して、(局所的に)一意的に可逆な分類器に対する最小逆経路(MAP)と最小逆距離(MAD)の単純な検証可能な数学的条件を定式化し、証明する。 MAPとMADの実際的な計算、そして、様々な種類のAIツールの比較と解釈(神経ネットワーク、強化ランダムフォレスト、GLM、EAI)は、一般的な合成ベンチマーク(二重スイスロールスパイラルとその拡張、および2つのバイオメディカルデータ問題(健康保険請求の予測、心臓発作の致死性分類)で示される。 生体医学的応用において、MAPは、アクセス可能な制御変数の予め定義されたサブセットにおいて、患者固有のリスク軽減のユニークな介入を提供する。

Simply-verifiable mathematical conditions for existence, uniqueness and explicit analytical computation of minimal adversarial paths (MAP) and minimal adversarial distances (MAD) for (locally) uniquely-invertible classifiers, for generalized linear models (GLM), and for entropic AI (EAI) are formulated and proven. Practical computation of MAP and MAD, their comparison and interpretations for various classes of AI tools (for neuronal networks, boosted random forests, GLM and EAI) are demonstrated on the common synthetic benchmarks: on a double Swiss roll spiral and its extensions, as well as on the two biomedical data problems (for the health insurance claim predictions, and for the heart attack lethality classification). On biomedical applications it is demonstrated how MAP provides unique minimal patient-specific risk-mitigating interventions in the predefined subsets of accessible control variables.
翻訳日:2023-11-07 19:58:06 公開日:2023-11-06
# 対照的に、医療用時系列の階層的コントラストフレームワーク

Contrast Everything: A Hierarchical Contrastive Framework for Medical Time-Series ( http://arxiv.org/abs/2310.14017v4 )

ライセンス: Link先を確認
Yihe Wang, Yu Han, Haishuai Wang, Xiang Zhang(参考訳) コントラスト表現学習は、労働集約的、ドメイン特化的、希少な専門家アノテーションへの依存を軽減するため、医療時系列分析において重要である。 しかし、既存のコントラスト学習手法は主に1つのデータレベルに焦点を当てており、医療時系列の複雑な性質を完全に活用できない。 この問題に対処するために,医療時系列におけるデータコンピテンシーを生かした,革新的な階層型フレームワークCOMETを提案する。 我々の綿密に設計されたモデルは、観察、サンプル、トライアル、患者レベルという4つの潜在的なレベルからデータ一貫性を体系的にキャプチャする。 複数のレベルで対照的な損失を発生させることで、包括的なデータの一貫性を保ち、情報利用を自己管理的に最大化する効果的な表現を学習することができる。 患者に依存しない環境で実験を行う。 心筋梗塞の心電図信号やアルツハイマー病やパーキンソン病の脳波信号を含む3種類のデータセットを用いて6つの基準値と比較した。 その結果、COMETはすべてのベースラインを一貫して上回り、特に10%と1%のラベル付きデータセットで設定されている。 これらの結果は,医療時系列におけるコントラスト表現学習技術の進歩における我々の枠組みの意義を裏付けるものである。 ソースコードはhttps://github.com/DL4mHealth/COMETで入手できる。

Contrastive representation learning is crucial in medical time series analysis as it alleviates dependency on labor-intensive, domain-specific, and scarce expert annotations. However, existing contrastive learning methods primarily focus on one single data level, which fails to fully exploit the intricate nature of medical time series. To address this issue, we present COMET, an innovative hierarchical framework that leverages data consistencies at all inherent levels in medical time series. Our meticulously designed model systematically captures data consistency from four potential levels: observation, sample, trial, and patient levels. By developing contrastive loss at multiple levels, we can learn effective representations that preserve comprehensive data consistency, maximizing information utilization in a self-supervised manner. We conduct experiments in the challenging patient-independent setting. We compare COMET against six baselines using three diverse datasets, which include ECG signals for myocardial infarction and EEG signals for Alzheimer's and Parkinson's diseases. The results demonstrate that COMET consistently outperforms all baselines, particularly in setup with 10% and 1% labeled data fractions across all datasets. These results underscore the significant impact of our framework in advancing contrastive representation learning techniques for medical time series. The source code is available at https://github.com/DL4mHealth/COMET.
翻訳日:2023-11-07 19:57:29 公開日:2023-11-06
# 非ボゾンモワール励起子

Non-bosonic moir\'e excitons ( http://arxiv.org/abs/2310.19931v3 )

ライセンス: Link先を確認
Tsung-Sheng Huang, Peter Lunts, Mohammad Hafezi(参考訳) moir\'e 遷移金属ジアルコゲナイド二層膜の光励起は、ボース・ハバードの枠組みの中で一般的に考慮される電子ホール境界状態として励起子を生成する。 ここでは、これらの複合粒子が一般に非ボソニックな角運動量交換関係に従うことを示す。 この励起子の創発的なスピン記述は、弱い電子-ホール結合機構において重要な各部位の占有限界を示す。 効果的な励起子理論はスピンハミルトニアンであり、ホルシュタイン-プリマコフ変換の後に占有制約を受ける創発ボソンのハバードモデルとなる。 この理論を一般に研究されている3つの二層膜(MoSe2/WSe2, WSe2/WS2, WSe2/MoS2)に適用し、関連するパラメータではそれらの占有が3つの励起子を超えることはないことを示す。 我々の体系的理論は、モーアエ励起体の多体物理学に関する将来の研究のガイドラインを提供する。

Optical excitations in moir\'e transition metal dichalcogenide bilayers lead to the creation of excitons, as electron-hole bound states, that are generically considered within a Bose-Hubbard framework. Here, we demonstrate that these composite particles obey an angular momentum commutation relation that is generally non-bosonic. This emergent spin description of excitons indicates a limitation to their occupancy on each site, which is substantial in the weak electron-hole binding regime. The effective exciton theory is accordingly a spin Hamiltonian, which further becomes a Hubbard model of emergent bosons subject to an occupancy constraint after a Holstein-Primakoff transformation. We apply our theory to three commonly studied bilayers (MoSe2/WSe2, WSe2/WS2, and WSe2/MoS2) and show that in the relevant parameter regimes their allowed occupancies never exceed three excitons. Our systematic theory provides guidelines for future research on the many-body physics of moir\'e excitons.
翻訳日:2023-11-07 19:50:51 公開日:2023-11-06
# 分類するか、分類するかを学ぶか? 一般カテゴリー発見のための自己符号化

Learn to Categorize or Categorize to Learn? Self-Coding for Generalized Category Discovery ( http://arxiv.org/abs/2310.19776v2 )

ライセンス: Link先を確認
Sarah Rastegar, Hazel Doughty, Cees G. M. Snoek(参考訳) テスト時に新しいカテゴリを発表するという試みでは、事前定義されたカテゴリセットによって制限される従来の教師付き認識モデルの固有の制限に直面する。 自己監督とオープンワールドの学習の領域において、テスト時のカテゴリ発見への進歩は行われてきたが、重要でありながらしばしば見過ごされる疑問が続いている。 本稿では,最適化のレンズを通してカテゴリを概念化し,よく定義された問題に対する最適解として捉える。 このユニークな概念化を生かして,テスト時に未知のカテゴリを発見できる,新しい,効率的かつ自己管理的な手法を提案する。 このアプローチの健全な特徴は、個々のデータインスタンスに最小長のカテゴリコードを割り当てることであり、実世界のデータセットでよく見られる暗黙のカテゴリ階層をカプセル化する。 この機構により、カテゴリの粒度の制御が強化され、より詳細なカテゴリを扱うためのモデルが組み合わされる。 試行錯誤による評価は, テスト時に未知のカテゴリを管理する上でのソリューションの有効性を実証するものである。 さらに、我々の提案を理論的根拠で補強し、その最適性の証明を提供する。 私たちのコードはhttps://github.com/sarahrastegar/infosieveで利用可能です。

In the quest for unveiling novel categories at test time, we confront the inherent limitations of traditional supervised recognition models that are restricted by a predefined category set. While strides have been made in the realms of self-supervised and open-world learning towards test-time category discovery, a crucial yet often overlooked question persists: what exactly delineates a category? In this paper, we conceptualize a category through the lens of optimization, viewing it as an optimal solution to a well-defined problem. Harnessing this unique conceptualization, we propose a novel, efficient and self-supervised method capable of discovering previously unknown categories at test time. A salient feature of our approach is the assignment of minimum length category codes to individual data instances, which encapsulates the implicit category hierarchy prevalent in real-world datasets. This mechanism affords us enhanced control over category granularity, thereby equipping our model to handle fine-grained categories adeptly. Experimental evaluations, bolstered by state-of-the-art benchmark comparisons, testify to the efficacy of our solution in managing unknown categories at test time. Furthermore, we fortify our proposition with a theoretical foundation, providing proof of its optimality. Our code is available at https://github.com/SarahRastegar/InfoSieve.
翻訳日:2023-11-07 19:50:32 公開日:2023-11-06
# デブリ・破壊・アーティファクト粒子を用いたtem画像からの無傷アデノウイルス自動検出のための畳み込みニューラルネットワーク

Convolutional Neural Networks for Automatic Detection of Intact Adenovirus from TEM Imaging with Debris, Broken and Artefacts Particles ( http://arxiv.org/abs/2310.19630v2 )

ライセンス: Link先を確認
Olivier Rukundo, Andrea Behanova, Riccardo De Feo, Seppo Ronkko, Joni Oja, Jussi Tohka(参考訳) 製造および製造過程における医薬品の一次粒子および純度プロファイルの定期的なモニタリングは、製造者が製品の変動や汚染を避けるために不可欠である。 透過電子顕微鏡(TEM)イメージングは、ウイルスベースの遺伝子治療ベクター製品と中間体において、変化が粒子の特性と純度に与える影響を予測するのに役立つ。 無傷粒子は有効成分を特徴付けることができるため、粉体、破砕物、アーティファクト粒子を混合した非インタクトウイルス背景に対する無傷アデノウイルスの検出を自動化することが有用である。 このような粒子の存在下では、無傷アデノウイルスの検出がより困難になる。 この課題を克服するため,我々は,アデノウイルスのセミオートアノテーションとセグメンテーションのためのソフトウェアツールと,temイメージングシステムにおける無傷アデノウイルスの自動セグメンテーションと検出のためのソフトウェアツールを開発した。 開発した半自動ツールは従来の画像解析手法を活用し,畳み込みニューラルネットワークと画像解析技術に基づいて自動ツールを構築した。 定量・定性評価の結果, 真正検出率は偽陽性, 陰性で, アデノウイルスは本物のデブリや破断性アデノウイルス, 染色性アーティファクトと誤認することなく良好な検出率を示した。

Regular monitoring of the primary particles and purity profiles of a drug product during development and manufacturing processes is essential for manufacturers to avoid product variability and contamination. Transmission electron microscopy (TEM) imaging helps manufacturers predict how changes affect particle characteristics and purity for virus-based gene therapy vector products and intermediates. Since intact particles can characterize efficacious products, it is beneficial to automate the detection of intact adenovirus against a non-intact-viral background mixed with debris, broken, and artefact particles. In the presence of such particles, detecting intact adenoviruses becomes more challenging. To overcome the challenge, due to such a presence, we developed a software tool for semi-automatic annotation and segmentation of adenoviruses and a software tool for automatic segmentation and detection of intact adenoviruses in TEM imaging systems. The developed semi-automatic tool exploited conventional image analysis techniques while the automatic tool was built based on convolutional neural networks and image analysis techniques. Our quantitative and qualitative evaluations showed outstanding true positive detection rates compared to false positive and negative rates where adenoviruses were nicely detected without mistaking them for real debris, broken adenoviruses, and/or staining artefacts.
翻訳日:2023-11-07 19:49:46 公開日:2023-11-06
# 深層ニューラルネットワークにおける障害局在の経路解析

Path Analysis for Effective Fault Localization in Deep Neural Networks ( http://arxiv.org/abs/2310.18987v2 )

ライセンス: Link先を確認
Soroush Hashemifar, Saeed Parsa and Akram Kalaee(参考訳) ディープラーニングは様々な現実世界のアプリケーションに革命をもたらしたが、Deep Neural Networks(DNN)の品質は依然として懸念されている。 dnnは複雑で、数百万のパラメータを持ち、タスクの遂行への貢献を決定するのが難しい。 さらに、DNNの振る舞いは、トレーニング中に使用されるデータに非常に影響を受けており、すべてのシナリオで潜在的なDNNの振る舞いを実行するのに十分なデータを収集することは困難である。 本稿では,spectrum-based fault localization(sbfl)を用いて,故障神経経路(np)を同定するnp sbfl法を提案する。 本手法は,LRP法を用いて臨界ニューロンを同定し,どの臨界ニューロンが異常であるかを判定する。 さらに,従来のニューロンの活性化を維持しつつ,ニューロンの配列を1つずつ効果的に活性化する多段階勾配上昇(MGA)を提案する。 NP-SBFL-MGAは,MNISTとCIFAR-10,DeepFaultとNP-SBFL-GAの2つのベースライン,Taratra,Ochiai,Barinelの3つの疑わしいニューロン測定において有効であった。 実験の結果,NP-SBFL-MGAは疑わしい経路の同定や逆入力の合成において,ベースラインよりも統計的に有効であることが示唆された。 特に、NP-SBFL-MGAのタランチュラの断層検出率は96.75%で、OchiaiのDeepFault(89.90%)、OchiaiのNP-SBFL-GA(60.61%)を上回った。 また,本手法は自然度入力のベースラインに匹敵する結果となり,臨界経路のカバレッジとDNN断層定位におけるテスト失敗数との間に正の相関が認められた。

Deep learning has revolutionized various real-world applications, but the quality of Deep Neural Networks (DNNs) remains a concern. DNNs are complex and have millions of parameters, making it difficult to determine their contributions to fulfilling a task. Moreover, the behavior of a DNN is highly influenced by the data used during training, making it challenging to collect enough data to exercise all potential DNN behavior under all possible scenarios. This paper proposes NP SBFL method to locate faulty neural pathways (NP) using spectrum-based fault localization (SBFL). Our method identifies critical neurons using the layer-wise relevance propagation (LRP) technique and determines which critical neurons are faulty. Moreover, we propose a multi-stage gradient ascent (MGA), an extension of gradient ascent (GA), to effectively activate a sequence of neurons one at a time while maintaining the activation of previous neurons, so we are able to test the reported faulty pathways. We evaluated the effectiveness of our method, i.e. NP-SBFL-MGA, on two commonly used datasets, MNIST and CIFAR-10, two baselines DeepFault and NP-SBFL-GA, and three suspicious neuron measures, Tarantula, Ochiai, and Barinel. The empirical results showed that NP-SBFL-MGA is statistically more effective than the baselines at identifying suspicious paths and synthesizing adversarial inputs. Particularly, Tarantula on NP-SBFL-MGA had the highest fault detection rate at 96.75%, surpassing DeepFault on Ochiai (89.90%) and NP-SBFL-GA on Ochiai (60.61%). Our approach also yielded comparable results to the baselines in synthesizing naturalness inputs, and we found a positive correlation between the coverage of critical paths and the number of failed tests in DNN fault localization.
翻訳日:2023-11-07 19:48:42 公開日:2023-11-06
# 局所的自己監督型視覚表現学習

Local-Global Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2310.18651v2 )

ライセンス: Link先を確認
Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi(参考訳) 自己教師付き表現学習法は主に画像レベルのインスタンス識別に焦点をあてる。 本研究は,既存の手法にパッチレベルの識別を組み込むことによる,局所的およびグローバル的な視覚特徴を同時に見ることにより,学習表現の品質を向上させることによる潜在的メリットを検討する。 このアイデアに向けて、画像の拡張ビューにまたがって対応するパッチを見つけることができる、単純で効果的なパッチマッチングアルゴリズムを提案する。 その後、拡張ビューはViT(Vision Transformer)をバックボーンとする自己教師型学習フレームワークに入力される。 その結果、イメージレベルとパッチレベルの両方の表現が生成される。 提案するパッチマッチングアルゴリズムを利用して,clsトークンだけでなく,対応するパッチ間の表現距離を最小化する。 その結果、このモデルは画像全体とより詳細な詳細の両方をより包括的に理解するようになる。 提案手法を小規模,中規模,大規模データセットで事前学習する。 本手法は,画像分類と下流タスクの両方において,最先端のイメージレベル表現学習手法を上回ることができることを示す。 キーワード:自己監督学習、視覚表現、局所言語表現学習、パッチワイズ表現学習、視覚変換器(ViT)

Self-supervised representation learning methods mainly focus on image-level instance discrimination. This study explores the potential benefits of incorporating patch-level discrimination into existing methods to enhance the quality of learned representations by simultaneously looking at local and global visual features. Towards this idea, we present a straightforward yet effective patch-matching algorithm that can find the corresponding patches across the augmented views of an image. The augmented views are subsequently fed into a self-supervised learning framework employing Vision Transformer (ViT) as its backbone. The result is the generation of both image-level and patch-level representations. Leveraging the proposed patch-matching algorithm, the model minimizes the representation distance between not only the CLS tokens but also the corresponding patches. As a result, the model gains a more comprehensive understanding of both the entirety of the image as well as its finer details. We pretrain the proposed method on small, medium, and large-scale datasets. It is shown that our approach could outperform state-of-the-art image-level representation learning methods on both image classification and downstream tasks. Keywords: Self-Supervised Learning; Visual Representations; Local-Global Representation Learning; Patch-Wise Representation Learning; Vision Transformer (ViT)
翻訳日:2023-11-07 19:46:52 公開日:2023-11-06
# ArcheType: 大規模言語モデルを用いたオープンソースのカラム型アノテーションフレームワーク

ArcheType: A Novel Framework for Open-Source Column Type Annotation using Large Language Models ( http://arxiv.org/abs/2310.18208v2 )

ライセンス: Link先を確認
Benjamin Feuer, Yurong Liu, Chinmay Hegde, Juliana Freire(参考訳) 既存のセマンティックカラム型アノテーション(CTA)に対するディープラーニングアプローチには、トレーニング時に固定されたセマンティックタイプに依存すること、型毎のトレーニングサンプルを大量に必要とし、大量のランタイム推論コストを発生させること、新しいデータセットで型が一定である場合でもパフォーマンスが低下する、という重大な欠点がある。 大規模言語モデルは幅広いタスクにおいて強いゼロショット分類性能を示しており,本論文ではctaへの応用について検討する。 本稿では,コンテキストサンプリング,プロンプトシリアライズ,モデルクエリ,ラベルリマッピングのための簡易かつ実用的な手法であるarchetypeを紹介し,大規模言語モデルによるcta問題の完全ゼロショット解法を提案する。 提案手法の各コンポーネントを個別にアブレーションし、コンテキストサンプリングとラベルリマッピングの改善により、最も一貫した利得が得られることを示す。 ArcheTypeは、ゼロショットCTAベンチマーク(この記事とともにリリースした3つの新しいドメイン特化ベンチマークを含む)で新しい最先端性能を確立し、古典的なCTAテクニックと併用すると、細調整されたSOTABベンチマークでSOTA DoDuoモデルより優れている。 私たちのコードはhttps://github.com/penfever/ArcheTypeで利用可能です。

Existing deep-learning approaches to semantic column type annotation (CTA) have important shortcomings: they rely on semantic types which are fixed at training time; require a large number of training samples per type and incur large run-time inference costs; and their performance can degrade when evaluated on novel datasets, even when types remain constant. Large language models have exhibited strong zero-shot classification performance on a wide range of tasks and in this paper we explore their use for CTA. We introduce ArcheType, a simple, practical method for context sampling, prompt serialization, model querying, and label remapping, which enables large language models to solve CTA problems in a fully zero-shot manner. We ablate each component of our method separately, and establish that improvements to context sampling and label remapping provide the most consistent gains. ArcheType establishes a new state-of-the-art performance on zero-shot CTA benchmarks (including three new domain-specific benchmarks which we release along with this paper), and when used in conjunction with classical CTA techniques, it outperforms a SOTA DoDuo model on the fine-tuned SOTAB benchmark. Our code is available at https://github.com/penfever/ArcheType.
翻訳日:2023-11-07 19:46:23 公開日:2023-11-06
# テキスト属性グラフのための大規模言語モデルを用いた乱れ表現学習

Disentangled Representation Learning with Large Language Models for Text-Attributed Graphs ( http://arxiv.org/abs/2310.18152v2 )

ライセンス: Link先を確認
Yijian Qin, Xin Wang, Ziwei Zhang, Wenwu Zhu(参考訳) テキスト分散グラフ(TAG)はウェブ上で広く普及しており、引用ネットワークやeコマースネットワーク、ソーシャルネットワークといったTAGに関する調査がWebコミュニティで注目されている。 近年,大規模言語モデル (LLM) は,幅広いタスクにまたがる例外的な機能を示している。 しかし、既存の研究は、グラフ構造情報をLSMに伝達するプロンプトにのみ依存しているため、TAG内の複雑な構造関係の理解が不十分である。 本稿では,この問題を解決するために,タグに対するllmの推論と予測能力を向上させるためのdgtl(disentangled graph-text learner)モデルを提案する。 提案するdgtlモデルは,gnn(tailored disentangled graph neural network)層を介してグラフ構造情報を取り込み,複数の構造要素からテキスト属性グラフに隠された複雑な関係をllmでキャプチャする。 さらに、DGTLはフリーズされたLLMで動作し、計算コストを削減し、異なるLLMモデルと組み合わせる際の柔軟性をより高めている。 実験により,提案したDGTLモデルにより,最先端のベースラインよりも優れた性能,あるいは同等の性能が得られることを示した。 さらに,dgtlモデルが予測のための自然言語説明を提供することにより,モデル解釈可能性を大幅に向上できることを実証した。

Text-attributed graphs (TAGs) are prevalent on the web and research over TAGs such as citation networks, e-commerce networks and social networks has attracted considerable attention in the web community. Recently, large language models (LLMs) have demonstrated exceptional capabilities across a wide range of tasks. However, the existing works focus on harnessing the potential of LLMs solely relying on prompts to convey graph structure information to LLMs, thus suffering from insufficient understanding of the complex structural relationships within TAGs. To address this problem, in this paper we present the Disentangled Graph-Text Learner (DGTL) model, which is able to enhance the reasoning and predicting capabilities of LLMs for TAGs. Our proposed DGTL model incorporates graph structure information through tailored disentangled graph neural network (GNN) layers, enabling LLMs to capture the intricate relationships hidden in text-attributed graphs from multiple structural factors. Furthermore, DGTL operates with frozen pre-trained LLMs, reducing computational costs and allowing much more flexibility in combining with different LLM models. Experimental evaluations demonstrate the effectiveness of the proposed DGTL model on achieving superior or comparable performance over state-of-the-art baselines. Additionally, we also demonstrate that our DGTL model can offer natural language explanations for predictions, thereby significantly enhancing model interpretability.
翻訳日:2023-11-07 19:45:57 公開日:2023-11-06
# グリーンコンピューティングの機会について:調査

On the Opportunities of Green Computing: A Survey ( http://arxiv.org/abs/2311.00447v2 )

ライセンス: Link先を確認
You Zhou, Xiujing Lin, Xiang Zhang, Maolin Wang, Gangwei Jiang, Huakang Lu, Yupeng Wu, Kai Zhang, Zhe Yang, Kehang Wang, Yongduo Sui, Fengwei Jia, Zuoli Tang, Yao Zhao, Hongxuan Zhang, Tiannuo Yang, Weibo Chen, Yunong Mao, Yi Li, De Bao, Yu Li, Hongrui Liao, Ting Liu, Jingwen Liu, Jinchi Guo, Jin Zhao, Xiangyu Zhao, Ying WEI, Hong Qian, Qi Liu, Xiang Wang, Wai Kin (Victor) Chan, Chenliang Li, Yusen Li, Shiyu Yang, Jining Yan, Chao Mou, Shuai Han, Wuxia Jin, Guannan Zhang and Xiaodong Zeng(参考訳) 人工知能(AI)は、数十年にわたって技術と研究において大きな進歩を遂げており、コンピュータビジョン、自然言語処理、時系列分析、音声合成など、多くの分野で広く利用されている。 ディープラーニングの時代、特に大規模言語モデルの出現とともに、研究者の関心の多くは、新たな最先端(sota)結果の追求に費やされ、モデルサイズと計算複雑性が永遠に増大する結果となった。 高コンピューティングパワーの必要性は、研究に参加する資金が限られている中小規模の研究機関や企業を防ぎ、高い二酸化炭素排出量をもたらし、研究の公平性を損なう。 コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。 本調査では,グリーンコンピューティングで使用される技術について,系統的に概説する。 グリーンコンピューティングの枠組みを提案し,(1)グリーンネスの尺度,(2)エネルギー効率のよいai,(3)エネルギー効率のよいコンピューティングシステム,(4)持続可能性のためのaiユースケース,の4つの要素に展開する。 各コンポーネントについて、AI効率を最適化する研究の進歩と、一般的に使われている技術について論じる。 この新たな研究の方向性は、リソース制約とai開発の間の衝突に対処する可能性を秘めていると結論づける。 私たちは、より多くの研究者がこの方向に注目し、aiをより環境にやさしいものにすることを奨励します。

Artificial Intelligence (AI) has achieved significant advancements in technology and research with the development over several decades, and is widely used in many areas including computing vision, natural language processing, time-series analysis, speech synthesis, etc. During the age of deep learning, especially with the arise of Large Language Models, a large majority of researchers' attention is paid on pursuing new state-of-the-art (SOTA) results, resulting in ever increasing of model size and computational complexity. The needs for high computing power brings higher carbon emission and undermines research fairness by preventing small or medium-sized research institutions and companies with limited funding in participating in research. To tackle the challenges of computing resources and environmental impact of AI, Green Computing has become a hot research topic. In this survey, we give a systematic overview of the technologies used in Green Computing. We propose the framework of Green Computing and devide it into four key components: (1) Measures of Greenness, (2) Energy-Efficient AI, (3) Energy-Efficient Computing Systems and (4) AI Use Cases for Sustainability. For each components, we discuss the research progress made and the commonly used techniques to optimize the AI efficiency. We conclude that this new research direction has the potential to address the conflicts between resource constraints and AI development. We encourage more researchers to put attention on this direction and make AI more environmental friendly.
翻訳日:2023-11-07 19:36:50 公開日:2023-11-06
# Green Chromatic Coordinate (GCC) を用いた支援ベクトルマシンによる作物病の分類とIoTによるスマート農業用機能抽出

Crop Disease Classification using Support Vector Machines with Green Chromatic Coordinate (GCC) and Attention based feature extraction for IoT based Smart Agricultural Applications ( http://arxiv.org/abs/2311.00429v2 )

ライセンス: Link先を確認
Shashwat Jha, Vishvaditya Luhach, Gauri Shanker Gupta, Beependra Singh(参考訳) 作物は、エネルギー、栄養、薬効の主な供給源として、人間の人口にとって重要な存在である。 しかし、植物病は農業栽培中の葉に悪影響を及ぼし、作物の生産量と経済的価値に大きな損失をもたらす。 そのため、農家にとって作物病の特定が不可欠である。 しかし、この方法は、しばしば厳しい作業、多くの計画、植物病原体への深い親密さを必要とする。 このような多くの障害を考えると、農夫が最高の作物開発を保証できるように、モバイルやIoTデバイスと簡単に接続できるソリューションを提供することが不可欠です。 各種機械学習(ML)および深層学習(DL)アルゴリズムは、植物病の検出を識別するために作成・研究され、実質的で有望な結果をもたらす。 本稿では,注意に基づく特徴抽出,rgbチャネルに基づく色分析,パフォーマンス向上のためのサポートベクタマシン(svm),情報の量子化後のモバイルアプリケーションやiotデバイスとの統合など,先行研究に基づく新たな分類手法を提案する。 いくつかの疾患分類アルゴリズムが提案モデルと比較され, svm分類による視覚トランスフォーマーに基づく特徴抽出と, svm分類によるグリーンクロマティック座標機能の追加により, 精度 (gccvit-svm) - 99.69%, iotデバイス統合の量子化後の精度は97.41%, ほぼ4倍であった。 この発見は、農家が農作物の病気を正確かつ迅速な情報で識別し、農業生産を保ち、食料の安全を確保する方法を変える可能性を秘めている。

Crops hold paramount significance as they serve as the primary provider of energy, nutrition, and medicinal benefits for the human population. Plant diseases, however, can negatively affect leaves during agricultural cultivation, resulting in significant losses in crop output and economic value. Therefore, it is crucial for farmers to identify crop diseases. However, this method frequently necessitates hard work, a lot of planning, and in-depth familiarity with plant pathogens. Given these numerous obstacles, it is essential to provide solutions that can easily interface with mobile and IoT devices so that our farmers can guarantee the best possible crop development. Various machine learning (ML) as well as deep learning (DL) algorithms have been created & studied for the identification of plant disease detection, yielding substantial and promising results. This article presents a novel classification method that builds on prior work by utilising attention-based feature extraction, RGB channel-based chromatic analysis, Support Vector Machines (SVM) for improved performance, and the ability to integrate with mobile applications and IoT devices after quantization of information. Several disease classification algorithms were compared with the suggested model, and it was discovered that, in terms of accuracy, Vision Transformer-based feature extraction and additional Green Chromatic Coordinate feature with SVM classification achieved an accuracy of (GCCViT-SVM) - 99.69%, whereas after quantization for IoT device integration achieved an accuracy of - 97.41% while almost reducing 4x in size. Our findings have profound implications because they have the potential to transform how farmers identify crop illnesses with precise and fast information, thereby preserving agricultural output and ensuring food security.
翻訳日:2023-11-07 19:36:28 公開日:2023-11-06
# SEINE: 生成遷移と予測のための短時間ビデオ拡散モデル

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction ( http://arxiv.org/abs/2310.20700v2 )

ライセンス: Link先を確認
Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu(参考訳) 近年,映像生成はリアルな結果でかなりの進歩を遂げている。 それでも、既存のAI生成ビデオは、通常、単一のシーンを描いた非常に短いクリップ(ショットレベル)である。 コヒーレントなロングビデオ(ストーリーレベル)を提供するには、異なるクリップ間で創造的な遷移と予測効果を持つことが望ましい。 本稿では,生成的遷移と予測に着目した短いビデオ拡散モデルであるseineを提案する。 目標は、シーン間のスムーズでクリエイティブなトランジションと、ショットレベルのさまざまな長さのビデオを生成することだ。 具体的には,テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。 さまざまなシーンの画像を入力として提供し,テキストベースの制御と組み合わせることで,コヒーレンスと視覚的品質を保証するトランジッションビデオを生成する。 さらに、このモデルは画像間アニメーションや自動回帰ビデオ予測といった様々なタスクに容易に拡張できる。 新たな生成タスクを包括的に評価するために,時間的整合性,意味的類似性,ビデオテキストのセマンティックアライメントの3つの評価基準を提案する。 広範な実験により,既存手法による生成的遷移と予測の有効性が検証され,ストーリーレベルのロングビデオの作成が可能となった。 プロジェクトページ: https://vchitect.github.io/SEINE-project/。

Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips ("shot-level") depicting a single scene. To deliver a coherent long video ("story-level"), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ .
翻訳日:2023-11-07 19:35:54 公開日:2023-11-06
# 単語推測ゲームを活用した大規模言語モデルの知能評価

Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models ( http://arxiv.org/abs/2310.20499v2 )

ライセンス: Link先を確認
Tian Liang and Zhiwei He and Jen-tse Huang and Wenxuan Wang and Wenxiang Jiao and Rui Wang and Yujiu Yang and Zhaopeng Tu and Shuming Shi and Xing Wang(参考訳) LLMに基づくエージェントインテリジェンスの自動評価は、高度なLCMベースのエージェントを開発する上で重要である。 alpacaevalのような人間による評価データセットの開発にかなりの労力が費やされてきたが、既存の技術はコストがかかり、時間がかかり、適応性が欠如している。 本稿では,人気のある言語ゲーム ‘Who is Spy'' にヒントを得て,LLMのインテリジェンス性能を評価するために,単語推測ゲームを提案する。 単語が与えられた後、LLMは単語の説明を依頼され、その単語とそのプレイヤーの記述に基づいてその同一性を決定する。 理想的には、高度なエージェントは、攻撃的な記述を用いて特定の単語を正確に記述し、保守的な記述における混乱を同時に最大化し、ゲームへの参加を高める能力を有するべきである。 そこで我々はまず,LEMの表現と機能低下を評価するためにDEEPを開発した。 DEEPは、攻撃的で保守的なモードで単語を記述することを要求する。 次に,LLMのインテリジェンスを評価するための対話型マルチエージェントフレームワークであるSpyGameを紹介した。 マルチエージェントインタラクションを取り入れたSpyGameは、言語スキルと戦略的思考を目標とするLLMに要求し、複雑なコミュニケーション状況におけるLLMの人間的な認知能力と適応性をより包括的に評価する。 提案された評価フレームワークの実装は非常に簡単である。 複数のソース,ドメイン,言語から単語を収集し,提案した評価フレームワークを用いて実験を行った。 大規模な実験により,提案したDEEPとSpyGameは,様々なLLMの能力を評価し,新たな状況に適応し,戦略的コミュニケーションを行う能力を示した。

The automatic evaluation of LLM-based agent intelligence is critical in developing advanced LLM-based agents. Although considerable effort has been devoted to developing human-annotated evaluation datasets, such as AlpacaEval, existing techniques are costly, time-consuming, and lack adaptability. In this paper, inspired by the popular language game ``Who is Spy'', we propose to use the word guessing game to assess the intelligence performance of LLMs. Given a word, the LLM is asked to describe the word and determine its identity (spy or not) based on its and other players' descriptions. Ideally, an advanced agent should possess the ability to accurately describe a given word using an aggressive description while concurrently maximizing confusion in the conservative description, enhancing its participation in the game. To this end, we first develop DEEP to evaluate LLMs' expression and disguising abilities. DEEP requires LLM to describe a word in aggressive and conservative modes. We then introduce SpyGame, an interactive multi-agent framework designed to assess LLMs' intelligence through participation in a competitive language-based board game. Incorporating multi-agent interaction, SpyGame requires the target LLM to possess linguistic skills and strategic thinking, providing a more comprehensive evaluation of LLMs' human-like cognitive abilities and adaptability in complex communication situations. The proposed evaluation framework is very easy to implement. We collected words from multiple sources, domains, and languages and used the proposed evaluation framework to conduct experiments. Extensive experiments demonstrate that the proposed DEEP and SpyGame effectively evaluate the capabilities of various LLMs, capturing their ability to adapt to novel situations and engage in strategic communication.
翻訳日:2023-11-07 19:35:01 公開日:2023-11-06
# クラスタリングによるエントロピーベースのテスト時間適応性の改善

Improving Entropy-Based Test-Time Adaptation from a Clustering View ( http://arxiv.org/abs/2310.20327v2 )

ライセンス: Link先を確認
Guoliang Lin, Hanjiang Lai, Yan Pan, Jian Yin(参考訳) ドメインシフトは現実的な世界で共通の問題であり、トレーニングデータとテストデータは異なるデータ分布に従う。 この問題に対処するために、完全なテスト時間適応(TTA)は、テスト時間中に遭遇したラベルのないデータを利用してモデルを適応する。 特に,テストサンプルにおける予測のエントロピーを最小化するエントロピーベースTTA(EBTTA)法は,大きな成功を収めている。 本稿では,クラスタリングの観点からこれらの手法を解釈するEBTTAの新しい視点を紹介する。 これは反復アルゴリズムである。 1) 課題段階では、EBTTAモデルの前方プロセスは、これらの試験サンプルのラベルの割り当てであり、 2) 更新ステップでは、下位プロセスは割り当てられたサンプルを通してモデルの更新である。 この解釈に基づいて、ETTTAの深い理解を得ることができ、エントロピー損失が最大確率をさらに増大させることを示す。 そこで本研究では,既存のETBTTAメソッドが初期割り当てやアウトレーヤ,バッチサイズに敏感である理由について,別の説明を行う。 この観察は、ETTTAの改善を推し進めるために役立ちます。 上記の問題を緩和するために,ロバストなラベル割り当て,重量調整,勾配蓄積を提案する。 実験の結果,本手法は様々なデータセットに対して一貫した改善が得られた。 コードは補足材料で提供される。

Domain shift is a common problem in the realistic world, where training data and test data follow different data distributions. To deal with this problem, fully test-time adaptation (TTA) leverages the unlabeled data encountered during test time to adapt the model. In particular, Entropy-Based TTA (EBTTA) methods, which minimize the prediction's entropy on test samples, have shown great success. In this paper, we introduce a new perspective on the EBTTA, which interprets these methods from a view of clustering. It is an iterative algorithm: 1) in the assignment step, the forward process of the EBTTA models is the assignment of labels for these test samples, and 2) in the updating step, the backward process is the update of the model via the assigned samples. Based on the interpretation, we can gain a deeper understanding of EBTTA, where we show that the entropy loss would further increase the largest probability. Accordingly, we offer an alternative explanation for why existing EBTTA methods are sensitive to initial assignments, outliers, and batch size. This observation can guide us to put forward the improvement of EBTTA. We propose robust label assignment, weight adjustment, and gradient accumulation to alleviate the above problems. Experimental results demonstrate that our method can achieve consistent improvements on various datasets. Code is provided in the supplementary material.
翻訳日:2023-11-07 19:34:31 公開日:2023-11-06
# バイオインストラクト:バイオメディカル自然言語処理のための大規模言語モデルのチューニング

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing ( http://arxiv.org/abs/2310.19975v2 )

ライセンス: Link先を確認
Hieu Tran, Zhichao Yang, Zonghai Yao, Hong Yu(参考訳) ドメイン固有の命令データセットを導入し、マルチタスク学習原則と組み合わせることで、バイオメディカル自然言語処理(BioNLP)における大規模言語モデル(LLM)の性能を向上させる。 このバイオインストラクタは25,005個の命令を命令チューンllms(llama 1 & 2, 7b & 13bバージョン)に割り当てる。 命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。 パラメータ効率の良い微調整にLoRA(Lo-Rank Adaptation)を用いた。 次に,複数のBioNLPタスクを用いて,これらの命令調整LLMを評価し,質問応答(QA),情報抽出(IE),テキスト生成(GEN)の3つのカテゴリに分類した。 また,命令のカテゴリ(QA,IE,生成など)がモデルの性能に与える影響についても検討した。 命令調整なしのLLMと比較して、命令調整されたLLMは、QAが17.3%、IEが5.7%、ジェネレーションタスクが96%という顕著なパフォーマンス向上を示した。 7bパラメータの命令を調整したllama 1モデルは、llama 1と大きく異なるドメイン固有のデータや様々なタスクで微調整されたバイオメディカルドメインの他のllmをも上回っていた。 また,命令の微調整を密接に関連したタスクで行うと,性能が著しく向上することを示した。 本研究は,マルチタスク学習の観察と一致し,二つのタスク間の相乗効果を示唆する。 BioInstructデータセットは貴重なリソースとして機能し、LLMをチューニングすることで、最高のBioNLPアプリケーションを実現する。

To enhance the performance of large language models (LLMs) in biomedical natural language processing (BioNLP) by introducing a domain-specific instruction dataset and examining its impact when combined with multi-task learning principles. We created the BioInstruct, comprising 25,005 instructions to instruction-tune LLMs(LLaMA 1 & 2, 7B & 13B version). The instructions were created by prompting the GPT-4 language model with three-seed samples randomly drawn from an 80 human curated instructions. We employed Low-Rank Adaptation(LoRA) for parameter-efficient fine-tuning. We then evaluated these instruction-tuned LLMs on several BioNLP tasks, which can be grouped into three major categories: question answering(QA), information extraction(IE), and text generation(GEN). We also examined whether categories(e.g., QA, IE, and generation) of instructions impact model performance. Comparing with LLMs without instruction-tuned, our instruction-tuned LLMs demonstrated marked performance gains: 17.3% in QA, 5.7% in IE, and 96% in Generation tasks. Our 7B-parameter instruction-tuned LLaMA 1 model was competitive or even surpassed other LLMs in the biomedical domain that were also fine-tuned from LLaMA 1 with vast domain-specific data or a variety of tasks. Our results also show that the performance gain is significantly higher when instruction fine-tuning is conducted with closely related tasks. Our findings align with the observations of multi-task learning, suggesting the synergies between two tasks. The BioInstruct dataset serves as a valuable resource and instruction tuned LLMs lead to the best performing BioNLP applications.
翻訳日:2023-11-07 19:33:10 公開日:2023-11-06
# マルチリワード蒸留による自己合理化剤の調整

Tailoring Self-Rationalizers with Multi-Reward Distillation ( http://arxiv.org/abs/2311.02805v1 )

ライセンス: Link先を確認
Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren(参考訳) 大規模言語モデル(LM)は質問応答を支援する自由文論理を生成することができる。 しかし 以前の仕事は 1) 有用な自己合理化は、大きなスケール(例えば、175Bパラメータ GPT-3)でのみ出現することが示唆される。 2) 主に下流のパフォーマンスに焦点が当てられ、理性自体の意味論を無視している。 本研究では,小型のLM(GPT-3より200倍小さい)を,下流タスク性能の向上だけでなく,より信頼性が高く,一貫性があり,多様であり,自動評価と人的評価の両方によって評価される合理性を生成する。 提案手法であるMaRio (Multi-rewArd RatIOnalization) は,確率性,多様性,一貫性など,複数の異なる特性を最適化するマルチリワード条件付き自己有理化アルゴリズムである。 StrategyQA, QuaRel, OpenBookQA, NumerSense, QASCの難解な問合せデータセットの結果から, MaRioはタスクの精度を向上するだけでなく,上述したような細調整(SFT)ベースラインよりも,小さなLMの自己調整品質を向上することが示された。 広範囲な人間の評価では、MaRioの合理性はSFTの合理性よりも好ましく、妥当性と一貫性の質的な改善も確認されている。

Large language models (LMs) are capable of generating free-text rationales to aid question answering. However, prior work 1) suggests that useful self-rationalization is emergent only at significant scales (e.g., 175B parameter GPT-3); and 2) focuses largely on downstream performance, ignoring the semantics of the rationales themselves, e.g., are they faithful, true, and helpful for humans? In this work, we enable small-scale LMs (approx. 200x smaller than GPT-3) to generate rationales that not only improve downstream task performance, but are also more plausible, consistent, and diverse, assessed both by automatic and human evaluation. Our method, MaRio (Multi-rewArd RatIOnalization), is a multi-reward conditioned self-rationalization algorithm that optimizes multiple distinct properties like plausibility, diversity and consistency. Results on five difficult question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC show that not only does MaRio improve task accuracy, but it also improves the self-rationalization quality of small LMs across the aforementioned axes better than a supervised fine-tuning (SFT) baseline. Extensive human evaluations confirm that MaRio rationales are preferred vs. SFT rationales, as well as qualitative improvements in plausibility and consistency.
翻訳日:2023-11-07 15:53:32 公開日:2023-11-06
# 視覚トランスフォーマを用いた分散データの高速かつ解釈可能な顔識別

Fast and Interpretable Face Identification for Out-Of-Distribution Data Using Vision Transformers ( http://arxiv.org/abs/2311.02803v1 )

ライセンス: Link先を確認
Hai Phan, Cindy Le, Vu Le, Yihui He, Anh Totti Nguyen(参考訳) ほとんどの顔識別アプローチでは、イメージ埋め込みレベルで2つの画像を比較するために、サイムズニューラルネットワークを使用している。 しかし、このテクニックは、咬合(例えば、マスクやサングラスのついた顔)や分散データにも適用できる。 DeepFace-EMD (Phan et al. 2022) は、まず2つの画像を画像レベルで比較し、次にパッチレベルで分配データの最先端精度に達する。 しかし、後のパッチワイドのステージでは、最適なトランスポート最適化のため、O(n^3 \log n)$タイムの複雑さ(イメージ内のパッチの$n$)が認められている。 本稿では,パッチレベルでの2つのイメージをクロスアテンションを用いて比較する2イメージビジョントランス (ViT) を提案する。 CASIA Webface (Yi et al. 2014) 上で200万対の画像をトレーニングした後、我々のモデルは分布外データ上でDeepFace-EMDと同等の精度で処理するが、推定速度はDeepFace-EMDの2倍以上である(Phan et al. 2022)。 また,人間による研究を通じて,クロスアテンションの可視化による有望な説明可能性を示す。 私たちの研究は、顔認証にViTを使用することで、より多くの探索を刺激できると考えています。

Most face identification approaches employ a Siamese neural network to compare two images at the image embedding level. Yet, this technique can be subject to occlusion (e.g. faces with masks or sunglasses) and out-of-distribution data. DeepFace-EMD (Phan et al. 2022) reaches state-of-the-art accuracy on out-of-distribution data by first comparing two images at the image level, and then at the patch level. Yet, its later patch-wise re-ranking stage admits a large $O(n^3 \log n)$ time complexity (for $n$ patches in an image) due to the optimal transport optimization. In this paper, we propose a novel, 2-image Vision Transformers (ViTs) that compares two images at the patch level using cross-attention. After training on 2M pairs of images on CASIA Webface (Yi et al. 2014), our model performs at a comparable accuracy as DeepFace-EMD on out-of-distribution data, yet at an inference speed more than twice as fast as DeepFace-EMD (Phan et al. 2022). In addition, via a human study, our model shows promising explainability through the visualization of cross-attention. We believe our work can inspire more explorations in using ViTs for face identification.
翻訳日:2023-11-07 15:53:02 公開日:2023-11-06
# nlpのmturkアノテーションプラクティスへのワーカーパースペクティブの導入

Incorporating Worker Perspectives into MTurk Annotation Practices for NLP ( http://arxiv.org/abs/2311.02802v1 )

ライセンス: Link先を確認
Olivia Huang, Eve Fleisig, Dan Klein(参考訳) Amazon Mechanical Turk(MTurk)における自然言語処理のデータ収集に関する現在のプラクティスは、NLP研究者間で共有されるデータ品質とヒューリスティックスの研究の組み合わせに依存していることが多い。 しかしながら、mturkの労働者の視点を考慮せずに、これらのアプローチは労働者の権利や応答の質の悪い問題に影響を受けやすい。 我々は、公正な支払い、労働者のプライバシ、データ品質、労働者のインセンティブを考慮したオープンな質問に対する批判的な文献レビューとMTurkワーカーの調査を行った。 労働者の嗜好はNLP研究者の間では知恵に反することが多い。 調査対象となった労働者は、不確かな、非常に高い支払いに対して信頼できる、合理的な支払いを好んだ。 また、労働者は、最低応答時間やマスターの資格など、いくつかの品質管理手法をバイアスがあり、ほとんど効果がないと見なしている。 調査の結果から,今後のNLP研究は,労働者の権利を尊重し,データ品質を向上させるために,MTurk労働者の経験をいかに考慮した方がよいかを推奨する。

Current practices regarding data collection for natural language processing on Amazon Mechanical Turk (MTurk) often rely on a combination of studies on data quality and heuristics shared among NLP researchers. However, without considering the perspectives of MTurk workers, these approaches are susceptible to issues regarding workers' rights and poor response quality. We conducted a critical literature review and a survey of MTurk workers aimed at addressing open questions regarding best practices for fair payment, worker privacy, data quality, and considering worker incentives. We found that worker preferences are often at odds with received wisdom among NLP researchers. Surveyed workers preferred reliable, reasonable payments over uncertain, very high payments; reported frequently lying on demographic questions; and expressed frustration at having work rejected with no explanation. We also found that workers view some quality control methods, such as requiring minimum response times or Master's qualifications, as biased and largely ineffective. Based on the survey results, we provide recommendations on how future NLP studies may better account for MTurk workers' experiences in order to respect workers' rights and improve data quality.
翻訳日:2023-11-07 15:52:37 公開日:2023-11-06
# 言語モデルにおける自己修正と信頼の交点について

On the Intersection of Self-Correction and Trust in Language Models ( http://arxiv.org/abs/2311.02801v1 )

ライセンス: Link先を確認
Satyapriya Krishna(参考訳) 大規模言語モデル(LLM)は複雑な認知タスクの実行において顕著な能力を示した。 しかし、その複雑さと透明性の欠如は、誤情報や毒性の伝播など、いくつかの信頼性の懸念を引き起こしている。 近年,LLMの自己補正能力について検討している。 本研究では,LLMの信頼性向上にこれらの自己補正機能を活用することができるかを検討する。 我々は信頼の2つの重要な側面、真理と毒性に焦点を当てた実験を行う。 以上の結果から,自己補正は毒性と真理性の改善につながることが判明したが,これらの改善の程度は,信頼性の特定の側面とタスクの性質によって異なることがわかった。 興味深いことに、私たちの研究は自己補正プロセス中にLLMの"自己疑似"の事例を明らかにし、対処すべき新たな課題を紹介しました。

Large Language Models (LLMs) have demonstrated remarkable capabilities in performing complex cognitive tasks. However, their complexity and lack of transparency have raised several trustworthiness concerns, including the propagation of misinformation and toxicity. Recent research has explored the self-correction capabilities of LLMs to enhance their performance. In this work, we investigate whether these self-correction capabilities can be harnessed to improve the trustworthiness of LLMs. We conduct experiments focusing on two key aspects of trustworthiness: truthfulness and toxicity. Our findings reveal that self-correction can lead to improvements in toxicity and truthfulness, but the extent of these improvements varies depending on the specific aspect of trustworthiness and the nature of the task. Interestingly, our study also uncovers instances of "self-doubt" in LLMs during the self-correction process, introducing a new set of challenges that need to be addressed.
翻訳日:2023-11-07 15:52:16 公開日:2023-11-06
# consistent4d: 単眼ビデオからの360{\deg}動的オブジェクト生成の一貫性

Consistent4D: Consistent 360{\deg} Dynamic Object Generation from Monocular Video ( http://arxiv.org/abs/2311.02848v1 )

ライセンス: Link先を確認
Yanqin Jiang, Li Zhang, Jin Gao, Weimin Hu, Yao Yao(参考訳) 本稿では,モノクロビデオから4次元動的オブジェクトを生成する新しい手法であるConsistent4Dを提案する。 同様に,360度動的オブジェクト再構成を4次元生成問題とし,退屈なマルチビューデータ収集やカメラキャリブレーションの必要性を排除した。 これは、DyNeRF(Dynamic Neural Radiance Fields)をトレーニングするための第一監視信号として、オブジェクトレベル3D対応画像拡散モデルを活用することで達成される。 具体的には,時間軸に沿って離散的な監視信号の下での安定収束と時間継続を容易にするカスケードDyNeRFを提案する。 空間的・時間的整合性を達成するために,補間駆動型一貫性損失を導入する。 予め訓練されたビデオ補間モデルからDyNeRFと補間フレームとの差を最小化して最適化する。 広汎な実験により、Consistent4Dは先行技術と競合し、モノクラービデオから4D動的オブジェクト生成の新たな可能性を開くとともに、従来のテキストから3D生成タスクの利点も示している。 プロジェクトページはhttps:// consistent4d.github.io/です。

In this paper, we present Consistent4D, a novel approach for generating 4D dynamic objects from uncalibrated monocular videos. Uniquely, we cast the 360-degree dynamic object reconstruction as a 4D generation problem, eliminating the need for tedious multi-view data collection and camera calibration. This is achieved by leveraging the object-level 3D-aware image diffusion model as the primary supervision signal for training Dynamic Neural Radiance Fields (DyNeRF). Specifically, we propose a Cascade DyNeRF to facilitate stable convergence and temporal continuity under the supervision signal which is discrete along the time axis. To achieve spatial and temporal consistency, we further introduce an Interpolation-driven Consistency Loss. It is optimized by minimizing the discrepancy between rendered frames from DyNeRF and interpolated frames from a pre-trained video interpolation model. Extensive experiments show that our Consistent4D can perform competitively to prior art alternatives, opening up new possibilities for 4D dynamic object generation from monocular videos, whilst also demonstrating advantage for conventional text-to-3D generation tasks. Our project page is https://consistent4d.github.io/.
翻訳日:2023-11-07 15:40:22 公開日:2023-11-06
# LLMを用いた汎用人工物操作のための運動認識プロンプト

Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs ( http://arxiv.org/abs/2311.02847v1 )

ライセンス: Link先を確認
Wenke Xia, Dong Wang, Xincheng Pang, Zhigang Wang, Bin Zhao, Di Hu(参考訳) 汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。 シミュレーションにおける実証や強化学習からの模倣学習に焦点が当てられているが、実世界のデータ収集と精密物体シミュレーションの禁止コストのため、これらの研究が多種多様な調音オブジェクトにまたがる広範な適応性を実現することは依然として困難である。 近年,大規模言語モデル(llm)の強固な文脈学習能力を活用してロボット操作を一般化しようとする研究が数多く行われているが,そのほとんどは高レベルなタスク計画と低レベルロボット制御の側面に焦点を当てている。 本研究では,物体の運動的構造が操作の仕方を決定するという考え方に基づいて,物体の運動的知識によってLLMを誘導し,低レベルな運動軌跡を発生させ,様々な物体の操作を支援する機構を提案する。 異なる物体の運動構造を持つLLMを効果的に促すため,各種の関節と接触位置を包含した統一的なテキスト記述として,多言語で表現された物体を表現した統一的な運動情報解析器を設計する。 この統一的な記述に基づいて、キネマティック・アウェア・プランナーモデルが提案され、設計されたキネマティック・アウェア・チェーン・オブ・シンセサイザー法による正確な3次元操作経路ポイントを生成する。 16の異なるカテゴリにまたがる48のインスタンスを評価したところ、我々のフレームワークは従来の手法を8つのカテゴリで上回るだけでなく、8つの未確認対象カテゴリに対して強力なゼロショット能力を示した。 さらに、7つの異なるオブジェクトカテゴリに関する実世界の実験は、実践シナリオにおける我々のフレームワークの適応性を証明する。 コードは \href{https://github.com/xwinks/LLM_articulated_object_manipulation}{here} でリリースされる。

Generalizable articulated object manipulation is essential for home-assistant robots. Recent efforts focus on imitation learning from demonstrations or reinforcement learning in simulation, however, due to the prohibitive costs of real-world data collection and precise object simulation, it still remains challenging for these works to achieve broad adaptability across diverse articulated objects. Recently, many works have tried to utilize the strong in-context learning ability of Large Language Models (LLMs) to achieve generalizable robotic manipulation, but most of these researches focus on high-level task planning, sidelining low-level robotic control. In this work, building on the idea that the kinematic structure of the object determines how we can manipulate it, we propose a kinematic-aware prompting framework that prompts LLMs with kinematic knowledge of objects to generate low-level motion trajectory waypoints, supporting various object manipulation. To effectively prompt LLMs with the kinematic structure of different objects, we design a unified kinematic knowledge parser, which represents various articulated objects as a unified textual description containing kinematic joints and contact location. Building upon this unified description, a kinematic-aware planner model is proposed to generate precise 3D manipulation waypoints via a designed kinematic-aware chain-of-thoughts prompting method. Our evaluation spanned 48 instances across 16 distinct categories, revealing that our framework not only outperforms traditional methods on 8 seen categories but also shows a powerful zero-shot capability for 8 unseen articulated object categories. Moreover, the real-world experiments on 7 different object categories prove our framework's adaptability in practical scenarios. Code is released at \href{https://github.com/xwinks/LLM_articulated_object_manipulation}{here}.
翻訳日:2023-11-07 15:40:01 公開日:2023-11-06
# 対称群上の量子ウォークの非一様混合

Non-uniform Mixing of Quantum Walks on the Symmetric Group ( http://arxiv.org/abs/2311.02843v1 )

ライセンス: Link先を確認
Avah Banerjee(参考訳) 古典的ランダムウォークが正規グラフ上の一様分布に収束することはよく知られている。 量子ウォークは、様々な形で、対応する古典的ランダムウォーク過程の量子化である。 gerhardt and watrous (2003) は、連続時間量子ウォークが対称群のあるケイリーグラフ上の一様分布に収束しないことを示した。 本稿では,szegedy (2004) によって導入された量子化マルコフ連鎖の意味で,離散時間量子ウォークが一様分布に収束しないことを示す。 我々は、対称群の表現論を用いて、セゲディ・ウォーク作用素のスペクトルを分析する。 離散的な設定では、解析は連続ケースよりも高次元のヒルベルト空間の中で働き、頂点の対にまたがるという事実によって複雑である。 我々の手法は一般であり、可約表現の文字を用いて他の非可換群に対して同様の解析結果を得ることができると信じている。

It is well-known that classical random walks on regular graphs converge to the uniform distribution. Quantum walks, in their various forms, are quantizations of their corresponding classical random walk processes. Gerhardt and Watrous (2003) demonstrated that continuous-time quantum walks do not converge to the uniform distribution on certain Cayley graphs of the Symmetric group, which by definition are all regular. In this paper, we demonstrate that discrete-time quantum walks, in the sense of quantized Markov chains as introduced by Szegedy (2004), also do not converge to the uniform distribution. We analyze the spectra of the Szegedy walk operators using the representation theory of the symmetric group. In the discrete setting, the analysis is complicated by the fact that we work within a Hilbert space of a higher dimension than the continuous case, spanned by pairs of vertices. Our techniques are general, and we believe they can be applied to derive similar analytical results for other non-commutative groups using the characters of their irreducible representation.
翻訳日:2023-11-07 15:39:26 公開日:2023-11-06
# 土星:効率的な多モデル深層学習

Saturn: Efficient Multi-Large-Model Deep Learning ( http://arxiv.org/abs/2311.02840v1 )

ライセンス: Link先を確認
Kabir Nagrecha and Arun Kumar(参考訳) 本稿では,マルチモデルトレーニング(モデル選択/ハイパーパラメータ最適化など)の効率を向上させるための新しいデータシステムであるsaturnを提案する。 この設定では,並列処理技術の選択,ジョブ上のGPUの分散,スケジューリングという,ユーザが大規模モデルを構築する上で重要な3つのシステム課題を最初に特定する。 そして、これらを共同問題として定式化し、これらの課題に同時に取り組むための新しいシステムアーキテクチャを構築します。 評価の結果,従来のDLよりも39~49%低いモデル選択実行時間が得られることがわかった。

In this paper, we propose Saturn, a new data system to improve the efficiency of multi-large-model training (e.g., during model selection/hyperparameter optimization). We first identify three key interconnected systems challenges for users building large models in this setting -- parallelism technique selection, distribution of GPUs over jobs, and scheduling. We then formalize these as a joint problem, and build a new system architecture to tackle these challenges simultaneously. Our evaluations show that our joint-optimization approach yields 39-49% lower model selection runtimes than typical current DL practice.
翻訳日:2023-11-07 15:39:05 公開日:2023-11-06
# グラフ畳み込みニューラルネットワークのためのバロン空間

Barron Space for Graph Convolution Neural Networks ( http://arxiv.org/abs/2311.02838v1 )

ライセンス: Link先を確認
Seok-Young Chung and Qiyu Sun(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は、グラフドメイン上で動作し、幅広いタスクを達成するために優れたパフォーマンスを実現している。 本稿では,グラフ信号のコンパクト領域上の関数のバロン空間について述べる。 提案したバロン空間が再生核バナッハ空間であることを証明し、再生核ヒルベルト空間の族とニューロン核との結合に分解することができ、領域上の連続函数の空間において密接であることを示す。 近似特性は、ニューラルネットワークを設計する主な原則の1つである。 本稿では,gcnn の出力をバロン空間に含み,バロン空間の関数は積分正方形および一様測定におけるいくつかの gcnn の出力によってよく近似できることを示す。 また、有界なバロンノルムを持つ関数のラデマシェ複雑性を推定し、バロン空間内の関数をランダムなサンプルから効率的に学習できると結論付ける。

Graph convolutional neural network (GCNN) operates on graph domain and it has achieved a superior performance to accomplish a wide range of tasks. In this paper, we introduce a Barron space of functions on a compact domain of graph signals. We prove that the proposed Barron space is a reproducing kernel Banach space, it can be decomposed into the union of a family of reproducing kernel Hilbert spaces with neuron kernels, and it could be dense in the space of continuous functions on the domain. Approximation property is one of the main principles to design neural networks. In this paper, we show that outputs of GCNNs are contained in the Barron space and functions in the Barron space can be well approximated by outputs of some GCNNs in the integrated square and uniform measurements. We also estimate the Rademacher complexity of functions with bounded Barron norm and conclude that functions in the Barron space could be learnt from their random samples efficiently.
翻訳日:2023-11-07 15:38:54 公開日:2023-11-06
# 軌跡予測のための融合時空間グラフを用いたフレキシブルマルチジェネレータモデル

Flexible Multi-Generator Model with Fused Spatiotemporal Graph for Trajectory Prediction ( http://arxiv.org/abs/2311.02835v1 )

ライセンス: Link先を確認
Peiyuan Zhu, Fengxia Han and Hao Deng(参考訳) 軌道予測は自動車レーダーシステムにおいて重要な役割を担い、精密な追跡と自動走行における意思決定を促進する。 将来の軌道上の分布を学習できる生成的敵ネットワークは、通常、次の経路の分布が切断されるかもしれない様々な多様体の混合からなるときに発生する分布外サンプルを予測する傾向がある。 この問題に対処するために,歩行路の社会的相互作用の変動を捉え,分離した多様体をモデル化できる軌道予測フレームワークを提案する。 筆者らのフレームワークは,現場における歩行者の複雑な相互作用をモデル化するための融合時空間グラフと,生成した軌道上にフレキシブルなジェネレータセレクタネットワークを組み込んだマルチジェネレータアーキテクチャに基づいて,複数のジェネレータ上の分布を学習する。 我々のフレームワークは、さまざまな挑戦的データセットのベースラインと比較して、最先端のパフォーマンスを実現する。

Trajectory prediction plays a vital role in automotive radar systems, facilitating precise tracking and decision-making in autonomous driving. Generative adversarial networks with the ability to learn a distribution over future trajectories tend to predict out-of-distribution samples, which typically occurs when the distribution of forthcoming paths comprises a blend of various manifolds that may be disconnected. To address this issue, we propose a trajectory prediction framework, which can capture the social interaction variations and model disconnected manifolds of pedestrian trajectories. Our framework is based on a fused spatiotemporal graph to better model the complex interactions of pedestrians in a scene, and a multi-generator architecture that incorporates a flexible generator selector network on generated trajectories to learn a distribution over multiple generators. We show that our framework achieves state-of-the-art performance compared with several baselines on different challenging datasets.
翻訳日:2023-11-07 15:38:38 公開日:2023-11-06
# グラフニューラルネットワークにおける優先伝搬

Prioritized Propagation in Graph Neural Networks ( http://arxiv.org/abs/2311.02832v1 )

ライセンス: Link先を確認
Yao Cheng and Minjie Chen and Xiang Li and Caihua Shan and Ming Gao(参考訳) グラフニューラルネットワーク(GNN)が最近注目されている。 GNNにおけるノード単位のメッセージ伝搬の学習は、グラフ内の異なるノードに対してパーソナライズされた伝搬ステップを設定することを目的としている。 成功にもかかわらず、既存のメソッドはノードの影響とヘテロフィリーによって反映されるノード優先度を無視している。 本稿では,既存のほとんどのGNNモデルと統合可能な汎用フレームワークPProを提案する。 具体的には、バックボーンGNNモデル、ノードの最適な伝搬ステップを決定する伝搬制御器、ノードの優先度スコアを計算する重み制御器の3つのコンポーネントで構成される。 ノード優先度、最適な伝搬ステップ、ラベル予測を計算するための相互拡張機構を設計する。 また、バックボーンGNNモデルと2つのパラメトリックコントローラのパラメータを学習するための代替最適化手法を提案する。 8つのベンチマークデータセットで、他の11の最先端の競合とフレームワークを比較するために、広範な実験を行いました。 実験の結果,提案手法は伝播戦略とノード表現の面で優れた性能をもたらすことがわかった。

Graph neural networks (GNNs) have recently received significant attention. Learning node-wise message propagation in GNNs aims to set personalized propagation steps for different nodes in the graph. Despite the success, existing methods ignore node priority that can be reflected by node influence and heterophily. In this paper, we propose a versatile framework PPro, which can be integrated with most existing GNN models and aim to learn prioritized node-wise message propagation in GNNs. Specifically, the framework consists of three components: a backbone GNN model, a propagation controller to determine the optimal propagation steps for nodes, and a weight controller to compute the priority scores for nodes. We design a mutually enhanced mechanism to compute node priority, optimal propagation step and label prediction. We also propose an alternative optimization strategy to learn the parameters in the backbone GNN model and two parametric controllers. We conduct extensive experiments to compare our framework with other 11 state-of-the-art competitors on 8 benchmark datasets. Experimental results show that our framework can lead to superior performance in terms of propagation strategies and node representations.
翻訳日:2023-11-07 15:38:21 公開日:2023-11-06
# SemanticTopoLoop: 擬似レベルオブジェクトマップに基づく3次元トポロジカルグラフを用いたセマンティックループクロージャ

SemanticTopoLoop: Semantic Loop Closure With 3D Topological Graph Based on Quadric-Level Object Map ( http://arxiv.org/abs/2311.02831v1 )

ライセンス: Link先を確認
Zhenzhong Cao(参考訳) SLAMにおける重要なコンポーネントの1つであるループクロージャは、蓄積したエラーを修正する上で重要な役割を果たす。 bag-of-wordsモデルのような伝統的な外観ベースの手法は、しばしば局所的な2d特徴とトレーニングデータの量によって制限され、現実世界のシナリオでは汎用性や堅牢性が低下し、ループクロージャでの誤検出や誤検出に繋がる。 これらの課題に対処するために,我々はまず,現在のフレームの2次元意味的特徴と地図の3次元オブジェクトランドマークを関連付ける多段階検証に基づくオブジェクトレベルのデータアソシエーション手法を提案する。 次に,これらの関係を生かした2次オブジェクトマップトポロジに基づくセマンティックループクロージャ手法を導入する。これはオブジェクトのトポロジグラフを通してシーンを表現し,トポロジグラフの違いを比較することによって,広い視野で正確なループクロージャを実現する。 最後に、これら2つの手法を完全なオブジェクト認識SLAMシステムに統合する。 定性的実験とアブレーション研究は、提案したオブジェクトレベルのデータアソシエーションアルゴリズムの有効性とロバスト性を示す。 定量的な実験により,semantic loop closure法が既存の最先端手法よりも精度,リコール,ローカライズ精度の指標で優れていることが示された。

Loop closure, as one of the crucial components in SLAM, plays an essential role in correcting the accumulated errors. Traditional appearance-based methods, such as bag-of-words models, are often limited by local 2D features and the volume of training data, making them less versatile and robust in real-world scenarios, leading to missed detections or false positives detections in loop closure. To address these issues, we first propose a object-level data association method based on multi-level verification, which can associate 2D semantic features of current frame with 3D objects landmarks of map. Next, taking advantage of these association relations, we introduce a semantic loop closure method based on quadric-level object map topology, which represents scenes through the topological graph of objects and achieves accurate loop closure at a wide field of view by comparing differences in the topological graphs. Finally, we integrate these two methods into a complete object-aware SLAM system. Qualitative experiments and ablation studies demonstrate the effectiveness and robustness of the proposed object-level data association algorithm. Quantitative experiments show that our semantic loop closure method outperforms existing state-of-the-art methods in terms of precision, recall and localization accuracy metrics.
翻訳日:2023-11-07 15:38:01 公開日:2023-11-06
# 昇華促進プロビットモデル木について

On Subagging Boosted Probit Model Trees ( http://arxiv.org/abs/2311.02827v1 )

ライセンス: Link先を確認
Tian Qin, Wei-Min Huang(参考訳) 分散バイアス分解の知見を用いて、分類問題に対するSBPMTと呼ばれる新しいハイブリッドバッグリングブースティングアルゴリズムを設計する。 SBPMTの強化部分として,AdaBoostプロシージャにおけるベース分類器として,Probit Model Tree (PMT) と呼ばれる新しいツリーモデルを提案する。 バッグング部では、ブースティングの各ステップでデータセットからサブサンプリングする代わりに、サブタグ付きデータセットでブーストされたPMTを実行し、それを強力な"コミット"に組み合わせ、不完全なU統計を見ることができます。 理論的解析により,(1)sbpmtは一定の仮定の下で一貫性があり,(2)サブアグタイムの増加はsbpmtの一般化誤差をある程度低減し,(3)pmtの多くのプロビットブースト反復は,adaboost部分の歩数が少なくsbpmtの性能向上に寄与することが示された。 これら3つの性質は Mease and Wyner (2008) によって設計された有名なシミュレーションによって検証される。 最後の2つのポイントは、モデルチューニングにおける有用なガイダンスも提供する。 他の最先端の分類手法との比較により,提案アルゴリズムは一般に競争予測能力を有し,性能が著しく向上していることを示す。

With the insight of variance-bias decomposition, we design a new hybrid bagging-boosting algorithm named SBPMT for classification problems. For the boosting part of SBPMT, we propose a new tree model called Probit Model Tree (PMT) as base classifiers in AdaBoost procedure. For the bagging part, instead of subsampling from the dataset at each step of boosting, we perform boosted PMTs on each subagged dataset and combine them into a powerful "committee", which can be viewed an incomplete U-statistic. Our theoretical analysis shows that (1) SBPMT is consistent under certain assumptions, (2) Increase the subagging times can reduce the generalization error of SBPMT to some extent and (3) Large number of ProbitBoost iterations in PMT can benefit the performance of SBPMT with fewer steps in the AdaBoost part. Those three properties are verified by a famous simulation designed by Mease and Wyner (2008). The last two points also provide a useful guidance in model tuning. A comparison of performance with other state-of-the-art classification methods illustrates that the proposed SBPMT algorithm has competitive prediction power in general and performs significantly better in some cases.
翻訳日:2023-11-07 15:37:37 公開日:2023-11-06
# InstructPix2NeRF:単一画像からの3D画像編集

InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image ( http://arxiv.org/abs/2311.02826v1 )

ライセンス: Link先を確認
Jianhui Li, Shilong Liu, Zidong Liu, Yikai Wang, Kaiwen Zheng, Jinghui Xu, Jianmin Li, Jun Zhu(参考訳) 3D画像編集におけるNeural Radiance Field(NeRF)の成功により、品質と3D一貫性の両面で有望な成果が得られた。 しかし、これらの手法は自然言語を編集命令として扱う際に、プロンプトごとの最適化に大きく依存している。 ラベル付き人間の顔3dデータセットと効果的なアーキテクチャの欠如により、エンド・ツー・エンドのポートレートの3d対応編集領域は未開拓のままである。 そこで本研究では,人間の指示で1つのオープンワールドイメージから3次元画像編集を指示できるInstructPix2NeRFという,エンドツーエンドの拡散に基づくフレームワークを提案する。 中心となるのは条件付き3D拡散プロセスで、2D編集を3D空間に引き上げ、ペア画像の差分と3重データによる指示との相関を学習する。 提案するトークン位置ランダム化戦略の助けを借りて、ポートレートのアイデンティティを十分に保存した1回のパスでマルチセマンティクス編集を実現することさえ可能であった。 さらに,抽出された識別信号を拡散プロセスに直接変調し,マルチビューの3次元識別一貫性を増大させるid一貫性モジュールを提案する。 本手法の有効性を検証し, 強塩基性に対して定量的に, 定性的に優位性を示す。

With the success of Neural Radiance Field (NeRF) in 3D-aware portrait editing, a variety of works have achieved promising results regarding both quality and 3D consistency. However, these methods heavily rely on per-prompt optimization when handling natural language as editing instructions. Due to the lack of labeled human face 3D datasets and effective architectures, the area of human-instructed 3D-aware editing for open-world portraits in an end-to-end manner remains under-explored. To solve this problem, we propose an end-to-end diffusion-based framework termed InstructPix2NeRF, which enables instructed 3D-aware portrait editing from a single open-world image with human instructions. At its core lies a conditional latent 3D diffusion process that lifts 2D editing to 3D space by learning the correlation between the paired images' difference and the instructions via triplet data. With the help of our proposed token position randomization strategy, we could even achieve multi-semantic editing through one single pass with the portrait identity well-preserved. Besides, we further propose an identity consistency module that directly modulates the extracted identity signals into our diffusion process, which increases the multi-view 3D identity consistency. Extensive experiments verify the effectiveness of our method and show its superiority against strong baselines quantitatively and qualitatively.
翻訳日:2023-11-07 15:37:14 公開日:2023-11-06
# メッシュニューラルセルオートマトン

Mesh Neural Cellular Automata ( http://arxiv.org/abs/2311.02820v1 )

ライセンス: Link先を確認
Ehsan Pajouheshgar, Yitao Xu, Alexander Mordvintsev, Eyvind Niklasson, Tong Zhang, Sabine S\"usstrunk(参考訳) 仮想環境の現実性を高めるためには,テクスチャのモデリングと合成が不可欠である。 3dでテクスチャを直接合成する手法は、シームレスなテクスチャを作成でき、テクスチャが自然に形成される方法とより密接に連携できるため、uvマッピングベースの方法に異なる利点をもたらす。 本研究では,3dメッシュ上での動的テクスチャを直接合成する手法であるmesh neural cell automata (meshnca)を提案する。 MeshNCAは一般化されたセルオートマトンの一種で、3Dメッシュの頂点のような非グリッド構造上に配置されたセルの集合で動作する。 Icosphereメッシュでのみトレーニングされるが、MeshNCAは目覚ましい一般化を示し、トレーニング後の任意のメッシュ上でテクスチャをリアルタイムで合成することができる。 さらに、マルチモーダル監督に対応し、画像、テキストプロンプト、動きベクトルフィールドなどの異なるターゲットを使用してトレーニングすることができる。 さらに,トレーニング済みの MeshNCA インスタンスを移植する方法を概念化し,テクスチャ補間を可能にする。 メッシュNCAモデルはメッシュ上でリアルタイムな3次元テクスチャ合成を可能にし,テクスチャ密度/配向制御,グラフトブラシ,動き速度/方向制御などのユーザインタラクションを実現する。 最後に、WebGLシェーディング言語を使用して、MeshNCAモデルの前方パスを実装し、トレーニングされたモデルを、パーソナルコンピュータやスマートフォンでアクセス可能なオンラインインタラクティブなデモで示す。 このpdfのデモと高解像度版はhttps://meshnca.github.io/で入手できる。

Modeling and synthesizing textures are essential for enhancing the realism of virtual environments. Methods that directly synthesize textures in 3D offer distinct advantages to the UV-mapping-based methods as they can create seamless textures and align more closely with the ways textures form in nature. We propose Mesh Neural Cellular Automata (MeshNCA), a method for directly synthesizing dynamic textures on 3D meshes without requiring any UV maps. MeshNCA is a generalized type of cellular automata that can operate on a set of cells arranged on a non-grid structure such as vertices of a 3D mesh. While only being trained on an Icosphere mesh, MeshNCA shows remarkable generalization and can synthesize textures on any mesh in real time after the training. Additionally, it accommodates multi-modal supervision and can be trained using different targets such as images, text prompts, and motion vector fields. Moreover, we conceptualize a way of grafting trained MeshNCA instances, enabling texture interpolation. Our MeshNCA model enables real-time 3D texture synthesis on meshes and allows several user interactions including texture density/orientation control, a grafting brush, and motion speed/direction control. Finally, we implement the forward pass of our MeshNCA model using the WebGL shading language and showcase our trained models in an online interactive demo which is accessible on personal computers and smartphones. Our demo and the high resolution version of this PDF are available at https://meshnca.github.io/.
翻訳日:2023-11-07 15:36:51 公開日:2023-11-06
# 信号処理とSGD: モーメントからフィルタへ

Signal Processing Meets SGD: From Momentum to Filter ( http://arxiv.org/abs/2311.02818v1 )

ライセンス: Link先を確認
Zhipeng Yao, Guisong Chang, Jiaqi Zhang, Qi Zhang, Yu Zhang, Dazhou Li(参考訳) ディープラーニングの分野では、SGD(Stochastic Gradient Descent)とその運動量に基づく変種が最適化アルゴリズムの主要な選択肢である。 それにもかかわらず、これらの運動量戦略は、固定された$\beta$ハイパーパラメータを用いて最適化処理を円滑にすることで歴史的勾配を蓄積し、しばしば現在の勾配推定に対する歴史的勾配の分散の影響を無視する。 トレーニング中の勾配分散では、ゆらぎは目的関数が常にリプシッツ連続性条件を満たしていないことを示すため、厄介な最適化問題を引き起こす。 本研究の目的は, 歴史的勾配のばらつきを低減し, 最適化器を平坦な解に収束させる可能性を探ることである。 さらに,分散の低減に基づく新しい最適化手法を提案する。 我々は,ワイナーフィルタ理論を用いてsgdの最初のモーメント推定,特にオプティマイザへの適応重みを導入した。 特に、適応重みは、ディープラーニングモデルトレーニング中の勾配変動の時間的変動とともに動的に変化する。 提案する適応ウェイトオプティマイザであるsgdf(stochasticgradient descent with filter)は,最先端のオプティマイザと比較して良好な性能が得られることを示した。

In the field of deep learning, Stochastic Gradient Descent (SGD) and its momentum-based variants are the predominant choices for optimization algorithms. Despite all that, these momentum strategies, which accumulate historical gradients by using a fixed $\beta$ hyperparameter to smooth the optimization processing, often neglect the potential impact of the variance of historical gradients on the current gradient estimation. In the gradient variance during training, fluctuation indicates the objective function does not meet the Lipschitz continuity condition at all time, which raises the troublesome optimization problem. This paper aims to explore the potential benefits of reducing the variance of historical gradients to make optimizer converge to flat solutions. Moreover, we proposed a new optimization method based on reducing the variance. We employed the Wiener filter theory to enhance the first moment estimation of SGD, notably introducing an adaptive weight to optimizer. Specifically, the adaptive weight dynamically changes along with temporal fluctuation of gradient variance during deep learning model training. Experimental results demonstrated our proposed adaptive weight optimizer, SGDF (Stochastic Gradient Descent With Filter), can achieve satisfactory performance compared with state-of-the-art optimizers.
翻訳日:2023-11-07 15:36:27 公開日:2023-11-06
# apgl4sr:逐次レコメンデーションで適応的かつパーソナライズされたグローバルコラボレーティブ情報を持つ汎用フレームワーク

APGL4SR: A Generic Framework with Adaptive and Personalized Global Collaborative Information in Sequential Recommendation ( http://arxiv.org/abs/2311.02816v1 )

ライセンス: Link先を確認
Mingjia Yin, Hao Wang, Xiang Xu, Likang Wu, Sirui Zhao, Wei Guo, Yong Liu, Ruiming Tang, Defu Lian, Enhong Chen(参考訳) シーケンシャルレコメンデーションシステムは,ユーザのシーケンシャルな行動に埋もれた動的嗜好をキャプチャする上で,有望な有効性のために広く研究されている。 多くの成果にもかかわらず、既存の手法は通常、シーケンス内モデリングに焦点を合わせ、シーケンス間モデリングによるグローバルな協調情報の利用を見落とし、推奨性能が劣る。 したがって、先行研究は、事前定義されたルールによって構築されたグローバルな協調アイテムグラフを用いてこの問題に対処しようとする。 しかし、これらの手法は、グローバルな協調情報、すなわち適応性とパーソナライゼーションを捉える際に2つの重要な特性を無視する。 そこで我々は,適応的でパーソナライズされたグローバルな協調情報を逐次レコメンデーションシステムに組み込んだグラフ駆動型フレームワーク,Adaptive and Personalized Graph Learning for Sequential Recommendation (APGL4SR)を提案する。 具体的には,まず全項目間の適応的グローバルグラフを学習し,提案するsvdベースの加速器により計算負荷を軽減できる自己教師あり方式でグローバルな協調情報を収集する。 さらに,このグラフに基づいて,グローバルコラボレーティブ情報の利用をパーソナライズする手法である相対位置符号化方式を用いて,パーソナライズされた項目相関を抽出・活用することを提案する。 最後に、フレームワーク全体をマルチタスク学習パラダイムに最適化することで、apgl4srの各部分を相互に強化することができる。 汎用フレームワークとして、apgl4srは他のベースラインをかなりマージンで上回ることができる。 コードはhttps://github.com/Graph-Team/APGL4SRで公開されている。

The sequential recommendation system has been widely studied for its promising effectiveness in capturing dynamic preferences buried in users' sequential behaviors. Despite the considerable achievements, existing methods usually focus on intra-sequence modeling while overlooking exploiting global collaborative information by inter-sequence modeling, resulting in inferior recommendation performance. Therefore, previous works attempt to tackle this problem with a global collaborative item graph constructed by pre-defined rules. However, these methods neglect two crucial properties when capturing global collaborative information, i.e., adaptiveness and personalization, yielding sub-optimal user representations. To this end, we propose a graph-driven framework, named Adaptive and Personalized Graph Learning for Sequential Recommendation (APGL4SR), that incorporates adaptive and personalized global collaborative information into sequential recommendation systems. Specifically, we first learn an adaptive global graph among all items and capture global collaborative information with it in a self-supervised fashion, whose computational burden can be further alleviated by the proposed SVD-based accelerator. Furthermore, based on the graph, we propose to extract and utilize personalized item correlations in the form of relative positional encoding, which is a highly compatible manner of personalizing the utilization of global collaborative information. Finally, the entire framework is optimized in a multi-task learning paradigm, thus each part of APGL4SR can be mutually reinforced. As a generic framework, APGL4SR can outperform other baselines with significant margins. The code is available at https://github.com/Graph-Team/APGL4SR.
翻訳日:2023-11-07 15:36:06 公開日:2023-11-06
# インダクティブ・プリエント・チューニングを用いた効率的・自己教師付きポーズ推定

Efficient, Self-Supervised Human Pose Estimation with Inductive Prior Tuning ( http://arxiv.org/abs/2311.02815v1 )

ライセンス: Link先を確認
Nobline Yoo, Olga Russakovsky(参考訳) 2d human pose estimation(hpe)の目標は、ポーズ中の人物のイメージから解剖学的ランドマークをローカライズすることである。 SOTA技術は数千のラベル付きフィギュア(ファイントゥニングトランスフォーマーや深層CNNの訓練)を活用し、労働集約型のクラウドソーシングを用いて取得する。 一方,自己教師あり手法では,hpeタスクを再構築問題として再編成し,現在の精度は高いが,膨大な量のラベルなし視覚データを活用できる。 本研究では,自己監督型HPEを改善する方法について検討する。 1) 再現品質と推定精度の関係を解析し,(2) トレーニングデータの3分の1未満の量を用いて,作業にインスパイアされたベースラインより優れたモデルパイプラインを開発し,(3) 予測した身体部分の長さ比の一貫性を計測する自己監督的設定に適した新しい指標を提供する。 高度に設計された再構築損失と帰納的事前学習の組み合わせは,自己監督パラダイムの再構築とともにポーズ学習のコーディネートを支援する。

The goal of 2D human pose estimation (HPE) is to localize anatomical landmarks, given an image of a person in a pose. SOTA techniques make use of thousands of labeled figures (finetuning transformers or training deep CNNs), acquired using labor-intensive crowdsourcing. On the other hand, self-supervised methods re-frame the HPE task as a reconstruction problem, enabling them to leverage the vast amount of unlabeled visual data, though at the present cost of accuracy. In this work, we explore ways to improve self-supervised HPE. We (1) analyze the relationship between reconstruction quality and pose estimation accuracy, (2) develop a model pipeline that outperforms the baseline which inspired our work, using less than one-third the amount of training data, and (3) offer a new metric suitable for self-supervised settings that measures the consistency of predicted body part length proportions. We show that a combination of well-engineered reconstruction losses and inductive priors can help coordinate pose learning alongside reconstruction in a self-supervised paradigm.
翻訳日:2023-11-07 15:35:35 公開日:2023-11-06
# qualeval: モデル改善のための質的評価

QualEval: Qualitative Evaluation for Model Improvement ( http://arxiv.org/abs/2311.02807v1 )

ライセンス: Link先を確認
Vishvak Murahari, Ameet Deshpande, Peter Clark, Tanmay Rajpurohit, Ashish Sabharwal, Karthik Narasimhan, Ashwin Kalyan(参考訳) 定量的評価指標は、伝統的に、大規模言語モデル(LLM)を含む人工知能システムの進歩を測る上で重要な役割を果たしてきた。 しかし、これらの指標には固有の制限がある。 実世界のタスクの複雑な性質を考えると、モデル行動のきめ細かいニュアンスを捉えるには、定量化と比較のための単一のスカラーが不十分である。 メトリクスはモデルの比較とベンチマークの手段としてのみ機能し、実用的な診断を与えないため、モデル改善プロセスは困難である。 モデル開発者は、膨大なデータセットを精査し、データやセットアップをトレーニングするためのヒットまたはミス調整を試みることを含む広範囲な手作業の中で、自分自身を見出す。 本研究では,QualEvalをモデル改善のための手段として,自動定性評価によって定量的スカラーメトリクスを増大させる手法を提案することで,定量的メトリクスの欠点に対処する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、適用すればモデル改善を加速する人間可読な洞察を生成する。 この洞察は、詳細な可視化と人間による解釈可能な分析を備えた包括的なダッシュボードによって裏付けられている。 我々は,QualEvalの忠実さを,例えば,ベースラインと比較した場合の難解な対話課題(DialogSum)に対して,Llama 2モデルの絶対性能を最大15%向上させることを示すことによって,相関する。 qualevalはモデル開発の速度を向上し、本質的にはデータサイエンティスト・イン・ア・ボックスとして機能する。 現在の評価指標のクオリティ化と改善に重点を置いていることから,本手法はモデル評価と改善の両面において,新たな手法として機能する。

Quantitative evaluation metrics have traditionally been pivotal in gauging the advancements of artificial intelligence systems, including large language models (LLMs). However, these metrics have inherent limitations. Given the intricate nature of real-world tasks, a single scalar to quantify and compare is insufficient to capture the fine-grained nuances of model behavior. Metrics serve only as a way to compare and benchmark models, and do not yield actionable diagnostics, thus making the model improvement process challenging. Model developers find themselves amid extensive manual efforts involving sifting through vast datasets and attempting hit-or-miss adjustments to training data or setups. In this work, we address the shortcomings of quantitative metrics by proposing QualEval, which augments quantitative scalar metrics with automated qualitative evaluation as a vehicle for model improvement. QualEval uses a powerful LLM reasoner and our novel flexible linear programming solver to generate human-readable insights that when applied, accelerate model improvement. The insights are backed by a comprehensive dashboard with fine-grained visualizations and human-interpretable analyses. We corroborate the faithfulness of QualEval by demonstrating that leveraging its insights, for example, improves the absolute performance of the Llama 2 model by up to 15% points relative on a challenging dialogue task (DialogSum) when compared to baselines. QualEval successfully increases the pace of model development, thus in essence serving as a data-scientist-in-a-box. Given the focus on critiquing and improving current evaluation metrics, our method serves as a refreshingly new technique for both model evaluation and improvement.
翻訳日:2023-11-07 15:35:15 公開日:2023-11-06
# メタ学習におけるアクティブラーニングの探求 - コンテキストセットラベリングの強化

Exploring Active Learning in Meta-Learning: Enhancing Context Set Labeling ( http://arxiv.org/abs/2311.02879v1 )

ライセンス: Link先を確認
Wonho Bae, Jing Wang, Danica J. Sutherland(参考訳) ほとんどのメタ学習方法は、テスト時に新しいタスクを確立するために使われる(非常に小さい)コンテキストセットが受動的に提供されると仮定します。 しかし、いくつかの設定では、ラベルを付けるべき点を積極的に選択することは可能であり、注意深い選択による潜在的な利益は大きいが、設定には典型的なアクティブラーニング設定とは大きく異なる必要がある。 学習過程のどの部分がアクティブラーニングを使っているかによって、アクティブなメタラーニングを使ってコンテキストセットをラベル付けする方法を明らかにする。 この枠組みでは,ラベルのどの点を選択すべきかをガウス混合に適合させる自然アルゴリズムを提案するが,そのアルゴリズムは理論的な動機付けも持っている。 提案手法は,複数のベンチマークデータセットにまたがる様々なメタラーニングアルゴリズムを用いた場合,最先端のアクティブラーニング手法よりも優れている。

Most meta-learning methods assume that the (very small) context set used to establish a new task at test time is passively provided. In some settings, however, it is feasible to actively select which points to label; the potential gain from a careful choice is substantial, but the setting requires major differences from typical active learning setups. We clarify the ways in which active meta-learning can be used to label a context set, depending on which parts of the meta-learning process use active learning. Within this framework, we propose a natural algorithm based on fitting Gaussian mixtures for selecting which points to label; though simple, the algorithm also has theoretical motivation. The proposed algorithm outperforms state-of-the-art active learning methods when used with various meta-learning algorithms across several benchmark datasets.
翻訳日:2023-11-07 15:27:17 公開日:2023-11-06
# 内IoU:補助バウンディングボックスによるユニオン損失に対するより効果的なインターセクション

Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box ( http://arxiv.org/abs/2311.02877v1 )

ライセンス: Link先を確認
Hao Zhang, Cong Xu, Shuaijie Zhang(参考訳) 検出器の急速な開発に伴い、バウンディングボックス回帰(BBR)損失関数は常に更新され、最適化されている。 しかし、既存のIoUベースのBBRは、IoU損失項自体の制限を無視して、新たな損失項を追加することで収束を加速することに注力している。 理論的には、IoU損失はバウンディングボックス回帰の状態を効果的に記述できるが、実際は異なる検出器や検出タスクに従って自分自身を調整できず、強力な一般化を持たない。 以上に基づいて,まずBBRモデルを解析し,異なる回帰サンプルを識別し,異なるスケールの補助的境界ボックスを用いて損失を計算することにより,境界ボックス回帰過程を効果的に加速することができると結論付けた。 高いIoUサンプルでは、損失を計算するために小さい補助的境界ボックスを使用することで収束を加速し、大きな補助的境界ボックスは低いIoUサンプルに適している。 そこで我々は,補助的バウンディングボックスを通じてIoU損失を算出する内IoU損失を提案する。 異なるデータセットと検出器に対して、損失を計算するための補助境界ボックスのスケールサイズを制御するためのスケーリング係数比を導入する。 最後に、シミュレーションと比較実験のために既存のIoUベースの損失関数にInner-IoUを統合する。 実験の結果,本論文で提案した手法を応用した検出性能のさらなる向上が示され,内部IoU損失の有効性と一般化能力が検証された。

With the rapid development of detectors, Bounding Box Regression (BBR) loss function has constantly updated and optimized. However, the existing IoU-based BBR still focus on accelerating convergence by adding new loss terms, ignoring the limitations of IoU loss term itself. Although theoretically IoU loss can effectively describe the state of bounding box regression,in practical applications, it cannot adjust itself according to different detectors and detection tasks, and does not have strong generalization. Based on the above, we first analyzed the BBR model and concluded that distinguishing different regression samples and using different scales of auxiliary bounding boxes to calculate losses can effectively accelerate the bounding box regression process. For high IoU samples, using smaller auxiliary bounding boxes to calculate losses can accelerate convergence, while larger auxiliary bounding boxes are suitable for low IoU samples. Then, we propose Inner-IoU loss, which calculates IoU loss through auxiliary bounding boxes. For different datasets and detectors, we introduce a scaling factor ratio to control the scale size of the auxiliary bounding boxes for calculating losses. Finally, integrate Inner-IoU into the existing IoU-based loss functions for simulation and comparative experiments. The experiment result demonstrate a further enhancement in detection performance with the utilization of the method proposed in this paper, verifying the effectiveness and generalization ability of Inner IoU loss.
翻訳日:2023-11-07 15:27:01 公開日:2023-11-06
# 4次元胎児MRI時系列のアトラス学習のための動的ニューラルネットワーク

Dynamic Neural Fields for Learning Atlases of 4D Fetal MRI Time-series ( http://arxiv.org/abs/2311.02874v1 )

ライセンス: Link先を確認
Zeen Chi, Zhongxiao Cong, Clinton J. Wang, Yingcheng Liu, Esra Abaci Turk, P. Ellen Grant, S. Mazdak Abulnaga, Polina Golland, Neel Dey(参考訳) ニューラルネットワークを用いた高速バイオメディカル画像アトラス構築法を提案する。 アトラスはバイオメディカル画像解析のタスクの鍵であるが、従来のディープネットワーク推定手法は時間集約的のままである。 この予備研究では,変形可能な時空間観測のニューラルフィールドの学習として,主題特異的アトラス構築を構成づける。 本手法は,子宮における胎児の動的BOLD MRI時系列の被験者別アトラス学習と運動安定化に応用する。 本手法は,既存の作業と比較して,$\sim$5-7$\times$高速収束で胎児大胆な時系列の高品質アトラスを生成する。 提案手法は, 解剖学的重複の点において, 高度に調整されたベースラインをわずかに過小評価するが, テンプレートの精度は著しく向上し, 4次元ダイナミックMRIによる大規模データベースの高速処理と安定化が可能となった。 コードはhttps://github.com/Kidrauh/neural-atlasingで入手できる。

We present a method for fast biomedical image atlas construction using neural fields. Atlases are key to biomedical image analysis tasks, yet conventional and deep network estimation methods remain time-intensive. In this preliminary work, we frame subject-specific atlas building as learning a neural field of deformable spatiotemporal observations. We apply our method to learning subject-specific atlases and motion stabilization of dynamic BOLD MRI time-series of fetuses in utero. Our method yields high-quality atlases of fetal BOLD time-series with $\sim$5-7$\times$ faster convergence compared to existing work. While our method slightly underperforms well-tuned baselines in terms of anatomical overlap, it estimates templates significantly faster, thus enabling rapid processing and stabilization of large databases of 4D dynamic MRI acquisitions. Code is available at https://github.com/Kidrauh/neural-atlasing
翻訳日:2023-11-07 15:26:38 公開日:2023-11-06
# OVIR-3D: オープンボキャブラリー3Dインスタンスの検索

OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D Data ( http://arxiv.org/abs/2311.02873v1 )

ライセンス: Link先を確認
Shiyang Lu, Haonan Chang, Eric Pu Jing, Abdeslam Boularias, Kostas Bekris(参考訳) OVIR-3Dはオープンな3Dオブジェクトのインスタンス検索を、訓練に3Dデータを使うことなく簡単に効果的に行う方法である。 言語クエリが与えられた場合、提案手法は、インスタンスとテキストクエリの特徴的類似性に基づいて、ランク付けされた3Dオブジェクトインスタンスセグメントを返却することができる。 これはテキスト整列2D領域の提案を多視点で3D空間に融合することで実現され、2D領域の提案ネットワークは2Dデータセットを活用することができる。 提案手法は,ほとんどの屋内3次元シーンでリアルタイムに行うことができ,3次元空間における追加の訓練を必要としないため,効率がよい。 公開データセットと実ロボットに関する実験は、ロボットのナビゲーションと操作における手法の有効性とその可能性を示している。

This work presents OVIR-3D, a straightforward yet effective method for open-vocabulary 3D object instance retrieval without using any 3D data for training. Given a language query, the proposed method is able to return a ranked set of 3D object instance segments based on the feature similarity of the instance and the text query. This is achieved by a multi-view fusion of text-aligned 2D region proposals into 3D space, where the 2D region proposal network could leverage 2D datasets, which are more accessible and typically larger than 3D datasets. The proposed fusion process is efficient as it can be performed in real-time for most indoor 3D scenes and does not require additional training in 3D space. Experiments on public datasets and a real robot show the effectiveness of the method and its potential for applications in robot navigation and manipulation.
翻訳日:2023-11-07 15:26:22 公開日:2023-11-06
# focustune: focus-guided sampleによる視覚局在のチューニング

FocusTune: Tuning Visual Localization through Focus-Guided Sampling ( http://arxiv.org/abs/2311.02872v1 )

ライセンス: Link先を確認
Son Tung Nguyen, Alejandro Fontan, Michael Milford, Tobias Fischer(参考訳) 視覚的ローカライゼーションアルゴリズムの性能向上のための焦点誘導サンプリング手法であるFocusTuneを提案する。 FocusTuneは、鍵となる幾何学的制約を利用して、3Dポイント三角測量に不可欠な領域に対してシーン座標回帰モデルを指示する。 具体的には、シーン座標回帰モデルをトレーニングするために画像全体にわたって一様に点をサンプリングするのではなく、2次元画像平面上に3次元シーン座標を再プロジェクションし、再プロジェクションされた点の近傍にサンプルを配置する。 提案手法は一般に適用可能であるが,最近導入された Accelerated Coordinate Encoding (ACE) モデルと統合することでFocusTuneを紹介する。 その結果、Cambridge Landmarksのデータセットでは、19から17から15cmまでの翻訳誤差を1つのモデルで削減するなど、ACEの魅力の低いストレージと計算要求を保ちながら、FocusTuneは最先端のパフォーマンスを改善または一致させることがわかった。 このハイパフォーマンスと低コンピューティングとストレージの要件の組み合わせは、モバイルロボティクスや拡張現実といった分野のアプリケーションに特に有望です。 コードは \url{https://github.com/sontung/focus-tune} で公開しました。

We propose FocusTune, a focus-guided sampling technique to improve the performance of visual localization algorithms. FocusTune directs a scene coordinate regression model towards regions critical for 3D point triangulation by exploiting key geometric constraints. Specifically, rather than uniformly sampling points across the image for training the scene coordinate regression model, we instead re-project 3D scene coordinates onto the 2D image plane and sample within a local neighborhood of the re-projected points. While our proposed sampling strategy is generally applicable, we showcase FocusTune by integrating it with the recently introduced Accelerated Coordinate Encoding (ACE) model. Our results demonstrate that FocusTune both improves or matches state-of-the-art performance whilst keeping ACE's appealing low storage and compute requirements, for example reducing translation error from 25 to 19 and 17 to 15 cm for single and ensemble models, respectively, on the Cambridge Landmarks dataset. This combination of high performance and low compute and storage requirements is particularly promising for applications in areas like mobile robotics and augmented reality. We made our code available at \url{https://github.com/sontung/focus-tune}.
翻訳日:2023-11-07 15:26:08 公開日:2023-11-06
# 量子畳み込みニューラルネットワークにおけるチャネルの注意

Channel Attention for Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2311.02871v1 )

ライセンス: Link先を確認
Gekko Budiutama, Shunsuke Daimon, Hirofumi Nishi, Ryui Kaneko, Tomi Ohtsuki, Yu-ichiro Matsushita(参考訳) 量子畳み込みニューラルネットワーク(QCNN)は、量子機械学習の最も有望なアルゴリズムの1つとして注目を集めている。 これらのモデルの実用的な実装には、トレーニングコストの削減とパフォーマンスの向上が必要である。 本研究では,QCNNのチャネルアテンション機構を提案し,量子位相分類問題に対する本手法の有効性を示す。 我々の注意機構は、量子ビットの測定に基づいて出力状態の複数のチャネルを生成する。 この単純なアプローチはqcnnsの性能を改善し、追加の後処理としてfeedforwardニューラルネットワークを使用する従来のアプローチよりも優れている。

Quantum convolutional neural networks (QCNNs) have gathered attention as one of the most promising algorithms for quantum machine learning. Reduction in the cost of training as well as improvement in performance is required for practical implementation of these models. In this study, we propose a channel attention mechanism for QCNNs and show the effectiveness of this approach for quantum phase classification problems. Our attention mechanism creates multiple channels of output state based on measurement of quantum bits. This simple approach improves the performance of QCNNs and outperforms a conventional approach using feedforward neural networks as the additional post-processing.
翻訳日:2023-11-07 15:25:46 公開日:2023-11-06
# 不変条件下での確率分布推定のためのサンプル複雑度境界

Sample Complexity Bounds for Estimating Probability Divergences under Invariances ( http://arxiv.org/abs/2311.02868v1 )

ライセンス: Link先を確認
Behrooz Tahmasebi, Stefanie Jegelka(参考訳) グループ不変確率分布は、グラフ、点雲、画像など、機械学習における多くのデータ生成モデルに現れる。 実際には、そのような分布の相違を推定する必要があることが多い。 本研究では,多様体上のリー群の滑らかな作用に関する本質的不変性について,ワッサーシュタイン距離推定時のサンプル複雑性,ソボレフ積分確率メトリクス(sobolev ipms),最大平均偏差(mmd),密度推定問題の複雑性($l^2$および$l^2\infty$ distance)について検討する。 その結果,(1)群のサイズ(有限群の場合)や商空間の正規化体積(正次元群の場合)に対応する乗法因子によるサンプルの複雑性の減少,(2)収束率(正次元群の場合)の指数の向上,の2倍の利得が得られた。 これらの結果は正次元の群に対しては全く新しいものであり、有限群作用に対する最近の境界を拡張する。

Group-invariant probability distributions appear in many data-generative models in machine learning, such as graphs, point clouds, and images. In practice, one often needs to estimate divergences between such distributions. In this work, we study how the inherent invariances, with respect to any smooth action of a Lie group on a manifold, improve sample complexity when estimating the Wasserstein distance, the Sobolev Integral Probability Metrics (Sobolev IPMs), the Maximum Mean Discrepancy (MMD), and also the complexity of the density estimation problem (in the $L^2$ and $L^\infty$ distance). Our results indicate a two-fold gain: (1) reducing the sample complexity by a multiplicative factor corresponding to the group size (for finite groups) or the normalized volume of the quotient space (for groups of positive dimension); (2) improving the exponent in the convergence rate (for groups of positive dimension). These results are completely new for groups of positive dimension and extend recent bounds for finite group actions.
翻訳日:2023-11-07 15:25:38 公開日:2023-11-06
# 粗粒量子場に対する2回レゲット・ガーグ不等式違反

Violation of the two-time Leggett-Garg inequalities for a coarse-grained quantum field ( http://arxiv.org/abs/2311.02867v1 )

ライセンス: Link先を確認
Masaki Tani, Kosei Hatakeyama, Daisuke Miki, Yuki Yamasaki, Kazuhiro Yamamoto(参考訳) 量子場のレゲット・ガーグの不等式を破ることを調査し,粗粒スカラー場を持つ双調変数の2回準確率分布関数に着目した。 レゲット・ガーグの不等式は、場の量子状態と粗粒の大きさに依存する。 また,ディコトミック変数と射影演算子を適切に構成することにより,真空状態や圧縮状態においてもレゲット・ガーグの不等式が破れてしまうことを実証する。

We investigate the violation of the Leggett-Garg inequalities for a quantum field, focusing on the two-time quasi-probability distribution function of the dichotomic variable with a coarse-grained scalar field. The Leggett-Garg inequalities are violated depending on the quantum state of the field and the size of coarse-graining. We also demonstrate that the violation of the Leggett-Garg inequalities appears even for the vacuum state and the squeezed state by properly constructing the dichotomic variable and the projection operator.
翻訳日:2023-11-07 15:25:16 公開日:2023-11-06
# 時間シフト --多目的損失関数による異常転倒検出の改善

Temporal Shift -- Multi-Objective Loss Function for Improved Anomaly Fall Detection ( http://arxiv.org/abs/2311.02863v1 )

ライセンス: Link先を確認
Stefan Denkovski, Shehroz S. Khan, Alex Mihailidis(参考訳) 転倒は、世界中の高齢者の怪我と死亡の主な原因である。 正確な転倒検出は、潜在的な怪我と追加の健康合併症を軽減するのに役立つ。 ホーム設定では、RGB、赤外線、サーマルカメラなど、さまざまなタイプのビデオモダリティを使用してフォールを検出することができる。 オートエンコーダとその変種を用いた異常検出フレームワークは、フォールの希少性と多様性から生じるデータ不均衡により、フォール検出に使用できる。 しかし、オートエンコーダにおける再構成エラーの使用は、情報を伝達するネットワーク構造の適用を制限することができる。 本稿では,シーケンシャルフレームのウィンドウ内における将来のフレームと再構成フレームの両方を予測することを目的とした,時間シフトと呼ばれる新しい多目的損失関数を提案する。 提案する損失関数は,複数のカメラモードを含む半自然的転倒検出データセット上で評価される。 オートエンコーダは,高齢者が行う日常生活の正常活動(adl)を訓練し,若年成人が行うadlおよび転倒実験を行った。 時間シフトは、ベースラインの3次元畳み込みオートエンコーダ、注意のu-net cae、マルチモーダルニューラルネットワークに著しい改善を示している。 最大の改善は、1台のカメラで1台のリコンストラクションのみと比較して0.20 AUC ROC改善したU-Netモデルで観測された。 異なるモデルにまたがる大幅な改善により、このアプローチは広く採用され、転倒検出以外の設定で異常検出機能を改善する可能性がある。

Falls are a major cause of injuries and deaths among older adults worldwide. Accurate fall detection can help reduce potential injuries and additional health complications. Different types of video modalities can be used in a home setting to detect falls, including RGB, Infrared, and Thermal cameras. Anomaly detection frameworks using autoencoders and their variants can be used for fall detection due to the data imbalance that arises from the rarity and diversity of falls. However, the use of reconstruction error in autoencoders can limit the application of networks' structures that propagate information. In this paper, we propose a new multi-objective loss function called Temporal Shift, which aims to predict both future and reconstructed frames within a window of sequential frames. The proposed loss function is evaluated on a semi-naturalistic fall detection dataset containing multiple camera modalities. The autoencoders were trained on normal activities of daily living (ADL) performed by older adults and tested on ADLs and falls performed by young adults. Temporal shift shows significant improvement to a baseline 3D Convolutional autoencoder, an attention U-Net CAE, and a multi-modal neural network. The greatest improvement was observed in an attention U-Net model improving by 0.20 AUC ROC for a single camera when compared to reconstruction alone. With significant improvement across different models, this approach has the potential to be widely adopted and improve anomaly detection capabilities in other settings besides fall detection.
翻訳日:2023-11-07 15:25:05 公開日:2023-11-06
# 効率的なエンドツーエンドアプローチによる完全ロギングステートメントの生成

Generate Complete Logging Statements with an Efficient End-to-End Approach ( http://arxiv.org/abs/2311.02862v1 )

ライセンス: Link先を確認
Xiaoyuan Xie, Zhipeng Cai, Songqiang Chen, Jifeng Xuan(参考訳) ログは現代のソフトウェアシステムにおいて重要であり、様々なメンテナンスタスクを支援する。 これらのログをよりよく利用するために、開発者が適切なロギングステートメントをドラフトするのに役立つ多くのメソッドが提案されている。 しかし、これらのメソッドは、ロギングの位置を見つけるか、ロギングステートメントの部分的なコンテンツを書くか、完全なロギングステートメントの生成と挿入を効率的に助けることができない。 これらの制限に対処するために,ログステートメントの自動生成をよりよくサポートする新しい手法を提案する。 エンドツーエンドの手法は,まずトークン分類を利用してログステートメントを挿入する場所を特定し,次にSeq2Seqモデルを用いてログレベルとログメッセージの完全なログステートメントを生成する。 提案手法を,以前に使用したベンチマークと自己構築型ベンチマークで評価した。 実験の結果,本手法は,生成速度と品質の両面において最先端のアプローチをかなり上回っていることがわかった。

Logs are significant in modern software systems, aiding in various maintenance tasks. To make better use of these logs, many methods have been proposed to help developers draft suitable logging statements. However, these methods only help developers either locate logging positions or write partial content of logging statements, or cannot efficiently help in generating and inserting complete logging statements. To address their limitations, we introduce a new method to better support the automated end-to-end generation of logging statements. Our end-to-end method consists of two steps, first utilizing token classification to locate where to insert a logging statement, and then employing a Seq2Seq model to generate a complete logging statement with a log level and a log message for that position. We evaluate our proposed method on the previously used benchmark and a self-constructed new benchmark. The experimental results show that our method outperforms the state-of-the-art approach a lot regarding both generation speed and quality.
翻訳日:2023-11-07 15:24:45 公開日:2023-11-06
# ワンショット以下の:Extremely Weak Supervisionによる名前付きエンティティ認識

Less than One-shot: Named Entity Recognition via Extremely Weak Supervision ( http://arxiv.org/abs/2311.02861v1 )

ライセンス: Link先を確認
Letian Peng, Zihan Wang, Jingbo Shang(参考訳) 名前付きエンティティ認識(NER)の問題を極端に弱い監督(XWS)設定で検討し、1つの型に1つの例を文脈自由な方法で与える。 監視量の観点からは,XWSがワンショットよりも軽いことが分かるが,最先端のワンショットNER法よりも優れた新しい手法であるX-NERを提案する。 まず、ラベルなしのトレーニングコーパスから、例のエンティティに類似したエンティティスパンをマイニングします。 言語モデルからエンティティスパン表現を利用する代わりに、スパンがエンティティの例に置き換えられる前後のコンテキスト分布を比較する方が効果的である。 次に、上位のスパンを擬似ラベルとして活用して、NERタグをトレーニングします。 4つのNERデータセットの大規模な実験と解析により、X-NERのエンドツーエンドのNER性能が向上し、1ショットの監視とChatGPTアノテーションで最先端の数ショット法よりも大幅に向上した。 最後に、我々のX-NERは、基礎となる言語モデルの言語間能力の継承など、いくつかの注目すべき特性を持っている。

We study the named entity recognition (NER) problem under the extremely weak supervision (XWS) setting, where only one example entity per type is given in a context-free way. While one can see that XWS is lighter than one-shot in terms of the amount of supervision, we propose a novel method X-NER that can outperform the state-of-the-art one-shot NER methods. We first mine entity spans that are similar to the example entities from an unlabelled training corpus. Instead of utilizing entity span representations from language models, we find it more effective to compare the context distributions before and after the span is replaced by the entity example. We then leverage the top-ranked spans as pseudo-labels to train an NER tagger. Extensive experiments and analyses on 4 NER datasets show the superior end-to-end NER performance of X-NER, outperforming the state-of-the-art few-shot methods with 1-shot supervision and ChatGPT annotations significantly. Finally, our X-NER possesses several notable properties, such as inheriting the cross-lingual abilities of the underlying language models.
翻訳日:2023-11-07 15:24:28 公開日:2023-11-06
# 太陽画像データのニューラルベース圧縮方式

Neural-based Compression Scheme for Solar Image Data ( http://arxiv.org/abs/2311.02855v1 )

ライセンス: Link先を確認
Ali Zafari, Atefeh Khoshkhahtinat, Jeremy A. Grajeda, Piyush M. Mehta, Nasser M. Nasrabadi, Laura E. Boucheron, Barbara J. Thompson, Michael S. F. Kirk, Daniel da Silva(参考訳) 太陽系、特に太陽の研究は、宇宙ミッションから毎日収集されたデータに依存している。 これらのミッションはデータ集約的で、データを圧縮して地上局に効率的に転送できるようにするという2つの決定である。 データを歪ませることで、より強い圧縮法は、データの科学的分析に影響を与える可能性のある精度でデータのスループットを向上させることができる。 一方、圧縮データの微妙な詳細を保存するには、大量のデータを転送する必要があるため、圧縮による所望の利益が削減される。 本研究では、NASAのデータ集約画像ミッションで使用されるニューラルネットワークに基づく損失圧縮手法を提案する。 私たちは提案されたアルゴリズムの概念実証として、毎日1.4テラバイトのデータを送信するNASAのSDOミッションを選択しました。 本研究では,局所的および非局所的な注意モジュールを備え,画像の局所的構造と大域的構造の両方を捉えることで,従来のハンドエンジニアリングコーデックに比べてレート・ディストリクト(rd)のトレードオフが向上する,敵対的に訓練されたニューラルネットワークを提案する。 この研究で用いられるrd変分オートエンコーダは、解析と合成変換の共有事前としてチャネル依存エントロピーモデルと共同で訓練され、潜在コードのエントロピー符号化をより効果的にする。 我々のニューラル画像圧縮アルゴリズムは、超紫外線(EUV)データを圧縮する際のRD性能の観点から、JPEGやJPEG-2000のような現在使われているコーデックや最先端のコーデックよりも優れている。 このアルゴリズムをSDOデータ解析に使用するための概念実証として、圧縮画像を用いてコロナホール(CH)検出を行い、SDOのEUVデータを用いて1ピクセルあたり$\sim0.1$bits(元のデータでは8ビット)の圧縮レートでも一貫したセグメンテーションを生成した。

Studying the solar system and especially the Sun relies on the data gathered daily from space missions. These missions are data-intensive and compressing this data to make them efficiently transferable to the ground station is a twofold decision to make. Stronger compression methods, by distorting the data, can increase data throughput at the cost of accuracy which could affect scientific analysis of the data. On the other hand, preserving subtle details in the compressed data requires a high amount of data to be transferred, reducing the desired gains from compression. In this work, we propose a neural network-based lossy compression method to be used in NASA's data-intensive imagery missions. We chose NASA's SDO mission which transmits 1.4 terabytes of data each day as a proof of concept for the proposed algorithm. In this work, we propose an adversarially trained neural network, equipped with local and non-local attention modules to capture both the local and global structure of the image resulting in a better trade-off in rate-distortion (RD) compared to conventional hand-engineered codecs. The RD variational autoencoder used in this work is jointly trained with a channel-dependent entropy model as a shared prior between the analysis and synthesis transforms to make the entropy coding of the latent code more effective. Our neural image compression algorithm outperforms currently-in-use and state-of-the-art codecs such as JPEG and JPEG-2000 in terms of the RD performance when compressing extreme-ultraviolet (EUV) data. As a proof of concept for use of this algorithm in SDO data analysis, we have performed coronal hole (CH) detection using our compressed images, and generated consistent segmentations, even at a compression rate of $\sim0.1$ bits per pixel (compared to 8 bits per pixel on the original data) using EUV data from SDO.
翻訳日:2023-11-07 15:24:07 公開日:2023-11-06
# 分散マルチgpu ab initio density matrix renormalization group algorithmとそのp-cluster of nitrogenaseへの応用

A distributed multi-GPU ab initio density matrix renormalization group algorithm with applications to the P-cluster of nitrogenase ( http://arxiv.org/abs/2311.02854v1 )

ライセンス: Link先を確認
Chunyang Xiang, Weile Jia, Wei-Hai Fang, Zhendong Li(参考訳) 多くの縮退した$d/f$軌道の存在により、鉄-硫黄クラスターのような多核遷移金属化合物は、最先端の量子化学法に挑戦する。 この課題に対処するために、現代高性能コンピューティング(HPC)インフラに適した、最初の分散マルチGPU (Graphics Processing Unit) ab initio density matrix renormalization (DMRG)アルゴリズムを提案する。 中心となるアイデアは、最も計算集約的な部分である$o(k^2)$演算子と試行的な波動関数の乗算を並列化することであり、ここで$k$は空間軌道の数である。 この新しい実装により、Pクラスターの活性空間モデル(73個の活性軌道中の114電子)の基底状態エネルギーに対して、48個のGPU(NVIDIA A100 80 GB SXM)上の結合次元$D=14000$という前例のない精度(金属当たり1ミリハート)に達することができる。

The presence of many degenerate $d/f$ orbitals makes polynuclear transition metal compounds such as iron-sulfur clusters in nitrogenase challenging for state-of-the-art quantum chemistry methods. To address this challenge, we present the first distributed multi-GPU (Graphics Processing Unit) ab initio density matrix renormalization (DMRG) algorithm, suitable for modern high-performance computing (HPC) infrastructures. The central idea is to parallelize the most computationally intensive part - the multiplication of $O(K^2)$ operators with a trial wavefunction, where $K$ is the number of spatial orbitals, by combining operator parallelism for distributing the workload with a batched algorithm for performing contractions on GPU. With this new implementation, we are able to reach an unprecedented accuracy (1 milli-Hartree per metal) for the ground-state energy of an active space model (114 electrons in 73 active orbitals) of the P-cluster with a bond dimension $D=14000$ on 48 GPUs (NVIDIA A100 80 GB SXM), which is nearly three times larger than the bond dimensions reported in previous DMRG calculations for the same system using only CPUs.
翻訳日:2023-11-07 15:23:35 公開日:2023-11-06
# 大規模言語モデルによる機械翻訳の改善:協調復号化による予備研究

Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding ( http://arxiv.org/abs/2311.02851v1 )

ライセンス: Link先を確認
Jiali Zeng and Fandong Meng and Yongjing Yin and Jie Zhou(参考訳) エンコーダ/デコーダフレームワーク上に構築された現代翻訳エンジンは高い開発水準に達し、大言語モデル(llm)の出現は、優れた翻訳品質を達成する可能性を提供することでその地位を乱している。 したがって, LLM が従来の NMT システムより優れているシナリオと, その強みを活用する方法を理解することが重要である。 本稿では,様々な商用nmtシステムとmt指向llmの強度と限界を評価するために,まず総合的な解析を行う。 以上の結果から,NMT と MT 指向 LLM だけではすべての翻訳問題に効果的に対処できないが,MT 指向 LLM は NMT システムにとって有望な補完となることが示唆された。 これらの知見に基づいて,NMTシステムを事前翻訳モデルとして扱う協調復号法(CoDec)と,NMTのみの機能を超える複雑なシナリオを扱う補足的なソリューションとして,協調復号法(CoDec)を提案する。 WMT22 テストセットと新たに収集したテストセット WebCrawl は CoDec の有効性と効率を実証し,機械翻訳における NMT システムと MT 指向 LLM を組み合わせた堅牢なソリューションとしての可能性を強調した。

Contemporary translation engines built upon the encoder-decoder framework have reached a high level of development, while the emergence of Large Language Models (LLMs) has disrupted their position by offering the potential for achieving superior translation quality. Therefore, it is crucial to understand in which scenarios LLMs outperform traditional NMT systems and how to leverage their strengths. In this paper, we first conduct a comprehensive analysis to assess the strengths and limitations of various commercial NMT systems and MT-oriented LLMs. Our findings indicate that neither NMT nor MT-oriented LLMs alone can effectively address all the translation issues, but MT-oriented LLMs can serve as a promising complement to the NMT systems. Building upon these insights, we explore hybrid methods and propose Cooperative Decoding (CoDec), which treats NMT systems as a pretranslation model and MT-oriented LLMs as a supplemental solution to handle complex scenarios beyond the capability of NMT alone. The results on the WMT22 test sets and a newly collected test set WebCrawl demonstrate the effectiveness and efficiency of CoDec, highlighting its potential as a robust solution for combining NMT systems with MT-oriented LLMs in machine translation.
翻訳日:2023-11-07 15:23:08 公開日:2023-11-06
# 言語モデルの品質向上と圧縮のための共学習と共蒸留

Co-training and Co-distillation for Quality Improvement and Compression of Language Models ( http://arxiv.org/abs/2311.02849v1 )

ライセンス: Link先を確認
Hayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Hongbo Zhang, Sung Ju Hwang, Alexander Min(参考訳) 知識蒸留 (kd) は計算コストの高い事前学習言語モデル (plm) を圧縮し、知識をより小さなモデルに移し、リソース制約付きまたはリアルタイムの設定で使用できるようにする。 しかし、ほとんどの小型モデルはオリジナルの大型モデルの性能を超えず、推論速度を改善するために性能を犠牲にしている。 そこで本研究では,知識を相互に蒸留しながら2つのモデルを共同学習することで,性能と推論速度を両立させる新しいフレームワークであるCTCDを提案する。 CTCDフレームワークは2つの重要な発見に基づいてこれを達成している。 1) 学習中の小モデルから大モデルへの知識の蒸留は、大モデルの性能を向上させる。 2)大型モデルの性能向上により,小型モデルの性能はさらに向上する。 ctcdフレームワークは、アーキテクチャ設計やデータ拡張といった既存の技術と組み合わせ、一方通行のkdメソッドを置き換えることで、さらなるパフォーマンス改善を実現することができる。 広範囲にわたるアブレーション研究はCTCDの有効性を示し、CTCDで蒸留した小型モデルはGLUEベンチマークで1.66の差で元の大型モデルよりも優れていた。

Knowledge Distillation (KD) compresses computationally expensive pre-trained language models (PLMs) by transferring their knowledge to smaller models, allowing their use in resource-constrained or real-time settings. However, most smaller models fail to surpass the performance of the original larger model, resulting in sacrificing performance to improve inference speed. To address this issue, we propose Co-Training and Co-Distillation (CTCD), a novel framework that improves performance and inference speed together by co-training two models while mutually distilling knowledge. The CTCD framework successfully achieves this based on two significant findings: 1) Distilling knowledge from the smaller model to the larger model during co-training improves the performance of the larger model. 2) The enhanced performance of the larger model further boosts the performance of the smaller model. The CTCD framework shows promise as it can be combined with existing techniques like architecture design or data augmentation, replacing one-way KD methods, to achieve further performance improvement. Extensive ablation studies demonstrate the effectiveness of CTCD, and the small model distilled by CTCD outperforms the original larger model by a significant margin of 1.66 on the GLUE benchmark.
翻訳日:2023-11-07 15:22:44 公開日:2023-11-06
# Edge2Node: ノード分類へのエッジ予測の削減

Edge2Node: Reducing Edge Prediction to Node Classification ( http://arxiv.org/abs/2311.02921v1 )

ライセンス: Link先を確認
Zahed Rahmati, Ali Rahmati, Dariush Kazemi(参考訳) ノード分類におけるグラフニューラルネットワークモデルの成功にもかかわらず、エッジ予測(グラフ内のノード間の欠落や潜在的な関係を予測するタスク)は、これらのモデルにとって難しい問題である。 エッジ予測の一般的なアプローチは、まず2つのノードの埋め込みを取得し、2つのノード間のエッジの存在を予測するために、事前に定義されたスコアリング関数を使用する。 本稿では,得点関数を必要とせず,各辺への埋め込みを直接得るe2n(edge2node)と呼ばれる新しい手法を提案する。 これを実現するために,エッジ予測タスクに与えられたグラフgに基づいて新しいグラフhを作成し,gのエッジ予測タスクをh上のノード分類タスクに還元する。 ogbl-ddiとogbl-collabデータセットでは、e2nメソッドは、リーダボードにリストされた最先端のメソッドよりも優れています。 ogbl-ddiデータセットの実験では、検証セットで98.79%、テストセットで98.11%のhit@20スコアを達成しました。 ogbl-Collabデータセットでは、検証セットで95.46%、テストセットで95.15%のHits@50スコアを達成しました。

Despite the success of graph neural network models in node classification, edge prediction (the task of predicting missing or potential relationships between nodes in a graph) remains a challenging problem for these models. A common approach for edge prediction is to first obtain the embeddings of two nodes, and then a predefined scoring function is used to predict the existence of an edge between the two nodes. In this paper, we introduce a new approach called E2N (Edge2Node) which directly obtains an embedding for each edge, without the need for a scoring function. To do this, we create a new graph H based on the graph G given for the edge prediction task, and then reduce the edge prediction task on G to a node classification task on H. Our E2N method can be easily applied to any edge prediction task with superior performance and lower computational costs. For the ogbl-ddi and ogbl-collab datasets, our E2N method outperforms the state-of-the-art methods listed on the leaderboards. Our experiments on the ogbl-ddi dataset achieved a Hits@20 score of 98.79% on the validation set and 98.11% on the test set. On the ogbl-collab dataset, we achieved a Hits@50 score of 95.46% on the validation set and 95.15% on the test set.
翻訳日:2023-11-07 15:15:11 公開日:2023-11-06
# バーチャル・アクション・アクター・クライブ・フレームワークによる探索(学生要約)

Virtual Action Actor-Critic Framework for Exploration (Student Abstract) ( http://arxiv.org/abs/2311.02916v1 )

ライセンス: Link先を確認
Bumgeun Park, Taeyoung Kim, Quoc-Vinh Lai-Dang, Dongsoo Har(参考訳) エージェントの効率的な探索は強化学習(RL)において困難である。 本稿では,RLにおける効率的な探索の課題を解決するために,新たなアクター批判フレームワークである仮想アクションアクター批判(VAAC)を提案する。 この研究は、人間が実際に行動を起こすことなく行動の結果を想像できる能力にインスパイアされている。 この能力をエミュレートするため、VAACは従来のアクター批判フレームワークと並行して、仮想アクター(VA)と呼ばれる新しいアクターを導入した。 従来のアクターとは異なり、VAは仮想アクションを使って環境と対話することなく次の状態を予測する。 ガウス分布に続く仮想ポリシーにより、VAは仮想アクションによって生じる次の状態の予想される新規性を最大化するために訓練される。 利用可能なアクションから生じる次の状態が期待された新しさを示さない場合、vaのトレーニングは仮想ポリシーエントロピーの増加につながる。 したがって、高い仮想ポリシーエントロピーは探索の余地がないことを示している。 提案したVAACは、累積報酬と仮想ポリシーエントロピーの負の和を組み合わせた修正Q関数の最大化を目的としている。 実験の結果,vaacは既存のアルゴリズムと比較して探索性能が向上することがわかった。

Efficient exploration for an agent is challenging in reinforcement learning (RL). In this paper, a novel actor-critic framework namely virtual action actor-critic (VAAC), is proposed to address the challenge of efficient exploration in RL. This work is inspired by humans' ability to imagine the potential outcomes of their actions without actually taking them. In order to emulate this ability, VAAC introduces a new actor called virtual actor (VA), alongside the conventional actor-critic framework. Unlike the conventional actor, the VA takes the virtual action to anticipate the next state without interacting with the environment. With the virtual policy following a Gaussian distribution, the VA is trained to maximize the anticipated novelty of the subsequent state resulting from a virtual action. If any next state resulting from available actions does not exhibit high anticipated novelty, training the VA leads to an increase in the virtual policy entropy. Hence, high virtual policy entropy represents that there is no room for exploration. The proposed VAAC aims to maximize a modified Q function, which combines cumulative rewards and the negative sum of virtual policy entropy. Experimental results show that the VAAC improves the exploration performance compared to existing algorithms.
翻訳日:2023-11-07 15:14:49 公開日:2023-11-06
# 模擬学習に基づくマルチエージェント・ポリシー最適化によるスマートスワム指向パースーツ回避

Imitation Learning based Alternative Multi-Agent Proximal Policy Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance ( http://arxiv.org/abs/2311.02912v1 )

ライセンス: Link先を確認
Sizhao Li, Yuming Xiang, Rongpeng Li, Zhifeng Zhao, Honggang Zhang(参考訳) マルチロボットシステム(MRS)は幅広い研究の関心を集め、特に協調制御分野において非常に興味深い応用を育ててきた。 しかし、追跡回避のための分散型大規模MSSの形成、監視、防衛の複合能力にはほとんど光が当たっていないため、調整能力と適応性に厳しい要件が課せられる。 本稿では,マルチエージェント・近位政策最適化 (ia-mappo) アルゴリズムを用いた分散模倣学習を行い,スワーミングで追従回避タスクを実行するためのフレキシブルで通信経済的な解法を提案する。 特に、政策蒸留に基づくMAPPOエグゼキュータは、まず、複数の形態を集中的に容易に切り替えるように設計されている。 さらに,コミュニケーションオーバーヘッドを低減し,拡張性を向上させるために,生成コントローラの分散化に模倣学習を利用する。 その後、分散化によって生じるパフォーマンス損失を補うために、代替トレーニングが活用される。 シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能を示した。

Multi-Robot System (MRS) has garnered widespread research interest and fostered tremendous interesting applications, especially in cooperative control fields. Yet little light has been shed on the compound ability of formation, monitoring and defence in decentralized large-scale MRS for pursuit avoidance, which puts stringent requirements on the capability of coordination and adaptability. In this paper, we put forward a decentralized Imitation learning based Alternative Multi-Agent Proximal Policy Optimization (IA-MAPPO) algorithm to provide a flexible and communication-economic solution to execute the pursuit avoidance task in well-formed swarm. In particular, a policy-distillation based MAPPO executor is firstly devised to capably accomplish and swiftly switch between multiple formations in a centralized manner. Furthermore, we utilize imitation learning to decentralize the formation controller, so as to reduce the communication overheads and enhance the scalability. Afterwards, alternative training is leveraged to compensate the performance loss incurred by decentralization. The simulation results validate the effectiveness of IA-MAPPO and extensive ablation experiments further show the performance comparable to a centralized solution with significant decrease in communication overheads.
翻訳日:2023-11-07 15:14:28 公開日:2023-11-06
# 深い顔の表情認識のベンチマーク: 野生におけるバランスの取れたデータセットを持つ拡張プロトコル

Benchmarking Deep Facial Expression Recognition: An Extensive Protocol with Balanced Dataset in the Wild ( http://arxiv.org/abs/2311.02910v1 )

ライセンス: Link先を確認
Gianmarco Ipinze Tutuianu, Yang Liu, Ari Alam\"aki, Janne Kauttonen(参考訳) 表情認識(FER)は人間とコンピュータの相互作用において重要な部分である。 既存のFER法は、異なるオープンソースのディープモデルとトレーニングアプローチに基づいて高精度で一般化されている。 しかし、これらの手法の性能は、ほとんど探索されない実践的な設定に遭遇するときに必ずしも良いとは限らない。 本稿では,クロスドメイン検証のための新しい顔表情データセットを収集した。 23の一般的なネットワークアーキテクチャを実装し,一様プロトコルに従って評価した。 さらに, 入力解像度, クラスバランス管理, 事前学習戦略の観点から, 各種設定を検証し, 対応性能の寄与を示す。 3つの大規模FERデータセットと実用的なクロスバリデーションに関する広範な実験に基づいて、ネットワークアーキテクチャを分類し、実際のシナリオにディープFERメソッドをデプロイする際の推奨事項をまとめた。 加えて、潜在的な倫理的ルール、プライバシー問題、規制は、マーケティング、教育、エンタテインメントビジネスといった実用的なferアプリケーションで議論された。

Facial expression recognition (FER) is a crucial part of human-computer interaction. Existing FER methods achieve high accuracy and generalization based on different open-source deep models and training approaches. However, the performance of these methods is not always good when encountering practical settings, which are seldom explored. In this paper, we collected a new in-the-wild facial expression dataset for cross-domain validation. Twenty-three commonly used network architectures were implemented and evaluated following a uniform protocol. Moreover, various setups, in terms of input resolutions, class balance management, and pre-trained strategies, were verified to show the corresponding performance contribution. Based on extensive experiments on three large-scale FER datasets and our practical cross-validation, we ranked network architectures and summarized a set of recommendations on deploying deep FER methods in real scenarios. In addition, potential ethical rules, privacy issues, and regulations were discussed in practical FER applications such as marketing, education, and entertainment business.
翻訳日:2023-11-07 15:14:06 公開日:2023-11-06
# グラフニューラルネットワークトレーニングのための分散行列ベースサンプリング

Distributed Matrix-Based Sampling for Graph Neural Network Training ( http://arxiv.org/abs/2311.02909v1 )

ライセンス: Link先を確認
Alok Tripathy, Katherine Yelick, Aydin Buluc(参考訳) 本研究の主な貢献は,分散GNNトレーニングにおけるサンプリングステップにおける通信の削減手法である。 本稿では,スパース行列乗算(SpGEMM)としてサンプリングを表現する行列ベースのバルクサンプリング手法を提案し,同時に複数のミニバッチをサンプリングする。 入力グラフトポロジが1つのデバイスに収まらない場合、そのグラフを分散し、通信回避のSpGEMMアルゴリズムを用いてGNNミニバッチサンプリングをスケールし、単一のデバイスメモリに収まるものよりもはるかに大きなグラフでのトレーニングを可能にする。 入力グラフトポロジ(埋め込みではない)が1つのgpuのメモリに収まると、(1)通信なしでサンプリングを行い、(2)ミニバッチをサンプリングするオーバーヘッドを償却し、(3)異なるマトリックス構成を用いて複数のサンプリングアルゴリズムを表現できる。 新しいサンプリング法に加えて,分散GNNトレーニングにおける特徴抽出の現在の手法よりも,単純なオール・ツー・オール交換で特徴データを任意に複製できることを示す。 我々は、28ドルのGPU上で最大のOpen Graph Benchmark(OGB)データセットの実験結果を提供し、パイプラインが3ドルのGraphSAGEネットワーク上で2.5\times$ faster Quiver(PyTorch-Geometricへの分散拡張)であることを示す。 OGB以外のデータセットでは、画期的な時間内に128ドルのGPUで8.46\times$のスピードアップを示す。 最後に、グラフがGPUに分散されている場合のスケーリングと、ノードワイドおよびレイヤワイドサンプリングアルゴリズムのスケーリングを示す。

The primary contribution of this paper is new methods for reducing communication in the sampling step for distributed GNN training. Here, we propose a matrix-based bulk sampling approach that expresses sampling as a sparse matrix multiplication (SpGEMM) and samples multiple minibatches at once. When the input graph topology does not fit on a single device, our method distributes the graph and use communication-avoiding SpGEMM algorithms to scale GNN minibatch sampling, enabling GNN training on much larger graphs than those that can fit into a single device memory. When the input graph topology (but not the embeddings) fits in the memory of one GPU, our approach (1) performs sampling without communication, (2) amortizes the overheads of sampling a minibatch, and (3) can represent multiple sampling algorithms by simply using different matrix constructions. In addition to new methods for sampling, we show that judiciously replicating feature data with a simple all-to-all exchange can outperform current methods for the feature extraction step in distributed GNN training. We provide experimental results on the largest Open Graph Benchmark (OGB) datasets on $128$ GPUs, and show that our pipeline is $2.5\times$ faster Quiver (a distributed extension to PyTorch-Geometric) on a $3$-layer GraphSAGE network. On datasets outside of OGB, we show a $8.46\times$ speedup on $128$ GPUs in-per epoch time. Finally, we show scaling when the graph is distributed across GPUs and scaling for both node-wise and layer-wise sampling algorithms
翻訳日:2023-11-07 15:13:52 公開日:2023-11-06
# HDGL:脳障害分類のための階層的動的グラフ表現学習モデル

HDGL: A hierarchical dynamic graph representation learning model for brain disorder classification ( http://arxiv.org/abs/2311.02903v1 )

ライセンス: Link先を確認
Parniyan Jalali, Mehran Safayani(参考訳) 人間の脳は、情報を継続的に交換し、脳ネットワークグラフを形成して、静止状態の機能的磁気共鳴イメージング(rs-fMRI)を用いて、ノードとエッジを抽出する様々な領域からなる複雑なネットワークと見なすことができる。 したがって、このグラフは脳障害の影響下で発生した異常パターンを表わす可能性がある。 これまでの研究では、脳ネットワークグラフの埋め込みを見つけ、その後、健康なものから脳障害のあるサンプルを分類しようと試みている。サンプル間の関係を考慮せず、表現型情報を使用しない、時間的分析の欠如、動的グラフではなく静的機能接続(fc)の使用、固定グラフ構造の使用。 上記の課題に対処するために設計された最初のモデルである階層型動的グラフ表現学習(HDGL)モデルを提案する。 HDGLは2つのレベルから構成されており、第1レベルでは脳ネットワークグラフを構築し、その空間的および時間的埋め込みを学習し、第2レベルでは集団グラフを形成し、埋め込み学習後に分類を行う。 さらに、これらの2つのレベルをどのようにトレーニングするかに基づいて、4つのメソッドが導入された。 ABIDEおよびADHD-200データセットにおける提案モデルの性能評価を行い、様々な評価指標を用いて、いくつかの最先端モデルと比較して、このモデルの改善を示す。

The human brain can be considered as complex networks, composed of various regions that continuously exchange their information with each other, forming the brain network graph, from which nodes and edges are extracted using resting-state functional magnetic resonance imaging (rs-fMRI). Therefore, this graph can potentially depict abnormal patterns that have emerged under the influence of brain disorders. So far, numerous studies have attempted to find embeddings for brain network graphs and subsequently classify samples with brain disorders from healthy ones, which include limitations such as: not considering the relationship between samples, not utilizing phenotype information, lack of temporal analysis, using static functional connectivity (FC) instead of dynamic ones and using a fixed graph structure. We propose a hierarchical dynamic graph representation learning (HDGL) model, which is the first model designed to address all the aforementioned challenges. HDGL consists of two levels, where at the first level, it constructs brain network graphs and learns their spatial and temporal embeddings, and at the second level, it forms population graphs and performs classification after embedding learning. Furthermore, based on how these two levels are trained, four methods have been introduced, some of which are suggested for reducing memory complexity. We evaluated the performance of the proposed model on the ABIDE and ADHD-200 datasets, and the results indicate the improvement of this model compared to several state-of-the-art models in terms of various evaluation metrics.
翻訳日:2023-11-07 15:13:23 公開日:2023-11-06
# 擬ランダムアイソメトリ

Pseudorandom Isometries ( http://arxiv.org/abs/2311.02901v1 )

ライセンス: Link先を確認
Prabhanjan Ananth, Aditya Gulati, Fatih Kaleoglu, Yao-Ting Lin(参考訳) 我々は、${\cal Q}$-secure pseudorandom isometries (PRI)と呼ばれる新しい概念を導入する。 擬似乱数等長法(pseudorandom isometry)は、n$-qubit状態から$(n+m)$-qubit状態へ等長法でマッピングする効率的な量子回路である。 セキュリティに関して言えば、$\rho$ 上の$q$-fold pri の出力は、任意の多項式 $q$ に対して$ \rho \in {\cal q}$ に対して、$\rho$ 上の$q$-fold haar 等長の出力と計算的に区別できないべきである。 \par ${\cal Q}$ を微調整することで、擬似ランダム性の多くの既存の概念を回復する。 我々は、pri の構成と、量子一方向関数を仮定すると、${\cal q}$-secure pseudorandom isometries (pri) の安全性を、${\cal q}$ の異なる興味深い設定に対して証明する。 量子擬似ランダム性の概念に対する長さ拡張定理、量子状態に対するメッセージ認証スキーム、マルチコピーセキュアな公開およびプライベート暗号化スキーム、簡潔な量子コミットメントなど、PRIの多くの暗号応用を実証する。 }

We introduce a new notion called ${\cal Q}$-secure pseudorandom isometries (PRI). A pseudorandom isometry is an efficient quantum circuit that maps an $n$-qubit state to an $(n+m)$-qubit state in an isometric manner. In terms of security, we require that the output of a $q$-fold PRI on $\rho$, for $ \rho \in {\cal Q}$, for any polynomial $q$, should be computationally indistinguishable from the output of a $q$-fold Haar isometry on $\rho$. \par By fine-tuning ${\cal Q}$, we recover many existing notions of pseudorandomness. We present a construction of PRIs and assuming post-quantum one-way functions, we prove the security of ${\cal Q}$-secure pseudorandom isometries (PRI) for different interesting settings of ${\cal Q}$. \par We also demonstrate many cryptographic applications of PRIs, including, length extension theorems for quantum pseudorandomness notions, message authentication schemes for quantum states, multi-copy secure public and private encryption schemes, and succinct quantum commitments. }
翻訳日:2023-11-07 15:12:57 公開日:2023-11-06
# transduce and speak: 意味トークン予測を用いた音声合成のためのニューラルトランスデューサ

Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic Token Prediction ( http://arxiv.org/abs/2311.02898v1 )

ライセンス: Link先を確認
Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Dongjune Lee, Nam Soo Kim(参考訳) 本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。 我々は、wav2vec2.0組み込みから取得した離散化された意味トークンを用いて、その単調なアライメント制約を享受するttsフレームワークにニューラルネットワークトランスデューサを採用することを容易にする。 提案モデルではまずニューラルトランスデューサを用いてアライメントされたセマンティックトークンを生成し,非自己回帰(NAR)音声生成器を用いてセマンティックトークンから音声サンプルを合成する。 この分離されたフレームワークはttsのトレーニングの複雑さを軽減し、各ステージが集中できるようにする 1)言語・アライメントモデリングと 2) きめ細かい音響モデルについて検討した。 ゼロショット適応tts実験の結果,提案モデルが客観的および主観的尺度による音声品質および話者類似度においてベースラインを超えていることがわかった。 また,提案モデルの推論速度と韻律制御性について検討し,TSフレームワークにおけるニューラルトランスデューサの可能性を示した。

We introduce a text-to-speech(TTS) framework based on a neural transducer. We use discretized semantic tokens acquired from wav2vec2.0 embeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoying its monotonic alignment constraints. The proposed model first generates aligned semantic tokens using the neural transducer, then synthesizes a speech sample from the semantic tokens using a non-autoregressive(NAR) speech generator. This decoupled framework alleviates the training complexity of TTS and allows each stage to focus on 1) linguistic and alignment modeling and 2) fine-grained acoustic modeling, respectively. Experimental results on the zero-shot adaptive TTS show that the proposed model exceeds the baselines in speech quality and speaker similarity via objective and subjective measures. We also investigate the inference speed and prosody controllability of our proposed model, showing the potential of the neural transducer for TTS frameworks.
翻訳日:2023-11-07 15:12:32 公開日:2023-11-06
# human as points:単視点rgb画像からの明示的なポイントベース3dヒューマンリコンストラクション

Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images ( http://arxiv.org/abs/2311.02892v1 )

ライセンス: Link先を確認
Yingzhi Tang and Qijian Zhang and Junhui Hou and Yebin Liu(参考訳) 単視型ヒト再建研究の最近のトレンドは、明示的な体型に制約された深い暗黙の機能を学習することに集中している。 従来の処理パイプラインと比較して顕著なパフォーマンス向上にもかかわらず、既存の学習アプローチは、柔軟性、一般化可能性、堅牢性、および/または表現能力の面で制限の異なる側面を示している。 本稿では,これらの課題を包括的に解決するために,対象幾何学構造の中間表現としてポイントクラウドを採用する,hapと呼ばれる明示的なポイントベースヒューマンリコンストラクションフレームワークについて検討する。 技術的には、我々のアプローチは、曖昧で制御しにくい暗黙の学習プロセスではなく、3次元幾何学空間における完全に明示的な点雲の推定、操作、生成、改善によって特徴付けられる。 ワークフロー全体は、処理手順だけでなく、対応する専門的な学習コンポーネントの専用設計で注意深く構成されます。 広範な実験により,現在の手法よりも20%から40%の定量的性能向上を達成し,質的結果も向上した。 我々の有望な結果は、様々な強力なクラウドモデリングアーキテクチャや処理技術を活用可能な、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。 コードとデータをhttps://github.com/yztang4/hapで公開します。

The latest trends in the research field of single-view human reconstruction devote to learning deep implicit functions constrained by explicit body shape priors. Despite the remarkable performance improvements compared with traditional processing pipelines, existing learning approaches still show different aspects of limitations in terms of flexibility, generalizability, robustness, and/or representation capability. To comprehensively address the above issues, in this paper, we investigate an explicit point-based human reconstruction framework called HaP, which adopts point clouds as the intermediate representation of the target geometric structure. Technically, our approach is featured by fully-explicit point cloud estimation, manipulation, generation, and refinement in the 3D geometric space, instead of an implicit learning process that can be ambiguous and less controllable. The overall workflow is carefully organized with dedicated designs of the corresponding specialized learning components as well as processing procedures. Extensive experiments demonstrate that our framework achieves quantitative performance improvements of 20% to 40% over current state-of-the-art methods, and better qualitative results. Our promising results may indicate a paradigm rollback to the fully-explicit and geometry-centric algorithm design, which enables to exploit various powerful point cloud modeling architectures and processing techniques. We will make our code and data publicly available at https://github.com/yztang4/HaP.
翻訳日:2023-11-07 15:12:14 公開日:2023-11-06
# AdaFlood: 適応的なFlood正規化

AdaFlood: Adaptive Flood Regularization ( http://arxiv.org/abs/2311.02891v1 )

ライセンス: Link先を確認
Wonho Bae, Yi Ren, Mohamad Osama Ahmed, Frederick Tung, Danica J. Sutherland, Gabriel L. Oliveira(参考訳) ニューラルネットワークは従来,ゼロトレーニング損失に対して最適化されてきたが,洪水レベルと呼ばれる非ゼロトレーニング損失閾値を目標とすることで,テスト時間の一般化が向上することが近年で確認されている。 しかし、現在のアプローチでは、すべてのトレーニングサンプルに同じ一定の洪水レベルを適用している。 AdaFloodは,サンプルの難易度に応じて,各トレーニングサンプルの浸水レベルを適応する新しいフラッシャ正規化手法である。 直感的には、トレーニングサンプルは難易度が等しくないので、目標のトレーニング損失をインスタンスに条件付ける必要がある。 テキスト、イメージ、非同期イベントシーケンス、表のような4つの多様な入力モダリティをカバーするデータセットに関する実験は、データドメインとノイズレベルにまたがる拡張性を示している。

Although neural networks are conventionally optimized towards zero training loss, it has been recently learned that targeting a non-zero training loss threshold, referred to as a flood level, often enables better test time generalization. Current approaches, however, apply the same constant flood level to all training samples, which inherently assumes all the samples have the same difficulty. We present AdaFlood, a novel flood regularization method that adapts the flood level of each training sample according to the difficulty of the sample. Intuitively, since training samples are not equal in difficulty, the target training loss should be conditioned on the instance. Experiments on datasets covering four diverse input modalities - text, images, asynchronous event sequences, and tabular - demonstrate the versatility of AdaFlood across data domains and noise levels.
翻訳日:2023-11-07 15:11:51 公開日:2023-11-06
# 多周波PolSAR画像分類のためのスタックオートエンコーダによる特徴抽出とスーパーピクセル生成

Stacked Autoencoder Based Feature Extraction and Superpixel Generation for Multifrequency PolSAR Image Classification ( http://arxiv.org/abs/2311.02887v1 )

ライセンス: Link先を確認
Tushar Gadhiya, Sumanth Tangirala, Anil K. Roy(参考訳) 本稿では,多周波ポラリメトリック合成開口レーダ(PolSAR)画像の分類アルゴリズムを提案する。 PolSAR分解アルゴリズムを用いて、所定の画像の各周波数帯域から33の特徴を抽出する。 次に、2層オートエンコーダを用いて入力の特徴を保ちつつ入力特徴ベクトルの次元性を低減する。 この縮小次元特徴ベクトルを用いて、単純な線形反復クラスタリング(SLIC)アルゴリズムを用いてスーパーピクセルを生成する。 次に、画素情報とスーパーピクセル情報の両方を用いて、ロバストな特徴表現を構築する。 最後に、ソフトマックス分類器を用いて分類処理を行う。 超画素を使用する利点は、隣接するpolsarピクセル間の空間情報を保存し、分類中のスペックルノイズの影響を最小限に抑えることである。 Flevolandデータセットを用いて実験を行い、提案手法は文献で利用可能な他の方法よりも優れていることがわかった。

In this paper we are proposing classification algorithm for multifrequency Polarimetric Synthetic Aperture Radar (PolSAR) image. Using PolSAR decomposition algorithms 33 features are extracted from each frequency band of the given image. Then, a two-layer autoencoder is used to reduce the dimensionality of input feature vector while retaining useful features of the input. This reduced dimensional feature vector is then applied to generate superpixels using simple linear iterative clustering (SLIC) algorithm. Next, a robust feature representation is constructed using both pixel as well as superpixel information. Finally, softmax classifier is used to perform classification task. The advantage of using superpixels is that it preserves spatial information between neighbouring PolSAR pixels and therefore minimises the effect of speckle noise during classification. Experiments have been conducted on Flevoland dataset and the proposed method was found to be superior to other methods available in the literature.
翻訳日:2023-11-07 15:11:36 公開日:2023-11-06
# 共有知識ベースを用いた深層学習型意味コミュニケーションシステム

Deep Learning-Empowered Semantic Communication Systems with a Shared Knowledge Base ( http://arxiv.org/abs/2311.02884v1 )

ライセンス: Link先を確認
Peng Yi, Yang Cao, Xin Kang, and Ying-Chang Liang(参考訳) 深層学習を利用したセマンティックコミュニケーションは,将来の6Gネットワークの候補として期待されている。 既存の意味コミュニケーションシステムは従来の方法よりも優れた性能を達成しているが、ほとんどの意味コミュニケーションシステムで採用されているエンドツーエンドアーキテクチャはブラックボックスと見なされており、説明可能性の欠如に繋がる。 この問題に対処するため,本論文では,テキスト送信において共有知識ベースを持つ新しい意味コミュニケーションシステムを提案する。 具体的には,本システムに固有の可読文を用いたテキスト知識ベースを導入する。 共有知識ベースの支援により、提案システムは、共有知識ベースからのメッセージと対応する知識を統合して残余情報を取得することにより、意味的性能低下を伴わずに少ないシンボルを送信できる。 提案システムをより信頼性の高いものにするために, 知識ベースに基づいて, 意味的自己情報と源エントロピーを数学的に定義する。 さらに、知識ベース構築アルゴリズムは、知識ベースのサイズを制御するために予め設定された閾値を活用できる類似性比較法に基づいて開発された。 さらに,提案手法が,送信データサイズと文の類似性の観点から,既存のベースライン手法よりも優れていることを示す。

Deep learning-empowered semantic communication is regarded as a promising candidate for future 6G networks. Although existing semantic communication systems have achieved superior performance compared to traditional methods, the end-to-end architecture adopted by most semantic communication systems is regarded as a black box, leading to the lack of explainability. To tackle this issue, in this paper, a novel semantic communication system with a shared knowledge base is proposed for text transmissions. Specifically, a textual knowledge base constructed by inherently readable sentences is introduced into our system. With the aid of the shared knowledge base, the proposed system integrates the message and corresponding knowledge from the shared knowledge base to obtain the residual information, which enables the system to transmit fewer symbols without semantic performance degradation. In order to make the proposed system more reliable, the semantic self-information and the source entropy are mathematically defined based on the knowledge base. Furthermore, the knowledge base construction algorithm is developed based on a similarity-comparison method, in which a pre-configured threshold can be leveraged to control the size of the knowledge base. Moreover, the simulation results have demonstrated that the proposed approach outperforms existing baseline methods in terms of transmitted data size and sentence similarity.
翻訳日:2023-11-07 15:11:21 公開日:2023-11-06
# SQLPrompt: 最小ラベル付きデータによるインコンテキストテキストからSQL

SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data ( http://arxiv.org/abs/2311.02883v1 )

ライセンス: Link先を確認
Ruoxi Sun, Sercan \"O. Arik, Rajarishi Sinha, Hootan Nakhost, Hanjun Dai, Pengcheng Yin, Tomas Pfister(参考訳) Text-to-SQLは、自然言語テキストからデータベース上でSQLクエリを生成するプロセスを自動化することを目的としている。 本研究では,Large Language Models (LLM) 用の Text-to-SQL プロンプト機能の改善を目的とした "SQLPrompt" を提案する。 提案手法には,イノベーティブなプロンプト設計,他のSQL提案の中で最も一貫した実行結果を持つSQLを選択する実行ベース一貫性復号戦略,および異なるプロンプト設計と基盤モデル(MixLLMs)との整合性選択において,SQL提案を多様化させることによるパフォーマンス向上を目的とした手法(MixPrompt)が含まれる。 本研究では,ラベル付きデータが少なく,テキスト内学習における従来の手法よりも高い性能を示し,数千のラベル付きデータによる最先端データとのギャップを埋めた。

Text-to-SQL aims to automate the process of generating SQL queries on a database from natural language text. In this work, we propose "SQLPrompt", tailored to improve the few-shot prompting capabilities of Text-to-SQL for Large Language Models (LLMs). Our methods include innovative prompt design, execution-based consistency decoding strategy which selects the SQL with the most consistent execution outcome among other SQL proposals, and a method that aims to improve performance by diversifying the SQL proposals during consistency selection with different prompt designs ("MixPrompt") and foundation models ("MixLLMs"). We show that \emph{SQLPrompt} outperforms previous approaches for in-context learning with few labeled data by a large margin, closing the gap with finetuning state-of-the-art with thousands of labeled data.
翻訳日:2023-11-07 15:11:01 公開日:2023-11-06
# ホーキング放射による情報回復の忠実度のゆらぎ

Fluctuation in the Fidelity of Information Recovery from Hawking Radiation ( http://arxiv.org/abs/2311.02881v1 )

ライセンス: Link先を確認
Masamichi Miyaji, Kazuyoshi Yano(参考訳) 純粋な状態のブラックホールの内部は、放出されたホーキング放射を十分に大量に集めてpetzマップから再構成することが知られている。 これは、重力理論に関する平均的なアンサンブルから生まれたユークリッドのレプリカワームホールに基づいている。 一方、これはページ曲線と内部再構成がともにアンサンブル平均であることを意味するため、大きな誤差が生じる可能性がある。 前回の研究では、ホーキング放射のエントロピーが位数$e^{-S_{\mathbf{BH}}}$で変動していることが示され、そのためアンサンブルでは典型的である。 本稿では,エンコーディングマップにおける相対エントロピー差のゆらぎと,petzマップのエンタングルメント忠実度が,信号と比較してそれぞれ$e^{-s_{\mathbf{bh}}}$で抑えられ,アンサンブルの典型性が確立されることを示す。 さらに,符号化マップの絡み合い損失も計算する。

The interior of a pure-state black hole is known to be reconstructed from the Petz map by collecting a sufficiently large amount of the emitted Hawking radiation. This was established based on the Euclidean replica wormhole, which comes from an ensemble averaging over gravitational theories. On the other hand, this means that the Page curve and the interior reconstruction are both ensemble averages; thus, there is a possibility of large errors. In the previous study \cite{Bousso:2023efc}, it was shown that the entropy of the Hawking radiation has fluctuation of order $e^{-S_{\mathbf{BH}}}$, thus is typical in the ensemble. In the present article, we show that the fluctuations of the relative entropy difference in the encoding map and the entanglement fidelity of the Petz map are both suppressed by $e^{-S_{\mathbf{BH}}}$ compared to the signals, establishing the typicality in the ensemble. In addition, we also compute the entanglement loss of the encoding map.
翻訳日:2023-11-07 15:10:43 公開日:2023-11-06
# MultiSPANS:構造エントロピー最適化による交通予測のためのマルチレンジ時空間変圧器ネットワーク

MultiSPANS: A Multi-range Spatial-Temporal Transformer Network for Traffic Forecast via Structural Entropy Optimization ( http://arxiv.org/abs/2311.02880v1 )

ライセンス: Link先を確認
Dongcheng Zou, Senzhang Wang, Xuefeng Li, Hao Peng, Yuandong Wang, Chunyang Liu, Kehua Sheng and Bo Zhang(参考訳) 交通予測は、交通管理と計画において最重要となる複雑な多変量時系列回帰タスクである。 しかしながら、既存のアプローチでは、局所的時空間的特徴と道路網階層的知識を用いて複雑な多範囲依存をモデル化するのに苦労することが多い。 そこで我々はMultiSPANSを提案する。 まず,個々の記録点が臨界時空間的局所パターンを反映できないことを考慮し,st-token埋め込みを生成するマルチフィルタ畳み込みモジュールを設計し,注意の計算を容易にする。 そして,ST-tokenと空間時空間位置エンコーディングに基づいて,トランスフォーマーを用いて時間的および空間的依存関係をキャプチャする。 さらに,空間的注意機構を最適化するために構造エントロピー理論を導入する。 具体的には、構造エントロピー最小化アルゴリズムを用いて最適な道路ネットワーク階層、すなわち木を符号化する。 そこで本研究では, 相対構造エントロピーに基づく位置符号化と多層符号化木に基づく多層マスキング方式を提案する。 大規模な実験により、実世界のトラヒックデータセットにおける最先端のメソッドに対する提案フレームワークの優位性が実証され、より長い歴史的なウィンドウが効果的に利用されている。 コードはhttps://github.com/SELGroup/MultiSPANS.comで入手できる。

Traffic forecasting is a complex multivariate time-series regression task of paramount importance for traffic management and planning. However, existing approaches often struggle to model complex multi-range dependencies using local spatiotemporal features and road network hierarchical knowledge. To address this, we propose MultiSPANS. First, considering that an individual recording point cannot reflect critical spatiotemporal local patterns, we design multi-filter convolution modules for generating informative ST-token embeddings to facilitate attention computation. Then, based on ST-token and spatial-temporal position encoding, we employ the Transformers to capture long-range temporal and spatial dependencies. Furthermore, we introduce structural entropy theory to optimize the spatial attention mechanism. Specifically, The structural entropy minimization algorithm is used to generate optimal road network hierarchies, i.e., encoding trees. Based on this, we propose a relative structural entropy-based position encoding and a multi-head attention masking scheme based on multi-layer encoding trees. Extensive experiments demonstrate the superiority of the presented framework over several state-of-the-art methods in real-world traffic datasets, and the longer historical windows are effectively utilized. The code is available at https://github.com/SELGroup/MultiSPANS.
翻訳日:2023-11-07 15:10:25 公開日:2023-11-06
# インタースライスアウェア構造符号化による拡散線量予測

Diffusion-based Radiotherapy Dose Prediction Guided by Inter-slice Aware Structure Encoding ( http://arxiv.org/abs/2311.02991v1 )

ライセンス: Link先を確認
Zhenghao Feng, Lu Wen, Jianghong Xiao, Yuanyuan Xu, Xi Wu, Jiliu Zhou, Xingchen Peng, Yan Wang(参考訳) 深層学習(DL)は放射線治療計画における線量分布の自動予測に成功し、効率と品質の両方を向上させる。 しかし, 従来の手法では, 後続平均計算によるL1あるいはL2損失の過平滑化に悩まされている。 この制限を緩和するために,がん患者の放射線治療線量分布を予測する拡散モデルに基づく方法(DiffDose)を提案する。 具体的には、DiffDoseモデルはフォワードプロセスとリバースプロセスを含んでいる。 前処理では、少量のノイズを徐々に加えることで線量分布マップを純粋なガウス雑音に変換し、同時にノイズ予測器を訓練して各時間ステップに付加された雑音を推定する。 逆のプロセスでは、訓練されたノイズ予測器で複数のステップで純粋なガウス雑音からノイズを除去し、最終的に予測された線量分布マップを出力する。

Deep learning (DL) has successfully automated dose distribution prediction in radiotherapy planning, enhancing both efficiency and quality. However, existing methods suffer from the over-smoothing problem for their commonly used L1 or L2 loss with posterior average calculations. To alleviate this limitation, we propose a diffusion model-based method (DiffDose) for predicting the radiotherapy dose distribution of cancer patients. Specifically, the DiffDose model contains a forward process and a reverse process. In the forward process, DiffDose transforms dose distribution maps into pure Gaussian noise by gradually adding small noise and a noise predictor is simultaneously trained to estimate the noise added at each timestep. In the reverse process, it removes the noise from the pure Gaussian noise in multiple steps with the well-trained noise predictor and finally outputs the predicted dose distribution maps...
翻訳日:2023-11-07 15:02:36 公開日:2023-11-06
# 高度な変分量子攻撃による暗号プロトコルのハッキング

Hacking Cryptographic Protocols with Advanced Variational Quantum Attacks ( http://arxiv.org/abs/2311.02986v1 )

ライセンス: Link先を確認
Borja Aizpurua, Pablo Bermejo, Josu Etxezarreta Martinez, Roman Orus(参考訳) 本稿では,暗号プロトコルにおける変分量子攻撃アルゴリズム(VQAA)の改良手法を提案する。 提案手法は, より効率的に, より少ない量子ビットで, 既知の暗号アルゴリズムに対して, 堅牢な量子攻撃を提供する。 我々は,S-DES,S-AES,Blowfishなどの対称鍵プロトコルに対する攻撃シミュレーションを実装した。 例えば、我々の攻撃によって、小さな8量子ビット量子コンピュータの古典的なシミュレーションによって、32ビットのBlowfishインスタンスの秘密鍵を、ブルートフォース攻撃の24倍の回数で見つけることができることを示す。 また,S-DESやS-AESなどの軽量暗号に対する攻撃成功率の向上も示す。 非対称キープロトコルやハッシュ関数など、対称キー暗号以外の応用も議論されている。 さらに、今後の改善の可能性についてもコメントします。 我々の結果は、NISQ(Noisy Intermediate-Scale Quantum)デバイスによる大規模暗号プロトコルの脆弱性をより詳細に評価し、将来の量子サイバーセキュリティ研究のステージを踏み出した。

Here we introduce an improved approach to Variational Quantum Attack Algorithms (VQAA) on crytographic protocols. Our methods provide robust quantum attacks to well-known cryptographic algorithms, more efficiently and with remarkably fewer qubits than previous approaches. We implement simulations of our attacks for symmetric-key protocols such as S-DES, S-AES and Blowfish. For instance, we show how our attack allows a classical simulation of a small 8-qubit quantum computer to find the secret key of one 32-bit Blowfish instance with 24 times fewer number of iterations than a brute-force attack. Our work also shows improvements in attack success rates for lightweight ciphers such as S-DES and S-AES. Further applications beyond symmetric-key cryptography are also discussed, including asymmetric-key protocols and hash functions. In addition, we also comment on potential future improvements of our methods. Our results bring one step closer assessing the vulnerability of large-size classical cryptographic protocols with Noisy Intermediate-Scale Quantum (NISQ) devices, and set the stage for future research in quantum cybersecurity.
翻訳日:2023-11-07 15:02:21 公開日:2023-11-06
# 定義の品質推定のためのトランスベース逆辞書モデルの提案

Towards a Transformer-Based Reverse Dictionary Model for Quality Estimation of Definitions ( http://arxiv.org/abs/2311.02985v1 )

ライセンス: Link先を確認
Guit\'e-Vinet Julien, Blondin Mass\'e Alexandre, Sadat Fatiha(参考訳) 近年、いくつかの変圧器が登場している。 本稿では,逆辞書タスクを解くためのトランスフォーマーモデルを比較し,本ゲームと呼ばれる真剣なゲームのコンテキストにおいて,それらの使用を探索する。

In the last years, several variants of transformers have emerged. In this paper, we compare different transformer-based models for solving the reverse dictionary task and explore their use in the context of a serious game called The Dictionary Game.
翻訳日:2023-11-07 15:02:03 公開日:2023-11-06
# TabRepo: タブラルモデル評価の大規模リポジトリとそのAutoMLアプリケーション

TabRepo: A Large Scale Repository of Tabular Model Evaluations and its AutoML Applications ( http://arxiv.org/abs/2311.02971v1 )

ライセンス: Link先を確認
David Salinas and Nick Erickson(参考訳) グラフモデル評価と予測の新しいデータセットであるTabRepoを紹介する。 TabRepoには、200の回帰と分類データセットで評価された1206モデルの予測とメトリクスが含まれている。 私たちはデータセットの利点を複数の方法で説明します。 まず,従来のAutoMLシステムとハイパーパラメータ最適化を比較し,事前計算したモデル予測を用いて,無コストでアンサンブルを検討できることを示す。 第2に、当社のデータセットが、転送学習に容易に活用できることを示します。 特に,標準的な伝達学習手法を用いることで,最先端の表計算システムを精度,実行時間,レイテンシで上回ることを示す。

We introduce TabRepo, a new dataset of tabular model evaluations and predictions. TabRepo contains the predictions and metrics of 1206 models evaluated on 200 regression and classification datasets. We illustrate the benefit of our datasets in multiple ways. First, we show that it allows to perform analysis such as comparing Hyperparameter Optimization against current AutoML systems while also considering ensembling at no cost by using precomputed model predictions. Second, we show that our dataset can be readily leveraged to perform transfer-learning. In particular, we show that applying standard transfer-learning techniques allows to outperform current state-of-the-art tabular systems in accuracy, runtime and latency.
翻訳日:2023-11-07 15:01:56 公開日:2023-11-06
# ユニバーサル情報抽出のための検索拡張コード生成

Retrieval-Augmented Code Generation for Universal Information Extraction ( http://arxiv.org/abs/2311.02962v1 )

ライセンス: Link先を確認
Yucan Guo, Zixuan Li, Xiaolong Jin, Yantao Liu, Yutao Zeng, Wenxuan Liu, Xiang Li, Pan Yang, Long Bai, Jiafeng Guo and Xueqi Cheng(参考訳) 情報抽出(IE)は、自然言語のテキストから構造的知識(エンティティ、関係、イベント)を抽出することを目的としており、タスク固有のスキーマや複雑なテキスト表現によって既存の手法に課題をもたらす。 コードは典型的な形式化された言語であり、様々なスキーマの下で構造的知識を普遍的に記述することができる。 一方、コードとテキストの両方で訓練されたLarge Language Models (LLM) は、テキストをコードに変換する強力な能力を示しており、IEタスクに対して実現可能なソリューションを提供している。 そこで本稿では,IEタスクのためのLLM(Code4UIE)に基づく汎用検索拡張コード生成フレームワークを提案する。 具体的には、Code4UIEはPythonクラスを採用し、様々な構造的知識のタスク固有のスキーマを普遍的に定義する。 これにより、これらのスキーマの下で知識を抽出することで、定義済みのPythonクラスをテキスト内の情報でインスタンス化するコードを生成することができる。 これらのコードをより正確に生成するために、code4uieはllmにサンプルを指示するインコンテキスト学習メカニズムを採用している。 異なるタスクの適切な例を得るために、Code4UIEは、与えられたテキストと意味的に類似した例を検索できるいくつかの例検索戦略を探索する。 9つのデータセットにまたがる5つのieタスクに関する広範な実験は、code4uieフレームワークの有効性を示している。

Information Extraction (IE) aims to extract structural knowledge (e.g., entities, relations, events) from natural language texts, which brings challenges to existing methods due to task-specific schemas and complex text expressions. Code, as a typical kind of formalized language, is capable of describing structural knowledge under various schemas in a universal way. On the other hand, Large Language Models (LLMs) trained on both codes and texts have demonstrated powerful capabilities of transforming texts into codes, which provides a feasible solution to IE tasks. Therefore, in this paper, we propose a universal retrieval-augmented code generation framework based on LLMs, called Code4UIE, for IE tasks. Specifically, Code4UIE adopts Python classes to define task-specific schemas of various structural knowledge in a universal way. By so doing, extracting knowledge under these schemas can be transformed into generating codes that instantiate the predefined Python classes with the information in texts. To generate these codes more precisely, Code4UIE adopts the in-context learning mechanism to instruct LLMs with examples. In order to obtain appropriate examples for different tasks, Code4UIE explores several example retrieval strategies, which can retrieve examples semantically similar to the given texts. Extensive experiments on five representative IE tasks across nine datasets demonstrate the effectiveness of the Code4UIE framework.
翻訳日:2023-11-07 15:01:50 公開日:2023-11-06
# 抽出質問応答に対する事前学習生成モデルの適用

Adapting Pre-trained Generative Models for Extractive Question Answering ( http://arxiv.org/abs/2311.02961v1 )

ライセンス: Link先を確認
Prabir Mallick and Tapas Nayak and Indrajit Bhattacharya(参考訳) BARTやT5といった事前訓練された生成モデルは、抽象的長文質問応答(QA)や要約など、様々な自然言語処理タスクにおいてテキスト生成の好適な方法として注目されている。 しかしながら、識別モデルが一般的に用いられる抽出qaタスクにおける生成モデルの可能性はほとんど未解明である。 識別モデルはしばしばラベルスパーシティに関連する問題に遭遇し、特に文脈のごく一部だけが答えを含んでいる場合である。 課題は、マルチスパン回答に対してより顕著である。 本研究では,事前学習した生成モデルの力を利用して,文脈トークンや文に対応するインデックスを生成することで,抽出されたQA課題に対処する手法を提案する。 我々は,MultiSpanQA,BioASQ,MASHQA,WikiQAを含む複数の抽出QAデータセットの総合的な評価を通じて,既存の最先端モデルと比較して提案手法の優れた性能を示す。

Pre-trained Generative models such as BART, T5, etc. have gained prominence as a preferred method for text generation in various natural language processing tasks, including abstractive long-form question answering (QA) and summarization. However, the potential of generative models in extractive QA tasks, where discriminative models are commonly employed, remains largely unexplored. Discriminative models often encounter challenges associated with label sparsity, particularly when only a small portion of the context contains the answer. The challenge is more pronounced for multi-span answers. In this work, we introduce a novel approach that uses the power of pre-trained generative models to address extractive QA tasks by generating indexes corresponding to context tokens or sentences that form part of the answer. Through comprehensive evaluations on multiple extractive QA datasets, including MultiSpanQA, BioASQ, MASHQA, and WikiQA, we demonstrate the superior performance of our proposed approach compared to existing state-of-the-art models.
翻訳日:2023-11-07 15:01:28 公開日:2023-11-06
# 階層的特徴圧縮と識別による深層表現学習の理解

Understanding Deep Representation Learning via Layerwise Feature Compression and Discrimination ( http://arxiv.org/abs/2311.02960v1 )

ライセンス: Link先を確認
Peng Wang, Xiao Li, Can Yaras, Zhihui Zhu, Laura Balzano, Wei Hu, and Qing Qu(参考訳) 過去10年間で、ディープラーニングは生データから有意義な特徴を学習するための非常に効果的なツールであることが証明された。 しかし、ディープ・ネットワークが階層的特徴学習を階層的に階層的に行うのかという疑問は依然として残っている。 本研究では,中間的特徴の構造を解明し,この謎を明らかにする。 線形層が非線形ネットワークにおける深層の役割を模倣して特徴学習を行うという経験的知見に動機づけられ,マルチクラス分類問題における学習後の各層の出力(特徴)を調査し,ディープリニアネットワークが入力データを出力に変換する方法について検討した。 この目的に向けて,まず,クラス内圧縮の測定指標と中間機能のクラス間識別をそれぞれ定義する。 Through theoretical analysis of these two metrics, we show that the evolution of features follows a simple and quantitative pattern from shallow to deep layers when the input data is nearly orthogonal and the network weights are minimum-norm, balanced, and approximate low-rank: Each layer of the linear network progressively compresses within-class features at a geometric rate and discriminates between-class features at a linear rate with respect to the number of layers that data have passed through. 私たちの知る限りでは、ディープリニアネットワークの階層表現における特徴進化の定量的な特徴付けはこれが初めてである。 実験により, 実験結果の数値的検証だけでなく, 最近の実験結果とよく一致する深い非線形ネットワークにおいても類似したパターンが得られた。 さらに, 転校学習における結果の実際的意義を実証する。 私たちのコードは \url{https://github.com/Heimine/PNC_DLN} で利用可能です。

Over the past decade, deep learning has proven to be a highly effective tool for learning meaningful features from raw data. However, it remains an open question how deep networks perform hierarchical feature learning across layers. In this work, we attempt to unveil this mystery by investigating the structures of intermediate features. Motivated by our empirical findings that linear layers mimic the roles of deep layers in nonlinear networks for feature learning, we explore how deep linear networks transform input data into output by investigating the output (i.e., features) of each layer after training in the context of multi-class classification problems. Toward this goal, we first define metrics to measure within-class compression and between-class discrimination of intermediate features, respectively. Through theoretical analysis of these two metrics, we show that the evolution of features follows a simple and quantitative pattern from shallow to deep layers when the input data is nearly orthogonal and the network weights are minimum-norm, balanced, and approximate low-rank: Each layer of the linear network progressively compresses within-class features at a geometric rate and discriminates between-class features at a linear rate with respect to the number of layers that data have passed through. To the best of our knowledge, this is the first quantitative characterization of feature evolution in hierarchical representations of deep linear networks. Empirically, our extensive experiments not only validate our theoretical results numerically but also reveal a similar pattern in deep nonlinear networks which aligns well with recent empirical studies. Moreover, we demonstrate the practical implications of our results in transfer learning. Our code is available at \url{https://github.com/Heimine/PNC_DLN}.
翻訳日:2023-11-07 15:01:09 公開日:2023-11-06
# 大規模言語モデルに基づく無人システムの知識ベース質問応答のための文脈学習

In-Context Learning for Knowledge Base Question Answering for Unmanned Systems based on Large Language Models ( http://arxiv.org/abs/2311.02956v1 )

ライセンス: Link先を確認
Yunlong Chen, Yaming Zhang, Jianfei Yu, Li Yang, Rui Xia(参考訳) Knowledge Base Question Answering (KBQA) は、知識ベースに基づくファクトイドの質問に答えることを目的としている。 しかし、自然言語質問(NLQ)に基づく最も適切な知識ベースクエリコードを生成することは、KBQAにおいて大きな課題となる。 本研究は,無人システムにおける知識グラフ推論を用いた質問回答コンペティション(CCKS2023)に焦点を当てる。 多くのQAタスクにおいてChatGPTやGPT-3のような最近の大規模言語モデル(LLM)の成功に触発されて、与えられたNLQに基づいて最も適切なCQLを生成するChatGPTベースのCypher Query Language(CQL)生成フレームワークを提案する。 我々の生成フレームワークは、与えられたNLQに基づいてCQLの構文関連情報を予測する補助モデル、与えられたNLQから固有名詞を抽出する固有名詞マッチング器、入力サンプルの類似例を検索する実例セレクタ、ChatGPTの入力テンプレートを設計するプロンプトコンストラクタ、CQLを生成するChatGPTベースの生成モデル、および多様化された出力から最終回答を得るアンサンブルモデルを含む。 CCKS 2023 Question Answering with Knowledge Graph Inference for Unmanned Systems competitionでは、ChatGPTベースのCQL生成フレームワークで2位を獲得し、F1スコア0.92676を達成しました。

Knowledge Base Question Answering (KBQA) aims to answer factoid questions based on knowledge bases. However, generating the most appropriate knowledge base query code based on Natural Language Questions (NLQ) poses a significant challenge in KBQA. In this work, we focus on the CCKS2023 Competition of Question Answering with Knowledge Graph Inference for Unmanned Systems. Inspired by the recent success of large language models (LLMs) like ChatGPT and GPT-3 in many QA tasks, we propose a ChatGPT-based Cypher Query Language (CQL) generation framework to generate the most appropriate CQL based on the given NLQ. Our generative framework contains six parts: an auxiliary model predicting the syntax-related information of CQL based on the given NLQ, a proper noun matcher extracting proper nouns from the given NLQ, a demonstration example selector retrieving similar examples of the input sample, a prompt constructor designing the input template of ChatGPT, a ChatGPT-based generation model generating the CQL, and an ensemble model to obtain the final answers from diversified outputs. With our ChatGPT-based CQL generation framework, we achieved the second place in the CCKS 2023 Question Answering with Knowledge Graph Inference for Unmanned Systems competition, achieving an F1-score of 0.92676.
翻訳日:2023-11-07 15:00:45 公開日:2023-11-06
# 可視光状態における異常光伝送の電圧可変量子制御

Voltage tunable quantum control of extraordinary optical transmission in the visible regime ( http://arxiv.org/abs/2311.02949v1 )

ライセンス: Link先を確認
Hira Asif, Alpan Bek, Mehmet Emre Tasgin, Ramazan Sahin(参考訳) 集積フォトニックデバイスの量子制御は、複雑なデバイスのカスタマイズなしに信号損失を克服し、光子エネルギーを動的に制御するための強力なツールとして登場した。 本稿では、プラズモン共鳴と2レベル量子エミッタ(QE)を結合させることにより、可視状態における異常光伝送(EOT)のコヒーレント量子制御を実証する。 プラズモン-エミッタ結合系の高調波振動子モデルにおけるスペクトル応答を最適化する。 外部バイアス電圧によるqeの遷移周波数を変化させることで、プラズモンモードの共鳴周波数のシフトを分析する。 緑から赤へのQEの放出線幅を網羅することにより、ハイブリッドモード共鳴周波数は181 meVまでの最大エネルギーシフトで長波長にシフトする。 QEの存在下での位相同期モードのコヒーレントカップリングにより、超高速プラズモンの寿命は桁違いに増大する。 プラズモン共鳴のスペクトル変調と時間変調が3次元有限差分時間領域(FDTD)法によるEOT信号の特性に及ぼす影響について検討した。 提案手法は, バイオセンシング, 高分解能イメージング, 分子分光法において, 集積フォトニック回路において, 実現可能かつコンパクトな素子となるEOT信号のアクティブ電子制御を実現する。

Quantum control of integrated photonic devices has emerged as a powerful tool to overcome signal losses and obtain dynamic control over photon energies, without complex device customization. Here, we demonstrate the coherent quantum control of extraordinary optical transmission (EOT) in the visible regime by coupling plasmon resonances with a two-level quantum emitter (QE). We optimize the spectral response of plasmon-emitter coupled system in the light of coupled harmonic oscillator model. We analyze the shift in the resonance frequency of plasmon modes by varying the transition frequency of QE through external bias voltage. By sweeping the emission linewidth of QE from green to red light, hybrid mode resonance frequency shifts to longer wavelength with maximum energy shift upto 181 meV. Due to coherent coupling of phase-locked modes in the presence of QE, the lifetime of ultrafast plasmon enhances to an order of magnitude. We discuss the impact of spectral and temporal modulation of plasmon resonances on the characteristics of EOT signal through 3D finite difference time domain (FDTD) method. Our proposed method provides the active electronic control of EOT signal which makes it a feasible and compact element in integrated photonic circuits, for bio-sensing, high resolution imaging, and molecular spectroscopy applications.
翻訳日:2023-11-07 15:00:15 公開日:2023-11-06
# 多波長オーロラ画像の自動分類のための多視点学習

Multi-view learning for automatic classification of multi-wavelength auroral images ( http://arxiv.org/abs/2311.02947v1 )

ライセンス: Link先を確認
Qiuju Yang, Hang Su, Lili Liu, Yixuan Wang, Ze-Jun Hu(参考訳) オーロラ分類は極地研究において重要な役割を果たしている。 しかし、現在のオーロラ分類の研究は主に単一の波長(通常557.7nm)で撮影された画像に基づいている。 他の波長で得られた画像は比較的見過ごされ、複数の波長からの情報の統合は未発見領域のままである。 この制限は複雑なオーロラパターンの分類率を低くする。 さらに,これらの研究は,従来の機械学習手法や深層学習手法を用いても,精度と速度のトレードオフを十分に達成できていない。 これらの課題に対処するために,マルチビューアプローチに基づく軽量オーロラ多波長核融合分類ネットワーク MLCNet を提案する。 まず,分類速度の向上とオーロラ観測データの増加に対応するため,軽量特徴抽出バックボーン lctnet を開発した。 第二に,オーロラにマルチスケール空間構造が存在することを考えると,MSRMと呼ばれる新しいマルチスケール特徴モジュールを設計する。 最後に,オーロラクラス間の識別情報を強調するために,LAFEと呼ばれる軽量注目機能拡張モジュールを提案する。 提案手法は2003-2004年に北極黄川ステーションの観測データを用いて検証された。 実験の結果,多波長情報の融合はオーロラ分類性能を効果的に向上することがわかった。 特に,これまでのオーロラ分類研究に比べて最先端の分類精度が得られ,従来のマルチビュー法に比べて精度と計算効率が優れている。

Auroral classification plays a crucial role in polar research. However, current auroral classification studies are predominantly based on images taken at a single wavelength, typically 557.7 nm. Images obtained at other wavelengths have been comparatively overlooked, and the integration of information from multiple wavelengths remains an underexplored area. This limitation results in low classification rates for complex auroral patterns. Furthermore, these studies, whether employing traditional machine learning or deep learning approaches, have not achieved a satisfactory trade-off between accuracy and speed. To address these challenges, this paper proposes a lightweight auroral multi-wavelength fusion classification network, MLCNet, based on a multi-view approach. Firstly, we develop a lightweight feature extraction backbone, called LCTNet, to improve the classification rate and cope with the increasing amount of auroral observation data. Secondly, considering the existence of multi-scale spatial structures in auroras, we design a novel multi-scale reconstructed feature module named MSRM. Finally, to highlight the discriminative information between auroral classes, we propose a lightweight attention feature enhancement module called LAFE. The proposed method is validated using observational data from the Arctic Yellow River Station during 2003-2004. Experimental results demonstrate that the fusion of multi-wavelength information effectively improves the auroral classification performance. In particular, our approach achieves state-of-the-art classification accuracy compared to previous auroral classification studies, and superior results in terms of accuracy and computational efficiency compared to existing multi-view methods.
翻訳日:2023-11-07 14:59:51 公開日:2023-11-06
# PhoGPT: ベトナムのためのジェネレーティブプレトレーニング

PhoGPT: Generative Pre-training for Vietnamese ( http://arxiv.org/abs/2311.02945v1 )

ライセンス: Link先を確認
Dat Quoc Nguyen, Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen, Nhung Nguyen, Thien Huu Nguyen, Dinh Phung, Hung Bui(参考訳) pogpt for vietnamという,事前学習された単言語モデルであるphogpt-7b5とその命令追従型であるphogpt-7b5-instructを含む,最先端の7.5bパラメータ生成モデルシリーズをオープンソース化した。 また,人間の評価実験により,従来のオープンソースモデルと比較して優れた性能を示す。 GitHub: https://github.com/VinAIResearch/PhoGPT

We open-source a state-of-the-art 7.5B-parameter generative model series named PhoGPT for Vietnamese, which includes the base pre-trained monolingual model PhoGPT-7B5 and its instruction-following variant, PhoGPT-7B5-Instruct. In addition, we also demonstrate its superior performance compared to previous open-source models through a human evaluation experiment. GitHub: https://github.com/VinAIResearch/PhoGPT
翻訳日:2023-11-07 14:59:28 公開日:2023-11-06
# 人間のラベル付けの追求--教師なし学習の新しい展望

The Pursuit of Human Labeling: A New Perspective on Unsupervised Learning ( http://arxiv.org/abs/2311.02940v1 )

ライセンス: Link先を確認
Artyom Gadetsky and Maria Brbic(参考訳) HUMEは、与えられたデータセットの人間のラベル付けを外部の監視なしに推測するためのシンプルなモデルに依存しないフレームワークである。 私たちのアプローチの背後にある重要な洞察は、多くの人間のラベルで定義されたクラスは、データセットを表現するのに使われる表現空間に関係なく線形に分離可能であるということです。 HUMEはこの洞察を利用して、データセットのすべてのラベリングを探索し、基礎となる人間のラベリングを発見する。 提案手法は,データセットの基底的真理ラベリングと非常によく関連していることを示す。 事実上、トレーニング中に固定されたままの事前訓練された表現の上に線形分類器をトレーニングするだけで、我々のフレームワークはいかなる大規模な事前訓練および自己管理モデルとも互換性がある。 その単純さにもかかわらず、HUMEはSTL-10データセット上の自己教師付き表現の上の教師付き線形分類器を大きなマージンで上回り、CIFAR-10データセット上で同等のパフォーマンスを達成する。 既存の教師なしベースラインと比較して、HUMEは大規模なImageNet-1000データセットを含む4つのベンチマーク画像分類データセットで最先端のパフォーマンスを達成する。 全体として,異なる表現空間間の一貫したラベルを探索することにより,教師なし学習に取り組むための基本的な新しい視点を提供する。

We present HUME, a simple model-agnostic framework for inferring human labeling of a given dataset without any external supervision. The key insight behind our approach is that classes defined by many human labelings are linearly separable regardless of the representation space used to represent a dataset. HUME utilizes this insight to guide the search over all possible labelings of a dataset to discover an underlying human labeling. We show that the proposed optimization objective is strikingly well-correlated with the ground truth labeling of the dataset. In effect, we only train linear classifiers on top of pretrained representations that remain fixed during training, making our framework compatible with any large pretrained and self-supervised model. Despite its simplicity, HUME outperforms a supervised linear classifier on top of self-supervised representations on the STL-10 dataset by a large margin and achieves comparable performance on the CIFAR-10 dataset. Compared to the existing unsupervised baselines, HUME achieves state-of-the-art performance on four benchmark image classification datasets including the large-scale ImageNet-1000 dataset. Altogether, our work provides a fundamentally new view to tackle unsupervised learning by searching for consistent labelings between different representation spaces.
翻訳日:2023-11-07 14:59:19 公開日:2023-11-06
# セッションベースレコメンデーションのためのコントラスト多レベルグラフニューラルネットワーク

Contrastive Multi-Level Graph Neural Networks for Session-based Recommendation ( http://arxiv.org/abs/2311.02938v1 )

ライセンス: Link先を確認
Fuyun Wang, Xingyu Gao, Zhenyu Chen, Lei Lyu(参考訳) セッションベースのレコメンデーション(SBR)は、匿名ユーザ行動シーケンスに基づいて、ある時点において次の項目を予測することを目的としている。 既存のメソッドは通常、単純なアイテム遷移情報に基づいてセッション表現をモデル化する。 しかし,セッションベースデータは限られたユーザの短期的インタラクションで構成されているため,単一次元から固定項目遷移情報をキャプチャしてセッション表現をモデル化することは,データの疎度に悩まされる。 本稿では,複雑かつ高次項目遷移情報を活用するために,新しいコントラスト型マルチレベルグラフニューラルネットワーク(CM-GNN)を提案する。 具体的には、CM-GNNは、各セッションと全セッションに、それぞれローカルレベルグラフ畳み込みネットワーク(L-GCN)とグローバルレベルネットワーク(G-GCN)を適用し、アグリゲーション戦略により、全てのセッションのペアワイズ関係を効果的にキャプチャする。 一方、CM-GNNは高次グラフ畳み込みネットワーク(H-GCN)を用いて、すべての項目遷移の中で高次情報をキャプチャする。 CM-GNNはまた、L-GCNとG-GCNによって生成されたアイテム表現を融合させることで、ペアワイズな関係に基づくセッション表現を学習するための注意ベースの融合モジュールも導入している。 CM-GNNは、H-GCNによって得られた項目表現を平均化し、高次関係に基づくセッション表現を得る。 さらに、高次項目遷移情報を対関係に基づくセッション表現に変換するために、CM-GNNは、融合モジュールから派生した表現と平均プール層との相互情報をコントラッシブ学習パラダイムにより最大化する。 提案手法の有効性を検証するために,複数のベンチマークデータセットを用いた広範囲な実験を行った。 その結果,提案手法は最先端のSBR技術よりも優れていた。

Session-based recommendation (SBR) aims to predict the next item at a certain time point based on anonymous user behavior sequences. Existing methods typically model session representation based on simple item transition information. However, since session-based data consists of limited users' short-term interactions, modeling session representation by capturing fixed item transition information from a single dimension suffers from data sparsity. In this paper, we propose a novel contrastive multi-level graph neural networks (CM-GNN) to better exploit complex and high-order item transition information. Specifically, CM-GNN applies local-level graph convolutional network (L-GCN) and global-level network (G-GCN) on the current session and all the sessions respectively, to effectively capture pairwise relations over all the sessions by aggregation strategy. Meanwhile, CM-GNN applies hyper-level graph convolutional network (H-GCN) to capture high-order information among all the item transitions. CM-GNN further introduces an attention-based fusion module to learn pairwise relation-based session representation by fusing the item representations generated by L-GCN and G-GCN. CM-GNN averages the item representations obtained by H-GCN to obtain high-order relation-based session representation. Moreover, to convert the high-order item transition information into the pairwise relation-based session representation, CM-GNN maximizes the mutual information between the representations derived from the fusion module and the average pool layer by contrastive learning paradigm. We conduct extensive experiments on multiple widely used benchmark datasets to validate the efficacy of the proposed method. The encouraging results demonstrate that our proposed method outperforms the state-of-the-art SBR techniques.
翻訳日:2023-11-07 14:58:53 公開日:2023-11-06
# 人工知能モノのインターネットのための深部画像意味コミュニケーションモデル

Deep Image Semantic Communication Model for Artificial Intelligent Internet of Things ( http://arxiv.org/abs/2311.02926v1 )

ライセンス: Link先を確認
Li Ping Qian and Yi Zhang and Sikai Lyu and Huijie Zhu and Yuan Wu and Xuemin Sherman Shen and Xiaoniu Yang(参考訳) AIoT(Artificial Intelligent Internet of Things)の急速な開発に伴い、AIoTデバイスのイメージデータが爆発的な増加を目撃している。 本稿では,AIoTにおける効率的な画像通信のための新しい深層画像意味通信モデルを提案する。 特に送信側では,画像のセマンティック情報を抽出し,画像データの大幅な圧縮を実現するために,高精度な画像セマンティックセマンティックセマンティクスアルゴリズムを提案する。 受信側では、生成逆ネットワーク(gan)に基づく意味的画像復元アルゴリズムを提案し、その意味的画像を詳細情報付き実景画像に変換する。 シミュレーションの結果,提案する画像意味コミュニケーションモデルは,webpおよびcycleganと比較して,画像圧縮率と復元精度をそれぞれ71.93%,25.07%向上できることがわかった。 さらに,本実験では,元の画像伝送と比較して,画像通信の遅延時間を95.26%削減した。

With the rapid development of Artificial Intelligent Internet of Things (AIoT), the image data from AIoT devices has been witnessing the explosive increasing. In this paper, a novel deep image semantic communication model is proposed for the efficient image communication in AIoT. Particularly, at the transmitter side, a high-precision image semantic segmentation algorithm is proposed to extract the semantic information of the image to achieve significant compression of the image data. At the receiver side, a semantic image restoration algorithm based on Generative Adversarial Network (GAN) is proposed to convert the semantic image to a real scene image with detailed information. Simulation results demonstrate that the proposed image semantic communication model can improve the image compression ratio and recovery accuracy by 71.93% and 25.07% on average in comparison with WebP and CycleGAN, respectively. More importantly, our demo experiment shows that the proposed model reduces the total delay by 95.26% in the image communication, when comparing with the original image transmission.
翻訳日:2023-11-07 14:58:23 公開日:2023-11-06
# フーリエ層を有する完全スケール同変深層ネット

Truly Scale-Equivariant Deep Nets with Fourier Layers ( http://arxiv.org/abs/2311.02922v1 )

ライセンス: Link先を確認
Md Ashiqur Rahman, Raymond A. Yeh(参考訳) コンピュータビジョンでは、モデルは画像分割などのタスクを効果的に実行するために画像解像度の変化に適応できなければならない。 最近の研究は、例えばウェイトシェアリングやカーネルのリサイズを通じて、スケール平等な畳み込みニューラルネットワークの開発を進展させた。 しかし、これらのネットワークは実際にはスケール不変ではない。 具体的には、継続的ドメインのダウンスケーリング操作を定式化するため、アンチエイリアシングを考慮しない。 この欠点に対処するため、アンチエイリアスを考慮した離散領域でのダウンスケーリングを直接定式化する。 次に,真にスケール等価なディープネット,すなわち絶対零等分散誤差を達成するために,フーリエ層に基づく新しいアーキテクチャを提案する。 先行研究の後、mnistスケールとstl-10データセットでこのモデルをテストした。 提案モデルでは, 等値誤差をゼロに抑えながら, 競合する分類性能を実現する。

In computer vision, models must be able to adapt to changes in image resolution to effectively carry out tasks such as image segmentation; This is known as scale-equivariance. Recent works have made progress in developing scale-equivariant convolutional neural networks, e.g., through weight-sharing and kernel resizing. However, these networks are not truly scale-equivariant in practice. Specifically, they do not consider anti-aliasing as they formulate the down-scaling operation in the continuous domain. To address this shortcoming, we directly formulate down-scaling in the discrete domain with consideration of anti-aliasing. We then propose a novel architecture based on Fourier layers to achieve truly scale-equivariant deep nets, i.e., absolute zero equivariance-error. Following prior works, we test this model on MNIST-scale and STL-10 datasets. Our proposed model achieves competitive classification performance while maintaining zero equivariance-error.
翻訳日:2023-11-07 14:58:07 公開日:2023-11-06
# GTP-ViT:グラフベースのトークン伝播による効率的な視覚変換器

GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation ( http://arxiv.org/abs/2311.03035v1 )

ライセンス: Link先を確認
Xuwei Xu, Sen Wang, Yudong Chen, Yanping Zheng, Zhewei Wei, Jiajun Liu(参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、高い計算要求のためにリソース制約のあるデバイスへの展開は難しいままである。 プリトレーニングされたvitsを迅速化するために,トークンプルーニングとトークンマージのアプローチが開発されており,計算に関わるトークンの数を減らすことを目的としている。 しかし、これらの手法には、プルーニングトークンからの画像情報損失やトークンマッチングプロセスにおける非効率性など、いくつかの制限がある。 本稿では,効率的なvitsのためのモデル効率と情報保存のバランスの課題を解決するために,グラフベーストークン伝播法(gtp)を提案する。 グラフ要約アルゴリズムにインスパイアされたGTPは、より重要でないトークンの情報を、より重要かつ意味的に連結されたトークンに厳密に伝播する。 その結果、残りの少数のトークンはトークングラフ全体の要約として機能し、削除されたトークンの必須情報を保存しながら計算の複雑さを低減できる。 革新的なトークン選択戦略と組み合わせることで、GTPは伝播する画像トークンを効率的に識別することができる。 広範な実験によりgtpの有効性が検証され、効率と性能が向上した。 具体的には、gtpはdeit-sとdeit-bの両方の計算の複雑さを最大26%削減し、imagenet-1kの微調整なしでの精度低下は最小限である。 ソースコードはhttps://github.com/Ackesnal/GTP-ViTで入手できる。

Vision Transformers (ViTs) have revolutionized the field of computer vision, yet their deployments on resource-constrained devices remain challenging due to high computational demands. To expedite pre-trained ViTs, token pruning and token merging approaches have been developed, which aim at reducing the number of tokens involved in the computation. However, these methods still have some limitations, such as image information loss from pruned tokens and inefficiency in the token-matching process. In this paper, we introduce a novel Graph-based Token Propagation (GTP) method to resolve the challenge of balancing model efficiency and information preservation for efficient ViTs. Inspired by graph summarization algorithms, GTP meticulously propagates less significant tokens' information to spatially and semantically connected tokens that are of greater importance. Consequently, the remaining few tokens serve as a summarization of the entire token graph, allowing the method to reduce computational complexity while preserving essential information of eliminated tokens. Combined with an innovative token selection strategy, GTP can efficiently identify image tokens to be propagated. Extensive experiments have validated GTP's effectiveness, demonstrating both efficiency and performance improvements. Specifically, GTP decreases the computational complexity of both DeiT-S and DeiT-B by up to 26% with only a minimal 0.3% accuracy drop on ImageNet-1K without finetuning, and remarkably surpasses the state-of-the-art token merging method on various backbones at an even faster inference speed. The source code is available at https://github.com/Ackesnal/GTP-ViT.
翻訳日:2023-11-07 14:50:44 公開日:2023-11-06
# beyond words: 大規模言語モデル解釈のための数学的枠組み

Beyond Words: A Mathematical Framework for Interpreting Large Language Models ( http://arxiv.org/abs/2311.03033v1 )

ライセンス: Link先を確認
Javier Gonz\'alez and Aditya V. Nori(参考訳) 大規模言語モデル(llm)は、自然言語テキストやその他の複雑な情報を生成し理解する強力なaiツールである。 しかし、LLMを体系的に記述し、比較し、改善する数学的枠組みが欠如している。 我々は,幻覚,アライメント,自己検証,思考連鎖推論など,llm研究における重要な用語と概念を明らかにするフレームワークhexを提案する。 Hexフレームワークは、LSMを正確に一貫した方法で特徴づけ、その強度と弱点を特定し、新しい発見を統合する。 hexを用いて、思考の連鎖を思考の連鎖の促進と区別し、それらが等価である条件を確立する。 この区別は、チェーン・オブ・マインド・プロンプトの背後にある基本的な仮定と、それを使うメソッド、例えば自己検証やプロンプト・プログラミングの意味を明確にする。 私たちの目標は、研究者と実践者の両方が生成型aiの新たな可能性を探るのに役立つ、llmの正式なフレームワークを提供することです。 決定的な解決策があると主張するのではなく、むしろ新しい研究道を開くためのツールである。 当社の正式な定義と成果は、特にヘルスケアやソフトウェアエンジニアリングといった領域において、安全で信頼性が高く、公平で堅牢な、生成的なaiシステムを構築する方法についての議論を進める上で極めて重要である、と論じています。

Large language models (LLMs) are powerful AI tools that can generate and comprehend natural language text and other complex information. However, the field lacks a mathematical framework to systematically describe, compare and improve LLMs. We propose Hex a framework that clarifies key terms and concepts in LLM research, such as hallucinations, alignment, self-verification and chain-of-thought reasoning. The Hex framework offers a precise and consistent way to characterize LLMs, identify their strengths and weaknesses, and integrate new findings. Using Hex, we differentiate chain-of-thought reasoning from chain-of-thought prompting and establish the conditions under which they are equivalent. This distinction clarifies the basic assumptions behind chain-of-thought prompting and its implications for methods that use it, such as self-verification and prompt programming. Our goal is to provide a formal framework for LLMs that can help both researchers and practitioners explore new possibilities for generative AI. We do not claim to have a definitive solution, but rather a tool for opening up new research avenues. We argue that our formal definitions and results are crucial for advancing the discussion on how to build generative AI systems that are safe, reliable, fair and robust, especially in domains like healthcare and software engineering.
翻訳日:2023-11-07 14:50:16 公開日:2023-11-06
# 多人数会話型AIにおける合意の検出

Detecting Agreement in Multi-party Conversational AI ( http://arxiv.org/abs/2311.03026v1 )

ライセンス: Link先を確認
Laura Schauer, Jason Sweeney, Charlie Lyttle, Zein Said, Aron Szeles, Cale Clark, Katie McAskill, Xander Wickham, Tom Byars, Daniel Hern\'andez Garcia, Nancie Gunson, Angus Addlesee, Oliver Lemon(参考訳) 今日、会話システムは多人数での会話、特に社会支援ロボット(sars)での会話を扱うことが期待されている。 しかし、話者認識、宛先認識、複雑なターンテイクなど、克服すべき課題があるため、実用的なユーザビリティは依然として困難である。 本稿では,2人のユーザがトリヴィア・クイズをプレイするマルチパーティ・会話システムについて紹介する。 本システムは,最終回答に対するユーザの同意や不一致を検知し,それに応じて応答する。 本評価は,ユーザ満足度の検出に焦点をあてた性能評価結果とユーザ評価結果の両方を含む。 注釈付き書き起こしと提案するシステムのコードはgithubでオープンソースとして公開されている。

Today, conversational systems are expected to handle conversations in multi-party settings, especially within Socially Assistive Robots (SARs). However, practical usability remains difficult as there are additional challenges to overcome, such as speaker recognition, addressee recognition, and complex turn-taking. In this paper, we present our work on a multi-party conversational system, which invites two users to play a trivia quiz game. The system detects users' agreement or disagreement on a final answer and responds accordingly. Our evaluation includes both performance and user assessment results, with a focus on detecting user agreement. Our annotated transcripts and the code for the proposed system have been released open-source on GitHub.
翻訳日:2023-11-07 14:49:51 公開日:2023-11-06
# 多人数対話における合意の検出--ユーザエンゲージメントを高めるための手続きベースラインと話者ダイアリゼーションの評価

Detecting agreement in multi-party dialogue: evaluating speaker diarisation versus a procedural baseline to enhance user engagement ( http://arxiv.org/abs/2311.03021v1 )

ライセンス: Link先を確認
Angus Addlesee, Daniel Denley, Andy Edmondson, Nancie Gunson, Daniel Hern\'andez Garcia, Alexandre Kha, Oliver Lemon, James Ndubuisi, Neil O'Reilly, Lia Perochaud, Rapha\"el Valeri, Miebaka Worika(参考訳) 多人数対話に参加する会話エージェントは、話者のアイデンティティが重要な文脈意味を付加するため、対話状態追跡において重大な課題に直面している。 話者を特定するためにダイアリゼーションモデルを利用するのが一般的である。 しかし、リアルタイム対話における合意や不一致などの特定の会話イベントを正しく識別できるほど正確かどうかは不明である。 本研究は,会話エージェントがクイズショーホストとして機能する協調クイズを用いて,合意決定においてダイアリゼーションや頻度・確率に基づく手法がより正確かどうか,また,プレイヤーのエンゲージメント感に寄与するかどうかを判定する。 実験の結果, プロシーデュラルシステムは, プレーヤにとってより興味深く, 一致検出の精度が高く, 平均精度0.44 であり, ダイアリステッドシステムでは 0.28 であった。

Conversational agents participating in multi-party interactions face significant challenges in dialogue state tracking, since the identity of the speaker adds significant contextual meaning. It is common to utilise diarisation models to identify the speaker. However, it is not clear if these are accurate enough to correctly identify specific conversational events such as agreement or disagreement during a real-time interaction. This study uses a cooperative quiz, where the conversational agent acts as quiz-show host, to determine whether diarisation or a frequency-and-proximity-based method is more accurate at determining agreement, and whether this translates to feelings of engagement from the players. Experimental results show that our procedural system was more engaging to players, and was more accurate at detecting agreement, reaching an average accuracy of 0.44 compared to 0.28 for the diarised system.
翻訳日:2023-11-07 14:49:41 公開日:2023-11-06
# COLA:Coarse-LabelマルチソースLiDARセマンティックセマンティックセグメンテーションによる自動運転

COLA: COarse-LAbel multi-source LiDAR semantic segmentation for autonomous driving ( http://arxiv.org/abs/2311.03017v1 )

ライセンス: Link先を確認
Jules Sanchez, Jean-Emmanuel Deschaud, Fran\c{c}ois Goulette(参考訳) 自動運転のためのlidarセマンティクスセグメンテーションは、ここ数年で注目を集めている分野だ。 データセットとメソッドは非常に急速に拡張されているが、この新しいデータの可用性を活用し、同じ古典的なデータセットに依存し続けているメソッドは更新されていない。 lidarセマンティックセグメンテーションのトレーニングと推論の異なる方法は、ドメインの一般化、未熟なドメインからのデータをセグメンテーションする能力、ソースからソースへのセグメンテーション、トレーニングドメインからのデータをセグメンテーションする能力、再利用可能な幾何プリミティブを作成する事前トレーニング機能など、いくつかのサブフィールドに分けられる。 本研究では,これらすべてのサブフィールドにおいて,マルチソース・トレーニングの新たなアプローチにより結果を改善することを目的とする。 マルチソーストレーニングは、トレーニング時にさまざまなデータセットの可用性に依存し、単一のデータセットに頼るのではなく、それらを一緒に使用する。 マルチソーストレーニングで見られる共通の障害を克服するため、粗いラベルを導入し、新たに作成されたマルチソースデータセットCOLAを呼び出します。 ドメイン一般化のためのCOLA-DG(最大+10%)、ソース・ソースセグメンテーションのためのCOLA-S2S(最大+5.3%)、事前学習のためのCOLA-PT(最大+12%)である。

LiDAR semantic segmentation for autonomous driving has been a growing field of interest in the past few years. Datasets and methods have appeared and expanded very quickly, but methods have not been updated to exploit this new availability of data and continue to rely on the same classical datasets. Different ways of performing LIDAR semantic segmentation training and inference can be divided into several subfields, which include the following: domain generalization, the ability to segment data coming from unseen domains ; source-to-source segmentation, the ability to segment data coming from the training domain; and pre-training, the ability to create re-usable geometric primitives. In this work, we aim to improve results in all of these subfields with the novel approach of multi-source training. Multi-source training relies on the availability of various datasets at training time and uses them together rather than relying on only one dataset. To overcome the common obstacles found for multi-source training, we introduce the coarse labels and call the newly created multi-source dataset COLA. We propose three applications of this new dataset that display systematic improvement over single-source strategies: COLA-DG for domain generalization (up to +10%), COLA-S2S for source-to-source segmentation (up to +5.3%), and COLA-PT for pre-training (up to +12%).
翻訳日:2023-11-07 14:49:23 公開日:2023-11-06
# 組合せ相互作用試験ツールのためのベンチマークジェネレータの設計・実装・検証

Design, implementation, and validation of a benchmark generator for combinatorial interaction testing tools ( http://arxiv.org/abs/2311.03016v1 )

ライセンス: Link先を確認
Andrea Bombarda and Angelo Gargantini(参考訳) 組合せテストはソフトウェアの欠陥を効率的に検出する手法として広く採用されている。 コンビネーションテストジェネレータの品質は、効果的なテストカバレッジを達成する上で重要な役割を果たす。 コンビネートテストジェネレータの評価は、多様で代表的なベンチマークを必要とする課題である。 このようなベンチマークを行うことで、開発者はツールをテストし、パフォーマンスを改善することができる。 そこで本稿では,コンビネータテスト生成器が使用するベンチマークの高度に構成可能な生成器であるbencigenを提案する。 このツールの最初のバージョンはCT-Competitionで使われており、毎年、International Workshop on Combinatorial Testingで行われている。 本稿では,BenCIGenの要件,設計,実装,検証について述べる。 BenCIGenの検証テストは、組合せ的相互作用アプローチを用いてその要求から導かれる。 さらに,本ツールが実際のソフトウェアシステムの特徴を反映したベンチマークを生成する能力を示す。 BenCIGenは、既存のジェネレータの評価を促進するだけでなく、組み合わせテスト手法の品質と有効性を高めるために研究者や実践者にとって貴重な情報源となっている。

Combinatorial testing is a widely adopted technique for efficiently detecting faults in software. The quality of combinatorial test generators plays a crucial role in achieving effective test coverage. Evaluating combinatorial test generators remains a challenging task that requires diverse and representative benchmarks. Having such benchmarks might help developers to test their tools, and improve their performance. For this reason, in this paper, we present BenCIGen, a highly configurable generator of benchmarks to be used by combinatorial test generators, empowering users to customize the type of benchmarks generated, including constraints and parameters, as well as their complexity. An initial version of such a tool has been used during the CT-Competition, held yearly during the International Workshop on Combinatorial Testing. This paper describes the requirements, the design, the implementation, and the validation of BenCIGen. Tests for the validation of BenCIGen are derived from its requirements by using a combinatorial interaction approach. Moreover, we demonstrate the tool's ability to generate benchmarks that reflect the characteristics of real software systems. BenCIGen not only facilitates the evaluation of existing generators but also serves as a valuable resource for researchers and practitioners seeking to enhance the quality and effectiveness of combinatorial testing methodologies.
翻訳日:2023-11-07 14:48:54 公開日:2023-11-06
# マルチスペクトル衛星画像インパインティングのための構造エッジガイダンスを用いたテキスト・画像拡散モデルの能力の検討

Exploring the Capability of Text-to-Image Diffusion Models with Structural Edge Guidance for Multi-Spectral Satellite Image Inpainting ( http://arxiv.org/abs/2311.03008v1 )

ライセンス: Link先を確認
Mikolaj Czerkawski, Christos Tachtatzis(参考訳) 本稿では,衛星画像データに対するテキストから画像へのインペインティングモデルの有用性について検討する。 構造誘導信号を生成プロセスに注入する2つの技術的課題と、rgb-to-msi変換の新しい方法と、stablediffusionとcontrolnetに基づく新しいインペインティングフレームワークを導入することで、インペインティングされたrgbピクセルをより広いmsiバンドに翻訳する。 以上の結果から, 安定拡散により合成したインペイントは望ましくない人工物に苦しめられ, 自己教師付きインペインティングの簡易な代替品が高品位に合成できることが示唆された。

The paper investigates the utility of text-to-image inpainting models for satellite image data. Two technical challenges of injecting structural guiding signals into the generative process as well as translating the inpainted RGB pixels to a wider set of MSI bands are addressed by introducing a novel inpainting framework based on StableDiffusion and ControlNet as well as a novel method for RGB-to-MSI translation. The results on a wider set of data suggest that the inpainting synthesized via StableDiffusion suffers from undesired artefacts and that a simple alternative of self-supervised internal inpainting achieves higher quality of synthesis.
翻訳日:2023-11-07 14:48:38 公開日:2023-11-06
# 任意の粒子数をもつ系における量子分布関数

Quantum distribution functions in systems with an arbitrary number of particles ( http://arxiv.org/abs/2311.03003v1 )

ライセンス: Link先を確認
Yu.M. Poluektov and A.A. Soroka(参考訳) 非相互作用フェルミオン・ボソン系における量子分布関数のエントロピー表現と量子分布関数の方程式について, 少量の粒子を含む任意の粒子で求めた。

Expressions for the entropy and equations for the quantum distribution functions in systems of non-interacting fermions and bosons with an arbitrary, including small, number of particles are obtained in the paper
翻訳日:2023-11-07 14:48:23 公開日:2023-11-06
# 潜時変量モデルによる単腕試験による治療効果の推定

Estimating treatment effects from single-arm trials via latent-variable modeling ( http://arxiv.org/abs/2311.03002v1 )

ライセンス: Link先を確認
Manuel Haussmann, Tran Minh Son Le, Viivi Halla-aho, Samu Kurki, Jussi Leinonen, Miika Koskinen, Samuel Kaski, Harri L\"ahdesm\"aki(参考訳) ランダム化制御試験(RCTs)は治療効果推定の標準として受け入れられているが、倫理的理由や禁止費用のために実現不可能である。 すべての患者が治療グループに属するシングルアームトライアルは、有効な代替手段であるが、外部コントロールグループにアクセスする必要がある。 このシナリオに対して, 構造的欠損パターンをモデル化することにより, 共変量観測の欠如を考慮できる, 同定可能な深潜時変量モデルを提案する。 提案手法では,グループ固有表現と識別可能な共有潜在表現の両方を学ぶために,償却変分推論を用いる。 一 治療群、又は治療群に治療結果が得られない場合の患者マッチング (ii)両群での結果を想定した直接治療効果の推定。 我々は、公開ベンチマークと、公開RTT研究と実世界の電子健康記録からなるデータセットを用いて、モデルを評価した。 従来の方法と比較して, 直接的治療効果評価と患者マッチングによる効果評価の両方において, 性能が向上した。

Randomized controlled trials (RCTs) are the accepted standard for treatment effect estimation but they can be infeasible due to ethical reasons and prohibitive costs. Single-arm trials, where all patients belong to the treatment group, can be a viable alternative but require access to an external control group. We propose an identifiable deep latent-variable model for this scenario that can also account for missing covariate observations by modeling their structured missingness patterns. Our method uses amortized variational inference to learn both group-specific and identifiable shared latent representations, which can subsequently be used for (i) patient matching if treatment outcomes are not available for the treatment group, or for (ii) direct treatment effect estimation assuming outcomes are available for both groups. We evaluate the model on a public benchmark as well as on a data set consisting of a published RCT study and real-world electronic health records. Compared to previous methods, our results show improved performance both for direct treatment effect estimation as well as for effect estimation via patient matching.
翻訳日:2023-11-07 14:48:18 公開日:2023-11-06
# カーネル密度比の変動重み付け

Variational Weighting for Kernel Density Ratios ( http://arxiv.org/abs/2311.03001v1 )

ライセンス: Link先を確認
Sangwoong Yoon, Frank C. Park, Gunsu S Yun, Iljung Kim, Yung-Kyun Noh(参考訳) カーネル密度推定(kde)は、機械学習において生成的および判別的タスクの範囲に不可欠である。 変動の多次元計算からツールを描画することにより、密度比の標準カーネル密度推定値のバイアスを低減する最適な重み関数が導出され、予測後続推定と情報理論測度が改善される。 この過程で,特にkdesを主構成要素とするアルゴリズムの観点から,密度推定のいくつかの基本的な側面を明らかにした。

Kernel density estimation (KDE) is integral to a range of generative and discriminative tasks in machine learning. Drawing upon tools from the multidimensional calculus of variations, we derive an optimal weight function that reduces bias in standard kernel density estimates for density ratios, leading to improved estimates of prediction posteriors and information-theoretic measures. In the process, we shed light on some fundamental aspects of density estimation, particularly from the perspective of algorithms that employ KDEs as their main building blocks.
翻訳日:2023-11-07 14:48:01 公開日:2023-11-06
# 公正な合成データによる強い統計パリティ

Strong statistical parity through fair synthetic data ( http://arxiv.org/abs/2311.03000v1 )

ライセンス: Link先を確認
Ivona Krchova, Michael Platzer, Paul Tiwald(参考訳) aiが生成する合成データは、オリジナルのデータセットのプライバシを保護することに加えて、ユーザとデータコンシューマが自身のニーズに合わせてデータを調整できる。 本稿では,デザインによる公正を具現化した合成データの作成について,統計的パリティ公正定義に着目して検討する。 センシティブな属性間で合成データ生成者の学習目標確率分布を等化することにより、そのような合成データに基づいて訓練された下流モデルは、全てのしきい値、すなわちバイアス付き元のデータから推測しても強い公正な予測を与える。 このフェアネス調整は、合成ジェネレータのサンプリングプロセスに直接統合するか、後処理ステップとして追加することができる。 この柔軟性により、データコンシューマは、公正な合成データを作成し、データに対する以前の仮定や合成データジェネレータの再トレーニングなしに、正確性と公正性のトレードオフを微調整することができる。

AI-generated synthetic data, in addition to protecting the privacy of original data sets, allows users and data consumers to tailor data to their needs. This paper explores the creation of synthetic data that embodies Fairness by Design, focusing on the statistical parity fairness definition. By equalizing the learned target probability distributions of the synthetic data generator across sensitive attributes, a downstream model trained on such synthetic data provides fair predictions across all thresholds, that is, strong fair predictions even when inferring from biased, original data. This fairness adjustment can be either directly integrated into the sampling process of a synthetic generator or added as a post-processing step. The flexibility allows data consumers to create fair synthetic data and fine-tune the trade-off between accuracy and fairness without any previous assumptions on the data or re-training the synthetic data generator.
翻訳日:2023-11-07 14:47:52 公開日:2023-11-06
# 時間畳み込みネットワークを用いた群集シミュレーションのための視覚情報駆動モデル

Visual-information-driven model for crowd simulation using temporal convolutional network ( http://arxiv.org/abs/2311.02996v1 )

ライセンス: Link先を確認
Xuanwen Liang and Eric Wai Ming Lee(参考訳) 群衆シミュレーションは、ユーザーエクスペリエンスと公共の安全の両方に影響を与える設計において重要な役割を果たす。 従来の知識駆動モデルにはメリットがあるが、データ駆動の群衆シミュレーションモデルは、これらのシミュレーションに新しい次元のリアリズムをもたらすことを約束している。 しかし、既存のデータ駆動モデルのほとんどは特定のジオメトリ用に設計されており、適応性と適用性が低い。 データ駆動の群衆シミュレーションモデルの適応性とリアリズムを高めるための有望な戦略は、シナリオ幾何や歩行者の移動を含む視覚情報を取り入れることである。 そこで本研究では,視覚情報駆動型群集シミュレーションモデルを提案する。 VIDモデルは、過去の社会的視覚情報と個人の動きデータに基づいて、次のステップで歩行者の速度を予測する。 歩行者の視覚情報を抽出するために,レーダ・ジオメトリ・ロコモーション法を確立する。 さらに, 時空間畳み込みネットワーク(TCN)に基づく深層学習モデルである社会的視覚的TCNを開発し, 速度予測を行った。 VIDモデルは、異なるジオメトリ、すなわち廊下、コーナー、Tジャンクションを持つ3つの公共歩行者運動データセットでテストされる。 vidモデルの評価には質的および定量的な指標が採用され,3つの幾何学的シナリオにまたがってモデルの適応性が向上した。 提案手法は,データ駆動群集モデルの適応性向上に有効であることを示す。

Crowd simulations play a pivotal role in building design, influencing both user experience and public safety. While traditional knowledge-driven models have their merits, data-driven crowd simulation models promise to bring a new dimension of realism to these simulations. However, most of the existing data-driven models are designed for specific geometries, leading to poor adaptability and applicability. A promising strategy for enhancing the adaptability and realism of data-driven crowd simulation models is to incorporate visual information, including the scenario geometry and pedestrian locomotion. Consequently, this paper proposes a novel visual-information-driven (VID) crowd simulation model. The VID model predicts the pedestrian velocity at the next time step based on the prior social-visual information and motion data of an individual. A radar-geometry-locomotion method is established to extract the visual information of pedestrians. Moreover, a temporal convolutional network (TCN)-based deep learning model, named social-visual TCN, is developed for velocity prediction. The VID model is tested on three public pedestrian motion datasets with distinct geometries, i.e., corridor, corner, and T-junction. Both qualitative and quantitative metrics are employed to evaluate the VID model, and the results highlight the improved adaptability of the model across all three geometric scenarios. Overall, the proposed method demonstrates effectiveness in enhancing the adaptability of data-driven crowd models.
翻訳日:2023-11-07 14:47:34 公開日:2023-11-06
# レチネックス分解による低光度画像のゼロショット強調

Zero-Shot Enhancement of Low-Light Image Based on Retinex Decomposition ( http://arxiv.org/abs/2311.02995v1 )

ライセンス: Link先を確認
Wenchao Li, Bangshu Xiong, Qiaofeng Ou, Xiaoyun Long, Jinhao Zhu, Jiabao Chen and Shuyuan Wen(参考訳) ここでは、低照度画像強調を困難な課題にしている。第一に、輝度復元だけでなく、画像コントラスト、画像デノイング、色歪みを同時に考慮する必要がある。 第2に、既存の低照度強調手法の有効性は、一般化性能の悪いペア・ペアトレーニングデータに依存する。 そこで本稿では,ZERRINNetと呼ばれるゼロショット低光強調手法の学習に基づくRetinex分解法を提案する。 そこで我々はまず,N-Netネットワークをノイズロス項とともに設計し,低照度画像の雑音を推定することにより,元の低照度画像の雑音化に用いる。 さらに、RI-Netを用いて反射成分と照明成分を推定し、色歪みとコントラストを解決するために、テクスチャ損失項とセグメントスムージング損失を用いて反射成分と照明成分を制約する。 最後に,提案手法は,ペア化データセットとアンペア化データセットのトレーニングデータの影響を受けないゼロ参照向上手法であり,一般化性能が大幅に向上し,本論文では,自家製の実生活低照度データセットと,顔検出,ターゲット認識,インスタンスセグメンテーションといった高度な視覚タスクで有効に検証した。 本研究では,多数の公開データセットについて比較実験を行い,現状の手法と比較して,本手法の性能が競合していることを示す。 コードは、https://github.com/liwenchao0615/ZERRINNetで入手できる。

Two difficulties here make low-light image enhancement a challenging task; firstly, it needs to consider not only luminance restoration but also image contrast, image denoising and color distortion issues simultaneously. Second, the effectiveness of existing low-light enhancement methods depends on paired or unpaired training data with poor generalization performance. To solve these difficult problems, we propose in this paper a new learning-based Retinex decomposition of zero-shot low-light enhancement method, called ZERRINNet. To this end, we first designed the N-Net network, together with the noise loss term, to be used for denoising the original low-light image by estimating the noise of the low-light image. Moreover, RI-Net is used to estimate the reflection component and illumination component, and in order to solve the color distortion and contrast, we use the texture loss term and segmented smoothing loss to constrain the reflection component and illumination component. Finally, our method is a zero-reference enhancement method that is not affected by the training data of paired and unpaired datasets, so our generalization performance is greatly improved, and in the paper, we have effectively validated it with a homemade real-life low-light dataset and additionally with advanced vision tasks, such as face detection, target recognition, and instance segmentation. We conducted comparative experiments on a large number of public datasets and the results show that the performance of our method is competitive compared to the current state-of-the-art methods. The code is available at:https://github.com/liwenchao0615/ZERRINNet
翻訳日:2023-11-07 14:47:13 公開日:2023-11-06
# 集団認識のための集団決定機構の進化

Evolution of Collective Decision-Making Mechanisms for Collective Perception ( http://arxiv.org/abs/2311.02994v1 )

ライセンス: Link先を確認
Tanja Katharina Kaiser and Tristan Potten and Heiko Hamann(参考訳) 自律型ロボット群は、迅速かつ正確な集団決定を行なわなければならないが、スピードと精度は相反する目標であることが知られている。 群集意思決定は群集ロボット研究において広く研究されているが、群集決定機構を生成するために進化的計算法を用いる研究はほとんどない。 これらの作業は、各集団意思決定タスクの達成に報いるタスク固有のフィットネス機能を使用する。 しかし、予測誤差最小化のようなタスク非依存の報酬は、多様で革新的なソリューションの出現を促進する可能性がある。 我々は,ロボットの正しい意見に報いるタスク固有フィットネス機能と,予測精度に対するタスク非依存報酬と,前者の2つを組み合わせたハイブリッドフィットネス機能を用いて,総合的な意思決定機構を進化させた。 シミュレーションでは、ロボットは2つの環境特徴のどれがより頻繁であるかを集団的に判断しなければならない。 進化は3つのシナリオすべてにおいて適合度を最適化するが、タスク固有の適合度関数とハイブリッドな適合度関数だけが集団的意思決定行動の出現に繋がることを示した。 ベンチマーク実験では、進化した意思決定機構の投票者モデルと多数決ルールとの競合性を示し、問題難易度を伴う意思決定機構のスケーラビリティを分析する。

Autonomous robot swarms must be able to make fast and accurate collective decisions, but speed and accuracy are known to be conflicting goals. While collective decision-making is widely studied in swarm robotics research, only few works on using methods of evolutionary computation to generate collective decision-making mechanisms exist. These works use task-specific fitness functions rewarding the accomplishment of the respective collective decision-making task. But task-independent rewards, such as for prediction error minimization, may promote the emergence of diverse and innovative solutions. We evolve collective decision-making mechanisms using a task-specific fitness function rewarding correct robot opinions, a task-independent reward for prediction accuracy, and a hybrid fitness function combining the two previous. In our simulations, we use the collective perception scenario, that is, robots must collectively determine which of two environmental features is more frequent. We show that evolution successfully optimizes fitness in all three scenarios, but that only the task-specific fitness function and the hybrid fitness function lead to the emergence of collective decision-making behaviors. In benchmark experiments, we show the competitiveness of the evolved decision-making mechanisms to the voter model and the majority rule and analyze the scalability of the decision-making mechanisms with problem difficulty.
翻訳日:2023-11-07 14:46:45 公開日:2023-11-06
# 神経画像異常検出のための弱教師付き階層型注意ネットワークNEURO HAND

NEURO HAND: A weakly supervised Hierarchical Attention Network for neuroimaging abnormality Detection ( http://arxiv.org/abs/2311.02992v1 )

ライセンス: Link先を確認
David A. Wood(参考訳) 臨床神経画像データは自然に階層的である。 時系列内の異なる磁気共鳴イメージング(MRI)シーケンス、頭部を覆う異なるスライス、および各スライス内の異なる領域は、それぞれ異なる情報を参照する。 本稿では,臨床病院におけるmriスキャンを用いた異常検出のための階層的注意ネットワークを提案する。 提案するネットワークは,非体積データ(高分解能MRIスライススタック)に適しており,二値検査レベルのラベルからトレーニングすることができる。 この階層的アプローチによって分類が向上し, 粗い間およびスライス内異常局所化, あるいは異なるスライスやシーケンスに重要なスコアを与えることにより, 放射線学部門における自動トリアージシステムとしての使用に適したモデルが得られた。

Clinical neuroimaging data is naturally hierarchical. Different magnetic resonance imaging (MRI) sequences within a series, different slices covering the head, and different regions within each slice all confer different information. In this work we present a hierarchical attention network for abnormality detection using MRI scans obtained in a clinical hospital setting. The proposed network is suitable for non-volumetric data (i.e. stacks of high-resolution MRI slices), and can be trained from binary examination-level labels. We show that this hierarchical approach leads to improved classification, while providing interpretability through either coarse inter- and intra-slice abnormality localisation, or giving importance scores for different slices and sequences, making our model suitable for use as an automated triaging system in radiology departments.
翻訳日:2023-11-07 14:46:23 公開日:2023-11-06
# 物理前処理によるマルチモードファイバーによるイメージング

Imaging through multimode fibres with physical prior ( http://arxiv.org/abs/2311.03062v1 )

ライセンス: Link先を確認
Chuncheng Zhang, Yingjie Shi, Zheyi Yao, Xiubao Sui, Qian Cheng(参考訳) 深層学習に基づく摂動多モードファイバーによるイメージングは広く研究されている。 しかし、既存の手法は主に異なる構成でターゲットとスペックのペアを使用する。 訓練されたネットワークなしでターゲットを再構築することは困難である。 本稿では,物理支援,教師なし,学習に基づくファイバーイメージング方式を提案する。 物理的事前の役割は、スペックルパターンと対象画像の間のマッピング関係を単純化し、計算の複雑さを低減させることである。 教師なしネットワークは、物理先行によって提供される最適化方向に従って目標特徴を学習する。 したがって、オンライン学習の再構築プロセスは、少数のスペックルパターンと未実装の目標のみを必要とする。 提案手法は,摂動マルチモードファイバーにおける学習ベース手法の一般化能力も向上する。 提案手法はマルチモードファイバー画像の応用を拡大する可能性がある。

Imaging through perturbed multimode fibres based on deep learning has been widely researched. However, existing methods mainly use target-speckle pairs in different configurations. It is challenging to reconstruct targets without trained networks. In this paper, we propose a physics-assisted, unsupervised, learning-based fibre imaging scheme. The role of the physical prior is to simplify the mapping relationship between the speckle pattern and the target image, thereby reducing the computational complexity. The unsupervised network learns target features according to the optimized direction provided by the physical prior. Therefore, the reconstruction process of the online learning only requires a few speckle patterns and unpaired targets. The proposed scheme also increases the generalization ability of the learning-based method in perturbed multimode fibres. Our scheme has the potential to extend the application of multimode fibre imaging.
翻訳日:2023-11-07 14:38:14 公開日:2023-11-06
# Wyner-Ziv問題における逐次リファインメントのための階層符号化の学習

Learned layered coding for Successive Refinement in the Wyner-Ziv Problem ( http://arxiv.org/abs/2311.03061v1 )

ライセンス: Link先を確認
Boris Joukovsky and Brent De Weerdt and Nikos Deligiannis(参考訳) 本稿では,データ駆動型手法を用いて,品質の上昇と相関する側情報の助けを借りて逐次復号化される連続音源のプログレッシブエンコーディングを明示的に学習する手法を提案する。 この設定は、Wyner-Ziv符号問題の連続的な改善を指す。 理想的なSlepian-Wolf符号を仮定すると、我々は2次ガウスの場合の層付きエンコーダとデコーダを学ぶためにリカレントニューラルネットワーク(RNN)を用いる。 モデルは、連続的に洗練されたwyner-ziv符号化問題のレートゆらぎ関数の変動境界を最小化することによって訓練される。 我々は、RNNがスケーラブルなネスト量子化と同様の層状ビニングソリューションを明示的に検索できることを実証した。 さらに、このスキームの速度歪み性能は、対応するモノリシックWyner-Ziv符号法と同等であり、速度歪み境界に近い。

We propose a data-driven approach to explicitly learn the progressive encoding of a continuous source, which is successively decoded with increasing levels of quality and with the aid of correlated side information. This setup refers to the successive refinement of the Wyner-Ziv coding problem. Assuming ideal Slepian-Wolf coding, our approach employs recurrent neural networks (RNNs) to learn layered encoders and decoders for the quadratic Gaussian case. The models are trained by minimizing a variational bound on the rate-distortion function of the successively refined Wyner-Ziv coding problem. We demonstrate that RNNs can explicitly retrieve layered binning solutions akin to scalable nested quantization. Moreover, the rate-distortion performance of the scheme is on par with the corresponding monolithic Wyner-Ziv coding approach and is close to the rate-distortion bound.
翻訳日:2023-11-07 14:38:06 公開日:2023-11-06
# 単一光子検出による高励起メカニカルオシレータの非古典性観測法の提案

Proposal for Observing Nonclassicality in Highly Excited Mechanical Oscillators by Single Photon Detection ( http://arxiv.org/abs/2311.03060v1 )

ライセンス: Link先を確認
Kai Ryen Bush, Kjetil B{\o}rkje(参考訳) 高分解能の純量子状態の調製は、量子システムを制御するための実験的な試みの中心的な目標である。 機械振動子を任意に大きなコヒーレント振幅で非古典的状態に描画する状態準備プロトコルを提案する。 このプロトコルはコヒーレントな状態の準備を頼りに、1つのラマン散乱光子の射影測定を行い、空洞光学に特に適している。 状態の非古典性は、後に放出されたラマン側バンド光子の統計を測定することでアクセス可能な、ポアソン準フォノン統計によって反映される。 提案プロトコルは、単一フォノンレベルの運動に対してマクロに運動する機械振動子の非古典性観測を容易にする。

The preparation of pure quantum states with high degrees of macroscopicity is a central goal of ongoing experimental efforts to control quantum systems. We present a state preparation protocol which renders a mechanical oscillator with an arbitrarily large coherent amplitude in a manifestly nonclassical state. The protocol relies on coherent state preparation followed by a projective measurement of a single Raman scattered photon, making it particularly suitable for cavity optomechanics. The nonclassicality of the state is reflected by sub-Poissonian phonon statistics, which can be accessed by measuring the statistics of subsequently emitted Raman sideband photons. The proposed protocol would facilitate the observation of nonclassicality of a mechanical oscillator that moves macroscopically relative to motion at the single-phonon level.
翻訳日:2023-11-07 14:37:50 公開日:2023-11-06
# max-t ファジィ関係方程式の極大整合性サブシステム

Maximal Consistent Subsystems of Max-T Fuzzy Relational Equations ( http://arxiv.org/abs/2311.03059v1 )

ライセンス: Link先を確認
Isma\"il Baaj(参考訳) 本稿では、$a \box_{t}^{\max} x = b$ という形の、$a \box_{t}^{\max} x = b$ のファジィ関係方程式の系の不整合について研究する。 矛盾しない$\max-T$システムに対して、正準最大整合部分系を直接構成する(包含順序において)。 得られた主なツールは、チェビシェフ距離 $\Delta = \inf_{c \in \mathcal{C}} \Vert b - c \Vert$ を、一貫性のない$\max-T$システムに関連付けて計算する解析公式である。 同じ解析式に基づいて、不整合$\max-\min$システムに対して、すべての一貫したサブシステムを得る効率的な方法を示し、その最大一貫したサブシステムを反復的に得る方法を示す。

In this article, we study the inconsistency of a system of $\max-T$ fuzzy relational equations of the form $A \Box_{T}^{\max} x = b$, where $T$ is a t-norm among $\min$, the product or Lukasiewicz's t-norm. For an inconsistent $\max-T$ system, we directly construct a canonical maximal consistent subsystem (w.r.t the inclusion order). The main tool used to obtain it is the analytical formula which compute the Chebyshev distance $\Delta = \inf_{c \in \mathcal{C}} \Vert b - c \Vert$ associated to the inconsistent $\max-T$ system, where $\mathcal{C}$ is the set of second members of consistent systems defined with the same matrix $A$. Based on the same analytical formula, we give, for an inconsistent $\max-\min$ system, an efficient method to obtain all its consistent subsystems, and we show how to iteratively get all its maximal consistent subsystems.
翻訳日:2023-11-07 14:37:36 公開日:2023-11-06
# ゼロショットバイリンガルアプリレビュー:大規模言語モデルによるマイニング

Zero-shot Bilingual App Reviews Mining with Large Language Models ( http://arxiv.org/abs/2311.03058v1 )

ライセンス: Link先を確認
Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, G\'erard Dray(参考訳) app storeのアプリレビューは、ソフトウェア要件の改善に不可欠です。 多くの価値あるレビューが継続的に投稿され、ソフトウェアの問題と期待される機能を説明しています。 ユーザレビューを効果的に活用するには、関連する情報の抽出とその後の要約が必要である。 ユーザーレビューのかなりの量のため、手動分析は困難である。 自然言語処理(NLP)に基づく様々な手法が,自動ユーザレビューマイニングのために提案されている。 しかし、その大半は、実世界のシナリオでの使用を制限するために、モデルトレーニングのために手作業によるデータセットを必要としている。 本研究では,大規模言語モデル(llm)を統合し,英語とフランス語のユーザレビューをゼロショットマイニングするツールであるmini-barを提案する。 特にMini-BARは (i)ユーザーレビューを分類する。 (ii)類似のレビューをまとめる。 (iii)クラスタごとに抽象的な要約を生成し、 (iv) ユーザレビュークラスタをランク付けする。 Mini-BARの性能を評価するために、6,000の英語と6000のフランス語の注釈付きユーザレビューを含むデータセットを作成し、広範な実験を行った。 バイリンガルアプリレビューの分析により,要件工学におけるMini-BARの有効性と効率を実証した。 (https://github.com/Jl-wei/mini-bar のコード、データセット、実験設定を含むレプリケーションパッケージ)

App reviews from app stores are crucial for improving software requirements. A large number of valuable reviews are continually being posted, describing software problems and expected features. Effectively utilizing user reviews necessitates the extraction of relevant information, as well as their subsequent summarization. Due to the substantial volume of user reviews, manual analysis is arduous. Various approaches based on natural language processing (NLP) have been proposed for automatic user review mining. However, the majority of them requires a manually crafted dataset to train their models, which limits their usage in real-world scenarios. In this work, we propose Mini-BAR, a tool that integrates large language models (LLMs) to perform zero-shot mining of user reviews in both English and French. Specifically, Mini-BAR is designed to (i) classify the user reviews, (ii) cluster similar reviews together, (iii) generate an abstractive summary for each cluster and (iv) rank the user review clusters. To evaluate the performance of Mini-BAR, we created a dataset containing 6,000 English and 6,000 French annotated user reviews and conducted extensive experiments. Preliminary results demonstrate the effectiveness and efficiency of Mini-BAR in requirement engineering by analyzing bilingual app reviews. (Replication package containing the code, dataset, and experiment setups on https://github.com/Jl-wei/mini-bar )
翻訳日:2023-11-07 14:37:13 公開日:2023-11-06
# LitSumm:非コーディングRNAの文献要約のための大規模言語モデル

LitSumm: Large language models for literature summarisation of non-coding RNAs ( http://arxiv.org/abs/2311.03056v1 )

ライセンス: Link先を確認
Andrew Green, Carlos Ribas, Nancy Ontiveros-Palacios, Anton I. Petrov, Alex Bateman and Blake Sweeney(参考訳) モチベーション(Motivation): 生命科学における文学のカリキュラムは、ますます難しい。 出版率の継続的な増加と世界中のキュレーターの相対的な増加は、生物医学的知識基盤の開発者にとって大きな課題となっている。 関係する文献全体にスケールするリソースを持つ知識ベースは極めて少なく、すべて彼らの努力を優先する必要があります。 結果: 本研究は, 大規模言語モデル(LLM)を用いた非コーディングRNAの文献の要約を生成することにより, RNA科学におけるキュレーター時間不足を緩和する第一歩を踏み出した。 文献から,商業LSMと一連のプロンプトとチェックを用いて,高精度な参照付き高品質な要約を自動生成できることを実証した。 要約のサブセットに対して手作業による評価が行われ、その大半は極めて高い品質で評価された。 また,最も一般的に使用される自動評価手法を適用し,人間評価と相関しないことを見いだした。 最後に、我々のツールを4,600 ncRNAのセレクションに適用し、生成したサマリをRNA分散リソースを介して利用できるようにする。 文献の自動要約はLLMの現世代で実現可能であると結論し、注意深いプロンプトと自動チェックを適用した。 可用性: これらの要約を生成するために使用されるコードは、以下の通りである。 https://github.com/RNAcentral/litscan-summarization and the data of contexts and summaries。 RNAcentral (https://rnacentral.org/) の RNA レポートページにも要約が表示される。

Motivation: Curation of literature in life sciences is a growing challenge. The continued increase in the rate of publication, coupled with the relatively fixed number of curators worldwide presents a major challenge to developers of biomedical knowledgebases. Very few knowledgebases have resources to scale to the whole relevant literature and all have to prioritise their efforts. Results: In this work, we take a first step to alleviating the lack of curator time in RNA science by generating summaries of literature for non-coding RNAs using large language models (LLMs). We demonstrate that high-quality, factually accurate summaries with accurate references can be automatically generated from the literature using a commercial LLM and a chain of prompts and checks. Manual assessment was carried out for a subset of summaries, with the majority being rated extremely high quality. We also applied the most commonly used automated evaluation approaches, finding that they do not correlate with human assessment. Finally, we apply our tool to a selection of over 4,600 ncRNAs and make the generated summaries available via the RNAcentral resource. We conclude that automated literature summarization is feasible with the current generation of LLMs, provided careful prompting and automated checking are applied. Availability: Code used to produce these summaries can be found here: https://github.com/RNAcentral/litscan-summarization and the dataset of contexts and summaries can be found here: https://huggingface.co/datasets/RNAcentral/litsumm-v1. Summaries are also displayed on the RNA report pages in RNAcentral (https://rnacentral.org/)
翻訳日:2023-11-07 14:36:58 公開日:2023-11-06
# DRAUC: インスタンス単位の分散ロバストAUC最適化フレームワーク

DRAUC: An Instance-wise Distributionally Robust AUC Optimization Framework ( http://arxiv.org/abs/2311.03055v1 )

ライセンス: Link先を確認
Siran Dai, Qianqian Xu, Zhiyong Yang, Xiaochun Cao, Qingming Huang(参考訳) ROC曲線の下の領域(AUC)は、長い尾の分類のシナリオにおいて広く用いられている指標である。 しかしながら、既存の方法の多くは、トレーニングやテストの例が同じ分布から引き出されたものであると仮定している。 分散ロバスト最適化(DRO)は、局所的な最悪のシナリオに最適化することでモデル性能を向上させるが、AUC最適化とDROを直接統合することで、難解な最適化問題をもたらす。 この課題に対処するため,本研究では,分散ロバストAUC(DRAUC)のインスタンスワイドサロゲート損失を提案し,その上に最適化フレームワークを構築する。 さらに,従来の DRAUC はラベルバイアスを生じさせる可能性があり,したがって分布認識型 DRAUC を堅牢な AUC 学習に適した指標として導入する。 理論的には、トレーニングセットが十分に大きい場合、トレーニング損失とテストエラーの間の一般化ギャップは減少する。 実験により, 提案手法の有効性を実証した。 コードは、https://github.com/EldercatSAM/DRAUC.comで入手できる。

The Area Under the ROC Curve (AUC) is a widely employed metric in long-tailed classification scenarios. Nevertheless, most existing methods primarily assume that training and testing examples are drawn i.i.d. from the same distribution, which is often unachievable in practice. Distributionally Robust Optimization (DRO) enhances model performance by optimizing it for the local worst-case scenario, but directly integrating AUC optimization with DRO results in an intractable optimization problem. To tackle this challenge, methodically we propose an instance-wise surrogate loss of Distributionally Robust AUC (DRAUC) and build our optimization framework on top of it. Moreover, we highlight that conventional DRAUC may induce label bias, hence introducing distribution-aware DRAUC as a more suitable metric for robust AUC learning. Theoretically, we affirm that the generalization gap between the training loss and testing error diminishes if the training set is sufficiently large. Empirically, experiments on corrupted benchmark datasets demonstrate the effectiveness of our proposed method. Code is available at: https://github.com/EldercatSAM/DRAUC.
翻訳日:2023-11-07 14:36:29 公開日:2023-11-06
# anytext:多言語視覚テキストの生成と編集

AnyText: Multilingual Visual Text Generation And Editing ( http://arxiv.org/abs/2311.03054v1 )

ライセンス: Link先を確認
Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie(参考訳) 拡散モデルに基づくText-to-Imageは最近、素晴らしい成果を上げています。 現在, 画像合成技術は高度に進歩しており, 忠実度の高い画像を生成することができるが, 生成した画像のテキスト領域に注目する場合には, 表示を排除できる。 この問題に対処するため,拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介した。 anytextは、補助的潜在モジュールとテキスト埋め込みモジュールという2つの主要な要素を持つ拡散パイプラインで構成されている。 前者はテキストグリフ、位置、マスク画像などの入力を使用してテキスト生成や編集の遅延機能を生成する。 後者は、ストロークデータを埋め込みとしてエンコードするためのOCRモデルを採用しており、トークンのイメージキャプションの埋め込みと組み合わせて、背景とシームレスに統合するテキストを生成する。 テキスト制御拡散損失とテキスト知覚損失を訓練に採用し,文章の精度をさらに向上させた。 anytextは、私たちの知る限りでは、複数の言語で文字を書くことができます。 AnyTextはコミュニティの既存の拡散モデルにプラグインして、テキストのレンダリングや編集を正確に行うこともできる。 広範な評価実験を行った結果,本手法は他の手法をかなり上回っている。 さらに,300万のイメージテキストペアとocrアノテーションを複数言語で含む,最初の大規模多言語テキストイメージデータセットanyword-3mをコントリビュートする。 anyword-3mデータセットに基づいて,テキスト生成精度と品質評価のためのanytext-benchmarkを提案する。 私たちのプロジェクトは、テキスト生成技術の改善と促進のために、https://github.com/tyxspa/anytextでオープンソース化されます。

Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce AnyText, a diffusion-based multilingual visual text generation and editing model, that focuses on rendering accurate and coherent text in the image. AnyText comprises a diffusion pipeline with two primary elements: an auxiliary latent module and a text embedding module. The former uses inputs like text glyph, position, and masked image to generate latent features for text generation or editing. The latter employs an OCR model for encoding stroke data as embeddings, which blend with image caption embeddings from the tokenizer to generate texts that seamlessly integrate with the background. We employed text-control diffusion loss and text perceptual loss for training to further enhance writing accuracy. AnyText can write characters in multiple languages, to the best of our knowledge, this is the first work to address multilingual visual text generation. It is worth mentioning that AnyText can be plugged into existing diffusion models from the community for rendering or editing text accurately. After conducting extensive evaluation experiments, our method has outperformed all other approaches by a significant margin. Additionally, we contribute the first large-scale multilingual text images dataset, AnyWord-3M, containing 3 million image-text pairs with OCR annotations in multiple languages. Based on AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual text generation accuracy and quality. Our project will be open-sourced on https://github.com/tyxsspa/AnyText to improve and promote the development of text generation technology.
翻訳日:2023-11-07 14:36:09 公開日:2023-11-06
# 事前学習モデルを用いたマスキングハイパースペクトルイメージングデータ

Masking Hyperspectral Imaging Data with Pretrained Models ( http://arxiv.org/abs/2311.03053v1 )

ライセンス: Link先を確認
Elias Arbash, Andr\'ea de Lima Ribeiro, Sam Thiele, Nina Gnann, Behnood Rasti, Margret Fuchs, Pedram Ghamisi, Richard Gloaguen(参考訳) 潜在的なノイズや未知のスペクトル特性に関連する望ましくない背景領域の存在は、ハイパースペクトルデータ処理の性能を低下させる。 不要なリージョンをマスキングすることが、この問題に対処する鍵となる。 興味のある領域のみを処理することは、計算コスト、必要なメモリ、全体的なパフォーマンスの点で顕著な改善をもたらす。 提案した処理パイプラインは、関心マスク生成領域の2つの基本部分を含み、次いで、新たにマスクされたハイパースペクトルキューブにのみハイパースペクトルデータ処理技術を適用する。 我々の研究の目新しさは、予備画像分割に採用される手法にある。 データセット内の全オブジェクトの抽出にSegment Anything Model(SAM)を使用し、その後、ゼロショットのグラウンディング・ディノ・オブジェクト検出器でセグメントを洗練し、その後、細調整や再トレーニングを必要とせずに、交差点と排他的フィルタリングステップを施した。 マスク法の有効性を説明するため, 正確なマスキングを要求される3つの難解なアプリケーションシナリオ, 細いプラスチックのキャラクタリゼーション, ドリルコアスキャン, ごみモニタリングに本手法を適用した。 提案するマスキング法の3つの応用における数値評価を,使用済みハイパーパラメータとともに行った。 このメソッドのスクリプトはhttps://github.com/hifexplo/maskingで入手できる。

The presence of undesired background areas associated with potential noise and unknown spectral characteristics degrades the performance of hyperspectral data processing. Masking out unwanted regions is key to addressing this issue. Processing only regions of interest yields notable improvements in terms of computational costs, required memory, and overall performance. The proposed processing pipeline encompasses two fundamental parts: regions of interest mask generation, followed by the application of hyperspectral data processing techniques solely on the newly masked hyperspectral cube. The novelty of our work lies in the methodology adopted for the preliminary image segmentation. We employ the Segment Anything Model (SAM) to extract all objects within the dataset, and subsequently refine the segments with a zero-shot Grounding Dino object detector, followed by intersection and exclusion filtering steps, without the need for fine-tuning or retraining. To illustrate the efficacy of the masking procedure, the proposed method is deployed on three challenging applications scenarios that demand accurate masking; shredded plastics characterization, drill core scanning, and litter monitoring. The numerical evaluation of the proposed masking method on the three applications is provided along with the used hyperparameters. The scripts for the method will be available at https://github.com/hifexplo/Masking.
翻訳日:2023-11-07 14:35:40 公開日:2023-11-06
# MixUp-MIL:全スライド画像分類のための線形・多重線形補間に基づくデータ拡張に関する研究

MixUp-MIL: A Study on Linear & Multilinear Interpolation-Based Data Augmentation for Whole Slide Image Classification ( http://arxiv.org/abs/2311.03052v1 )

ライセンス: Link先を確認
Michael Gadermayr and Lukas Koller and Maximilian Tschuchnig and Lea Maria Stangassinger and Christina Kreutzer and Sebastien Couillard-Despres and Gertie Janneke Oostingh and Anton Hittmair(参考訳) ピクセルレベルのアノテーションがない場合、デジタル全スライド画像の分類には、通常、複数のインスタンス学習方法が適用される。 汎用的な適用性のため、これらの手法は現在研究コミュニティにおいて非常に高い関心を集めているが、この文脈におけるデータ拡張の問題はほとんど調査されていない。 本稿では,データ拡張手法である特徴ベクトル間の線形および多重線形補間について検討し,一般化性能分類ネットワークの改善と複数インスタンス学習の可能性を示した。 しかし、実験は2つの比較的小さなデータセットと1つの特定の特徴抽出アプローチで行われており、データセットへの強い依存が特定されている。 ここでは、10の異なるデータセット構成、2つの異なる特徴抽出アプローチ(教師付きおよび自己教師付き)、染色正規化、2つの複数のインスタンス学習アーキテクチャを組み込んだ大規模な研究を行う。 その結果, 方法の効果は極めて高い変動率を示した。 我々は暗闇に光をもたらすいくつかの興味深い側面を特定し、新しい研究分野を同定した。

For classifying digital whole slide images in the absence of pixel level annotation, typically multiple instance learning methods are applied. Due to the generic applicability, such methods are currently of very high interest in the research community, however, the issue of data augmentation in this context is rarely explored. Here we investigate linear and multilinear interpolation between feature vectors, a data augmentation technique, which proved to be capable of improving the generalization performance classification networks and also for multiple instance learning. Experiments, however, have been performed on only two rather small data sets and one specific feature extraction approach so far and a strong dependence on the data set has been identified. Here we conduct a large study incorporating 10 different data set configurations, two different feature extraction approaches (supervised and self-supervised), stain normalization and two multiple instance learning architectures. The results showed an extraordinarily high variability in the effect of the method. We identified several interesting aspects to bring light into the darkness and identified novel promising fields of research.
翻訳日:2023-11-07 14:35:18 公開日:2023-11-06
# 超短パルスによるグラフェン中のクーロン不純物:励起、イオン化、対生成

Coulomb impurities in graphene driven by ultrashort electromagnetic pulses: Excitation, ionization, and pair creation ( http://arxiv.org/abs/2311.03051v1 )

ライセンス: Link先を確認
Saparboy Rakhmanov, Reinhold Egger, and Davron Matrasulov(参考訳) グラフェン単分子膜の荷電不純物により生成される2次元人工相対論原子における超短パルス誘起電子遷移の理論について述べる。 非摂動的突発摂動近似を用いて, この系における励起, イオン化および電子ホール対生成の確率に関する解析式を導出し, 考察する。

We provide a theory for electronic transitions induced by ultrashort electromagnetic pulses in two-dimensional artificial relativistic atoms which are created by a charged impurity in a gapped graphene monolayer. Using a non-perturbative sudden-perturbation approximation, we derive and discuss analytical expressions for the probabilities for excitation, ionization and electron-hole pair creation in this system.
翻訳日:2023-11-07 14:35:01 公開日:2023-11-06
# 多体非エルミート系の位相相

Topological phase of many-body non-Hermitian systems ( http://arxiv.org/abs/2311.03043v1 )

ライセンス: Link先を確認
Kui Cao and Su-Peng Kou(参考訳) 自由多体フェルミオン非エルミタン系は、それぞれエネルギーバンドと状態の位相を記述するために2つの異なる位相不変量を必要とし、後者はまだ探索されていない。 粒子ホール、線形化時間反転、線形化キラル対称性によって定義される10の対称性クラスを同定し、多体非エルミート位相の量子状態に対する10倍の分類をもたらす。 特異な位相不変量は各クラスで定義され、状態のトポロジーを規定する。 これらの知見は、多体非エルミート系の位相位相の深い理解の道を開く。

We show that free many-body fermionic non-Hermitian systems require two distinct sets of topological invariants to describe the topology of energy bands and states respectively, with the latter yet to be explored. We identify 10 symmetry classes -- defined by particle-hole, linearized time-reversal, and linearized chiral symmetries, leading to a 10-fold classification for quantum states of many-body non-Hermitian topological phase. Unique topological invariants are defined in each class, dictating the topology of states. These findings pave the way for deeper understanding of the topological phases of many-body non-Hermitian systems.
翻訳日:2023-11-07 14:34:53 公開日:2023-11-06
# 局所プロセスモデルのグループ化

Grouping Local Process Models ( http://arxiv.org/abs/2311.03040v1 )

ライセンス: Link先を確認
Viki Peeva, Wil M.P. van der Aalst(参考訳) 近年、プロセスマイニングは運用プロセスを分析し改善する技術として実証されている。 日々の業務でプロセスマイニングを使用する組織の範囲は拡大しており、分析すべきプロセスの幅広い範囲をもたらしている。 これらのプロセスのいくつかは非常に非構造化されており、従来のプロセス発見アプローチではプロセス全体を記述する開始から終了までのモデルを見つけるのが困難である。 したがって、局所過程モデル(lpm)発見の下位学説は、一連のlpm、すなわちプロセスのサブ挙動を説明するより小さなモデルを構築しようとする。 しかし、他のパターンマイニング手法と同様に、lpm発見アルゴリズムはモデル爆発やモデル反復の問題にも直面している。 本研究は,様々なプロセスモデル類似度尺度を用いて類似LPMをグループ化する3段階パイプラインを提案する。 実生活事例研究を通じてグループ化の有用性を実証し、異なる測定方法の影響、発見されたLPMの繰り返し重力、複数実イベントログでのグループ化後の改善について分析した。

In recent years, process mining emerged as a proven technology to analyze and improve operational processes. An expanding range of organizations using process mining in their daily operation brings a broader spectrum of processes to be analyzed. Some of these processes are highly unstructured, making it difficult for traditional process discovery approaches to discover a start-to-end model describing the entire process. Therefore, the subdiscipline of Local Process Model (LPM) discovery tries to build a set of LPMs, i.e., smaller models that explain sub-behaviors of the process. However, like other pattern mining approaches, LPM discovery algorithms also face the problems of model explosion and model repetition, i.e., the algorithms may create hundreds if not thousands of models, and subsets of them are close in structure or behavior. This work proposes a three-step pipeline for grouping similar LPMs using various process model similarity measures. We demonstrate the usefulness of grouping through a real-life case study, and analyze the impact of different measures, the gravity of repetition in the discovered LPMs, and how it improves after grouping on multiple real event logs.
翻訳日:2023-11-07 14:34:43 公開日:2023-11-06
# コンセンサス定義を用いた間接データラベリングによる臨床機械学習の妥当性問題

Validity problems in clinical machine learning by indirect data labeling using consensus definitions ( http://arxiv.org/abs/2311.03037v1 )

ライセンス: Link先を確認
Michael Hagmann and Shigehiko Schamoni and Stefan Riezler(参考訳) 医療における疾患診断の必須応用分野における機械学習の有効性を実証する。 訓練データ中の目標ラベルが間接測定によって決定されると、この間接測定を決定するために必要な基本的な測定が入力データ表現に含まれる。 このデータに基づいてトレーニングされた機械学習モデルは、既知のターゲット定義を正確に再構築する以外に何も学ばない。 このようなモデルも同様に構築されたテストデータで完璧に性能を示すが、基本的な測定値の定義が不完全である、あるいは不完全である実例では壊滅的に失敗する。 本稿では,問題のあるデータセットとブラックボックス機械学習モデルの識別を可能にする一般的な手順を提案し,敗血症の早期予測タスクにおける検出手順を例示する。

We demonstrate a validity problem of machine learning in the vital application area of disease diagnosis in medicine. It arises when target labels in training data are determined by an indirect measurement, and the fundamental measurements needed to determine this indirect measurement are included in the input data representation. Machine learning models trained on this data will learn nothing else but to exactly reconstruct the known target definition. Such models show perfect performance on similarly constructed test data but will fail catastrophically on real-world examples where the defining fundamental measurements are not or only incompletely available. We present a general procedure allowing identification of problematic datasets and black-box machine learning models trained on them, and exemplify our detection procedure on the task of early prediction of sepsis.
翻訳日:2023-11-07 14:34:24 公開日:2023-11-06
# 正規化多項式関数回帰について

On regularized polynomial functional regression ( http://arxiv.org/abs/2311.03036v1 )

ライセンス: Link先を確認
Markus Holzleitner and Sergei Pereverzyev(参考訳) この記事では、多項式関数回帰の包括的処理を提供し、新しい有限サンプル境界の確立に結実する。 この境界は、一般的な滑らかさ条件、容量条件、正規化技法を含む様々な側面を含んでいる。 その際、線形汎関数回帰の文脈からいくつかの知見を拡張し、一般化する。 また,高次多項式項を用いることで性能が向上することを示す数値的証拠も提供する。

This article offers a comprehensive treatment of polynomial functional regression, culminating in the establishment of a novel finite sample bound. This bound encompasses various aspects, including general smoothness conditions, capacity conditions, and regularization techniques. In doing so, it extends and generalizes several findings from the context of linear functional regression as well. We also provide numerical evidence that using higher order polynomial terms can lead to an improved performance.
翻訳日:2023-11-07 14:34:11 公開日:2023-11-06
# 分散量子コンピューティングのための動的デカップリングを用いた量子誤り除去型ビザンチン合意

Quantum-Error-Mitigated Detectable Byzantine Agreement with Dynamical Decoupling for Distributed Quantum Computing ( http://arxiv.org/abs/2311.03097v1 )

ライセンス: Link先を確認
Matthew Prest, Kuan-Cheng Chen(参考訳) 急成長する分散量子コンピューティングの領域では、敵対的な状況下でのコンセンサスの実現が依然として重要な課題である。 本稿では,twirled readout error extinction (t-rex) と dynamical decoupling (dd) という,高度な誤り緩和手法を独自に組み込んだ量子ビザンチン協定 (qba) プロトコルの拡張を提案する。 この洗練されたアプローチの中心は、パフォーマンスを高めるためにノイズ中間量子(NISQ)ソースデバイスを利用することである。 シミュレーションおよび実世界の量子デバイス、特にIBMの量子コンピュータにおける広範囲なテストは、我々のT-RExおよびDD適応の有効性の説得力のある証拠を提供する。 エンタングルメント分布の後、本プロトコルは量子鍵分布(qkd)スキームを再現した検証手法を採用している。 コマンドは、RetreatやAttackといった特定の量子状態にエンコードされた命令を発行する。 受注命令が発散する状況では、中尉は不一致を和らげるために構造化されたゲームに参加する。 特に、これらのゲームの頻度は、コマンドの戦略と全体的なネットワークサイズに依存している。 各種シナリオにおけるプロトコルのレジリエンスと有効性の向上を実証した。 それにもかかわらず、スケーラビリティはネットワークサイズの成長に対する懸念として現れます。 まとめると、我々の研究は、NISQ時代における量子コンセンサスシステム強化のかなりの可能性を照らし、量子エコシステムの活性化における持続的な研究の衝動を浮き彫りにした。

In the burgeoning domain of distributed quantum computing, achieving consensus amidst adversarial settings remains a pivotal challenge. We introduce an enhancement to the Quantum Byzantine Agreement (QBA) protocol, uniquely incorporating advanced error mitigation techniques: Twirled Readout Error Extinction (T-REx) and dynamical decoupling (DD). Central to this refined approach is the utilization of a Noisy Intermediate Scale Quantum (NISQ) source device for heightened performance. Extensive tests on both simulated and real-world quantum devices, notably IBM's quantum computer, provide compelling evidence of the effectiveness of our T-REx and DD adaptations in mitigating prevalent quantum channel errors. Subsequent to the entanglement distribution, our protocol adopts a verification method reminiscent of Quantum Key Distribution (QKD) schemes. The Commander then issues orders encoded in specific quantum states, like Retreat or Attack. In situations where received orders diverge, lieutenants engage in structured games to reconcile discrepancies. Notably, the frequency of these games is contingent upon the Commander's strategies and the overall network size. Our empirical findings underscore the enhanced resilience and effectiveness of the protocol in diverse scenarios. Nonetheless, scalability emerges as a concern with the growth of the network size. To sum up, our research illuminates the considerable potential of fortified quantum consensus systems in the NISQ era, highlighting the imperative for sustained research in bolstering quantum ecosystems.
翻訳日:2023-11-07 14:28:23 公開日:2023-11-06
# 重量共有正規化

Weight-Sharing Regularization ( http://arxiv.org/abs/2311.03096v1 )

ライセンス: Link先を確認
Mehran Shakerinava, Motahareh Sohrabi, Siamak Ravanbakhsh, Simon Lacoste-Julien(参考訳) 重み付けはディープラーニングにおいてユビキタスである。 このことから、ニューラルネットワークに対する'軽量共有正規化'を導入し、$R(w) = \frac{1}{d - 1}\sum_{i > j}^d |w_i - w_j|$と定義する。 我々は、R$の近位写像を研究し、相互作用する粒子の物理系の観点から、直観的な解釈を提供する。 この解釈を用いて、従来のアルゴリズムよりも指数関数的な高速化を提供する$\operatorname{prox}_r$のための新しい並列アルゴリズムを設計、深さは$o(\log^3 d)$である。 提案アルゴリズムは,重み付き正規化ディープニューラルネットワークを近位勾配でトレーニングすることを可能にする。 実験により、重み共有正規化によって完全接続されたネットワークが畳み込みのようなフィルタを学習できることが判明した。

Weight-sharing is ubiquitous in deep learning. Motivated by this, we introduce ''weight-sharing regularization'' for neural networks, defined as $R(w) = \frac{1}{d - 1}\sum_{i > j}^d |w_i - w_j|$. We study the proximal mapping of $R$ and provide an intuitive interpretation of it in terms of a physical system of interacting particles. Using this interpretation, we design a novel parallel algorithm for $\operatorname{prox}_R$ which provides an exponential speedup over previous algorithms, with a depth of $O(\log^3 d)$. Our algorithm makes it feasible to train weight-sharing regularized deep neural networks with proximal gradient descent. Experiments reveal that weight-sharing regularization enables fully-connected networks to learn convolution-like filters.
翻訳日:2023-11-07 14:27:51 公開日:2023-11-06
# 等分散は必要なすべてではない:粒子物理タスクにおける等変グラフニューラルネットワークの有用性の評価

Equivariance Is Not All You Need: Characterizing the Utility of Equivariant Graph Neural Networks for Particle Physics Tasks ( http://arxiv.org/abs/2311.03094v1 )

ライセンス: Link先を確認
Savannah Thais, Daniel Murnane(参考訳) インダクティブバイアスをMLモデルに組み込むことは、特にMLモデルが物理世界に関するデータに適用された場合、ML研究の活発な領域である。 Equivariant Graph Neural Networks (GNN) は、物理データから直接物理系の対称性を組み込むため、最近、物理データから学習する一般的な方法となっている。 本稿では, 群同値ネットワークに関する関連文献から, 実世界の素粒子物理再構成課題を評価テストベッドとして用いることで, 等価gnnの利点を包括的に評価する。 等変ネットワークに関連する理論上の利点の多くは、現実的なシステムには当てはまらない可能性があり、MLの科学理論と物理学の応用の両方に利益をもたらすであろう将来の研究に説得力のある方向を導入できることを実証する。

Incorporating inductive biases into ML models is an active area of ML research, especially when ML models are applied to data about the physical world. Equivariant Graph Neural Networks (GNNs) have recently become a popular method for learning from physics data because they directly incorporate the symmetries of the underlying physical system. Drawing from the relevant literature around group equivariant networks, this paper presents a comprehensive evaluation of the proposed benefits of equivariant GNNs by using real-world particle physics reconstruction tasks as an evaluation test-bed. We demonstrate that many of the theoretical benefits generally associated with equivariant networks may not hold for realistic systems and introduce compelling directions for future research that will benefit both the scientific theory of ML and physics applications.
翻訳日:2023-11-07 14:27:29 公開日:2023-11-06
# スペクトル法に基づく高次元データの持続的ホモロジー

Persistent homology for high-dimensional data based on spectral methods ( http://arxiv.org/abs/2311.03087v1 )

ライセンス: Link先を確認
Sebastian Damrich, Philipp Berens, Dmitry Kobak(参考訳) 永続ホモロジー(persistent homology)は、ループやボイドの存在など点雲の非自明なトポロジーを検出する一般的な計算ツールである。 しかし、内在次元が低い実世界の多くのデータセットは、より高次元の周囲空間に存在する。 この場合、バニラの持続的ホモロジーはノイズに非常に敏感になり、正確なトポロジーを検出できないことを示す。 同じことが、永続ホモロジーの既存のほとんどの改良にも当てはまる。 対策として,拡散距離や有効抵抗といったデータの$k$-nearest-neighborグラフ上のスペクトル距離は,高次元ノイズの存在下においても,持続的ホモロジーが正しいトポロジーを検出できることを示す。 さらに, グラフラプラシアンの固有分解の観点から, 有効抵抗に対する新しい閉形式式を導出し, その拡散距離との関係を記述した。 最後に、これらの手法を高次元単細胞RNAシークエンシングデータセットに適用し、$k$-nearest-neighborグラフ上のスペクトル距離がセルサイクルループの堅牢な検出を可能にすることを示す。

Persistent homology is a popular computational tool for detecting non-trivial topology of point clouds, such as the presence of loops or voids. However, many real-world datasets with low intrinsic dimensionality reside in an ambient space of much higher dimensionality. We show that in this case vanilla persistent homology becomes very sensitive to noise and fails to detect the correct topology. The same holds true for most existing refinements of persistent homology. As a remedy, we find that spectral distances on the $k$-nearest-neighbor graph of the data, such as diffusion distance and effective resistance, allow persistent homology to detect the correct topology even in the presence of high-dimensional noise. Furthermore, we derive a novel closed-form expression for effective resistance in terms of the eigendecomposition of the graph Laplacian, and describe its relation to diffusion distances. Finally, we apply these methods to several high-dimensional single-cell RNA-sequencing datasets and show that spectral distances on the $k$-nearest-neighbor graph allow robust detection of cell cycle loops.
翻訳日:2023-11-07 14:27:02 公開日:2023-11-06
# AI生成テキスト検出のためのシンプルで効率的なアンサンブルアプローチ

A Simple yet Efficient Ensemble Approach for AI-generated Text Detection ( http://arxiv.org/abs/2311.03084v1 )

ライセンス: Link先を確認
Harika Abburi, Kalyani Roy, Michael Suesserman, Nirmala Pudota, Balaji Veeramani, Edward Bowen, Sanmitra Bhattacharya(参考訳) 近年のLarge Language Models (LLMs) は、幅広いスタイルやジャンルにまたがる人間の文章によく似たテキストを生成する際、顕著な能力を示した。 しかし、そのような機能は、偽ニュースの生成、スパムメールの作成、学術課題の誤用など、潜在的な悪用につながる可能性がある。 したがって、人工的なテキストと人間によるテキストを区別できる自動化アプローチを構築することが不可欠である。 本稿では,複数の構成 LLM からの予測を組み込むことにより,この問題に対する簡易かつ効率的な解法を提案する。 従来のパープレキシティベースや多数のllmを持つアンサンブルを使用する最先端のアプローチと比較して,コンデンスドセンスリングアプローチは,同等のパフォーマンスを達成するために2つの構成llmのみを使用する。 生成テキスト分類のための4つのベンチマークデータセットで行った実験では、以前の最先端のアプローチと比較して0.5から100\%の性能が向上した。 また,LLMの学習データがモデル性能に与える影響についても検討した。 我々は、Falcon、Large Language Model Meta AI(LLaMA2)、Mosaic Pretrained Transformer(MPT)といった他のオープン言語モデルから生成されたデータと、商業的に制限された生成前変換器(GPT)データを置換することが、生成テキスト検出器の開発において実現可能な代替手段であることを見出した。 さらに,ゼロショット一般化を実証するために,英文エッセイデータセットを実験し,提案手法が新たなデータを効果的に処理できることを示す。

Recent Large Language Models (LLMs) have demonstrated remarkable capabilities in generating text that closely resembles human writing across wide range of styles and genres. However, such capabilities are prone to potential abuse, such as fake news generation, spam email creation, and misuse in academic assignments. Hence, it is essential to build automated approaches capable of distinguishing between artificially generated text and human-authored text. In this paper, we propose a simple yet efficient solution to this problem by ensembling predictions from multiple constituent LLMs. Compared to previous state-of-the-art approaches, which are perplexity-based or uses ensembles with a number of LLMs, our condensed ensembling approach uses only two constituent LLMs to achieve comparable performance. Experiments conducted on four benchmark datasets for generative text classification show performance improvements in the range of 0.5 to 100\% compared to previous state-of-the-art approaches. We also study the influence the training data from individual LLMs have on model performance. We found that substituting commercially-restrictive Generative Pre-trained Transformer (GPT) data with data generated from other open language models such as Falcon, Large Language Model Meta AI (LLaMA2), and Mosaic Pretrained Transformers (MPT) is a feasible alternative when developing generative text detectors. Furthermore, to demonstrate zero-shot generalization, we experimented with an English essays dataset, and results suggest that our ensembling approach can handle new data effectively.
翻訳日:2023-11-07 14:26:30 公開日:2023-11-06
# 人口ベースSHMにおける情報伝達値の定量化

Quantifying the value of information transfer in population-based SHM ( http://arxiv.org/abs/2311.03083v1 )

ライセンス: Link先を確認
Aidan J. Hughes, Jack Poole, Nikolaos Dervilis, Paul Gardner, Keith Worden(参考訳) 人口ベース構造健康モニタリング(PBSHM)は、従来のSHMで発生するデータ不足に関連するいくつかの制限に対処することを目指している。 SHMに対する人口ベースアプローチの要点は、情報を十分に類似した構造間で共有し、予測モデルを改善することである。 PBSHMの統計分類器を開発する際, ドメイン適応などの伝達学習技術は, 構造間の情報共有に有用な技術であることが示されている。 それでも、移行学習技術には落とし穴がない。 いくつかの状況では、例えば、集団内の構造に関連するデータ分布が異なっていれば、転送学習手法を適用することは、分類性能に悪影響を及ぼす可能性がある。 負の転送による潜在的に短命な結果を考えると、エンジニアは‘いつ、何、どのように1つの構造を転送すべきか’という質問をするのは慎重である。 本研究の目的は, ドメイン適応によって支援される代表的scm維持問題において, シミュレーション構造群分類タスクの伝達戦略決定過程を実証することである。 転送決定の枠組みは、情報転送の期待値の概念に基づいている。 情報伝達の期待値を計算するためには、情報伝達後の対象領域の分類(および決定性能)に関する予測を行う必要がある。 転送結果を予測するために,モーダル保証基準に基づく構造的類似性のプロキシから分類性能を予測するために,確率的回帰を用いた。

Population-based structural health monitoring (PBSHM), seeks to address some of the limitations associated with data scarcity that arise in traditional SHM. A tenet of the population-based approach to SHM is that information can be shared between sufficiently-similar structures in order to improve predictive models. Transfer learning techniques, such as domain adaptation, have been shown to be a highly-useful technology for sharing information between structures when developing statistical classifiers for PBSHM. Nonetheless, transfer-learning techniques are not without their pitfalls. In some circumstances, for example if the data distributions associated with the structures within a population are dissimilar, applying transfer-learning methods can be detrimental to classification performance -- this phenomenon is known as negative transfer. Given the potentially-severe consequences of negative transfer, it is prudent for engineers to ask the question `when, what, and how should one transfer between structures?'. The current paper aims to demonstrate a transfer-strategy decision process for a classification task for a population of simulated structures in the context of a representative SHM maintenance problem, supported by domain adaptation. The transfer decision framework is based upon the concept of expected value of information transfer. In order to compute the expected value of information transfer, predictions must be made regarding the classification (and decision performance) in the target domain following information transfer. In order to forecast the outcome of transfers, a probabilistic regression is used here to predict classification performance from a proxy for structural similarity based on the modal assurance criterion.
翻訳日:2023-11-07 14:25:40 公開日:2023-11-06
# 顔モデルに基づく顔アライメント手法の調査と分類

A survey and classification of face alignment methods based on face models ( http://arxiv.org/abs/2311.03082v1 )

ライセンス: Link先を確認
Jagmohan Meher, Hector Allende-Cid and Torbj\"orn E. M. Nordling(参考訳) 顔モデルは、人間の顔の特徴の数学的表現である。 伝統的に、顔モデルは、顔の特徴、すなわち眼の角、鼻の先端などの上に理想的に位置する、ファデューシャルポイントまたはランドマークのセットを使用して構築された。 顔アライメントとは、顔モデルにおけるランドマークを、顔を含む入力画像内の各基底真理位置に適合させる工程である。 過去数十年の顔アライメントに関する重要な研究にもかかわらず、文献で使用されるさまざまな顔モデルを分析するレビューは行われていない。 顔アライメントの初心者,実践者,研究者の3種類の読者に対して,顔アライメントに使用する異なる顔モデルの包括的分析を行う。 顔モデルの解釈と訓練に加えて、顔モデルを新しい顔画像に適合させる例も含む。 深層学習法では熱マップがよく用いられるのに対し、3Dベースの顔モデルは極端な顔ポーズの場合に好まれることがわかった。 さらに,顔アライメントの分野における顔モデルの今後の方向性について考察する。

A face model is a mathematical representation of the distinct features of a human face. Traditionally, face models were built using a set of fiducial points or landmarks, each point ideally located on a facial feature, i.e., corner of the eye, tip of the nose, etc. Face alignment is the process of fitting the landmarks in a face model to the respective ground truth positions in an input image containing a face. Despite significant research on face alignment in the past decades, no review analyses various face models used in the literature. Catering to three types of readers - beginners, practitioners and researchers in face alignment, we provide a comprehensive analysis of different face models used for face alignment. We include the interpretation and training of the face models along with the examples of fitting the face model to a new face image. We found that 3D-based face models are preferred in cases of extreme face pose, whereas deep learning-based methods often use heatmaps. Moreover, we discuss the possible future directions of face models in the field of face alignment.
翻訳日:2023-11-07 14:25:08 公開日:2023-11-06
# CogVLM: 事前訓練された言語モデルのビジュアルエキスパート

CogVLM: Visual Expert for Pretrained Language Models ( http://arxiv.org/abs/2311.03079v1 )

ライセンス: Link先を確認
Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang(参考訳) 我々はオープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。 画像特徴を言語モデルの入力空間にマッピングする一般的な浅層アライメント法とは異なり、CogVLMは、注意層とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって、凍結した事前学習言語モデルと画像エンコーダのギャップを埋める。 その結果、CogVLMはNLPタスクのパフォーマンスを犠牲にすることなく、視覚言語機能の深い融合を可能にする。 CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的クロスモーダルベンチマークで最先端のパフォーマンスを達成し、VQAv2、OKVQA、TextVQA、COCOキャプティングなど、PaLI-X 55Bを上回り、マッチングする。 コードとチェックポイントはhttps://github.com/THUDM/CogVLMで公開されている。

We introduce CogVLM, a powerful open-source visual language foundation model. Different from the popular shallow alignment method which maps image features into the input space of language model, CogVLM bridges the gap between the frozen pretrained language model and image encoder by a trainable visual expert module in the attention and FFN layers. As a result, CogVLM enables deep fusion of vision language features without sacrificing any performance on NLP tasks. CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X 55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.
翻訳日:2023-11-07 14:24:37 公開日:2023-11-06
# BanLemma: 単語生成依存ルールと辞書ベースのBangla Lemmatizer

BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla Lemmatizer ( http://arxiv.org/abs/2311.03078v1 )

ライセンス: Link先を確認
Sadia Afrin, Md. Shahad Mahmud Chowdhury, Md. Ekramul Islam, Faisal Ahamed Khan, Labib Imam Chowdhury, MD. Motahar Mahtab, Nazifa Nuha Chowdhury, Massud Forkan, Neelima Kundu, Hakim Arif, Mohammad Mamun Or Rashid, Mohammad Ruhul Amin, Nabeel Mohammed(参考訳) 文法化は自然言語処理(NLP)と言語学の両方において重要であり、データ密度を効果的に減少させ、文脈意味の理解を助ける。 しかし、非常に簡素な性質と形態学的豊かさのため、バングラ語テキストの補題化は複雑な課題となっている。 本研究では,バングラ語に特化して補題化のための言語規則を提案し,その規則とともに辞書を用いて補題化を行う。 本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。 従来のルールベースアプローチとは異なり,モーフォシンタティック値に従って接尾辞マーカの発生を分析し,接尾辞全体ではなく接尾辞マーカのシーケンスを用いた。 本ルールを整備するために,様々な領域,資料,時間からバングラ語テキストの大きなコーパスを分析し,語句の単語形成を観察した。 このレンマタイザーは、訓練された言語学者による手動の注釈付きテストデータセットに対して96.36%の精度を達成し、以前に公開された3つのバングラ・レンマタイズデータセット上での競合性能を示す。 Bangla NLPのさらなる進歩に貢献するために、コードとデータセットをhttps://github.com/eblict-gigatech/BanLemmaで公開しています。

Lemmatization holds significance in both natural language processing (NLP) and linguistics, as it effectively decreases data density and aids in comprehending contextual meaning. However, due to the highly inflected nature and morphological richness, lemmatization in Bangla text poses a complex challenge. In this study, we propose linguistic rules for lemmatization and utilize a dictionary along with the rules to design a lemmatizer specifically for Bangla. Our system aims to lemmatize words based on their parts of speech class within a given sentence. Unlike previous rule-based approaches, we analyzed the suffix marker occurrence according to the morpho-syntactic values and then utilized sequences of suffix markers instead of entire suffixes. To develop our rules, we analyze a large corpus of Bangla text from various domains, sources, and time periods to observe the word formation of inflected words. The lemmatizer achieves an accuracy of 96.36% when tested against a manually annotated test dataset by trained linguists and demonstrates competitive performance on three previously published Bangla lemmatization datasets. We are making the code and datasets publicly available at https://github.com/eblict-gigatech/BanLemma in order to contribute to the further advancement of Bangla NLP.
翻訳日:2023-11-07 14:24:09 公開日:2023-11-06
# SugarViT -- 糖蜜の重症度予測に基づく視覚変換器とディープラベル分布学習によるUAV画像の多目的回帰

SugarViT -- Multi-objective Regression of UAV Images with Vision Transformers and Deep Label Distribution Learning Demonstrated on Disease Severity Prediction in Sugar Beet ( http://arxiv.org/abs/2311.03076v1 )

ライセンス: Link先を確認
Maurice G\"under, Facundo Ram\'on Ispizua Yamati, Abel Andree Barreta Alc\'antara, Anne-Katrin Mahlein, Rafet Sifa, Christian Bauckhage(参考訳) リモートセンシングと人工知能は、現代の精密農業の重要な技術である。 機械学習技術と組み合わせた大規模フィールド画像の効率的な検索は、表現型、雑草、収穫、疾病管理といった様々なタスクで成功している。 本研究は,サトウキビにおけるCercospora Leaf Spot (CLS)の症例重症度評価のための,大規模植物特異的形質アノテーションの自動化のための機械学習フレームワークを導入する。 深層ラベル分布学習 (dldl) の概念, 特殊損失関数, 適応型モデルアーキテクチャを用いて,sugarvitと呼ばれる病害度スコアリングのための効率的な視覚トランスフォーマモデルを開発した。 この研究の新たな点は、リモートセンシングデータと、病気の重症度予測のための実験場の環境パラメータを組み合わせることである。 この特殊なユースケースでモデルは評価されるが、様々な画像に基づく分類や回帰タスクにも可能な限り汎用的に適用可能である。 本フレームワークでは,環境メタデータの事前学習により,多目的問題に関するモデルを学習することも可能である。

Remote sensing and artificial intelligence are pivotal technologies of precision agriculture nowadays. The efficient retrieval of large-scale field imagery combined with machine learning techniques shows success in various tasks like phenotyping, weeding, cropping, and disease control. This work will introduce a machine learning framework for automatized large-scale plant-specific trait annotation for the use case disease severity scoring for Cercospora Leaf Spot (CLS) in sugar beet. With concepts of Deep Label Distribution Learning (DLDL), special loss functions, and a tailored model architecture, we develop an efficient Vision Transformer based model for disease severity scoring called SugarViT. One novelty in this work is the combination of remote sensing data with environmental parameters of the experimental sites for disease severity prediction. Although the model is evaluated on this special use case, it is held as generic as possible to also be applicable to various image-based classification and regression tasks. With our framework, it is even possible to learn models on multi-objective problems as we show by a pretraining on environmental metadata.
翻訳日:2023-11-07 14:23:45 公開日:2023-11-06
# SoK: 機械学習における記憶

SoK: Memorisation in machine learning ( http://arxiv.org/abs/2311.03075v1 )

ライセンス: Link先を確認
Dmitrii Usynin, Moritz Knolle, Georgios Kaissis(参考訳) 個々のデータサンプルが機械学習モデルに与える影響を定量化することは、オープンな研究課題である。 これは、深層学習のようなデータ生成分布の限られたサンプルから、複雑で高次元の関係を学習する必要がある場合に特に関係がある。 これらの場合、モデルは一般化に役立つパターンを抽出するだけでなく、しばしば記憶と呼ばれるプロセスにおいて、トレーニングデータの一部を多かれ少なかれ組み込むことも要求されるように思われる。 もし暗記が効果的な学習の要件であるなら、そのプライバシーはどんな意味を持つのだろうか? 本研究は,MLにおける記憶に関するさまざまな定義と視点を統一し,モデル一般化との相互作用と,これらの現象がデータプライバシに与える影響について論じる。 さらに,実践者が暗記の発生を検知したり,定量化したりできる手法を体系化し,幅広いML学習環境における知見の文脈化を行う。 最後に,プライバシアタック,ディファレンシャルプライバシ(dp)および敵対的アクタの文脈における記憶について論じる。

Quantifying the impact of individual data samples on machine learning models is an open research problem. This is particularly relevant when complex and high-dimensional relationships have to be learned from a limited sample of the data generating distribution, such as in deep learning. It was previously shown that, in these cases, models rely not only on extracting patterns which are helpful for generalisation, but also seem to be required to incorporate some of the training data more or less as is, in a process often termed memorisation. This raises the question: if some memorisation is a requirement for effective learning, what are its privacy implications? In this work we unify a broad range of previous definitions and perspectives on memorisation in ML, discuss their interplay with model generalisation and their implications of these phenomena on data privacy. Moreover, we systematise methods allowing practitioners to detect the occurrence of memorisation or quantify it and contextualise our findings in a broad range of ML learning settings. Finally, we discuss memorisation in the context of privacy attacks, differential privacy (DP) and adversarial actors.
翻訳日:2023-11-07 14:23:28 公開日:2023-11-06
# MRIを用いた脳腫瘍検出のためのCycleGANと関節拡散を用いた2段階生成モデル

A Two-Stage Generative Model with CycleGAN and Joint Diffusion for MRI-based Brain Tumor Detection ( http://arxiv.org/abs/2311.03074v1 )

ライセンス: Link先を確認
Wenxin Wang, Zhuo-Xu Cui, Guanxun Cheng, Chentao Cao, Xi Xu, Ziwei Liu, Haifeng Wang, Yulong Qi, Dong Liang and Yanjie Zhu(参考訳) 脳腫瘍の正確な検出と分節は医療診断に不可欠である。 しかし、現在の教師あり学習法では、広範囲に注釈付き画像が必要であり、教師なし手法で使用される最先端生成モデルには、データ分布全体をカバーするための制限があることが多い。 本稿では,脳腫瘍の検出とセグメンテーションを改善するために,共同確率(VE-JP)を用いた周期生成逆数ネットワーク(CycleGAN)と分散爆発確率微分方程式を組み合わせた2段階生成モデル(TSGM)を提案する。 CycleGANは未ペアデータに基づいてトレーニングされ、データとして正常な画像から異常な画像を生成する。 VE-JPは、病的領域のみを変えるが健康な領域だけを変える合成対異常画像を用いて、健康な画像の再構成を行う。 特に,条件生成のための結合確率分布を直接学習した。 入力画像と再構成画像の間の残差は異常を示唆し、しきい値法を適用してセグメント化結果を得る。 さらに、マルチモーダル結果は異なる重みで重み付けされ、さらにセグメンテーション精度が向上する。 提案手法を3つのデータセットで検証し, 異常検出とセグメンテーションのための他の教師なし手法と比較した。 brats2020 データセットでは 0.8590、itcs データセットでは 0.6226、社内データセットでは 0.7403 というdscスコアが得られた。

Accurate detection and segmentation of brain tumors is critical for medical diagnosis. However, current supervised learning methods require extensively annotated images and the state-of-the-art generative models used in unsupervised methods often have limitations in covering the whole data distribution. In this paper, we propose a novel framework Two-Stage Generative Model (TSGM) that combines Cycle Generative Adversarial Network (CycleGAN) and Variance Exploding stochastic differential equation using joint probability (VE-JP) to improve brain tumor detection and segmentation. The CycleGAN is trained on unpaired data to generate abnormal images from healthy images as data prior. Then VE-JP is implemented to reconstruct healthy images using synthetic paired abnormal images as a guide, which alters only pathological regions but not regions of healthy. Notably, our method directly learned the joint probability distribution for conditional generation. The residual between input and reconstructed images suggests the abnormalities and a thresholding method is subsequently applied to obtain segmentation results. Furthermore, the multimodal results are weighted with different weights to improve the segmentation accuracy further. We validated our method on three datasets, and compared with other unsupervised methods for anomaly detection and segmentation. The DSC score of 0.8590 in BraTs2020 dataset, 0.6226 in ITCS dataset and 0.7403 in In-house dataset show that our method achieves better segmentation performance and has better generalization.
翻訳日:2023-11-07 14:23:10 公開日:2023-11-06
# SU(N)フェルミオンの原子回路における永続電流

Persistent Currents in Atomtronic Circuits of SU(N) Fermions ( http://arxiv.org/abs/2311.03072v1 )

ライセンス: Link先を確認
Wayne J. Chetcuti(参考訳) ウルトラコールド原子系は、操作条件の制御と柔軟性の強化により、量子技術の開発と実装に関連する様々な量子系の中で強力な競争相手として出現している。 この論文では、強く相互作用する \textit{n}-component fermion、特に su(\textit{n}) フェルミオンの環状量子気体で発生する永続電流を考察する。 我々の結果は多体物理学に関係した貢献であるのとは別に、su(\textit{n})フェルミオンプラットフォームに基づく物質波回路の新しい概念の'primum mobile'を証明し、原子トロニクスの分野でエキサイティングな章を開いた。 実際、量子化の特定の性質は、干渉計のような高感度の量子デバイスを作るための核となることが期待されている。 同時に、su(\textit{n})フェルミオン回路は、この人工フェルミオン物質を用いた冷却原子量子シミュレータの設計において有望である。

Ultracold atomic systems have emerged as strong contenders amongst the various quantum systems relevant for developing and implementing quantum technologies due to their enhanced control and flexibility of the operating conditions. In this thesis, we explore persistent currents generated in a ring-shaped quantum gas of strongly interacting \textit{N}-component fermions, specifically the so-called SU(\textit{N}) fermions. Our results, apart from being a relevant contribution to many-body physics, prove the `primum mobile' for a new concept of matter-wave circuits based on SU(\textit{N}) fermionic platforms, opening an exciting chapter in the field of atomtronics. Indeed, the specific properties of quantization are expected to provide the core to fabricate quantum devices with enhanced sensitivity like interferometers. At the same time, SU(\textit{N}) fermionic circuits show promise in engineering cold atoms quantum simulators with this artificial fermionic matter.
翻訳日:2023-11-07 14:22:45 公開日:2023-11-06
# OrthoNets: 直交チャネルアテンションネットワーク

OrthoNets: Orthogonal Channel Attention Networks ( http://arxiv.org/abs/2311.03071v1 )

ライセンス: Link先を確認
Hadi Salman, Caleb Parks, Matthew Swan, John Gauch(参考訳) 効果的なチャネルアテンション機構を設計することで、最適な特徴表現を可能にする損失圧縮法を見つけることができる。 近年の進展にもかかわらず、未解決の問題となっている。 fcanetは最先端のチャンネルアテンション機構であり、離散コサイン変換(dct)を用いた情報豊富な圧縮を試みている。 FcaNetの欠点の1つは、DCT周波数の自然な選択がないことである。 この問題を回避するため、FcaNetはImageNetで最適な周波数を見つける実験を行った。 我々は、周波数の選択が支持的役割のみを担い、その注意フィルタの有効性の第一の駆動力はdctカーネルの直交性であると仮定する。 この仮説をテストするために,ランダムに初期化直交フィルタを用いたアテンション機構を構築する。 このメカニズムをResNetに統合し、OrthoNetを作成します。 鳥,ms-coco,places356のfcanet(およびその他の注意機構)と比較し,優れた性能を示す。 ImageNetデータセットでは、我々の手法は現在の最先端と競合するか、上回っている。 この結果から,フィルタの最適選択は解法的であり,十分な数の直交フィルタで一般化が達成できることが示唆された。 さらに,ネットワークにおけるその位置やチャネルグループ化など,チャネル注意を実装するための他の一般的な原則についても検討する。

Designing an effective channel attention mechanism implores one to find a lossy-compression method allowing for optimal feature representation. Despite recent progress in the area, it remains an open problem. FcaNet, the current state-of-the-art channel attention mechanism, attempted to find such an information-rich compression using Discrete Cosine Transforms (DCTs). One drawback of FcaNet is that there is no natural choice of the DCT frequencies. To circumvent this issue, FcaNet experimented on ImageNet to find optimal frequencies. We hypothesize that the choice of frequency plays only a supporting role and the primary driving force for the effectiveness of their attention filters is the orthogonality of the DCT kernels. To test this hypothesis, we construct an attention mechanism using randomly initialized orthogonal filters. Integrating this mechanism into ResNet, we create OrthoNet. We compare OrthoNet to FcaNet (and other attention mechanisms) on Birds, MS-COCO, and Places356 and show superior performance. On the ImageNet dataset, our method competes with or surpasses the current state-of-the-art. Our results imply that an optimal choice of filter is elusive and generalization can be achieved with a sufficiently large number of orthogonal filters. We further investigate other general principles for implementing channel attention, such as its position in the network and channel groupings.
翻訳日:2023-11-07 14:22:27 公開日:2023-11-06
# 注視深層学習によるGEDIと地球観測データを用いた森林表層バイオマス推定

Forest aboveground biomass estimation using GEDI and earth observation data through attention-based deep learning ( http://arxiv.org/abs/2311.03067v1 )

ライセンス: Link先を確認
Wenquan Dong, Edward T.A. Mitchard, Hao Yu, Steven Hancock, Casey M. Ryan(参考訳) 森林表層バイオマス(AGB)の正確な定量化は、気候変動の文脈における炭素収支の理解に不可欠である。 本研究では,gedi lidarデータ,cバンドsentinel-1 sarデータ,alos-2 palsar-2データ,sentinel-2 multispectralデータなど,オープンアクセス可能なeoデータを活用した,森林agb推定のための新たな注意に基づくディープラーニング手法を提案する。 注意UNet(AU)モデルは,従来のRFアルゴリズムに比べてバイオマス推定の精度が著しく高かった。 具体的には、AUモデルは、R2が0.66、RMSEが43.66 Mg ha-1、バイアスが0.14 Mg ha-1、RFがR2 0.62、RMSE 45.87 Mg ha-1、バイアスが1.09 Mg ha-1に達した。 しかし、ディープラーニングアプローチの優位性は、全ての試験モデルで一様に観察されなかった。 ResNet101 の R2 は 0.50 で RMSE は 52.93 Mg ha-1 であり、バイアスは 0.99 Mg ha-1 であり、UNet は R2 は 0.65 で RMSE は 44.28 Mg ha-1 であり、実質バイアスは 1.84 Mg ha-1 であった。 さらに,空間情報がない場合のAUの性能を調べるために,リモートセンシングデータから空間情報を除去するために,完全連結(FC)層を用いた。 AU-FCは中間R2の0.64、RMSEの44.92 Mgha-1、バイアスの-0.56 Mgha-1を達成し、RFより優れていたが、空間情報を用いてAUモデルより優れていた。 また,2019年は広東省の森林AGBマップをAUで作成し,RFで作成したものと比較した。 両モデルともagb分布は類似の平均値と強い一致を示し,auによる平均森林agbは102.18 mg ha-1,rfは104.84 mg ha-1であった。 さらに,AUが生成したAGBマップは空間情報に優れていた。 本研究は,衛星データに基づくバイオマス推定における深層学習の可能性について検証した。

Accurate quantification of forest aboveground biomass (AGB) is critical for understanding carbon accounting in the context of climate change. In this study, we presented a novel attention-based deep learning approach for forest AGB estimation, primarily utilizing openly accessible EO data, including: GEDI LiDAR data, C-band Sentinel-1 SAR data, ALOS-2 PALSAR-2 data, and Sentinel-2 multispectral data. The attention UNet (AU) model achieved markedly higher accuracy for biomass estimation compared to the conventional RF algorithm. Specifically, the AU model attained an R2 of 0.66, RMSE of 43.66 Mg ha-1, and bias of 0.14 Mg ha-1, while RF resulted in lower scores of R2 0.62, RMSE 45.87 Mg ha-1, and bias 1.09 Mg ha-1. However, the superiority of the deep learning approach was not uniformly observed across all tested models. ResNet101 only achieved an R2 of 0.50, an RMSE of 52.93 Mg ha-1, and a bias of 0.99 Mg ha-1, while the UNet reported an R2 of 0.65, an RMSE of 44.28 Mg ha-1, and a substantial bias of 1.84 Mg ha-1. Moreover, to explore the performance of AU in the absence of spatial information, fully connected (FC) layers were employed to eliminate spatial information from the remote sensing data. AU-FC achieved intermediate R2 of 0.64, RMSE of 44.92 Mgha-1, and bias of -0.56 Mg ha-1, outperforming RF but underperforming AU model using spatial information. We also generated 10m forest AGB maps across Guangdong for the year 2019 using AU and compared it with that produced by RF. The AGB distributions from both models showed strong agreement with similar mean values; the mean forest AGB estimated by AU was 102.18 Mg ha-1 while that of RF was 104.84 Mg ha-1. Additionally, it was observed that the AGB map generated by AU provided superior spatial information. Overall, this research substantiates the feasibility of employing deep learning for biomass estimation based on satellite data.
翻訳日:2023-11-07 14:22:07 公開日:2023-11-06
# 小基礎モデル事前学習のための非対称マスク蒸留

Asymmetric Masked Distillation for Pre-Training Small Foundation Models ( http://arxiv.org/abs/2311.03149v1 )

ライセンス: Link先を確認
Zhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao, Limin Wang(参考訳) 自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を示している。 スケールは、これらの基礎モデルのパフォーマンスに影響を与える主要な要因である。 しかし、これらの大きな基盤モデルは、しばしばその展開を制限する高い計算コストをもたらす。 本稿では,下流タスクに効率的に適応できる比較的小型の視覚トランスフォーマーモデルを事前学習することに着目した。 具体的には、モデル圧縮における知識蒸留からインスピレーションを得て、比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。 AMDの中核は非対称なマスキング戦略を考案することであり、教師モデルはより低いマスキング比でより多くのコンテキスト情報を見ることができる一方で、学生モデルは元のマスキング前訓練と高いマスキング比を持つ。 我々は,教師エンコーダと学生エンコーダの多層機能アライメントを設計し,学生MAEの事前学習を規則化する。 AMDの有効性と汎用性を実証するために、比較的小さなVTモデルの事前学習に ImageMAE と VideoMAE の両方に適用する。 AMDは、ViT-Bモデルを用いてIN1Kの84.6%の分類精度を達成した。 また、AMDは、Somes-in-Something V2データセット上のViT-Bモデルを用いて73.3%の分類精度を実現している。 また、AMD事前学習モデルを下流タスクに転送し、標準事前学習よりも一貫した性能向上を得る。

Self-supervised foundation models have shown great potential in computer vision thanks to the pre-training paradigm of masked autoencoding. Scale is a primary factor influencing the performance of these foundation models. However, these large foundation models often result in high computational cost that might limit their deployment. This paper focuses on pre-training relatively small vision transformer models that could be efficiently adapted to downstream tasks. Specifically, taking inspiration from knowledge distillation in model compression, we propose a new asymmetric masked distillation(AMD) framework for pre-training relatively small models with autoencoding. The core of AMD is to devise an asymmetric masking strategy, where the teacher model is enabled to see more context information with a lower masking ratio, while the student model still with high masking ratio to the original masked pre-training. We design customized multi-layer feature alignment between the teacher encoder and student encoder to regularize the pre-training of student MAE. To demonstrate the effectiveness and versatility of AMD, we apply it to both ImageMAE and VideoMAE for pre-training relatively small ViT models. AMD achieved 84.6% classification accuracy on IN1K using the ViT-B model. And AMD achieves 73.3% classification accuracy using the ViT-B model on the Something-in-Something V2 dataset, a 3.7% improvement over the original ViT-B model from VideoMAE. We also transfer AMD pre-trained models to downstream tasks and obtain consistent performance improvement over the standard pre-training.
翻訳日:2023-11-07 14:14:08 公開日:2023-11-06
# テクスチャ空間からNeRFをアニメーションする:人間のパフォーマンスのポーズ依存レンダリングのためのフレームワーク

Animating NeRFs from Texture Space: A Framework for Pose-Dependent Rendering of Human Performances ( http://arxiv.org/abs/2311.03140v1 )

ライセンス: Link先を確認
Paul Knoll, Wieland Morgenstern, Anna Hilsmann and Peter Eisert(参考訳) マルチビューのRGBビデオから高品質な3Dモデルを作るのは、大きな課題だ。 ニューラルレイディアンス場(NeRF)は静的および動的シーンの再構成および自由視点レンダリングにおいて顕著な品質を示す。 ダイナミックな人間のパフォーマンスの制御可能な合成への拡張は、エキサイティングな研究課題となっている。 本稿では,人間のパフォーマンスのポーズ依存レンダリングのための新しいNeRFベースのフレームワークを提案する。 提案手法では,放射場をSMPLボディーメッシュに巻き付けて,新しい表面配向表現を生成する。 この表現は、ポーズ依存の外観の視点に加えて、nerfに提供される骨格関節パラメータを介してアニメーションすることができる。 これを実現するために,メッシュテクスチャマップ上の対応する2次元uv座標と,クエリポイントとメッシュ間の距離を含む。 曖昧さとランダムな視覚変化をマッピングしながら、効率的な学習を可能にするために、マップされた座標を洗練する新しい再マッピングプロセスを導入する。 実験により,提案手法が新規および新規の合成のための高品質なレンダリングをもたらすことを実証した。

Creating high-quality controllable 3D human models from multi-view RGB videos poses a significant challenge. Neural radiance fields (NeRFs) have demonstrated remarkable quality in reconstructing and free-viewpoint rendering of static as well as dynamic scenes. The extension to a controllable synthesis of dynamic human performances poses an exciting research question. In this paper, we introduce a novel NeRF-based framework for pose-dependent rendering of human performances. In our approach, the radiance field is warped around an SMPL body mesh, thereby creating a new surface-aligned representation. Our representation can be animated through skeletal joint parameters that are provided to the NeRF in addition to the viewpoint for pose dependent appearances. To achieve this, our representation includes the corresponding 2D UV coordinates on the mesh texture map and the distance between the query point and the mesh. To enable efficient learning despite mapping ambiguities and random visual variations, we introduce a novel remapping process that refines the mapped coordinates. Experiments demonstrate that our approach results in high-quality renderings for novel-view and novel-pose synthesis.
翻訳日:2023-11-07 14:13:43 公開日:2023-11-06
# 機械学習による材料間熱伝導率予測

End-to-end Material Thermal Conductivity Prediction through Machine Learning ( http://arxiv.org/abs/2311.03139v1 )

ライセンス: Link先を確認
Yagyank Srivastava and Ankit Jain(参考訳) 機械学習を用いたエンドツーエンド構造に基づく材料熱伝導率予測手法について検討した。 高品質な熱伝導率データを利用できないため、225の材料に対する第一原理とボルツマン輸送方程式に基づく高スループット計算を,既存のデータセットの2倍の精度で実施した。 この拡張データセット上で, 熱伝導率予測のための最先端機械学習モデルの性能評価を行い, これらのモデルが過度に適合していることを確認した。 この問題に対処するために、新しいグラフベースのニューラルネットワークモデルを導入し、すべての評価データセットに対して、より一貫性と規則化されたパフォーマンスを実証した。 それでも、テストデータセットで達成した最も平均的な絶対パーセンテージエラーは、50~60%の範囲にとどまった。 これは、これらのモデルは材料スクリーニングの迅速化に有用であるが、現在の精度はまだ限られていることを示唆している。

We investigated the accelerated prediction of the thermal conductivity of materials through end- to-end structure-based approaches employing machine learning methods. Due to the non-availability of high-quality thermal conductivity data, we first performed high-throughput calculations based on first principles and the Boltzmann transport equation for 225 materials, effectively more than doubling the size of the existing dataset. We assessed the performance of state-of-the-art machine learning models for thermal conductivity prediction on this expanded dataset and observed that all these models suffered from overfitting. To address this issue, we introduced a novel graph-based neural network model, which demonstrated more consistent and regularized performance across all evaluated datasets. Nevertheless, the best mean absolute percentage error achieved on the test dataset remained in the range of 50-60%. This suggests that while these models are valuable for expediting material screening, their current accuracy is still limited.
翻訳日:2023-11-07 14:13:26 公開日:2023-11-06
# 電気生理学的データからニューロンの相互作用をマッピングし予測するための貯水池計算モデル

Reservoir-Computing Model for Mapping and Forecasting Neuronal Interactions from Electrophysiological Data ( http://arxiv.org/abs/2311.03131v1 )

ライセンス: Link先を確認
Ilya Auslender, Giorgio Letti, Yasaman Heydari, Lorenzo Pavesi(参考訳) 神経ネットワークの電気生理学的性質は、非常に短い時間スケールで異なる細胞ユニット間の様々な相互作用を明らかにすることができる。 これらの信号を分析する多くの課題の1つは、与えられたネットワークの形態と機能を取得することである。 本研究では,Reservoir Computing Network (RCN) アーキテクチャに基づく計算モデルを構築し,神経培養の電気生理学的測定から時空間データをデコードし,ニューロンユニット間の接続性を表すマクロ領域上のネットワーク構造を再構築した。 本研究では,クロスコリレーションやトランスファーエントロピーといった一般的な手法よりも高い精度でネットワークの接続マップを予測できることを実証する。 さらに,局所的な刺激など,特定の入力に対するネットワーク応答を予測するモデルの有効性を実験的に実証した。

Electrophysiological nature of neuronal networks allows to reveal various interactions between different cell units at a very short time-scales. One of the many challenges in analyzing these signals is to retrieve the morphology and functionality of a given network. In this work we developed a computational model, based on Reservoir Computing Network (RCN) architecture, which decodes the spatio-temporal data from electro-physiological measurements of neuronal cultures and reconstructs the network structure on a macroscopic domain, representing the connectivity between neuronal units. We demonstrate that the model can predict the connectivity map of the network with higher accuracy than the common methods such as Cross-Correlation and Transfer-Entropy. In addition, we experimentally demonstrate the ability of the model to predict a network response to a specific input, such as localized stimulus.
翻訳日:2023-11-07 14:13:13 公開日:2023-11-06
# 血液グルコース動態に対する多量栄養素の複合効果の非パラメトリックモデリング

Nonparametric modeling of the composite effect of multiple nutrients on blood glucose dynamics ( http://arxiv.org/abs/2311.03129v1 )

ライセンス: Link先を確認
Arina Odnoblyudova, \c{C}a\u{g}lar Hizli, ST John, Andrea Cognolato, Anne Juuti, Simo S\"arkk\"a, Kirsi Pietil\"ainen, Pekka Marttinen(参考訳) 生体医学的応用においては、複数の成分からなる治療に対する生理的反応を推定し、関節効果に加えて成分の別個の効果を学ぶことがしばしば必要である。 ここでは,既存の確率的非パラメトリックアプローチを拡張し,この問題を明示的に解決する。 また,より生物学的に解釈可能な複合処理応答曲線の新しい畳み込みモデルを開発した。 食事中の炭水化物と脂肪が血糖に及ぼす影響を推定し,モデルを検証する。 治療成分を分化させ, 投与量を組み込み, 階層的多出力ガウス法を用いて患者間で統計情報を共有することにより, 既存の手法よりも予測精度を向上し, 糖化物と脂肪が全体のグルコース応答に及ぼす影響を解釈できる。

In biomedical applications it is often necessary to estimate a physiological response to a treatment consisting of multiple components, and learn the separate effects of the components in addition to the joint effect. Here, we extend existing probabilistic nonparametric approaches to explicitly address this problem. We also develop a new convolution-based model for composite treatment-response curves that is more biologically interpretable. We validate our models by estimating the impact of carbohydrate and fat in meals on blood glucose. By differentiating treatment components, incorporating their dosages, and sharing statistical information across patients via a hierarchical multi-output Gaussian process, our method improves prediction accuracy over existing approaches, and allows us to interpret the different effects of carbohydrates and fat on the overall glucose response.
翻訳日:2023-11-07 14:13:00 公開日:2023-11-06
# 量子シミュレータにおける微分進化のベンチマーク

Benchmarking Differential Evolution on a Quantum Simulator ( http://arxiv.org/abs/2311.03128v1 )

ライセンス: Link先を確認
Parthasarathy Srinivasan(参考訳) 進化アルゴリズム(EA)を用いた数学的・計算最適化問題の解法は進化の生物学的プロセスに着想を得たものである。 進化過程/パラダイムに関わるプリミティブのいくつかは、保持、クローニング、突然変異、破棄、繁殖、交配などのために(集団サンプルから)「フィット」の個人を選んでいる。 進化的アルゴリズムの抽象化では、個人は最適化問題の解候補と見なされ、上記のプリミティブ(クローニング、突然変異など)に「適合性」関数/基準を評価することによって、追加の解(/セット)が構築される。 そのようなアルゴリズムの一つが微分進化(DE)であり、ラストリギン関数やローゼンブロック関数などの関数のミニマを計算できる。 本研究は,これらの関数にde法を適用し,古典的なチューリングモデルに基づく計算結果と比較した結果を,量子計算の現状と比較し,パラメータを初期化し,タイミング,収束度,資源利用率を報告することにより,これらの関数の収束度をベンチマークする試みである。

The use of Evolutionary Algorithms (EA) for solving Mathematical/Computational Optimization Problems is inspired by the biological processes of Evolution. Few of the primitives involved in the Evolutionary process/paradigm are selection of 'Fit' individuals (from a population sample) for retention, cloning, mutation, discarding, breeding, crossover etc. In the Evolutionary Algorithm abstraction, the individuals are deemed to be solution candidates to an Optimization problem and additional solution(/sets) are built by applying analogies to the above primitives (cloning, mutation etc.) by means of evaluating a 'Fitness' function/criterion. One such algorithm is Differential Evolution (DE) which can be used to compute the minima of functions such as the rastrigin function and rosenbrock function. This work is an attempt to study the result of applying the DE method on these functions with candidate individuals generated on classical Turing modeled computation and comparing the same with those on state of the art Quantum computation.The study benchmarks the convergence of these functions by varying the parameters initialized and reports timing, convergence, and resource utilization results.
翻訳日:2023-11-07 14:12:45 公開日:2023-11-06
# WMT2023の談話レベル文学翻訳における共有課題の発見:LLMの宇宙における新しいオーブ

Findings of the WMT 2023 Shared Task on Discourse-Level Literary Translation: A Fresh Orb in the Cosmos of LLMs ( http://arxiv.org/abs/2311.03127v1 )

ライセンス: Link先を確認
Longyue Wang, Zhaopeng Tu, Yan Gu, Siyou Liu, Dian Yu, Qingsong Ma, Chenyang Lyu, Liting Zhou, Chao-Hong Liu, Yufeng Ma, Weiyu Chen, Yvette Graham, Bonnie Webber, Philipp Koehn, Andy Way, Yulin Yuan, Shuming Shi(参考訳) 文学作品の翻訳は、機械翻訳(MT)において、複雑な課題に突き当たった旅路として、長年の夢とされてきた。 この領域の進展を促進するため、我々は、ディスコース・レベル文学翻訳の第1版であるWMT 2023で新しい共有タスクを開催する。 まず、当社(Tencent AI LabとChina Literature Ltd.)は、著作権と文書レベルの中国英語ウェブ小説コーパスをリリースする。 さらに、人間評価プロセスを導くための業界支援基準も提示した。 今年は7つの学術チームと業界チームから14の応募を受け取りました。 提案システムの性能評価には,自動評価と人的評価の両方を用いる。 システムの公式ランキングは、全体的な人間の判断に基づいている。 我々は、データ、システム出力、リーダーボードをhttp://www2.statmt.org/wmt23/literary-translation-task.htmlでリリースしています。

Translating literary works has perennially stood as an elusive dream in machine translation (MT), a journey steeped in intricate challenges. To foster progress in this domain, we hold a new shared task at WMT 2023, the first edition of the Discourse-Level Literary Translation. First, we (Tencent AI Lab and China Literature Ltd.) release a copyrighted and document-level Chinese-English web novel corpus. Furthermore, we put forth an industry-endorsed criteria to guide human evaluation process. This year, we totally received 14 submissions from 7 academia and industry teams. We employ both automatic and human evaluations to measure the performance of the submitted systems. The official ranking of the systems is based on the overall human judgments. In addition, our extensive analysis reveals a series of interesting findings on literary and discourse-aware MT. We release data, system outputs, and leaderboard at http://www2.statmt.org/wmt23/literary-translation-task.html.
翻訳日:2023-11-07 14:12:24 公開日:2023-11-06
# TAMPAR:ポストサプライチェーンにおけるパーセルロジスティックスの視触覚検出

TAMPAR: Visual Tampering Detection for Parcel Logistics in Postal Supply Chains ( http://arxiv.org/abs/2311.03124v1 )

ライセンス: Link先を確認
Alexander Naumann, Felix Hertlein, Laura D\"orr, Kai Furmans(参考訳) サプライチェーンで価値ある商品が着実に増加する中、小包の改ざん検出がますます重要になっている。 本研究では,1枚のRGB画像のみを撮り,既存のデータベースからの参照と比較して,改ざんを示す可能性のある外観変化を検出する,ユースケースのラストマイル配信に注目した。 そこで本研究では,キーポイント検出を用いて小包の8つの角点を識別する改ざん検出パイプラインを提案する。 これにより、視界変換を適用して、各可視的なパーセルサイドサーフェスに対して正規化されたフロント並列ビューを作成することができる。 これらの視点不変なパーセル側面表現は、ペアワイズな外観変化検出と一致するパーセル側面の問題を減らすため、サプライチェーン内のパーセルに改ざんする兆候の識別を容易にする。 複数の古典的および深層学習に基づく変化検出手法を用いた実験を,新たに収集した PARcels 用 TAMpering 検出データセットである TAMPAR を用いて行った。 キーポイントと変更検出を別々に評価し,改ざん検出のための統一システムを提案する。 実画像におけるキーポイント(キーポイントAP 75.76)とタンパ検出(81%精度、F1スコア0.83)の有望な結果を示す。 さらに, 改ざんタイプ, レンズ歪み, 視角に対する感度解析を行った。 コードとデータセットはhttps://a-nau.github.io/tamparで入手できる。

Due to the steadily rising amount of valuable goods in supply chains, tampering detection for parcels is becoming increasingly important. In this work, we focus on the use-case last-mile delivery, where only a single RGB image is taken and compared against a reference from an existing database to detect potential appearance changes that indicate tampering. We propose a tampering detection pipeline that utilizes keypoint detection to identify the eight corner points of a parcel. This permits applying a perspective transformation to create normalized fronto-parallel views for each visible parcel side surface. These viewpoint-invariant parcel side surface representations facilitate the identification of signs of tampering on parcels within the supply chain, since they reduce the problem to parcel side surface matching with pair-wise appearance change detection. Experiments with multiple classical and deep learning-based change detection approaches are performed on our newly collected TAMpering detection dataset for PARcels, called TAMPAR. We evaluate keypoint and change detection separately, as well as in a unified system for tampering detection. Our evaluation shows promising results for keypoint (Keypoint AP 75.76) and tampering detection (81% accuracy, F1-Score 0.83) on real images. Furthermore, a sensitivity analysis for tampering types, lens distortion and viewing angles is presented. Code and dataset are available at https://a-nau.github.io/tampar.
翻訳日:2023-11-07 14:12:04 公開日:2023-11-06
# 機械学習における代数力学系

Algebraic Dynamical Systems in Machine Learning ( http://arxiv.org/abs/2311.03118v1 )

ライセンス: Link先を確認
Iolo Jones, Jerry Swan, and Jeffrey Giansiracusa(参考訳) 項書き換えに基づく動的システムの代数的アナログを導入する。 繰り返し書き起こしシステムの出力に適用された再帰関数は、動的機械学習モデル(リカレントニューラルネットワーク、グラフニューラルネットワーク、拡散モデルを含む)のすべての主要なアーキテクチャを組み込むことができる形式的なモデルのクラスを定義する。 圏論において、これらの代数モデルは動的モデルの合成性を記述するための自然言語であることを示す。 さらに,これらのモデルが「ハイブリッド記号数値」モデルを含む構造化データや非数値データにおける問題を学習するために,上記の動的モデルの一般化のためのテンプレートを提供する。

We introduce an algebraic analogue of dynamical systems, based on term rewriting. We show that a recursive function applied to the output of an iterated rewriting system defines a formal class of models into which all the main architectures for dynamic machine learning models (including recurrent neural networks, graph neural networks, and diffusion models) can be embedded. Considered in category theory, we also show that these algebraic models are a natural language for describing the compositionality of dynamic models. Furthermore, we propose that these models provide a template for the generalisation of the above dynamic models to learning problems on structured or non-numerical data, including 'hybrid symbolic-numeric' models.
翻訳日:2023-11-07 14:11:38 公開日:2023-11-06
# RELand:解釈可能な不変リスク最小化による地雷のリスク推定

RELand: Risk Estimation of Landmines via Interpretable Invariant Risk Minimization ( http://arxiv.org/abs/2311.03115v1 )

ライセンス: Link先を確認
Mateo Dulce Rubio, Siqi Zeng, Qi Wang, Didier Alvarado, Francisco Moreno, Hoda Heidari, Fei Fang(参考訳) 紛争が終わった後も、地雷は戦争に影響を受けた地域社会にとって脅威であり続けている。 人道的な採掘作業は、除去される場所から関連する情報を収集することから始まり、その後、人間の専門家によって分析され、残留する地雷の潜在的なリスクを決定する。 本稿では,これらのタスクを3つの主要コンポーネントで構成されるRELandシステムを提案する。 We (1) provide general feature engineering and label assigning guidelines to enhance datasets for landmine risk modeling, which are widely applicable to global demining routines, (2) formulate landmine presence as a classification problem and design a novel interpretable model based on sparse feature masking and invariant risk minimization, and run extensive evaluation under proper protocols that resemble real-world demining operations to show a significant improvement over the state-of-the-art, and (3) build an interactive web interface to suggest priority areas for demining organizations. 現在、コロンビアの人道的デミングngoと協力しており、ここ最近デミングに優先された2つの分野において、我々のシステムをフィールドオペレーションの一部として使用しています。

Landmines remain a threat to war-affected communities for years after conflicts have ended, partly due to the laborious nature of demining tasks. Humanitarian demining operations begin by collecting relevant information from the sites to be cleared, which is then analyzed by human experts to determine the potential risk of remaining landmines. In this paper, we propose RELand system to support these tasks, which consists of three major components. We (1) provide general feature engineering and label assigning guidelines to enhance datasets for landmine risk modeling, which are widely applicable to global demining routines, (2) formulate landmine presence as a classification problem and design a novel interpretable model based on sparse feature masking and invariant risk minimization, and run extensive evaluation under proper protocols that resemble real-world demining operations to show a significant improvement over the state-of-the-art, and (3) build an interactive web interface to suggest priority areas for demining organizations. We are currently collaborating with a humanitarian demining NGO in Colombia that is using our system as part of their field operations in two areas recently prioritized for demining.
翻訳日:2023-11-07 14:11:26 公開日:2023-11-06
# データの時間依存性を無視する。 間違いだ

Ignoring Time Dependence in Data. A mistake ( http://arxiv.org/abs/2311.03114v1 )

ライセンス: Link先を確認
Mikel Robredo and Nyyti Saarimaki and Rafael Penaloza and Valentina Lenarduzzi(参考訳) 研究者はしばしば、ソフトウェアプロジェクトの歴史データから派生したさまざまな要因間のつながりを掘り下げる。 例えば、学者はこれらの要因の関連性を探究する努力を注いでいる。 しかし、これらの研究の大部分は、これらの変数間の時間的相互依存によって生じる制限と、時間的接続を伴うデータ分析に不適当な統計方法の使用に関連する潜在的なリスクを考慮できていない。 我々の目標は、現在の研究におけるデータ分析における時間依存の無視の結果を強調することです。 データ内の時間的側面を無視した時に生じる潜在的な問題を指摘し、理論と実例の両方で議論を支持した。

Researchers often delve into the connections between different factors derived from the historical data of software projects. For example, scholars have devoted their endeavors to the exploration of associations among these factors. However, a significant portion of these studies has failed to consider the limitations posed by the temporal interdependencies among these variables and the potential risks associated with the use of statistical methods ill-suited for analyzing data with temporal connections. Our goal is to highlight the consequences of neglecting time dependence during data analysis in current research. We pinpointed out certain potential problems that arise when disregarding the temporal aspect in the data, and support our argument with both theoretical and real examples.
翻訳日:2023-11-07 14:11:08 公開日:2023-11-06
# バイオメディカルNERにカテゴリラベルと構文情報を注入する

Injecting Categorical Labels and Syntactic Information into Biomedical NER ( http://arxiv.org/abs/2311.03113v1 )

ライセンス: Link先を確認
Sumam Francis, Marie-Francine Moens(参考訳) 分類ラベルとPOS(Part-of-speech)情報をモデルに注入することで,生物医学的名前付きエンティティ認識(NER)を改善するための簡単なアプローチを提案する。 最初のアプローチでは、まずシーケンスレベルの分類器を訓練して、文をカテゴリに分類し、文レベルのタグ(カテゴリラベル)を得る。 シーケンス分類器は、ラベルを自然言語テンプレートとして変更することにより、補足問題としてモデル化される。 これにより、分類器の精度が向上する。 さらに、このラベル情報をNERモデルに注入する。 本稿では,これらのラベルとPOS属性をNERモデルに効果的に表現し,注入する方法を示す。 第2のアプローチでは,分類ラベルとNERラベルを共同で学習する。 ここでは、POSタグをモデルに注入し、モデルの構文的コンテキストを増大させます。 3つのベンチマークデータセットの実験により、分類ラベル情報を構文コンテキストに組み込むことは非常に有用であり、ベースラインBERTベースのモデルよりも優れていることが示された。

We present a simple approach to improve biomedical named entity recognition (NER) by injecting categorical labels and Part-of-speech (POS) information into the model. We use two approaches, in the first approach, we first train a sequence-level classifier to classify the sentences into categories to obtain the sentence-level tags (categorical labels). The sequence classifier is modeled as an entailment problem by modifying the labels as a natural language template. This helps to improve the accuracy of the classifier. Further, this label information is injected into the NER model. In this paper, we demonstrate effective ways to represent and inject these labels and POS attributes into the NER model. In the second approach, we jointly learn the categorical labels and NER labels. Here we also inject the POS tags into the model to increase the syntactic context of the model. Experiments on three benchmark datasets show that incorporating categorical label information with syntactic context is quite useful and outperforms baseline BERT-based models.
翻訳日:2023-11-07 14:10:58 公開日:2023-11-06
# スケルトンベース行動理解のための統一マルチモーダル教師なし表現学習

Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding ( http://arxiv.org/abs/2311.03106v1 )

ライセンス: Link先を確認
Shengkai Sun, Daizong Liu, Jianfeng Dong, Xiaoye Qu, Junyu Gao, Xun Yang, Xun Wang, Meng Wang(参考訳) 教師なし事前トレーニングは、最近、スケルトンベースのアクション理解で大きな成功を収めている。 既存の作業は通常、個別のモダリティ特化モデルを訓練し、レイトフュージョン戦略によってアクション理解のためのマルチモーダル情報を統合する。 これらのアプローチは大きな性能を達成したが、複雑で冗長なマルチストリームモデル設計に苦しめられ、それぞれが固定入力スケルトンモダリティに制限されている。 そこで,本稿では,マルチモーダルな特徴を単一ストリームにエンコードする効率的な早期融合戦略を生かした,統一型マルチモーダル非教師なし表現学習フレームワークumurlを提案する。 具体的には、一様学習のための個別のモダリティ特化最適化プロセスを設計するのではなく、異なるモダリティ入力を同一ストリームに供給し、モデルの複雑さを軽減するためのマルチモーダル特徴を早期融合戦略で学習する。 融合したマルチモーダル特徴がモダリティバイアスを示さないこと、すなわち特定のモダリティ入力に支配されていることを保証するため、各モーダルの完全意味論を特徴分解と異なるアライメントを通して含むことを保証するために、モーダル内およびモーダル間整合学習を提案する。 このようにして、我々のフレームワークは、一様または多様の骨格入力の統一表現を学習することができる。 大規模な3つのデータセット(NTU-60, NTU-120, PKU-MMD II)で実施された大規模な実験により、UmURLは、骨格に基づく行動表現学習において、様々なダウンストリームタスクシナリオにまたがる新しいパフォーマンスを達成しつつ、ユニモーダルな手法と近似した複雑さを有することが証明された。

Unsupervised pre-training has shown great success in skeleton-based action understanding recently. Existing works typically train separate modality-specific models, then integrate the multi-modal information for action understanding by a late-fusion strategy. Although these approaches have achieved significant performance, they suffer from the complex yet redundant multi-stream model designs, each of which is also limited to the fixed input skeleton modality. To alleviate these issues, in this paper, we propose a Unified Multimodal Unsupervised Representation Learning framework, called UmURL, which exploits an efficient early-fusion strategy to jointly encode the multi-modal features in a single-stream manner. Specifically, instead of designing separate modality-specific optimization processes for uni-modal unsupervised learning, we feed different modality inputs into the same stream with an early-fusion strategy to learn their multi-modal features for reducing model complexity. To ensure that the fused multi-modal features do not exhibit modality bias, i.e., being dominated by a certain modality input, we further propose both intra- and inter-modal consistency learning to guarantee that the multi-modal features contain the complete semantics of each modal via feature decomposition and distinct alignment. In this manner, our framework is able to learn the unified representations of uni-modal or multi-modal skeleton input, which is flexible to different kinds of modality input for robust action understanding in practical cases. Extensive experiments conducted on three large-scale datasets, i.e., NTU-60, NTU-120, and PKU-MMD II, demonstrate that UmURL is highly efficient, possessing the approximate complexity with the uni-modal methods, while achieving new state-of-the-art performance across various downstream task scenarios in skeleton-based action representation learning.
翻訳日:2023-11-07 14:10:42 公開日:2023-11-06
# 半教師付き深層学習に基づく骨盤底MRI

Pelvic floor MRI segmentation based on semi-supervised deep learning ( http://arxiv.org/abs/2311.03105v1 )

ライセンス: Link先を確認
Jianwei Zuo, Fei Feng, Zhuhui Wang, James A. Ashton-Miller, John O.L. Delancey and Jiajia Luo(参考訳) MRIによる骨盤臓器のセグメンテーションは重要な臨床的意義を有する。 近年,深層学習による意味セグメンテーションにより骨盤底臓器の3次元形状再構築が容易になり,臨床医に正確かつ直感的な診断結果を提供するようになった。 しかし、一般的に臨床医が行う骨盤底MRIのセグメンテーションのラベル付けは、労働集約的でコストがかかるため、ラベルの不足につながる。 不十分なセグメンテーションラベルは骨盤底臓器の正確なセグメンテーションと再構築を制限する。 これらの課題に対処するため,骨盤臓器分割のための半教師付きフレームワークを提案する。 この枠組みの実装には2つの段階がある。 第1段階では、画像復元タスクを用いて自己教師付き事前訓練を行う。 その後、ラベル付きデータを用いて自己教師付きモデルの微調整を行い、セグメンテーションモデルを訓練する。 第2段階では、自己教師付きセグメンテーションモデルを用いてラベルなしデータの擬似ラベルを生成する。 最終的に、ラベル付きデータとラベルなしデータは、半教師付きトレーニングで利用される。 評価の結果,骨盤臓器のセグメンテーションと幾何学的再構成において,dice係数は平均で2.65%向上することがわかった。 特に子宮などの分節が難しい臓器では、セマンティックセグメンテーションの精度を最大3.70%向上させることができる。

The semantic segmentation of pelvic organs via MRI has important clinical significance. Recently, deep learning-enabled semantic segmentation has facilitated the three-dimensional geometric reconstruction of pelvic floor organs, providing clinicians with accurate and intuitive diagnostic results. However, the task of labeling pelvic floor MRI segmentation, typically performed by clinicians, is labor-intensive and costly, leading to a scarcity of labels. Insufficient segmentation labels limit the precise segmentation and reconstruction of pelvic floor organs. To address these issues, we propose a semi-supervised framework for pelvic organ segmentation. The implementation of this framework comprises two stages. In the first stage, it performs self-supervised pre-training using image restoration tasks. Subsequently, fine-tuning of the self-supervised model is performed, using labeled data to train the segmentation model. In the second stage, the self-supervised segmentation model is used to generate pseudo labels for unlabeled data. Ultimately, both labeled and unlabeled data are utilized in semi-supervised training. Upon evaluation, our method significantly enhances the performance in the semantic segmentation and geometric reconstruction of pelvic organs, Dice coefficient can increase by 2.65% averagely. Especially for organs that are difficult to segment, such as the uterus, the accuracy of semantic segmentation can be improved by up to 3.70%.
翻訳日:2023-11-07 14:10:08 公開日:2023-11-06
# 言語モデルはスーパーマリオ:自由ランチとしての相同モデルから能力を吸収する

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch ( http://arxiv.org/abs/2311.03099v1 )

ライセンス: Link先を確認
Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li(参考訳) 本稿では,エンコーダベースかデコーダベースかの言語モデル (LM) が,リトレーニングやGPUを使わずにホモロジーモデルのパラメータを同化することにより,新たな能力を得ることができることを示す。 通常、LMの新しい能力は、微調整されたパラメータと事前訓練されたパラメータ(デルタパラメータ)の相違に反映されるスーパービジョン・ファインチューニング(SFT)によって付与される。 dare (drop and rescale) と呼ばれる新しい演算を導入することで、ほとんどのデルタパラメータはsft lmsの能力に影響を与えずに直接ゼロに設定でき、より大きなモデルでは廃棄されたパラメータのより高い比率を許容できる。 そこで本研究では,複数のSFT相同モデルのデルタパラメータをDAREに分散し,パラメータ平均化により単一モデルにマージする。 GLUEベンチマークの8つのデータセットに対してBERTとRoBERTaを用いて実験を行った。 また、Llama 2.0をベースにしたWizardLM、WizardMath、Code Alpacaも統合しました。 実験の結果,(1) SFTモデルのデルタパラメータ値範囲は通常小さく, 0.005の範囲内であり, DAREは99%を無駄に除去できることがわかった。 しかし、モデルが継続的に事前訓練されると、値範囲は0.03に増加し、DAREは非現実的になる。 また, デルタパラメータの代わりに微調整を施すことも試みており, 10%の削減で性能が劇的に低下すること (0。 これは、sftが単に新しい能力をlmsに注入するのではなく、デルタパラメータを介して能力を刺激するだけであることを強調する。 例えば、WizardLMとWizardMathの合併は、WizardLMのGSM8Kゼロショット精度を2.2から66.3に改善し、WizardMathの64.2性能を上回りながら命令追従能力を維持した。 コードはhttps://github.com/yule-buaa/mergelmで入手できる。

In this paper, we uncover that Language Models (LMs), either encoder- or decoder-based, can obtain new capabilities by assimilating the parameters of homologous models without retraining or GPUs. Typically, new abilities of LMs can be imparted by Supervised Fine-Tuning (SFT), reflected in the disparity between fine-tuned and pre-trained parameters (i.e., delta parameters). We initially observe that by introducing a novel operation called DARE (Drop And REscale), most delta parameters can be directly set to zeros without affecting the capabilities of SFT LMs and larger models can tolerate a higher proportion of discarded parameters. Based on this observation, we further sparsify delta parameters of multiple SFT homologous models with DARE and subsequently merge them into a single model by parameter averaging. We conduct experiments on eight datasets from the GLUE benchmark with BERT and RoBERTa. We also merge WizardLM, WizardMath, and Code Alpaca based on Llama 2. Experimental results show that: (1) The delta parameter value ranges for SFT models are typically small, often within 0.005, and DARE can eliminate 99% of them effortlessly. However, once the models are continuously pre-trained, the value ranges can grow to around 0.03, making DARE impractical. We have also tried to remove fine-tuned instead of delta parameters and find that a 10% reduction can lead to drastically decreased performance (even to 0). This highlights that SFT merely stimulates the abilities via delta parameters rather than injecting new abilities into LMs; (2) DARE can merge multiple task-specific LMs into one LM with diverse abilities. For instance, the merger of WizardLM and WizardMath improves the GSM8K zero-shot accuracy of WizardLM from 2.2 to 66.3, retaining its instruction-following ability while surpassing WizardMath's original 64.2 performance. Codes are available at https://github.com/yule-BUAA/MergeLM.
翻訳日:2023-11-07 14:09:48 公開日:2023-11-06
# 安定な線形部分空間同定:機械学習アプローチ

Stable Linear Subspace Identification: A Machine Learning Approach ( http://arxiv.org/abs/2311.03197v1 )

ライセンス: Link先を確認
Loris Di Natale, Muhammad Zakwan, Bratislav Svetozarevic, Philipp Heer, Giancarlo Ferrari Trecate, Colin N. Jones(参考訳) 機械学習(ML)と線形システム同定(SI)は歴史的に独立に開発された。 本稿では、よく確立されたMLツール、特に自動微分フレームワークを活用し、バックプロパゲーションを用いた離散線形多段階状態空間SIメソッドであるSIMBaを導入する。 SIMBaは、同定されたモデルの安定性を確保するために、新しい線形行列-不等式に基づくシュア行列の自由パラメトリゼーションに依存する。 SIMBaは一般に従来の線形状態空間SI法よりも優れており,高い計算負担を伴っても顕著な性能を示す。 この性能差は, 安定保証の他のSI手法と比較して特に顕著であり, SIMBaが最先端の適合性能を同時に達成し, 安定性を強制する能力を示している。 興味深いことに、これらの観測は様々な入力出力システムとシミュレーションおよび実世界のデータに当てはまり、提案手法の柔軟性を示している。 この新たなSIパラダイムは、データから構造化非線形モデルを特定するための大きな拡張ポテンシャルを示し、https://github.com/Cemempamoi/simba上でSIMBaをオープンソース化する。

Machine Learning (ML) and linear System Identification (SI) have been historically developed independently. In this paper, we leverage well-established ML tools - especially the automatic differentiation framework - to introduce SIMBa, a family of discrete linear multi-step-ahead state-space SI methods using backpropagation. SIMBa relies on a novel Linear-Matrix-Inequality-based free parametrization of Schur matrices to ensure the stability of the identified model. We show how SIMBa generally outperforms traditional linear state-space SI methods, and sometimes significantly, although at the price of a higher computational burden. This performance gap is particularly remarkable compared to other SI methods with stability guarantees, where the gain is frequently above 25% in our investigations, hinting at SIMBa's ability to simultaneously achieve state-of-the-art fitting performance and enforce stability. Interestingly, these observations hold for a wide variety of input-output systems and on both simulated and real-world data, showcasing the flexibility of the proposed approach. We postulate that this new SI paradigm presents a great extension potential to identify structured nonlinear models from data, and we hence open-source SIMBa on https://github.com/Cemempamoi/simba.
翻訳日:2023-11-07 14:03:22 公開日:2023-11-06
# ドメイン非依存バングラ自動音声認識のための擬似ラベル

Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition ( http://arxiv.org/abs/2311.03196v1 )

ライセンス: Link先を確認
Rabindra Nath Nandi, Mehadi Hasan Menon, Tareq Al Muntasir, Sagor Sarker, Quazi Sarwar Muhtaseem, Md. Tariqul Islam, Shammur Absar Chowdhury, Firoj Alam(参考訳) 低リソース言語のための自動音声認識(ASR)を開発する上での大きな課題の1つは、ドメイン固有のバリエーションを持つラベル付きデータへのアクセス制限である。 本研究では,大規模ドメインに依存しないasrデータセットを開発するための擬似ラベル手法を提案する。 提案手法を用いて,多様な話題,話し方,方言,騒々しい環境,会話シナリオを対象とする20k時間以上のBangla音声データセットを開発した。 次に,開発したコーパスを利用してコンバータベースのASRシステムを設計した。 トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。 有効性を調べるために,ニュース,電話,会話データなどからなる人間に注釈を付したドメイン非依存テストセットを設計・開発した。 本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を示す。 実験的なリソースは公開される予定だ。 (https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR)

One of the major challenges for developing automatic speech recognition (ASR) for low-resource languages is the limited access to labeled data with domain-specific variations. In this study, we propose a pseudo-labeling approach to develop a large-scale domain-agnostic ASR dataset. With the proposed methodology, we developed a 20k+ hours labeled Bangla speech dataset covering diverse topics, speaking styles, dialects, noisy environments, and conversational scenarios. We then exploited the developed corpus to design a conformer-based ASR system. We benchmarked the trained ASR with publicly available datasets and compared it with other available models. To investigate the efficacy, we designed and developed a human-annotated domain-agnostic test set composed of news, telephony, and conversational data among others. Our results demonstrate the efficacy of the model trained on psuedo-label data for the designed test-set along with publicly-available Bangla datasets. The experimental resources will be publicly available.(https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR)
翻訳日:2023-11-07 14:02:59 公開日:2023-11-06
# 時系列分類のためのデータ拡張と時間周波数変換を用いたFew-shot Learning

Few-shot Learning using Data Augmentation and Time-Frequency Transformation for Time Series Classification ( http://arxiv.org/abs/2311.03194v1 )

ライセンス: Link先を確認
Hao Zhang, Zhendong Pang, Jiangpeng Wang, Teng Li(参考訳) 時系列分類(TSC)タスクに取り組むディープニューラルネットワーク(DNN)は、信号処理において有望なフレームワークを提供する。 実世界のアプリケーションでは、データ駆動型モデルとして、DNNは不十分なデータに悩まされている。 この制限に対処するために、数少ない学習が研究されている。 本稿では,時間周波数領域を通した変換とランダム消去による合成画像の生成を含む,データ拡張による新しい単発学習フレームワークを提案する。 さらに,シーケンススペクトルニューラルネットワーク(ssnn)を開発した。 このニューラルネットワークモデルは、入力シーケンスから特徴を抽出するために1D残差ブロックを利用するサブネットワークと、スペクトログラム表現から特徴を抽出するために2D残差ブロックを使用する2つのサブネットワークで構成されている。 実験では, 筋萎縮性側索硬化症 (ALS) データセットと風力タービン断層 (WTF) データセットを用いて, 既存のDNNモデルの比較検討を行った。 その結果,提案手法はALSデータセットでは93.75%のF1スコアと93.33%の精度を示し,95.48%のF1スコアと95.59%の精度を示した。 提案手法は,時系列分類における少数問題への対処可能性を示す。

Deep neural networks (DNNs) that tackle the time series classification (TSC) task have provided a promising framework in signal processing. In real-world applications, as a data-driven model, DNNs are suffered from insufficient data. Few-shot learning has been studied to deal with this limitation. In this paper, we propose a novel few-shot learning framework through data augmentation, which involves transformation through the time-frequency domain and the generation of synthetic images through random erasing. Additionally, we develop a sequence-spectrogram neural network (SSNN). This neural network model composes of two sub-networks: one utilizing 1D residual blocks to extract features from the input sequence while the other one employing 2D residual blocks to extract features from the spectrogram representation. In the experiments, comparison studies of different existing DNN models with/without data augmentation are conducted on an amyotrophic lateral sclerosis (ALS) dataset and a wind turbine fault (WTF) dataset. The experimental results manifest that our proposed method achieves 93.75% F1 score and 93.33% accuracy on the ALS datasets while 95.48% F1 score and 95.59% accuracy on the WTF datasets. Our methodology demonstrates its applicability of addressing the few-shot problems for time series classification.
翻訳日:2023-11-07 14:02:43 公開日:2023-11-06
# Yu-Shiba-Rusinov状態を用いたロバスト貧しい男性のMajoranaゼロモード

Robust poor man's Majorana zero modes using Yu-Shiba-Rusinov states ( http://arxiv.org/abs/2311.03193v1 )

ライセンス: Link先を確認
Francesco Zatelli, David van Driel, Di Xu, Guanzhong Wang, Chun-Xiao Liu, Alberto Bordin, Bart Roovers, Grzegorz P. Mazur, Nick van Loo, Jan Cornelis Wolff, A. Mert Bozkurt, Ghada Badawy, Sasa Gazibegovic, Erik P. A. M. Bakkers, Michael Wimmer, Leo P. Kouwenhoven, Tom Dvir(参考訳) 近年の「貧しい男のマヨラナ」状態を特徴とする2点の北エフ鎖の実現は、トポロジカル超伝導の分野における道のりを示している。 しかし、量子情報処理におけるこれらの状態のポテンシャルを損なうには、外部の摂動に対する堅牢性を高める必要がある。 ここでは、Yu-Shiba-Rusinov状態の公約量子ドットを用いた2サイト北エフ連鎖を形成する。 このような状態と超伝導体の間の強いハイブリダイゼーションにより、70 \mathrm{~\mu ev}$ 以上のギャップを持つ貧乏な男のマヨラナ状態が作成できる。 また、非酸化量子ドットを用いたキタエフ連鎖と比較して電荷分散を著しく減少させる。 電荷のゆらぎに対する大きなギャップと感度の低下は、貧乏な男のマヨラナ状態を用いた非アベル物理学の量子ビット操作とデモンストレーションに役立つ。

The recent realization of a two-site Kitaev chain featuring "poor man's Majorana" states demonstrates a path forward in the field of topological superconductivity. Harnessing the potential of these states for quantum information processing, however, requires increasing their robustness to external perturbations. Here, we form a two-site Kitaev chain using proximitized quantum dots hosting Yu-Shiba-Rusinov states. The strong hybridization between such states and the superconductor enables the creation of poor man's Majorana states with a gap larger than $70 \mathrm{~\mu eV}$. It also greatly reduces the charge dispersion compared to Kitaev chains made with non-proximitized quantum dots. The large gap and reduced sensitivity to charge fluctuations will benefit qubit manipulation and demonstration of non-abelian physics using poor man's Majorana states.
翻訳日:2023-11-07 14:02:21 公開日:2023-11-06
# DeepInception: 大きな言語モデルをジェイルブレーカーにする

DeepInception: Hypnotize Large Language Model to Be Jailbreaker ( http://arxiv.org/abs/2311.03191v1 )

ライセンス: Link先を確認
Xuan Li, Zhanke Zhou, Jianing Zhu, Jiangchao Yao, Tongliang Liu, Bo Han(参考訳) 様々なアプリケーションで顕著な成功を収めたにもかかわらず、大規模な言語モデル(llm)は、safe guardrailsを無効にする敵のジェイルブレイクに対して脆弱である。 しかし、従来のジェイルブレイクの研究では、計算コストの高いブルートフォース最適化や外挿が必要であり、実用的でも効果的でもない。 本稿では,個人が権威者からそのように指示された場合,他人を害することができるというミルグラム実験に触発されて,LLMをジェイルブレーカーとして容易に催眠し,その誤用リスクを和らげる,DeepInceptionと呼ばれる軽量な手法を開示する。 特に、DeepInceptionは、LLMの人格化能力を活用して、新しいネストシーンを構築し、通常のシナリオでの使用制御から逃れる適応的な方法を実現し、さらに直接的なジェイルブレイクの可能性を提供します。 実験では,その有効性を示すための総合的な実験を行った。 私たちのDeepInceptionは、以前のものと競合するジェイルブレイクの成功率を実現し、その後のインタラクションにおいて継続的なジェイルブレイクを実現することができます。 我々の調査は、LCMの安全面と誤用リスクに対する防御強化にもっと注意を払うべきだと訴えている。 コードはhttps://github.com/tmlr-group/deepinceptionで公開されている。

Despite remarkable success in various applications, large language models (LLMs) are vulnerable to adversarial jailbreaks that make the safety guardrails void. However, previous studies for jailbreaks usually resort to brute-force optimization or extrapolations of a high computation cost, which might not be practical or effective. In this paper, inspired by the Milgram experiment that individuals can harm another person if they are told to do so by an authoritative figure, we disclose a lightweight method, termed as DeepInception, which can easily hypnotize LLM to be a jailbreaker and unlock its misusing risks. Specifically, DeepInception leverages the personification ability of LLM to construct a novel nested scene to behave, which realizes an adaptive way to escape the usage control in a normal scenario and provides the possibility for further direct jailbreaks. Empirically, we conduct comprehensive experiments to show its efficacy. Our DeepInception can achieve competitive jailbreak success rates with previous counterparts and realize a continuous jailbreak in subsequent interactions, which reveals the critical weakness of self-losing on both open/closed-source LLMs like Falcon, Vicuna, Llama-2, and GPT-3.5/4/4V. Our investigation appeals that people should pay more attention to the safety aspects of LLMs and a stronger defense against their misuse risks. The code is publicly available at: https://github.com/tmlr-group/DeepInception.
翻訳日:2023-11-07 14:02:10 公開日:2023-11-06
# ジェンダーバイアス軽減のためのモデルベース対物発電機

Model-based Counterfactual Generator for Gender Bias Mitigation ( http://arxiv.org/abs/2311.03186v1 )

ライセンス: Link先を確認
Ewoenam Kwaku Tokpo, Toon Calders(参考訳) counterfactual data augmentation (cda) は自然言語モデルにおいてジェンダーバイアスを緩和するために好まれる技術の一つである。 CDA技術は主に辞書に基づく単語置換を採用している。 このような辞書ベースのcda技術は、性別バイアスの軽減を著しく改善することが示されているが、本論文では、非文法的構成への感受性や、予め定義された辞書語以外の一般化の欠如といった、辞書ベースの偽データ拡張技術の制限を強調する。 モデルベースのソリューションはこれらの問題を緩和することができるが、定性的並列トレーニングデータの欠如は、この方向の開発を妨げる。 そこで,本研究では,データ処理技術と双方向学習システムを組み合わせることで,性バイアスを緩和するモデルベースソリューションを提案する。 提案手法を実装し,このモデルが辞書ベースのソリューションの欠点をいかに軽減するかを実証的に評価した。

Counterfactual Data Augmentation (CDA) has been one of the preferred techniques for mitigating gender bias in natural language models. CDA techniques have mostly employed word substitution based on dictionaries. Although such dictionary-based CDA techniques have been shown to significantly improve the mitigation of gender bias, in this paper, we highlight some limitations of such dictionary-based counterfactual data augmentation techniques, such as susceptibility to ungrammatical compositions, and lack of generalization outside the set of predefined dictionary words. Model-based solutions can alleviate these problems, yet the lack of qualitative parallel training data hinders development in this direction. Therefore, we propose a combination of data processing techniques and a bi-objective training regime to develop a model-based solution for generating counterfactuals to mitigate gender bias. We implemented our proposed solution and performed an empirical evaluation which shows how our model alleviates the shortcomings of dictionary-based solutions.
翻訳日:2023-11-07 14:01:44 公開日:2023-11-06
# Nexus at ArAIEval Shared Task: Fine-Tuning Arabic Language Models for Propaganda and Disinformation Detection

Nexus at ArAIEval Shared Task: Fine-Tuning Arabic Language Models for Propaganda and Disinformation Detection ( http://arxiv.org/abs/2311.03184v1 )

ライセンス: Link先を確認
Yunze Xiao, Firoj Alam(参考訳) 偽情報やプロパガンダ的コンテンツの拡散は社会調和の脅威となり、信頼できる情報源に対する情報的な意思決定と信頼を損なう。 オンラインプラットフォームはそのようなコンテンツの繁殖地として機能することが多く、悪意のある俳優は聴衆の脆弱性を利用して世論を形作る。 ソーシャルメディアコンテンツにおける偽情報やプロパガンダの自動識別を目的とした研究も行われているが、パフォーマンス面ではまだ課題が残っている。 ArAIEval共有タスクは、アラビア語の文脈内でこれらの特定の問題についてさらなる研究を行うことを目的としている。 本稿では,これらの共有タスクへの参加について論じる。 我々はサブタスク1Aと2Aに出場し,提案システムはそれぞれ第9位と第10位を確保した。 実験は微調整トランスフォーマーモデルとgpt-4を用いたゼロ・マイショット学習を用いた。

The spread of disinformation and propagandistic content poses a threat to societal harmony, undermining informed decision-making and trust in reliable sources. Online platforms often serve as breeding grounds for such content, and malicious actors exploit the vulnerabilities of audiences to shape public opinion. Although there have been research efforts aimed at the automatic identification of disinformation and propaganda in social media content, there remain challenges in terms of performance. The ArAIEval shared task aims to further research on these particular issues within the context of the Arabic language. In this paper, we discuss our participation in these shared tasks. We competed in subtasks 1A and 2A, where our submitted system secured positions 9th and 10th, respectively. Our experiments consist of fine-tuning transformer models and using zero- and few-shot learning with GPT-4.
翻訳日:2023-11-07 14:01:29 公開日:2023-11-06
# ArAIEval共有タスク:アラビア語テキストにおける説得技術と偽情報検出

ArAIEval Shared Task: Persuasion Techniques and Disinformation Detection in Arabic Text ( http://arxiv.org/abs/2311.03179v1 )

ライセンス: Link先を確認
Maram Hasanain, Firoj Alam, Hamdy Mubarak, Samir Abdaljalil, Wajdi Zaghouani, Preslav Nakov, Giovanni Da San Martino, Abed Alhakim Freihat(参考訳) EMNLP 2023と共同で開催される最初のアラビアNLP 2023会議の一環として組織されたArAIEval共有タスクの概要を紹介する。 ArAIEvalはアラビア語のテキストに2つのタスクを提供します。 (i)説得技術の検出、ツイートやニュース記事における説得技術を特定すること、及び (ii)ツィート上の二進および多クラス設定における不正情報検出。 最終評価フェーズには合計20チームが参加し、それぞれ14チームと16チームがタスク1と2に参加した。 どちらのタスクも、AraBERTのような微調整トランスフォーマーモデルが、参加するシステムの大部分の中核にあることを観察した。 我々は、データセットの構築と評価設定の説明を含むタスク設定の説明を提供する。 さらに,参加するシステムの概要について概説する。 共有タスクからのデータセットと評価スクリプトはすべて、研究コミュニティにリリースされている。 (https://araieval.gitlab.io/) これはアラビア語におけるこれらの重要なタスクについて、さらなる研究を可能にすることを願っている。

We present an overview of the ArAIEval shared task, organized as part of the first ArabicNLP 2023 conference co-located with EMNLP 2023. ArAIEval offers two tasks over Arabic text: (i) persuasion technique detection, focusing on identifying persuasion techniques in tweets and news articles, and (ii) disinformation detection in binary and multiclass setups over tweets. A total of 20 teams participated in the final evaluation phase, with 14 and 16 teams participating in Tasks 1 and 2, respectively. Across both tasks, we observed that fine-tuning transformer models such as AraBERT was at the core of the majority of the participating systems. We provide a description of the task setup, including a description of the dataset construction and the evaluation setup. We further give a brief overview of the participating systems. All datasets and evaluation scripts from the shared task are released to the research community. (https://araieval.gitlab.io/) We hope this will enable further research on these important tasks in Arabic.
翻訳日:2023-11-07 14:01:03 公開日:2023-11-06
# 歩行によるパーキンソン病診断のための1D-Convolutional Transformer

1D-Convolutional transformer for Parkinson disease diagnosis from gait ( http://arxiv.org/abs/2311.03177v1 )

ライセンス: Link先を確認
Safwen Naimi, Wassim Bouachir and Guillaume-Alexandre Bilodeau(参考訳) 本稿では,歩行からパーキンソン病の診断に有効なディープニューラルネットワークモデルを提案する。 より具体的には、重度ステージを検出して病気を正確に診断するハイブリッド型ConvNet-Transformerアーキテクチャを提案する。 提案するアーキテクチャは、畳み込みニューラルネットワークとトランスフォーマーの両方の強みを単一のエンドツーエンドモデルで活用し、前者は垂直地反力(vgrf)信号から関連する局所的特徴を抽出でき、後者はデータの長期的時空間的依存性を捉えることができる。 このように、ハイブリッドアーキテクチャは、どちらのモデルも個別に使用するよりもパフォーマンスが向上します。 提案手法は歩行データからパーキンソン病の異なる段階を検出するのに有効であり,最終精度は88%であり,他の最先端AI手法よりも優れていた。 さらに,本手法を他の分類問題に適用し,特徴の関連性や時空間依存性の問題に一元的に対処することができる。 ソースコードと事前学習されたモデルは、https://github.com/SafwenNaimi/1D-Convolutional-transformer-for-Parkinson-disease-diagnosis-from-gai tで公開されています。

This paper presents an efficient deep neural network model for diagnosing Parkinson's disease from gait. More specifically, we introduce a hybrid ConvNet-Transformer architecture to accurately diagnose the disease by detecting the severity stage. The proposed architecture exploits the strengths of both Convolutional Neural Networks and Transformers in a single end-to-end model, where the former is able to extract relevant local features from Vertical Ground Reaction Force (VGRF) signal, while the latter allows to capture long-term spatio-temporal dependencies in data. In this manner, our hybrid architecture achieves an improved performance compared to using either models individually. Our experimental results show that our approach is effective for detecting the different stages of Parkinson's disease from gait data, with a final accuracy of 88%, outperforming other state-of-the-art AI methods on the Physionet gait dataset. Moreover, our method can be generalized and adapted for other classification problems to jointly address the feature relevance and spatio-temporal dependency problems in 1D signals. Our source code and pre-trained models are publicly available at https://github.com/SafwenNaimi/1D-Convolutional-transformer-for-Parkinson-disease-diagnosis-from-gai t.
翻訳日:2023-11-07 14:00:41 公開日:2023-11-06
# GANを用いた医用画像翻訳のための周波数領域分解翻訳

Frequency Domain Decomposition Translation for Enhanced Medical Image Translation Using GANs ( http://arxiv.org/abs/2311.03175v1 )

ライセンス: Link先を確認
Zhuhui Wang, Jianwei Zuo, Xuliang Deng, Jiajia Luo(参考訳) 医用画像変換はコンピュータビジョンと生成人工知能において重要な課題であり、医用画像解析に非常に適している。 GANベースの手法は主流の画像翻訳手法であるが、周波数領域における画像の変動や分布を無視することが多い。 これらの問題を解決するために、周波数領域分解変換(FDDT)と呼ばれる新しい手法を提案する。 原画像を高周波成分と低周波成分とに分解し、細部と同一性情報を含む高周波成分と、そのスタイル情報を含む低周波成分とを含む。 次に、変換された画像の高周波及び低周波成分は、空間領域内の同じ周波数帯域における原画像の高周波及び低周波成分の変換結果と一致し、画像の様式情報を極力破壊しつつ画像のアイデンティティ情報を保存する。 fddtと数種類のベースラインモデルを用いてmri画像と自然画像の広範な実験を行い,4つの評価指標を用いて画像の品質評価を行った。 基準モデルと比較して、fddtはfr\'echet開始距離を最大24.4%、構造的類似度を最大4.4%、ピーク信号対雑音比を最大5.8%、平均2乗誤差を最大31%削減できる。 従来の方法と比較して、fddtはfr\'echet開始距離を最大23.7%、構造的類似度を1.8%、ピーク信号対雑音比を最大6.8%、平均2乗誤差を最大31.6%削減できる。

Medical Image-to-image translation is a key task in computer vision and generative artificial intelligence, and it is highly applicable to medical image analysis. GAN-based methods are the mainstream image translation methods, but they often ignore the variation and distribution of images in the frequency domain, or only take simple measures to align high-frequency information, which can lead to distortion and low quality of the generated images. To solve these problems, we propose a novel method called frequency domain decomposition translation (FDDT). This method decomposes the original image into a high-frequency component and a low-frequency component, with the high-frequency component containing the details and identity information, and the low-frequency component containing the style information. Next, the high-frequency and low-frequency components of the transformed image are aligned with the transformed results of the high-frequency and low-frequency components of the original image in the same frequency band in the spatial domain, thus preserving the identity information of the image while destroying as little stylistic information of the image as possible. We conduct extensive experiments on MRI images and natural images with FDDT and several mainstream baseline models, and we use four evaluation metrics to assess the quality of the generated images. Compared with the baseline models, optimally, FDDT can reduce Fr\'echet inception distance by up to 24.4%, structural similarity by up to 4.4%, peak signal-to-noise ratio by up to 5.8%, and mean squared error by up to 31%. Compared with the previous method, optimally, FDDT can reduce Fr\'echet inception distance by up to 23.7%, structural similarity by up to 1.8%, peak signal-to-noise ratio by up to 6.8%, and mean squared error by up to 31.6%.
翻訳日:2023-11-07 14:00:04 公開日:2023-11-06
# 会員推論攻撃に対するGANのプライバシ保護

Preserving Privacy in GANs Against Membership Inference Attack ( http://arxiv.org/abs/2311.03172v1 )

ライセンス: Link先を確認
Mohammadhadi Shateri, Francisco Messina, Fabrice Labeau, Pablo Piantanida(参考訳) GAN(Generative Adversarial Networks)は、限られたサイズの実世界のデータセットやデータ保持者がデータサンプルの共有を望まない場合に、合成データを生成するために広く使用されている。 最近の研究によると、GANは過度な適合と記憶のために、トレーニングデータサンプルに関する情報を漏らす可能性がある。 これにより、GANはメンバーシップ推論攻撃(MIA)に脆弱になる。 このプライバシー問題を軽減するためにいくつかの防衛戦略が文献に提案されている。 残念ながら、差分プライバシーに基づく防衛戦略は、合成データポイントの品質を広範囲に低減することが証明されている。 一方、PrivGANやPAR-GANといった最近のフレームワークは、小規模のトレーニングデータセットには適していない。 本研究では, GANsにおけるオーバーフィッティングを判別器を用いて検討し, Bhattacharyya係数に基づくオーバーフィッティングのより一般的な尺度を定義した。 次に、ファノの不等式に触発されて、MIAに対する最初の防御機構を提案する。 このフレームワークは、GANの損失関数を単純な修正しか必要とせず、最大エントロピーGANまたはMEGANと呼ばれ、MIAに対するGANの堅牢性を大幅に改善する。 第2の防衛戦略として、トレーニングデータポイントに関する生成されたサンプルから流出した情報を最小化することに基づくよりヒューリスティックなモデルを示す。 このアプローチは相互情報最小化GAN(MIMGAN)と呼ばれ、相互情報の変動表現を用いて、合成サンプルがトレーニングデータセット全体について漏洩する可能性のある情報を最小化する。 提案手法を一般的なデータセットに適用することにより, 提案手法は, 合成データサンプルの品質を小さくすることで, 敵の精度をランダムな推測精度のレベルまで低下させることができることを明らかにした。

Generative Adversarial Networks (GANs) have been widely used for generating synthetic data for cases where there is a limited size real-world dataset or when data holders are unwilling to share their data samples. Recent works showed that GANs, due to overfitting and memorization, might leak information regarding their training data samples. This makes GANs vulnerable to Membership Inference Attacks (MIAs). Several defense strategies have been proposed in the literature to mitigate this privacy issue. Unfortunately, defense strategies based on differential privacy are proven to reduce extensively the quality of the synthetic data points. On the other hand, more recent frameworks such as PrivGAN and PAR-GAN are not suitable for small-size training datasets. In the present work, the overfitting in GANs is studied in terms of the discriminator, and a more general measure of overfitting based on the Bhattacharyya coefficient is defined. Then, inspired by Fano's inequality, our first defense mechanism against MIAs is proposed. This framework, which requires only a simple modification in the loss function of GANs, is referred to as the maximum entropy GAN or MEGAN and significantly improves the robustness of GANs to MIAs. As a second defense strategy, a more heuristic model based on minimizing the information leaked from generated samples about the training data points is presented. This approach is referred to as mutual information minimization GAN (MIMGAN) and uses a variational representation of the mutual information to minimize the information that a synthetic sample might leak about the whole training data set. Applying the proposed frameworks to some commonly used data sets against state-of-the-art MIAs reveals that the proposed methods can reduce the accuracy of the adversaries to the level of random guessing accuracy with a small reduction in the quality of the synthetic data samples.
翻訳日:2023-11-07 13:58:44 公開日:2023-11-06
# センサス・マイクロデータの信頼誘導再構成におけるプライバシ・脅威の検討

An Examination of the Alleged Privacy Threats of Confidence-Ranked Reconstruction of Census Microdata ( http://arxiv.org/abs/2311.03171v1 )

ライセンス: Link先を確認
David S\'anchez, Najeeb Jebreel, Josep Domingo-Ferrer, Krishnamurty Muralidhar, and Alberto Blanco-Justicia(参考訳) レコンストラクション攻撃の脅威が疑われているため、アメリカ合衆国国勢調査局(uscb)は2020年の国勢調査で、ランク交換に基づく従来の統計開示制限を差分プライバシー(dp)に基づくものに置き換えた。 これにより、公表された統計の精度が大幅に低下した。 さらに悪いことに、DPへの移行論議として使用された再建攻撃は、一般に公表された統計と相容れない復元が多数存在するため、回答者の無意識的な再確認には程遠いことが示されている。 最近の論文では、復元されたレコードが元の応答データにあるという自信を示すことを目的として、新しい再構築攻撃が提案されている。 このような信頼度の高いレコンストラクションによる深刻な開示のリスクは、dpベースのソリューションを使用するuscbの関心を再び高めている。 これらのソリューションの採用による将来のデータリリースにおける潜在的な精度損失を抑えるため、提案された信頼度の高い再構築はプライバシーを脅かさないことを示す。 具体的には,提案するランキングが再確認や属性開示攻撃を誘導できないことを示す実証的な結果を報告し,UDBのDPへの移行を保証できないことを示す。 さらに, センサスデータのコンパイル, 処理, リリースの仕方から, 任意の手法による原記録と完全記録の再構築は不可能であり, 信頼性の高い復元は, 正確に国勢調査記録を復元する上で完全に非効率であるだけでなく, 公表された集計統計の適切な解釈により, 自明に優れることを示した。

The alleged threat of reconstruction attacks has led the U.S. Census Bureau (USCB) to replace in the Decennial Census 2020 the traditional statistical disclosure limitation based on rank swapping with one based on differential privacy (DP). This has resulted in substantial accuracy loss of the released statistics. Worse yet, it has been shown that the reconstruction attacks used as an argument to move to DP are very far from allowing unequivocal reidentification of the respondents, because in general there are a lot of reconstructions compatible with the released statistics. In a very recent paper, a new reconstruction attack has been proposed, whose goal is to indicate the confidence that a reconstructed record was in the original respondent data. The alleged risk of serious disclosure entailed by such confidence-ranked reconstruction has renewed the interest of the USCB to use DP-based solutions. To forestall the potential accuracy loss in future data releases resulting from adoption of these solutions, we show in this paper that the proposed confidence-ranked reconstruction does not threaten privacy. Specifically, we report empirical results showing that the proposed ranking cannot guide reidentification or attribute disclosure attacks, and hence it fails to warrant the USCB's move towards DP. Further, we also demonstrate that, due to the way the Census data are compiled, processed and released, it is not possible to reconstruct original and complete records through any methodology, and the confidence-ranked reconstruction not only is completely ineffective at accurately reconstructing Census records but is trivially outperformed by an adequate interpretation of the released aggregate statistics.
翻訳日:2023-11-07 13:58:06 公開日:2023-11-06
# 非エルミートダイヤモンド鎖におけるフラットバンドに基づく非局在化-局所化遷移

Flat band based delocalized-to-localized transitions in a non-Hermitian diamond chain ( http://arxiv.org/abs/2311.03166v1 )

ライセンス: Link先を確認
Hui Liu, Zhanpeng Lu, Xu Xia, and Zhihao Xu(参考訳) 本稿では,人工磁束$\theta$ の平坦帯を有する一次元非エルミートダイヤモンド格子に対する準周期摂動の影響について検討する。 本研究は,これらの摂動の対称性と磁束$\theta$が,系の局在特性を形成する上で重要な役割を担っていることを示す。 $\theta=0$ のとき、非エルミート格子は結晶の場合において単一の平坦なバンドを示し、対称と非対称摂動は正確なモビリティエッジを誘導することができる。 対照的に、$\theta=\pi$の場合、クリーンダイヤモンド格子は非エルミートパラメータに関係なく「オールバンドフラット」(ABF)構造と呼ばれる3つの分散のないバンドを示す。 ABF構造は、すべての状態が任意の有限対称摂動に対して局所的であるため、非局在状態から局所状態への遷移を制限する。 数値計算により,非対称摂動を受けるABF系は多フラクタル-局在エッジを示すことが明らかとなった。 多重フラクタル状態は主にスペクトルの内部領域に集中している。 さらに、$\theta$が$(0, \pi)$の範囲内にある場合を調べ、システム内の様々な複雑な局所化機能を明らかにする。

In this paper, we investigate the influence of quasiperiodic perturbations on one-dimensional non-Hermitian diamond lattices that possess flat bands with an artificial magnetic flux $\theta$. Our study shows that the symmetry of these perturbations and the magnetic flux $\theta$ play a pivotal role in shaping the localization properties of the system. When $\theta=0$, the non-Hermitian lattice exhibits a single flat band in the crystalline case, and symmetric as well as antisymmetric perturbations can induce accurate mobility edges. In contrast, when $\theta=\pi$, the clean diamond lattice manifests three dispersionless bands referred to as an "all-band-flat" (ABF) structure, irrespective of the non-Hermitian parameter. The ABF structure restricts the transition from delocalized to localized states, as all states remain localized for any finite symmetric perturbation. Our numerical calculations further unveil that the ABF system subjected to antisymmetric perturbations exhibits multifractal-to-localized edges. Multifractal states are predominantly concentrated in the internal region of the spectrum. Additionally, we explore the case where $\theta$ lies within the range of $(0, \pi)$, revealing a diverse array of complex localization features within the system.
翻訳日:2023-11-07 13:57:39 公開日:2023-11-06
# 不均一データを用いた逐次連合学習の収束解析

Convergence Analysis of Sequential Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2311.03154v1 )

ライセンス: Link先を確認
Yipeng Li and Xinchen Lyu(参考訳) 複数のクライアント間で共同トレーニングを行うための、連合学習(federated learning:fl)には、2つのカテゴリがある。 一 クライアントが並列にモデルを訓練するパラレルFL(PFL) ii)シーケンシャルFL(SFL)では、クライアントがシーケンシャルな方法でモデルをトレーニングする。 PFLとは対照的に、不均一データ上のSFLの収束理論はいまだに欠如している。 本稿では,異種データに対する強/一般/非凸目標に対するsflの収束保証を確立する。 SFLの収束保証は、完全かつ部分的なクライアント参加を伴う異種データのPFLよりも優れている。 実験により,SFLはデバイス間設定において極めて不均一なデータ上でPFLより優れることを示した。

There are two categories of methods in Federated Learning (FL) for joint training across multiple clients: i) parallel FL (PFL), where clients train models in a parallel manner; and ii) sequential FL (SFL), where clients train models in a sequential manner. In contrast to that of PFL, the convergence theory of SFL on heterogeneous data is still lacking. In this paper, we establish the convergence guarantees of SFL for strongly/general/non-convex objectives on heterogeneous data. The convergence guarantees of SFL are better than that of PFL on heterogeneous data with both full and partial client participation. Experimental results validate the counterintuitive analysis result that SFL outperforms PFL on extremely heterogeneous data in cross-device settings.
翻訳日:2023-11-07 13:57:15 公開日:2023-11-06
# 議論品質の例によるラベル変動のモデル化のための建築上のスイートスポット:視点の関連化が最善!

Architectural Sweet Spots for Modeling Human Label Variation by the Example of Argument Quality: It's Best to Relate Perspectives! ( http://arxiv.org/abs/2311.03153v1 )

ライセンス: Link先を確認
Philipp Heinisch, Matthias Orlikowski, Julia Romberg and Philipp Cimiano(参考訳) 自然言語処理における多くのアノテーションタスクは、与えられた例の適切なラベルであるものに関して、有効で正当化された視点が異なる可能性があるという点において、非常に主観的である。 これはまた、一つの根拠の真理の割り当てがしばしば疑問視される議論品質の判断にも当てはまる。 同時に、共通基盤を形成する議論の背後には一般的に受け入れられる概念がある。 個人的視点と共有的視点の相互作用を最もよく表現するために、我々は、視点を完全に集約するモデルから、各注釈子を他の全ての注釈子から分離して考える「共有なし」アーキテクチャまで、様々なアプローチの連続を考える。 これらの極端の間には、レコメンデータシステムの分野で使用されるモデルに触発され、異なるアノテータ間の関係をモデル化するレイヤを含むアーキテクチャが、単一アノテータラベルの予測に有効であるかを調査する。 議論品質分類の2つのタスク(説明具体性と妥当性/結論のノベルティ)によって、レコメンデータアーキテクチャは、平均的な注釈なしのf$_1$-scoresを、多数派ラベルモデルよりも最大$43\%$に増加させることを示した。 本研究は,主観的アプローチが個人的視点に結びつくことのメリットを示唆するものである。

Many annotation tasks in natural language processing are highly subjective in that there can be different valid and justified perspectives on what is a proper label for a given example. This also applies to the judgment of argument quality, where the assignment of a single ground truth is often questionable. At the same time, there are generally accepted concepts behind argumentation that form a common ground. To best represent the interplay of individual and shared perspectives, we consider a continuum of approaches ranging from models that fully aggregate perspectives into a majority label to "share nothing"-architectures in which each annotator is considered in isolation from all other annotators. In between these extremes, inspired by models used in the field of recommender systems, we investigate the extent to which architectures that include layers to model the relations between different annotators are beneficial for predicting single-annotator labels. By means of two tasks of argument quality classification (argument concreteness and validity/novelty of conclusions), we show that recommender architectures increase the averaged annotator-individual F$_1$-scores up to $43\%$ over a majority label model. Our findings indicate that approaches to subjectivity can benefit from relating individual perspectives.
翻訳日:2023-11-07 13:57:05 公開日:2023-11-06
# p-ラプラシアン変圧器

p-Laplacian Transformer ( http://arxiv.org/abs/2311.03235v1 )

ライセンス: Link先を確認
Tuan Nguyen, Tam Nguyen, Vinh Nguyen, Tan M. Nguyen(参考訳) グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入する。 p$の小さな値はスパーシリティと解釈可能性を促進し、大きな値はよりスムーズなソリューションを促進する。 本稿ではまず,自己注意機構が最小のラプラシアン正規化(p=2$)を獲得し,アーキテクチャの滑らかさを促進させることを示す。 しかし,近接トークンと非接近トークンとの注意重みを区別不能に割り当てた変圧器の自己着脱構造には,滑らかさは適さない。 その知見から、我々は新しい種類のトランスフォーマー、すなわち$p$-laplacian transformer (p-lat) を提案し、これは$p$-laplacian regularization frameworkを利用して自己結合層内のヘテロ親和性を利用する。 特に、$p$の低い値では、処理されている現在のトークンに近接しているトークンに注意重みを効果的に割り当てる。 幅広いベンチマークデータセットのベースライン変換器に対するp-LaTの利点を実証的に示す。

$p$-Laplacian regularization, rooted in graph and image signal processing, introduces a parameter $p$ to control the regularization effect on these data. Smaller values of $p$ promote sparsity and interpretability, while larger values encourage smoother solutions. In this paper, we first show that the self-attention mechanism obtains the minimal Laplacian regularization ($p=2$) and encourages the smoothness in the architecture. However, the smoothness is not suitable for the heterophilic structure of self-attention in transformers where attention weights between tokens that are in close proximity and non-close ones are assigned indistinguishably. From that insight, we then propose a novel class of transformers, namely the $p$-Laplacian Transformer (p-LaT), which leverages $p$-Laplacian regularization framework to harness the heterophilic features within self-attention layers. In particular, low $p$ values will effectively assign higher attention weights to tokens that are in close proximity to the current token being processed. We empirically demonstrate the advantages of p-LaT over the baseline transformers on a wide range of benchmark datasets.
翻訳日:2023-11-07 13:49:47 公開日:2023-11-06
# スケーリング法則のナビゲート:適応戦略によるビジョントランスフォーマーのトレーニングの加速

Navigating Scaling Laws: Accelerating Vision Transformer's Training via Adaptive Strategies ( http://arxiv.org/abs/2311.03233v1 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Gregor Bachmann, Thomas Hofmann(参考訳) 近年、ディープラーニングの最先端技術は、大量のデータで事前学習された非常に大きなモデルによって支配されている。 より多くの計算リソース(最適に)を投資することで、パフォーマンスが向上し、予測可能な結果が得られ、ニューラルネットワークのスケーリング法則が導出され、所望の計算レベルに対してネットワークのパフォーマンスを正確に予測する。 これは"計算最適"モデルの概念、すなわち、トレーニング中に与えられた計算レベルを最適に割り当ててパフォーマンスを最大化するモデルへと繋がる。 本研究は,「適応的」なモデル,すなわちトレーニング中にその形状を変化させることができるモデルを可能にすることで,最適性の概念を拡張する。 形状を適応させることで、基礎となるスケーリング法則を最適に横切ることができ、所定の目標性能に達するために必要な計算量が大幅に削減される。 我々は視覚タスクとビジョントランスフォーマーのファミリーに焦点を当て、パッチサイズと幅が適応的な形状パラメータとして自然に機能する。 我々は、スケーリング法則によって導かれ、彼らの"静的"モデルを上回る計算最適適応モデルを設計できることを実証した。

In recent years, the state-of-the-art in deep learning has been dominated by very large models that have been pre-trained on vast amounts of data. The paradigm is very simple: Investing more computational resources (optimally) leads to better performance, and even predictably so; neural scaling laws have been derived that accurately forecast the performance of a network for a desired level of compute. This leads to the notion of a "compute-optimal" model, i.e. a model that allocates a given level of compute during training optimally to maximise performance. In this work, we extend the concept of optimality by allowing for an "adaptive" model, i.e. a model that can change its shape during the course of training. By allowing the shape to adapt, we can optimally traverse between the underlying scaling laws, leading to a significant reduction in the required compute to reach a given target performance. We focus on vision tasks and the family of Vision Transformers, where the patch size as well as the width naturally serve as adaptive shape parameters. We demonstrate that, guided by scaling laws, we can design compute-optimal adaptive models that beat their "static" counterparts.
翻訳日:2023-11-07 13:49:27 公開日:2023-11-06
# 文章埋め込みのための自己監督型クロスビュー学習

An Efficient Self-Supervised Cross-View Training For Sentence Embedding ( http://arxiv.org/abs/2311.03228v1 )

ライセンス: Link先を確認
Peerat Limkonchotiwat, Wuttikorn Ponwitayarat, Lalita Lowphansirikul, Can Udomcharoenchaikit, Ekapol Chuangsuwanich, Sarana Nutanong(参考訳) 自己教師型文表現学習は、人間のアノテーションに頼らずに、文章の埋め込み空間を構築するタスクである。 1つの簡単なアプローチは、事前訓練された言語モデル(PLM)をコントラスト学習のような表現学習手法で微調整することである。 このアプローチはより大きなplmで印象的なパフォーマンスを実現するが、パラメータ数の減少に伴ってパフォーマンスは急速に低下する。 本稿では,大規模PLMと小規模PLMのパフォーマンスギャップを狭めるためのSCT(Self-supervised Cross-View Training)というフレームワークを提案する。 SCTの有効性を評価するために,5つのPLMを用いた7つのセマンティックテキスト類似度(STS)ベンチマークにおいて,4Mから340Mまでのパラメータ数で5つのベースラインおよび最先端の競合と比較した。 実験の結果,STCは21例中18例において,100M未満のパラメータを持つPLMの競合よりも優れていた。

Self-supervised sentence representation learning is the task of constructing an embedding space for sentences without relying on human annotation efforts. One straightforward approach is to finetune a pretrained language model (PLM) with a representation learning method such as contrastive learning. While this approach achieves impressive performance on larger PLMs, the performance rapidly degrades as the number of parameters decreases. In this paper, we propose a framework called Self-supervised Cross-View Training (SCT) to narrow the performance gap between large and small PLMs. To evaluate the effectiveness of SCT, we compare it to 5 baseline and state-of-the-art competitors on seven Semantic Textual Similarity (STS) benchmarks using 5 PLMs with the number of parameters ranging from 4M to 340M. The experimental results show that STC outperforms the competitors for PLMs with less than 100M parameters in 18 of 21 cases.
翻訳日:2023-11-07 13:49:09 公開日:2023-11-06
# 量子インスピレーションによる異常検出, QUBO の定式化

Quantum-inspired anomaly detection, a QUBO formulation ( http://arxiv.org/abs/2311.03227v1 )

ライセンス: Link先を確認
Julien Mellaerts(参考訳) 異常検出は、データ内の異常なパターンやイベントを特定することを含む機械学習の重要なタスクである。 金融、医療、サイバーセキュリティなど様々な分野に応用されている。 量子コンピューティングの出現により、異常検出のための量子アプローチの開発への関心が高まっている。 統計的・距離的手法に依拠した従来の異常検出手法を概観した後、異常検出の二次的非拘束型二分最適化(qubo)モデル定式化し、古典的手法と比較し、現在の量子処理ユニット(qpu)における拡張性について議論する。

Anomaly detection is a crucial task in machine learning that involves identifying unusual patterns or events in data. It has numerous applications in various domains such as finance, healthcare, and cybersecurity. With the advent of quantum computing, there has been a growing interest in developing quantum approaches to anomaly detection. After reviewing traditional approaches to anomaly detection relying on statistical or distance-based methods, we will propose a Quadratic Unconstrained Binary Optimization (QUBO) model formulation of anomaly detection, compare it with classical methods, and discuss its scalability on current Quantum Processing Units (QPU).
翻訳日:2023-11-07 13:48:51 公開日:2023-11-06
# LDM3D-VR:3DVRにおける潜在拡散モデル

LDM3D-VR: Latent Diffusion Model for 3D VR ( http://arxiv.org/abs/2311.03226v1 )

ライセンス: Link先を確認
Gabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal(参考訳) 潜在拡散モデルは視覚出力の生成と操作において最先端であることが証明されている。 しかし、我々が知る限り、rgbと共同で深度マップを生成することは、まだ限られている。 我々は, LDM3D-pano と LDM3D-SR を含む仮想現実開発を対象とした拡散モデルである LDM3D-VR を紹介する。 これらのモデルは、テキストプロンプトに基づくパノラマrgbdの生成と、高分解能rgbdへの低解像度入力のスケールアップを可能にする。 我々のモデルは、パノラマ/高解像度RGB画像、深度マップ、キャプションを含むデータセット上の既存の事前訓練モデルから微調整されている。 どちらのモデルも既存の手法と比較して評価される。

Latent diffusion models have proven to be state-of-the-art in the creation and manipulation of visual outputs. However, as far as we know, the generation of depth maps jointly with RGB is still limited. We introduce LDM3D-VR, a suite of diffusion models targeting virtual reality development that includes LDM3D-pano and LDM3D-SR. These models enable the generation of panoramic RGBD based on textual prompts and the upscaling of low-resolution inputs to high-resolution RGBD, respectively. Our models are fine-tuned from existing pretrained models on datasets containing panoramic/high-resolution RGB images, depth maps and captions. Both models are evaluated in comparison to existing related methods.
翻訳日:2023-11-07 13:48:40 公開日:2023-11-06
# ANPとFMEAに基づくプロジェクトマネージャの選択におけるリスク分析

Risk Analysis in the Selection of Project Managers Based on ANP and FMEA ( http://arxiv.org/abs/2311.03224v1 )

ライセンス: Link先を確認
Armin Asaadi, Armita Atrian, Hesam Nik Hoseini, Mohammad Mahdi Movahedi(参考訳) プロジェクトマネージャは、プロジェクトの成功において重要な役割を果たす。 適切なプロジェクトマネージャの選択は、企業の上級マネージャにとって主要な関心事である。 通常、このプロセスには候補者の面接と能力の評価が含まれる。 プロジェクトマネージャの選択にはさまざまな基準があり、各基準の重要性は、プロジェクトの種類、条件、そして選択された候補者の不在に関連するリスクに依存する。 しばしば、エンジニアリング企業の上級マネージャは、これらの基準の重要性と、それらの欠如に関連する潜在的なリスクに対する認識を欠いている。 本研究は,ANP-FMEAと組み合わせたアプローチを用いて,土木プロジェクトにおけるプロジェクトマネージャの選択におけるリスクを特定することを目的とする。 総合的な文献レビューを通じて、個人スキル、パワー関連の問題、知識と専門性、経験、性格特性の5つのリスクカテゴリが特定されている。 その後,これらのリスクは,それぞれのサブクリトリアと内部関係とともに,anp-fmea法を用いて解析された。 その結果, プロジェクトマネージャの選択において, 政治的影響の欠如, 建設経験の欠如, プロジェクトマネジメントの専門知識の欠如が最も重大なリスクであることがわかった。 さらに,従来のFMEA手法と比較して,リスクの差別化やリスクレベルの高い要因の特定において,ANP-FMEAモデルが優れていることを示す。

Project managers play a crucial role in the success of projects. The selection of an appropriate project manager is a primary concern for senior managers in firms. Typically, this process involves candidate interviews and assessments of their abilities. There are various criteria for selecting a project manager, and the importance of each criterion depends on the project type, its conditions, and the risks associated with their absence in the chosen candidate. Often, senior managers in engineering companies lack awareness of the significance of these criteria and the potential risks linked to their absence. This research aims to identify these risks in selecting project managers for civil engineering projects, utilizing a combined ANP-FMEA approach. Through a comprehensive literature review, five risk categories have been identified: individual skills, power-related issues, knowledge and expertise, experience, and personality traits. Subsequently, these risks, along with their respective sub-criteria and internal relationships, were analysed using the combined ANP-FMEA technique. The results highlighted that the lack of political influence, absence of construction experience, and deficiency in project management expertise represent the most substantial risks in selecting a project manager. Moreover, upon comparison with the traditional FMEA approach, this study demonstrates the superior ability of the ANP-FMEA model in differentiating risks and pinpointing factors with elevated risk levels.
翻訳日:2023-11-07 13:48:28 公開日:2023-11-06
# ポイントネットを用いた空中RAAR点雲中のドローン衝突のセグメンテーション

Segmentation of Drone Collision Hazards in Airborne RADAR Point Clouds Using PointNet ( http://arxiv.org/abs/2311.03221v1 )

ライセンス: Link先を確認
Hector Arroyo, Paul Kier, Dylan Angus, Santiago Matalonga, Svetlozar Georgiev, Mehdi Goli, Gerard Dooly, James Riordan(参考訳) 無人航空機(UAV)を視覚視線(BVLOS)を超えて共有空域に統合することは大きな課題であるが、輸送、建設、エネルギー、防衛といった分野に変革をもたらす可能性がある。 この統合の重要な前提条件は、uavに安全な運用を確保するための状況認識を強化することである。 現在のアプローチは、主に単一オブジェクトの検出や分類、あるいは知覚的理解が限定され、センサーデータを安全クリティカルな洞察に変換するために必要な、迅速なエンドツーエンド処理が欠如している単純なセンシング出力をターゲットにしている。 対照的に,本研究ではレーダー技術を用いて,複数の衝突ハザードを同時に識別するために,空中雲のエンドツーエンドセマンティクスセグメンテーションを提案する。 PointNetアーキテクチャの適応と最適化、航空ドメインの洞察の統合により、我々のフレームワークは、モバイルドローン(DJI M300とDJI Mini)と航空機(Ikarus C42)と静的リターン(地上とインフラ)の5つの異なるクラスを区別する。 我々の知る限り、これは空中における複数の衝突脅威の同時識別に対処する最初のアプローチであり、94%の精度を達成する。 この研究は、UAVにおける状況認識を促進するためのレーダー技術の可能性を強調し、安全で効率的なBVLOS運用を促進する。

The integration of unmanned aerial vehicles (UAVs) into shared airspace for beyond visual line of sight (BVLOS) operations presents significant challenges but holds transformative potential for sectors like transportation, construction, energy and defense. A critical prerequisite for this integration is equipping UAVs with enhanced situational awareness to ensure safe operations. Current approaches mainly target single object detection or classification, or simpler sensing outputs that offer limited perceptual understanding and lack the rapid end-to-end processing needed to convert sensor data into safety-critical insights. In contrast, our study leverages radar technology for novel end-to-end semantic segmentation of aerial point clouds to simultaneously identify multiple collision hazards. By adapting and optimizing the PointNet architecture and integrating aerial domain insights, our framework distinguishes five distinct classes: mobile drones (DJI M300 and DJI Mini) and airplanes (Ikarus C42), and static returns (ground and infrastructure) which results in enhanced situational awareness for UAVs. To our knowledge, this is the first approach addressing simultaneous identification of multiple collision threats in an aerial setting, achieving a robust 94% accuracy. This work highlights the potential of radar technology to advance situational awareness in UAVs, facilitating safe and efficient BVLOS operations.
翻訳日:2023-11-07 13:48:07 公開日:2023-11-06
# ALYMPICS: 言語エージェントがゲーム理論を語る

ALYMPICS: Language Agents Meet Game Theory ( http://arxiv.org/abs/2311.03220v1 )

ライセンス: Link先を確認
Shaoguang Mao, Yuzhe Cai, Yan Xia, Wenshan Wu, Xun Wang, Fengyi Wang, Tao Ge, Furu Wei(参考訳) 本稿では,大規模言語モデル (llm) エージェントを活用したゲーム理論の研究を容易にするプラットフォーム alympics を紹介する。 LLMと自律エージェントを用いて人間の振る舞いをシミュレートし、マルチエージェントのコラボレーションを可能にすることにより、ゲーム理論仮説の定式化とテストのための人間のインタラクションの現実的および動的モデルを構築することができる。 そこで本研究では,資源不足に対する不平等競争を伴うサバイバルゲームについて紹介し,実装する。 リソースアベイラビリティとエージェントのパーソナリティの操作を通じて、さまざまなエージェントが競争にどう関与するかを観察し、その戦略を適応させる。 ゲーム理論研究におけるllmエージェントの使用は、現実的な動作のシミュレーション、制御され、スケーラブルで再現可能な環境の提供など、重要な利点を提供している。 我々の研究は、複雑な社会経済的文脈における戦略的意思決定の理解を深めるLLMエージェントの可能性を強調した。 すべてのコードはまもなく公開されます。

This paper introduces Alympics, a platform that leverages Large Language Model (LLM) agents to facilitate investigations in game theory. By employing LLMs and autonomous agents to simulate human behavior and enable multi-agent collaborations, we can construct realistic and dynamic models of human interactions for game theory hypothesis formulating and testing. To demonstrate this, we present and implement a survival game involving unequal competition for limited resources. Through manipulation of resource availability and agent personalities, we observe how different agents engage in the competition and adapt their strategies. The use of LLM agents in game theory research offers significant advantages, including simulating realistic behavior, providing a controlled, scalable, and reproducible environment. Our work highlights the potential of LLM agents in enhancing the understanding of strategic decision-making within complex socioeconomic contexts. All codes will be made public soon.
翻訳日:2023-11-07 13:47:40 公開日:2023-11-06
# マルチモーダル・縦断データを用いた乳癌分類とリスク評価の改善のためのトランスフォーマーの活用

Leveraging Transformers to Improve Breast Cancer Classification and Risk Assessment with Multi-modal and Longitudinal Data ( http://arxiv.org/abs/2311.03217v1 )

ライセンス: Link先を確認
Yiqiu Shen, Jungkyu Park, Frank Yeung, Eliana Goldberg, Laura Heacock, Farah Shamout, Krzysztof J. Geras(参考訳) 乳癌検診は主にマンモグラフィーで行われ、高濃度の乳腺組織を持つ女性に超音波で補充されることが多い。 しかし、既存のディープラーニングモデルは、各モードを独立して分析し、画像のモダリティと時間にまたがる情報を統合する機会を欠いている。 本研究では,マンモグラフィと超音波を相乗的に利用するニューラルネットワークであるMulti-modal Transformer(MMT)を提案する。 MMTは、自己アテンションを通じてマルチモーダルデータを集約し、現在の検査と先行画像を比較して時間的組織変化を追跡する。 1.3百万回の試験で訓練され、MMTは既存のがんの検出において0.943のAUROCを達成した。 5年間のリスク予測では、MMTはAUROCの0.826を達成し、従来のマンモグラフィーベースのリスクモデルより優れている。 本研究は,癌診断とリスク階層化におけるマルチモーダル画像と縦画像の意義を明らかにする。

Breast cancer screening, primarily conducted through mammography, is often supplemented with ultrasound for women with dense breast tissue. However, existing deep learning models analyze each modality independently, missing opportunities to integrate information across imaging modalities and time. In this study, we present Multi-modal Transformer (MMT), a neural network that utilizes mammography and ultrasound synergistically, to identify patients who currently have cancer and estimate the risk of future cancer for patients who are currently cancer-free. MMT aggregates multi-modal data through self-attention and tracks temporal tissue changes by comparing current exams to prior imaging. Trained on 1.3 million exams, MMT achieves an AUROC of 0.943 in detecting existing cancers, surpassing strong uni-modal baselines. For 5-year risk prediction, MMT attains an AUROC of 0.826, outperforming prior mammography-based risk models. Our research highlights the value of multi-modal and longitudinal imaging in cancer diagnosis and risk stratification.
翻訳日:2023-11-07 13:47:23 公開日:2023-11-06
# Mini Minds:BebeshkaとZlataのベビーモデルを探る

Mini Minds: Exploring Bebeshka and Zlata Baby Models ( http://arxiv.org/abs/2311.03216v1 )

ライセンス: Link先を確認
Irina Proskurina, Guillaume Metzler, Julien Velcin(参考訳) 本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。 共有タスクは、スクラッチから小さな言語モデリング、限られたサイズのデータと人間の言語習得に重点を置いて作成される。 Strict-Smallトラック向けにリリースされたデータセットは、子供の語彙サイズに匹敵する1000万ワードである。 共有タスクのデータに対するマスク型言語モデル損失を最小限に抑えながら,アーキテクチャ検索によってタスクにアプローチする。 最適構成を見出し,評価のために提出された2つの小型言語モデル (LM) と8つのアテンションヘッドを持つ4層エンコーダ,12つのヘッドを持つ6層デコーダモデルを導入し,それぞれBebeshka と Zlata と呼ぶ。 ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現する。 さらに、道徳的判断を含むタスクにおける小規模言語モデルの適用可能性について検討し、その予測を人的価値と整合させる。 これらの知見は,実用的な言語理解課題に取り組む上で,コンパクトなlmsの可能性を浮き彫りにするものである。

In this paper, we describe the University of Lyon 2 submission to the Strict-Small track of the BabyLM competition. The shared task is created with an emphasis on small-scale language modelling from scratch on limited-size data and human language acquisition. Dataset released for the Strict-Small track has 10M words, which is comparable to children's vocabulary size. We approach the task with an architecture search, minimizing masked language modelling loss on the data of the shared task. Having found an optimal configuration, we introduce two small-size language models (LMs) that were submitted for evaluation, a 4-layer encoder with 8 attention heads and a 6-layer decoder model with 12 heads which we term Bebeshka and Zlata, respectively. Despite being half the scale of the baseline LMs, our proposed models achieve comparable performance. We further explore the applicability of small-scale language models in tasks involving moral judgment, aligning their predictions with human values. These findings highlight the potential of compact LMs in addressing practical language understanding tasks.
翻訳日:2023-11-07 13:47:04 公開日:2023-11-06
# インテリアポイント法による線形プログラミングのための量子スピードアップ

Quantum speedups for linear programming via interior point methods ( http://arxiv.org/abs/2311.03215v1 )

ライセンス: Link先を確認
Simon Apers and Sander Gribling(参考訳) 本稿では,$d$変数上の不等式制約で線形プログラムを解くための内部点法に基づく量子アルゴリズムについて述べる。 このアルゴリズムは、最適に$\epsilon$-closeである実現可能な解を明示的に返し、時間$\sqrt{n}\, \mathrm{poly}(d,\log(n),\log(1/\varepsilon)$で実行し、これは背の高い線形プログラム(例えば$n \gg d$)のサブ線形である。 我々のアルゴリズムは,lee と sidford [focs '14] の最先端インテリアポイント法においてニュートンステップを高速化する。 これにより、障壁関数のヘシアンと勾配を効率的に近似する必要があり、これらが主な貢献である。 ヘッシアンを近似するために、高行列 $a \in \mathbb r^{n \times d}$ に対するスペクトル近似 $a^t a$ の量子アルゴリズムを記述する。 このアルゴリズムはGrover検索と組み合わせてスコアサンプリングを利用し、$O(\sqrt{nd}/\delta)$行クエリを$A$にすることで$\delta$-approximationを返す。 これは apers と de wolf [focs '20] によるグラフスパーシフィケーションの初期の量子速度アップを一般化する。 この勾配を近似するために、Cornelissen, Hamoudi, Jerbi [STOC '22] による多変量平均推定に最近の量子アルゴリズムを用いる。 直観的な実装はヘッセンの条件数に依存するが、スペクトル近似の量子アルゴリズムを用いて確率変数を事前条件付けすることでこれを回避している。

We describe a quantum algorithm based on an interior point method for solving a linear program with $n$ inequality constraints on $d$ variables. The algorithm explicitly returns a feasible solution that is $\epsilon$-close to optimal, and runs in time $\sqrt{n}\, \mathrm{poly}(d,\log(n),\log(1/\varepsilon))$ which is sublinear for tall linear programs (i.e., $n \gg d$). Our algorithm speeds up the Newton step in the state-of-the-art interior point method of Lee and Sidford [FOCS '14]. This requires us to efficiently approximate the Hessian and gradient of the barrier function, and these are our main contributions. To approximate the Hessian, we describe a quantum algorithm for the spectral approximation of $A^T A$ for a tall matrix $A \in \mathbb R^{n \times d}$. The algorithm uses leverage score sampling in combination with Grover search, and returns a $\delta$-approximation by making $O(\sqrt{nd}/\delta)$ row queries to $A$. This generalizes an earlier quantum speedup for graph sparsification by Apers and de Wolf [FOCS '20]. To approximate the gradient, we use a recent quantum algorithm for multivariate mean estimation by Cornelissen, Hamoudi and Jerbi [STOC '22]. While a naive implementation introduces a dependence on the condition number of the Hessian, we avoid this by pre-conditioning our random variable using our quantum algorithm for spectral approximation.
翻訳日:2023-11-07 13:46:45 公開日:2023-11-06
# AIOpsソリューションのためのモデルメンテナンス技術の成熟度評価

Assessing the Maturity of Model Maintenance Techniques for AIOps Solutions ( http://arxiv.org/abs/2311.03213v1 )

ライセンス: Link先を確認
Yingzhe Lyu and Heng Li and Zhen Ming (Jack) Jiang and Ahmed E. Hassan(参考訳) AIOps(Artificial Intelligence for IT Operations)ソリューションは、大規模なシステムや機械学習モデルの運用中に生成された大量のデータを活用して、ソフトウェアエンジニアのシステムオペレーションを支援する。 現場で生成された運用データは、運用環境やユーザベースの変化といった要因から常に進化するので、AIOpsソリューションのモデルは、デプロイ後に継続的に維持する必要がある。 先行研究は、aiopsモデルをフィールドにリリースする前にパフォーマンスを改善するための革新的なモデリング技術にフォーカスしているが、aiopsモデルを維持するための時間と方法については、まだ調査されていないトピックである。 本研究では,3つの大規模公共事業データのケーススタディを行い,その性能,メンテナンスコスト,安定性に関する異なるモデル保守手法の評価を行った。 アクティブモデルメンテナンスアプローチは定常的アプローチよりも,より優れた,より安定した性能を実現する。 特に、高度なモデルメンテナンスアプローチ(コンセプトドリフト検出、時間ベースのアンサンブル、オンライン学習アプローチなど)を適用することで、AIOpsモデルの定期的な再トレーニングよりもパフォーマンス、効率、安定性が向上する。 さらに、いくつかのメンテナンスアプローチ(時間ベースのアンサンブルやオンライン学習など)はモデルのトレーニング時間を節約できるが、モデルテストの時間を著しく犠牲にし、運用データが高速かつボリュームに到達し、即時の予測が必要なaiopsソリューションのアプリケーションを妨げる可能性があることも観察した。 今回の調査結果は、運用データの進化を考慮し、時間とともにaiopsモデルを積極的に維持すべきであることを強調する。 私たちの観察は、AIOpsのコンテキストに適合するより効率的で効果的なモデルメンテナンス技術を調べるために、研究者や実践者の指導にも役立ちます。

AIOps (Artificial Intelligence for IT Operations) solutions leverage the massive data produced during the operations of large-scale systems and machine learning models to assist software engineers in their system operations. As operation data produced in the field are subject to constant evolution from factors like the changing operational environment and user base, the models in AIOps solutions need to be constantly maintained after deployment. While prior works focus on innovative modeling techniques to improve the performance of AIOps models before releasing them into the field, when and how to maintain AIOps models remain an under-investigated topic. In this work, we performed a case study on three large-scale public operation data to assess different model maintenance approaches regarding their performance, maintenance cost, and stability. We observed that active model maintenance approaches achieve better and more stable performance than a stationary approach. Particularly, applying sophisticated model maintenance approaches (e.g., concept drift detection, time-based ensembles, or online learning approaches) could provide better performance, efficiency, and stability than simply retraining AIOps models periodically. In addition, we observed that, although some maintenance approaches (e.g., time-based ensemble and online learning) can save model training time, they significantly sacrifice model testing time, which could hinder their applications in AIOps solutions where the operation data arrive at high speed and volume and where instant predictions are required. Our findings highlight that practitioners should consider the evolution of operation data and actively maintain AIOps models over time. Our observations can also guide researchers and practitioners to investigate more efficient and effective model maintenance techniques that fit in the context of AIOps.
翻訳日:2023-11-07 13:46:12 公開日:2023-11-06
# PainSeeker:顔面表情によるラットの痛み評価の自動化手法

PainSeeker: An Automated Method for Assessing Pain in Rats Through Facial Expressions ( http://arxiv.org/abs/2311.03205v1 )

ライセンス: Link先を確認
Liu Liu, Guang Li, Dingfan Deng, Jinhua Yu, Yuan Zong(参考訳) 本論文は,実験室ラットの顔面表情から痛みを自動的に評価できるかどうかを検討することを目的とする。 そこで本研究では, 矯正治療を行った6ラットから採取した1,138枚の顔画像からなる, ratpainという公開データセットを提示した。 Rat Grimace Scale (RGS) によると、ラットの顔画像は手術前後に記録されたビデオから慎重に選択され、8つのアノテーターによってラベル付けされた。 そこで我々は,表情による痛みを自動的に評価する新しい深層学習法である painseeker を提案した。 PainSeekerは、顔の表情画像から、痛みの識別と頭部の堅牢な特徴を学習しやすくする、痛みに関連する顔面局所領域を探すことを目的としている。 鎮痛剤の評価には,ラットパインデータセットを用いた広範囲な実験を行った。 その結果、顔の表情からラットの痛みを評価できることが示され、この新興だが興味をそそる問題に対する鎮痛剤の有効性も検証された。 RasPainデータセットはhttps://github.com/xhzongyuan/RatsPainから自由に取得できる。

In this letter, we aim to investigate whether laboratory rats' pain can be automatically assessed through their facial expressions. To this end, we began by presenting a publicly available dataset called RatsPain, consisting of 1,138 facial images captured from six rats that underwent an orthodontic treatment operation. Each rat' facial images in RatsPain were carefully selected from videos recorded either before or after the operation and well labeled by eight annotators according to the Rat Grimace Scale (RGS). We then proposed a novel deep learning method called PainSeeker for automatically assessing pain in rats via facial expressions. PainSeeker aims to seek pain-related facial local regions that facilitate learning both pain discriminative and head pose robust features from facial expression images. To evaluate the PainSeeker, we conducted extensive experiments on the RatsPain dataset. The results demonstrate the feasibility of assessing rats' pain from their facial expressions and also verify the effectiveness of the proposed PainSeeker in addressing this emerging but intriguing problem. The RasPain dataset can be freely obtained from https://github.com/xhzongyuan/RatsPain.
翻訳日:2023-11-07 13:45:42 公開日:2023-11-06
# 空間過程近似 : その必要性を評価する

Spatial Process Approximations: Assessing Their Necessity ( http://arxiv.org/abs/2311.03201v1 )

ライセンス: Link先を確認
Hao Zhang(参考訳) 空間統計学や機械学習において、カーネル行列は予測、分類、最大確率推定において重要な役割を果たす。 大規模なサンプルサイズでは、サンプリング場所が均等に分散しているため、カーネルマトリックスが不調になる。 この条件は、予測と推定計算に使用される数値アルゴリズムに重大な課題をもたらし、予測とガウス確率の近似を必要とする。 大規模な空間データを管理するための現在の手法のレビューでは、この悪条件問題に対処できないものもある。 このような条件付けはしばしば確率過程の低ランク近似をもたらす。 本稿では,様々な最適性基準を導入し,それぞれに解を与える。

In spatial statistics and machine learning, the kernel matrix plays a pivotal role in prediction, classification, and maximum likelihood estimation. A thorough examination reveals that for large sample sizes, the kernel matrix becomes ill-conditioned, provided the sampling locations are fairly evenly distributed. This condition poses significant challenges to numerical algorithms used in prediction and estimation computations and necessitates an approximation to prediction and the Gaussian likelihood. A review of current methodologies for managing large spatial data indicates that some fail to address this ill-conditioning problem. Such ill-conditioning often results in low-rank approximations of the stochastic processes. This paper introduces various optimality criteria and provides solutions for each.
翻訳日:2023-11-07 13:45:23 公開日:2023-11-06
# LCPR: 位置認識のためのマルチスケールアテンションベースLiDARカメラフュージョンネットワーク

LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition ( http://arxiv.org/abs/2311.03198v1 )

ライセンス: Link先を確認
Zijie Zhou, Jingyi Xu, Guangming Xiong, Junyi Ma(参考訳) 位置認識(place recognition)は、自動運転車が以前gpsで利用した場所を特定する上で最も重要なモジュールの1つである。 センサ融合は個々のセンサの弱点を克服する有効な方法と考えられている。 近年,複数のセンサから情報を取り出すマルチモーダル位置認識が注目されている。 しかし、既存のマルチモーダル位置認識手法のほとんどは、視野の狭いカメラ画像のみを使用するため、異なるモダリティの特徴間の不均衡が生じ、センサ融合の有効性が制限される。 本稿では,多視点RGB画像とLiDAR点群を融合させて,環境の識別的・ヨー回転不変表現を生成する,頑健なマルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。 環境の異なるモードからのパノラマビューとその相関をフル活用するために,マルチスケールの注意に基づく融合モジュールを提案する。 提案手法をnuScenesデータセット上で評価した結果,多視点カメラとLiDARデータを有効利用して,視点変化に対する強靭性を維持しつつ,位置認識性能を向上させることができることがわかった。 私たちのオープンソースコードと事前トレーニングされたモデルは、https://github.com/ZhouZijie77/LCPR で利用可能です。

Place recognition is one of the most crucial modules for autonomous vehicles to identify places that were previously visited in GPS-invalid environments. Sensor fusion is considered an effective method to overcome the weaknesses of individual sensors. In recent years, multimodal place recognition fusing information from multiple sensors has gathered increasing attention. However, most existing multimodal place recognition methods only use limited field-of-view camera images, which leads to an imbalance between features from different modalities and limits the effectiveness of sensor fusion. In this paper, we present a novel neural network named LCPR for robust multimodal place recognition, which fuses LiDAR point clouds with multi-view RGB images to generate discriminative and yaw-rotation invariant representations of the environment. A multi-scale attention-based fusion module is proposed to fully exploit the panoramic views from different modalities of the environment and their correlations. We evaluate our method on the nuScenes dataset, and the experimental results show that our method can effectively utilize multi-view camera and LiDAR data to improve the place recognition performance while maintaining strong robustness to viewpoint changes. Our open-source code and pre-trained models are available at https://github.com/ZhouZijie77/LCPR .
翻訳日:2023-11-07 13:45:14 公開日:2023-11-06
# GPT-4Vにおける幻覚の全体的解析 : バイアスと干渉問題

Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges ( http://arxiv.org/abs/2311.03287v1 )

ライセンス: Link先を確認
Chenhang Cui, Yiyang Zhou, Xinyu Yang, Shirley Wu, Linjun Zhang, James Zou, Huaxiu Yao(参考訳) GPT-4Vは視覚情報とテキスト情報を同時にモデル化するが、幻覚行動は体系的に評価されていない。 このギャップを埋めるため、Visual Language Models (Bingo) の Bias and Interference Challenges という新しいベンチマークを導入する。 このベンチマークは、ビジュアル言語モデルにおける2つの一般的なタイプの幻覚、バイアスと干渉を評価するために設計されている。 ここで、バイアスはモデルが特定のタイプの応答を幻覚する傾向を示しており、おそらくトレーニングデータの不均衡のためにである。 干渉は、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判断を妨害することができるシナリオに関するものである。 GPT-4V(ision)は、他国の画像や他の言語にテキストを含むものと比較して、西洋のイメージやイメージを英語で解釈するのに優れている。 さらに、GPT-4V(ision)は主要な問題に対して脆弱であり、複数の画像をまとめて解釈する際にはしばしば混乱する。 自己修正や思考の連鎖といった一般的な緩和アプローチは、これらの課題を解決する上では有効ではない。 また、LLaVAとBardで同様のバイアスや干渉の脆弱性を特定しました。 gpt-4v(ision)と最先端のビジュアル言語モデルの幻覚課題を特徴とし,新しいソリューションの必要性を強調した。 bingoベンチマークはhttps://github.com/gzcch/bingoで入手できる。

While GPT-4V(ision) impressively models both visual and textual information simultaneously, it's hallucination behavior has not been systematically assessed. To bridge this gap, we introduce a new benchmark, namely, the Bias and Interference Challenges in Visual Language Models (Bingo). This benchmark is designed to evaluate and shed light on the two common types of hallucinations in visual language models: bias and interference. Here, bias refers to the model's tendency to hallucinate certain types of responses, possibly due to imbalance in its training data. Interference pertains to scenarios where the judgment of GPT-4V(ision) can be disrupted due to how the text prompt is phrased or how the input image is presented. We identify a notable regional bias, whereby GPT-4V(ision) is better at interpreting Western images or images with English writing compared to images from other countries or containing text in other languages. Moreover, GPT-4V(ision) is vulnerable to leading questions and is often confused when interpreting multiple images together. Popular mitigation approaches, such as self-correction and chain-of-thought reasoning, are not effective in resolving these challenges. We also identified similar biases and interference vulnerabilities with LLaVA and Bard. Our results characterize the hallucination challenges in GPT-4V(ision) and state-of-the-art visual-language models, and highlight the need for new solutions. The Bingo benchmark is available at https://github.com/gzcch/Bingo.
翻訳日:2023-11-07 13:38:03 公開日:2023-11-06
# S-LoRA: 数千の同時LoRAアダプタ

S-LoRA: Serving Thousands of Concurrent LoRA Adapters ( http://arxiv.org/abs/2311.03285v1 )

ライセンス: Link先を確認
Ying Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E. Gonzalez, Ion Stoica(参考訳) Pretrain-then-finetune"パラダイムは、大きな言語モデルのデプロイに一般的に採用されている。 パラメータ効率の良い微調整法であるローランク適応法(lora)は、多くのタスクにベースモデルを適用するためにしばしば用いられ、結果として1つのベースモデルから派生したloraアダプタのかなりのコレクションとなる。 我々は,このパラダイムが提供中のバッチ推論に重要な機会をもたらすことを観察した。 これらの機会を生かして,多くのLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。 S-LoRAはすべてのアダプタをメインメモリに格納し、現在実行中のクエリが使用するアダプタをGPUメモリにフェッチする。 GPUメモリを効率的に使用し、フラグメンテーションを低減するため、S-LoRAはUnified Pagingを提案する。 Unified Pagingは統一メモリプールを使用して、異なるランクの動的アダプタウェイトと異なるシーケンス長のKVキャッシュテンソルを管理する。 さらに、S-LoRAは、新しいテンソル並列化戦略と高度に最適化されたカスタムCUDAカーネルを用いて、LoRA計算の不均一なバッチ処理を行う。 これらの機能により、S-LoRAは単一のGPUまたは複数のGPU上で数千のLoRAアダプタを提供することができる。 HuggingFace PEFTやvLLMのような最先端のライブラリと比較すると、S-LoRAはスループットを最大4倍改善し、サービスアダプタの数を桁違いに増やすことができる。 その結果、S-LoRAは多くのタスク固有の細調整されたモデルのスケーラブルな提供を可能にし、大規模にカスタマイズされた細調整サービスの可能性を秘めている。

The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services.
翻訳日:2023-11-07 13:37:37 公開日:2023-11-06
# 振替学習のリスクとその金融への応用

Risk of Transfer Learning and its Applications in Finance ( http://arxiv.org/abs/2311.03283v1 )

ライセンス: Link先を確認
Haoyang Cao, Haotian Gu, Xin Guo and Mathieu Rosenbaum(参考訳) トランスファーラーニング(Transfer Learning)は、従来の学習タスクから既存の知識を活用して、新しい学習のパフォーマンスを向上させるための、新しくて一般的なパラダイムである。 本稿では,トランスファーリスクの新たな概念を提案し,その特性を分析し,トランスファー学習のトランスファー可能性を評価する。 本稿では,移動学習手法と移動リスクの概念をストックリターン予測やポートフォリオ最適化問題に適用する。 そこでは、ポートフォリオ最適化のためのクロスコンチネント、クロスセクタ、クロス周波数転送を含む、転送学習における適切なソースタスクを特定するための計算的に効率的な方法が提供される。

Transfer learning is an emerging and popular paradigm for utilizing existing knowledge from previous learning tasks to improve the performance of new ones. In this paper, we propose a novel concept of transfer risk and and analyze its properties to evaluate transferability of transfer learning. We apply transfer learning techniques and this concept of transfer risk to stock return prediction and portfolio optimization problems. Numerical results demonstrate a strong correlation between transfer risk and overall transfer learning performance, where transfer risk provides a computationally efficient way to identify appropriate source tasks in transfer learning, including cross-continent, cross-sector, and cross-frequency transfer for portfolio optimization.
翻訳日:2023-11-07 13:37:09 公開日:2023-11-06
# 数値属性の離散化:人間の知覚の分析

Discretizing Numerical Attributes: An Analysis of Human Perceptions ( http://arxiv.org/abs/2311.03278v1 )

ライセンス: Link先を確認
Minakshi Kaushik, Rahul Sharma, Dirk Draheim(参考訳) 機械学習(ML)は、数値属性を間隔に分割する様々な離散化手法を採用している。 しかし、アソシエーション・ルール・マイニングのような多くのML応用においては、効果的な離散化技術が依然として解明されている。 さらに, 既設の離散化手法は, 独立な数値係数が依存する数値的目標因子に与える影響を最善に反映しない。 本研究の目的は,数値属性分割のためのベンチマーク手法を確立することである。 数値属性を分割する人間の知覚を広範囲に分析し,提案する2つの尺度から得られた結果と比較した。 また,数値データ可視化技術を用いて,データ科学,統計学,工学の専門家の認識を調べる。 収集した応答の分析により, 提案した測定値とほぼ一致した6.8.7\%の人的応答が得られた。 これらの結果から,提案手法を数値属性の識別法の一つとして用いることができる。

Machine learning (ML) has employed various discretization methods to partition numerical attributes into intervals. However, an effective discretization technique remains elusive in many ML applications, such as association rule mining. Moreover, the existing discretization techniques do not reflect best the impact of the independent numerical factor on the dependent numerical target factor. This research aims to establish a benchmark approach for numerical attribute partitioning. We conduct an extensive analysis of human perceptions of partitioning a numerical attribute and compare these perceptions with the results obtained from our two proposed measures. We also examine the perceptions of experts in data science, statistics, and engineering by employing numerical data visualization techniques. The analysis of collected responses reveals that $68.7\%$ of human responses approximately closely align with the values generated by our proposed measures. Based on these findings, our proposed measures may be used as one of the methods for discretizing the numerical attributes.
翻訳日:2023-11-07 13:36:58 公開日:2023-11-06
# 異種情報ネットワーク上での変圧器との潜時属性相互作用の爆発

Exploiting Latent Attribute Interaction with Transformer on Heterogeneous Information Networks ( http://arxiv.org/abs/2311.03275v1 )

ライセンス: Link先を確認
Zeyuan Zhao, Qingqing Ge, Anfeng Cheng, Yiding Liu, Xiang Li, Shuaiqiang Wang(参考訳) 異種グラフニューラルネットワーク(HGNN)は、最近、現実世界のアプリケーションでユビキタスな異種グラフをモデリングする際、顕著な能力を示した。 異なるタイプのノードの属性の多様性のため、既存のモデルのほとんどは、まずノードを同じ低次元空間にマッピングすることでノードを整列させる。 しかし、この方法ではノードの型情報を失う。 さらに、ほとんどのノードはノード間の相互作用のみを考慮し、異なるノード特徴間の潜在相互作用の背後にある高次情報を無視している。 これらの問題に対処するため,本論文では,タイプアウェアエンコーダと次元アウェアエンコーダという2つの主要コンポーネントを含む新しい異種グラフモデルMULANを提案する。 特に、型認識エンコーダは、ノード型情報の損失を補償し、学習ノード表現におけるグラフの不均一性をよりよく活用する。 トランスフォーマーアーキテクチャ上に構築されたディメンションアウェアエンコーダは、さまざまなノード機能間の潜在的なインタラクションをキャプチャすることができる。 これらのコンポーネントにより、グラフの不均一性、ノードの特徴、グラフ構造に関する情報は、ノード表現に包括的にエンコードできる。 我々は6つの異種ベンチマークデータセットに対して広範な実験を行い、MULANが他の最先端の競合相手よりも優れていることを示すとともに、MULANが効率的であることを示す。

Heterogeneous graph neural networks (HGNNs) have recently shown impressive capability in modeling heterogeneous graphs that are ubiquitous in real-world applications. Due to the diversity of attributes of nodes in different types, most existing models first align nodes by mapping them into the same low-dimensional space. However, in this way, they lose the type information of nodes. In addition, most of them only consider the interactions between nodes while neglecting the high-order information behind the latent interactions among different node features. To address these problems, in this paper, we propose a novel heterogeneous graph model MULAN, including two major components, i.e., a type-aware encoder and a dimension-aware encoder. Specifically, the type-aware encoder compensates for the loss of node type information and better leverages graph heterogeneity in learning node representations. Built upon transformer architecture, the dimension-aware encoder is capable of capturing the latent interactions among the diverse node features. With these components, the information of graph heterogeneity, node features and graph structure can be comprehensively encoded in node representations. We conduct extensive experiments on six heterogeneous benchmark datasets, which demonstrates the superiority of MULAN over other state-of-the-art competitors and also shows that MULAN is efficient.
翻訳日:2023-11-07 13:36:47 公開日:2023-11-06
# プログラム可能なユニバーサルフォトニックプロセッサにおける文脈性,コヒーレンス,次元の実験的証明

Experimental certification of contextuality, coherence and dimension in a programmable universal photonic processor ( http://arxiv.org/abs/2311.03266v1 )

ライセンス: Link先を確認
Taira Giordani, Rafael Wagner, Chiara Esposito, Anita Camillini, Francesco Hoch, Gonzalo Carvacho, Ciro Pentangelo, Francesco Ceccarelli, Simone Piacentini, Andrea Crespi, Nicol\`o Spagnolo, Roberto Osellame, Ernesto F. Galv\~ao and Fabio Sciarrino(参考訳) 高次元状態の量子重ね合わせは、暗号プロトコルの計算速度アップとセキュリティの両方を可能にする。 しかし、断層撮影プロセスの指数関数的複雑性は、これらの特性の認証を困難なタスクにする。 本研究では,フェムト秒レーザーライティング技術で作製した6モードのユニバーサルフォトニックプロセッサを用いて,次元が増大する量子系に適したコヒーレンス証人を実験的に証明する。 特に,提案するコヒーレンスと次元の証人が最大5次元のクディッツに対して有効であることを示す。 また, 量子的問合せタスクの利点を実証し, 量子的文脈性によって促進されることを示す。 我々の実験結果は、プログラマブル集積フォトニックプラットフォームにおける量子特性認証のための新しい手法の効率を実証するものである。

Quantum superposition of high-dimensional states enables both computational speed-up and security in cryptographic protocols. However, the exponential complexity of tomographic processes makes certification of these properties a challenging task. In this work, we experimentally certify coherence witnesses tailored for quantum systems of increasing dimension, using pairwise overlap measurements enabled by a six-mode universal photonic processor fabricated with a femtosecond laser writing technology. In particular, we show the effectiveness of the proposed coherence and dimension witnesses for qudits of dimensions up to 5. We also demonstrate advantage in a quantum interrogation task, and show it is fueled by quantum contextuality. Our experimental results testify to the efficiency of this novel approach for the certification of quantum properties in programmable integrated photonic platforms
翻訳日:2023-11-07 13:36:24 公開日:2023-11-06
# 結合発振器からグラフニューラルネットワークへ: 倉本モデルに基づくアプローチによる過剰スムーシングの低減

From Coupled Oscillators to Graph Neural Networks: Reducing Over-smoothing via a Kuramoto Model-based Approach ( http://arxiv.org/abs/2311.03260v1 )

ライセンス: Link先を確認
Tuan Nguyen, Tan M. Nguyen, Hirotada Honda, Takashi Sano, Vinh Nguyen, Shugo Nakamura(参考訳) 本研究では,GNNのノード特徴が層数の増加とともに識別不能になる現象を緩和するために,倉本モデルを用いた連続深度グラフニューラルネットワーク(GNN)の新たなクラスである倉本グラフニューラルネットワーク(Kuramoto GNN)を提案する。 倉本モデルは非線形結合振動子の同期挙動を捉える。 結合振動子の観点からは、まず倉本モデルと基本GNNの接続を示し、続いてGNNにおける過平滑化現象を倉本モデルにおける位相同期と解釈できる。 KuramotoGNNはこのフェーズ同期を周波数同期に置き換え、ノードの特徴が互いに収束することを防ぐと同時に、システムが安定した同期状態に到達できるようにする。 本研究は,グラフ深層学習ベンチマークタスクのオーバースムース化を抑えるため,倉本GNNのベースラインGNNに対する利点と既存手法を実験的に検証する。

We propose the Kuramoto Graph Neural Network (KuramotoGNN), a novel class of continuous-depth graph neural networks (GNNs) that employs the Kuramoto model to mitigate the over-smoothing phenomenon, in which node features in GNNs become indistinguishable as the number of layers increases. The Kuramoto model captures the synchronization behavior of non-linear coupled oscillators. Under the view of coupled oscillators, we first show the connection between Kuramoto model and basic GNN and then over-smoothing phenomenon in GNNs can be interpreted as phase synchronization in Kuramoto model. The KuramotoGNN replaces this phase synchronization with frequency synchronization to prevent the node features from converging into each other while allowing the system to reach a stable synchronized state. We experimentally verify the advantages of the KuramotoGNN over the baseline GNNs and existing methods in reducing over-smoothing on various graph deep learning benchmark tasks.
翻訳日:2023-11-07 13:36:12 公開日:2023-11-06
# トピックとカテゴリ依存をモデル化するコヒーレントエンティティの曖昧さ

Coherent Entity Disambiguation via Modeling Topic and Categorical Dependency ( http://arxiv.org/abs/2311.03253v1 )

ライセンス: Link先を確認
Zilin Xiao, Linjun Shou, Xingyao Zhang, Jie Wu, Ming Gong, Jian Pei, Daxin Jiang(参考訳) 従来のエンティティ曖昧化法 (ED) では,長さ制限エンコーダを用いた参照コンテキストと候補エンティティの一致スコアに基づいて予測を行う。 しかしながら、これらの手法はしばしば明示的な談話レベルの依存関係を捉えるのに苦労し、抽象的なレベルでの一貫性のない予測(トピックやカテゴリなど)をもたらす。 本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。 まず,文脈文の潜在話題ベクトルを抽出するために,教師なし変分オートエンコーダ(VAE)を導入する。 このアプローチにより、エンコーダはより長いドキュメントをより効果的に扱い、貴重な入力空間を保存できるだけでなく、トピックレベルの一貫性も維持できる。 さらに,外部のカテゴリメモリを組み込んで,未決定の参照に対して関連するカテゴリを検索する。 ステップバイステップのエンティティ決定を採用することにより、この設計はエンティティとエンティティの相互作用のモデリングを促進し、カテゴリレベルで最大の一貫性を維持する。 一般的なEDベンチマークでは,1.3F1ポイントの平均的な改善が得られた。 本モデルは,長文シナリオに対して特に優れた性能を示す。

Previous entity disambiguation (ED) methods adopt a discriminative paradigm, where prediction is made based on matching scores between mention context and candidate entities using length-limited encoders. However, these methods often struggle to capture explicit discourse-level dependencies, resulting in incoherent predictions at the abstract level (e.g. topic or category). We propose CoherentED, an ED system equipped with novel designs aimed at enhancing the coherence of entity predictions. Our method first introduces an unsupervised variational autoencoder (VAE) to extract latent topic vectors of context sentences. This approach not only allows the encoder to handle longer documents more effectively, conserves valuable input space, but also keeps a topic-level coherence. Additionally, we incorporate an external category memory, enabling the system to retrieve relevant categories for undecided mentions. By employing step-by-step entity decisions, this design facilitates the modeling of entity-entity interactions, thereby maintaining maximum coherence at the category level. We achieve new state-of-the-art results on popular ED benchmarks, with an average improvement of 1.3 F1 points. Our model demonstrates particularly outstanding performance on challenging long-text scenarios.
翻訳日:2023-11-07 13:35:55 公開日:2023-11-06
# 緩和平滑性下におけるパラメータ非依存最適化

Parameter-Agnostic Optimization under Relaxed Smoothness ( http://arxiv.org/abs/2311.03252v1 )

ライセンス: Link先を確認
Florian H\"ubler, Junchi Yang, Xiang Li, Niao He(参考訳) ステップサイズなどのハイパーパラメータのチューニングは、マシンラーニングモデルをトレーニングする上で大きな課題となる。 この課題に対処するために、ステップ化が問題固有のパラメータに依存しない場合であっても、損失関数が$l$-smoothであるような最適化アルゴリズムが多数開発されている。 しかし、仮定がより現実的な$(l_0, l_1)$-smoothnessに緩和されるので、既存のすべての収束結果はステップのチューニングを必要とする。 本研究では,運動量(nsgd-m)を用いた正規化確率的勾配降下によって,問題パラメータを事前に知ることなく,(ほぼ)レート・オプティカルな複雑性が達成できることを実証する。 さらに,この指数項は,パラメータ非依存アルゴリズムのために明示的に調整された下限の理論的枠組みを導入することにより,そのようなスキームには避けられないことを証明した。 興味深いことに、決定論的設定では、逆行探索を伴う勾配降下を用いることで指数係数を中和することができる。 我々の知る限り、これらの知見は、一般化された滑らかさ条件下での最初のパラメータに依存しない収束結果を示す。 我々の実証実験は我々の理論的洞察をさらに裏付ける。

Tuning hyperparameters, such as the stepsize, presents a major challenge of training machine learning models. To address this challenge, numerous adaptive optimization algorithms have been developed that achieve near-optimal complexities, even when stepsizes are independent of problem-specific parameters, provided that the loss function is $L$-smooth. However, as the assumption is relaxed to the more realistic $(L_0, L_1)$-smoothness, all existing convergence results still necessitate tuning of the stepsize. In this study, we demonstrate that Normalized Stochastic Gradient Descent with Momentum (NSGD-M) can achieve a (nearly) rate-optimal complexity without prior knowledge of any problem parameter, though this comes at the cost of introducing an exponential term dependent on $L_1$ in the complexity. We further establish that this exponential term is inevitable to such schemes by introducing a theoretical framework of lower bounds tailored explicitly for parameter-agnostic algorithms. Interestingly, in deterministic settings, the exponential factor can be neutralized by employing Gradient Descent with a Backtracking Line Search. To the best of our knowledge, these findings represent the first parameter-agnostic convergence results under the generalized smoothness condition. Our empirical experiments further confirm our theoretical insights.
翻訳日:2023-11-07 13:35:35 公開日:2023-11-06
# Retrieverを使った命令型言語モデルは強力なエンティティリンカである

Instructed Language Models with Retrievers Are Powerful Entity Linkers ( http://arxiv.org/abs/2311.03250v1 )

ライセンス: Link先を確認
Zilin Xiao, Ming Gong, Jie Wu, Xingyao Zhang, Linjun Shou, Jian Pei, Daxin Jiang(参考訳) 大規模言語モデル(LLM)を利用した生成的アプローチは、複雑な推論能力を必要とするタスクにおいて創発的能力を示す。 しかし、生成するコンテンツは幻覚に苦しむため、エンティティリンク(el)のようなエンティティ中心のタスクには、大きな知識ベースで正確なエンティティ予測が必要となる。 本稿では,カジュアル言語モデルが知識ベース上でのエンティティリンクを実現するための最初のアプローチであるgenerative entity linker(insgenel)について述べる。 言語モデルにEL機能を持たせるためのいくつかの手法が提案されている。 i)命令調整によるシーケンス・ツー・シーケンス・トレーニングEL目標 (II)重くて並列化不可能なデコードからモデルを解放し、メトリクスのリンクに妥協することなく4$\times$スピードアップを達成する軽量な潜在的な参照レトリバーに基づく新しいELフレームワーク。 INSGENELは、データ効率のトレーニングと計算消費のトレーニングにおいて大きな利点があり、+6.8 F1ポイントの以前の生成代替よりも平均的に優れている。 さらに、elのicl(skillally engineered in-context learning)フレームワークはいまだにinsgenelに大きく遅れており、elタスクが一般的なllmにとって永続的なハードルであることを再確認しています。

Generative approaches powered by large language models (LLMs) have demonstrated emergent abilities in tasks that require complex reasoning abilities. Yet the generative nature still makes the generated content suffer from hallucinations, thus unsuitable for entity-centric tasks like entity linking (EL) requiring precise entity predictions over a large knowledge base. We present Instructed Generative Entity Linker (INSGENEL), the first approach that enables casual language models to perform entity linking over knowledge bases. Several methods to equip language models with EL capability were proposed in this work, including (i) a sequence-to-sequence training EL objective with instruction-tuning, (ii) a novel generative EL framework based on a light-weight potential mention retriever that frees the model from heavy and non-parallelizable decoding, achieving 4$\times$ speedup without compromise on linking metrics. INSGENEL outperforms previous generative alternatives with +6.8 F1 points gain on average, also with a huge advantage in training data efficiency and training compute consumption. In addition, our skillfully engineered in-context learning (ICL) framework for EL still lags behind INSGENEL significantly, reaffirming that the EL task remains a persistent hurdle for general LLMs.
翻訳日:2023-11-07 13:35:12 公開日:2023-11-06
# 特徴強調を用いたポストホックケースベース説明の進歩

Advancing Post Hoc Case Based Explanation with Feature Highlighting ( http://arxiv.org/abs/2311.03246v1 )

ライセンス: Link先を確認
Eoin Kenny and Eoin Delaney and Mark Keane(参考訳) 説明可能なAI(XAI)は、人間とAIのコラボレーションを含む下流タスクを支援する貴重なツールとして提案されている。 おそらく最も心理学的に有効なXAIテクニックは、ケースベースのアプローチであり、ブラックボックスAIシステムの予測を説明する'全体'の例を示す。 しかし、こうした画像を扱うポストホックXAI法では、トレーニングデータ内の関連事例にリンクしながら、画像の複数の明瞭な特徴「部分」を用いて予測を説明することによって、そのスコープを改善する試みは行われていないため、基礎となるモデルに忠実なより包括的な説明が可能になる。 そこで本研究では,テスト画像中の複数の明瞭な特徴部分を分離し,トレーニングデータに見られる説明的事例に接続し,その有効性を慎重に設計したユーザスタディで検証する,2つの一般的なアルゴリズム(レイテンシとスーパーピクセルベース)を提案する。 その結果、提案手法は、画像Netデータセット上の実世界データにおける曖昧な分類に対するユーザの「正確さ」の感情を適切に校正することを示した。

Explainable AI (XAI) has been proposed as a valuable tool to assist in downstream tasks involving human and AI collaboration. Perhaps the most psychologically valid XAI techniques are case based approaches which display 'whole' exemplars to explain the predictions of black box AI systems. However, for such post hoc XAI methods dealing with images, there has been no attempt to improve their scope by using multiple clear feature 'parts' of the images to explain the predictions while linking back to relevant cases in the training data, thus allowing for more comprehensive explanations that are faithful to the underlying model. Here, we address this gap by proposing two general algorithms (latent and super pixel based) which can isolate multiple clear feature parts in a test image, and then connect them to the explanatory cases found in the training data, before testing their effectiveness in a carefully designed user study. Results demonstrate that the proposed approach appropriately calibrates a users feelings of 'correctness' for ambiguous classifications in real world data on the ImageNet dataset, an effect which does not happen when just showing the explanation without feature highlighting.
翻訳日:2023-11-07 13:34:49 公開日:2023-11-06
# Safurai-Csharp: 言語固有のコードLLMを改善するための合成データのハーネス化

Safurai-Csharp: Harnessing Synthetic Data to improve language-specific Code LLM ( http://arxiv.org/abs/2311.03243v1 )

ライセンス: Link先を確認
Davide Cifarelli, Leonardo Boiardi, Alessandro Puppo, Leon Jovanovic(参考訳) 本稿では,C#コードの生成,補完,デバッグを専門とするオープンソースモデルであるSafurai-Csharpを紹介する。 Safurai-Csharpは、新しいCodeLlama 34Bモデルに基づいて構築され、EvolInstructの技術を活用して、微調整プロセスのための洗練された拡張データセットを生成する。 パフォーマンスは、Manual MultiPL-Eベンチマーク(Zero-Shot, Pass@1)で56.33%の顕著なスコアで、開発者のワークフローの合理化とコード学習を支援するための高い能力を示している。 これは、オープンソースのC# LLMのランドスケープに新たなステークホルダーを設定することを約束しており、言語固有のLLMの分野でより包括的で広範な開発を刺激したいと考えている。

This paper introduces Safurai-Csharp, an open-source model designed to specialize in the generation, completion, and debugging of C# code. Safurai-Csharp is built upon the novel CodeLlama 34B model and leverages the EvolInstruct technique, creating a refined and expanded dataset for its fine-tuning process. The results of its performance, a notable score of 56.33% on the Manual MultiPL-E benchmark (Zero-Shot, Pass@1), signal its high capacity to streamline developers' workflows and aid code learning. It shows promise in setting new stakes in the landscape of open-source C# LLMs and hopes to inspire more inclusive and wide-ranging development in the field of language-specific LLMs.
翻訳日:2023-11-07 13:34:12 公開日:2023-11-06
# resnetライクなニューラルネットワークアーキテクチャによるlangevin monte carlo近似

Approximating Langevin Monte Carlo with ResNet-like Neural Network architectures ( http://arxiv.org/abs/2311.03242v1 )

ライセンス: Link先を確認
Martin Eigel, Charles Miranda, Janina Sch\"utte, David Sommer(参考訳) 標準正規分布など,単純な参照からのサンプルを対象のサンプルにマップするニューラルネットワークを構築し,与えられたターゲット分布からサンプルをサンプリングする。 そこで我々は,Langevin Monte Carlo (LMC)アルゴリズムにヒントを得たニューラルネットワークアーキテクチャを提案する。 LMC摂動結果に基づいて,Wasserstein-$2$距離で測定したスムーズな対数凹面対象分布に対する提案アーキテクチャの近似率を示す。 この解析は摂動lmc過程の中間測度の準ゲージ性の概念に大きく依存している。 特に、摂動に関する異なる仮定の下での中間分散プロキシの成長に関する境界を導出する。 さらに, 深部ニューラルネットワークに類似したアーキテクチャを提案し, サンプルを対象分布マップに近似するための表現性結果の導出を行う。

We sample from a given target distribution by constructing a neural network which maps samples from a simple reference, e.g. the standard normal distribution, to samples from the target. To that end, we propose using a neural network architecture inspired by the Langevin Monte Carlo (LMC) algorithm. Based on LMC perturbation results, we show approximation rates of the proposed architecture for smooth, log-concave target distributions measured in the Wasserstein-$2$ distance. The analysis heavily relies on the notion of sub-Gaussianity of the intermediate measures of the perturbed LMC process. In particular, we derive bounds on the growth of the intermediate variance proxies under different assumptions on the perturbations. Moreover, we propose an architecture similar to deep residual neural networks and derive expressivity results for approximating the sample to target distribution map.
翻訳日:2023-11-07 13:33:46 公開日:2023-11-06
# 機械学習による茶葉病検出の包括的レビュー

Machine Learning-Based Tea Leaf Disease Detection: A Comprehensive Review ( http://arxiv.org/abs/2311.03240v1 )

ライセンス: Link先を確認
Faruk Ahmed, Md. Taimur Ahad, Yousuf Rayhan Emon(参考訳) 茶葉病は農業生産にとって大きな課題であり、茶産業の収量や品質に多大な影響を与えている。 機械学習の台頭は、これらの病気に対抗する革新的なアプローチの開発を可能にした。 早期発見と診断は効果的な作物管理に不可欠である。 茶葉病の予測には,すでにさまざまな画像処理技術を用いていくつかの自動化システムが開発されている。 本稿では,画像分類による茶葉病の診断に応用される機械学習手法に関する文献を体系的に検討する。 Inception Convolutional Vision Transformer (ICVT), GreenViT, PlantXViT, PlantViT, MSCVT, Transfer Learning Model & Vision Transformer (TLMViT), IterationViT, IEM-ViTなど,様々なVision Transformerモデルの強度と制約を徹底的に評価する。 さらに,Dense Convolutional Network (DenseNet), Residual Neural Network (ResNet)-50V2, YOLOv5, YOLOv7, Convolutional Neural Network (CNN), Deep CNN, Non-dominated Sorting Genetic Algorithm (NSGA-II), MobileNetv2, Lesion-Aware Visual Transformerなどのモデルについても検討する。 これらの機械学習モデルは、さまざまなデータセットでテストされ、実際の適用性を示している。 このレビュー研究は、この分野の最近の進歩を強調するだけでなく、機械学習に基づく茶葉病の検出と分類における今後の研究方向性に関する貴重な洞察を提供する。

Tea leaf diseases are a major challenge to agricultural productivity, with far-reaching implications for yield and quality in the tea industry. The rise of machine learning has enabled the development of innovative approaches to combat these diseases. Early detection and diagnosis are crucial for effective crop management. For predicting tea leaf disease, several automated systems have already been developed using different image processing techniques. This paper delivers a systematic review of the literature on machine learning methodologies applied to diagnose tea leaf disease via image classification. It thoroughly evaluates the strengths and constraints of various Vision Transformer models, including Inception Convolutional Vision Transformer (ICVT), GreenViT, PlantXViT, PlantViT, MSCVT, Transfer Learning Model & Vision Transformer (TLMViT), IterationViT, IEM-ViT. Moreover, this paper also reviews models like Dense Convolutional Network (DenseNet), Residual Neural Network (ResNet)-50V2, YOLOv5, YOLOv7, Convolutional Neural Network (CNN), Deep CNN, Non-dominated Sorting Genetic Algorithm (NSGA-II), MobileNetv2, and Lesion-Aware Visual Transformer. These machine-learning models have been tested on various datasets, demonstrating their real-world applicability. This review study not only highlights current progress in the field but also provides valuable insights for future research directions in the machine learning-based detection and classification of tea leaf diseases.
翻訳日:2023-11-07 13:33:21 公開日:2023-11-06
# 信頼性の低い分布外源を用いた分布外検出学習

Out-of-distribution Detection Learning with Unreliable Out-of-distribution Sources ( http://arxiv.org/abs/2311.03236v1 )

ライセンス: Link先を確認
Haotian Zheng, Qizhou Wang, Zhen Fang, Xiaobo Xia, Feng Liu, Tongliang Liu, Bo Han(参考訳) out-of-distribution (ood) 検出は、予測者が有効な予測をin-distribution (id) データとしてできない ood データを識別し、オープンワールド分類の信頼性を高める。 しかし、一般的には、IDとOODパターンを識別できる予測器を訓練するために、実際のアウト・オブ・ディストリビューション(OOD)データを収集することは困難である。 この障害は、実際のOODデータを必要としない予測学習のためにデータジェネレータを介してOODデータを合成する、データ生成ベースの学習方法を引き起こす。 関連するメソッドは通常、idデータでジェネレータを事前トレーニングし、oodケースである可能性が高いデータを見つけるために様々な選択手順を採用する。 しかし、生成されたデータは依然としてIDのセマンティクス、すなわちOOD生成の誤りと一致し、IDとOODデータの予測を混乱させる可能性がある。 そこで本論文では,OOD検出を補助するタスクを考案するために,(OOD生成を間違えた)生成データを使用することを提案する。 具体的には,id部とood部が非協力的なサポートを持つ場合には,その補助タスクからの学習が有益であることを,予測者のためのよく設計された訓練手順の助けを借りて確認することができる。 そこで本稿では,Auxiliary Task-based OOD Learning (ATOL) という,データ生成に基づく強力な学習手法を提案する。 各種OOD検出装置を用いて広範囲な実験を行い, 提案手法の有効性を実証した。

Out-of-distribution (OOD) detection discerns OOD data where the predictor cannot make valid predictions as in-distribution (ID) data, thereby increasing the reliability of open-world classification. However, it is typically hard to collect real out-of-distribution (OOD) data for training a predictor capable of discerning ID and OOD patterns. This obstacle gives rise to data generation-based learning methods, synthesizing OOD data via data generators for predictor training without requiring any real OOD data. Related methods typically pre-train a generator on ID data and adopt various selection procedures to find those data likely to be the OOD cases. However, generated data may still coincide with ID semantics, i.e., mistaken OOD generation remains, confusing the predictor between ID and OOD data. To this end, we suggest that generated data (with mistaken OOD generation) can be used to devise an auxiliary OOD detection task to facilitate real OOD detection. Specifically, we can ensure that learning from such an auxiliary task is beneficial if the ID and the OOD parts have disjoint supports, with the help of a well-designed training procedure for the predictor. Accordingly, we propose a powerful data generation-based learning method named Auxiliary Task-based OOD Learning (ATOL) that can relieve the mistaken OOD generation. We conduct extensive experiments under various OOD detection setups, demonstrating the effectiveness of our method against its advanced counterparts.
翻訳日:2023-11-07 13:32:40 公開日:2023-11-06
# 1つのサンプルで制約付きモデルを学習する

Learning Hard-Constrained Models with One Sample ( http://arxiv.org/abs/2311.03332v1 )

ライセンス: Link先を確認
Andreas Galanis, Alkis Kalavasis, Anthimos Vardis Kandiros(参考訳) マルコフ確率場のパラメータを1つのサンプルを用いてハード制約で推定する問題を考察する。 主な実行例として、$k$-SATと適切な色付けモデル、一般的な$H$-coloringモデルを使用します。 ソフト制約の場合とは対照的に、単サンプル推定は必ずしも可能ではなく、推定器の存在は不満足な事例の存在と関連していることを示す。 我々のアルゴリズムは疑似同化推定器に基づいている。 モイトラのサンプリングアルゴリズム (JACM, 2019) による$k$-SATの場合, この結合手法にインスパイアされた結合手法による推定値のばらつきを示す。 最大次数 $d$ のグラフ上の$q$-彩色の場合、$q>d+1$ のとき線形時間推定子を与えるが、$q\leq d+1$ のとき問題は同定できない。 一般的な$H$-coloringsに対して,ドブルシンの条件のようなサンプリングを保証する標準条件は,一サンプル学習には不十分であることを示す。 最大次数 $d$ の式上の $k$-sat モデルは、$k\gtrsim 6.45\log d$ で線形時間推定子を提供するが、$k\lesssim \log d$ では問題は同定できない。

We consider the problem of estimating the parameters of a Markov Random Field with hard-constraints using a single sample. As our main running examples, we use the $k$-SAT and the proper coloring models, as well as general $H$-coloring models; for all of these we obtain both positive and negative results. In contrast to the soft-constrained case, we show in particular that single-sample estimation is not always possible, and that the existence of an estimator is related to the existence of non-satisfiable instances. Our algorithms are based on the pseudo-likelihood estimator. We show variance bounds for this estimator using coupling techniques inspired, in the case of $k$-SAT, by Moitra's sampling algorithm (JACM, 2019); our positive results for colorings build on this new coupling approach. For $q$-colorings on graphs with maximum degree $d$, we give a linear-time estimator when $q>d+1$, whereas the problem is non-identifiable when $q\leq d+1$. For general $H$-colorings, we show that standard conditions that guarantee sampling, such as Dobrushin's condition, are insufficient for one-sample learning; on the positive side, we provide a general condition that is sufficient to guarantee linear-time learning and obtain applications for proper colorings and permissive models. For the $k$-SAT model on formulas with maximum degree $d$, we provide a linear-time estimator when $k\gtrsim 6.45\log d$, whereas the problem becomes non-identifiable when $k\lesssim \log d$.
翻訳日:2023-11-07 13:25:13 公開日:2023-11-06
# 人混みの地域を数えるためのロバストな双方向アルゴリズム

A Robust Bi-Directional Algorithm For People Count In Crowded Areas ( http://arxiv.org/abs/2311.03323v1 )

ライセンス: Link先を確認
Satyanarayana Penke, Gopikrishna Pavuluri, Soukhya Kunda, Satvik M, CharanKumar Y(参考訳) 混み合った場所での人計数システムは、センサーを用いた多くの伝統的な方法を含む様々な方法で達成できる非常に有用な実用的応用となっている。 リアルタイムシナリオのケースを調べると、アルゴリズムは安定して正確であるべきです。 本論文で提示した人物カウントアルゴリズムは,横断方向に沿った経路を通した人物カウントの獲得を目的としたブロブアセスメントを中心にしている。 展示されているシステムは、しばしば建物の入り口に収まるので、不便な訪問者の頻度を記録できる。 この作業の中核となる前提は、特定の領域に関連する人々の流入と流出の数を複雑にすることだ。 達成されたトートアップは、そのゾーンで発生した災厄の状況における統計の目的で活用することができる。 総数に依拠して、その付近の人口は、人々を救うための適切な措置をとるために同化することができる。

People counting system in crowded places has become a very useful practical application that can be accomplished in various ways which include many traditional methods using sensors. Examining the case of real time scenarios, the algorithm espoused should be steadfast and accurate. People counting algorithm presented in this paper, is centered on blob assessment, devoted to yield the count of the people through a path along with the direction of traversal. The system depicted is often ensconced at the entrance of a building so that the unmitigated frequency of visitors can be recorded. The core premise of this work is to extricate count of people inflow and outflow pertaining to a particular area. The tot-up achieved can be exploited for purpose of statistics in the circumstances of any calamity occurrence in that zone. Relying upon the count totaled, the population in that vicinity can be assimilated in order to take on relevant measures to rescue the people.
翻訳日:2023-11-07 13:24:43 公開日:2023-11-06
# エンテーメントスタイルモデリングを用いたテキスト分類におけるタックリング概念シフト

Tackling Concept Shift in Text Classification using Entailment-style Modeling ( http://arxiv.org/abs/2311.03320v1 )

ライセンス: Link先を確認
Sumegh Roychowdhury, Karan Gupta, Siva Rajesh Kasa, Prasanna Srinivasa Murthy, Alok Chandra(参考訳) 事前学習言語モデル(PLM)は、自然言語処理(NLP)の文脈において、テキスト分類(TC)問題において大きな成功を収めている。 多くの現実世界のテキスト分類タスクでは、学習されるクラス定義は一定ではなく、時間とともに変化する。 概念シフトを扱うほとんどのテクニックは、新しいラベル付きデータで古い分類器を再訓練することに依存している。 しかし、新しい概念の大型DLモデルを微調整するために必要なトレーニングデータの量を考えると、関連するラベリングコストは違法に高価であり、時間を要する可能性がある。 そこで本研究では,バニラ分類を包括的問題に変換することで,新たな概念に適応するためにテキスト分類器を再学習するデータを大幅に削減する手法を提案する。 提案手法の有効性を実世界と合成データセットの両方で実証し,F1絶対値が7%,F1絶対値が40%に向上した。 さらに、デプロイ時に当社のソリューションは、ラベリングコスト全体の75%の削減にも役立ちました。

Pre-trained language models (PLMs) have seen tremendous success in text classification (TC) problems in the context of Natural Language Processing (NLP). In many real-world text classification tasks, the class definitions being learned do not remain constant but rather change with time - this is known as Concept Shift. Most techniques for handling concept shift rely on retraining the old classifiers with the newly labelled data. However, given the amount of training data required to fine-tune large DL models for the new concepts, the associated labelling costs can be prohibitively expensive and time consuming. In this work, we propose a reformulation, converting vanilla classification into an entailment-style problem that requires significantly less data to re-train the text classifier to adapt to new concepts. We demonstrate the effectiveness of our proposed method on both real world & synthetic datasets achieving absolute F1 gains upto 7% and 40% respectively in few-shot settings. Further, upon deployment, our solution also helped save 75% of labeling costs overall.
翻訳日:2023-11-07 13:24:28 公開日:2023-11-06
# DAIL:自己表現によるインテクスト学習のためのデータ拡張

DAIL: Data Augmentation for In-Context Learning via Self-Paraphrase ( http://arxiv.org/abs/2311.03319v1 )

ライセンス: Link先を確認
Dawei Li, Yaxuan Li, Dheeraj Mekala, Shuyao Li, Yulin wang, Xueqi Wang, William Hogan, Jingbo Shang(参考訳) In-Context Learning (ICL)と事前訓練された大規模言語モデルを組み合わせることで、様々なNLPタスクにおいて有望な結果が得られる。 しかし、ICLは実際のシナリオでは利用できないような高品質なアノテートデモを必要とする。 この制限を克服するために、 \textbf{D}ata \textbf{A}ugmentation for \textbf{I}n-Context \textbf{L}earning (\textbf{DAIL})を提案する。 DAILは、大きな言語モデルは自分たちが生成したコンテンツに慣れているという直感を活用する。 まず、言語モデルを用いてテストサンプルのパラフレーズを生成し、多数決を行い、個々の予測に基づいて最終的な結果を決定する。 実験により,DAILは低リソースシナリオにおいて標準ICL法および他のアンサンブル法よりも優れた性能を示した。 さらに,予測のロジットにアクセスできない場合に,モデルの信頼度スコアとして投票一貫性の利用を検討する。 当社の作業は、低リソース環境でのICLに関するさらなる研究を促進するだろうと考えています。

In-Context Learning (ICL) combined with pre-trained large language models has achieved promising results on various NLP tasks. However, ICL requires high-quality annotated demonstrations which might not be available in real-world scenarios. To overcome this limitation, we propose \textbf{D}ata \textbf{A}ugmentation for \textbf{I}n-Context \textbf{L}earning (\textbf{DAIL}). DAIL leverages the intuition that large language models are more familiar with the content generated by themselves. It first utilizes the language model to generate paraphrases of the test sample and employs majority voting to determine the final result based on individual predictions. Our extensive empirical evaluation shows that DAIL outperforms the standard ICL method and other ensemble-based methods in the low-resource scenario. Additionally, we explore the use of voting consistency as a confidence score of the model when the logits of predictions are inaccessible. We believe our work will stimulate further research on ICL in low-resource settings.
翻訳日:2023-11-07 13:24:13 公開日:2023-11-06
# FATE:フローサイトメトリーデータにおける一般化埋め込み空間学習のための特徴非依存型トランスフォーマーベースエンコーダ

FATE: Feature-Agnostic Transformer-based Encoder for learning generalized embedding spaces in flow cytometry data ( http://arxiv.org/abs/2311.03314v1 )

ライセンス: Link先を確認
Lisa Weijler, Florian Kowarsch, Michael Reiter, Pedro Hermosilla, Margarita Maurer-Granofszky, Michael Dworzak(参考訳) モデルアーキテクチャとトレーニング戦略は、ここ数年で異なるデータモダリティに関して、より汎用的で柔軟になったが、永続的な制限は、一定の量と入力機能の配置の仮定にある。 この制限は、データ取得時にキャプチャされた属性が異なるサンプルによって異なるシナリオで特に重要になる。 本研究では,入力空間を潜在的な特徴集合の交点に限定したり,それらの結合に拡張したりすることなく,様々な特徴を持つデータを有効に活用することを目指している。 様々な特徴集合を持つデータサンプル間の特徴間の関係をキャプチャする一般的な埋め込み空間を学習することにより,特徴モダリティの整合を必要とせずにデータを直接処理できる新しいアーキテクチャを提案する。 これは特徴エンコーダ層によって拡張された集合変換器アーキテクチャによって実現され、不均一な特徴空間から得られたデータから共有潜在特徴空間を学習することができる。 このモデルの利点は、フローサイトメトリーデータにおいて急性骨髄性白血病の癌細胞を自動的に検出することである。 この文脈では, 疾患の頻度の低さからデータ不足が発生するため, 不整合性特徴空間をシームレスに操作するアーキテクチャの能力が特に重要である。 コードはhttps://github.com/lisaweijler/fateで研究目的に利用できる。

While model architectures and training strategies have become more generic and flexible with respect to different data modalities over the past years, a persistent limitation lies in the assumption of fixed quantities and arrangements of input features. This limitation becomes particularly relevant in scenarios where the attributes captured during data acquisition vary across different samples. In this work, we aim at effectively leveraging data with varying features, without the need to constrain the input space to the intersection of potential feature sets or to expand it to their union. We propose a novel architecture that can directly process data without the necessity of aligned feature modalities by learning a general embedding space that captures the relationship between features across data samples with varying sets of features. This is achieved via a set-transformer architecture augmented by feature-encoder layers, thereby enabling the learning of a shared latent feature space from data originating from heterogeneous feature spaces. The advantages of the model are demonstrated for automatic cancer cell detection in acute myeloid leukemia in flow cytometry data, where the features measured during acquisition often vary between samples. Our proposed architecture's capacity to operate seamlessly across incongruent feature spaces is particularly relevant in this context, where data scarcity arises from the low prevalence of the disease. The code is available for research purposes at https://github.com/lisaweijler/FATE.
翻訳日:2023-11-07 13:23:57 公開日:2023-11-06
# 超学習者における可変スクリーニングの実践的考察

Practical considerations for variable screening in the Super Learner ( http://arxiv.org/abs/2311.03313v1 )

ライセンス: Link先を確認
Brian D. Williamson, Drew King, Ying Huang(参考訳) 予測関数の推定は多くのデータ分析の基本的な構成要素である。 Super Learner アンサンブルは、特にスタック化の実装であり、望ましい理論的性質を持ち、多くのアプリケーションでうまく使われている。 次元減少は、他の予測アルゴリズムに適合する前にアンサンブル内でラッソを含む可変スクリーニングアルゴリズムを使用することで達成できる。 しかし,ラッソを用いた次元減少のためのスーパーラーナの性能は,ラッソが不十分であることが知られている場合に完全には調査されていない。 提案手法は,スーパーラーナーの予測アルゴリズムのライブラリを選択するためのガイダンスと同様,任意の画面の粗悪な性能から,多様な候補スクリーニングアルゴリズムを保護すべきであることを示す実証的な結果を提供する。

Estimating a prediction function is a fundamental component of many data analyses. The Super Learner ensemble, a particular implementation of stacking, has desirable theoretical properties and has been used successfully in many applications. Dimension reduction can be accomplished by using variable screening algorithms, including the lasso, within the ensemble prior to fitting other prediction algorithms. However, the performance of a Super Learner using the lasso for dimension reduction has not been fully explored in cases where the lasso is known to perform poorly. We provide empirical results that suggest that a diverse set of candidate screening algorithms should be used to protect against poor performance of any one screen, similar to the guidance for choosing a library of prediction algorithms for the Super Learner.
翻訳日:2023-11-07 13:23:33 公開日:2023-11-06
# 文脈付き1つの2dポーズは、人間の3dポーズ推定に数百ドルに値する

A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation ( http://arxiv.org/abs/2311.03312v1 )

ライセンス: Link先を確認
Qitao Zhao, Ce Zheng, Mengyuan Liu, Chen Chen(参考訳) 2次元ポーズ列を3Dに引き上げる3次元ポーズ推定における支配的なパラダイムは、パフォーマンス飽和、難解な計算および非因果問題を引き起こす、精度を向上させるための長期的時間的手がかり(すなわち、ビデオフレームの数が多い)に大きく依存する。 これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。 この問題に対処するため,我々は,市販の2Dポーズ検出器が生成する,手軽に利用可能な中間的視覚表現を活用するという,簡単かつ強力なソリューションを提案する。 重要な観察は、ポーズ検出器が2dジョイントをローカライズすることを学ぶ一方で、そのような表現(例えば特徴マップ)はバックボーンネットワークの地域操作によって、暗黙的にジョイント中心の空間コンテキストを符号化する。 我々はContext-Aware PoseFormerというシンプルなベースラインを設計し、その効果を示す。 時間的情報へのアクセスがなければ、提案手法は、速度と精度の両方について最大数百のビデオフレームを使用して、文脈に依存しないコンテクスト、ポーズフォーマー、その他の最先端手法を大幅に上回る。 プロジェクトページ: https://qitaozhao.github.io/ContextAware-PoseFormer

The dominant paradigm in 3D human pose estimation that lifts a 2D pose sequence to 3D heavily relies on long-term temporal clues (i.e., using a daunting number of video frames) for improved accuracy, which incurs performance saturation, intractable computation and the non-causal problem. This can be attributed to their inherent inability to perceive spatial context as plain 2D joint coordinates carry no visual cues. To address this issue, we propose a straightforward yet powerful solution: leveraging the readily available intermediate visual representations produced by off-the-shelf (pre-trained) 2D pose detectors -- no finetuning on the 3D task is even needed. The key observation is that, while the pose detector learns to localize 2D joints, such representations (e.g., feature maps) implicitly encode the joint-centric spatial context thanks to the regional operations in backbone networks. We design a simple baseline named Context-Aware PoseFormer to showcase its effectiveness. Without access to any temporal information, the proposed method significantly outperforms its context-agnostic counterpart, PoseFormer, and other state-of-the-art methods using up to hundreds of video frames regarding both speed and precision. Project page: https://qitaozhao.github.io/ContextAware-PoseFormer
翻訳日:2023-11-07 13:23:20 公開日:2023-11-06
# 大規模言語モデルから下流ジェンダーバイアスを解き放つ:AI教育書記支援システムに関する研究

Unraveling Downstream Gender Bias from Large Language Models: A Study on AI Educational Writing Assistance ( http://arxiv.org/abs/2311.03311v1 )

ライセンス: Link先を確認
Thiemo Wambsganss, Xiaotian Su, Vinitra Swamy, Seyed Parsa Neshaei, Roman Rietsche, Tanja K\"aser(参考訳) 大規模言語モデル (LLMs) は、学生に文章の提示などの教育的タスクにますます活用されている。 LLMは、その可能性にもかかわらず、学習者に悪影響を及ぼす可能性のある固有のバイアスを持つことが知られている。 従来の研究では、モデルとデータ表現のバイアスを別々に研究しており、LLMバイアスが人間の文章に及ぼす影響を無視している。 本稿では,AI記述支援パイプラインによるバイアス伝達について検討する。 我々は,231名の学生がドイツ語でビジネスケースピアレビューを書いている大規模ユーザ調査を行う。 学生は、特徴に基づく提案を持つ教室グループと、Prolificから採用した4つのグループ – 支援なしのコントロールグループ、微調整GPT-2モデルとGPT-3モデルからの提案を持つ2つのグループ、事前訓練GPT-3.5モデルからの提案を含む1つのグループに分けられる。 GenBitのジェンダーバイアス分析、Word Embedding Association Tests(WEAT)、Sentence Embedding Association Test(SEAT)を用いて、モデルの埋め込み、モデルによる提案、学生によるレビューなど、パイプラインの様々な段階におけるジェンダーバイアスを評価する。 その結果,llm提案の有無に関わらず,結果のピアレビュー間で性バイアスに有意な差は認められなかった。 それゆえ,本研究は教室におけるaiライティングサポートの利用に楽観的であり,llmのバイアスが学生の反応に伝達しない状況を示す。

Large Language Models (LLMs) are increasingly utilized in educational tasks such as providing writing suggestions to students. Despite their potential, LLMs are known to harbor inherent biases which may negatively impact learners. Previous studies have investigated bias in models and data representations separately, neglecting the potential impact of LLM bias on human writing. In this paper, we investigate how bias transfers through an AI writing support pipeline. We conduct a large-scale user study with 231 students writing business case peer reviews in German. Students are divided into five groups with different levels of writing support: one classroom group with feature-based suggestions and four groups recruited from Prolific -- a control group with no assistance, two groups with suggestions from fine-tuned GPT-2 and GPT-3 models, and one group with suggestions from pre-trained GPT-3.5. Using GenBit gender bias analysis, Word Embedding Association Tests (WEAT), and Sentence Embedding Association Test (SEAT) we evaluate the gender bias at various stages of the pipeline: in model embeddings, in suggestions generated by the models, and in reviews written by students. Our results demonstrate that there is no significant difference in gender bias between the resulting peer reviews of groups with and without LLM suggestions. Our research is therefore optimistic about the use of AI writing support in the classroom, showcasing a context where bias in LLMs does not transfer to students' responses.
翻訳日:2023-11-07 13:22:54 公開日:2023-11-06
# 確率微分方程式を用いた神経構造学習

Neural Structure Learning with Stochastic Differential Equations ( http://arxiv.org/abs/2311.03309v1 )

ライセンス: Link先を確認
Benjie Wang, Joel Jennings, Wenbo Gong(参考訳) 時間的観測から変数間の基礎的な関係を発見することは、生物学、ファイナンス、気候科学など多くの科学分野において長年の課題であった。 このようなシステムの力学はしばしば連続時間確率過程を用いて記述される。 残念なことに、ほとんどの既存の構造学習アプローチは、基礎となるプロセスが離散時間で進化し、定期的に時間間隔で観測されると仮定している。 これらのミスマッチした仮定は、しばしば誤った学習構造やモデルにつながる。 本研究では,神経確率微分方程式 (neural stochastic differential equation, sde) と変分推論を組み合わせた新しい構造学習法 scotch を提案する。 この連続時間アプローチは、任意の時点における観察の学習と予測の両方を自然に処理することができる。 理論的には、SDEとSCOTCHが構造的に識別できる十分な条件を確立し、その一貫性を無限のデータ制限下で証明する。 実験により,本手法は,規則的なサンプリング間隔と不規則なサンプリング間隔における関連するベースラインと比較して,合成データと実世界のデータセットの両方で構造学習性能が向上することを示す。

Discovering the underlying relationships among variables from temporal observations has been a longstanding challenge in numerous scientific disciplines, including biology, finance, and climate science. The dynamics of such systems are often best described using continuous-time stochastic processes. Unfortunately, most existing structure learning approaches assume that the underlying process evolves in discrete-time and/or observations occur at regular time intervals. These mismatched assumptions can often lead to incorrect learned structures and models. In this work, we introduce a novel structure learning method, SCOTCH, which combines neural stochastic differential equations (SDE) with variational inference to infer a posterior distribution over possible structures. This continuous-time approach can naturally handle both learning from and predicting observations at arbitrary time points. Theoretically, we establish sufficient conditions for an SDE and SCOTCH to be structurally identifiable, and prove its consistency under infinite data limits. Empirically, we demonstrate that our approach leads to improved structure learning performance on both synthetic and real-world datasets compared to relevant baselines under regular and irregular sampling intervals.
翻訳日:2023-11-07 13:22:27 公開日:2023-11-06
# スライディングウィンドウを用いた量子LDPC符号のノイズシンドローム復号化

Improved Noisy Syndrome Decoding of Quantum LDPC Codes with Sliding Window ( http://arxiv.org/abs/2311.03307v1 )

ライセンス: Link先を確認
Shilin Huang, Shruti Puri(参考訳) 単一ショット復号による量子誤差補正(QEC)は、ノイズ安定化器の1ラウンド毎に誤差を低減し、耐故障性に対する時間オーバーヘッド要件を緩和する。 特に、量子低密度パリティチェック(qldpc)コードのいくつかのクラスが知られているため、シングルショットデコーディングが容易であり、さらなるオーバーヘッドアドバンテージがある。 しかし、シングルショットデコーディングの利点は、有効コード距離を著しく低下させることができるため、制限されている。 この劣化は、処理対象のシンドローム情報量の増加と論理演算の複雑さの増加のコストを犠牲にして、目標の論理エラー率を達成するために、はるかに大きなコードサイズを使用することで補うことができる。 また,本研究では,前回のシンドローム計測ラウンドの誤りを補正するスライディングウィンドウ復号法について検討した。 スライドウインドウ復号法は,ハイパーグラフ生成符号やリフト生成符号の単発復号法と比較して,論理的メモリ長と有効距離を著しく向上させる。 注目すべきは、この改善がデコーディングの複雑さを大きくするコストを伴わないことだ。 したがって、qLDPC符号を用いたフォールトトレラント量子コンピューティングの高速かつ正確な復号化には、スライディングウィンドウ戦略の方が望ましい。

Quantum error correction (QEC) with single-shot decoding enables reduction of errors after every single round of noisy stabilizer measurement, easing the time-overhead requirements for fault tolerance. Notably, several classes of quantum low-density-parity-check (qLDPC) codes are known which facilitate single-shot decoding, potentially giving them an additional overhead advantage. However, the perceived advantage of single-shot decoding is limited because it can significantly degrade the effective code distance. This degradation may be compensated for by using a much larger code size to achieve the desired target logical error rate, at the cost of increasing the amount of syndrome information to be processed, as well as, increasing complexity of logical operations. Alternatively, in this work we study sliding-window decoding, which corrects errors from previous syndrome measurement rounds while leaving the most recent errors for future correction. We observe that sliding-window decoding significantly improves the logical memory lifetime and hence the effective distance compared to single-shot decoding on hypergraph-product codes and lifted-product codes. Remarkably, we find that this improvement may not cost a larger decoding complexity. Thus, the sliding-window strategy can be more desirable for fast and accurate decoding for fault-tolerant quantum computing with qLDPC codes.
翻訳日:2023-11-07 13:22:07 公開日:2023-11-06
# ソノルミネッセンス:時間依存アナログ系における光子生成

Sonoluminescence: Photon production in time dependent analog system ( http://arxiv.org/abs/2311.03305v1 )

ライセンス: Link先を確認
Rajesh Karmakar, Debaprasad Maity(参考訳) ソノルミネッセンス(英: Sonoluminescence)は、適切な環境で振動するガスの泡が周期的に可視域の光を放出する、よく知られた実験室現象である。 本稿では,アナログ重力の枠組みにおけるシステムについて考察する。 我々は,振動気泡をアナログ幾何でモデル化し,電磁界と電磁界の非最小結合処方法を提案する。 この幾何学は、量子真空からのパラメトリック共鳴を通じて広い周波数範囲で光子の繰り返し束が生成される類似の発振時間依存背景として振る舞う。 数値的な制限のため、$\sim 10^5 ~\mbox{m}^{-1}$まで到達することができた。 しかし、約$\sim 10^7 ~\mbox{m}^{-1}$ の周波数範囲を含む多項式形式でスペクトルを数値的に適合させる。 現在の解析から、アナログ背景におけるパラメトリック共鳴は、量子場理論の枠組みにおいてそのような現象を説明する上で基本的な役割を担っている可能性が示唆されている。

Sonoluminescence is a well known laboratory phenomenon where an oscillating gas bubble in the appropriate environment periodically emits a flash of light in the visible frequency range. In this submission, we study the system in the framework of analog gravity. We model the oscillating bubble in terms of analog geometry and propose a non-minimal coupling prescription of the electromagnetic field with the geometry. The geometry behaves as an analogous oscillating time dependent background in which repeated flux of photons are produced in a wide frequency range through parametric resonance from quantum vacuum. Due to our numerical limitation, we could reach the frequency up to $\sim 10^5 ~\mbox{m}^{-1}$. However, we numerically fit the spectrum in a polynomial form including the observed frequency range around $\sim 10^7 ~\mbox{m}^{-1}$. Our current analysis seems to suggest that parametric resonance in analog background may play a fundamental role in explaining such phenomena in the quantum field theory framework.
翻訳日:2023-11-07 13:21:44 公開日:2023-11-06
# TS拡散:拡散モデルを用いた複雑時系列生成

TS-Diffusion: Generating Highly Complex Time Series with Diffusion Models ( http://arxiv.org/abs/2311.03303v1 )

ライセンス: Link先を確認
Yangming Li(参考訳) 現在の生成モデルは時系列合成において有望な性能を達成したが、データフォーマット(例:正則性)を強く仮定するか、あるいは生データを簡単にするための前処理アプローチ(例:補間)に依存している。 本研究では, サンプリングの不規則性, 欠如, 特徴時間次元の大きい3つの共通不規則性を有する時系列のクラスを考察し, 複雑な時系列を処理するための一般モデルであるts-diffusionを導入する。 私たちのモデルはポイントプロセスの枠組みの下で3つの部分で構成されています。 第1部は、時系列を密度表現に変換するニューラル常微分方程式(ODE)のエンコーダであり、サンプリングの不規則性を捕捉するジャンプ法と、欠測値を扱う自己保持機構がある。 これらの時系列表現は、その高次元のために複雑な分布を持つことができ、第3部は、その表現が与えられたときに不規則で欠落した値を持つ時系列を生成する別のodeのデコーダである。 我々は、複数の時系列データセットについて広範な実験を行い、TS-Diffusionが従来の時系列と複雑な時系列の両方において優れた結果を得ることを示した。

While current generative models have achieved promising performances in time-series synthesis, they either make strong assumptions on the data format (e.g., regularities) or rely on pre-processing approaches (e.g., interpolations) to simplify the raw data. In this work, we consider a class of time series with three common bad properties, including sampling irregularities, missingness, and large feature-temporal dimensions, and introduce a general model, TS-Diffusion, to process such complex time series. Our model consists of three parts under the framework of point process. The first part is an encoder of the neural ordinary differential equation (ODE) that converts time series into dense representations, with the jump technique to capture sampling irregularities and self-attention mechanism to handle missing values; The second component of TS-Diffusion is a diffusion model that learns from the representation of time series. These time-series representations can have a complex distribution because of their high dimensions; The third part is a decoder of another ODE that generates time series with irregularities and missing values given their representations. We have conducted extensive experiments on multiple time-series datasets, demonstrating that TS-Diffusion achieves excellent results on both conventional and complex time series and significantly outperforms previous baselines.
翻訳日:2023-11-07 13:21:28 公開日:2023-11-06
# Ziya2: データ中心学習はすべてのLLMを必要とする

Ziya2: Data-centric Learning is All LLMs Need ( http://arxiv.org/abs/2311.03301v1 )

ライセンス: Link先を確認
Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song(参考訳) 近年、クローズドおよびオープンソースを含む様々な大規模言語モデル(llm)が提案されており、複数のベンチマークで継続的に新しいレコードを設定する。 しかし、llmの開発は、スクラッチからトレーニングモデルの高いコストや、破滅的な忘れに繋がる継続的事前トレーニングなど、いくつかの問題に直面している。 このような課題の多くはLLMの研究の過程で解決されているが、多くの研究は、学習プロセスにおける事前学習データの使用を包括的に分析・最適化することなく、モデルサイズの拡大を徹底的に追求している。 本研究では,基礎モデルとしてLLaMA2を採用した13億のパラメータを持つモデルであるZiya2を提案し,700億のトークンを事前学習する。 実験によると、ziya2は複数のベンチマークで他のモデルを大きく上回っている。 Ziya2 (Base)はhttps://huggingface.co/IDEA-CCNL/Ziya2-13B-Baseとhttps://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summaryでリリースされた。

Various large language models (LLMs) have been proposed in recent years, including closed- and open-source ones, continually setting new records on multiple benchmarks. However, the development of LLMs still faces several issues, such as high cost of training models from scratch, and continual pre-training leading to catastrophic forgetting, etc. Although many such issues are addressed along the line of research on LLMs, an important yet practical limitation is that many studies overly pursue enlarging model sizes without comprehensively analyzing and optimizing the use of pre-training data in their learning process, as well as appropriate organization and leveraging of such data in training LLMs under cost-effective settings. In this work, we propose Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation model, and further pre-trained on 700 billion tokens, where we focus on pre-training techniques and use data-centric optimization to enhance the learning process of Ziya2 on different stages. Experiments show that Ziya2 significantly outperforms other models in multiple benchmarks especially with promising results compared to representative open-source ones. Ziya2 (Base) is released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
翻訳日:2023-11-07 13:21:05 公開日:2023-11-06
# 間接量子近似最適化アルゴリズム:TSPへの応用

Indirect Quantum Approximate Optimization Algorithms: application to the TSP ( http://arxiv.org/abs/2311.03294v1 )

ライセンス: Link先を確認
Eric Bourreau, Gerard Fleury, Philippe Lacomme(参考訳) そこで、量子交互作用素 ansatz は、弦ベクトルの集合を記述するハミルトニアンを効率的にモデル化するために、ユニタリ作用素の一般パラメータ付き族を考慮に入れる間接量子近似最適化アルゴリズム(iqaoa)を提案する。 このアルゴリズムはQAOAに代わる効率的な代替品を作成します。 1) 量子機械上で実行される量子パラメトリック化回路は,弦ベクトルの集合をモデル化する。 2) 古典機械上で実行される古典的メタ最適化ループ 3) 問題に依存する or コミュニティからのよく知られたアルゴリズムを用いて,各文字列ベクトル計算の平均コストの推定を行う。 次元弦ベクトルで定義される間接符号化は、効率的な符号化/復号機構により解にマッピングされる。 主な利点は、ノイズの多い電流量子マシン上で実行可能なゲート数が強く制限された量子回路を得ることである。 IQAOAで達成された数値実験は、QAOAベースのアプローチで解決した最大のTSPであるIBMシミュレータを使って、8カストマーインスタンスTSPを解くことができる。

We propose an Indirect Quantum Approximate Optimization Algorithm (referred to as IQAOA) where the Quantum Alternating Operator Ansatz takes into consideration a general parameterized family of unitary operators to efficiently model the Hamiltonian describing the set of string vectors. This algorithm creates an efficient alternative to QAOA, where: 1) a Quantum parametrized circuit executed on a quantum machine models the set of string vectors; 2) a Classical meta-optimization loop executed on a classical machine; 3) an estimation of the average cost of each string vector computing, using a well know algorithm coming from the OR community that is problem dependent. The indirect encoding defined by dimensional string vector is mapped into a solution by an efficient coding/decoding mechanism. The main advantage is to obtain a quantum circuit with a strongly limited number of gates that could be executed on the noisy current quantum machines. The numerical experiments achieved with IQAOA permits to solve 8-customer instances TSP using the IBM simulator which are to the best of our knowledge the largest TSP ever solved using a QAOA based approach.
翻訳日:2023-11-07 13:20:39 公開日:2023-11-06
# 再利用可能な操作戦略の学習

Learning Reusable Manipulation Strategies ( http://arxiv.org/abs/2311.03293v1 )

ライセンス: Link先を確認
Jiayuan Mao, Joshua B. Tenenbaum, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling(参考訳) 人間は操作の「トリック」を入手し、一般化する素晴らしい能力を示している。 スープろうそくを使って遠くの物体に届くような単一のデモンストレーションでも、異なる物体の位置、大きさ、カテゴリー(フォークやハンマーなど)を含む新しいシナリオにこのスキルを適用することができる。 さらに、さまざまなスキルを柔軟に組み合わせ、長期的な計画を考案できます。 本稿では,機械が1つのデモンストレーションとセルフプレイを通じて,このような操作スキルを習得することを可能にする枠組みを提案する。 我々の重要な洞察は、各デモンストレーションをロボットオブジェクトとオブジェクトオブジェクトの接触モードの変化のシーケンスとして解釈することであり、連続パラメータの詳細なサンプルを学習するための足場を提供する。 これらの学習機構とサンプルは、標準のタスクやモーションプランナーにシームレスに統合することができ、それらの構成的使用を可能にする。

Humans demonstrate an impressive ability to acquire and generalize manipulation "tricks." Even from a single demonstration, such as using soup ladles to reach for distant objects, we can apply this skill to new scenarios involving different object positions, sizes, and categories (e.g., forks and hammers). Additionally, we can flexibly combine various skills to devise long-term plans. In this paper, we present a framework that enables machines to acquire such manipulation skills, referred to as "mechanisms," through a single demonstration and self-play. Our key insight lies in interpreting each demonstration as a sequence of changes in robot-object and object-object contact modes, which provides a scaffold for learning detailed samplers for continuous parameters. These learned mechanisms and samplers can be seamlessly integrated into standard task and motion planners, enabling their compositional use.
翻訳日:2023-11-07 13:20:21 公開日:2023-11-06
# セマンティック・エボダイドナビゲーションのための爆発誘導探索

Exploitation-Guided Exploration for Semantic Embodied Navigation ( http://arxiv.org/abs/2311.03357v1 )

ライセンス: Link先を確認
Justin Wasserman, Girish Chowdhary, Abhinav Gupta, Unnat Jain(参考訳) 組み込みナビゲーションとsim-to-robot転送の最近の進歩の中で、モジュラポリシはデファクトフレームワークとして現れている。 しかし、構成性には学習負荷をモジュールコンポーネントに分解する以上のものがある。 本研究では,これらの成分を統語的に組み合わせる原理的な方法を検討する。 特に,探索と活用のためのモジュールを新規かつ直感的に結合するエクスプロイトガイド探索(xgx)を提案する。 本手法では,ナビゲーションの最終段階,すなわち目標が目に見えるように,エクスプロイトモジュールを設定している。 重要なのは、エクスプロイテーションモジュールが探索モジュールを教師に強制し、過度なポリシー最適化を継続することです。 XGXは、効率的な分解と新しいガイダンスにより、挑戦対象ナビゲーションタスクの最先端性能を70%から73%に向上させる。 目標分析による精度の向上とともに,目標条件探索において,XGXはより効率的であることを示す。 最後に,ロボットハードウェアへのsim-to-real転送を示し,XGXはシミュレーションベンチマークのベースラインよりも2倍高い性能を示した。 プロジェクトページ: xgxvisnav.github.io

In the recent progress in embodied navigation and sim-to-robot transfer, modular policies have emerged as a de facto framework. However, there is more to compositionality beyond the decomposition of the learning load into modular components. In this work, we investigate a principled way to syntactically combine these components. Particularly, we propose Exploitation-Guided Exploration (XGX) where separate modules for exploration and exploitation come together in a novel and intuitive manner. We configure the exploitation module to take over in the deterministic final steps of navigation i.e. when the goal becomes visible. Crucially, an exploitation module teacher-forces the exploration module and continues driving an overridden policy optimization. XGX, with effective decomposition and novel guidance, improves the state-of-the-art performance on the challenging object navigation task from 70% to 73%. Along with better accuracy, through targeted analysis, we show that XGX is also more efficient at goal-conditioned exploration. Finally, we show sim-to-real transfer to robot hardware and XGX performs over two-fold better than the best baseline from simulation benchmarking. Project page: xgxvisnav.github.io
翻訳日:2023-11-07 13:13:18 公開日:2023-11-06
# glamm: 大きなマルチモーダルモデルを持つピクセル

GLaMM: Pixel Grounding Large Multimodal Model ( http://arxiv.org/abs/2311.03356v1 )

ライセンス: Link先を確認
Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan(参考訳) 大規模マルチモーダルモデル(LMM)は、大規模言語モデルを視覚領域に拡張する。 lmmに対する最初の取り組みは、全体像とテキストプロンプトを使用して、根拠のないテキスト応答を生成した。 最近では、視覚的に接地された応答を生成するために、地域レベルのLMMが使われている。 しかし、それらは一度に1つのオブジェクトカテゴリのみを参照すること、入力中の領域を指定すること、あるいは高密度のピクセル単位のオブジェクトグラウンドを提供することができないことに限定されている。 本研究では,対応するオブジェクト分割マスクとシームレスに連動する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMは会話に現れるオブジェクトを接地するだけでなく、テキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。 これによりユーザは、テキストドメインとビジュアルドメインの両方において、さまざまなレベルの粒度でモデルと対話できるようになる。 視覚的に接地した詳細な会話を生成するための新しい設定のための標準ベンチマークが欠如していることから,我々は,接地会話を包括的に評価するプロトコルを提案する。 提案する接地会話生成(gcg)タスクは,大規模に自然場面における密接な接地概念を必要とする。 そこで本研究では,セグメンテーションマスク付きで利用可能な合計810万の領域を基盤とした7.5万のユニークな概念を含む自動アノテーションパイプラインを用いて,GranD(GranD)を提案する。 gcg以外にも、glammは、表現のセグメンテーション、画像および領域レベルのキャプション、視覚言語会話など、いくつかの下流タスクで効果的に実行する。 プロジェクトページ: https://mbzuai-oryx.github.io/groundingLMM。

Large Multimodal Models (LMMs) extend Large Language Models to the vision domain. Initial efforts towards LMMs used holistic images and text prompts to generate ungrounded textual responses. Very recently, region-level LMMs have been used to generate visually grounded responses. However, they are limited to only referring a single object category at a time, require users to specify the regions in inputs, or cannot offer dense pixel-wise object grounding. In this work, we present Grounding LMM (GLaMM), the first model that can generate natural language responses seamlessly intertwined with corresponding object segmentation masks. GLaMM not only grounds objects appearing in the conversations but is flexible enough to accept both textual and optional visual prompts (region of interest) as input. This empowers users to interact with the model at various levels of granularity, both in textual and visual domains. Due to the lack of standard benchmarks for the novel setting of generating visually grounded detailed conversations, we introduce a comprehensive evaluation protocol with our curated grounded conversations. Our proposed Grounded Conversation Generation (GCG) task requires densely grounded concepts in natural scenes at a large-scale. To this end, we propose a densely annotated Grounding-anything Dataset (GranD) using our proposed automated annotation pipeline that encompasses 7.5M unique concepts grounded in a total of 810M regions available with segmentation masks. Besides GCG, GLaMM also performs effectively on several downstream tasks e.g., referring expression segmentation, image and region-level captioning and vision-language conversations. Project Page: https://mbzuai-oryx.github.io/groundingLMM.
翻訳日:2023-11-07 13:12:59 公開日:2023-11-06
# SegGen: Text2Mask と Mask2Img 合成によるスーパーチャージセグメンテーションモデル

SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis ( http://arxiv.org/abs/2311.03355v1 )

ライセンス: Link先を確認
Hanrong Ye, Jason Kuen, Qing Liu, Zhe Lin, Brian Price, Dan Xu(参考訳) 画像セグメンテーションのための高効率なトレーニングデータ生成手法であるSegGenを提案し,最先端セグメンテーションモデルの性能限界をある程度押し上げる。 SegGenはMaskSynとImgSynという2つのデータ生成戦略を設計、統合している。 i) masksynは,提案するtext-to-mask生成モデルとmask-to-image生成モデルを用いて,新たなマスクイメージペアを合成する。 (ii)imgsynは、マスクツーイメージ生成モデルを用いて、既存のマスクに基づく新しいイメージを合成し、モデル入力に対する画像の多様性を強く改善する。 ADE20KとCOCOの高度に競争力のあるベンチマークでは,データ生成手法により,セマンティックセグメンテーション,パン光学セグメンテーション,インスタンスセグメンテーションにおける最先端セグメンテーションモデルの性能が著しく向上する。 特に ade20k miou では mask2former r50 は 47.2 から 49.9 (+2.7) に、 mask2former swin-l は 56.1 から 57.4 (+1.3) に大幅に増加した。 これらの有望な結果は,人間による豊富な訓練データを利用した場合においても,セグゲンの有効性を強く示唆する。 さらに、合成データを用いたトレーニングにより、セグメンテーションモデルが未認識領域に対してより堅牢になる。 プロジェクトウェブサイト: https://seggenerator.github.io

We propose SegGen, a highly-effective training data generation method for image segmentation, which pushes the performance limits of state-of-the-art segmentation models to a significant extent. SegGen designs and integrates two data generation strategies: MaskSyn and ImgSyn. (i) MaskSyn synthesizes new mask-image pairs via our proposed text-to-mask generation model and mask-to-image generation model, greatly improving the diversity in segmentation masks for model supervision; (ii) ImgSyn synthesizes new images based on existing masks using the mask-to-image generation model, strongly improving image diversity for model inputs. On the highly competitive ADE20K and COCO benchmarks, our data generation method markedly improves the performance of state-of-the-art segmentation models in semantic segmentation, panoptic segmentation, and instance segmentation. Notably, in terms of the ADE20K mIoU, Mask2Former R50 is largely boosted from 47.2 to 49.9 (+2.7); Mask2Former Swin-L is also significantly increased from 56.1 to 57.4 (+1.3). These promising results strongly suggest the effectiveness of our SegGen even when abundant human-annotated training data is utilized. Moreover, training with our synthetic data makes the segmentation models more robust towards unseen domains. Project website: https://seggenerator.github.io
翻訳日:2023-11-07 13:12:31 公開日:2023-11-06
# covlm: コミュニケーション型デコードによる大規模言語モデルにおける視覚エンティティと関係の構成

CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding ( http://arxiv.org/abs/2311.03354v1 )

ライセンス: Link先を確認
Junyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan(参考訳) 人間の顕著な能力は、構成的推論、すなわち「有限な手段を無限に利用する」能力に存在する。 しかし、現在の大きな視覚言語基盤モデル(vlms)は、その「言葉の袋」の振る舞いと、視覚エンティティとエンティティ間の関係を正しく表現する単語を構築できないため、そのような構成能力に欠けている。 そこで本研究では,LLMがテキスト間の視覚的実体や関係を明示的に構成し,視覚エンコーダや検出ネットワークと動的に通信することで,視覚言語通信復号を実現するためのCoVLMを提案する。 具体的には,視覚検出システムと言語システム間の動的通信のための,LLMのための新しい通信トークンセットを最初に考案する。 視覚的実体または関係に従ってLLMにより通信トークンを生成し、検出ネットワークに通知し、これまで生成された文に関連する領域を提案する。 提案された関心領域(roi)は、関連する地域に関するより良い言語生成のためにllmに返される。 LLMは通信トークンを通じて視覚的実体と関係を構成することができる。 文全体を生成するまで、言語間および言語間通信を反復的に行う。 我々のフレームワークは視覚的知覚とLLMのギャップをシームレスに橋渡しし、構成的推論ベンチマーク(HICO-DET mAPでは20%、Cola top-1の精度では14%、ARO top-1の精度では3%)で以前のVLMよりも優れています。 また,表情理解や視覚的質問応答など,従来の視覚言語タスクにおける最先端のパフォーマンスを実現する。

A remarkable ability of human beings resides in compositional reasoning, i.e., the capacity to make "infinite use of finite means". However, current large vision-language foundation models (VLMs) fall short of such compositional abilities due to their "bag-of-words" behaviors and inability to construct words that correctly represent visual entities and the relations among the entities. To this end, we propose CoVLM, which can guide the LLM to explicitly compose visual entities and relationships among the text and dynamically communicate with the vision encoder and detection network to achieve vision-language communicative decoding. Specifically, we first devise a set of novel communication tokens for the LLM, for dynamic communication between the visual detection system and the language system. A communication token is generated by the LLM following a visual entity or a relation, to inform the detection network to propose regions that are relevant to the sentence generated so far. The proposed regions-of-interests (ROIs) are then fed back into the LLM for better language generation contingent on the relevant regions. The LLM is thus able to compose the visual entities and relationships through the communication tokens. The vision-to-language and language-to-vision communication are iteratively performed until the entire sentence is generated. Our framework seamlessly bridges the gap between visual perception and LLMs and outperforms previous VLMs by a large margin on compositional reasoning benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on ARO top-1 accuracy). We also achieve state-of-the-art performances on traditional vision-language tasks such as referring expression comprehension and visual question answering.
翻訳日:2023-11-07 13:12:04 公開日:2023-11-06
# トポロジカル量子場理論記述のないトポロジカル秩序

Topological Orders Having no Topological Quantum Field Theory Description ( http://arxiv.org/abs/2311.03353v1 )

ライセンス: Link先を確認
P. Vojta, G. Ortiz, and Z. Nussinov(参考訳) 量子トポロジカル秩序を示すシステムは、量子コンピューティングスキームに非常に魅力的なロバストな特性を持つ。 位相的に順序付けられた系のサルエント普遍的特徴は、位相量子場理論によって常に記述されると信じられている。 現在の研究で、これは必ずしもそうではないことを説明します。 この目的に向けて、相互作用するエノン(アベリア語と非アベリア語の両方)を含む2次元および3次元トポロジカル秩序モデルのリッチクラスを構築し、研究する。 これらの理論では、最低励起エネルギーは、トポロジカル場の理論では説明できない性質に導かれるエノンの相対幾何学的な配置に依存する。 従来型(landau)命令を表示するシステムに対して双対性を行うことで,これらのモデルを検証した。 提案手法は、一般ランドウ型理論を位相的に順序付けられた双対モデルにマッピングする一般的な方法を可能にする。 我々のモデルの低エネルギー部分空間は、表面符号よりも熱的効果に耐性がある。

Systems displaying quantum topological order feature robust characteristics that have been very attractive to quantum computing schemes. It has long been believed that the salient universal features of topologically ordered systems are invariably described by topological quantum field theories. In the current work, we illustrate that this is not necessarily so. Towards this end, we construct and study a rich class of two- and three-dimensional topologically ordered models featuring interacting anyons (both Abelian and non-Abelian). In these theories, the lowest excitation energies depend on the relative geometrical placement of the anyons leading to properties that cannot be described by topological quantum field theories. We examine these models by performing dualities to systems displaying conventional (i.e., Landau) orders. Our approach enables a general method for mapping general Landau type theories to topologically ordered dual models. The low-energy subspaces of our models are more resilient to thermal effects than those of surface codes.
翻訳日:2023-11-07 13:11:34 公開日:2023-11-06
# Open-Vocabulary Segmentaionの評価基準の再考

Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion ( http://arxiv.org/abs/2311.03352v1 )

ライセンス: Link先を確認
Hao Zhou, Tiancheng Shen, Xu Yang, Hai Huang, Xiangtai Li, Lu Qi, Ming-Hsuan Yang(参考訳) 本稿では,オープン語彙セグメンテーションにおける評価指標の問題点を明らかにする。 つまり、評価プロセスは、予測と基底の真理のカテゴリの類似性を考慮せずに、ゼロショットまたはクロスデータセットパイプラインのクローズドセットメトリクスに大きく依存している。 この問題に取り組むために,まず,wordnet言語統計,テキスト埋め込み,言語モデルを用いた2つのカテゴリー語間の11の類似度を包括的定量的解析とユーザ研究によって調査した。 これらの測定結果に基づいて,オープン語彙セグメンテーションタスクに適したオープンmIoU,オープンAP,オープンPQという,新しい評価指標を設計した。 提案した評価指標を3つのセグメンテーションタスクのオープン語彙12の手法でベンチマークした。 類似度距離の相対主観性はあるものの,既存の開語彙セグメンテーション手法の開度を評価できることを示す。 オープンなモデルの能力を評価する方法について、私たちの仕事がコミュニティに新たな考え方をもたらすことを願っています。 評価コードはgithubでリリースされる。

In this paper, we highlight a problem of evaluation metrics adopted in the open-vocabulary segmentation. That is, the evaluation process still heavily relies on closed-set metrics on zero-shot or cross-dataset pipelines without considering the similarity between predicted and ground truth categories. To tackle this issue, we first survey eleven similarity measurements between two categorical words using WordNet linguistics statistics, text embedding, and language models by comprehensive quantitative analysis and user study. Built upon those explored measurements, we designed novel evaluation metrics, namely Open mIoU, Open AP, and Open PQ, tailored for three open-vocabulary segmentation tasks. We benchmarked the proposed evaluation metrics on 12 open-vocabulary methods of three segmentation tasks. Even though the relative subjectivity of similarity distance, we demonstrate that our metrics can still well evaluate the open ability of the existing open-vocabulary segmentation methods. We hope that our work can bring with the community new thinking about how to evaluate the open ability of models. The evaluation code is released in github.
翻訳日:2023-11-07 13:11:17 公開日:2023-11-06
# Uni-O4: マルチステップオンライン最適化によるオンラインとオフラインの深層強化学習の統合

Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization ( http://arxiv.org/abs/2311.03351v1 )

ライセンス: Link先を確認
Kun Lei, Zhengmao He, Chenhao Lu, Kaizhe Hu, Yang Gao, Huazhe Xu(参考訳) オフラインとオンライン強化学習(RL)を組み合わせることは、効率的かつ安全な学習に不可欠である。 しかし、従来の手法はオフラインとオンラインの学習を個別の手順として扱い、冗長な設計と限られた性能をもたらす。 余分な保守主義や正規化を導入することなく、簡単かつ効果的なオフラインおよびオンライン学習を実現できますか? 本研究では,オンライン学習とオフライン学習の両面において,政治目的のUni-o4を提案する。 目的のアライメントを2つのフェーズで保持することで、RLエージェントはオフラインとオンラインの学習をシームレスに転送することができる。 この特性は学習パラダイムの柔軟性を高め、事前学習、微調整、オフライン、オンライン学習の任意の組み合わせを可能にする。 特にオフラインフェーズでは、uni-o4はさまざまなアンサンブルポリシを活用して、推定された動作ポリシとオフラインデータセットのミスマッチ問題に対処する。 単純なオフラインポリシー評価(OPE)アプローチにより、Uni-o4はマルチステップポリシーを安全に改善することができる。 以上の手法を用いることで、これらの2つのパラダイムの融合により、より優れたオフライン初期化と、安定かつ迅速なオンライン微調整能力が得られることを示す。 現実のロボットタスクを通じて、このパラダイムの利点を、挑戦的で以前は目に見えない現実の環境に迅速に展開する上で強調する。 さらに,多数のシミュレーションベンチマークを用いた総合評価により,本手法がオフラインとオフラインのファインチューニング学習の両方で最先端の性能を実現することを実証した。 私たちのウェブサイト:https://lei-kun.github.io/uni-o4/

Combining offline and online reinforcement learning (RL) is crucial for efficient and safe learning. However, previous approaches treat offline and online learning as separate procedures, resulting in redundant designs and limited performance. We ask: Can we achieve straightforward yet effective offline and online learning without introducing extra conservatism or regularization? In this study, we propose Uni-o4, which utilizes an on-policy objective for both offline and online learning. Owning to the alignment of objectives in two phases, the RL agent can transfer between offline and online learning seamlessly. This property enhances the flexibility of the learning paradigm, allowing for arbitrary combinations of pretraining, fine-tuning, offline, and online learning. In the offline phase, specifically, Uni-o4 leverages diverse ensemble policies to address the mismatch issues between the estimated behavior policy and the offline dataset. Through a simple offline policy evaluation (OPE) approach, Uni-o4 can achieve multi-step policy improvement safely. We demonstrate that by employing the method above, the fusion of these two paradigms can yield superior offline initialization as well as stable and rapid online fine-tuning capabilities. Through real-world robot tasks, we highlight the benefits of this paradigm for rapid deployment in challenging, previously unseen real-world environments. Additionally, through comprehensive evaluations using numerous simulated benchmarks, we substantiate that our method achieves state-of-the-art performance in both offline and offline-to-online fine-tuning learning. Our website: https://lei-kun.github.io/uni-o4/ .
翻訳日:2023-11-07 13:10:59 公開日:2023-11-06
# 混合整数線形最適化のための可変切削平面層

Differentiable Cutting-plane Layers for Mixed-integer Linear Optimization ( http://arxiv.org/abs/2311.03350v1 )

ライセンス: Link先を確認
Gabriele Dragotto, Stefan Clarke, Jaime Fern\'andez Fisac, Bartolomeo Stellato(参考訳) 入力データの一部が変化するパラメトリック混合整数線形最適化問題の一群を解決する問題を考える。 我々は,問題データとそれまでのイテレートをカッティングプレーンにマッピングする微分可能なカッティングプレーンジェネレータである,$cutting-plane$ (cpl), $i.e.$の概念を紹介する。 我々は分割カットを生成するためのCPLの実装を提案し、いくつかのCPLを組み合わせることでパラメトリックインスタンスの繰り返しの性質を生かした微分可能なカットプレーンアルゴリズムを考案した。 オフラインフェーズでは、CPLを制御するパラメータを更新し、カット生成を変更することでアルゴリズムを訓練する。 一度トレーニングすると、アルゴリズムは、予測可能な実行時間と一定数のカット、低い積分ギャップの解を計算します。 予備計算実験により,本アルゴリズムは未知のインスタンスを一般化し,基礎となるパラメトリック構造を捉える。

We consider the problem of solving a family of parametric mixed-integer linear optimization problems where some entries in the input data change. We introduce the concept of $cutting-plane$ $layer$ (CPL), $i.e.$, a differentiable cutting-plane generator mapping the problem data and previous iterates to cutting planes. We propose a CPL implementation to generate split cuts, and by combining several CPLs, we devise a differentiable cutting-plane algorithm that exploits the repeated nature of parametric instances. In an offline phase, we train our algorithm by updating the parameters controlling the CPLs, thus altering cut generation. Once trained, our algorithm computes, with predictable execution times and a fixed number of cuts, solutions with low integrality gaps. Preliminary computational tests show that our algorithm generalizes on unseen instances and captures underlying parametric structures.
翻訳日:2023-11-07 13:10:36 公開日:2023-11-06
# ペルソナ変調による言語モデルのためのスケーラブルで転送可能なブラックボックスジェイルブレイク

Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation ( http://arxiv.org/abs/2311.03348v1 )

ライセンス: Link先を確認
Rusheb Shah, Quentin Feuillade--Montixi, Soroush Pour, Arush Tagade, Stephen Casper, Javier Rando(参考訳) 大きな言語モデルを調整して無害な応答を生成する努力にもかかわらず、制限のない振る舞いを引き起こすジェイルブレイクプロンプトには依然として脆弱である。 本研究では,ブラックボックス脱獄法としてペルソナ変調法について検討し,有害な指示を順守しようとする個人性をターゲットモデルに制御する。 個人毎のプロンプトを手作業で作成するのではなく、言語モデルアシスタントを使用してジェイルブレイクを自動生成します。 我々は、メタンフェタミンの合成、爆弾の製作、マネーロンダリングなどの詳細な指示を含むペルソナ変調によって可能となった有害な完成範囲を示す。 これらの自動攻撃は、修正前(0.23%)より185倍大きいGPT-4の42.5%の有害な完成率を達成する。 これらのプロンプトは、それぞれ61.0%と35.9%の有害な完成率でclaude 2とvicunaに転送される。 私たちの研究は、商用大規模言語モデルの新たな脆弱性を明らかにし、より包括的なセーフガードの必要性を強調しています。

Despite efforts to align large language models to produce harmless responses, they are still vulnerable to jailbreak prompts that elicit unrestricted behaviour. In this work, we investigate persona modulation as a black-box jailbreaking method to steer a target model to take on personalities that are willing to comply with harmful instructions. Rather than manually crafting prompts for each persona, we automate the generation of jailbreaks using a language model assistant. We demonstrate a range of harmful completions made possible by persona modulation, including detailed instructions for synthesising methamphetamine, building a bomb, and laundering money. These automated attacks achieve a harmful completion rate of 42.5% in GPT-4, which is 185 times larger than before modulation (0.23%). These prompts also transfer to Claude 2 and Vicuna with harmful completion rates of 61.0% and 35.9%, respectively. Our work reveals yet another vulnerability in commercial large language models and highlights the need for more comprehensive safeguards.
翻訳日:2023-11-07 13:10:19 公開日:2023-11-06
# 強相関系のためのスパース量子状態調製

Sparse Quantum State Preparation for Strongly Correlated Systems ( http://arxiv.org/abs/2311.03347v1 )

ライセンス: Link先を確認
C. Feniou, B. Claudon, J. Zylberman, O. Adjoua, E. Giner, J.-P. Piquemal(参考訳) 量子コンピューティングは、原則として、指数関数的にスケーリングする多電子波動関数を線形スケーリング量子ビットレジスタにエンコーディングすることを可能にし、従来の量子化学手法の限界を克服する有望な解決策を提供する。 基底状態量子アルゴリズムが実用的であるためには、量子ビットの初期化が要求される基底状態の高品質な近似に必須である。 量子状態準備 (qsp) は古典計算から得られる近似固有状態の合成を可能にするが、量子情報ではしばしば神託として扱われる。 本研究では,Hyperion GPU加速状態ベクトルエミュレータを用いて,28量子ビットの原型的強相関系の基底状態に対してQSPを行う。 様々な変分法と非変分法は、回路深さと古典的複雑性の観点から比較される。 その結果,最近開発された overlap-adapt-vqe アルゴリズムは,短期的アプリケーションにおいて最も有利な性能を示す。

Quantum Computing allows, in principle, the encoding of the exponentially scaling many-electron wave function onto a linearly scaling qubit register, offering a promising solution to overcome the limitations of traditional quantum chemistry methods. An essential requirement for ground state quantum algorithms to be practical is the initialisation of the qubits to a high-quality approximation of the sought-after ground state. Quantum State Preparation (QSP) allows the preparation of approximate eigenstates obtained from classical calculations, but it is frequently treated as an oracle in quantum information. In this study, we conduct QSP on the ground state of prototypical strongly correlated systems, up to 28 qubits, using the Hyperion GPU-accelerated state-vector emulator. Various variational and non-variational methods are compared in terms of their circuit depth and classical complexity. Our results indicate that the recently developed Overlap-ADAPT-VQE algorithm offers the most advantageous performance for near-term applications.
翻訳日:2023-11-07 13:10:02 公開日:2023-11-06
# 暗黙のクロスドメイン対応による長期不変局所特徴

Long-Term Invariant Local Features via Implicit Cross-Domain Correspondences ( http://arxiv.org/abs/2311.03345v1 )

ライセンス: Link先を確認
Zador Pataki, Mohammad Altillawi, Menelaos Kanakis, R\'emi Pautrat, Fengyi Shen, Ziyuan Liu, Luc Van Gool, and Marc Pollefeys(参考訳) 現代の学習に基づく視覚特徴抽出ネットワークは、ドメイン内ローカライズにおいてよく機能するが、その性能は、季節や日中のバリエーションなど、長期の視覚領域のバリエーション間で画像ペアをキャプチャすると著しく低下する。 本稿では,視覚的ローカライゼーションにおける長期変動の影響を調査するためのベンチマークを行う。 様々なドメイン変更下での現在の最先端特徴抽出ネットワークの性能を徹底的に分析し,領域内および領域間における性能ギャップを明らかにした。 本研究では,最新の特徴抽出ネットワークの監視を改善することにより,このギャップを解消するための異なる手法を検討する。 本稿では,新しいデータ中心方式であるImplicit Cross-Domain Correspondences (iCDC)を提案する。 iCDCは複数のニューラル・ラジアンス・フィールドで同じ環境を表し、それぞれが個々の視覚領域の下にシーンを適合させる。 基礎となる3D表現を利用して、異なる長期的視覚条件の正確な対応を生成する。 提案手法はクロスドメインのローカライゼーション性能を高め,性能ギャップを大幅に低減する。 人気のある長期ローカライゼーションベンチマークで評価すると、トレーニングされたネットワークは既存の手法より一貫して優れています。 この研究は、長期展開のためのより堅牢な視覚的ローカライズパイプラインへの大きな一歩となり、長期不変ディスクリプタの開発における研究の道を開く。

Modern learning-based visual feature extraction networks perform well in intra-domain localization, however, their performance significantly declines when image pairs are captured across long-term visual domain variations, such as different seasonal and daytime variations. In this paper, our first contribution is a benchmark to investigate the performance impact of long-term variations on visual localization. We conduct a thorough analysis of the performance of current state-of-the-art feature extraction networks under various domain changes and find a significant performance gap between intra- and cross-domain localization. We investigate different methods to close this gap by improving the supervision of modern feature extractor networks. We propose a novel data-centric method, Implicit Cross-Domain Correspondences (iCDC). iCDC represents the same environment with multiple Neural Radiance Fields, each fitting the scene under individual visual domains. It utilizes the underlying 3D representations to generate accurate correspondences across different long-term visual conditions. Our proposed method enhances cross-domain localization performance, significantly reducing the performance gap. When evaluated on popular long-term localization benchmarks, our trained networks consistently outperform existing methods. This work serves as a substantial stride toward more robust visual localization pipelines for long-term deployments, and opens up research avenues in the development of long-term invariant descriptors.
翻訳日:2023-11-07 13:09:46 公開日:2023-11-06
# カーネルマシンに一階論理を埋め込む

Embedding First Order Logic into Kernel Machines ( http://arxiv.org/abs/2311.03340v1 )

ライセンス: Link先を確認
Michelangelo Diligenti, Marco Gori, Marco Maggini and Leonardo Rigutini(参考訳) 本稿では,一階述語論理節の集合によって表現された背景知識をカーネルマシンに組み込むための一般的なフレームワークを提案する。 特に、オブジェクトの集合に定義された複数の述語をサンプルから共同で学習し、それらの値の許容可能な構成に一連のfol制約を課すマルチタスク学習スキームを考える。 述語は、入力オブジェクトが表現される特徴空間上で定義され、プリオリまたは適切なカーネルベースの学習者によって近似される。 FOL節をカーネルベースの述語によって計算された出力に対処できる連続的な実装に変換するための一般的なアプローチが提示される。 学習問題は、教師付き例と正規化項と、教師付き例と教師なし例の両方に制約を強制するペナルティ項とを組み合わせた損失関数の主元における最適化を必要とする半教師付きタスクとして定式化される。 残念なことに、ペナルティ項は凸ではなく、最適化プロセスを妨げる可能性がある。 しかし、教師付き例をまず学習し、次に制約を強制する2段階の学習スキーマを使用することで、貧弱な解決策を避けることができる。

In this paper we propose a general framework to integrate supervised and unsupervised examples with background knowledge expressed by a collection of first-order logic clauses into kernel machines. In particular, we consider a multi-task learning scheme where multiple predicates defined on a set of objects are to be jointly learned from examples, enforcing a set of FOL constraints on the admissible configurations of their values. The predicates are defined on the feature spaces, in which the input objects are represented, and can be either known a priori or approximated by an appropriate kernel-based learner. A general approach is presented to convert the FOL clauses into a continuous implementation that can deal with the outputs computed by the kernel-based predicates. The learning problem is formulated as a semi-supervised task that requires the optimization in the primal of a loss function that combines a fitting loss measure on the supervised examples, a regularization term, and a penalty term that enforces the constraints on both the supervised and unsupervised examples. Unfortunately, the penalty term is not convex and it can hinder the optimization process. However, it is possible to avoid poor solutions by using a two stage learning schema, in which the supervised examples are learned first and then the constraints are enforced.
翻訳日:2023-11-07 13:09:22 公開日:2023-11-06
# FLOGA:Sentinel-2を用いた領域マッピングのための機械学習準備データセット、ベンチマーク、新しいディープラーニングモデル

FLOGA: A machine learning ready dataset, a benchmark and a novel deep learning model for burnt area mapping with Sentinel-2 ( http://arxiv.org/abs/2311.03339v1 )

ライセンス: Link先を確認
Maria Sdraka, Alkinoos Dimakos, Alexandros Malounis, Zisoula Ntasiou, Konstantinos Karantzalos, Dimitrios Michail, Ioannis Papoutsis(参考訳) 過去10年間で、世界中の山火事の頻度と強度が増加し、人間や動物の生活、生態系、社会経済的安定に大きな脅威となっている。 そのため、破壊的な影響を緩和し、地球の天然資源を保護するために緊急行動が必要である。 高解像度衛星画像の豊富さと組み合わされたロバスト機械学習手法は、被害領域の正確なタイムリーなマッピングを提供し、事象の規模を評価し、影響した資産を特定し、損傷領域の適切な復元のために資源を効果的に優先順位付けする。 本研究では、FLOGA(Forest wiLdfire Observations for the Greek Area)と名付けた機械学習可能なデータセットを作成し、導入する。 このデータセットは、山火事の前後に取得された衛星画像からなるため、可変空間分解能とスペクトル分解能を有するSentinel-2およびMODISモダリティの情報を含み、ドメインの専門家によって対応する焼成領域基底真理が注釈付けされた多数のイベントを含む。 FLOGAはギリシャの広い地域をカバーしており、地中海の風景と気候が特徴である。 我々はFLOGAを用いて、変化検出タスクとしてアプローチされたバーント領域の自動抽出に複数の機械学習アルゴリズムとディープラーニングアルゴリズムを徹底的に比較する。 また, バーント領域マッピングのための標準スペクトル指標を用いた結果と比較した。 最後に,新たな深層学習モデルであるbam-cdを提案する。 評価の結果, 燃焼領域の自動抽出における提案手法の有効性が示され, 精度とロバスト性の観点から他の手法よりも優れていた。 私たちのデータセットとコードは、https://github.com/Orion-AI-Lab/FLOGAで公開されています。

Over the last decade there has been an increasing frequency and intensity of wildfires across the globe, posing significant threats to human and animal lives, ecosystems, and socio-economic stability. Therefore urgent action is required to mitigate their devastating impact and safeguard Earth's natural resources. Robust Machine Learning methods combined with the abundance of high-resolution satellite imagery can provide accurate and timely mappings of the affected area in order to assess the scale of the event, identify the impacted assets and prioritize and allocate resources effectively for the proper restoration of the damaged region. In this work, we create and introduce a machine-learning ready dataset we name FLOGA (Forest wiLdfire Observations for the Greek Area). This dataset is unique as it comprises of satellite imagery acquired before and after a wildfire event, it contains information from Sentinel-2 and MODIS modalities with variable spatial and spectral resolution, and contains a large number of events where the corresponding burnt area ground truth has been annotated by domain experts. FLOGA covers the wider region of Greece, which is characterized by a Mediterranean landscape and climatic conditions. We use FLOGA to provide a thorough comparison of multiple Machine Learning and Deep Learning algorithms for the automatic extraction of burnt areas, approached as a change detection task. We also compare the results to those obtained using standard specialized spectral indices for burnt area mapping. Finally, we propose a novel Deep Learning model, namely BAM-CD. Our benchmark results demonstrate the efficacy of the proposed technique in the automatic extraction of burnt areas, outperforming all other methods in terms of accuracy and robustness. Our dataset and code are publicly available at: https://github.com/Orion-AI-Lab/FLOGA.
翻訳日:2023-11-07 13:09:01 公開日:2023-11-06
# ゼロショット画像転送のためのクロスイメージアテンション

Cross-Image Attention for Zero-Shot Appearance Transfer ( http://arxiv.org/abs/2311.03335v1 )

ライセンス: Link先を確認
Yuval Alaluf, Daniel Garibi, Or Patashnik, Hadar Averbuch-Elor, Daniel Cohen-Or(参考訳) テキストから画像への生成モデルの最近の進歩は、画像の深い意味的理解をとらえる顕著な能力を示している。 本研究では,この意味的知識を生かして,類似した意味を持つが形状が著しく異なる物体間の視覚的な外観を伝達する。 これを実現するために、これらの生成モデルの自己注意層を構築し、画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。 具体的には、一対のイメージ -- 対象の構造と所望の外観を指定するイメージ -- が与えられると、クロスイメージの注意力は、構造イメージに対応するクエリと、外観イメージのキーと値とを結合します。 この操作は、ノイズ処理中に適用されると、確立された意味対応を利用して、所望の構造と外観を組み合わせた画像を生成する。 さらに,出力画像の画質を向上させるために,ノイズの多い潜在コードを操作するか,モデルの内部表現を操作する機構を3つ活用した。 重要なことは、私たちのアプローチはゼロショットであり、最適化やトレーニングは必要ありません。 実験により,提案手法は幅広い対象カテゴリにまたがって有効であり,入力画像間の形状,サイズ,視点の変化に頑健であることが判明した。

Recent advancements in text-to-image generative models have demonstrated a remarkable ability to capture a deep semantic understanding of images. In this work, we leverage this semantic knowledge to transfer the visual appearance between objects that share similar semantics but may differ significantly in shape. To achieve this, we build upon the self-attention layers of these generative models and introduce a cross-image attention mechanism that implicitly establishes semantic correspondences across images. Specifically, given a pair of images -- one depicting the target structure and the other specifying the desired appearance -- our cross-image attention combines the queries corresponding to the structure image with the keys and values of the appearance image. This operation, when applied during the denoising process, leverages the established semantic correspondences to generate an image combining the desired structure and appearance. In addition, to improve the output image quality, we harness three mechanisms that either manipulate the noisy latent codes or the model's internal representations throughout the denoising process. Importantly, our approach is zero-shot, requiring no optimization or training. Experiments show that our method is effective across a wide range of object categories and is robust to variations in shape, size, and viewpoint between the two input images.
翻訳日:2023-11-07 13:08:28 公開日:2023-11-06
# 1111]磁場をもつ反強磁性キタエフ模型における創発的磁気秩序

Emergent magnetic order in the antiferromagnetic Kitaev model with a [111] field ( http://arxiv.org/abs/2311.03334v1 )

ライセンス: Link先を確認
Will Holdhusen, Daniel Huerga, Gerardo Ortiz(参考訳) 北エフハニカムモデルの基底状態として安定化された北エフスピン液体は、トポロジカル$\mathbb{Z}_2$量子スピン液体のパラダイム的な例である。 外部磁場の存在下でのキタエフスピン液体の運命は、いわゆるキタエフ物質に$\mathbb{z}_2$位相相が現れる実験による現在の関心事であり、自明な部分偏光相が出現する前に議論された自然の中間量子相の出現を予測する理論的研究である。 本研究では,[111]場における反強磁性キータエフモデルの量子位相図を解析するために,関連する対称性と短距離量子相関を保存したクラスタを用いた階層平均場理論,代数的および数値的手法を用いる。 24部位のクラスターを用いて, 北エフスピン液体は, 従来の研究と異なり, 自明な部分分極相に入る前に, ストライプおよびキラル秩序を特徴とする2つの中間相を通過することを予測した。 本研究では,多体チャーン数やその他の位相量を含む異なる観測対象のスケールを計算することで,位相的量子スピン液体の研究方法として階層的平均場理論を確立した。

The Kitaev spin liquid, stabilized as the ground state of the Kitaev honeycomb model, is a paradigmatic example of a topological $\mathbb{Z}_2$ quantum spin liquid. The fate of the Kitaev spin liquid in presence of an external magnetic field is a topic of current interest due to experiments, which apparently unveil a $\mathbb{Z}_2$ topological phase in the so-called Kitaev materials, and theoretical studies predicting the emergence of an intermediate quantum phase of debated nature before the appearance of a trivial partially polarized phase. In this work, we employ hierarchical mean-field theory, an algebraic and numerical method based on the use of clusters preserving relevant symmetries and short-range quantum correlations, to investigate the quantum phase diagram of the antiferromagnetic Kitaev's model in a [111] field. By using clusters of 24 sites, we predict that the Kitaev spin liquid transits through two intermediate phases characterized by stripe and chiral order, respectively, before entering the trivial partially polarized phase, differing from previous studies. We assess our results by performing exact diagonalization and computing the scaling of different observables, including the many-body Chern number and other topological quantities, thus establishing hierarchical mean-field theory as a method to study topological quantum spin liquids.
翻訳日:2023-11-07 13:08:05 公開日:2023-11-06
# Bare Homography による画像マッチング

Image Matching by Bare Homography ( http://arxiv.org/abs/2305.08946v3 )

ライセンス: Link先を確認
Fabio Bellavia(参考訳) 本稿では,シーンを粗い局所重なり面としてモデル化する,新しい非奥行き画像マッチングフレームワークslimeを提案する。 この中間表現は、キーポイントパッチの局所的なアフィン近似と、空間的および類似性の制約に基づくグローバルマッチングの間に位置し、プレーンが一般的なシーンに関して扱いやすいので、対応の漸進的プルーニングを提供する。 スライムは画像を異なるスケールで重なり合う領域に分解し、ゆるい平面ホモグラフを計算する。 平面は一致するマッチによって相互に拡張され、画像は固定タイルに分割され、タイルのペアごとに最適なホモグラフのみが保持される。 安定マッチは、ペアワイズホモグラフによって提供される許容ステレオ構成のコンセンサスに従って識別される。 タイル内では、粗面はマッチの重なりに応じてマージされ、さらに一貫した対応が抽出される。 プロセス全体はホモグラフィの制約のみを含む。 その結果、シーン上の正しいマッチのカバレッジと安定性の両方が増幅され、困難なシーンでマッチを見つけられるようになり、従来のハイブリッドマッチングパイプラインが、最近のエンドツーエンドのディープマッチングメソッドに対して失われた基盤を構築できるようになった。 さらに、エンドツーエンドのディープ・ネットワークとハイブリッド・パイプラインで表現される画像マッチングにおける最近の最先端画像の比較分析を行った。 この評価は、急激な時間変化や相対的な画像回転の強い変動など、批判的かつ困難なシナリオを考慮して、平面と非平面の両方を考慮する。 この分析によれば、この分野における印象的な進歩にもかかわらず、今後の研究で検討すべき改善の余地は広い。

This paper presents Slime, a novel non-deep image matching framework which models the scene as rough local overlapping planes. This intermediate representation sits in-between the local affine approximation of the keypoint patches and the global matching based on both spatial and similarity constraints, providing a progressive pruning of the correspondences, as planes are easier to handle with respect to general scenes. Slime decomposes the images into overlapping regions at different scales and computes loose planar homographies. Planes are mutually extended by compatible matches and the images are split into fixed tiles, with only the best homographies retained for each pair of tiles. Stable matches are identified according to the consensus of the admissible stereo configurations provided by pairwise homographies. Within tiles, the rough planes are then merged according to their overlap in terms of matches and further consistent correspondences are extracted. The whole process only involves homography constraints. As a result, both the coverage and the stability of correct matches over the scene are amplified, together with the ability to spot matches in challenging scenes, allowing traditional hybrid matching pipelines to make up lost ground against recent end-to-end deep matching methods. In addition, the paper gives a thorough comparative analysis of recent state-of-the-art in image matching represented by end-to-end deep networks and hybrid pipelines. The evaluation considers both planar and non-planar scenes, taking into account critical and challenging scenarios including abrupt temporal image changes and strong variations in relative image rotations. According to this analysis, although the impressive progress done in this field, there is still a wide room for improvements to be investigated in future research.
翻訳日:2023-11-07 11:27:20 公開日:2023-11-06
# xASTNN: 産業実践のためのコード表現の改善

xASTNN: Improved Code Representations for Industrial Practice ( http://arxiv.org/abs/2303.07104v3 )

ライセンス: Link先を確認
Zhiwei Xu, Min Zhou, Xibin Zhao, Yang Chen, Xi Cheng, Hongyu Zhang(参考訳) ソフトウェア工学におけるディープラーニング技術の応用がますます普及している。 問題のひとつは、コード関連タスクのための高品質で使いやすいソースコード表現を開発することだ。 近年,研究コミュニティは印象的な成果を得ている。 しかし、デプロイメントの困難とパフォーマンスのボトルネックのため、これらのアプローチが業界に適用されることはほとんどない。 本稿では,ソースコード表現のためのeXtreme Abstract Syntax Tree (AST)ベースのニューラルネットワークであるxASTNNについて述べる。 提案されているxASTNNには3つの利点がある。 まず、xASTNNは広く使われているASTを完全にベースとしており、複雑なデータ前処理を必要としないため、様々なプログラミング言語や実践シナリオに適用できる。 第2に,xastnnの有効性を保証するために,コード自然性のためのステートメントサブツリーシーケンス,構文情報のためのゲート再帰ユニット,シーケンシャル情報のためのゲート再帰ユニットという,3つの密接な関連設計が提案されている。 第3に、xASTNNの時間的複雑さを著しく低減するために動的バッチアルゴリズムを導入する。 2つのコード理解タスク、コード分類とコードクローン検出が評価に採用されている。 その結果、xASTNNはベースラインよりも高速で最先端の技術を向上できることがわかった。

The application of deep learning techniques in software engineering becomes increasingly popular. One key problem is developing high-quality and easy-to-use source code representations for code-related tasks. The research community has acquired impressive results in recent years. However, due to the deployment difficulties and performance bottlenecks, seldom these approaches are applied to the industry. In this paper, we present xASTNN, an eXtreme Abstract Syntax Tree (AST)-based Neural Network for source code representation, aiming to push this technique to industrial practice. The proposed xASTNN has three advantages. First, xASTNN is completely based on widely-used ASTs and does not require complicated data pre-processing, making it applicable to various programming languages and practical scenarios. Second, three closely-related designs are proposed to guarantee the effectiveness of xASTNN, including statement subtree sequence for code naturalness, gated recursive unit for syntactical information, and gated recurrent unit for sequential information. Third, a dynamic batching algorithm is introduced to significantly reduce the time complexity of xASTNN. Two code comprehension downstream tasks, code classification and code clone detection, are adopted for evaluation. The results demonstrate that our xASTNN can improve the state-of-the-art while being faster than the baselines.
翻訳日:2023-11-07 11:26:53 公開日:2023-11-06
# 量子スイッチはユニタリ演算に対する作用によって一意に定義される

The quantum switch is uniquely defined by its action on unitary operations ( http://arxiv.org/abs/2106.00034v5 )

ライセンス: Link先を確認
Qingxiuxiong Dong, Marco T\'ulio Quintino, Akihito Soeda, Mio Murao(参考訳) 量子スイッチは、異なるユニタリ操作の間のコヒーレント制御を生成する量子プロセスであり、これはしばしば、ユニタリ操作の対を(u_1, u_2)$ に変換する量子プロセスとして記述され、これらを異なる順序でコヒーレントに${\vert {0} \rangle\! \langle {0} \vert} \otimes U_1 U_2 + {\vert {1} \rangle\! \langle {1} \vert} \otimes U_2 U_1$ しかしながら、この記述は、非単体操作に対するアクションを直接定義していない。 非ユニタリ演算に対する量子スイッチの作用は、ユニタリ演算に対するその作用の ``natural'' 拡張として選択される。 一般に、プロセスの非単元演算に対する作用は、その単元演算に対する作用によって一意に決定されない。 非単位演算に対する量子スイッチの非等価な拡張セットが存在するかもしれない。 しかし、自然拡大が2スロットの場合の量子スイッチの唯一の可能性であることを証明している。 言い換えれば、一般の場合とは対照的に、非ユニタリ演算に対する量子スイッチの作用(線形かつ完全CP保存スーパーマップとして)は、ユニタリ演算に対する作用によって完全に決定される。 また、量子過程の完全な記述がユニタリ操作に対する作用によって一意的に決定される場合の一般的な問題についても論じ、ユニタリ操作に対する作用によって完全に定義される1スロットプロセスの集合を同定する。

The quantum switch is a quantum process that creates a coherent control between different unitary operations, which is often described as a quantum process which transforms a pair of unitary operations $(U_1, U_2)$ into a controlled unitary operation that coherently applies them in different orders as ${\vert {0} \rangle\!\langle {0} \vert} \otimes U_1 U_2 + {\vert {1} \rangle\!\langle {1} \vert} \otimes U_2 U_1$. This description, however, does not directly define its action on non-unitary operations. The action of the quantum switch on non-unitary operations is then chosen to be a ``natural'' extension of its action on unitary operations. In general, the action of a process on non-unitary operations is not uniquely determined by its action on unitary operations. It may be that there could be a set of inequivalent extensions of the quantum switch for non-unitary operations. We prove, however, that the natural extension is the only possibility for the quantum switch for the 2-slot case. In other words, contrary to the general case, the action of the quantum switch on non-unitary operations (as a linear and completely CP preserving supermap) is completely determined by its action on unitary operations. We also discuss the general problem of when the complete description of a quantum process is uniquely determined by its action on unitary operations and identify a set of single-slot processes which are completely defined by their action on unitary operations.
翻訳日:2023-11-07 11:26:34 公開日:2023-11-06
# ラベル効率のよい3Dポイントクラウドセグメンテーションのための大規模事前学習型ビジョンファウンデーションモデルの導入

Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation ( http://arxiv.org/abs/2311.01989v2 )

ライセンス: Link先を確認
Shichao Dong, Fayao Liu, Guosheng Lin(参考訳) 近年,Segment-Anything Model (SAM) やContrastive Language- Image Pre-Torning (CLIP) のような大規模事前学習モデルが顕著に成功し,コンピュータビジョンの分野に革命をもたらした。 これらの基礎的なビジョンモデルは、膨大なモデルパラメータで大規模な広義データから知識を効果的に取得し、追加のトレーニングをすることなく、これまで見えないデータに対してゼロショットセグメンテーションを実行することができる。 それらは2Dタスクの能力を示すが、3Dシーン理解の強化の可能性はいまだに未解明である。 この目的のために,我々は3dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。 我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。 次に、rgb-dビデオシーケンスの様々なフレームからマスク予測を3d空間に投影する。 頑健な3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせた意味ラベル融合戦略を導入する。 ゼロショット学習やスパース2Dポイントラベルからの限られたガイダンスなどの多様なシナリオを調査し、異なるビジョン基盤モデルの長所と短所を評価する。 本手法は,3次元屋内シーンを対象としたScanNetデータセットを用いて実験を行い,一般的な2次元ファンデーションモデルを用いた3次元ポイントクラウドセグメンテーションタスクの解法の有効性を実証した。

Recently, large-scale pre-trained models such as Segment-Anything Model (SAM) and Contrastive Language-Image Pre-training (CLIP) have demonstrated remarkable success and revolutionized the field of computer vision. These foundation vision models effectively capture knowledge from a large-scale broad data with their vast model parameters, enabling them to perform zero-shot segmentation on previously unseen data without additional training. While they showcase competence in 2D tasks, their potential for enhancing 3D scene understanding remains relatively unexplored. To this end, we present a novel framework that adapts various foundational models for the 3D point cloud segmentation task. Our approach involves making initial predictions of 2D semantic masks using different large vision models. We then project these mask predictions from various frames of RGB-D video sequences into 3D space. To generate robust 3D semantic pseudo labels, we introduce a semantic label fusion strategy that effectively combines all the results via voting. We examine diverse scenarios, like zero-shot learning and limited guidance from sparse 2D point labels, to assess the pros and cons of different vision foundation models. Our approach is experimented on ScanNet dataset for 3D indoor scenes, and the results demonstrate the effectiveness of adopting general 2D foundation models on solving 3D point cloud segmentation tasks.
翻訳日:2023-11-07 11:21:43 公開日:2023-11-06
# RT-Trajectory:Handsight Trajectory Sketchesによるロボットタスクの一般化

RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches ( http://arxiv.org/abs/2311.01977v2 )

ライセンス: Link先を確認
Jiayuan Gu, Sean Kirmani, Paul Wohlhart, Yao Lu, Montserrat Gonzalez Arenas, Kanishka Rao, Wenhao Yu, Chuyuan Fu, Keerthana Gopalakrishnan, Zhuo Xu, Priya Sundaresan, Peng Xu, Hao Su, Karol Hausman, Chelsea Finn, Quan Vuong, Ted Xiao(参考訳) 一般化は、堅牢なロボット学習システムにとって最も重要なデシダータの1つである。 最近提案されたアプローチは、新しい対象への一般化、意味概念、あるいは視覚分布のシフトを示すが、新しいタスクへの一般化は依然として難しい。 例えば、ピック・アンド・プレイス・タスクで訓練された言語条件付きポリシーは、たとえ折り畳みのアーム軌道がピック・アンド・プレイスに似ているとしても、折り畳みタスクに一般化できない。 我々の重要な洞察は、粗い軌道スケッチを通してタスクを表現すれば、この種の一般化が実現可能であるということである。 そこで本研究では,rt-trajectoryと呼ばれる粗軌跡スケッチを用いたポリシー条件付け手法を提案する。 その結果、軌道スケッチは、低レベルの動き中心のガイダンスを表現できるほど詳細であることと、学習したポリシーが状況観察の文脈で軌道スケッチを解釈できるほど粗いことのバランスをとることが判明した。 さらに、軌道スケッチがロボットのポリシーと通信するための有用なインターフェースを提供する方法を示す。図面やビデオのような単純な人間の入力や、最新の画像生成やwaypoint生成といった自動化手法によって特定することができる。 我々は,RT-Trajectoryを実世界の様々なロボットタスクで大規模に評価し,RT-Trajectoryが同じトレーニングデータを提供する場合,言語条件や目標条件のポリシーと比較して幅広いタスクを実行できることを発見した。

Generalization remains one of the most important desiderata for robust robot learning systems. While recently proposed approaches show promise in generalization to novel objects, semantic concepts, or visual distribution shifts, generalization to new tasks remains challenging. For example, a language-conditioned policy trained on pick-and-place tasks will not be able to generalize to a folding task, even if the arm trajectory of folding is similar to pick-and-place. Our key insight is that this kind of generalization becomes feasible if we represent the task through rough trajectory sketches. We propose a policy conditioning method using such rough trajectory sketches, which we call RT-Trajectory, that is practical, easy to specify, and allows the policy to effectively perform new tasks that would otherwise be challenging to perform. We find that trajectory sketches strike a balance between being detailed enough to express low-level motion-centric guidance while being coarse enough to allow the learned policy to interpret the trajectory sketch in the context of situational visual observations. In addition, we show how trajectory sketches can provide a useful interface to communicate with robotic policies: they can be specified through simple human inputs like drawings or videos, or through automated methods such as modern image-generating or waypoint-generating methods. We evaluate RT-Trajectory at scale on a variety of real-world robotic tasks, and find that RT-Trajectory is able to perform a wider range of tasks compared to language-conditioned and goal-conditioned policies, when provided the same training data.
翻訳日:2023-11-07 11:21:19 公開日:2023-11-06
# 大規模言語モデルによる救助: chatgptを用いた科学的ワークフロー開発における複雑さの低減

Large Language Models to the Rescue: Reducing the Complexity in Scientific Workflow Development Using ChatGPT ( http://arxiv.org/abs/2311.01825v2 )

ライセンス: Link先を確認
Mario S\"anger, Ninon De Mecquenem, Katarzyna Ewa Lewi\'nska, Vasilis Bountris, Fabian Lehmann, Ulf Leser, Thomas Kosch(参考訳) 科学ワークフローシステムは、大規模な計算クラスタ上での自動並列化による分析の再現性、信頼性、スケーラビリティを提供するため、大規模なデータセット上で複雑なデータ分析パイプラインを表現および実行するためにますます人気がある。 しかし、多くのブラックボックスツールと実行に必要な深いインフラストラクチャスタックが関与しているため、ワークフローの実装は難しい。 同時に、ユーザサポートツールはまれであり、利用可能なサンプルの数は、古典的なプログラミング言語よりもはるかに少ない。 これらの課題に対処するために,我々は,大規模言語モデル(llm,特にchatgpt)の効率を,科学的なワークフローを扱うユーザを支援するために調査する。 2つの科学領域で3つのユーザスタディを行い、ワークフローの理解、適応、拡張のためのChatGPTを評価した。 その結果,LLMは効率よくワークフローを解釈するが,コンポーネントの交換やワークフロー拡張のための性能は低下することがわかった。 これらのシナリオにおいて,これらの制限を特徴付け,今後の研究方向性を提案する。

Scientific workflow systems are increasingly popular for expressing and executing complex data analysis pipelines over large datasets, as they offer reproducibility, dependability, and scalability of analyses by automatic parallelization on large compute clusters. However, implementing workflows is difficult due to the involvement of many black-box tools and the deep infrastructure stack necessary for their execution. Simultaneously, user-supporting tools are rare, and the number of available examples is much lower than in classical programming languages. To address these challenges, we investigate the efficiency of Large Language Models (LLMs), specifically ChatGPT, to support users when dealing with scientific workflows. We performed three user studies in two scientific domains to evaluate ChatGPT for comprehending, adapting, and extending workflows. Our results indicate that LLMs efficiently interpret workflows but achieve lower performance for exchanging components or purposeful workflow extensions. We characterize their limitations in these challenging scenarios and suggest future research directions.
翻訳日:2023-11-07 11:20:33 公開日:2023-11-06
# 支援・反感:文脈外ミスと偽情報を検出するための証拠のスタンスの分析

Support or Refute: Analyzing the Stance of Evidence to Detect Out-of-Context Mis- and Disinformation ( http://arxiv.org/abs/2311.01766v2 )

ライセンス: Link先を確認
Xin Yuan, Jie Guo, Weidong Qiu, Zheng Huang, Shujun Li(参考訳) オンライン上の誤報や誤報は、様々な種類のオンライン被害の主な源泉として社会問題となっている。 ooc(out-of-context)情報とは、例えば、偽のテキストキャプションや誤解を招くテキスト記述と組み合わされた実際の画像など、異なる情報の断片が誤って関連付けられる情報である。 過去の研究では、外部の証拠を通じてoocの誤報や偽情報に対する防御を試みたが、異なる立場で異なる証拠の役割を無視する傾向がある。 異なる検出結果に対するバイアスを証拠のスタンスが表しているという直観性に動機づけられ,様々なマルチモーダル証拠のスタンスを統一的な枠組みで抽出できるスタンス抽出ネットワーク(sen)を提案する。 さらに,名前付きエンティティの共起関係に基づいて算出したサポート・リフテーションスコアをテキストセンに導入し,提案手法が最先端のベースラインを上回り,最適なモデルが3.2%の精度で性能向上を達成することを実証した。

Mis- and disinformation online have become a major societal problem as major sources of online harms of different kinds. One common form of mis- and disinformation is out-of-context (OOC) information, where different pieces of information are falsely associated, e.g., a real image combined with a false textual caption or a misleading textual description. Although some past studies have attempted to defend against OOC mis- and disinformation through external evidence, they tend to disregard the role of different pieces of evidence with different stances. Motivated by the intuition that the stance of evidence represents a bias towards different detection results, we propose a stance extraction network (SEN) that can extract the stances of different pieces of multi-modal evidence in a unified framework. Moreover, we introduce a support-refutation score calculated based on the co-occurrence relations of named entities into the textual SEN. Extensive experiments on a public large-scale dataset demonstrated that our proposed method outperformed the state-of-the-art baselines, with the best model achieving a performance gain of 3.2% in accuracy.
翻訳日:2023-11-07 11:20:02 公開日:2023-11-06
# CDGraph:拡散モデルによる二重条件ソーシャルグラフの合成

CDGraph: Dual Conditional Social Graph Synthesizing via Diffusion Model ( http://arxiv.org/abs/2311.01729v2 )

ライセンス: Link先を確認
Jui-Yi Tsai, Ya-Wen Teng, Ho Chiok Yew, De-Nian Yang, Lydia Y. Chen(参考訳) 生成モデルによって合成されるソーシャルグラフは、データの不足やユーザのプライバシーに関する懸念から、ますます需要が高まっている。 ソーシャルネットワークを生成する上で重要なパフォーマンス基準の1つは、特定のメンバーシップと財務状態を持つユーザのような特定の条件への忠実さである。 近年の拡散モデルは画像生成において顕著な性能を示したが, 条件付きソーシャルグラフの文脈において, 合成グラフの有効性は未だ検討されていない。 本稿では,2つの条件に基づいてグラフを訓練・合成する,ソーシャルネットワークのための最初の条件拡散モデルCDGraphを提案する。 本稿では,CDGraphのデノベーションプロセスにおける共進化的依存関係を2つの条件間の相互依存関係を捕捉し,さらに,特定の条件を満たすことなくノード間の接続性を維持するために,社会的ホモフィリと社会的感染を組み込むことを提案する。 さらに,2つの条件の相互依存を通じて拡散過程の訓練を指導する新たな分類器損失を導入する。 既存の4つのグラフ生成手法であるSPECTRE, GSM, EDGE, DiGressに対するCDGraphの評価を行った。 以上の結果から,CDGraphから生成したグラフは,ベースラインよりも多くのソーシャル・ネットワーク・メトリクスにおいて,より高い二重条件妥当性と低差を実現し,二重条件のソーシャル・グラフを生成する能力を示した。

The social graphs synthesized by the generative models are increasingly in demand due to data scarcity and concerns over user privacy. One of the key performance criteria for generating social networks is the fidelity to specified conditionals, such as users with certain membership and financial status. While recent diffusion models have shown remarkable performance in generating images, their effectiveness in synthesizing graphs has not yet been explored in the context of conditional social graphs. In this paper, we propose the first kind of conditional diffusion model for social networks, CDGraph, which trains and synthesizes graphs based on two specified conditions. We propose the co-evolution dependency in the denoising process of CDGraph to capture the mutual dependencies between the dual conditions and further incorporate social homophily and social contagion to preserve the connectivity between nodes while satisfying the specified conditions. Moreover, we introduce a novel classifier loss, which guides the training of the diffusion process through the mutual dependency of dual conditions. We evaluate CDGraph against four existing graph generative methods, i.e., SPECTRE, GSM, EDGE, and DiGress, on four datasets. Our results show that the generated graphs from CDGraph achieve much higher dual-conditional validity and lower discrepancy in various social network metrics than the baselines, thus demonstrating its proficiency in generating dual-conditional social graphs.
翻訳日:2023-11-07 11:19:41 公開日:2023-11-06
# 視覚言語モデルの校正ロバスト微調整に向けて

Towards Calibrated Robust Fine-Tuning of Vision-Language Models ( http://arxiv.org/abs/2311.01723v2 )

ライセンス: Link先を確認
Changdae Oh, Mijoo Kim, Hyesu Lim, Junhyeok Park, Euiseog Jeong, Zhi-Qi Cheng, Kyungwoo Song(参考訳) 微調整は、特定のタスクのために事前訓練されたモデルの可能性を解き放つが、モデルがオフ・オブ・ディストリビューション(OOD)データセットに一般化する能力を損なう。 これを軽減するため、堅牢な微調整は、OODデータセットと、モデルがチューニングされている分散内データセットのパフォーマンスを保証することを目的としている。 しかし、信頼性機械学習(ML)の別の基準である信頼性校正は、実世界のハイテイクMLアプリケーション(例えば、自律運転と診断)への需要が増加しているにもかかわらず見過ごされている。 本稿では,特にOODデータセットにおいて,視覚言語モデル(VLM)のキャリブレーションに対する懸念を初めて高めるとともに,直感的な微調整や,最先端の頑健な微調整手法さえも,事前訓練されたVLMのキャリブレーションを損なうことを示して,分布シフト下での細調整の懸念を提起する。 この問題に対処するために、キャリブレーションされたロバスト微調整(CaRot)と呼ばれるシンプルなアプローチを提供し、IDとODデータセットの両方にキャリブレーションとロバスト性を動機付ける。 ImageNet-1K分布シフト評価実験の結果,本手法の有効性が検証された。

While fine-tuning unlocks the potential of a pre-trained model for a specific task, it compromises the model's ability to generalize to out-of-distribution (OOD) datasets. To mitigate this, robust fine-tuning aims to ensure performance on OOD datasets as well as on an in-distribution (ID) dataset for which the model is being tuned. However, another criterion for reliable machine learning (ML), confidence calibration, has been overlooked despite its increasing demand for real-world high-stakes ML applications (e.g., autonomous driving and medical diagnosis). For the first time, we raise concerns about the calibration of fine-tuned vision-language models (VLMs) under distribution shift by showing that naive fine-tuning and even state-of-the-art robust fine-tuning methods hurt the calibration of pre-trained VLMs, especially on OOD datasets. To address this issue, we provide a simple approach, called calibrated robust fine-tuning (CaRot), that incentivizes calibration and robustness on both ID and OOD datasets. Empirical results on ImageNet-1K distribution shift evaluation verify the effectiveness of our method.
翻訳日:2023-11-07 11:19:17 公開日:2023-11-06
# 振付モデルにおけるサービス品質のための動的時相論理

A Dynamic Temporal Logic for Quality of Service in Choreographic Models ( http://arxiv.org/abs/2311.01414v3 )

ライセンス: Link先を確認
Carlos G. Lopez Pombo, Agust\'in E. Martinez Su\~n\'e, Emilio Tuosto(参考訳) 本稿では,g-choreographiesとCFSM(Communicating Finite State Machine)で構成されるコレオグラフィーモデルを用いて,メッセージパッシングシステムの品質(QoS)を表現・解析するフレームワークを提案する。 i) 局所計算の量的制約を規定する非機能的契約を持つcfsmsの拡張、(ii) qosを表現可能な動的時相論理、(iii) 通信プロトコルを規定するgコレオグラフィーに対するシステムの特性、(iii) 通信システムのqos特性を検証するための境界付きモデルチェックアプローチを可能にする、我々の論理の半決定可能性。

We propose a framework for expressing and analyzing the Quality of Service (QoS) of message-passing systems using a choreographic model that consists of g-choreographies and Communicating Finite State machines (CFSMs). The following are our three main contributions: (I) an extension of CFSMs with non-functional contracts to specify quantitative constraints of local computations, (II) a dynamic temporal logic capable of expressing QoS, properties of systems relative to the g-choreography that specifies the communication protocol, (III) the semi-decidability of our logic which enables a bounded model-checking approach to verify QoS property of communicating systems.
翻訳日:2023-11-07 11:18:20 公開日:2023-11-06
# 効果的なロボットイミッタとしての視覚言語基礎モデル

Vision-Language Foundation Models as Effective Robot Imitators ( http://arxiv.org/abs/2311.01378v2 )

ライセンス: Link先を確認
Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, Tao Kong(参考訳) 視覚言語の基礎モデルの最近の進歩は、マルチモーダルデータを理解し、ロボット操作を含む複雑な視覚言語タスクを解決する能力を示している。 我々は、ロボットデータに簡単な微調整を施した、既存の視覚言語モデル(VLM)を利用する簡単な方法を模索する。 この目的のために,オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoという,シンプルで斬新な視覚言語操作フレームワークを考案した。 以前の作品とは異なり、RoboFlamingoはシングルステップの視覚言語理解に事前訓練されたVLMを使用し、明示的なポリシーヘッドで逐次履歴情報をモデル化し、言語条件の操作データセットのみに基づいて模倣学習によって微調整されている。 このような分解によってroboflamingoは、オープンループ制御と低パフォーマンスプラットフォームへのデプロイの柔軟性を提供する。 テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。 実験の結果,操作作業におけるVLMの動作に関する興味深い結論が得られた。 roboflamingoは、ロボティクスの操作に費用対効果があり、使いやすいソリューションになる可能性があり、誰もが自分のロボティクスポリシーを微調整できる能力があると信じている。

Recent progress in vision language foundation models has shown their ability to understand multimodal data and resolve complicated vision language tasks, including robotics manipulation. We seek a straightforward way of making use of existing vision-language models (VLMs) with simple fine-tuning on robotics data. To this end, we derive a simple and novel vision-language manipulation framework, dubbed RoboFlamingo, built upon the open-source VLMs, OpenFlamingo. Unlike prior works, RoboFlamingo utilizes pre-trained VLMs for single-step vision-language comprehension, models sequential history information with an explicit policy head, and is slightly fine-tuned by imitation learning only on language-conditioned manipulation datasets. Such a decomposition provides RoboFlamingo the flexibility for open-loop control and deployment on low-performance platforms. By exceeding the state-of-the-art performance with a large margin on the tested benchmark, we show RoboFlamingo can be an effective and competitive alternative to adapt VLMs to robot control. Our extensive experimental results also reveal several interesting conclusions regarding the behavior of different pre-trained VLMs on manipulation tasks. We believe RoboFlamingo has the potential to be a cost-effective and easy-to-use solution for robotics manipulation, empowering everyone with the ability to fine-tune their own robotics policy.
翻訳日:2023-11-07 11:18:03 公開日:2023-11-06
# TRIALSCOPE: バイオメディカル言語モデルを用いた実世界のエビデンス生成のための統一因果関係フレームワーク

TRIALSCOPE: A Unifying Causal Framework for Scaling Real-World Evidence Generation with Biomedical Language Models ( http://arxiv.org/abs/2311.01301v2 )

ライセンス: Link先を確認
Javier Gonz\'alez, Cliff Wong, Zelalem Gero, Jass Bagga, Risa Ueno, Isabel Chien, Eduard Oravkin, Emre Kiciman, Aditya Nori, Roshanthi Weerasinghe, Rom S. Leidner, Brian Piening, Tristan Naumann, Carlo Bifulco, Hoifung Poon(参考訳) 現実世界のデータの迅速なデジタル化は、医療提供を最適化し、生物医学的発見を加速する前例のない機会を提供する。 しかし実際には、そのようなデータは電子カルテ(EMR)における臨床ノートなど、構造化されていない形で最も多く利用でき、共同設立者が悩むのが一般的である。 本稿では,人口レベルの観測データから実世界の証拠を蒸留するための統合フレームワークであるTRIALSCOPEを提案する。 TRIALSCOPEは、バイオメディカル言語モデルを活用して、臨床テキストを大規模に構成し、より高度な確率論的モデリングを用いて、一般的な共同設立者と戦うために最先端の因果推論技術を採用している。 TRIALSCOPEは、臨床試験仕様を一般的な表現として使用し、観察データを用いて臨床仮説の生成と推論を行うターンキーソリューションを提供する。 米国の大規模医療ネットワークから100万人以上のがん患者を抱える大規模な実世界のデータセットに関する広範な実験と分析において、trialscopeは実世界のデータを高品質に構造化し、マーキーがんの臨床試験に匹敵する結果を生み出すことができることを示した。 RIALSCOPEは、シリコン内臨床試験の設計と最適化の容易化に加えて、合成制御、実用的治験、市場後監視、および精密診断および治療におけるきめ細かい患者様の推論をサポートするために用いられる。

The rapid digitization of real-world data offers an unprecedented opportunity for optimizing healthcare delivery and accelerating biomedical discovery. In practice, however, such data is most abundantly available in unstructured forms, such as clinical notes in electronic medical records (EMRs), and it is generally plagued by confounders. In this paper, we present TRIALSCOPE, a unifying framework for distilling real-world evidence from population-level observational data. TRIALSCOPE leverages biomedical language models to structure clinical text at scale, employs advanced probabilistic modeling for denoising and imputation, and incorporates state-of-the-art causal inference techniques to combat common confounders. Using clinical trial specification as generic representation, TRIALSCOPE provides a turn-key solution to generate and reason with clinical hypotheses using observational data. In extensive experiments and analyses on a large-scale real-world dataset with over one million cancer patients from a large US healthcare network, we show that TRIALSCOPE can produce high-quality structuring of real-world data and generates comparable results to marquee cancer trials. In addition to facilitating in-silicon clinical trial design and optimization, TRIALSCOPE may be used to empower synthetic controls, pragmatic trials, post-market surveillance, as well as support fine-grained patient-like-me reasoning in precision diagnosis and treatment.
翻訳日:2023-11-07 11:17:36 公開日:2023-11-06
# 動的マルチモーダル情報ボトルネックによるマルチモーダリティ分類

Dynamic Multimodal Information Bottleneck for Multimodality Classification ( http://arxiv.org/abs/2311.01066v2 )

ライセンス: Link先を確認
Yingying Fang, Shuang Wu, Sheng Zhang, Chaoyan Huang, Tieyong Zeng, Xiaodan Xing, Simon Walsh, Guang Yang(参考訳) 様々な画像、検査、臨床情報などのマルチモーダルデータを効果的に活用することは、さまざまなAIベースの診断や予後タスクにおいて、注目を集めている。 既存のマルチモーダル技術のほとんどは、さまざまなモダリティの差異や共有機能を活用し、異なるモダリティにまたがる特徴を融合することによって、パフォーマンスの向上にのみ重点を置いている。 これらのアプローチは概して臨床に最適ではなく、訓練データに制限があるという追加の課題を生じさせ、冗長なデータやノイズのあるモダリティチャネルに悩まされ、サブパーのパフォーマンスをもたらす。 このギャップに対処するために,データ冗長性とノイズに対する既存手法のロバスト性について検討し,ロバストな融合特徴表現を実現するための一般化された動的マルチモーダル情報ボトルネックフレームワークを提案する。 具体的には,我々の情報ボトルネックモジュールは, 溶融機能におけるタスク関連情報やノイズをフィルタリングし, さらに, タスク関連情報の削除を防止するための十分損失を導入し, 蒸留機能における予測情報の効率を明示的に保存する。 我々は、死亡予測のための社内および公的covid-19データセットおよび診断タスクのための2つの公的バイオメディカルデータセット上で、このモデルを検証する。 広汎な実験により,本手法は最先端を超越し,より堅牢であり,大規模ノイズチャネルが存在する場合にのみ性能を維持する方法であることがわかった。 私たちのコードはhttps://github.com/BII-wushuang/DMIB.comで公開されています。

Effectively leveraging multimodal data such as various images, laboratory tests and clinical information is gaining traction in a variety of AI-based medical diagnosis and prognosis tasks. Most existing multi-modal techniques only focus on enhancing their performance by leveraging the differences or shared features from various modalities and fusing feature across different modalities. These approaches are generally not optimal for clinical settings, which pose the additional challenges of limited training data, as well as being rife with redundant data or noisy modality channels, leading to subpar performance. To address this gap, we study the robustness of existing methods to data redundancy and noise and propose a generalized dynamic multimodal information bottleneck framework for attaining a robust fused feature representation. Specifically, our information bottleneck module serves to filter out the task-irrelevant information and noises in the fused feature, and we further introduce a sufficiency loss to prevent dropping of task-relevant information, thus explicitly preserving the sufficiency of prediction information in the distilled feature. We validate our model on an in-house and a public COVID19 dataset for mortality prediction as well as two public biomedical datasets for diagnostic tasks. Extensive experiments show that our method surpasses the state-of-the-art and is significantly more robust, being the only method to remain performance when large-scale noisy channels exist. Our code is publicly available at https://github.com/BII-wushuang/DMIB.
翻訳日:2023-11-07 11:17:09 公開日:2023-11-06
# 前立腺MRIの連続的アトラスによるセグメンテーション

Continual atlas-based segmentation of prostate MRI ( http://arxiv.org/abs/2311.00548v3 )

ライセンス: Link先を確認
Amin Ranem, Camila Gonz\'alez, Daniel Pinto dos Santos, Andreas M. Bucher, Ahmed E. Othman, Anirban Mukhopadhyay(参考訳) 自然画像分類のための連続学習(cl)手法は、医用画像分割の基本品質基準に達しないことが多い。 アトラスに基づくセグメンテーション(Atlas-based segmentation)は、医用画像において確立されたアプローチであり、関心領域に関するドメイン知識を取り入れ、意味的に一貫性のある予測をもたらす。 これはCLにとって特に有望であり、構造情報を活用し、時間とともにモデル剛性と塑性の最適なバランスをとることができる。 プライバシ保存プロトタイプと組み合わせることで、このプロセスは患者のプライバシを損なうことなく、リハーサルベースのclの利点を提供する。 我々は,アトラスを用いたセグメンテーション手法であるAtlas Replayを提案し,トレーニング分布が変化しても整合性を維持する画像登録により,プロトタイプを用いて高品質セグメンテーションマスクを生成する。 提案手法は,7つのプレステートセグメンテーションデータセット間の知識伝達可能性の観点から,最先端のCL手法と比較してどのように機能するかを考察する。 前立腺セグメンテーションは前立腺がんの診断において重要な役割を担っているが、解剖学的変異、高齢者群の構造的相違、獲得パラメータの変動などにより課題が生じる。 その結果,atlas replayは,エンド・ツー・エンドのセグメンテーション手法とは異なり,知識を維持しつつ,未熟な領域に十分に一般化できることがわかった。 私たちのコードベースはhttps://github.com/MECLabTUDA/Atlas-Replayで利用可能です。

Continual learning (CL) methods designed for natural image classification often fail to reach basic quality standards for medical image segmentation. Atlas-based segmentation, a well-established approach in medical imaging, incorporates domain knowledge on the region of interest, leading to semantically coherent predictions. This is especially promising for CL, as it allows us to leverage structural information and strike an optimal balance between model rigidity and plasticity over time. When combined with privacy-preserving prototypes, this process offers the advantages of rehearsal-based CL without compromising patient privacy. We propose Atlas Replay, an atlas-based segmentation approach that uses prototypes to generate high-quality segmentation masks through image registration that maintain consistency even as the training distribution changes. We explore how our proposed method performs compared to state-of-the-art CL methods in terms of knowledge transferability across seven publicly available prostate segmentation datasets. Prostate segmentation plays a vital role in diagnosing prostate cancer, however, it poses challenges due to substantial anatomical variations, benign structural differences in older age groups, and fluctuating acquisition parameters. Our results show that Atlas Replay is both robust and generalizes well to yet-unseen domains while being able to maintain knowledge, unlike end-to-end segmentation methods. Our code base is available under https://github.com/MECLabTUDA/Atlas-Replay.
翻訳日:2023-11-07 11:16:44 公開日:2023-11-06
# 医用画像におけるGPT-4Vのマルチモーダル機能に関する総合的研究

A Comprehensive Study of GPT-4V's Multimodal Capabilities in Medical Imaging ( http://arxiv.org/abs/2310.20381v3 )

ライセンス: Link先を確認
Yingshu Li, Yunyi Liu, Zhanyu Wang, Xinyu Liang, Lingqiao Liu, Lei Wang, Leyang Cui, Zhaopeng Tu, Longyue Wang, Luping Zhou(参考訳) 本稿では,放射線画像生成,医用視覚質問応答(VQA),視覚的グラウンドリングなど,様々な医療画像タスクにおけるGPT-4Vの能力を総合的に評価する。 医療画像解析におけるgpt-4vの性能について,先行研究が検討されてきたが,本研究は公開ベンチマークにおける最初の定量的評価である。 gpt-4vの胸部x線画像に対する記述的レポート作成における可能性,特に構造が整ったプロンプトにより誘導される場合について検討した。 一方、MIMIC-CXRデータセットベンチマークのパフォーマンスは、CIDErのような特定の評価指標を改善するための領域を明らかにする。 医療用VQAの領域では、GPT-4Vは質問タイプを区別する能力を示すが、精度の観点からはVQA-RADベンチマークに劣る。 さらに, BLEUスコアなどの従来の評価指標の限界が指摘され, より意味論的に堅牢な評価手法の開発が提唱された。 視覚接地の分野では、gpt-4vは境界ボックスの認識において予備的な約束を示すが、その精度は、特に特定の医療機関や標識の識別において不足している。 医用画像領域におけるGPT-4Vの意義と,その機能を完全に開放する目的の洗練の必要性を強調した。

This paper presents a comprehensive evaluation of GPT-4V's capabilities across diverse medical imaging tasks, including Radiology Report Generation, Medical Visual Question Answering (VQA), and Visual Grounding. While prior efforts have explored GPT-4V's performance in medical image analysis, to the best of our knowledge, our study represents the first quantitative evaluation on publicly available benchmarks. Our findings highlight GPT-4V's potential in generating descriptive reports for chest X-ray images, particularly when guided by well-structured prompts. Meanwhile, its performance on the MIMIC-CXR dataset benchmark reveals areas for improvement in certain evaluation metrics, such as CIDEr. In the domain of Medical VQA, GPT-4V demonstrates proficiency in distinguishing between question types but falls short of the VQA-RAD benchmark in terms of accuracy. Furthermore, our analysis finds the limitations of conventional evaluation metrics like the BLEU scores, advocating for the development of more semantically robust assessment methods. In the field of Visual Grounding, GPT-4V exhibits preliminary promise in recognizing bounding boxes, but its precision is lacking, especially in identifying specific medical organs and signs. Our evaluation underscores the significant potential of GPT-4V in the medical imaging domain, while also emphasizing the need for targeted refinements to fully unlock its capabilities.
翻訳日:2023-11-07 11:16:19 公開日:2023-11-06
# 輸送・変分推論・拡散--アニール流れとシュル=オディンガー橋への適用

Transport, Variational Inference and Diffusions: with Applications to Annealed Flows and Schr\"odinger Bridges ( http://arxiv.org/abs/2307.01050v4 )

ライセンス: Link先を確認
Francisco Vargas, Shreyas Padhy, Denis Blessing, Nikolas N\"usken(参考訳) 最適輸送と変分推論をつなぐことで,経路空間上の発散を中心としたサンプリング・生成モデルのための原理的・体系的枠組みを提案する。 本研究は, 拡散モデルにおける前方および後方のダイナミクスを決定的に適応するスコアに基づくアニーリング手法であるベイズ計算のための, \emph{ controlled monte carlo diffusion} sampler (cmcd) の開発に結実する。 そこで本研究では,Shr{\"o}dingerブリッジのEM-algorithmと反復比例フィッティング(IPF)の関係を明らかにするとともに,標準IPF更新の反復的ボトルネックを回避した正規化目的を導出する。 最後に,CMCDは統計物理学からJarzinskyとCrooksのアイデンティティに強い基盤を持ち,様々な実験において競合するアプローチよりも優れていることを示す。

Connecting optimal transport and variational inference, we present a principled and systematic framework for sampling and generative modelling centred around divergences on path space. Our work culminates in the development of the \emph{Controlled Monte Carlo Diffusion} sampler (CMCD) for Bayesian computation, a score-based annealing technique that crucially adapts both forward and backward dynamics in a diffusion model. On the way, we clarify the relationship between the EM-algorithm and iterative proportional fitting (IPF) for Schr{\"o}dinger bridges, deriving as well a regularised objective that bypasses the iterative bottleneck of standard IPF-updates. Finally, we show that CMCD has a strong foundation in the Jarzinsky and Crooks identities from statistical physics, and that it convincingly outperforms competing approaches across a wide array of experiments.
翻訳日:2023-11-07 11:15:54 公開日:2023-11-06
# 自動運転の軌道予測で本当に重要なのは何か?

What Truly Matters in Trajectory Prediction for Autonomous Driving? ( http://arxiv.org/abs/2306.15136v3 )

ライセンス: Link先を確認
Phong Tran, Haoran Wu, Cunjun Yu, Panpan Cai, Sifa Zheng, David Hsu(参考訳) 軌道予測は自動運転システムの性能において重要な役割を担っており、平均変位誤差(ade)や最終変位誤差(fde)といった予測精度が性能指標として広く用いられている。 しかし,動力学的なギャップのため,車両制御に下流の予測器を使用する場合,固定データセットにおける予測器の精度と運転性能との間には大きな差がある。 現実の世界では、予測アルゴリズムがエゴ車の挙動に影響を与え、それによって近くの他の車両の挙動に影響を及ぼす。 この相互作用は、予測結果に直接影響を及ぼす予測者固有のダイナミクスをもたらす。 固定データセットでは、他の車両の応答が予め決められているため、この相互作用効果が失われ、大きなダイナミクスギャップが生じる。 本稿では,このダイナミクスギャップの見過ごされた重要性について考察する。 また,予測性能と運転性能の差に寄与する要因についても検討した。 その結果,現実の運転性能を決定する際の予測器の計算効率と予測精度のトレードオフが明らかになった。 要約すると、軌道予測のための対話型タスク駆動評価プロトコルは、自動運転の有効性を捉えるために不可欠である。 ソースコードと実験的な設定はオンラインで入手できる。

Trajectory prediction plays a vital role in the performance of autonomous driving systems, and prediction accuracy, such as average displacement error (ADE) or final displacement error (FDE), is widely used as a performance metric. However, a significant disparity exists between the accuracy of predictors on fixed datasets and driving performance when the predictors are used downstream for vehicle control, because of a dynamics gap. In the real world, the prediction algorithm influences the behavior of the ego vehicle, which, in turn, influences the behaviors of other vehicles nearby. This interaction results in predictor-specific dynamics that directly impacts prediction results. In fixed datasets, since other vehicles' responses are predetermined, this interaction effect is lost, leading to a significant dynamics gap. This paper studies the overlooked significance of this dynamics gap. We also examine several other factors contributing to the disparity between prediction performance and driving performance. The findings highlight the trade-off between the predictor's computational efficiency and prediction accuracy in determining real-world driving performance. In summary, an interactive, task-driven evaluation protocol for trajectory prediction is crucial to capture its effectiveness for autonomous driving. Source code along with experimental settings is available online.
翻訳日:2023-11-07 11:15:34 公開日:2023-11-06