このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231215となっている論文です。

PDF登録状況(公開日: 20231215)

TitleAuthorsAbstract論文公表日・翻訳日
# キャッシュ攻撃に対するハードウェアパフォーマンス対策

A Tale of Unrealized Hope: Hardware Performance Counter Against Cache Attacks ( http://arxiv.org/abs/2311.10542v3 )

ライセンス: Link先を確認
William Kosasih, (参考訳) 本稿では,ハードウェア性能カウンタ(HPC)を用いたキャッシュ側チャネル攻撃防御手法を提案する。 これらのカウンタは、マイクロアーキテクチャイベントを監視し、悪意のあるソフトウェアと良心的なソフトウェアを区別するために統計的偏差を分析する。 多数の提案と有望な報告結果により,提案手法が適切な設定と適切な仮定の下で評価され,キャッシュサイドチャネル攻撃に対する実単語配置の精度が保証されるかどうかを検討する。 この目的を達成するために,本研究では,既存の文献の総合的な評価と調査を,調査の形で実施し,その評価を支援するための実験的な証拠を提示する。

This paper investigates an emerging cache side channel attack defense approach involving the use of hardware performance counters (HPCs). These counters monitor microarchitectural events and analyze statistical deviations to differentiate between malicious and benign software. With numerous proposals and promising reported results, we seek to investigate whether published HPC-based detection methods are evaluated in a proper setting and under the right assumptions, such that their quality can be ensured for real-word deployment against cache side-channel attacks. To achieve this goal, this paper presents a comprehensive evaluation and scrutiny of existing literature on the subject matter in a form of a survey, accompanied by experimental evidences to support our evaluation.
翻訳日:2024-03-18 23:02:51 公開日:2023-12-15
# VDOO: 短時間、高速、ポスト量子多変量デジタル署名方式

VDOO: A Short, Fast, Post-Quantum Multivariate Digital Signature Scheme ( http://arxiv.org/abs/2312.09535v1 )

ライセンス: Link先を確認
Anindya Ganguly, Angshuman Karmakar, Nitin Saxena, (参考訳) ハード格子問題は、量子後暗号システムの構築に大きく貢献する。 しかし,量子格子問題の突如的な解決により,量子後暗号が完全に崩壊するのを防ぐために,他の量子ハード問題に基づくポスト量子暗号システムの開発を継続する必要がある。 大きな多変量二次系を解くことはそのような量子的難しい問題である。 非平衡油酢は多変量方程式を解く難易度に基づくシグネチャスキームである。 本稿では,多変量方程式の解法に基づく量子後デジタル署名アルゴリズム VDOO (Vinegar-Diagonal-Oil-Oil) を提案する。 油酢をベースとしたシグネチャスキームRainbow上で, 対角層と呼ばれる新しい層を導入する。 このレイヤは、パラメータを大幅に増やすことなく、スキーマのセキュリティを改善するのに役立ちます。 この修正により、多変量二次系の主計算ボトルネックの複雑さ、すなわちガウスの除去が著しく減少する。 このように、我々のスキームは、最も高速な多変量二次シグネチャスキームの1つである。 さらに、慎重に選択したパラメータは、既存のすべての最先端攻撃に抵抗できることを示す。 国立標準技術研究所のセキュリティレベルであるI,III,Vの署名サイズはそれぞれ96,226,316バイトである。 これは、同様のセキュリティを持つ全ての既知の量子後シグネチャスキームの中で最小のシグネチャサイズである。

Hard lattice problems are predominant in constructing post-quantum cryptosystems. However, we need to continue developing post-quantum cryptosystems based on other quantum hard problems to prevent a complete collapse of post-quantum cryptography due to a sudden breakthrough in solving hard lattice problems. Solving large multivariate quadratic systems is one such quantum hard problem. Unbalanced Oil-Vinegar is a signature scheme based on the hardness of solving multivariate equations. In this work, we present a post-quantum digital signature algorithm VDOO (Vinegar-Diagonal-Oil-Oil) based on solving multivariate equations. We introduce a new layer called the diagonal layer over the oil-vinegar-based signature scheme Rainbow. This layer helps to improve the security of our scheme without increasing the parameters considerably. Due to this modification, the complexity of the main computational bottleneck of multivariate quadratic systems i.e. the Gaussian elimination reduces significantly. Thus making our scheme one of the fastest multivariate quadratic signature schemes. Further, we show that our carefully chosen parameters can resist all existing state-of-the-art attacks. The signature sizes of our scheme for the National Institute of Standards and Technology's security level of I, III, and V are 96, 226, and 316 bytes, respectively. This is the smallest signature size among all known post-quantum signature schemes of similar security.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# Madtls: 工業通信のための細粒度ミドルボックス対応エンドツーエンドセキュリティ

Madtls: Fine-grained Middlebox-aware End-to-end Security for Industrial Communication ( http://arxiv.org/abs/2312.09650v1 )

ライセンス: Link先を確認
Eric Wagner, David Heye, Martin Serror, Ike Kunze, Klaus Wehrle, Martin Henze, (参考訳) 産業制御システムは、侵入検知やネットワーク内処理などのミドルボックス機能にますます依存している。 しかし、従来のエンドツーエンドのセキュリティプロトコルは、飛行中のデータへのアクセスを妨害する。 ミドルボックスを意識した従来のインターネットのエンドツーエンドセキュリティプロトコルに関する最近の研究は、エンドツーエンドのセキュリティ保証とミドルボックスの間のジレンマに対処することを約束しているが、現在の最先端技術は産業通信にとって重要な特徴を欠いている。 最も重要なことは、ミドルボックスが極秘モードで真に動作するためには、工業的な設定がきめ細かなアクセス制御を必要とすることである。 同様に、高度なアプリケーションは、ミドルボックスが特定のメッセージ(緊急シャットダウンなど)を注入することを要求する。 一方、産業シナリオは、従来のインターネットでは見つからない厳密なレイテンシと帯域幅の制約を露呈することが多い。 現在の最先端技術では重要な機能を欠いているため,産業ネットワークのニーズに合わせて,ミドルボックス対応のエンドツーエンドセキュリティプロトコルであるミドルボックス対応DTLS(Madtls)を提案する。 Madtlsはミドルボックスのビットレベル読み書きアクセス制御を提供し、制約のあるハードウェアでも最小の帯域幅と処理オーバーヘッドで通信する。

Industrial control systems increasingly rely on middlebox functionality such as intrusion detection or in-network processing. However, traditional end-to-end security protocols interfere with the necessary access to in-flight data. While recent work on middlebox-aware end-to-end security protocols for the traditional Internet promises to address the dilemma between end-to-end security guarantees and middleboxes, the current state-of-the-art lacks critical features for industrial communication. Most importantly, industrial settings require fine-grained access control for middleboxes to truly operate in a least-privilege mode. Likewise, advanced applications even require that middleboxes can inject specific messages (e.g., emergency shutdowns). Meanwhile, industrial scenarios often expose tight latency and bandwidth constraints not found in the traditional Internet. As the current state-of-the-art misses critical features, we propose Middlebox-aware DTLS (Madtls), a middlebox-aware end-to-end security protocol specifically tailored to the needs of industrial networks. Madtls provides bit-level read and write access control of middleboxes to communicated data with minimal bandwidth and processing overhead, even on constrained hardware.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# ロスシーチャネル上のメッセージ認証コードはいつ、どのように集約するか?

When and How to Aggregate Message Authentication Codes on Lossy Channels? ( http://arxiv.org/abs/2312.09660v1 )

ライセンス: Link先を確認
Eric Wagner, Martin Serror, Klaus Wehrle, Martin Henze, (参考訳) メッセージ認証コード(MAC)の集約は、リソース制約のある環境で貴重な帯域幅を保持するための実証済みかつ効率的な方法である: 各メッセージに長い認証タグを追加する代わりに、複数のメッセージの整合性保護を単一のタグに集約する。 しかし、そのようなアグリゲーションは帯域幅を節約するが、1つの失われたメッセージは、通常、複数のメッセージの認証情報がもはや検証できないことを意味する。 帯域幅制限による損失通信が大幅に増加し、アプリケーションが無線チャネルへ移行するにつれて、パケット損失が過去15年間に提案されてきたさまざまなMACアグリゲーション方式に与える影響を調査し、メッセージ認証の時期と方法を評価することが最重要となる。 そこで我々は、損失チャネルの文脈におけるMACアグリゲーションのすべてのスキームを実証的に研究し、達成可能な出力改善、結果の検証遅延、処理オーバーヘッド、サービス拒否攻撃に対するレジリエンスを調査した。 本分析はMACアグリゲーションを慎重に選択・設定することの重要性を示し,適切なスキームを適切にパラメータ化することで,シナリオに応じて39%から444%改善できることを示した。 しかし,すべてのシナリオにおいてアグリゲーションスキームが最善を尽くさないため,特定のネットワーク設定に適した最適スキームとパラメータ化を選択するためのネットワーク演算子のガイドラインを提供する。

Aggregation of message authentication codes (MACs) is a proven and efficient method to preserve valuable bandwidth in resource-constrained environments: Instead of appending a long authentication tag to each message, the integrity protection of multiple messages is aggregated into a single tag. However, while such aggregation saves bandwidth, a single lost message typically means that authentication information for multiple messages cannot be verified anymore. With the significant increase of bandwidth-constrained lossy communication, as applications shift towards wireless channels, it thus becomes paramount to study the impact of packet loss on the diverse MAC aggregation schemes proposed over the past 15 years to assess when and how to aggregate message authentication. Therefore, we empirically study all relevant MAC aggregation schemes in the context of lossy channels, investigating achievable goodput improvements, the resulting verification delays, processing overhead, and resilience to denial-of-service attacks. Our analysis shows the importance of carefully choosing and configuring MAC aggregation, as selecting and correctly parameterizing the right scheme can, e.g., improve goodput by 39% to 444%, depending on the scenario. However, since no aggregation scheme performs best in all scenarios, we provide guidelines for network operators to select optimal schemes and parameterizations suiting specific network settings.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# オーバープロテクションを超えて - スペクトル緩和とパフォーマンス最適化のためのターゲット的アプローチ

Beyond Over-Protection: A Targeted Approach to Spectre Mitigation and Performance Optimization ( http://arxiv.org/abs/2312.09770v1 )

ライセンス: Link先を確認
Tiziano Marinaro, Pablo Buiras, Andreas Lindner, Roberto Guanciale, Hamed Nemati, (参考訳) Spectre攻撃の出現以来、研究者と実践者は、一時的な実行攻撃に対抗するための様々なハードウェアおよびソフトウェア対策を開発してきた。 このような緩和の第一の例は、LLVMにおける投機的負荷硬化であり、投機状態と誤特定時のマスキング値を追跡することによってリークを防止する。 LLVMは静的解析に頼ってslhを使ってプログラムをハード化する。 我々は、既存のサイドチャネルモデル検証フレームワークであるScam-Vを拡張し、Spectre-PHT攻撃に対するプログラムの脆弱性をチェックし、slhアプローチを用いてプログラムの保護を最適化した。 Scam-Vの有効性を最初に示すのは、実際のプログラム、例えば暗号ライブラリのフラグメントにおけるSpectreの脆弱性を自動的に識別できることである。 そこで我々は,対象プラットフォームにスラハードニングW.r.t.の必要性を検証する最適化機構を開発する。 LLVMによるハードニングは, 基礎となるマイクロアーキテクチャ特性を考慮した場合, 多くの場合, 大幅に向上する可能性が示唆された。

Since the advent of Spectre attacks, researchers and practitioners have developed a range of hardware and software measures to counter transient execution attacks. A prime example of such mitigation is speculative load hardening in LLVM, which protects against leaks by tracking the speculation state and masking values during misspeculation. LLVM relies on static analysis to harden programs using slh that often results in over-protection, which incurs performance overhead. We extended an existing side-channel model validation framework, Scam-V, to check the vulnerability of programs to Spectre-PHT attacks and optimize the protection of programs using the slh approach. We illustrate the efficacy of Scam-V by first demonstrating that it can automatically identify Spectre vulnerabilities in real programs, e.g., fragments of crypto-libraries. We then develop an optimization mechanism that validates the necessity of slh hardening w.r.t. the target platform. Our experiments showed that hardening introduced by LLVM in most cases could be significantly improved when the underlying microarchitecture properties are considered.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# 直接非循環型グラフベースブロックチェーンシステム

Directed Acyclic Graph Based Blockchain Systems ( http://arxiv.org/abs/2312.09816v1 )

ライセンス: Link先を確認
Anand Devarajan, Erkan Karabulut, (参考訳) ブロックチェーン技術は、この10年で多くの分野に革命をもたらした。 その真の可能性はまだ実際に利用されていない。 非常に短い期間で、スマートコントラクトとDAG(Directed Acyclic Graph)という2つの進化を遂げた。 現在Blockchain 3.0と呼ばれているDAGベースのブロックチェーンは、トランザクション手数料、トランザクション承認時間、スケーラビリティなど、現行のブロックチェーンテクノロジにおける多くの問題を解決している。 本稿では、IOTA、NxT、Byteball、Nano、DAGCoin、Fantom、XDAG、Caixapayを含むDAGに基づくブロックチェーン実装の比較分析を行う。 我々は、従来のDAGベースのブロックチェーンとDAGベースのブロックチェーンの両方の制限について議論し、DAGベースのブロックチェーンをいつ好むかを提案する。

Blockchain technology has been revolutionizing many fields since last decade. Its true potential is not practically utilized yet. In a very short period of time, it has evolved twice - Smart contracts and Directed Acyclic Graph (DAG). DAG based blockchains currently referred to as Blockchain 3.0 solves many issues in the current conventional blockchain technologies including transaction fees, transaction approval times and scalability. In this paper, we present a comparative analysis of blockchain implementations based on DAG including IOTA, NxT, Byteball, Nano, DAGCoin, Fantom, XDAG and Caixapay. We discuss limitations of both conventional and DAG based blockchains and suggest when to prefer DAG based blockchains.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# 人工ニューラルネットワークによるVigenère暗号の鍵長探索

An artificial neural network approach to finding the key length of the Vigenère cipher ( http://arxiv.org/abs/2312.09956v1 )

ライセンス: Link先を確認
Christian Millichap, Yeeka Yau, (参考訳) 本稿では,Vigen\`{e}re暗号の鍵長を決定するために,古典的手法と近代的手法を組み合わせた人工知能ニューラルネットワーク(ANN)を作成する。 幅広いパラメータに対するモデルの精度を裏付ける実験的なエビデンスを提供する。 また、このANNの作成と特徴、および我々のANNと偶然のインデックスとツイストベースのアルゴリズムの比較分析についても論じる。

In this article, we create an artificial neural network (ANN) that combines both classical and modern techniques for determining the key length of a Vigen\`{e}re cipher. We provide experimental evidence supporting the accuracy of our model for a wide range of parameters. We also discuss the creation and features of this ANN along with a comparative analysis between our ANN, the index of coincidence, and the twist-based algorithms.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# 事前知識は衝突の検出に役立つか?

Does Prior Knowledge Help Detect Collisions? ( http://arxiv.org/abs/2312.10196v1 )

ライセンス: Link先を確認
Omri Ben-Eliezer, Tomer Grossman, Moni Naor, (参考訳) 関数 $f\colon [n] \to [n]$ via (black-box) query access to the function を指定します。 衝突(ペア$x \neq y$ s.t.\ $f)のようなローカルなものを探し求めている。 (x)=f (y)$)。 問題は、関数の「形」を知ることが、あなたを助けるかどうかである(形によって、関数のいくつかの置換が知られていることを意味する)。 この研究の目標は、形状を知らないアルゴリズムと比較して、形状を知ることが役に立つ全ての局所特性を特徴づけることである。 形式的には,グラフや関数の基本部分構造検出問題のインスタンス最適性について検討する。 ここでは、任意の可能な入力に対して、A$の(ランダム化された)クエリ複雑性が、入力グラフや関数の未ラベルコピーも持つのと同じ問題を解くために、任意のアルゴリズムのクエリ複雑性よりも大きい乗法定数であることを満足するアルゴリズム$A$が存在する場合、インスタンス最適(IO)と見なされる。 我々は, IO であるこれらの定数サイズのサブ構造検出問題の完全な特徴付けを行う。 興味深いことに、我々の結果は衝突検出がIOではないことを示唆しており、ラベル付けされていない証明書を保持するアルゴリズムでは、証明書のないアルゴリズムよりも$\Theta(\log n)$少ないクエリが要求されることを示している。 この分離結果は厳密であり, 衝突検出が「最も最適」な問題となると推測する。 対照的に、不動点を見つけるような他のすべての非自明な部分構造に対して、分離は$n$の多項式であることを示す。

Suppose you are given a function $f\colon [n] \to [n]$ via (black-box) query access to the function. You are looking to find something local, like a collision (a pair $x \neq y$ s.t.\ $f(x)=f(y)$). The question is whether knowing the `shape' of the function helps you or not (by shape we mean that some permutation of the function is known). Our goal in this work is to characterize all local properties for which knowing the shape may help, compared to an algorithm that does not know the shape. Formally, we investigate the instance optimality of fundamental substructure detection problems in graphs and functions. Here, a problem is considered instance optimal (IO) if there exists an algorithm $A$ for solving the problem which satisfies that for any possible input, the (randomized) query complexity of $A$ is at most a multiplicative constant larger than the query complexity of any algorithm $A'$ for solving the same problem which also holds an unlabeled copy of the input graph or function. We provide a complete characterization of those constant-size substructure detection problems that are IO. Interestingly, our results imply that collision detection is not IO, showing that in some cases an algorithm holding an unlabeled certificate requires a factor of $\Theta(\log n)$ fewer queries than any algorithm without a certificate. We conjecture that this separation result is tight, which would make collision detection an ``almost instance optimal'' problem. In contrast, for all other non-trivial substructures, such as finding a fixed point, we show that the separation is polynomial in $n$.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# 医療政策コンプライアンス: ブロックチェーンのスマートコントラクトベースのアプローチ

Healthcare Policy Compliance: A Blockchain Smart Contract-Based Approach ( http://arxiv.org/abs/2312.10214v1 )

ライセンス: Link先を確認
Md Al Amin, Hemanth Tummala, Seshamalini Mohan, Indrajit Ray, (参考訳) 本稿では,Electronic Health Records(EHRs)の文脈における医療政策コンプライアンスの確保という重要な課題に対処する。 HIPAAのような厳格な規制にもかかわらず、ポリシーコンプライアンスの重大なギャップは、データ漏洩が起きるまで検出されないことが多い。 このギャップを埋めるため、ブロックチェーンを利用したスマートコントラクトベースのアクセス制御モデルを提案する。 このモデルは、患者支援協定(PPA)やその他の関連する政策を強制し、政策遵守と証明の両面を確実にするように設計されている。 弊社のアプローチでは、インフォームドコンセントのコンポーネントをPPAに統合し、ブロックチェーンのスマートコントラクトを使用してポリシの実施を自動化する。 認証モジュールは、これらのコントラクトを使用して情報アクセス決定を行い、透過的で不変なブロックチェーン台帳にすべてのアクションを記録する。 このシステムは、ポリシーが厳格に適用されていることを保証するだけでなく、すべてのアクションを検証可能な記録を維持し、簡単に監査し、コンプライアンスを証明します。 このモデルをプライベートなEthereumブロックチェーンセットアップで実装し、ポリシーの整合性と整列性を維持し、監査パスが正確かつ確実に記録されることに重点を置いています。 Proof of Compliance (PoC)コンセンサス機構により、分散化された独立した監査ノードが、記録された監査パスに基づいてコンプライアンス状態を検証することができる。 シミュレーション型医療環境におけるモデルの有効性を実験的に評価した。 その結果、我々のアプローチは、政策の遵守と証明を強化するだけでなく、プロセス全体の透明性と説明責任を高めることが示される。 要約すると、医療データ管理における長年の問題に対する包括的でブロックチェーンベースのソリューションを提示し、スマートコントラクトとブロックチェーン技術を通じて、ポリシーコンプライアンスと証明を保証する堅牢なフレームワークを提供する。

This paper addresses the critical challenge of ensuring healthcare policy compliance in the context of Electronic Health Records (EHRs). Despite stringent regulations like HIPAA, significant gaps in policy compliance often remain undetected until a data breach occurs. To bridge this gap, we propose a novel blockchain-powered, smart contract-based access control model. This model is specifically designed to enforce patient-provider agreements (PPAs) and other relevant policies, thereby ensuring both policy compliance and provenance. Our approach integrates components of informed consent into PPAs, employing blockchain smart contracts to automate and secure policy enforcement. The authorization module utilizes these contracts to make informed access decisions, recording all actions in a transparent, immutable blockchain ledger. This system not only ensures that policies are rigorously applied but also maintains a verifiable record of all actions taken, thus facilitating an easy audit and proving compliance. We implement this model in a private Ethereum blockchain setup, focusing on maintaining the integrity and lineage of policies and ensuring that audit trails are accurately and securely recorded. The Proof of Compliance (PoC) consensus mechanism enables decentralized, independent auditor nodes to verify compliance status based on the audit trails recorded. Experimental evaluation demonstrates the effectiveness of the proposed model in a simulated healthcare environment. The results show that our approach not only strengthens policy compliance and provenance but also enhances the transparency and accountability of the entire process. In summary, this paper presents a comprehensive, blockchain-based solution to a longstanding problem in healthcare data management, offering a robust framework for ensuring policy compliance and provenance through smart contracts and blockchain technology.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# 浮動小数点数の安全性と精度

Secure and Accurate Summation of Many Floating-Point Numbers ( http://arxiv.org/abs/2312.10247v1 )

ライセンス: Link先を確認
Marina Blanton, Michael T. Goodrich, Chen Yuan, (参考訳) 浮動小数点演算の重要性から,多数の浮動小数点数を安全に正確に要約する問題を考察した。 これまでの作業では、セキュリティの欠如やセキュリティの欠如に重点を置いていますが、私たちのアプローチはどちらも実現しています。 具体的には、セキュアなマルチパーティ計算技術を用いて浮動小数点演算子を実装する方法を示し、浮動小数点数の秘密共有を保持する参加者が、個々の値をプライベートに保ちながら、その和を正確に計算できるようにする。

Motivated by the importance of floating-point computations, we study the problem of securely and accurately summing many floating-point numbers. Prior work has focused on security absent accuracy or accuracy absent security, whereas our approach achieves both of them. Specifically, we show how to implement floating-point superaccumulators using secure multi-party computation techniques, so that a number of participants holding secret shares of floating-point numbers can accurately compute their sum while keeping the individual values private.
翻訳日:2024-03-18 12:07:24 公開日:2023-12-15
# ゼロトレース二次根に基づくPLWEのクリプトアナリシス

Cryptanalysis of PLWE based on zero-trace quadratic roots ( http://arxiv.org/abs/2312.11533v1 )

ライセンス: Link先を確認
Beatriz Barbero-Lucas, Iván Blanco-Chacón, Raúl Durán-Díaz, Rahinatou Yuh Njah Nchiwo, (参考訳) Y. E. Lauter, E. Ozman, K. E. Stange, Ring-LWE Cryptography for the Number Theorist, in Directions in Number Theory, E. E. Eischen, L. Long, R. Pries, and K. E. Stange, eds., vol. 3 of Women for Women in Mathematics Series, Cham, 2016 Springer International Publishing, pp. 271-290) で示されたPLWE問題に対する攻撃は、既約単数多項式 $f(x)\in\mathbb{Z}[x]$$$$$$$$$$$2\rhoho2+$$$$$$$$$$2\rho2+$$$$$$$$$$$2\rho2$$$$$$$$$$$$$$$$$2\rho1$$$$$$$$$$$$$$$2\rho2$$$$$$$$$$$$$$$$$$$$$2\rho2$$$$$$$$$$$$ $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$ $$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) である。 我々の攻撃は、根の痕跡がゼロであり、入力として取られたサンプル数の関数として圧倒的な成功確率を持つという事実を生かしている。 Mapleの実装や、攻撃のいくつかの例も提供されています。

We extend two of the attacks on the PLWE problem presented in (Y. Elias, K. E. Lauter, E. Ozman, and K. E. Stange, Ring-LWE Cryptography for the Number Theorist, in Directions in Number Theory, E. E. Eischen, L. Long, R. Pries, and K. E. Stange, eds., vol. 3 of Association for Women in Mathematics Series, Cham, 2016, Springer International Publishing, pp. 271-290) to a ring $R_q=\mathbb{F}_q[x]/(f(x))$ where the irreducible monic polynomial $f(x)\in\mathbb{Z}[x]$ has an irreducible quadratic factor over $\mathbb{F}_q[x]$ of the form $x^2+\rho$ with $\rho$ of suitable multiplicative order in $\mathbb{F}_q$. Our attack exploits the fact that the trace of the root is zero and has overwhelming success probability as a function of the number of samples taken as input. An implementation in Maple and some examples of our attack are also provided.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-15
# 分類学に基づく大規模言語モデル評価のためのチェックリスト

Taxonomy-based CheckList for Large Language Model Evaluation ( http://arxiv.org/abs/2402.10899v1 )

ライセンス: Link先を確認
Damin Zhang, (参考訳) 大規模言語モデル(LLM)は多くの下流タスクで使われてきたため、内部のステレオタイプ表現は出力の公平性に影響を与える可能性がある。 本研究では、自然言語の介入に人間の知識を導入し、ジェンダーバイアスの文脈において、事前訓練された言語モデル(LM)の振る舞いを研究する。 CheckListの振る舞いテストに触発されて、質問応答(QA)を通してLMの非倫理的行動を調査し定量化することを目的としたチェックリストスタイルのタスクを提案する。 我々は、一貫性、偏り傾向、モデル嗜好、性別選好スイッチの4つの側面からLMを評価するための3つの比較研究を設計する。 本研究では,SQuAD-v2データセットでトレーニングしたトランスフォーマーベースのQAモデルと,自己回帰型大規模言語モデルを提案する。 以上の結果から, 変圧器を用いたQAモデルのバイアス傾向は, 正の相関関係を示す一方, LLMは正の相関関係を示すことがわかった。 提案課題は、LLMバイアス評価のための人間の知識を含む最初のデータセットを提供する。

As large language models (LLMs) have been used in many downstream tasks, the internal stereotypical representation may affect the fairness of the outputs. In this work, we introduce human knowledge into natural language interventions and study pre-trained language models' (LMs) behaviors within the context of gender bias. Inspired by CheckList behavioral testing, we present a checklist-style task that aims to probe and quantify LMs' unethical behaviors through question-answering (QA). We design three comparison studies to evaluate LMs from four aspects: consistency, biased tendency, model preference, and gender preference switch. We probe one transformer-based QA model trained on SQuAD-v2 dataset and one autoregressive large language model. Our results indicate that transformer-based QA model's biased tendency positively correlates with its consistency, whereas LLM shows the opposite relation. Our proposed task provides the first dataset that involves human knowledge for LLM bias evaluation.
翻訳日:2024-03-18 07:28:31 公開日:2023-12-15
# 3次元ハイパースペクトルシーン再構成のためのマルチスペクトルステレオ画像融合

Multispectral Stereo-Image Fusion for 3D Hyperspectral Scene Reconstruction ( http://arxiv.org/abs/2401.09428v1 )

ライセンス: Link先を確認
Eric L. Wisotzky and Jost Triller and Anna Hilsmann and Peter Eisert(参考訳) 分光イメージングは、人間の目に見えない光学材料特性の分析を可能にする。 フィルターホイール、プッシュブルーム、ラインスキャン、モザイクカメラなどの異なるスペクトル撮影装置が、農業、医療、産業監視の幅広い応用をサポートするためにここ数年導入されてきた。 しかし、これらのシステムはしばしば、リアルタイム能力の欠如、スペクトルカバレッジの制限、空間分解能の低下など、異なるデメリットに苦しむ。 これらの欠点に対処するために,異なるスペクトル範囲をカバーする2つのマルチスペクトルリアルタイムスナップショットカメラをステレオシステムに統合した新しいアプローチを提案する。 したがって、ハイパースペクトルデータキューブを連続的にキャプチャすることができる。 異なるマルチスペクトルスナップショットカメラの併用により、3次元再構成とスペクトル解析の両方が可能となる。 どちらの画像も空間分解能の損失を避けるために分解される。 我々は、一方のカメラからもう一方のカメラにスペクトルデータを融合させ、空間的に高解像度のビデオストリームを受信する。 本手法の有効性を実証し,手術支援モニタリングへの適用性について検討した。

Spectral imaging enables the analysis of optical material properties that are invisible to the human eye. Different spectral capturing setups, e.g., based on filter-wheel, push-broom, line-scanning, or mosaic cameras, have been introduced in the last years to support a wide range of applications in agriculture, medicine, and industrial surveillance. However, these systems often suffer from different disadvantages, such as lack of real-time capability, limited spectral coverage or low spatial resolution. To address these drawbacks, we present a novel approach combining two calibrated multispectral real-time capable snapshot cameras, covering different spectral ranges, into a stereo-system. Therefore, a hyperspectral data-cube can be continuously captured. The combined use of different multispectral snapshot cameras enables both 3D reconstruction and spectral analysis. Both captured images are demosaicked avoiding spatial resolution loss. We fuse the spectral data from one camera into the other to receive a spatially and spectrally high resolution video stream. Experiments demonstrate the feasibility of this approach and the system is investigated with regard to its applicability for surgical assistance monitoring.
翻訳日:2024-01-22 09:24:31 公開日:2023-12-15
# テスト時間拡張によるYOLOv7による小鳥検出

Small Bird Detection using YOLOv7 with Test-Time Augmentation ( http://arxiv.org/abs/2401.01018v1 )

ライセンス: Link先を確認
Kosuke Shigematsu(参考訳) 本稿では,スポッティングバード2023の小型物体検出問題に対する小鳥検出の改良を目的とした手法を提案する。 テスト時間拡張を伴うyolov7モデルを利用することで、入力解像度の向上、マルチスケール推論の導入、推論プロセス中のフリップイメージの考慮、重み付きボックス融合による検出結果のマージなどを行う。 我々は,各手法が検出性能に与える影響を厳格に検討する。 実験により検出精度が大幅に向上した。 本手法は開発カテゴリで0.732のパブリックapと27.2のプライベートapをそれぞれ0.5のiou=0.5で達成した。

In this paper, we propose a method specifically aimed at improving small bird detection for the Small Object Detection Challenge for Spotting Birds 2023. Utilizing YOLOv7 model with test-time augmentation, our approach involves increasing the input resolution, incorporating multiscale inference, considering flipped images during the inference process, and employing weighted boxes fusion to merge detection results. We rigorously explore the impact of each technique on detection performance. Experimental results demonstrate significant improvements in detection accuracy. Our method achieved a top score in the Development category, with a public AP of 0.732 and a private AP of 27.2, both at IoU=0.5.
翻訳日:2024-01-15 10:06:21 公開日:2023-12-15
# 形態形成のモデルとしての古典的ソートアルゴリズム--基礎知能の最小モデルにおける予期せぬ能力を示す自己ソート配列

Classical Sorting Algorithms as a Model of Morphogenesis: self-sorting arrays reveal unexpected competencies in a minimal model of basal intelligence ( http://arxiv.org/abs/2401.05375v1 )

ライセンス: Link先を確認
Taining Zhang, Adam Goldstein, Michael Levin(参考訳) ダイバーインテリジェンスの新しい分野は、幅広い実装における行動能力の共通点を特定し、形式化し、理解することを目指している。 特に興味深いのは、メモリ、意思決定、問題解決の予期せぬ例を、一見するとそのような機能を実装するのに十分複雑でないように見えるような単純なシステムである。 我々は,このような能力の最小限の要件を理解するためのツールを開発し,非伝統的な基板における基礎的なインテリジェンスを認識・予測することを目指す。 本稿では,長年研究されてきた古典的ソートアルゴリズム,短いコード片の挙動について,新しい分析手法を適用した。 これらのソートアルゴリズムを生物学的形態形成とその能力のモデルとして研究するために、トップダウン制御(代わりに、数列内の各要素が最小限のエージェンシーを実行し、下位からソートポリシーを実装する方法を示す)と、完全に信頼性のあるハードウェア(代わりに、いくつかの要素が「損傷」され、アルゴリズムの実行に失敗する)という、かつてのユビキタスな仮定を2つ破る。 我々は、ソートアクティビティを問題空間のトラバースとして定量的に特徴付け、エラー発生時の従来の実装よりも、自律的要素の配列がより確実かつ堅牢にソートできることを示します。 さらに,欠陥を回避するために一時的に進捗を減少させる能力や,2つの異なるアルゴリズムの1つに従うキメラ配列の要素間の予期せぬクラスタリング行動を見出した。 単純な、慣れ親しんだアルゴリズムによる創発的な問題解決能力の発見は、多様な知能の分野に新たな視点をもたらし、基礎となる力学に明示的にエンコードされることなく、単純なシステムにおいて基礎的な知性がいかに出現するかを示す。

The emerging field of Diverse Intelligence seeks to identify, formalize, and understand commonalities in behavioral competencies across a wide range of implementations. Especially interesting are simple systems that provide unexpected examples of memory, decision-making, or problem-solving in substrates that at first glance do not appear to be complex enough to implement such capabilities. We seek to develop tools to help understand the minimal requirements for such capabilities, and to learn to recognize and predict basal forms of intelligence in unconventional substrates. Here, we apply novel analyses to the behavior of classical sorting algorithms, short pieces of code which have been studied for many decades. To study these sorting algorithms as a model of biological morphogenesis and its competencies, we break two formerly-ubiquitous assumptions: top-down control (instead, showing how each element within a array of numbers can exert minimal agency and implement sorting policies from the bottom up), and fully reliable hardware (instead, allowing some of the elements to be "damaged" and fail to execute the algorithm). We quantitatively characterize sorting activity as the traversal of a problem space, showing that arrays of autonomous elements sort themselves more reliably and robustly than traditional implementations in the presence of errors. Moreover, we find the ability to temporarily reduce progress in order to navigate around a defect, and unexpected clustering behavior among the elements in chimeric arrays whose elements follow one of two different algorithms. The discovery of emergent problem-solving capacities in simple, familiar algorithms contributes a new perspective to the field of Diverse Intelligence, showing how basal forms of intelligence can emerge in simple systems without being explicitly encoded in their underlying mechanics.
翻訳日:2024-01-15 08:59:30 公開日:2023-12-15
# 動的スパイキンググラフニューラルネットワーク

Dynamic Spiking Graph Neural Networks ( http://arxiv.org/abs/2401.05373v1 )

ライセンス: Link先を確認
Nan Yin, Mengzhu Wang, Zhenghan Chen, Giulia De Masi, Bin Gu, Huan Xiong(参考訳) グラフで表される非ユークリッドデータの処理において、低消費電力と高効率のため、スパイキングニューラルネットワーク(SNN)とグラフニューラルネットワーク(GNN)の統合が徐々に注目を集めている。 しかし、一般的な問題として、動的グラフ表現学習は、高い複雑性や大きなメモリオーバーヘッドといった課題に直面している。 現在の作業では、グラフ構造情報を見落とし、伝播中に詳細が失われてしまうような、効率的なトレーニングのために、連続的な機能ではなくバイナリ機能を使用することで、リカレントニューラルネットワーク(RNN)の代わりにSNNを使用することが多い。 さらに、動的スパイクモデルの最適化には、通常、時間ステップにわたる情報の伝播が必要であり、メモリ要件が増大する。 これらの課題に対処するため、我々は \underline{Dy}namic \underline{S}p\underline{i}king \underline{G}raph \underline{N}eural Networks (\method{})というフレームワークを提案する。 情報損失問題を軽減するため、 \method{} は情報補償のために最終層に直接初期層情報を伝播する。 メモリ要件を満たすために、前方計算の正確な逆数に依存しない平衡状態の暗黙的な微分を適用する。 従来の暗黙差分法は通常静的な状況に使用されるが、 \method{} は動的グラフ設定に拡張する。 大規模実世界の3つの動的グラフデータセットに対する大規模な実験は、計算コストの低い動的ノード分類タスクにおける \method{} の有効性を検証する。

The integration of Spiking Neural Networks (SNNs) and Graph Neural Networks (GNNs) is gradually attracting attention due to the low power consumption and high efficiency in processing the non-Euclidean data represented by graphs. However, as a common problem, dynamic graph representation learning faces challenges such as high complexity and large memory overheads. Current work often uses SNNs instead of Recurrent Neural Networks (RNNs) by using binary features instead of continuous ones for efficient training, which would overlooks graph structure information and leads to the loss of details during propagation. Additionally, optimizing dynamic spiking models typically requires propagation of information across time steps, which increases memory requirements. To address these challenges, we present a framework named \underline{Dy}namic \underline{S}p\underline{i}king \underline{G}raph \underline{N}eural Networks (\method{}). To mitigate the information loss problem, \method{} propagates early-layer information directly to the last layer for information compensation. To accommodate the memory requirements, we apply the implicit differentiation on the equilibrium state, which does not rely on the exact reverse of the forward computation. While traditional implicit differentiation methods are usually used for static situations, \method{} extends it to the dynamic graph setting. Extensive experiments on three large-scale real-world dynamic graph datasets validate the effectiveness of \method{} on dynamic node classification tasks with lower computational costs.
翻訳日:2024-01-15 08:58:52 公開日:2023-12-15
# 自己回帰的フラグメントに基づくポケットアウェアリガンド設計のための拡散

Autoregressive fragment-based diffusion for pocket-aware ligand design ( http://arxiv.org/abs/2401.05370v1 )

ライセンス: Link先を確認
Mahdi Ghorbani, Leo Gendelev, Paul Beroza, Michael J. Keiser(参考訳) 本稿では, ターゲットタンパク質構造に条件付き3次元分子構造を生成するためのフラグメントベースの自己回帰拡散モデルであるAutoFragDiffを紹介する。 分子足場とタンパク質ポケットに固定された新しい分子断片の原子タイプと空間座標を予測するために幾何学的ベクトルパーセプトロンを用いる。 本手法は, タンパク質標的に対する高い結合親和性を維持しつつ, 得られた3d分子の局所構造を改善する。 モデルはまた、ユーザが提供する開始分子足場から足場拡張を行うこともできる。

In this work, we introduce AutoFragDiff, a fragment-based autoregressive diffusion model for generating 3D molecular structures conditioned on target protein structures. We employ geometric vector perceptrons to predict atom types and spatial coordinates of new molecular fragments conditioned on molecular scaffolds and protein pockets. Our approach improves the local geometry of the resulting 3D molecules while maintaining high predicted binding affinity to protein targets. The model can also perform scaffold extension from user-provided starting molecular scaffold.
翻訳日:2024-01-15 08:58:21 公開日:2023-12-15
# 動的ネットワークモデルの記号的回帰

Symbolic Regression of Dynamic Network Models ( http://arxiv.org/abs/2401.05369v1 )

ライセンス: Link先を確認
Govind Gandhi(参考訳) 脳から社会へ、ネットワークを使って都市へ複雑なシステムをモデル化することへの関心が高まり、それらのネットワークを説明する生成プロセスを記述する努力が増えた。 近年の機械学習の成功により、進化的計算、特に遺伝的プログラミングが多次元探索空間を効果的に利用し、ネットワーク構造を説明するより良い解を反復的に見つけるコンピュータプログラムを進化させるきっかけとなった。 シンボリック回帰は、科学者の直観や専門知識に頼らず、構造とプロセスの両方を用いてネットワーク形態を複製することでこれらのアプローチに寄与する。 ネットワーク生成器とパラメータフリー適合関数の新規な定式化を導入して、生成したネットワークを評価し、一連の経験的ネットワークに対する単純かつ解釈可能なルールと同様に、合成的に生成された成長過程を一貫して回収する。 我々は、時間変動ネットワークのルールの作成と取得のためにジェネレータセマンティクスを変更して、このアプローチを拡張する。 複数の段階で動的に生成されたネットワークを研究するための辞書を紹介する。 このフレームワークは、遺伝的プログラミングツールキット(組換え)と計算改善(ヒューリスティック距離測定を用いた)の手法を用いて改善され、合成されたネットワークを用いてセマンティクスへのアップグレードの一貫性と堅牢性をテストするために使用された。 組換えにより, 溶液の回収率と適合性が向上した。 このフレームワークは、主要な都市の地下鉄網、ストリートネットワークの地域、人工知能における文学のセマンティック共起ネットワークという3つの経験的データセットで使われ、複雑なネットワークから解釈可能で分散化された成長プロセスを得る可能性を示した。

Growing interest in modelling complex systems from brains to societies to cities using networks has led to increased efforts to describe generative processes that explain those networks. Recent successes in machine learning have prompted the usage of evolutionary computation, especially genetic programming to evolve computer programs that effectively forage a multidimensional search space to iteratively find better solutions that explain network structure. Symbolic regression contributes to these approaches by replicating network morphologies using both structure and processes, all while not relying on the scientists intuition or expertise. It distinguishes itself by introducing a novel formulation of a network generator and a parameter-free fitness function to evaluate the generated network and is found to consistently retrieve synthetically generated growth processes as well as simple, interpretable rules for a range of empirical networks. We extend this approach by modifying generator semantics to create and retrieve rules for time-varying networks. Lexicon to study networks created dynamically in multiple stages is introduced. The framework was improved using methods from the genetic programming toolkit (recombination) and computational improvements (using heuristic distance measures) and used to test the consistency and robustness of the upgrades to the semantics using synthetically generated networks. Using recombination was found to improve retrieval rate and fitness of the solutions. The framework was then used on three empirical datasets - subway networks of major cities, regions of street networks and semantic co-occurrence networks of literature in Artificial Intelligence to illustrate the possibility of obtaining interpretable, decentralised growth processes from complex networks.
翻訳日:2024-01-15 08:58:13 公開日:2023-12-15
# 未観測行動の推測を学習する: 他サイトに対するユーザの嗜好を推定する

Learning to Infer Unobserved Behaviors: Estimating User's Preference for a Site over Other Sites ( http://arxiv.org/abs/2312.16177v1 )

ライセンス: Link先を確認
Atanu R Sinha, Tanay Anand, Paridhi Maheshwari, A V Lakshmy, Vishal Jain(参考訳) サイトのレコメンデーションシステムは、関連するレコメンデーションを提供するユーザの好みに関する知識に依存している。 これらの嗜好は、サイト上で表示されたアイテムとコンテンツで構成され、ユーザとサイトとのインタラクションのデータから推定される属性である。 利用者の好みの別の形態は、利用者が他のサイトよりもサイトの好みを優先することである。 しかし、サイトに対するユーザーの好みを推定することは大きな障害に直面している。 (a)focalサイトは、通常、他のサイトとのインタラクションのデータを持たない。これらの相互作用は、focalサイトに対するユーザの監視されていない動作である。 (b)推奨の機械学習文献は、この状況のモデルを提供していない。 たとえ (b)解決し、問題点は (a) ユーザと他のサイトとのインタラクションのデータにアクセスできなければ,評価の根拠となる真実は存在しない。 さらに、(c)サイトの利用者の好みを個人レベルで推定できる場合に最も有用であり、また、サイトは個別の利用者に対してレコメンデーションをパーソナライズすることができる。 この前提下で,focalサイトに対する個々のユーザの好みを推定する手法を提案する。 特に、他のサイトからのデータを使わずに、ユーザのオンラインエンゲージメントの焦点サイトのシェアを計算する。 本稿では,focal サイトデータのみを用いたモデル評価フレームワークを示し,サイトがモデルをテストすることを可能にする。 我々は階層ベイズ法に依拠し,マルコフ連鎖モンテカルロとランジュバンダイナミクスを用いた確率勾配の2つの異なる方法で推定を行う。 その結果、パーソナライズされたエンゲージメントのシェアを計算し、その評価を行うアプローチに対する優れたサポートが得られました。

A site's recommendation system relies on knowledge of its users' preferences to offer relevant recommendations to them. These preferences are for attributes that comprise items and content shown on the site, and are estimated from the data of users' interactions with the site. Another form of users' preferences is material too, namely, users' preferences for the site over other sites, since that shows users' base level propensities to engage with the site. Estimating users' preferences for the site, however, faces major obstacles because (a) the focal site usually has no data of its users' interactions with other sites; these interactions are users' unobserved behaviors for the focal site; and (b) the Machine Learning literature in recommendation does not offer a model of this situation. Even if (b) is resolved, the problem in (a) persists since without access to data of its users' interactions with other sites, there is no ground truth for evaluation. Moreover, it is most useful when (c) users' preferences for the site can be estimated at the individual level, since the site can then personalize recommendations to individual users. We offer a method to estimate individual user's preference for a focal site, under this premise. In particular, we compute the focal site's share of a user's online engagements without any data from other sites. We show an evaluation framework for the model using only the focal site's data, allowing the site to test the model. We rely upon a Hierarchical Bayes Method and perform estimation in two different ways - Markov Chain Monte Carlo and Stochastic Gradient with Langevin Dynamics. Our results find good support for the approach to computing personalized share of engagement and for its evaluation.
翻訳日:2023-12-31 02:59:42 公開日:2023-12-15
# GreenFlow:環境音推薦システム構築のための計算割当フレームワーク

GreenFlow: A Computation Allocation Framework for Building Environmentally Sound Recommendation System ( http://arxiv.org/abs/2312.16176v1 )

ライセンス: Link先を確認
Xingyu Lu, Zhining Liu, Yanchu Guan, Hongxuan Zhang, Chenyi Zhuang, Wenqi Ma, Yize Tan, Jinjie Gu, Guannan Zhang(参考訳) 膨大な数のユーザとアイテムから、産業用カスケードレコメンデーションシステム(RS)は、ニュース、サービス、商品などの関連アイテムを適切なユーザーに届けるために、サイズと複雑さを継続的に拡張している。 毎秒数十万のリクエストがある現実のシナリオでは、各要求に対してパーソナライズされた結果を推測するために重要な計算が必要である。 本稿では,推論における精度と二酸化炭素排出量の両面を考慮した実測計算フレームワークであるGreenFlowを提案する。 カスケードRSの各ステージ(リコール、プレランク、ランキングなど)に対して、ユーザが要求をトリガーすると、計算を決定する2つのアクションを定義します。 すべてのステージにおけるアクションの組み合わせをアクションチェーンと呼びます。 各アクションチェーンに対して報酬スコアを推定し、次に報酬と計算予算の両方を考慮した動的原始双対最適化を行う。 大規模な実験により、このフレームワークの有効性が検証され、商用収益を維持しながら、産業用モバイルアプリケーションにおける計算消費を41%削減した。 さらに、提案手法は、約5000kWhの電力を節約し、1日あたり3トンの二酸化炭素排出量を削減する。

Given the enormous number of users and items, industrial cascade recommendation systems (RS) are continuously expanded in size and complexity to deliver relevant items, such as news, services, and commodities, to the appropriate users. In a real-world scenario with hundreds of thousands requests per second, significant computation is required to infer personalized results for each request, resulting in a massive energy consumption and carbon emission that raises concern. This paper proposes GreenFlow, a practical computation allocation framework for RS, that considers both accuracy and carbon emission during inference. For each stage (e.g., recall, pre-ranking, ranking, etc.) of a cascade RS, when a user triggers a request, we define two actions that determine the computation: (1) the trained instances of models with different computational complexity; and (2) the number of items to be inferred in the stage. We refer to the combinations of actions in all stages as action chains. A reward score is estimated for each action chain, followed by dynamic primal-dual optimization considering both the reward and computation budget. Extensive experiments verify the effectiveness of the framework, reducing computation consumption by 41% in an industrial mobile application while maintaining commercial revenue. Moreover, the proposed framework saves approximately 5000kWh of electricity and reduces 3 tons of carbon emissions per day.
翻訳日:2023-12-31 02:59:14 公開日:2023-12-15
# 溶解は増幅する:細粒度異常検出に向けて

Dissolving Is Amplifying: Towards Fine-Grained Anomaly Detection ( http://arxiv.org/abs/2302.14696v2 )

ライセンス: Link先を確認
Jian Shi, Pengyi Zhang, Ni Zhang, Hakim Ghazzai, Peter Wonka(参考訳) 本稿では, 溶解が増幅される「textit{DIA}」を紹介する。 DIAは医療画像の微細な異常検出フレームワークである。 本論文では2つの新しい要素について述べる。 まず、 \textit{dissolving transformations} を導入する。 我々は,生成拡散モデルが特徴量認識であり,それを医用画像に適用することで,腫瘍や出血などの細粒度の識別的特徴を除去あるいは減少させることができることを主に観察した。 次に,医療画像の意味的に意味のある表現を自己教師ありで学習するために,コントラスト学習に基づく \textit{amplifying framework} を導入する。 増幅フレームワークは、適用された変換を解消することなく追加画像対を対比することにより、きめ細かい特徴表現の学習を促進する。 DIAは、AUCがベースライン法に対して約18.40倍の精度で医療異常検出性能を向上し、他のベンチマーク法に対して全体的なSOTAを達成する。 我々のコードは \url{https://github.com/shijianjian/DIA.git} で入手できる。

In this paper, we introduce \textit{DIA}, dissolving is amplifying. DIA is a fine-grained anomaly detection framework for medical images. We describe two novel components in the paper. First, we introduce \textit{dissolving transformations}. Our main observation is that generative diffusion models are feature-aware and applying them to medical images in a certain manner can remove or diminish fine-grained discriminative features such as tumors or hemorrhaging. Second, we introduce an \textit{amplifying framework} based on contrastive learning to learn a semantically meaningful representation of medical images in a self-supervised manner. The amplifying framework contrasts additional pairs of images with and without dissolving transformations applied and thereby boosts the learning of fine-grained feature representations. DIA significantly improves the medical anomaly detection performance with around 18.40\% AUC boost against the baseline method and achieves an overall SOTA against other benchmark methods. Our code is available at \url{https://github.com/shijianjian/DIA.git}
翻訳日:2023-12-21 02:50:34 公開日:2023-12-15
# 2塩基系におけるファイバー偏光補償の規範的方法

A prescriptive method for fibre polarisation compensation in two bases ( http://arxiv.org/abs/2312.10145v1 )

ライセンス: Link先を確認
Teodor Str\"omberg and Peter Schiansky and Philip Walther(参考訳) 単一モードの光ファイバーは、光伝播中にランダムな偏光回転を引き起こす小さいが無視できない複屈折を示す。 古典的干渉法では、これらの回転は偏光による干渉視認性の減衰を引き起こし、ファイバーベースの偏光センサや量子光学実験では偏光状態で符号化された情報をスクランブルする。 これらの望ましくない回転を補正することは、多くの実験や光ファイバーを用いた応用において重要な部分である。 本稿では,一般的な入力状態に対する繊維偏光回転を完全に補償する効率的な方法について述べる。 この手法はもともと私たちによって考案されたものではありませんが、文献にその知識が表れていないため、コミュニティとの相互作用はよく分かっていません。

Single-mode optical fibres exhibit a small but non-negligible birefringence that induces random polarisation rotations during light propagation. In classical interferometry these rotations give rise to polarisation-induced fading of the interferometric visibility, and in fibre-based polarimetric sensors as well as quantum optics experiments they scramble the information encoded in the polarisation state. Correcting these undesired rotations is consequently an important part of many experiments and applications employing optical fibres. In this Lab Note we review an efficient method for fully compensating fibre polarisation rotations for general input states. This method was not originally devised by us, but does to the best of our knowledge not appear in the literature, and our interactions with the community have indicated that it is not well known.
翻訳日:2023-12-20 21:39:39 公開日:2023-12-15
# KGLens: LLMがしていることと知らないことを評価するためのパラメータ化された知識グラフソリューション

KGLens: A Parameterized Knowledge Graph Solution to Assess What an LLM Does and Doesn't Know ( http://arxiv.org/abs/2312.11539v1 )

ライセンス: Link先を確認
Shangshang Zheng, He Bai, Yizhe Zhang, Yi Su, Xiaochuan Niu, Navdeep Jaitly(参考訳) 既存の知識グラフ(KG)を用いた大規模言語モデル(LLM)の評価への現在のアプローチは、KGの構造を無視し、グラフのどの部分を評価するかを任意に選択する。 本稿では,自然言語質問を1 kg から生成し,より集約されたレベルでその性能を特徴付ける手法である kglens を提案する。 KGLensはパラメータ化されたKGを使用して、各エッジをベータディストリビューションで拡張し、KGからエッジをサンプリングしてQAテストする方法をガイドする。 評価が進むにつれて、パラメータ化されたKGの異なるエッジをサンプリングして適切に評価し、KG全体のLCMの性能のより大域的な図に収束させる。 実験では,3つのドメイン固有KGを知識評価のために構築し,19,000のエッジ,700のリレーション,21,000のエンティティからなる。 その結果、KGLensは全体の性能を評価するだけでなく、LLMのトピック、時間、および関連性分析を提供することができた。 これはKGLensの適応性とカスタマイズ性を示し、特定の基準に基づいて評価に集中する能力を強調している。

Current approaches to evaluating large language models (LLMs) with pre-existing Knowledge Graphs (KG) mostly ignore the structure of the KG and make arbitrary choices of which part of the graph to evaluate. In this paper, we introduce KGLens, a method to evaluate LLMs by generating natural language questions from a KG in a structure aware manner so that we can characterize its performance on a more aggregated level. KGLens uses a parameterized KG, where each edge is augmented with a beta distribution that guides how to sample edges from the KG for QA testing. As the evaluation proceeds, different edges of the parameterized KG are sampled and assessed appropriately, converging to a more global picture of the performance of the LLMs on the KG as a whole. In our experiments, we construct three domain-specific KGs for knowledge assessment, comprising over 19,000 edges, 700 relations, and 21,000 entities. The results demonstrate that KGLens can not only assess overall performance but also provide topic, temporal, and relation analyses of LLMs. This showcases the adaptability and customizability of KGLens, emphasizing its ability to focus the evaluation based on specific criteria.
翻訳日:2023-12-20 18:46:40 公開日:2023-12-15
# 自然言語を用いた反復動作編集

Iterative Motion Editing with Natural Language ( http://arxiv.org/abs/2312.11538v1 )

ライセンス: Link先を確認
Purvi Goel, Kuan-Chieh Wang, C. Karen Liu, Kayvon Fatahalian(参考訳) テキスト間拡散モデルはテキストプロンプトからリアルなアニメーションを生成することができるが、細かいモーション編集制御はサポートしていない。 本稿では,ほとんどのコンピュータアニメーションワークフローに共通するタスクである,既存のキャラクターアニメーションに対する局所的な編集を反復的に特定するために,自然言語を用いる手法を提案する。 我々のキーとなるアイデアは、目標運動の特定のフレームをどう修正するかのセマンティクスを適切に定義した運動演算子の集合を用いて、運動編集の空間を表現することである。 既存の言語モデルを利用して、動き編集のテキスト記述を、動き編集演算子(meos)のシーケンスに変換するアルゴリズムを提供する。 MEOが生成する新しいキーフレームを考えると、拡散に基づくキーフレーム補間を用いて最終動作を生成する。 ユーザ・スタディと定量的評価により,アニメーターの編集意図を尊重した動画編集を行い,オリジナル・アニメーション(オリジナル・アニメーションを編集し,劇的な変更は行わない)に忠実で,リアルなキャラクタ・アニメーション結果が得られることを実証した。

Text-to-motion diffusion models can generate realistic animations from text prompts, but do not support fine-grained motion editing controls. In this paper we present a method for using natural language to iteratively specify local edits to existing character animations, a task that is common in most computer animation workflows. Our key idea is to represent a space of motion edits using a set of kinematic motion operators that have well-defined semantics for how to modify specific frames of a target motion. We provide an algorithm that leverages pre-existing language models to translate textual descriptions of motion edits to sequences of motion editing operators (MEOs). Given new keyframes produced by the MEOs, we use diffusion-based keyframe interpolation to generate final motions. Through a user study and quantitative evaluation, we demonstrate that our system can perform motion edits that respect the animator's editing intent, remain faithful to the original animation (they edit the original animation, not dramatically change it), and yield realistic character animation results.
翻訳日:2023-12-20 18:46:02 公開日:2023-12-15
# FastSR-NeRF: 簡易超解像パイプラインを用いた消費者デバイスにおけるNeRF効率の向上

FastSR-NeRF: Improving NeRF Efficiency on Consumer Devices with A Simple Super-Resolution Pipeline ( http://arxiv.org/abs/2312.11537v1 )

ライセンス: Link先を確認
Chien-Yu Lin, Qichen Fu, Thomas Merth, Karren Yang, Anurag Ranjan(参考訳) ニューラルレイディアンスフィールド(NeRF)の出力をアップスケールし、推論速度を向上した高品質な画像を生成するための超解像(SR)技術が最近提案されている。 しかし, 既存のNeRF+SR法は, 付加的な入力特徴, 損失関数, 知識蒸留などの高価な訓練手順を用いることで, トレーニングのオーバーヘッドを増大させる。 本稿では,SRをコストのかかるトレーニングやアーキテクチャの変更なしに効率向上に活用することを目的とする。 具体的には、既存のモジュールを直接結合する単純なNeRF+SRパイプラインを構築し、トレーニングのための軽量な拡張手法、ランダムパッチサンプリングを提案する。 既存のNeRF+SR手法と比較して、私たちのパイプラインはSRコンピューティングのオーバーヘッドを軽減し、最大で23倍高速にトレーニングできるため、Apple MacBookのような消費者向けデバイス上で実行することが可能です。 実験により、パイプラインは高品質を維持しながら2~4倍のNeRF出力をアップスケールでき、NVIDIA V100 GPUでは18倍、M1 Proチップでは12.8倍の推論速度が向上した。 我々は、SRは、消費者デバイスにおけるNeRFモデルの効率を改善するための、シンプルだが効果的な手法であると結論付けている。

Super-resolution (SR) techniques have recently been proposed to upscale the outputs of neural radiance fields (NeRF) and generate high-quality images with enhanced inference speeds. However, existing NeRF+SR methods increase training overhead by using extra input features, loss functions, and/or expensive training procedures such as knowledge distillation. In this paper, we aim to leverage SR for efficiency gains without costly training or architectural changes. Specifically, we build a simple NeRF+SR pipeline that directly combines existing modules, and we propose a lightweight augmentation technique, random patch sampling, for training. Compared to existing NeRF+SR methods, our pipeline mitigates the SR computing overhead and can be trained up to 23x faster, making it feasible to run on consumer devices such as the Apple MacBook. Experiments show our pipeline can upscale NeRF outputs by 2-4x while maintaining high quality, increasing inference speeds by up to 18x on an NVIDIA V100 GPU and 12.8x on an M1 Pro chip. We conclude that SR can be a simple but effective technique for improving the efficiency of NeRF models for consumer devices.
翻訳日:2023-12-20 18:45:28 公開日:2023-12-15
# 高速決定バウンダリベース分散検出器

Fast Decision Boundary based Out-of-Distribution Detector ( http://arxiv.org/abs/2312.11536v1 )

ライセンス: Link先を確認
Litian Liu and Yao Qin(参考訳) レイテンシクリティカルなアプリケーションにおけるAIの安全なデプロイには、効率的かつ効果的なOOD(Out-of-Distribution)検出が不可欠だ。 近年,特徴空間情報に基づくOOD検出が有効であることが明らかとなった。 しかし、その効果にもかかわらず、トレーニング特徴から構築された補助モデルに依存しているため、OOD法は非無視的な計算オーバーヘッドを引き起こす可能性がある。 本稿では,特徴空間に埋め込まれたリッチな情報を活用しながら,計算効率を最適化する補助モデルを提案する。 決定境界の新しい視点から検討し,決定境界に対する特徴距離を用いたoodの検出を提案する。 距離を計測するコストを最小限に抑えるために,解析的に距離を厳格に下げる効率的な閉形式推定を導入する。 我々は,ID特徴がOOD特徴よりも決定境界から遠ざかる傾向があることを観察した。 我々の観察は、決定境界までの距離がモデルの不確実性を定量化することを考えると、モデルがIDサンプルに対してより決定的な傾向にあるという直感と一致している。 我々は,超パラメータフリー・補助モデルフリーOOD検出器を提案する。 ood検出器は広範囲な実験で最先端の手法の有効性に匹敵する。 一方、OOD検出器は、推論遅延において事実上無視可能なオーバーヘッドを発生させる。 全体として、OOD検出における効率効率と効率性のトレードオフを著しく強化する。

Efficient and effective Out-of-Distribution (OOD) detection is essential for the safe deployment of AI in latency-critical applications. Recently, studies have revealed that detecting OOD based on feature space information can be highly effective. Despite their effectiveness, however, exiting feature space OOD methods may incur non-negligible computational overhead, given their reliance on auxiliary models built from training features. In this paper, we aim to obviate auxiliary models to optimize computational efficiency while leveraging the rich information embedded in the feature space. We investigate from the novel perspective of decision boundaries and propose to detect OOD using the feature distance to decision boundaries. To minimize the cost of measuring the distance, we introduce an efficient closed-form estimation, analytically proven to tightly lower bound the distance. We observe that ID features tend to reside further from the decision boundaries than OOD features. Our observation aligns with the intuition that models tend to be more decisive on ID samples, considering that distance to decision boundaries quantifies model uncertainty. From our understanding, we propose a hyperparameter-free, auxiliary model-free OOD detector. Our OOD detector matches or surpasses the effectiveness of state-of-the-art methods across extensive experiments. Meanwhile, our OOD detector incurs practically negligible overhead in inference latency. Overall, we significantly enhance the efficiency-effectiveness trade-off in OOD detection.
翻訳日:2023-12-20 18:44:50 公開日:2023-12-15
# Customize-It-3D: 主観的知識を用いた単一画像からの高品質3D生成

Customize-It-3D: High-Quality 3D Creation from A Single Image Using Subject-Specific Knowledge Prior ( http://arxiv.org/abs/2312.11535v1 )

ライセンス: Link先を確認
Nan Huang, Ting Zhang, Yuhui Yuan, Dong Chen, Shanghang Zhang(参考訳) 本稿では,参照画像から提供される情報をフル活用して,画像から3D生成に先立ってカスタマイズされた知識を確立する新しい2段階アプローチを提案する。 従来の手法は参照画像と一貫性のある結果を得るのに苦労する一般拡散先行モデルに主に依存するが,本研究では主観的かつマルチモーダル拡散モデルを提案する。 このモデルは、幾何改善のためのシェーディングモードを考慮し、NeRF最適化を支援するだけでなく、粗い結果からテクスチャを強化し、優れた洗練を実現する。 どちらの側面も、3Dコンテンツと主題を忠実に整合させるのに役立ちます。 大規模な実験では、我々の手法であるCustomize-It-3Dの優位性を示し、これまでの成果をかなり上回った。 忠実な360度再現と印象的な視覚的品質を実現し、テキストから3Dまで様々な用途に適している。

In this paper, we present a novel two-stage approach that fully utilizes the information provided by the reference image to establish a customized knowledge prior for image-to-3D generation. While previous approaches primarily rely on a general diffusion prior, which struggles to yield consistent results with the reference image, we propose a subject-specific and multi-modal diffusion model. This model not only aids NeRF optimization by considering the shading mode for improved geometry but also enhances texture from the coarse results to achieve superior refinement. Both aspects contribute to faithfully aligning the 3D content with the subject. Extensive experiments showcase the superiority of our method, Customize-It-3D, outperforming previous works by a substantial margin. It produces faithful 360-degree reconstructions with impressive visual quality, making it well-suited for various applications, including text-to-3D creation.
翻訳日:2023-12-20 18:43:54 公開日:2023-12-15
# 微分プライベートおよび遅延オンライン凸最適化の改善

Improved Differentially Private and Lazy Online Convex Optimization ( http://arxiv.org/abs/2312.11534v1 )

ライセンス: Link先を確認
Naman Agarwal, Satyen Kale, Karan Singh, Abhradeep Guha Thakurta(参考訳) 本稿では,$(\epsilon, \delta)$-differentially private online convex Optimization (OCO)の課題について検討する。 オンライン設定では、個々の決定または繰り返しのリリースは、プライバシーを失う可能性をもたらす。 この問題にはjainらから始まった長い研究の歴史がある。 Agarwal et al. [2012] および {\epsilon {\displaystyle {\epsilon} の非常に小さい状態における最もよく知られた結果が Agarwal et al で発表された。 [2023]. 本稿では,agarwal et alの結果について述べる。 [2023] 次元因子の面から,滑らかさの要件を取り除いた。 この体制では, DP-OCOの成績が最もよく知られている。 我々のアルゴリズムは[Asi et al., 2023] の成果に基づいており、リジェクションサンプリングによるスイッチ数を明示的に制限するという考え方を導入している。 アルゴリズムの主な革新は、強い対数凹密度からのサンプリングを使用することで、より優れた結果をもたらす次元因子のトレードオフを可能にすることである。

We study the task of $(\epsilon, \delta)$-differentially private online convex optimization (OCO). In the online setting, the release of each distinct decision or iterate carries with it the potential for privacy loss. This problem has a long history of research starting with Jain et al. [2012] and the best known results for the regime of {\epsilon} being very small are presented in Agarwal et al. [2023]. In this paper we improve upon the results of Agarwal et al. [2023] in terms of the dimension factors as well as removing the requirement of smoothness. Our results are now the best known rates for DP-OCO in this regime. Our algorithms builds upon the work of [Asi et al., 2023] which introduced the idea of explicitly limiting the number of switches via rejection sampling. The main innovation in our algorithm is the use of sampling from a strongly log-concave density which allows us to trade-off the dimension factors better leading to improved results.
翻訳日:2023-12-20 18:43:37 公開日:2023-12-15
# Topic-VQ-VAE:フレキシブルなトピックガイドドドキュメント生成のための遅延コードブックの活用

Topic-VQ-VAE: Leveraging Latent Codebooks for Flexible Topic-Guided Document Generation ( http://arxiv.org/abs/2312.11532v1 )

ライセンス: Link先を確認
YoungJoon Yoo, Jongwon Choi(参考訳) 本稿では,ベクトル量子化変分オートエンコーダ~(vq-vae)からの潜在コードブックを用いて,事前学習された言語モデルなどの組込みのリッチな情報を離散的にカプセル化する新しい手法を提案する。 潜在コードブックの斬新な解釈と概念的バガオブワードとしての埋め込みから,各潜在コードブックに関連する原文書を逆生成するトピック-vq-vae~(tvq-vae)と呼ばれる新しい生成トピックモデルを提案する。 TVQ-VAEは、従来のBoW分布や自己回帰画像生成など、様々な生成分布でトピックを可視化することができる。 文書解析と画像生成に関する実験結果から,TVQ-VAEはデータセットの基盤構造を明らかにするトピックコンテキストを効果的に捉え,柔軟な文書生成形式をサポートすることを示す。 提案されたTVQ-VAEの公式実装はhttps://github.com/clovaai/TVQ-VAEで公開されている。

This paper introduces a novel approach for topic modeling utilizing latent codebooks from Vector-Quantized Variational Auto-Encoder~(VQ-VAE), discretely encapsulating the rich information of the pre-trained embeddings such as the pre-trained language model. From the novel interpretation of the latent codebooks and embeddings as conceptual bag-of-words, we propose a new generative topic model called Topic-VQ-VAE~(TVQ-VAE) which inversely generates the original documents related to the respective latent codebook. The TVQ-VAE can visualize the topics with various generative distributions including the traditional BoW distribution and the autoregressive image generation. Our experimental results on document analysis and image generation demonstrate that TVQ-VAE effectively captures the topic context which reveals the underlying structures of the dataset and supports flexible forms of document generation. Official implementation of the proposed TVQ-VAE is available at https://github.com/clovaai/TVQ-VAE.
翻訳日:2023-12-20 18:42:54 公開日:2023-12-15
# フェデレーション学習におけるリレー支援オーバーザエアアグリゲーションのためのデバイススケジューリング

Device Scheduling for Relay-assisted Over-the-Air Aggregation in Federated Learning ( http://arxiv.org/abs/2312.12417v1 )

ライセンス: Link先を確認
Fan Zhang, Jining Chen, Kunlun Wang, and Wen Chen(参考訳) フェデレーション学習(fl)は、ネットワークの端に分散したデータを活用し、インテリジェントなアプリケーションを可能にする。 グラデーションアグリゲーションの過程でaircomp(over-the-air computation)技術を用いることで、flの効率を向上させることができる。 本稿では,リレー支援大規模flフレームワークを提案し,電力消費と平均二乗誤差(mse)の制約下でのリレー支援flシステムにおけるデバイススケジューリング問題を検討する。 協調装置スケジューリングと電源割当問題を定式化し、スケジュールデバイス数を最大化する。 我々は、最適化問題を複数のスパース最適化問題に変換することで、非凸最適化問題を解く。 提案した装置スケジューリングアルゴリズムにより、これらのスパースサブプロブレムを解き、フェデレートされた学習エッジデバイスの最大数を求める。 シミュレーションの結果,提案手法は他のベンチマーク手法と比較して有効性が示された。

Federated learning (FL) leverages data distributed at the edge of the network to enable intelligent applications. The efficiency of FL can be improved by using over-the-air computation (AirComp) technology in the process of gradient aggregation. In this paper, we propose a relay-assisted large-scale FL framework, and investigate the device scheduling problem in relay-assisted FL systems under the constraints of power consumption and mean squared error (MSE). we formulate a joint device scheduling, and power allocation problem to maximize the number of scheduled devices. We solve the resultant non-convex optimization problem by transforming the optimization problem into multiple sparse optimization problems. By the proposed device scheduling algorithm, these sparse sub-problems are solved and the maximum number of federated learning edge devices is obtained. The simulation results demonstrate the effectiveness of the proposed scheme as compared with other benchmark schemes.
翻訳日:2023-12-20 14:26:24 公開日:2023-12-15
# 古典的影を用いた連続可変状態トモグラフィの精度境界

Precision Bounds on Continuous-Variable State Tomography using Classical Shadows ( http://arxiv.org/abs/2211.05149v2 )

ライセンス: Link先を確認
Srilekha Gandhari, Victor V. Albert, Thomas Gerrits, Jacob M. Taylor, Michael J. Gullans(参考訳) シャドウトモグラフィー(shadow tomography)は、古典シャドウと呼ばれるランダム化された測定ベースを用いて量子状態の簡潔な記述を構築するためのフレームワークである。 従来の量子状態トモグラフィの実験プロトコルを古典シャドウフレームワークで再キャストし,これらのプロトコルから密度行列を推定するために必要な独立な測定値の数に関する厳密な境界を得た。 我々は,ホモダイン,ヘテロダイン,光子数分解(PNR)および光子パリティプロトコルの効率を解析した。 確率の高い$N$-光子密度行列の古典的影に対する所望の精度に達するためには、ホモダイン検出は最悪の場合$\mathcal{O}(N^{4+1/3})$測定を必要とするのに対し、PNRと光子パリティ検出は最悪の場合$\mathcal{O}(N^4)$測定を必要とする(対数補正の両方)。 本研究は,光学ホモダイン実験の数値シミュレーションと実験データとを比較した。 数値的および実験的なホモダイン・トモグラフィーは我々の限界を著しく上回り、N$で線形に近い測定数のより典型的なスケーリングを示す。 単一モードの結果を局所的な測定に基づくマルチモード影の効率的な構築に拡張する。

Shadow tomography is a framework for constructing succinct descriptions of quantum states using randomized measurement bases, called classical shadows, with powerful methods to bound the estimators used. We recast existing experimental protocols for continuous-variable quantum state tomography in the classical-shadow framework, obtaining rigorous bounds on the number of independent measurements needed for estimating density matrices from these protocols. We analyze the efficiency of homodyne, heterodyne, photon number resolving (PNR), and photon-parity protocols. To reach a desired precision on the classical shadow of an $N$-photon density matrix with a high probability, we show that homodyne detection requires an order $\mathcal{O}(N^{4+1/3})$ measurements in the worst case, whereas PNR and photon-parity detection require $\mathcal{O}(N^4)$ measurements in the worst case (both up to logarithmic corrections). We benchmark these results against numerical simulation as well as experimental data from optical homodyne experiments. We find that numerical and experimental homodyne tomography significantly outperforms our bounds, exhibiting a more typical scaling of the number of measurements that is close to linear in $N$. We extend our single-mode results to an efficient construction of multimode shadows based on local measurements.
翻訳日:2023-12-19 21:32:25 公開日:2023-12-15
# FO-PINNs:物理情報ニューラルネットワークの第一次定式化

FO-PINNs: A First-Order formulation for Physics Informed Neural Networks ( http://arxiv.org/abs/2210.14320v2 )

ライセンス: Link先を確認
Rini J. Gladstone, Mohammad A. Nabian, N. Sukumar, Ankit Srivastava, Hadi Meidani(参考訳) 物理情報ニューラルネットワーク(英: Physics-Informed Neural Networks, PINN)は、物理系の応答をシミュレーションデータなしで学習するディープラーニングニューラルネットワークの一種で、制御偏微分方程式(PDE)を損失関数に組み込むことによってのみ学習する。 PINNは前方および逆問題の解決に有効であるが、パラメータ化システムでは精度が大幅に低下する。 ピンは境界条件のソフトな実装も行っており、境界条件は境界の至る所で正確に課されない。 これらの課題に対処するため、一階物理インフォームドニューラルネットワーク(FO-PINN)を提案する。 これらはPDE損失関数の1次定式化を用いてトレーニングされたPINNである。 また,2次あるいはそれ以上の導関数を計算するのに必要な余分なバックプロパゲーションを取り除くことにより,パラメータ化システムの解法においてfo-pinnは精度が著しく向上することを示した。 さらに、フォピンは近似距離関数を用いて境界条件の正確な付与を可能にし、高次pdesに適用すると問題となる。 3つの例を通して, FO-PINNの精度とトレーニングスピードアップの点で, 標準PINNよりも優れていることを示す。

Physics-Informed Neural Networks (PINNs) are a class of deep learning neural networks that learn the response of a physical system without any simulation data, and only by incorporating the governing partial differential equations (PDEs) in their loss function. While PINNs are successfully used for solving forward and inverse problems, their accuracy decreases significantly for parameterized systems. PINNs also have a soft implementation of boundary conditions resulting in boundary conditions not being exactly imposed everywhere on the boundary. With these challenges at hand, we present first-order physics-informed neural networks (FO-PINNs). These are PINNs that are trained using a first-order formulation of the PDE loss function. We show that, compared to standard PINNs, FO-PINNs offer significantly higher accuracy in solving parameterized systems, and reduce time-per-iteration by removing the extra backpropagations needed to compute the second or higher-order derivatives. Additionally, FO-PINNs can enable exact imposition of boundary conditions using approximate distance functions, which pose challenges when applied on high-order PDEs. Through three examples, we demonstrate the advantages of FO-PINNs over standard PINNs in terms of accuracy and training speedup.
翻訳日:2023-12-19 21:31:43 公開日:2023-12-15
# 低次機能ANOVAモデルへのブースティングによるモデルベースツリーの利用

Using Model-Based Trees with Boosting to Fit Low-Order Functional ANOVA Models ( http://arxiv.org/abs/2207.06950v5 )

ライセンス: Link先を確認
Linwei Hu, Jie Chen, Vijayan N. Nair(参考訳) 低階関数型ANOVA(fANOVA)モデルは、本質的に解釈可能な機械学習の目的のもと、機械学習(ML)コミュニティで再発見された。 Explainable Boosting Machines (Lou et al. 2013) と GAMI-Net (Yang et al. 2021) は、関数的主効果と二階相互作用に適合するMLアルゴリズムである。 我々は,EMMに類似する新しいアルゴリズムであるGAMI-Treeを提案する。 モデルベースツリーをベースラーナーとして使用し、基礎となるインタラクションをキャプチャする上で優れた新しいインタラクションフィルタリング手法を取り入れている。 さらに, 反復学習法は予測性能のよいモデルに収束し, 組込み浄化により, 相互作用が主効果に対して階層的に直交していることを保証する。 このアルゴリズムは広範なチューニングは必要とせず、実装は高速で効率的です。 シミュレーションと実データを用いて,GAMI-Treeの性能と解釈性を比較した。

Low-order functional ANOVA (fANOVA) models have been rediscovered in the machine learning (ML) community under the guise of inherently interpretable machine learning. Explainable Boosting Machines or EBM (Lou et al. 2013) and GAMI-Net (Yang et al. 2021) are two recently proposed ML algorithms for fitting functional main effects and second-order interactions. We propose a new algorithm, called GAMI-Tree, that is similar to EBM, but has a number of features that lead to better performance. It uses model-based trees as base learners and incorporates a new interaction filtering method that is better at capturing the underlying interactions. In addition, our iterative training method converges to a model with better predictive performance, and the embedded purification ensures that interactions are hierarchically orthogonal to main effects. The algorithm does not need extensive tuning, and our implementation is fast and efficient. We use simulated and real datasets to compare the performance and interpretability of GAMI-Tree with EBM and GAMI-Net.
翻訳日:2023-12-19 21:28:56 公開日:2023-12-15
# 通信制約仮説テスト:最適性、堅牢性、逆データ処理の不等式

Communication-constrained hypothesis testing: Optimality, robustness, and reverse data processing inequalities ( http://arxiv.org/abs/2206.02765v2 )

ライセンス: Link先を確認
Ankit Pensia, Varun Jog, Po-Ling Loh(参考訳) コミュニケーション制約下で仮説検証を行い,各サンプルは統計学者に明かされる前に定量化される。 通信制約がなければ、単純な二分仮説テストのサンプル複雑性は分布間のヘルリンガー距離によって特徴づけられることが知られている。 通信制約下での単純な二項仮説テストのサンプル複雑性は、少なくとも制約のない設定よりも大きい対数係数であり、この境界は厳密であることを示す。 上記のサンプル複雑性を実現する多項式時間アルゴリズムを開発した。 我々のフレームワークは、分布が全変動距離で破壊される頑健な仮説テストにまで拡張される。 我々の証明は、新しい逆データ処理の不等式と、独立した関心を持つかもしれない逆マルコフ不等式に依存している。 単純な$M$-ary仮説テストでは、通信制約がない場合のサンプルの複雑さは$M$に対数依存する。 適応アルゴリズムにおいても,通信制約が指数的に爆発的に$\Omega(M)$サンプル複雑性を引き起こす可能性があることを示す。

We study hypothesis testing under communication constraints, where each sample is quantized before being revealed to a statistician. Without communication constraints, it is well known that the sample complexity of simple binary hypothesis testing is characterized by the Hellinger distance between the distributions. We show that the sample complexity of simple binary hypothesis testing under communication constraints is at most a logarithmic factor larger than in the unconstrained setting and this bound is tight. We develop a polynomial-time algorithm that achieves the aforementioned sample complexity. Our framework extends to robust hypothesis testing, where the distributions are corrupted in the total variation distance. Our proofs rely on a new reverse data processing inequality and a reverse Markov inequality, which may be of independent interest. For simple $M$-ary hypothesis testing, the sample complexity in the absence of communication constraints has a logarithmic dependence on $M$. We show that communication constraints can cause an exponential blow-up leading to $\Omega(M)$ sample complexity even for adaptive algorithms.
翻訳日:2023-12-19 21:28:05 公開日:2023-12-15
# POLTER:教師なし強化学習のためのポリシー軌道の正規化

POLTER: Policy Trajectory Ensemble Regularization for Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2205.11357v3 )

ライセンス: Link先を確認
Frederik Schubert, Carolin Benjamins, Sebastian D\"ohler, Bodo Rosenhahn, Marius Lindauer(参考訳) 教師なし強化学習(unsupervised reinforcement learning:url)の目的は、教師なし下流タスクのサンプル効率が向上するように、タスクドメイン上の報酬非依存の事前ポリシーを見つけることである。 このような事前ポリシーで初期化されたエージェントは、下流タスクで微調整された場合、より少ないサンプルではるかに高い報酬を得ることができるが、実際どのように最適な事前訓練された事前ポリシーを達成できるかは、未解決の問題である。 本稿では,任意のurlアルゴリズムに適用可能で,特にデータおよび知識に基づくurlアルゴリズムにおいて有用な事前学習を定式化する一般的な手法であるpolter(policy orbital ensemble regularization)を提案する。 事前トレーニング中に発見されたポリシーのアンサンブルを利用し、URLアルゴリズムのポリシーを最適な優先順位に近づける。 提案手法は理論的枠組みに基づいて,ホワイトボックスベンチマークにおける実用的効果を分析し,POLTERをフルコントロールで研究することができる。 本実験では,12のタスクを3つのドメインに分割したUnsupervised Reinforcement Learning Benchmark (URLB)上でPOLTERを評価した。 本稿では,データと知識に基づく多種多様なURLアルゴリズムの性能を,平均19%,ベストケースで最大40%向上させることで,このアプローチの汎用性を実証する。 調律ベースラインと調律POLTERとを公正に比較し,URLB上のモデルフリーメソッドの最先端性を新たに確立する。

The goal of Unsupervised Reinforcement Learning (URL) is to find a reward-agnostic prior policy on a task domain, such that the sample-efficiency on supervised downstream tasks is improved. Although agents initialized with such a prior policy can achieve a significantly higher reward with fewer samples when finetuned on the downstream task, it is still an open question how an optimal pretrained prior policy can be achieved in practice. In this work, we present POLTER (Policy Trajectory Ensemble Regularization) - a general method to regularize the pretraining that can be applied to any URL algorithm and is especially useful on data- and knowledge-based URL algorithms. It utilizes an ensemble of policies that are discovered during pretraining and moves the policy of the URL algorithm closer to its optimal prior. Our method is based on a theoretical framework, and we analyze its practical effects on a white-box benchmark, allowing us to study POLTER with full control. In our main experiments, we evaluate POLTER on the Unsupervised Reinforcement Learning Benchmark (URLB), which consists of 12 tasks in 3 domains. We demonstrate the generality of our approach by improving the performance of a diverse set of data- and knowledge-based URL algorithms by 19% on average and up to 40% in the best case. Under a fair comparison with tuned baselines and tuned POLTER, we establish a new state-of-the-art for model-free methods on the URLB.
翻訳日:2023-12-19 21:27:48 公開日:2023-12-15
# recurseed と edgepredictmix: シングルステージとマルチステージフレームワーク間の弱い教師付きセマンティックセグメンテーションのための擬似ラベルリファインメント学習

RecurSeed and EdgePredictMix: Pseudo-Label Refinement Learning for Weakly Supervised Semantic Segmentation across Single- and Multi-Stage Frameworks ( http://arxiv.org/abs/2204.06754v4 )

ライセンス: Link先を確認
Sanghyun Jo, In-Jae Yu, Kyungsu Kim(参考訳) 画像レベルラベル(wsss-il)のみを用いた、弱い教師付きセマンティックセグメンテーションは潜在的に有用であるが、その低パフォーマンスと実装の複雑さはアプリケーションを制限する。 主な原因は (a)非検出、及び (b)誤検出現象 (a) 既存のWSSS-ILメソッドから洗練されているクラスアクティベーションマップは、いまだに大規模オブジェクトの部分領域のみを表すものであり、 (b)小規模オブジェクトの場合、過剰なアクティベーションはオブジェクトエッジから外れる原因となる。 本稿では,再帰的反復による非誤検出を交互に削減し,両方の誤りを最小化する最適ジャンクションを暗黙的に見つけるRecurSeedを提案する。 また,既存DA手法をWSSSに適用する際の欠点を補うために,隣接画素間の確率差情報を利用してオブジェクトのエッジを更に表現する,EdgePredictMixと呼ばれる新しいデータ拡張(DA)手法を提案する。 PASCAL VOC 2012とMS COCO 2014ベンチマーク(VOC val:74.4%、COCO val:46.4%)で、最先端のパフォーマンスを新たに達成しました。 コードはhttps://github.com/shjo-april/RecurSeed_and_EdgePredictMixで公開されている。

Although weakly supervised semantic segmentation using only image-level labels (WSSS-IL) is potentially useful, its low performance and implementation complexity still limit its application. The main causes are (a) non-detection and (b) false-detection phenomena: (a) The class activation maps refined from existing WSSS-IL methods still only represent partial regions for large-scale objects, and (b) for small-scale objects, over-activation causes them to deviate from the object edges. We propose RecurSeed, which alternately reduces non- and false detections through recursive iterations, thereby implicitly finding an optimal junction that minimizes both errors. We also propose a novel data augmentation (DA) approach called EdgePredictMix, which further expresses an object's edge by utilizing the probability difference information between adjacent pixels in combining the segmentation results, thereby compensating for the shortcomings when applying the existing DA methods to WSSS. We achieved new state-of-the-art performances on both the PASCAL VOC 2012 and MS COCO 2014 benchmarks (VOC val: 74.4%, COCO val: 46.4%). The code is available at https://github.com/shjo-april/RecurSeed_and_EdgePredictMix.
翻訳日:2023-12-19 21:27:21 公開日:2023-12-15
# 局所微分プライバシーと通信制約下での単純な二項仮説検証

Simple Binary Hypothesis Testing under Local Differential Privacy and Communication Constraints ( http://arxiv.org/abs/2301.03566v2 )

ライセンス: Link先を確認
Ankit Pensia, Amir R. Asadi, Varun Jog, Po-Ling Loh(参考訳) 我々は,ローカルディファレンシャルプライバシ(ldp)と通信制約の両方の下で,単純な二項仮説テストを行った。 前者は所定のヘリンジャー発散と全変動距離を持つ分布対の集合、後者は特定の分布対の集合の集合である。 純粋な LDP 制約下での単純な仮説テストのサンプル複雑性について、二元性を持つ分布のインスタンス最適境界、一般分布の最小最適境界、および(およそ)一般分布のインスタンス最適計算効率アルゴリズムを確立する。 プライバシと通信の制約がある場合、最小のサンプル複雑性(普遍定数まで)を達成するインスタンス最適化、計算効率のよいアルゴリズムを開発する。 共役範囲の極端点を識別するインスタンス最適化アルゴリズムのヒンジでは、$\mathcal A$ と $q$ を$\mathcal A := \{(\mathbf T p, \mathbf T q) | \mathbf T \in \mathcal C\}$ と定義し、$\mathcal C$ は制約を特徴づけるチャネルの集合である。

We study simple binary hypothesis testing under both local differential privacy (LDP) and communication constraints. We qualify our results as either minimax optimal or instance optimal: the former hold for the set of distribution pairs with prescribed Hellinger divergence and total variation distance, whereas the latter hold for specific distribution pairs. For the sample complexity of simple hypothesis testing under pure LDP constraints, we establish instance-optimal bounds for distributions with binary support; minimax-optimal bounds for general distributions; and (approximately) instance-optimal, computationally efficient algorithms for general distributions. When both privacy and communication constraints are present, we develop instance-optimal, computationally efficient algorithms that achieve the minimum possible sample complexity (up to universal constants). Our results on instance-optimal algorithms hinge on identifying the extreme points of the joint range set $\mathcal A$ of two distributions $p$ and $q$, defined as $\mathcal A := \{(\mathbf T p, \mathbf T q) | \mathbf T \in \mathcal C\}$, where $\mathcal C$ is the set of channels characterizing the constraints.
翻訳日:2023-12-19 21:19:19 公開日:2023-12-15
# 量子コンピューティングと量子プログラミングを教えるプログラミング・アサインメントの開発

Developing Programming Assignments for Teaching Quantum Computing and Quantum Programming ( http://arxiv.org/abs/2211.16347v2 )

ライセンス: Link先を確認
Mariia Mykhailova(参考訳) 本報告では、量子コンピューティングを実践的に教えるために使用できる様々なプログラミング課題について述べる。 これらの課題により、学習者は量子コンピューティングの問題を解決すること、プログラムのデバッグ、リソース推定の実行、量子ハードウェア上でのコード実行など、量子ソフトウェア開発プロセスのあらゆる段階を経験することができる。

This report describes a variety of programming assignments that can be used to teach quantum computing in a practical manner. These assignments let the learners get hands-on experience with all stages of quantum software development process, from solving quantum computing problems and implementing the solutions to debugging the programs, performing resource estimation, and running the code on quantum hardware.
翻訳日:2023-12-19 21:17:28 公開日:2023-12-15
# インタラクティブなビジュアル特徴検索

Interactive Visual Feature Search ( http://arxiv.org/abs/2211.15060v2 )

ライセンス: Link先を確認
Devon Ulrich and Ruth Fong(参考訳) コンピュータビジョンモデルの振る舞いを説明するために多くの可視化技術が作成されているが、それらは主に限られた情報を伝える静的図で構成されている。 インタラクティブな視覚化により、ユーザーはモデルの振る舞いをより容易に解釈できるが、その多くは新しいモデルでは簡単に再利用できない。 我々は,任意のcnnに適応可能で,研究者のワークフローに容易に組み込むことのできる,インタラクティブなインタラクティブ可視化であるvisual feature searchを紹介する。 このツールは、ユーザが画像領域を強調表示し、最もよく似たモデル機能を備えたデータセットから画像を検索できる。 我々は,医療画像や野生生物の分類など,様々な応用実験を行うことで,モデル行動の異なる側面を解明する方法を実証する。

Many visualization techniques have been created to explain the behavior of computer vision models, but they largely consist of static diagrams that convey limited information. Interactive visualizations allow users to more easily interpret a model's behavior, but most are not easily reusable for new models. We introduce Visual Feature Search, a novel interactive visualization that is adaptable to any CNN and can easily be incorporated into a researcher's workflow. Our tool allows a user to highlight an image region and search for images from a given dataset with the most similar model features. We demonstrate how our tool elucidates different aspects of model behavior by performing experiments on a range of applications, such as in medical imaging and wildlife classification.
翻訳日:2023-12-19 21:17:21 公開日:2023-12-15
# ニューラルメタシンボリック推論と学習

Neural Meta-Symbolic Reasoning and Learning ( http://arxiv.org/abs/2211.11650v2 )

ライセンス: Link先を確認
Zihan Ye, Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting(参考訳) ディープラーニングは、計算量の増加とデータを使用して、非常に具体的な問題を解決する。 対照的に、人間の心は一定量の計算と限られた経験を用いて幅広い問題を解決する。 この種の一般的な知性にとって不可欠と思われる能力の一つは、メタリゾナリング、すなわち推論を推論する能力である。 深層学習をより少なくするために,一階述語論理における微分可能前方鎖推論を用いたメタプログラミングという,推論と学習のための最初のニューラルメタシンボリックシステム(NEMESYS)を提案する。 異なるメタプログラミングにより、NEMESYSはいくつかのタスクを効率的に推論し学習することができる。 これは、何らかの方法でシステム外部のエンティティを参照する、オブジェクト指向の深い推論と学習の実行とは異なる。 対照的に、nemesysは自己イントロスペクションを可能にし、オブジェクトからメタレベルの推論を持ち上げます。 我々は,NEMESYSが内部推論システムを変更することなく,メタレベルのプログラムを適応させることにより,様々なタスクを解くことができることを示した。 さらに,NEMESYSは,実例からメタレベルのプログラムを学習できることを示す。 これは標準的な微分可能論理プログラミングでは難しいが不可能ではない

Deep neural learning uses an increasing amount of computation and data to solve very specific problems. By stark contrast, human minds solve a wide range of problems using a fixed amount of computation and limited experience. One ability that seems crucial to this kind of general intelligence is meta-reasoning, i.e., our ability to reason about reasoning. To make deep learning do more from less, we propose the first neural meta-symbolic system (NEMESYS) for reasoning and learning: meta programming using differentiable forward-chaining reasoning in first-order logic. Differentiable meta programming naturally allows NEMESYS to reason and learn several tasks efficiently. This is different from performing object-level deep reasoning and learning, which refers in some way to entities external to the system. In contrast, NEMESYS enables self-introspection, lifting from object- to meta-level reasoning and vice versa. In our extensive experiments, we demonstrate that NEMESYS can solve different kinds of tasks by adapting the meta-level programs without modifying the internal reasoning system. Moreover, we show that NEMESYS can learn meta-level programs given examples. This is difficult, if not impossible, for standard differentiable logic programming
翻訳日:2023-12-19 21:17:10 公開日:2023-12-15
# オンライン計量アルゴリズムの混合予測

Mixing predictions for online metric algorithms ( http://arxiv.org/abs/2304.01781v2 )

ライセンス: Link先を確認
Antonios Antoniadis and Christian Coester and Marek Eli\'a\v{s} and Adam Polak and Bertrand Simon(参考訳) オンラインアルゴリズムの学習における主要なテクニックは、複数のアルゴリズムや予測器を組み合わせることである。 各予測器の性能は時間とともに変化するため、ベンチマークとして最適な予測器ではなく、異なるタイミングで異なる予測器に従う動的組み合わせを使用することが望ましい。 我々は、予測を組み合わせるアルゴリズムを設計し、様々なオンライン問題、すなわちメートル法タスクシステムに対してそのような動的組み合わせと競合する。 最高の(後から見て)$\ell$予測器の制約のない組み合わせに対して、我々は$o(\ell^2)$の競合比を取得し、これが最善であることを示す。 しかし、異なる予測子間のスイッチ数がわずかに制限されたベンチマークでは、$(1+\epsilon)$-competitiveアルゴリズムが得られる。 さらに,我々のアルゴリズムは,バンディットのような方法で予測器にアクセスするように適応することができ,同時に1つの予測器のみを問い合わせることができる。 k$-server問題の定式化をカバーする新しい構造的洞察が、私たちの下限の1つに予期せぬ意味を持つ。

A major technique in learning-augmented online algorithms is combining multiple algorithms or predictors. Since the performance of each predictor may vary over time, it is desirable to use not the single best predictor as a benchmark, but rather a dynamic combination which follows different predictors at different times. We design algorithms that combine predictions and are competitive against such dynamic combinations for a wide class of online problems, namely, metrical task systems. Against the best (in hindsight) unconstrained combination of $\ell$ predictors, we obtain a competitive ratio of $O(\ell^2)$, and show that this is best possible. However, for a benchmark with slightly constrained number of switches between different predictors, we can get a $(1+\epsilon)$-competitive algorithm. Moreover, our algorithms can be adapted to access predictors in a bandit-like fashion, querying only one predictor at a time. An unexpected implication of one of our lower bounds is a new structural insight about covering formulations for the $k$-server problem.
翻訳日:2023-12-19 21:08:42 公開日:2023-12-15
# ランダムアンサンブルに対する補間クロスバリデーション

Extrapolated cross-validation for randomized ensembles ( http://arxiv.org/abs/2302.13511v3 )

ライセンス: Link先を確認
Jin-Hong Du, Pratik Patil, Kathryn Roeder, Arun Kumar Kuchibhotla(参考訳) バッジやランダムな森林といったアンサンブルの手法は、財務学からゲノム学まで、様々な分野で広く使われている。 その頻度にもかかわらず、アンサンブルパラメータの効率的なチューニングに関する問題は比較的注目されていない。 本稿では,ランダム化アンサンブルにおけるアンサンブルとサブアンブルサイズを調整するためのクロスバリデーション法ECV(Extrapolated Cross-Validation)を提案する。 提案手法は,小アンサンブルサイズの初期推定器と,予測リスクの分解構造を利用した新しいリスク外挿手法の2つを主成分として構築した。 アンサンブルおよびサブサンプルサイズに対するリスク外挿手法の一様整合性を確立することにより、正方形予測リスクに対してECVが$\delta$-optimal(オラクル調整リスクに関する)アンサンブルを得ることを示す。 この理論は一般的なアンサンブル予測器に対応しており、穏やかなモーメント仮定しか必要とせず、サンプルサイズで特徴次元が大きくなる高次元のレジームを可能にする。 実践的なケーススタディとして、ランダムな森林を用いた単細胞マルチオミクスにおける遺伝子発現から表面タンパク質量の予測にECVを用いる。 サンプル分割クロスバリデーションと$K$-foldクロスバリデーションと比較して、ECVはサンプル分割を避けて高い精度を達成する。 同時に、その計算コストはリスク外挿技術を用いることにより大幅に低下する。 さらに,最大アンサンブルサイズに対する計算制約の下で,複数の共通アンサンブル予測器に対するECVの有限サンプル精度を検証した。

Ensemble methods such as bagging and random forests are ubiquitous in various fields, from finance to genomics. Despite their prevalence, the question of the efficient tuning of ensemble parameters has received relatively little attention. This paper introduces a cross-validation method, ECV (Extrapolated Cross-Validation), for tuning the ensemble and subsample sizes in randomized ensembles. Our method builds on two primary ingredients: initial estimators for small ensemble sizes using out-of-bag errors and a novel risk extrapolation technique that leverages the structure of prediction risk decomposition. By establishing uniform consistency of our risk extrapolation technique over ensemble and subsample sizes, we show that ECV yields $\delta$-optimal (with respect to the oracle-tuned risk) ensembles for squared prediction risk. Our theory accommodates general ensemble predictors, only requires mild moment assumptions, and allows for high-dimensional regimes where the feature dimension grows with the sample size. As a practical case study, we employ ECV to predict surface protein abundances from gene expressions in single-cell multiomics using random forests. In comparison to sample-split cross-validation and $K$-fold cross-validation, ECV achieves higher accuracy avoiding sample splitting. At the same time, its computational cost is considerably lower owing to the use of the risk extrapolation technique. Additional numerical results validate the finite-sample accuracy of ECV for several common ensemble predictors under a computational constraint on the maximum ensemble size.
翻訳日:2023-12-19 21:04:29 公開日:2023-12-15
# 2層ニューラルネットワークの学習方法

How Two-Layer Neural Networks Learn, One (Giant) Step at a Time ( http://arxiv.org/abs/2305.18270v3 )

ライセンス: Link先を確認
Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic Stephan(参考訳) 本研究では,2層ニューラルネットワークの特徴がターゲット関数の構造にどのように適応するかを,いくつかのバッチ勾配降下ステップを通じて理論的に検討し,初期化に関する近似容量の改善に繋がる。 バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。 単一の勾配ステップでは、サイズ$n = \mathcal{O}(d)$のバッチは、単一の方向しか学べないが、ターゲット関数と整合するのに必要で十分である。 対照的に、$n = \mathcal{O}(d^2)$は単一の勾配ステップで標的の複数の関連方向を専門化するニューロンにとって必須である。 この場合でさえ、$n = \mathcal{o}(d^\ell)$ のサンプルを必要とする ``hard''' 方向が存在する可能性を示し、ここで$\ell$ は目標の leap index として知られている。 図は、複数の勾配ステップを大幅に改善する:$n = \mathcal{O}(d)$のバッチサイズは、階段の特性を満たす複数の目標方向を学習するのに十分であることを示す。 最後に、これらの方向が初期化に対する近似容量と一般化誤差を劇的に改善し、ランダム特徴/遅延レジームと特徴学習レジーム間のスケールの分離を示す。 技術分析では, 濃度, 投影型条件づけ, ガウス同値に関する手法を組み合わせることで, それぞれが独立に関心を持つと考えられる。 特殊化と学習に必要な条件をピン留めすることで、我々はバッチサイズと反復回数の相互作用を強調し、学習性能が時間とバッチサイズとともに正確性を示す階層的な描写をもたらし、ニューラルネットワークがデータの特徴にどのように適応するかを新たな光を当てる。

We investigate theoretically how the features of a two-layer neural network adapt to the structure of the target function through a few large batch gradient descent steps, leading to improvement in the approximation capacity with respect to the initialization. We compare the influence of batch size and that of multiple (but finitely many) steps. For a single gradient step, a batch of size $n = \mathcal{O}(d)$ is both necessary and sufficient to align with the target function, although only a single direction can be learned. In contrast, $n = \mathcal{O}(d^2)$ is essential for neurons to specialize to multiple relevant directions of the target with a single gradient step. Even in this case, we show there might exist ``hard'' directions requiring $n = \mathcal{O}(d^\ell)$ samples to be learned, where $\ell$ is known as the leap index of the target. The picture drastically improves over multiple gradient steps: we show that a batch-size of $n = \mathcal{O}(d)$ is indeed enough to learn multiple target directions satisfying a staircase property, where more and more directions can be learned over time. Finally, we discuss how these directions allows to drastically improve the approximation capacity and generalization error over the initialization, illustrating a separation of scale between the random features/lazy regime, and the feature learning regime. Our technical analysis leverages a combination of techniques related to concentration, projection-based conditioning, and Gaussian equivalence which we believe are of independent interest. By pinning down the conditions necessary for specialization and learning, our results highlight the interaction between batch size and number of iterations, and lead to a hierarchical depiction where learning performance exhibits a stairway to accuracy over time and batch size, shedding new light on how neural networks adapt to features of the data.
翻訳日:2023-12-19 20:58:25 公開日:2023-12-15
# コヒーレント状態分解による量子光学のシミュレーション

Simulation of quantum optics by coherent state decomposition ( http://arxiv.org/abs/2305.17099v3 )

ライセンス: Link先を確認
Jeffrey Marshall, Namit Anand(参考訳) 我々は、系をコヒーレント状態の有限ランク(項数)重ね合わせに分解することで量子光学をシミュレートする枠組みを導入する。 これにより、線型光学演算が「自由」であり(すなわち、ランクを増加させない)、$m$モードシステムのシミュレーション複雑性は、ヒルベルト空間次元とは全く対照的に、2乗的に$m$でスケールできる資源理論を定義することができる。 特にボソンサンプリング(boson sampling)では、出力振幅を計算するためのシミュレーション時間(スペース)の複雑さが、任意の精度で、$m$モードに分散した$n$光子に対して$o(m^2 2^n)$(o(m2^n)$)とスケールされる。 さらに、最初に同じモードの$n$光子を用いた線形光学シミュレーションは、$O(m^2 n)$のように効率よくスケールすることを示した。 このパラダイムは「古典的でない」という実践的な概念、すなわちシミュレーションに必要な古典的な資源を提供する。 さらに、星階定式化と結びつくことにより、これは2つの独立した寄与、単光子加算数、およびスクイージング量から生じるものであることを示す。

We introduce a framework for simulating quantum optics by decomposing the system into a finite rank (number of terms) superposition of coherent states. This allows us to define a resource theory, where linear optical operations are 'free' (i.e., do not increase the rank), and the simulation complexity for an $m$-mode system scales quadratically in $m$, in stark contrast to the Hilbert space dimension. We outline this approach explicitly in the Fock basis, relevant in particular for Boson sampling, where the simulation time (space) complexity for computing output amplitudes, to arbitrary accuracy, scales as $O(m^2 2^n)$ ($O(m2^n)$), for $n$ photons distributed amongst $m$ modes. We additionally demonstrate that linear optical simulations with the $n$ photons initially in the same mode scales efficiently, as $O(m^2 n)$. This paradigm provides a practical notion of 'non-classicality', i.e., the classical resources required for simulation. Moreover, by making connections to the stellar rank formalism, we show this comes from two independent contributions, the number of single-photon additions, and the amount of squeezing.
翻訳日:2023-12-19 20:57:08 公開日:2023-12-15
# VidEdit:ゼロショットと空間対応のテキスト駆動ビデオ編集

VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing ( http://arxiv.org/abs/2306.08707v3 )

ライセンス: Link先を確認
Paul Couairon, Cl\'ement Rambour, Jean-Emmanuel Haugeard, Nicolas Thome(参考訳) 近年,拡散に基づく生成モデルが画像生成と編集において大きな成功を収めている。 しかし、ビデオ編集には依然として重要な制限がある。 本稿では,強い時間的・空間的一貫性を確保したゼロショットテキストベースの映像編集手法であるvideditを提案する。 まず,アトラスベースと事前学習したテキスト-画像拡散モデルを組み合わせて,時間的滑らかさを設計する訓練不要で効率的な編集方法を提案する。 第2に,既製パン光学セグメンタとエッジ検出器を併用し,条件付き拡散型アトラス編集に応用する。 これにより、元のビデオの構造を厳格に保ちながら、ターゲット領域の正確な空間的制御が保証される。 定量的および定性的な実験により、VidEditは、意味的忠実性、画像保存、時間的一貫性のメトリクスに関して、DAVISデータセット上で最先端の手法より優れていることが示された。 このフレームワークでは、単一のビデオを処理するのに約1分しかかからず、ユニークなテキストプロンプトに基づいて複数の互換性のある編集を生成することができる。 Project Web-page at https://videdit.github.io

Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io
翻訳日:2023-12-19 20:44:19 公開日:2023-12-15
# 血圧測定技術に関する調査研究 : バイアスの潜在的源への取り組み

A Survey on Blood Pressure Measurement Technologies: Addressing Potential Sources of Bias ( http://arxiv.org/abs/2306.08451v3 )

ライセンス: Link先を確認
Seyedeh Somayyeh Mousavi and Matthew A. Reyna and Gari D. Clifford and Reza Sameni(参考訳) 心臓血管疾患の予防, 診断, 治療, 管理において, 臨床および止血環境における定期的な血圧モニタリングが重要な役割を担っている。 近年, 降圧性bp測定装置の普及は, 高血圧の頻度の増加とそれに伴うリスク, 臨床状況が主な要因となっている。 最近のガイドラインでは、定期的な臨床訪問や自宅でのBPモニタリングが推奨されている。 このBP測定技術の利用の増加は、BP値が設定全体にわたって精度が高いという重大な懸念を引き起こしている。 本調査では, カフベースのBPモニタリング技術を中心に, 測定やデバイスエラー, 人口統計, 身体習慣などの要因により, BP測定が有意なバイアスやばらつきを生じさせるかを強調した。 これら固有のバイアスにより、人工知能(AI)を用いた新しい世代のカフベースのBPデバイスの開発が大きな可能性を秘めている。 本稿では, BP関連研究における広範な臨床文献と, 電子カルテで利用可能なBP記録の収集をAI支援技術が活用できる今後の道筋について述べる。 これらのリソースは、ディープラーニングやベイジアン推論などの機械学習アプローチと組み合わせて、BP測定バイアスを除去し、個別化されたBP関連心血管リスク指標を提供する。

Regular blood pressure (BP) monitoring in clinical and ambulatory settings plays a crucial role in the prevention, diagnosis, treatment, and management of cardiovascular diseases. Recently, the widespread adoption of ambulatory BP measurement devices has been driven predominantly by the increased prevalence of hypertension and its associated risks and clinical conditions. Recent guidelines advocate for regular BP monitoring as part of regular clinical visits or even at home. This increased utilization of BP measurement technologies has brought up significant concerns, regarding the accuracy of reported BP values across settings. In this survey, focusing mainly on cuff-based BP monitoring technologies, we highlight how BP measurements can demonstrate substantial biases and variances due to factors such as measurement and device errors, demographics, and body habitus. With these inherent biases, the development of a new generation of cuff-based BP devices which use artificial-intelligence (AI) has significant potential. We present future avenues where AI-assisted technologies can leverage the extensive clinical literature on BP-related studies together with the large collections of BP records available in electronic health records. These resources can be combined with machine learning approaches, including deep learning and Bayesian inference, to remove BP measurement biases and to provide individualized BP-related cardiovascular risk indexes.
翻訳日:2023-12-19 20:43:48 公開日:2023-12-15
# 共形予測集合の期待サイズについて

On the Expected Size of Conformal Prediction Sets ( http://arxiv.org/abs/2306.07254v2 )

ライセンス: Link先を確認
Guneet S. Dhillon and George Deligiannidis and Tom Rainforth(参考訳) 共形予測器は誤差周波数に対する厳密な統計的保証の利点を享受するが、それに対応する予測セットのサイズは実用上重要である。 残念ながら、現在有限サンプル解析が欠如しており、予測セットのサイズが保証されている。 この欠点に対処するため、我々は分割共形予測フレームワークの下で予測セットの予測サイズを理論的に定量化する。 この正確な定式化は通常は直接計算できないため、経験的に計算できる点推定と高確率区間境界を導出し、期待される設定サイズを特徴づける実用的な方法を提供する。 回帰と分類の両問題に対する実世界のデータセットを用いた実験により,結果の有効性を裏付ける。

While conformal predictors reap the benefits of rigorous statistical guarantees on their error frequency, the size of their corresponding prediction sets is critical to their practical utility. Unfortunately, there is currently a lack of finite-sample analysis and guarantees for their prediction set sizes. To address this shortfall, we theoretically quantify the expected size of the prediction sets under the split conformal prediction framework. As this precise formulation cannot usually be calculated directly, we further derive point estimates and high-probability interval bounds that can be empirically computed, providing a practical method for characterizing the expected set size. We corroborate the efficacy of our results with experiments on real-world datasets for both regression and classification problems.
翻訳日:2023-12-19 20:43:27 公開日:2023-12-15
# Polite Flamingoによるビジュアルインストラクションチューニング

Visual Instruction Tuning with Polite Flamingo ( http://arxiv.org/abs/2307.01003v2 )

ライセンス: Link先を確認
Delong Chen, Jianfeng Liu, Wenliang Dai, Baoyuan Wang(参考訳) 近年の研究では、注釈付き下流視覚言語データセットを用いたマルチモーダル大規模言語モデル(LLM)のマルチタスク微調整により、その性能が著しく向上することが示されている。 しかし、この過程において、我々は「マルチモーダルアライメント税(multi-modal alignment tax)」と呼ばれる副作用が表面化している。 この副作用は、モデルの応答を適切にフォーマットする能力に悪影響を及ぼします -- 例えば、その"政治性"は、生のアノテーションの過度に簡潔で非形式的な性質のためです。 本稿では,生のアノテーションをより魅力的な "ポリテ" 形式に変換するマルチモーダル応答リライトである polite flamingo を紹介する。 Polite Flamingoは、自動的に歪んだ応答から高品質な応答を再構築するように訓練され、その後、応答書き換えのために多数の視覚言語データセットに適用される。 厳密なフィルタリングの後、PF-1Mデータセットを生成し、マルチモーダルLCMを微調整することでその価値をさらに検証する。 U字型マルチステージチューニングやマルチターン強化といった新しい手法と組み合わせて、結果のモデルであるClever Flamingoは、自動評価と人的評価によるマルチモーダル理解と応答の丁寧さの両方において、その利点を実証する。

Recent research has demonstrated that the multi-task fine-tuning of multi-modal Large Language Models (LLMs) using an assortment of annotated downstream vision-language datasets significantly enhances their performance. Yet, during this process, a side effect, which we termed as the "multi-modal alignment tax", surfaces. This side effect negatively impacts the model's ability to format responses appropriately -- for instance, its "politeness" -- due to the overly succinct and unformatted nature of raw annotations, resulting in reduced human preference. In this paper, we introduce Polite Flamingo, a multi-modal response rewriter that transforms raw annotations into a more appealing, "polite" format. Polite Flamingo is trained to reconstruct high-quality responses from their automatically distorted counterparts and is subsequently applied to a vast array of vision-language datasets for response rewriting. After rigorous filtering, we generate the PF-1M dataset and further validate its value by fine-tuning a multi-modal LLM with it. Combined with novel methodologies including U-shaped multi-stage tuning and multi-turn augmentation, the resulting model, Clever Flamingo, demonstrates its advantages in both multi-modal understanding and response politeness according to automated and human evaluations.
翻訳日:2023-12-19 20:30:12 公開日:2023-12-15
# MarkovGen: 効率的なテキスト・画像生成のための構造化予測

MarkovGen: Structured Prediction for Efficient Text-to-Image Generation ( http://arxiv.org/abs/2308.10997v3 )

ライセンス: Link先を確認
Sadeep Jayasumana, Daniel Glasner, Srikumar Ramalingam, Andreas Veit, Ayan Chakrabarti, Sanjiv Kumar(参考訳) 現代のテキスト画像生成モデルは、テキストプロンプトに忠実でフォトリアリスティックな高品質な画像を生成する。 これらのモデルのほとんどは反復的であり、大規模なモデルで何度もサンプリングを実行する必要がある。 この反復プロセスは、画像の異なる領域がテキストプロンプトと一致しているだけでなく、互いに互換性があることを保証するために必要である。 本研究では,マルコフランダム場(MRF)モデルを用いて,画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。 本手法の有効性を,潜在トークンベースのMuseテキスト・画像モデル上で実証する。 MRFは、異なる空間位置における画像トークン間の互換性を豊かに符号化し、品質を改善し、Museサンプリングの必要な回数を大幅に削減する。 MRFによる推論は非常に安価であり、そのパラメータは、MRF推論を微分可能なニューラルネットワーク層としてモデル化することで、バックプロパゲーションを通じて迅速に学習することができる。 私たちのフルモデルであるMarkovGenは、提案したMRFモデルを使用して、Museを1.5倍高速化し、望ましくない画像アーティファクトを減らして高品質な画像を生成する。

Modern text-to-image generation models produce high-quality images that are both photorealistic and faithful to the text prompts. However, this quality comes at significant computational cost: nearly all of these models are iterative and require running sampling multiple times with large models. This iterative process is needed to ensure that different regions of the image are not only aligned with the text prompt, but also compatible with each other. In this work, we propose a light-weight approach to achieving this compatibility between different regions of an image, using a Markov Random Field (MRF) model. We demonstrate the effectiveness of this method on top of the latent token-based Muse text-to-image model. The MRF richly encodes the compatibility among image tokens at different spatial locations to improve quality and significantly reduce the required number of Muse sampling steps. Inference with the MRF is significantly cheaper, and its parameters can be quickly learned through back-propagation by modeling MRF inference as a differentiable neural-network layer. Our full model, MarkovGen, uses this proposed MRF model to both speed up Muse by 1.5X and produce higher quality images by decreasing undesirable image artifacts.
翻訳日:2023-12-19 20:19:50 公開日:2023-12-15
# Selenite: 大規模言語モデルから取り除かれた包括的概要を備えたオンラインセンスメイキング

Selenite: Scaffolding Online Sensemaking with Comprehensive Overviews Elicited from Large Language Models ( http://arxiv.org/abs/2310.02161v3 )

ライセンス: Link先を確認
Michael Xieyang Liu, Tongshuang Wu, Tianying Chen, Franklin Mingzhe Li, Aniket Kittur, Brad A. Myers(参考訳) 不慣れなドメインでのセンス作成は困難であり、さまざまな基準に関して異なる選択肢を比較するためにかなりのユーザ努力を必要とする。 以前の調査やフォーマティブな調査では、前もって有用な基準を含む情報空間の概観を読むことで、人々が恩恵を受けることが分かった。 しかし、既存のセンスメイキングツールは"コールドスタート"問題に苦しむ -- これらの概要を生成し共有するために、以前のユーザからかなりのインプットを必要とするだけでなく、そのような概要は偏りがあり不完全である可能性がある。 本研究では,LLMを推論機や知識検索機として活用し,ユーザの感覚形成過程を飛躍させるための選択肢と基準の包括的概要を自動生成する,新しいシステムであるSeleniteを紹介する。 次に、Seleniteは、ユーザーが慣れていない情報を体系的かつパーソナライズされた方法で見つけ、読み、ナビゲートするのを助ける。 3つの研究を通して,Seleniteは正確かつ高品質な概要を確実に生成し,ユーザの情報処理を著しく促進し,全体的な理解とセンスメイキング体験を効果的に改善した。

Sensemaking in unfamiliar domains can be challenging, demanding considerable user effort to compare different options with respect to various criteria. Prior research and our formative study found that people would benefit from reading an overview of an information space upfront, including the criteria others previously found useful. However, existing sensemaking tools struggle with the "cold-start" problem -- not only requiring significant input from previous users to generate and share these overviews, but also that such overviews may turn out to be biased and incomplete. In this work, we introduce a novel system, Selenite, which leverages LLMs as reasoning machines and knowledge retrievers to automatically produce a comprehensive overview of options and criteria to jumpstart users' sensemaking processes. Subsequently, Selenite also adapts as people use it, helping users find, read, and navigate unfamiliar information in a systematic yet personalized manner. Through three studies, we found that Selenite produced accurate and high-quality overviews reliably, significantly accelerated users' information processing, and effectively improved their overall comprehension and sensemaking experience.
翻訳日:2023-12-19 20:11:22 公開日:2023-12-15
# プロトタイプベース平均教師によるオブジェクト検出のためのマルチソースドメイン適応

Multi-Source Domain Adaptation for Object Detection with Prototype-based Mean-teacher ( http://arxiv.org/abs/2309.14950v2 )

ライセンス: Link先を確認
Atif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger(参考訳) 視覚オブジェクト検出器を操作対象領域に適応させることは難しい課題であり、一般には教師なし領域適応(UDA)法を用いて達成される。 最近の研究では、ラベル付きデータセットが複数のソースドメインから来ている場合、それらを別々のドメインとして扱い、マルチソースドメイン適応(MSDA)を実行することで、これらのソースドメインをブレンドしてUDAを実行するよりも正確性と堅牢性を向上させることが示されている。 適応のために、既存のMSDAメソッドはドメイン不変およびドメイン固有パラメータ(各ソースドメイン)を学ぶ。 しかし、単一ソースのUDAメソッドとは異なり、ドメイン固有のパラメータを学習することで、ソースドメインの数に比例して大きく成長する。 本稿では,プロトタイプベース平均教師(pmt)と呼ばれる,ドメイン固有サブネットではなくクラスプロトタイプを用いて,ドメイン固有情報をエンコードする新しいmsda手法を提案する。 これらのプロトタイプは対照的な損失を用いて学習され、ドメイン間で同じカテゴリを整列させ、異なるカテゴリを遠くに分離する。 プロトタイプの使用を考えると、PMT法に必要なパラメータの数はソースドメインの数によって大きくは増加しないため、メモリの問題が少なくなり、オーバーフィッティングが可能となる。 実証研究により、PMTはいくつかの挑戦的なオブジェクト検出データセットにおいて最先端のMSDA法より優れていることが示された。 私たちのコードはhttps://github.com/imatif17/Prototype-Mean-Teacherで利用可能です。

Adapting visual object detectors to operational target domains is a challenging task, commonly achieved using unsupervised domain adaptation (UDA) methods. Recent studies have shown that when the labeled dataset comes from multiple source domains, treating them as separate domains and performing a multi-source domain adaptation (MSDA) improves the accuracy and robustness over blending these source domains and performing a UDA. For adaptation, existing MSDA methods learn domain-invariant and domain-specific parameters (for each source domain). However, unlike single-source UDA methods, learning domain-specific parameters makes them grow significantly in proportion to the number of source domains. This paper proposes a novel MSDA method called Prototype-based Mean Teacher (PMT), which uses class prototypes instead of domain-specific subnets to encode domain-specific information. These prototypes are learned using a contrastive loss, aligning the same categories across domains and separating different categories far apart. Given the use of prototypes, the number of parameters required for our PMT method does not increase significantly with the number of source domains, thus reducing memory issues and possible overfitting. Empirical studies indicate that PMT outperforms state-of-the-art MSDA methods on several challenging object detection datasets. Our code is available at https://github.com/imatif17/Prototype-Mean-Teacher.
翻訳日:2023-12-19 20:09:57 公開日:2023-12-15
# 半教師型医用画像分割のための多次元融合と整合性

Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2309.06618v3 )

ライセンス: Link先を確認
Yixing Lu, Zhaoxin Fan, Min Xu(参考訳) 本稿では,医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。 我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。 このスキームはvitsとcnnの両方の強みをうまく組み合わせ、両アーキテクチャの独特な利点と視覚言語のモダリティにおける補完的な情報に乗じている。 このフレームワークをさらに強化し,頑健な擬似ラベルを生成するための多軸一貫性フレームワークを提案し,半教師付き学習プロセスを強化した。 いくつかの広く使われているデータセットに関する広範な実験は、我々のアプローチの有効性を明白に実証している。

In this paper, we introduce a novel semi-supervised learning framework tailored for medical image segmentation. Central to our approach is the innovative Multi-scale Text-aware ViT-CNN Fusion scheme. This scheme adeptly combines the strengths of both ViTs and CNNs, capitalizing on the unique advantages of both architectures as well as the complementary information in vision-language modalities. Further enriching our framework, we propose the Multi-Axis Consistency framework for generating robust pseudo labels, thereby enhancing the semisupervised learning process. Our extensive experiments on several widelyused datasets unequivocally demonstrate the efficacy of our approach.
翻訳日:2023-12-19 20:07:35 公開日:2023-12-15
# 動的量子回路の確率的誤差キャンセル

Probabilistic error cancellation for dynamic quantum circuits ( http://arxiv.org/abs/2310.07825v2 )

ライセンス: Link先を確認
Riddhi S. Gupta, Ewout van den Berg, Maika Takita, Diego Riste, Kristan Temme, and Abhinav Kandala(参考訳) PEC(Probabilistic error cancel)は、量子回路のアンサンブルから期待値の誤差緩和推定を生成する手法である。 本研究では,単位回路から動的回路へのpecの適用を,中回路計測や古典的制御(フェードフォワード)クリフォード演算などの計測に基づく動作に拡張する。 本手法は,超伝導プロセッサにおける非局所測定クロストークを考慮に入れながら,スパースなパウリ・リンドブラッドノイズモデルから計測に基づく操作まで拡張する。 我々の緩和および監視実験は、本研究で開発されたプロトコルの性能の全体像を提供する。 これらの機能は、短期の動的回路アプリケーションの探索において重要なツールとなるだろう。

Probabilistic error cancellation (PEC) is a technique that generates error-mitigated estimates of expectation values from ensembles of quantum circuits. In this work we extend the application of PEC from unitary-only circuits to dynamic circuits with measurement-based operations, such as mid-circuit measurements and classically-controlled (feedforward) Clifford operations. Our approach extends the sparse Pauli-Lindblad noise model to measurement-based operations while accounting for non-local measurement crosstalk in superconducting processors. Our mitigation and monitoring experiments provide a holistic view for the performance of the protocols developed in this work. These capabilities will be a crucial tool in the exploration of near-term dynamic circuit applications.
翻訳日:2023-12-19 19:57:34 公開日:2023-12-15
# 利益主導型チャーン防止への予測・最適化アプローチ

A predict-and-optimize approach to profit-driven churn prevention ( http://arxiv.org/abs/2310.07047v2 )

ライセンス: Link先を確認
Nuria G\'omez-Vargas, Sebasti\'an Maldonado, Carla Vairetti(参考訳) 本稿では,利益主導型チャーン防止のための新しい予測最適化手法を提案する。 我々は,顧客をターゲットとした保留キャンペーンの課題を,後悔の最小化問題として捉えた。 主な目的は、個々の顧客寿命値(CLV)を活用して、最も価値のある顧客だけがターゲットであることを保証することである。 対照的に、多くの利益主導戦略は平均的なclvを考慮しながらチャーン確率に焦点を当てている。 これはしばしば、データ集約による重要な情報損失をもたらす。 提案モデルは予測最適化(pno)フレームワークのガイドラインに適合し,確率勾配降下法を用いて効率的に解くことができる。 12のチャーン予測データセットの結果は、平均利益の点で他の確立した戦略と比較して最高の平均パフォーマンスを達成する、我々のアプローチの有効性を強調するものです。

In this paper, we introduce a novel predict-and-optimize method for profit-driven churn prevention. We frame the task of targeting customers for a retention campaign as a regret minimization problem. The main objective is to leverage individual customer lifetime values (CLVs) to ensure that only the most valuable customers are targeted. In contrast, many profit-driven strategies focus on churn probabilities while considering average CLVs. This often results in significant information loss due to data aggregation. Our proposed model aligns with the guidelines of Predict-and-Optimize (PnO) frameworks and can be efficiently solved using stochastic gradient descent methods. Results from 12 churn prediction datasets underscore the effectiveness of our approach, which achieves the best average performance compared to other well-established strategies in terms of average profit.
翻訳日:2023-12-19 19:57:05 公開日:2023-12-15
# Microsoft Quantum Development KitとAzure Quantumを使って量子コンピューティングを教える

Teaching Quantum Computing using Microsoft Quantum Development Kit and Azure Quantum ( http://arxiv.org/abs/2311.12960v2 )

ライセンス: Link先を確認
Mariia Mykhailova(参考訳) 本報告では,2022-23年度に東北大学で量子コンピューティングを専攻した経験について述べる。 このコースは、実践的でソフトウェア駆動のアプローチを採用し、手動プログラミングの課題とソフトウェアにフォーカスした最終プロジェクトを通じて、基本的な量子概念とアルゴリズムを教える。 このコースは、量子コンピューティングの問題を解決すること、量子プログラムをデバッグするソリューションの実装、コードの最適化、量子ハードウェア上でのコード実行など、量子ソフトウェア開発プロセスのあらゆる段階を通じて学習者を導く。 本報告では,量子コンピューティング教育に同様の実践的アプローチを取り入れたいインストラクタに対して,授業開始のための包括的なガイドを提供する。

This report describes my experience teaching a graduate-level quantum computing course at Northeastern University in the academic year 2022-23. The course takes a practical, software-driven approach to the course, teaching basic quantum concepts and algorithms through hands-on programming assignments and a software-focused final project. The course guides learners through all stages of the quantum software development process, from solving quantum computing problems and implementing solutions to debugging quantum programs, optimizing the code, and running the code on quantum hardware. This report offers instructors who want to adopt a similar practical approach to teaching quantum computing a comprehensive guide to getting started.
翻訳日:2023-12-19 19:34:15 公開日:2023-12-15
# InvertAvatar: 一般化ヘッドアバターに対するインクリメンタルGANインバージョン

InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars ( http://arxiv.org/abs/2312.02222v2 )

ライセンス: Link先を確認
Xiaochen Zhao, Jingxiang Sun, Lizhen Wang, Yebin Liu(参考訳) 高忠実度と効率性はデジタルヘッドアバターの作成の中心であるが、近年の2次元または3次元生成モデルに依存する手法では、形状の歪み、表現の不正確さ、アイデンティティ・フリックリングといった制限がしばしば経験されている。 さらに、既存のワンショット反転技術では、詳細な特徴抽出のために複数の入力画像を完全に活用できない。 本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークである‘textbf{Incremental 3D GAN Inversion} を提案する。 本手法では,UVパラメータ化に基づくテクスチャ特徴空間を分類する革新的テクスチャエンコーダとともに,表現制御性向上のための2つの重要な修正を加えた,ユニークなアニマタブルな3D GANを導入する。 従来の手法と異なるアーキテクチャでは、ピクセルに整合した画像から画像への変換を強調し、観測と標準空間間の対応を学習する必要性を緩和する。 さらに,複数のフレームからの時間的データアグリゲーションにConvGRUをベースとしたリカレントネットワークを導入し,形状やテクスチャディテールを再構築する。 提案するパラダイムは,ワンショットおよびマイショットアバターアニメーションタスクにおける最先端のパフォーマンスを示す。

While high fidelity and efficiency are central to the creation of digital head avatars, recent methods relying on 2D or 3D generative models often experience limitations such as shape distortion, expression inaccuracy, and identity flickering. Additionally, existing one-shot inversion techniques fail to fully leverage multiple input images for detailed feature extraction. We propose a novel framework, \textbf{Incremental 3D GAN Inversion}, that enhances avatar reconstruction performance using an algorithm designed to increase the fidelity from multiple frames, resulting in improved reconstruction quality proportional to frame count. Our method introduces a unique animatable 3D GAN prior with two crucial modifications for enhanced expression controllability alongside an innovative neural texture encoder that categorizes texture feature spaces based on UV parameterization. Differentiating from traditional techniques, our architecture emphasizes pixel-aligned image-to-image translation, mitigating the need to learn correspondences between observation and canonical spaces. Furthermore, we incorporate ConvGRU-based recurrent networks for temporal data aggregation from multiple frames, boosting geometry and texture detail reconstruction. The proposed paradigm demonstrates state-of-the-art performance on one-shot and few-shot avatar animation tasks.
翻訳日:2023-12-19 19:21:51 公開日:2023-12-15
# Chat-3D v2:オブジェクト識別子を用いた3Dシーンと大規模言語モデルのブリッジ

Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers ( http://arxiv.org/abs/2312.08168v2 )

ライセンス: Link先を確認
Haifeng Huang, Zehan Wang, Rongjie Huang, Luping Liu, Xize Cheng, Yang Zhao, Tao Jin, Zhou Zhao(参考訳) 近年の研究では,3次元シーンにおける課題処理において,Large Language Models (LLMs) が重要な可能性を示している。 しかしながら、現在のモデルは、各問合せペアが個々のオブジェクトにのみフォーカスする、オブジェクト中心のタスクに対処することに制約されている。 現実世界のアプリケーションでは、複数のオブジェクトに関するクエリをポーズしたり、さまざまなオブジェクトを正確に参照する回答を期待したりできる。 会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。 このソリューションは単純に見えるが、主な課題は2つある。 1)各オブジェクトとその識別子間の信頼性の高い1対1対応を確立するには? 2)多数の物体間の複雑な空間的関係をllmの埋め込み空間にどのように組み込むか? これらの課題に対処するために,各オブジェクトに対する属性認識トークンと関係認識トークンを学習する2段階アライメント手法を提案する。 これらのトークンは、オブジェクトの属性と周囲のオブジェクトとの空間的関係を3Dシーンでキャプチャする。 アライメントが確立すれば、インストラクションチューニングを使用して、さまざまな下流タスクでモデルを微調整することができます。 ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。 さらに,GPT-4の補助として,リッチオブジェクト識別子を付加した3次元シーンキャプションデータセットを作成する。 このデータセットは、効果的なオブジェクト参照と正確なシーン理解におけるオブジェクト識別子の能力をさらに探求することを目的としている。

Recent research has evidenced the significant potentials of Large Language Models (LLMs) in handling challenging tasks within 3D scenes. However, current models are constrained to addressing object-centric tasks, where each question-answer pair focuses solely on an individual object. In real-world applications, users may pose queries involving multiple objects or expect for answers that precisely reference various objects. We introduce the use of object identifiers to freely reference objects during a conversation. While this solution appears straightforward, it presents two main challenges: 1) How to establish a reliable one-to-one correspondence between each object and its identifier? 2) How to incorporate complex spatial relationships among dozens of objects into the embedding space of the LLM? To address these challenges, we propose a two-stage alignment method, which involves learning an attribute-aware token and a relation-aware token for each object. These tokens capture the object's attributes and spatial relationships with surrounding objects in the 3D scene. Once the alignment is established, we can fine-tune our model on various downstream tasks using instruction tuning. Experiments conducted on traditional datasets like ScanQA, ScanRefer, and Nr3D/Sr3D showcase the effectiveness of our proposed method. Additionally, we create a 3D scene captioning dataset annotated with rich object identifiers, with the assistant of GPT-4. This dataset aims to further explore the capability of object identifiers in effective object referencing and precise scene understanding.
翻訳日:2023-12-19 19:14:47 公開日:2023-12-15
# 不変グラフ変換器

Invariant Graph Transformer ( http://arxiv.org/abs/2312.07859v2 )

ライセンス: Link先を確認
Zhe Xu (1), Menghai Pan (2), Yuzhong Chen (2), Huiyuan Chen (2), Yuchen Yan (1), Mahashweta Das (2), Hanghang Tong (1) ((1) University of Illinois Urbana-Champaign, (2) Visa Research)(参考訳) Rationale discovery は、下流タスクの予測を最大限にサポートする入力データのサブセットを見つけるものとして定義される。 グラフ機械学習の文脈では、グラフ論理は与えられたグラフトポロジーの臨界部分グラフを見つけるために定義され、予測結果を根本的に決定する。 有理部分グラフとは対照的に、残りの部分グラフは環境部分グラフと呼ばれる。 グラフの合理化は、グラフの合理性と予測ラベルのマッピングが不変であると見なされるので、モデルの性能を高めることができる。 抽出された合理部分グラフの判別能力を確保するために、"intervention"というキー技術を適用する。 介入の中核となる考え方は、変化する環境部分グラフが与えられた場合、合理的部分グラフからの意味論は不変であり、正しい予測結果を保証することである。 しかし、すべてではないにしても、既存の合理化はグラフデータに作用し、グラフレベルでの介入戦略を発展させる。 本稿では,グラフデータに対する適切な介入戦略を提案する。 我々のアイデアはTransformerモデルの開発によって推進され、自己アテンションモジュールは入力ノード間のリッチな相互作用を提供する。 自己アテンションモジュールをベースとして,提案した不変グラフ変換器(IGT)は,ノードレベルおよび仮想ノードレベルの微細な介入を実現する。 提案したIGTは,13のベースライン手法と比較して,大きな性能上の優位性を示す。

Rationale discovery is defined as finding a subset of the input data that maximally supports the prediction of downstream tasks. In graph machine learning context, graph rationale is defined to locate the critical subgraph in the given graph topology, which fundamentally determines the prediction results. In contrast to the rationale subgraph, the remaining subgraph is named the environment subgraph. Graph rationalization can enhance the model performance as the mapping between the graph rationale and prediction label is viewed as invariant, by assumption. To ensure the discriminative power of the extracted rationale subgraphs, a key technique named "intervention" is applied. The core idea of intervention is that given any changing environment subgraphs, the semantics from the rationale subgraph is invariant, which guarantees the correct prediction result. However, most, if not all, of the existing rationalization works on graph data develop their intervention strategies on the graph level, which is coarse-grained. In this paper, we propose well-tailored intervention strategies on graph data. Our idea is driven by the development of Transformer models, whose self-attention module provides rich interactions between input nodes. Based on the self-attention module, our proposed invariant graph Transformer (IGT) can achieve fine-grained, more specifically, node-level and virtual node-level intervention. Our comprehensive experiments involve 7 real-world datasets, and the proposed IGT shows significant performance advantages compared to 13 baseline methods.
翻訳日:2023-12-19 19:14:07 公開日:2023-12-15
# IDKM: 暗黙的、微分可能なk平均によるメモリ効率の良いニューラルネットワーク量子化

IDKM: Memory Efficient Neural Network Quantization via Implicit, Differentiable k-Means ( http://arxiv.org/abs/2312.07759v2 )

ライセンス: Link先を確認
Sean Jaffe, Ambuj K. Singh, Francesco Bullo(参考訳) エッジデバイスへのデプロイメントを可能にするためには、パフォーマンス損失を最小限にした大規模なニューラルネットワークの圧縮が不可欠だ。 (Cho et al., 2022) は微分可能な$k$-means (DKM) と呼ばれる注意に基づくクラスタリングアルゴリズムを用いた重み量子化法を提案した。 最先端の結果を得たにもかかわらず、DKMのパフォーマンスはその重いメモリ依存によって制限される。 本稿では,DKMのメモリ制限を解消する暗黙的で微分可能な$k$-meansアルゴリズム(IDKM)を提案する。 $t$ を $k$-means の反復数とし、$m$ をウェイトベクター数とし、$b$ をクラスタアドレス当たりのビット数とする。 IDKMは、単一の$k$-means層の全体的なメモリ複雑性を$\mathcal{O}(t \cdot m \cdot 2^b)$から$\mathcal{O}(m \cdot 2^b)$に減らす。 我々はまた、勾配計算の時間的複雑さが$t$にも依存しない、Jacobian-Free-Backpropagation (IDKM-JFB) の変種IDKMを導入する。 我々は,IDKMがDKMと同等の性能で計算時間が少なく,メモリも少ないことを示すことによって,本手法の概念実証を行う。 また、DKMが全くトレーニングできないハードウェア上で、IDKMとIDKM-JFBを使用して、大規模なニューラルネットワークであるResnet18を定量化しています。

Compressing large neural networks with minimal performance loss is crucial to enabling their deployment on edge devices. (Cho et al., 2022) proposed a weight quantization method that uses an attention-based clustering algorithm called differentiable $k$-means (DKM). Despite achieving state-of-the-art results, DKM's performance is constrained by its heavy memory dependency. We propose an implicit, differentiable $k$-means algorithm (IDKM), which eliminates the major memory restriction of DKM. Let $t$ be the number of $k$-means iterations, $m$ be the number of weight-vectors, and $b$ be the number of bits per cluster address. IDKM reduces the overall memory complexity of a single $k$-means layer from $\mathcal{O}(t \cdot m \cdot 2^b)$ to $\mathcal{O}( m \cdot 2^b)$. We also introduce a variant, IDKM with Jacobian-Free-Backpropagation (IDKM-JFB), for which the time complexity of the gradient calculation is independent of $t$ as well. We provide a proof of concept of our methods by showing that, under the same settings, IDKM achieves comparable performance to DKM with less compute time and less memory. We also use IDKM and IDKM-JFB to quantize a large neural network, Resnet18, on hardware where DKM cannot train at all.
翻訳日:2023-12-19 19:13:41 公開日:2023-12-15
# socialstigmaqa: 生成言語モデルにおけるstigmaの増幅を示すベンチマーク

SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in Generative Language Models ( http://arxiv.org/abs/2312.07492v3 )

ライセンス: Link先を確認
Manish Nagireddy, Lamogha Chiazor, Moninder Singh, Ioana Baldini(参考訳) 望ましくない社会的偏見監査のための現在のデータセットは、人種や性別などの保護された人口動態の研究に限られている。 本研究では,遺伝的言語モデルにおけるシュティグマを通して,社会的偏見の増幅を捉えるための総合的なベンチマークを導入する。 社会科学研究からインスピレーションを得て、93の米国中心のスティグマのリストから始め、単純な社会的状況を含む質問回答データセット(QA)をキュレートする。 私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデルロバストネスの両方を体系的にテストするために、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。 そこで我々は,SocialStigmaQAを2つのオープンソース生成言語モデルで比較した結果,社会的に偏りのあるアウトプットの割合は,様々なデコード戦略やスタイルのプロンプトにおいて45%から59%であることがわかった。 ベンチマークにおけるテンプレートの意図的な設計(例えば、プロンプトにバイアステキストの追加や、バイアスを示す回答を変更する異なる動詞の使用)は、モデルに偏りのあるアウトプットを生成する傾向に影響を与えることを実証します。 さらに,手作業による評価を通じて,微妙なバイアスから推論の欠如まで,生成する思考連鎖アウトプットに問題のあるパターンを見出す。 警告: 本論文は有害で偏りがあり、潜在的に有害なテキストの例を含む。

Current datasets for unwanted social bias auditing are limited to studying protected demographic features such as race and gender. In this work, we introduce a comprehensive benchmark that is meant to capture the amplification of social bias, via stigmas, in generative language models. Taking inspiration from social science research, we start with a documented list of 93 US-centric stigmas and curate a question-answering (QA) dataset which involves simple social situations. Our benchmark, SocialStigmaQA, contains roughly 10K prompts, with a variety of prompt styles, carefully constructed to systematically test for both social bias and model robustness. We present results for SocialStigmaQA with two open source generative language models and we find that the proportion of socially biased output ranges from 45% to 59% across a variety of decoding strategies and prompting styles. We demonstrate that the deliberate design of the templates in our benchmark (e.g., adding biasing text to the prompt or using different verbs that change the answer that indicates bias) impacts the model tendencies to generate socially biased output. Additionally, through manual evaluation, we discover problematic patterns in the generated chain-of-thought output that range from subtle bias to lack of reasoning. Warning: This paper contains examples of text which are toxic, biased, and potentially harmful.
翻訳日:2023-12-19 19:11:29 公開日:2023-12-15
# llmsのためのリポジトリレベルプロンプトのレビュー

A Review of Repository Level Prompting for LLMs ( http://arxiv.org/abs/2312.10101v1 )

ライセンス: Link先を確認
Douglas Schonholtz(参考訳) コーディングの課題が複雑化するにつれ、最近のLarge Language Models(LLM)の進歩は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。 同時に、GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールも、開発者の生産性向上を目的とした商用化が進んでいる。 本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行を考察し,リポジトリレベルでのコード生成を促進する効果的なllmに関する現在の文献を概観する。 我々は,ブラックボックス LLM で機能するアプローチについて検討し,それらが商用ユースケースに有用で適用可能であること,リポジトリスケールでのコード解釈への適用性について検討する。 我々は,レポコーダを用いてリポジトリレベルのプロンプト生成手法を活用し,各手法に固有のトレードオフを強調し,最先端のコーディングベンチマークにおけるアプリケーションのベストプラクティスを確立する。 プロンプトの反復改良と高度な検索システムの開発の相互作用が議論の中心となり、コード生成タスクにおけるLLM性能を著しく向上させる経路を提供する。 この研究から得られた洞察は、これらの手法の適用を導くだけでなく、将来的な研究のコースを、より広範なソフトウェア工学の文脈に統合する。

As coding challenges become more complex, recent advancements in Large Language Models (LLMs) have led to notable successes, such as achieving a 94.6\% solve rate on the HumanEval benchmark. Concurrently, there is an increasing commercial push for repository-level inline code completion tools, such as GitHub Copilot and Tab Nine, aimed at enhancing developer productivity. This paper delves into the transition from individual coding problems to repository-scale solutions, presenting a thorough review of the current literature on effective LLM prompting for code generation at the repository level. We examine approaches that will work with black-box LLMs such that they will be useful and applicable to commercial use cases, and their applicability in interpreting code at a repository scale. We juxtapose the Repository-Level Prompt Generation technique with RepoCoder, an iterative retrieval and generation method, to highlight the trade-offs inherent in each approach and to establish best practices for their application in cutting-edge coding benchmarks. The interplay between iterative refinement of prompts and the development of advanced retrieval systems forms the core of our discussion, offering a pathway to significantly improve LLM performance in code generation tasks. Insights from this study not only guide the application of these methods but also chart a course for future research to integrate such techniques into broader software engineering contexts.
翻訳日:2023-12-19 18:51:17 公開日:2023-12-15
# グラウンド・トゥ・オブジェクト:接地前の動的物体の粗面から有限面への自己監督単眼深度推定

From-Ground-To-Objects: Coarse-to-Fine Self-supervised Monocular Depth Estimation of Dynamic Objects with Ground Contact Prior ( http://arxiv.org/abs/2312.10118v1 )

ライセンス: Link先を確認
Jaeho Moon, Juan Luis Gonzalez Bello, Byeongjun Kwon, Munchurl Kim(参考訳) 自己教師付き単眼深度推定(de: self-supervised monocular depth estimation)は、コストのかかる基礎的真理を伴わない深さ学習へのアプローチである。 しかし、トレーニング中に静的なシーン仮定に反するオブジェクトの移動にしばしば苦労する。 この問題に対処するために,屋外シーンの移動物体の大半が地上に接触するという観測に基づいて,事前接地を利用した粗大な訓練戦略を導入する。 粗い訓練段階において、不正確な深度学習を避けるために、再投射損失計算から動的クラスの物体を除外する。 対象物の深度を精密に監視するために,DEMネットワークが対象物の深度を接地接触点と整合させることを奨励する,GDS-Loss(Gund-Contacting Preparity Smoothness Loss)を提案する。 次に, 精密な訓練段階において, deネットワークを洗練し, 再投影損失から物体の詳細な深さを学習し, 原価計算量に基づく重み付け係数を用いて, 移動対象領域の正確なdeを確保する。 我々の全体的な粗大なトレーニング戦略は、変更することなく既存のDEMメソッドと容易に統合することができ、特に移動対象領域において、挑戦的なCityscapesやKITTIデータセット上でのDDEパフォーマンスを大幅に向上させることができます。

Self-supervised monocular depth estimation (DE) is an approach to learning depth without costly depth ground truths. However, it often struggles with moving objects that violate the static scene assumption during training. To address this issue, we introduce a coarse-to-fine training strategy leveraging the ground contacting prior based on the observation that most moving objects in outdoor scenes contact the ground. In the coarse training stage, we exclude the objects in dynamic classes from the reprojection loss calculation to avoid inaccurate depth learning. To provide precise supervision on the depth of the objects, we present a novel Ground-contacting-prior Disparity Smoothness Loss (GDS-Loss) that encourages a DE network to align the depth of the objects with their ground-contacting points. Subsequently, in the fine training stage, we refine the DE network to learn the detailed depth of the objects from the reprojection loss, while ensuring accurate DE on the moving object regions by employing our regularization loss with a cost-volume-based weighting factor. Our overall coarse-to-fine training strategy can easily be integrated with existing DE methods without any modifications, significantly enhancing DE performance on challenging Cityscapes and KITTI datasets, especially in the moving object regions.
翻訳日:2023-12-19 18:39:30 公開日:2023-12-15
# 多様性向上型アクティブラーニングのための平均値のベイズ推定

Bayesian Estimate of Mean Proper Scores for Diversity-Enhanced Active Learning ( http://arxiv.org/abs/2312.10116v1 )

ライセンス: Link先を確認
Wei Tan, Lan Du, Wray Buntine(参考訳) アクティブラーニングの有効性は,獲得関数のサンプリング効率に大きく依存する。 期待されている損失削減(ELR)は、分類誤差の低減と、同じフレームワークに適合するより一般的なコストのベイズ推定に焦点を当てている。 本稿では,平均値スコア(BEMPS)のベイジアン推定法を提案し,この枠組みにおけるログ確率や負平均二乗誤差などの厳密なスコアの増加を推定する。 この一般的なコストクラスに対する収束結果も証明します。 新たな獲得関数の実験をより容易にするために,ラベルなしデータに対するスコア変化の予測ベクトルの多様性を促進する相補的バッチalアルゴリズムを開発した。 高性能な分類器を実現するために,事前学習モデルの構築と動的検証を組み合わせることで,モンテカルロドロップアウトの考え方により,アンサンブルプロセスをさらに高速化する。 BEMPSによる平均二乗誤差と対数確率の使用は、堅牢な取得関数とよく校正された分類器を生じさせ、他の試験よりも一貫して優れていることを示す。 BEMPSの利点は、データマップとt-SNEプロットを用いてサンプリング動作を可視化する定性的分析によってさらに支持される。

The effectiveness of active learning largely depends on the sampling efficiency of the acquisition function. Expected Loss Reduction (ELR) focuses on a Bayesian estimate of the reduction in classification error, and more general costs fit in the same framework. We propose Bayesian Estimate of Mean Proper Scores (BEMPS) to estimate the increase in strictly proper scores such as log probability or negative mean square error within this framework. We also prove convergence results for this general class of costs. To facilitate better experimentation with the new acquisition functions, we develop a complementary batch AL algorithm that encourages diversity in the vector of expected changes in scores for unlabeled data. To allow high-performance classifiers, we combine deep ensembles, and dynamic validation set construction on pretrained models, and further speed up the ensemble process with the idea of Monte Carlo Dropout. Extensive experiments on both texts and images show that the use of mean square error and log probability with BEMPS yields robust acquisition functions and well-calibrated classifiers, and consistently outperforms the others tested. The advantages of BEMPS over the others are further supported by a set of qualitative analyses, where we visualise their sampling behaviour using data maps and t-SNE plots.
翻訳日:2023-12-19 18:39:02 公開日:2023-12-15
# skysense: 地球観測画像の普遍的解釈に向けたマルチモーダルリモートセンシング基礎モデル

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery ( http://arxiv.org/abs/2312.10115v1 )

ライセンス: Link先を確認
Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li(参考訳) リモートセンシング基礎モデル(RSFM)の研究は、地球観測のための一般的なモデルへの大きな可能性を明らかにする。 それでもこれらの作業は、時間的および地理的コンテキストのモデリングを伴わない単一のモダリティに重点を置いており、様々なタスクの能力を妨げる。 本研究では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシング画像(RSI)データセットを事前トレーニングした総称10億スケールのSkySenseを提案する。 SkySenseは、光学および合成開口レーダ(SAR)データの時間シーケンスを入力として、分解されたマルチモーダル時空間エンコーダを組み込んでいる。 このエンコーダは,提案するマルチグラニュラリティコントラスト学習によって,異なるモダリティおよび空間的粒度の表現を学習するために事前学習される。 ジオコンテキスト・プロトタイプ・ラーニング(Geo-Context Prototype Learning)を導入し,RSIのマルチモーダル時空間特徴に基づく地域認識型プロトタイプを学習する。 我々の知る限り、SkySenseは今までで最大のマルチモーダルRSFMであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに対応させることができる。 シングルモーダルからマルチモーダル、静的からテンポラル、分類からローカライゼーションまで、7つのタスクにまたがる16のデータセットを包含する徹底的な評価において、顕著な一般化能力を示す。 SkySenseは、すべてのテストシナリオで18のRSFMを超える。 特に、GFM、SatLas、Scale-MAEといった最新のモデルでは、それぞれ2.76%、3.67%、そして3.61%という大きな差がある。 我々は、将来の研究と地球観測の応用を促進するために、事前訓練された重量をリリースする。

Prior studies on Remote Sensing Foundation Model (RSFM) reveal immense potential towards a generic model for Earth Observation. Nevertheless, these works primarily focus on a single modality without temporal and geo-context modeling, hampering their capabilities for diverse tasks. In this study, we present SkySense, a generic billion-scale model, pre-trained on a curated multi-modal Remote Sensing Imagery (RSI) dataset with 21.5 million temporal sequences. SkySense incorporates a factorized multi-modal spatiotemporal encoder taking temporal sequences of optical and Synthetic Aperture Radar (SAR) data as input. This encoder is pre-trained by our proposed Multi-Granularity Contrastive Learning to learn representations across different modal and spatial granularities. To further enhance the RSI representations by the geo-context clue, we introduce Geo-Context Prototype Learning to learn region-aware prototypes upon RSI's multi-modal spatiotemporal features. To our best knowledge, SkySense is the largest Multi-Modal RSFM to date, whose modules can be flexibly combined or used individually to accommodate various tasks. It demonstrates remarkable generalization capabilities on a thorough evaluation encompassing 16 datasets over 7 tasks, from single- to multi-modal, static to temporal, and classification to localization. SkySense surpasses 18 recent RSFMs in all test scenarios. Specifically, it outperforms the latest models such as GFM, SatLas and Scale-MAE by a large margin, i.e., 2.76%, 3.67% and 3.61% on average respectively. We will release the pre-trained weights to facilitate future research and Earth Observation applications.
翻訳日:2023-12-19 18:38:37 公開日:2023-12-15
# FoMo-Bench:リモートセンシング基礎モデルのためのマルチモーダル・マルチスケール・マルチタスク森林モニタリングベンチマーク

FoMo-Bench: a multi-modal, multi-scale and multi-task Forest Monitoring Benchmark for remote sensing foundation models ( http://arxiv.org/abs/2312.10114v1 )

ライセンス: Link先を確認
Nikolaos Ioannis Bountos, Arthur Ouaknine, David Rolnick(参考訳) 森林は地球の生態系や自然システムの重要な部分であり、人類が依存するサービスを提供しているが、土地利用の決定と気候変動によって急速に変化している。 負の効果の理解と緩和には、広範囲の感覚モーダルから世界規模で森林のデータを解析する必要があるが、近年、リモートセンシングのための機械学習アルゴリズムを用いて多くの問題にアプローチされている。 これまで,森林モニタリングの課題は孤立的に解決されてきた。 コンピュータビジョンとリモートセンシングの基礎モデルの発展に触発されて,我々はFoMo-Bench(フォレストモニタリングベンチマーク)を初めて紹介する。 FoMo-Benchは、衛星、航空、在庫データを含む15の多様なデータセットで構成され、多スペクトル、赤緑色、合成開口レーダ(SAR)およびLiDARデータを含む様々な地理的領域をカバーする。 FoMo-Benchには、複数のタイプの森林モニタリングタスク、スパンニング分類、セグメンテーション、オブジェクト検出が含まれている。 さらに,FoMo-Benchで表されるタスクや地理の多様性を高めるため,衛星画像と樹木分類の地上アノテーションを組み合わせた新しいグローバルデータセットTalloSを導入し,1000以上の階層的な分類レベル(種,属,科)にまたがる。 最後にfomo-netを提案する。fomo-netは森林モニタリング用に設計された基礎モデルベースラインで、リモートセンシングで一般的に使用されるセンサーの組み合わせを処理できる柔軟性を備える。 本研究は,森林モニタリングのためのスケーラブルなマルチモーダルおよびマルチタスクモデルの検討において,機械学習と森林生物学研究者のコラボレーションを刺激することを目的としている。 すべてのコードとデータは公開される予定だ。

Forests are an essential part of Earth's ecosystems and natural systems, as well as providing services on which humanity depends, yet they are rapidly changing as a result of land use decisions and climate change. Understanding and mitigating negative effects requires parsing data on forests at global scale from a broad array of sensory modalities, and recently many such problems have been approached using machine learning algorithms for remote sensing. To date, forest-monitoring problems have largely been approached in isolation. Inspired by the rise of foundation models for computer vision and remote sensing, we here present the first unified Forest Monitoring Benchmark (FoMo-Bench). FoMo-Bench consists of 15 diverse datasets encompassing satellite, aerial, and inventory data, covering a variety of geographical regions, and including multispectral, red-green-blue, synthetic aperture radar (SAR) and LiDAR data with various temporal, spatial and spectral resolutions. FoMo-Bench includes multiple types of forest-monitoring tasks, spanning classification, segmentation, and object detection. To further enhance the diversity of tasks and geographies represented in FoMo-Bench, we introduce a novel global dataset, TalloS, combining satellite imagery with ground-based annotations for tree species classification, spanning 1,000+ hierarchical taxonomic levels (species, genus, family). Finally, we propose FoMo-Net, a foundation model baseline designed for forest monitoring with the flexibility to process any combination of commonly used sensors in remote sensing. This work aims to inspire research collaborations between machine learning and forest biology researchers in exploring scalable multi-modal and multi-task models for forest monitoring. All code and data will be made publicly available.
翻訳日:2023-12-19 18:38:08 公開日:2023-12-15
# 指示に焦点をあてて:注意変調によるきめ細かなマルチインストラクション画像編集

Focus on Your Instruction: Fine-grained and Multi-instruction Image Editing by Attention Modulation ( http://arxiv.org/abs/2312.10113v1 )

ライセンス: Link先を確認
Qin Guo, Tianwei Lin(参考訳) 近年,InstructPix2Pix (IP2P)のような拡散ベースの手法は,ユーザからの自然言語命令のみを必要とする効果的な命令ベースの画像編集を実現している。 しかし、これらの手法はしばしば意図しない領域を不注意に変更し、マルチインストラクション編集に苦しむ。 これらの問題に対処するために、我々はFoI(FoI)を導入する。これは、余分なトレーニングやテスト時間最適化を伴わずに、複数の命令をまたいだ正確かつ調和した編集を保証するための方法である。 FoI では,(1) それぞれの指示に対する関心領域を正確に抽出すること,(2) 関心領域に集中する認知過程を導くこと,の2つの側面を強調した。 最初の目的として,命令と画像の交差位置からIP2Pの暗黙的な接地能力を特定し,効果的なマスク抽出法を開発した。 第2の目的として,ターゲット編集領域と非関連領域を大まかに分離するクロスアテンション変調モジュールを提案する。 さらに,マスク誘導型アンタングルサンプリング手法を導入し,領域分離の明確化を図る。 実験結果から,FoIは定量評価と定性評価の両方において既存の手法を超越していることがわかった。

Recently, diffusion-based methods, like InstructPix2Pix (IP2P), have achieved effective instruction-based image editing, requiring only natural language instructions from the user. However, these methods often inadvertently alter unintended areas and struggle with multi-instruction editing, resulting in compromised outcomes. To address these issues, we introduce the Focus on Your Instruction (FoI), a method designed to ensure precise and harmonious editing across multiple instructions without extra training or test-time optimization. In the FoI, we primarily emphasize two aspects: (1) precisely extracting regions of interest for each instruction and (2) guiding the denoising process to concentrate within these regions of interest. For the first objective, we identify the implicit grounding capability of IP2P from the cross-attention between instruction and image, then develop an effective mask extraction method. For the second objective, we introduce a cross attention modulation module for rough isolation of target editing regions and unrelated regions. Additionally, we introduce a mask-guided disentangle sampling strategy to further ensure clear region isolation. Experimental results demonstrate that FoI surpasses existing methods in both quantitative and qualitative evaluations, especially excelling in multi-instruction editing task.
翻訳日:2023-12-19 18:37:38 公開日:2023-12-15
# NM-FlowGAN:正規化フローと生成逆ネットワークに基づくハイブリッドアプローチによるsRGBノイズのモデル化

NM-FlowGAN: Modeling sRGB Noise with a Hybrid Approach based on Normalizing Flows and Generative Adversarial Networks ( http://arxiv.org/abs/2312.10112v1 )

ライセンス: Link先を確認
Young Joo Han, Ha-Jin Yu(参考訳) 実sRGBノイズのモデリングと合成は、様々な低レベル視覚タスクに不可欠である。 実際のsRGBノイズの分布は非常に複雑で、様々な要因の影響を受けており、正確なモデリングは非常に困難である。 そのため,近年,gan(generative adversarial network)や正規化フローなどのデータ駆動生成モデルを用いた手法が提案されている。 これらの研究は従来のノイズモデリング法と比較してsRGBノイズのより正確なモデリングを実現する。 しかし、各生成モデルの固有の特性により、性能上の制限がある。 この問題に対処するために,GANと正規化フローの双方の長所を利用するハイブリッドアプローチであるNM-FlowGANを提案する。 我々は,正規化フローに基づく画素ワイドノイズモデリングネットワークと,GANに基づく空間相関モデルネットワークを同時に利用する。 我々のNM-FlowGANは、sRGBノイズ合成タスクにおいて、他のベースラインよりも優れています。 さらに,モデルから合成した画像ペアで学習した分発ニューラルネットワークは,他のベースラインよりも優れた性能を示す。 私たちのコードは、https://github.com/YoungJooHan/NM-FlowGANで利用可能です。

Modeling and synthesizing real sRGB noise is crucial for various low-level vision tasks. The distribution of real sRGB noise is highly complex and affected by a multitude of factors, making its accurate modeling extremely challenging. Therefore, recent studies have proposed methods that employ data-driven generative models, such as generative adversarial networks (GAN) and Normalizing Flows. These studies achieve more accurate modeling of sRGB noise compared to traditional noise modeling methods. However, there are performance limitations due to the inherent characteristics of each generative model. To address this issue, we propose NM-FlowGAN, a hybrid approach that exploits the strengths of both GAN and Normalizing Flows. We simultaneously employ a pixel-wise noise modeling network based on Normalizing Flows, and spatial correlation modeling networks based on GAN. In our experiments, our NM-FlowGAN outperforms other baselines on the sRGB noise synthesis task. Moreover, the denoising neural network, trained with synthesized image pairs from our model, also shows superior performance compared to other baselines. Our code is available at: https://github.com/YoungJooHan/NM-FlowGAN
翻訳日:2023-12-19 18:37:14 公開日:2023-12-15
# plasticine3d:テキスト誘導による非剛性3d編集

Plasticine3D: Non-rigid 3D editting with text guidance ( http://arxiv.org/abs/2312.10111v1 )

ライセンス: Link先を確認
Yige Chen, Ang Chen, Siyuan Chen, Ran Yi(参考訳) SDS(Score Distillation Sampling)と様々なトレーニング可能な3D表現の迅速な開発により、テキスト・トゥ・イメージ(T2I)拡散モデルが3次元生成タスクに適用され、かなりの成果を上げている。 また、このText-to-3Dパイプラインを利用した3Dオブジェクトの編集作業に向けた試みもある。 しかし、現在のほとんどのメソッドは、追加のジオメトリの追加、オーバーライトテクスチャ、あるいは両方に焦点を当てている。 しかし、3Dオブジェクトの非剛性変換を実行できるものはほとんどない。 一方、非厳密な編集ができる人には、低解像度、忠実性の欠如、柔軟性の欠如がある。 これらの問題に対処するため、be plasticine3dは一般的な高忠実度でフォトリアリスティックで制御可能な非リギッド編集パイプラインである。 Firstly, our work divides the editing process into a geometry editing stage and a texture editing stage to achieve more detailed and photo-realistic results ; Secondly, in order to perform non-rigid transformation with controllable results while maintain the fidelity towards original 3D models in the same time, we propose a multi-view-embedding(MVE) optimization strategy to ensure that the diffusion model learns the overall features of the original object and an embedding-fusion(EF) to control the degree of editing by adjusting the value of the fusing rate. また,様々な編集タスクの異なるニーズに対応するため,基本形状を最適化する前に,幾何処理のステップを設計する。 さらに、元の3Dオブジェクトから得られる幾何的事前を十分に活用するために、スコア抽出サンプリング (SPS) を任意に置き換えることで、最も一般的な非剛性編集シナリオにおいて、原点3Dメッシュから直接最適化を行うことができる。 非剛性3D編集タスクと汎用3D編集タスクにおいて,本手法の有効性を示す。

With the help of Score Distillation Sampling(SDS) and the rapid development of various trainable 3D representations, Text-to-Image(T2I) diffusion models have been applied to 3D generation tasks and achieved considerable results. There are also some attempts toward the task of editing 3D objects leveraging this Text-to-3D pipeline. However, most methods currently focus on adding additional geometries, overwriting textures or both. But few of them can perform non-rigid transformation of 3D objects. For those who can perform non-rigid editing, on the other hand, suffer from low-resolution, lack of fidelity and poor flexibility. In order to address these issues, we present: Plasticine3D, a general, high-fidelity, photo-realistic and controllable non-rigid editing pipeline. Firstly, our work divides the editing process into a geometry editing stage and a texture editing stage to achieve more detailed and photo-realistic results ; Secondly, in order to perform non-rigid transformation with controllable results while maintain the fidelity towards original 3D models in the same time, we propose a multi-view-embedding(MVE) optimization strategy to ensure that the diffusion model learns the overall features of the original object and an embedding-fusion(EF) to control the degree of editing by adjusting the value of the fusing rate. We also design a geometry processing step before optimizing on the base geometry to cope with different needs of various editing tasks. Further more, to fully leverage the geometric prior from the original 3D object, we provide an optional replacement of score distillation sampling named score projection sampling(SPS) which enables us to directly perform optimization from the origin 3D mesh in most common median non-rigid editing scenarios. We demonstrate the effectiveness of our method on both the non-rigid 3D editing task and general 3D editing task.
翻訳日:2023-12-19 18:36:56 公開日:2023-12-15
# 非干渉運動を用いた認知診断の強化:協調型混合サンプリングアプローチ

Enhancing Cognitive Diagnosis using Un-interacted Exercises: A Collaboration-aware Mixed Sampling Approach ( http://arxiv.org/abs/2312.10110v1 )

ライセンス: Link先を確認
Haiping Ma, Changqian Wang, Hengshu Zhu, Shangshang Yang, Xiaoming Zhang, and Xingyi Zhang(参考訳) 認知診断はコンピュータ教育において重要な課題であり、演習を通じて様々な知識概念の学生の習熟度を評価することを目的としている。 しかし、現在のモデルは、主に学生の回答した演習に依存しており、相互作用のない演習に含まれる複雑で豊かな情報を無視している。 近年の研究では、対話的知識概念に関連付けられた非対話的エクササイズでデータを活用する試みがなされているが、より広範な知識概念に関連する情報的かつ非対話的エクササイズを十分に探求できていない。 これにより、これらのモデルが包括的なデータセットに適用されると、パフォーマンスが低下する。 このギャップに対応するために,協調学習型混合運動サンプリング(cmes)フレームワークを提案する。 具体的には, トレーニングサンプルを生データスライスに留まらず, 重み付き注意混合技術を組み合わせた強化サンプルとして構成する, 新たなユニバーサルサンプリングモジュールを提案する。 また, 認知診断における実応答ラベルの必要性から, 学生が生成した運動に対する反応を制御するためのランキングベースの擬似フィードバックモジュールを提案する。 cmesフレームワークの汎用性は既存のモデルを強化し、適応性を向上させる。 最後に,実世界のデータセットに関する包括的実験を通じて,フレームワークの有効性と解釈可能性を示す。

Cognitive diagnosis is a crucial task in computational education, aimed at evaluating students' proficiency levels across various knowledge concepts through exercises. Current models, however, primarily rely on students' answered exercises, neglecting the complex and rich information contained in un-interacted exercises. While recent research has attempted to leverage the data within un-interacted exercises linked to interacted knowledge concepts, aiming to address the long-tail issue, these studies fail to fully explore the informative, un-interacted exercises related to broader knowledge concepts. This oversight results in diminished performance when these models are applied to comprehensive datasets. In response to this gap, we present the Collaborative-aware Mixed Exercise Sampling (CMES) framework, which can effectively exploit the information present in un-interacted exercises linked to un-interacted knowledge concepts. Specifically, we introduce a novel universal sampling module where the training samples comprise not merely raw data slices, but enhanced samples generated by combining weight-enhanced attention mixture techniques. Given the necessity of real response labels in cognitive diagnosis, we also propose a ranking-based pseudo feedback module to regulate students' responses on generated exercises. The versatility of the CMES framework bolsters existing models and improves their adaptability. Finally, we demonstrate the effectiveness and interpretability of our framework through comprehensive experiments on real-world datasets.
翻訳日:2023-12-19 18:36:25 公開日:2023-12-15
# Enlighten-Your-Voice:マルチモーダルがゼロショット低照度画像強調と出会うとき

Enlighten-Your-Voice: When Multimodal Meets Zero-shot Low-light Image Enhancement ( http://arxiv.org/abs/2312.10109v1 )

ライセンス: Link先を確認
Xiaofeng Zhang, Zishan Xu, Hao Tang, Chaochen Gu, Wei Chen, Shanying Zhu, Xinping Guan(参考訳) 低光度画像エンハンスメントは重要な課題であり、多くの教師なし手法は低光シーンにおける可視情報の劣化を見逃しがちであり、補完的情報の融合に悪影響を与え、良好な結果の生成を妨げている。 そこで本研究では,音声およびテキストコマンドによるユーザインタラクションを革新的に強化するマルチモーダル拡張フレームワークである ‘Enlighten-Your-Voice' を紹介した。 このアプローチは技術的な飛躍を示すだけでなく、ユーザエンゲージメントのパラダイムシフトをも表している。 本モデルでは,Dual Collaborative Attention Module (DCAM) を具備し,異なる内容や色差に注意して対応し,微妙な拡張を容易にする。 補完的に,低照度強調操作と意味的文脈を融合し,アルゴリズムの有効性を高めるセマンティック・フィーチャー・フュージョン(sfm)プラグ・アンド・プレイモジュールを提案する。 重要なことに、'Enlighten-Your-Voice'' は教師なしゼロショットシナリオにおける顕著な一般化を示している。 ソースコードはhttps://github.com/zhangbaijin/enlighten-your-voiceからアクセスできる。

Low-light image enhancement is a crucial visual task, and many unsupervised methods tend to overlook the degradation of visible information in low-light scenes, which adversely affects the fusion of complementary information and hinders the generation of satisfactory results. To address this, our study introduces ``Enlighten-Your-Voice'', a multimodal enhancement framework that innovatively enriches user interaction through voice and textual commands. This approach does not merely signify a technical leap but also represents a paradigm shift in user engagement. Our model is equipped with a Dual Collaborative Attention Module (DCAM) that meticulously caters to distinct content and color discrepancies, thereby facilitating nuanced enhancements. Complementarily, we introduce a Semantic Feature Fusion (SFM) plug-and-play module that synergizes semantic context with low-light enhancement operations, sharpening the algorithm's efficacy. Crucially, ``Enlighten-Your-Voice'' showcases remarkable generalization in unsupervised zero-shot scenarios. The source code can be accessed from https://github.com/zhangbaijin/Enlighten-Your-Voice
翻訳日:2023-12-19 18:36:05 公開日:2023-12-15
# プライバシーに配慮したビジュアル質問応答

Privacy-Aware Document Visual Question Answering ( http://arxiv.org/abs/2312.10108v1 )

ライセンス: Link先を確認
Rub\`en Tito, Khanh Nguyen, Marlon Tobaben, Raouf Kerkouche, Mohamed Ali Souibgui, Kangsoo Jung, Lei Kang, Ernest Valveny, Antti Honkela, Mario Fritz, Dimosthenis Karatzas(参考訳) Document Visual Question Answering (DocVQA)は、文書理解の急速に成長している分野である。 ドキュメントには機密情報や著作権情報が含まれているにもかかわらず、現在のDocVQAメソッドはいずれも強力なプライバシー保証を提供していない。 本研究では,DocVQAのドメインにおけるプライバシを初めて検討する。 DocVQAで使用されるマルチモーダルLLMモデルの現状におけるプライバシー問題を強調し、可能な解決策を探る。 具体的には、請求書処理のユースケースを文書理解の現実的で広く利用されているシナリオとして取り上げ、請求書文書と関連する質問と回答からなる大規模DocVQAデータセットを提案する。 我々は,異なる企業における文書の実生活分布を反映した連合学習方式を採用し,請求書発行者のidが保護すべき機密情報である場合のユースケースを考察する。 プライベートでないモデルは、プライベートな情報を公開することにつながる振る舞いを記憶する傾向があることを実証する。 このマルチモーダルシナリオでは,視覚(文書画像)や言語(OCRトークン)という2つの入力モードのいずれかを通じて,センシティブな情報が露出する可能性がある。 最後に,モデルの記憶効果を生かした攻撃をデザインし,docvqaモデルの検証においてその効果を示す。

Document Visual Question Answering (DocVQA) is a fast growing branch of document understanding. Despite the fact that documents contain sensitive or copyrighted information, none of the current DocVQA methods offers strong privacy guarantees. In this work, we explore privacy in the domain of DocVQA for the first time. We highlight privacy issues in state of the art multi-modal LLM models used for DocVQA, and explore possible solutions. Specifically, we focus on the invoice processing use case as a realistic, widely used scenario for document understanding, and propose a large scale DocVQA dataset comprising invoice documents and associated questions and answers. We employ a federated learning scheme, that reflects the real-life distribution of documents in different businesses, and we explore the use case where the ID of the invoice issuer is the sensitive information to be protected. We demonstrate that non-private models tend to memorise, behaviour that can lead to exposing private information. We then evaluate baseline training schemes employing federated learning and differential privacy in this multi-modal scenario, where the sensitive information might be exposed through any of the two input modalities: vision (document image) or language (OCR tokens). Finally, we design an attack exploiting the memorisation effect of the model, and demonstrate its effectiveness in probing different DocVQA models.
翻訳日:2023-12-19 18:35:42 公開日:2023-12-15
# コンテキスト認識ドメインの一般化に向けて:置換不変ネットワークを用いた環境表現

Towards Context-Aware Domain Generalization: Representing Environments with Permutation-Invariant Networks ( http://arxiv.org/abs/2312.10107v1 )

ライセンス: Link先を確認
Jens M\"uller, Lars K\"uhmichel, Martin Rohbeck, Stefan T. Radev, Ullrich K\"othe(参考訳) 本研究では,新しいドメインや実運用環境に適用した場合,入力のコンテキストに関する情報が深層学習モデルの予測を改善することができることを示す。 我々は、コンテキストの概念を、入力自身と同じ環境/ドメインに由来する一連のデータポイントの置換不変表現として定式化する。 これらの表現は、標準的な教師付き学習目標と共同で学習され、未知の結果に関する漸進的な情報を提供する。 さらに,本手法が原則として利益を得ることのできる条件を理論的に分析し,実際に容易に検証可能な2つの必要条件を定式化する。 さらに、我々のアプローチが堅牢性を約束する分散シフトの種類に関する洞察も提供します。 実験により,低次元および高次元のデータセットに対するアプローチの有効性を実証した。 最後に,out-of-distribution(ood)ドメインにおける不当な外挿処理をモデルが処理するシナリオを確実に検出し,潜在的な障害ケースを識別できることを実証する。 その結果、予測性能とロバスト性の間のトレードオフを回避し、最も予測的かつ最も堅牢なモデルを選択する方法を紹介した。

In this work, we show that information about the context of an input $X$ can improve the predictions of deep learning models when applied in new domains or production environments. We formalize the notion of context as a permutation-invariant representation of a set of data points that originate from the same environment/domain as the input itself. These representations are jointly learned with a standard supervised learning objective, providing incremental information about the unknown outcome. Furthermore, we offer a theoretical analysis of the conditions under which our approach can, in principle, yield benefits, and formulate two necessary criteria that can be easily verified in practice. Additionally, we contribute insights into the kind of distribution shifts for which our approach promises robustness. Our empirical evaluation demonstrates the effectiveness of our approach for both low-dimensional and high-dimensional data sets. Finally, we demonstrate that we can reliably detect scenarios where a model is tasked with unwarranted extrapolation in out-of-distribution (OOD) domains, identifying potential failure cases. Consequently, we showcase a method to select between the most predictive and the most robust model, circumventing the well-known trade-off between predictive performance and robustness.
翻訳日:2023-12-19 18:35:23 公開日:2023-12-15
# 記憶効率向上のための鍛造トークン

Forging Tokens for Improved Storage-efficient Training ( http://arxiv.org/abs/2312.10105v1 )

ライセンス: Link先を確認
Minhyun Lee, Song Park, Byeongho Heo, Dongyoon Han, Hyunjung Shim(参考訳) 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。 しかし、高度に一般化可能で高性能なビジョンモデルを実現するには、広範なデータセットが必要であるため、大きなストレージ要求が生じる。 このストレージの課題は、ビジョンモデルをスケールアップする上で重要なボトルネックとなる。 離散表現の成功に動機づけられたseitは、視覚分類のネットワーク入力としてベクトル量子化(vq)特徴ベクトル(トークン)を使用することを提案する。 しかし、従来のデータ拡張をトークンに適用することは、入力ドメインシフトによる課題に直面します。 この問題を解決するために、トークンベースの拡張戦略であるTokenAdaptとColorAdaptを紹介します。 TokenAdaptは、空間拡張と互換性のあるトークン埋め込みスペースを具現化し、微調整を必要とせずにモデルの効率を維持する。 さらにColorAdaptは、Adaptive Instance Normalization (AdaIN)にインスパイアされたトークンのカラーベースの拡張に対処する。 我々は,ストレージ効率の高いimagenet-1k分類,細粒度分類,ロバスト性ベンチマーク,ade-20kセマンティクスセグメンテーションなど,さまざまなシナリオでアプローチを評価した。 実験結果は多様な実験において一貫した性能向上を示す。 コードはhttps://github.com/naver-ai/tokenadaptで入手できる。

Recent advancements in Deep Neural Network (DNN) models have significantly improved performance across computer vision tasks. However, achieving highly generalizable and high-performing vision models requires extensive datasets, leading to large storage requirements. This storage challenge poses a critical bottleneck for scaling up vision models. Motivated by the success of discrete representations, SeiT proposes to use Vector-Quantized (VQ) feature vectors (i.e., tokens) as network inputs for vision classification. However, applying traditional data augmentations to tokens faces challenges due to input domain shift. To address this issue, we introduce TokenAdapt and ColorAdapt, simple yet effective token-based augmentation strategies. TokenAdapt realigns token embedding space for compatibility with spatial augmentations, preserving the model's efficiency without requiring fine-tuning. Additionally, ColorAdapt addresses color-based augmentations for tokens inspired by Adaptive Instance Normalization (AdaIN). We evaluate our approach across various scenarios, including storage-efficient ImageNet-1k classification, fine-grained classification, robustness benchmarks, and ADE-20k semantic segmentation. Experimental results demonstrate consistent performance improvement in diverse experiments. Code is available at https://github.com/naver-ai/tokenadapt.
翻訳日:2023-12-19 18:35:04 公開日:2023-12-15
# ICD-LM:言語モデリングによる視覚言語インテクスト記述の構成

ICD-LM: Configuring Vision-Language In-Context Demonstrations by Language Modeling ( http://arxiv.org/abs/2312.10104v1 )

ライセンス: Link先を確認
Yingzhe Peng, Xu Yang, Haoxuan Ma, Shuo Xu, Chi Zhang, Yucheng Han, Hanwang Zhang(参考訳) 本稿では,LVLM(Large Vision-Language Model)のための強力なIn-Context Demonstration (ICD) シーケンスをどのように構成し,In-Context Learning (ICL) による視覚-Languageタスクを解決するかを検討する。 icdシーケンスの構成は、文を構成するミラープロセスである、すなわち、言語モデルを介して文を単語単位で構成できるように観察した後、icdシーケンスを1つずつ構成することもできる。 その結果、有効なICDシーケンスを生成するために設計されたICD言語モデル(ICD-LM)を導入する。 これには、さまざまなクエリサンプルのために手作りのICDシーケンスのデータセットを作成し、それをICD-LMのトレーニングに使用することが含まれる。 提案手法は,ICDを別々に選択・注文する従来の方法と異なり,同時にICDを選択・注文する方法を学習し,シーケンスの効果を高める。 さらに、データ構築中に、ICL実装を意図したLVLMを使用して、各ICDシーケンスの強度を検証することにより、モデル固有のデータセットと、このデータセットによってトレーニングされたICD-LMもモデル固有である。 ICD設定のための言語モデルを用いて,視覚的質問応答と画像キャプションの実験により,我々の方法論を検証した。 本研究は,各種データセット構築およびICD-LM開発環境が結果に及ぼす影響について検討する。 コードはhttps://github.com/ForJadeForest/ICD-LMで公開されている。

This paper studies how to configure powerful In-Context Demonstration (ICD) sequences for a Large Vision-Language Model (LVLM) to solve Vision-Language tasks through In-Context Learning (ICL). After observing that configuring an ICD sequence is a mirror process of composing a sentence, i.e., just as a sentence can be composed word by word via a Language Model, an ICD sequence can also be configured one by one. Consequently, we introduce an ICD Language Model (ICD-LM) specifically designed to generate effective ICD sequences. This involves creating a dataset of hand-crafted ICD sequences for various query samples and using it to train the ICD-LM. Our approach, diverging from traditional methods in NLP that select and order ICDs separately, enables to simultaneously learn how to select and order ICDs, enhancing the effect of the sequences. Moreover, during data construction, we use the LVLM intended for ICL implementation to validate the strength of each ICD sequence, resulting in a model-specific dataset and the ICD-LM trained by this dataset is also model-specific. We validate our methodology through experiments in Visual Question Answering and Image Captioning, confirming the viability of using a Language Model for ICD configuration. Our comprehensive ablation studies further explore the impact of various dataset construction and ICD-LM development settings on the outcomes. The code is given in https://github.com/ForJadeForest/ICD-LM.
翻訳日:2023-12-19 18:34:42 公開日:2023-12-15
# GSVA:マルチモーダル大言語モデルによる一般化セグメンテーション

GSVA: Generalized Segmentation via Multimodal Large Language Models ( http://arxiv.org/abs/2312.10103v1 )

ライセンス: Link先を確認
Zhuofan Xia, Dongchen Han, Yizeng Han, Xuran Pan, Shiji Song, Gao Huang(参考訳) Generalized Referring Expression Segmentation (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。 GRESは、画像内のインスタンスの複雑な空間的関係をモデル化し、既存の参照を識別する際の課題を提起する。 近年,MLLM(Multimodal Large Language Models)は複雑な視覚言語タスクにおいて大きな進歩を見せている。 LLM(Large Language Models)とビジョンモデル(Vision Models)を結びつけると、MLLMは視覚入力による文脈理解に長けている。 LISAは、代表として、セグメンテーションマスクデコーダ(SAMなど)をプロンプトするために特別な[SEG]トークンを採用し、RESタスクでMLLMを有効にする。 しかし、GRESの既存のソリューションは、現在のセグメンテーションMLLMでは、ユーザーが特定のプロンプトで複数の被験者を参照したり、任意の画像ターゲットと矛盾する説明をすることができるようなケースを適切に扱えないため、満足できないままである。 本稿では,このギャップに対処する汎用セグメンテーションビジョンアシスタント(GSVA)を提案する。 具体的には、gsvaは[seg]トークンを再利用して、セグメンテーションモデルに複数のマスク参照を同時にサポートするように促し、革新的に[rej]トークンを生成してヌルターゲットを明示的に拒否する。 GRES問題の解決におけるGSVAの有効性を検証する実験は、GRESベンチマークgRefCOCOデータセットに注目すべき拡張点と、新たな記録を設定している。 GSVAはまた、様々な古典的な参照表現のセグメンテーションや理解タスクで有効であることを示す。

Generalized Referring Expression Segmentation (GRES) extends the scope of classic RES to referring to multiple objects in one expression or identifying the empty targets absent in the image. GRES poses challenges in modeling the complex spatial relationships of the instances in the image and identifying non-existing referents. Recently, Multimodal Large Language Models (MLLMs) have shown tremendous progress in these complicated vision-language tasks. Connecting Large Language Models (LLMs) and vision models, MLLMs are proficient in understanding contexts with visual inputs. Among them, LISA, as a representative, adopts a special [SEG] token to prompt a segmentation mask decoder, e.g., SAM, to enable MLLMs in the RES task. However, existing solutions to of GRES remain unsatisfactory since current segmentation MLLMs cannot properly handle the cases where users might reference multiple subjects in a singular prompt or provide descriptions incongruent with any image target. In this paper, we propose Generalized Segmentation Vision Assistant (GSVA) to address this gap. Specifically, GSVA reuses the [SEG] token to prompt the segmentation model towards supporting multiple mask references simultaneously and innovatively learns to generate a [REJ] token to reject the null targets explicitly. Experiments validate GSVA's efficacy in resolving the GRES issue, marking a notable enhancement and setting a new record on the GRES benchmark gRefCOCO dataset. GSVA also proves effective across various classic referring expression segmentation and comprehension tasks.
翻訳日:2023-12-19 18:34:18 公開日:2023-12-15
# 因果難聴モデルにおけるロバスト推定

Robust Estimation of Causal Heteroscedastic Noise Models ( http://arxiv.org/abs/2312.10102v1 )

ライセンス: Link先を確認
Quang-Duy Tran, Bao Duong, Phuoc Nguyen, Thin Nguyen(参考訳) 二変量観測データから原因と効果を区別することは、多くの科学分野に応用できる基礎的な問題である。 この問題の解決策の1つは、構造因果モデルから原因と効果が生成されることを仮定し、モデルの各方向の推定後の因果方向の同定を可能にすることである。 ヘテロシドスティックノイズモデル(heteroscedastic noise model)は、ノイズの平均と分散の両方に原因が貢献できる構造因果モデルの一種である。 異方性雑音モデル推定法では,非ガウス分布を持つ場合,最適かつ不安定な最適化対象としてガウス確率を選択する。 この制限に対処するために,本モデルを評価するための新しい手法として,学生の$t$-distributionを提案する。 この適応性は、ヘテロシドスティックノイズモデルにおける雑音分布のパラメータを捉えるのに有用である。 我々の経験的評価は、我々の推定器はより堅牢で、合成ベンチマークと実ベンチマークの総合的な性能が向上していることを示している。

Distinguishing the cause and effect from bivariate observational data is the foundational problem that finds applications in many scientific disciplines. One solution to this problem is assuming that cause and effect are generated from a structural causal model, enabling identification of the causal direction after estimating the model in each direction. The heteroscedastic noise model is a type of structural causal model where the cause can contribute to both the mean and variance of the noise. Current methods for estimating heteroscedastic noise models choose the Gaussian likelihood as the optimization objective which can be suboptimal and unstable when the data has a non-Gaussian distribution. To address this limitation, we propose a novel approach to estimating this model with Student's $t$-distribution, which is known for its robustness in accounting for sampling variability with smaller sample sizes and extreme values without significantly altering the overall distribution shape. This adaptability is beneficial for capturing the parameters of the noise distribution in heteroscedastic noise models. Our empirical evaluations demonstrate that our estimators are more robust and achieve better overall performance across synthetic and real benchmarks.
翻訳日:2023-12-19 18:33:50 公開日:2023-12-15
# マルチタイム量子プロセスにおけるマルコフ相関と非マルコフ相関の関係

Relations between Markovian and non-Markovian correlations in multi-time quantum processes ( http://arxiv.org/abs/2312.10147v1 )

ライセンス: Link先を確認
Guilherme Zambon and Diogo O. Soares-Pinto(参考訳) 開量子系の力学では、情報はシステムまたは環境を通じて時間的に伝播し、それぞれマルコフ型と非マルコフ型の時間相関が生じる。 しかし、ほとんどの物理的状況においてそれらの顕著な共存にもかかわらず、これらの2つの量が互いに存在を制限できるかどうかはまだ明らかではない。 本稿では、一般マルチタイム量子プロセスの時間的相関関係に関するいくつかの不等式を導出することにより、この問題に対処する。 ダイナミクスはプロセステンソルによって記述され、相関はchoi状態のサブシステム間の相互情報によって定量化される。 まず、各ステップにおいてマルコビアン性の次数が与えられた過程の非マルコビアン性に対する上界の集合を証明する。 これは直ちに、そのマルコフ性とは独立に、任意の過程の非マルコフ性に対する非自明な最大値を意味する。 最後に、非マルコビアン性が与えられた過程に存在する可能性のある全時間相関の量を制限する方法を得る。 これらの結果は、任意のマルチタイムプロセスが、与えられた量の非マルコビアン性を持つために全相関の価格を支払わなければならないが、この価格がプロセスのステップ数と指数関数的に消え、最大非マルコビアン性は直線的にのみ増加することを示している。 これは、非常に非マルコフ過程でさえ、十分に多くのステップを持つ場合、最大全相関を持つように任意に近くなることを意味する。

In the dynamics of open quantum systems, information may propagate in time through either the system or the environment, giving rise to Markovian and non-Markovian temporal correlations, respectively. However, despite their notable coexistence in most physical situations, it is not yet clear how these two quantities may limit the existence of one another. Here, we address this issue by deriving several inequalities relating the temporal correlations of general multi-time quantum processes. The dynamics are described by process tensors and the correlations are quantified by the mutual information between subsystems of their Choi states. First, we prove a set of upper bounds to the non-Markovianity of a process given the degree of Markovianity in each of its steps. This immediately implies a non-trivial maximum value for the non-Markovianity of any process, independently of its Markovianity. Finally, we obtain how the non-Markovianity limits the amount of total temporal correlations that could be present in a given process. These results show that, although any multi-time process must pay a price in total correlations to have a given amount of non-Markovianity, this price vanishes exponentially with the number of steps of the process, while the maximum non-Markovianity grows only linearly. This implies that even a highly non-Markovian process might be arbitrarily close to having maximum total correlations if it has a sufficiently large number of steps.
翻訳日:2023-12-19 18:26:45 公開日:2023-12-15
# 単一GPUにおけるデータ効率の良いマルチモーダル融合

Data-Efficient Multimodal Fusion on a Single GPU ( http://arxiv.org/abs/2312.10144v1 )

ライセンス: Link先を確認
No\"el Vouitsis, Zhaoyan Liu, Satya Krishna Gorti, Valentin Villecroze, Jesse C. Cresswell, Guangwei Yu, Gabriel Loaiza-Ganem, Maksims Volkovs(参考訳) マルチモーダルアライメントの目標は、マルチモーダル入力間で共有される単一の潜在空間を学習することである。 この分野でもっとも強力なモデルは、ペア化された入力と大規模な計算資源の膨大なデータセットを使用して訓練されており、多くの実践的なシナリオでトレーニングするのは非常に高価である。 我々は、大量のユニモーダルデータを事前学習した既存のユニモーダルエンコーダは、より低コストでユニモーダルデータからマルチモーダルモデルを作成するための効果的なブートストラップを提供するべきであると推測する。 そこで本稿では,任意の事前学習された単調エンコーダの潜在空間で動作するマルチモーダル拡張方式であるFuseMixを提案する。 マルチモーダルアライメントにFuseMixを使用することで、画像テキストとオーディオテキストの検索において、競合するパフォーマンス -- と、場合によっては最先端のメソッド -- を、桁違いに少ない計算とデータで上回ります。 600\times$GPUの日数を減らし、$\sim \! 80\times$少ない画像テキストペア。 さらに,事前学習したテキストから画像への生成モデルを音声から画像への変換に応用する方法を示す。 コードはhttps://github.com/layer6ai-labs/fusemix.com/で入手できる。

The goal of multimodal alignment is to learn a single latent space that is shared between multimodal inputs. The most powerful models in this space have been trained using massive datasets of paired inputs and large-scale computational resources, making them prohibitively expensive to train in many practical scenarios. We surmise that existing unimodal encoders pre-trained on large amounts of unimodal data should provide an effective bootstrap to create multimodal models from unimodal ones at much lower costs. We therefore propose FuseMix, a multimodal augmentation scheme that operates on the latent spaces of arbitrary pre-trained unimodal encoders. Using FuseMix for multimodal alignment, we achieve competitive performance -- and in certain cases outperform state-of-the art methods -- in both image-text and audio-text retrieval, with orders of magnitude less compute and data: for example, we outperform CLIP on the Flickr30K text-to-image retrieval task with $\sim \! 600\times$ fewer GPU days and $\sim \! 80\times$ fewer image-text pairs. Additionally, we show how our method can be applied to convert pre-trained text-to-image generative models into audio-to-image ones. Code is available at: https://github.com/layer6ai-labs/fusemix.
翻訳日:2023-12-19 18:26:20 公開日:2023-12-15
# 非負行列のハフニアンのランダム化推定子について

On randomized estimators of the Hafnian of a nonnegative matrix ( http://arxiv.org/abs/2312.10143v1 )

ライセンス: Link先を確認
Alexey Uvarov, Dmitry Vinichenko(参考訳) 本研究では,非負の正方行列,すなわちBarvinokおよびGodsil-Gutman推定器のハフニアンに対する2つの近似アルゴリズムの性能について検討する。 これらのアルゴリズムが良い近似を与えることができないような行列の例は存在するが、アルゴリズムはランダムグラフの隣接行列に対して驚くほどよく機能する。 ほとんどの場合、ゴッドシル・ガットマン推定器ははるかに優れた精度を提供する。 しかし、密度グラフの場合、両方の推定器は分散の遅い成長を示す。 完全グラフに対しては、相対分散 $\sigma / \mu$ がグラフの大きさの平方根として成長することを解析的に示す。 最後に,ゴジラ・グットマン推定器を用いたガウスボソンサンプリング実験をシミュレートし,低次相関関数を再現できることを示す。

We investigate the performance of two approximation algorithms for the Hafnian of a nonnegative square matrix, namely the Barvinok and Godsil-Gutman estimators. We observe that, while there are examples of matrices for which these algorithms fail to provide a good approximation, the algorithms perform surprisingly well for adjacency matrices of random graphs. In most cases, the Godsil-Gutman estimator provides a far superior accuracy. For dense graphs, however, both estimators demonstrate a slow growth of the variance. For complete graphs, we show analytically that the relative variance $\sigma / \mu$ grows as a square root of the size of the graph. Finally, we simulate a Gaussian Boson Sampling experiment using the Godsil-Gutman estimator and show that the technique used can successfully reproduce low-order correlation functions.
翻訳日:2023-12-19 18:25:55 公開日:2023-12-15
# 量子通信における単一光子時間波関数に対する色分散の影響

Effects of Chromatic Dispersion on Single-Photon Temporal Wave Functions in Quantum Communications ( http://arxiv.org/abs/2312.10142v1 )

ライセンス: Link先を確認
Artur Czerwinski, Xiangji Cai, Saeed Haddadi(参考訳) 本稿では,量子通信における単一光子の時間波関数(TWF)に対する色分散の影響について検討する。 まず一般化ガウスモードで定義されるTWFを考える。 このフレームワークから、チャープされたガウシアンTWFとアンカー化されたガウシアンTWFの2つの特定のモデルが導出される。 まず, 単光子TWFの特性に及ぼすチャープパラメータの影響について検討する。 チャープパラメータを適切に調整することにより、色分散の有害な効果を補うことができ、長距離での量子情報の高忠実伝送を維持できることを示す。 さらに,時間領域で定義された量子ビットに対する色分散の影響について検討し,この現象が時間領域で符号化された情報の伝達にどのように影響するかを示す。 最後に、双曲型セカントモードで表される非ガウス的TWFについて考察する。 本研究は,高速・長距離量子通信システムの設計と実装に関する重要な知見を提供する。 以上の結果から,チャープ管理技術が発色分散の影響を緩和する可能性が示唆された。

In this paper, we investigate the effects of chromatic dispersion on the temporal wave functions (TWFs) of single photons in the context of quantum communications. We start by considering TWFs defined by generalized Gaussian modes. From this framework, we derive two specific models: chirped and unchirped Gaussian TWFs. In the first case, we explore the impact of the chirp parameter on the properties of single-photon TWFs. We show that by properly adjusting the chirp parameter, it is possible to compensate for the detrimental effects of chromatic dispersion, allowing for the maintenance of high-fidelity transmission of quantum information over long distances. Furthermore, we examine the effects of chromatic dispersion on a qubit defined in the time domain, illustrating how this phenomenon can influence the transmission of information encoded in time-bins. Finally, we consider non-Gaussian TWFs that are represented by hyperbolic-secant modes. Our results provide important insights into the design and implementation of high-speed and long-distance quantum communication systems. The findings underscore the potential for using chirp management techniques to mitigate the effects of chromatic dispersion.
翻訳日:2023-12-19 18:25:41 公開日:2023-12-15
# キャビティQED材料中の異常フロケット相の多体起源

Many-body origin of anomalous Floquet phases in cavity-QED materials ( http://arxiv.org/abs/2312.10141v1 )

ライセンス: Link先を確認
Beatriz P\'erez-Gonz\'alez and Gloria Platero and \'Alvaro G\'omez-Le\'on(参考訳) 異常なフロケ位相位相は、周期的に駆動される系の静的なアナログを持たないホールマークである。 近年、量子フロッケ工学はキャビティqed材料に対する興味深いアプローチとして登場し、フロッケ工学の物理学を半古典的限界に戻す。 しかし、これら2つの広く異なるシナリオのマッピングは多くの点で謎のままである。 キャビティqed材料における異常な位相相の出現と、フロッケ準エネルギーの0$-および$\pi$-gapsにおける多体スペクトルにおける位相相転移のリンクについて論じる。 本研究は,物質セクターにおける創発的離散時間遷移対称性の微視的起源を定め,孤立多体系の物理と周期駆動系の物理を結びつけるものである。 最後に,多体位相不変量とフロケ位相不変量との関係,およびバルクエッジ対応について論じる。

Anomalous Floquet topological phases are a hallmark, without a static analog, of periodically driven systems. Recently, Quantum Floquet Engineering has emerged as an interesting approach to cavity-QED materials, which recovers the physics of Floquet engineering in its semi-classical limit. However, the mapping between these two widely different scenarios remains mysterious in many aspects. We discuss the emergence of anomalous topological phases in cavity-QED materials, and link topological phase transitions in the many-body spectrum with those in the $0$- and $\pi$-gaps of Floquet quasienergies. Our results allow to establish the microscopic origin of an emergent discrete time-translation symmetry in the matter sector, and link the physics of isolated many-body systems with that of periodically driven ones. Finally, the relation between many-body and Floquet topological invariants is discussed, as well as the bulk-edge correspondence.
翻訳日:2023-12-19 18:25:27 公開日:2023-12-15
# サイクルフローによるホログラフィックエントロピー円錐の向こう側

Beyond the Holographic Entropy Cone via Cycle Flows ( http://arxiv.org/abs/2312.10137v1 )

ライセンス: Link先を確認
Temple He, Sergio Hern\'andez-Cuenca, Cynthia Keeler(参考訳) ビットスレッドをモチベーションとして,ホログラフィックエントロピー円錐の外側のエントロピーベクトルを計算するための新しい処方令を導入する。 有向グラフ上のサイクルフローを利用することにより、頂点の部分集合に付随する最大サイクルフローは、サブシステムに対応するが、明らかに清浄対称性に従うことを示す。 さらに,最大サイクルフローが部分加法と強い部分加法の両方に従うことを証明し,それゆえサブシステムに関連するエントロピーの有効な候補として確立する。 最後に,本モデルが非方向グラフやハイパーグラフの従来の流れから得られるエントロピーベクトルを一般化する方法を示す。

Motivated by bit threads, we introduce a new prescription for computing entropy vectors outside the holographic entropy cone. By utilizing cycle flows on directed graphs, we show that the maximum cycle flow associated to any subset of vertices, which corresponds to a subsystem, manifestly obeys purification symmetry. Furthermore, we prove that the maximum cycle flow obeys both subadditivity and strong subadditivity, thereby establishing it as a viable candidate for the entropy associated to the subsystem. Finally, we demonstrate how our model generalizes the entropy vectors obtainable via conventional flows in undirected graphs and hypergraphs.
翻訳日:2023-12-19 18:25:08 公開日:2023-12-15
# 最適微調整のための勾配に基づくパラメータ選択

Gradient-based Parameter Selection for Efficient Fine-Tuning ( http://arxiv.org/abs/2312.10136v1 )

ライセンス: Link先を確認
Zhi Zhang, Qizhe Zhang, Zijun Gao, Renrui Zhang, Ekaterina Shutova, Shiji Zhou, Shanghang Zhang(参考訳) 事前学習されたモデルのサイズが大きくなると、下流のさまざまなタスクのパラメータをすべて微調整し、保存することはコストがかかり、実現不可能になる。 本稿では,パラメータ効率の良い微調整法である勾配に基づくパラメータ選択法(gps)を提案し,モデルの残りを凍結したまま,事前学習したモデルから選択したパラメータを数個のみチューニングすることで,フルモデルの微調整法と同等以上の性能が得られることを示す。 本手法は,既存のパラメータ・パラメータ・効率的な微調整手法と異なり,トレーニングと推論の段階で追加のパラメータや計算コストを導入しない。 もうひとつの利点は、モデルに依存しない非破壊的な特性であり、特定のモデル特有の他の設計の必要性をなくす。 完全な微調整と比較すると、GPSは3.33%(91.78%対88.45%、FGVC)と9.61%(73.1%対65.57%、VTAB)の精度向上を実現し、24以上の画像分類タスクにおいて、トレーニング済みモデルのパラメータの6%しか調整していない。 さらに,既存のPEFT法と比較して,GPSは最先端性能を実現している。

With the growing size of pre-trained models, full fine-tuning and storing all the parameters for various downstream tasks is costly and infeasible. In this paper, we propose a new parameter-efficient fine-tuning method, Gradient-based Parameter Selection (GPS), demonstrating that only tuning a few selected parameters from the pre-trained model while keeping the remainder of the model frozen can generate similar or better performance compared with the full model fine-tuning method. Different from the existing popular and state-of-the-art parameter-efficient fine-tuning approaches, our method does not introduce any additional parameters and computational costs during both the training and inference stages. Another advantage is the model-agnostic and non-destructive property, which eliminates the need for any other design specific to a particular model. Compared with the full fine-tuning, GPS achieves 3.33% (91.78% vs. 88.45%, FGVC) and 9.61% (73.1% vs. 65.57%, VTAB) improvement of the accuracy with tuning only 0.36% parameters of the pre-trained model on average over 24 image classification tasks; it also demonstrates a significant improvement of 17% and 16.8% in mDice and mIoU, respectively, on medical image segmentation task. Moreover, GPS achieves state-of-the-art performance compared with existing PEFT methods.
翻訳日:2023-12-19 18:24:56 公開日:2023-12-15
# ギャップを閉じる:クエリベースの攻撃に対する正確さとロバストネスのトレードオフの実現

Closing the Gap: Achieving Better Accuracy-Robustness Tradeoffs Against Query-Based Attacks ( http://arxiv.org/abs/2312.10132v1 )

ライセンス: Link先を確認
Pascal Zimmer, S\'ebastien Andreina, Giorgia Azzurra Marson, Ghassan Karame(参考訳) 有望ではあるが、クエリベースの攻撃に対する既存の防御は共通の制限を共有している。 本稿では,クエリベースの攻撃を緩和する上で,ロバスト性と正確性との確固たるトレードオフを,テスト時に効率的に確立する方法を示す。 これらの攻撃が必ずしも低信頼領域を探索することを考えると、RND(Qin et al., NeuRIPS 2021)やRandom Image Transformations(Xie et al., ICLR 2018)のような専用防御を活性化することは、低信頼の入力に対してのみ十分である。 我々のアプローチは訓練とは独立しており、理論によって支えられている。 我々は, CIFAR-10, CIFAR-100, ImageNet に対する広範囲な実験を行うことにより, 既存防衛に対するアプローチの有効性を検証する。 提案手法は, 最先端の手法に比べ, 堅牢性と精度のトレードオフを良好に実現し, 完全トレーニングなしでも有効であることを確認した。

Although promising, existing defenses against query-based attacks share a common limitation: they offer increased robustness against attacks at the price of a considerable accuracy drop on clean samples. In this work, we show how to efficiently establish, at test-time, a solid tradeoff between robustness and accuracy when mitigating query-based attacks. Given that these attacks necessarily explore low-confidence regions, our insight is that activating dedicated defenses, such as RND (Qin et al., NeuRIPS 2021) and Random Image Transformations (Xie et al., ICLR 2018), only for low-confidence inputs is sufficient to prevent them. Our approach is independent of training and supported by theory. We verify the effectiveness of our approach for various existing defenses by conducting extensive experiments on CIFAR-10, CIFAR-100, and ImageNet. Our results confirm that our proposal can indeed enhance these defenses by providing better tradeoffs between robustness and accuracy when compared to state-of-the-art approaches while being completely training-free.
翻訳日:2023-12-19 18:24:25 公開日:2023-12-15
# 大きい光アクセスを有するハイブリッドポール光トラップによる浮遊光学

Hybrid Paul-optical trap with large optical access for levitated optomechanics ( http://arxiv.org/abs/2312.10131v1 )

ライセンス: Link先を確認
Eric Bonvin and Louisiane Devaud and Massimiliano Rossi and Andrei Militaru and Lorenzo Dania and Dmitry S. Bykov and Markus Teller and Tracy E. Northup and Lukas Novotny and Martin Frimmer(参考訳) 我々は,光電場,高周波電場,あるいはその組み合わせを用いて帯電したナノ粒子を高真空で浮揚可能なハイブリッドトラッププラットフォームを提案する。 当社のハイブリッドアプローチでは,光双極子トラップと線形ポールトラップを併用し,大きな開口部(0.77 NA)を維持した。 我々は、ポールトラップを安全ネットとして使用し、高真空下で光トラップから失われた粒子を回収する制御された転送手順を詳述する。 提示されたハイブリッドプラットフォームは、レビトダイナミクスのツールボックスに追加され、完全な制御可能なダークポテンシャルへの重要なステップであり、光子反動によるデコヒーレンスのない制御を提供する。

We present a hybrid trapping platform that allows us to levitate a charged nanoparticle in high vacuum using either optical fields, radio-frequency fields, or a combination thereof. Our hybrid approach combines an optical dipole trap with a linear Paul trap while maintaining a large numerical aperture (0.77 NA). We detail a controlled transfer procedure that allows us to use the Paul trap as a safety net to recover particles lost from the optical trap at high vacuum. The presented hybrid platform adds to the toolbox of levitodynamics and represents an important step towards fully controllable dark potentials, providing control in the absence of decoherence due to photon recoil.
翻訳日:2023-12-19 18:24:04 公開日:2023-12-15
# イベントオブザーバブルとジェット構成要素の拡散モデルによる新しい物理探索の改善

Improving new physics searches with diffusion models for event observables and jet constituents ( http://arxiv.org/abs/2312.10130v1 )

ライセンス: Link先を確認
Debajyoti Sengupta, Matthew Leigh, John Andrew Raine, Samuel Klein, Tobias Golling(参考訳) 我々は,LHCにおける新しい物理探索の感度を高めるために,Drapesと呼ばれる新しい手法を導入する。 サイドバンドデータ上で拡散モデルをトレーニングすることにより,信号領域の背景テンプレートをノイズから直接生成するか,あるいは既存のデータに拡散過程を部分的に適用するかを示す。 部分拡散の場合、新しい目標条件値に対して逆拡散を行う側バンド領域、または信号領域を定義する条件特性上の分布を保存する信号領域からデータを描画することができる。 この手法をLHCOジジェットデータセットを用いた共鳴探索に適用し,高レベルの入力特徴を用いた背景テンプレート生成のための最先端性能を実現する。 また,ジェット成分を用いた低レベル入力に対してdrapeを適用する方法を示し,入力オブザーバブルの選択に対するモデル依存性を低減した。 ジェット成分を用いることで、信号プロセスに対する感度をさらに向上することができるが、任意の選択を適用する前に信号の重要性が4$\sigma$を下回る性能の損失を観測することができる。

We introduce a new technique called Drapes to enhance the sensitivity in searches for new physics at the LHC. By training diffusion models on side-band data, we show how background templates for the signal region can be generated either directly from noise, or by partially applying the diffusion process to existing data. In the partial diffusion case, data can be drawn from side-band regions, with the inverse diffusion performed for new target conditional values, or from the signal region, preserving the distribution over the conditional property that defines the signal region. We apply this technique to the hunt for resonances using the LHCO di-jet dataset, and achieve state-of-the-art performance for background template generation using high level input features. We also show how Drapes can be applied to low level inputs with jet constituents, reducing the model dependence on the choice of input observables. Using jet constituents we can further improve sensitivity to the signal process, but observe a loss in performance where the signal significance before applying any selection is below 4$\sigma$.
翻訳日:2023-12-19 18:23:51 公開日:2023-12-15
# アルゴリズム的公平性に関する情報フローの展望

An Information-Flow Perspective on Algorithmic Fairness ( http://arxiv.org/abs/2312.10128v1 )

ライセンス: Link先を確認
Samuel Teuber and Bernhard Beckert(参考訳) 本研究は,アルゴリズム的公平性とセキュアな情報フローの概念との関係を考察することで得られた知見を示す。 シークレット情報がプログラムの出力に影響を与えるような方法でアルゴリズムやプログラムを通して"フロー"できる場合、攻撃者が秘密を監視(一部)できる可能性があるため、それは安全でない情報フローと見なされる。 セキュアな情報フローとアルゴリズム的な公平性の間には強い対応がある:もし人種、性別、年齢などの保護された属性が秘密のプログラム入力として扱われるならば、セキュアな情報フローは、これらの‘secret’属性がプログラムの結果に影響を与えないことを意味する。 アルゴリズムの公平性評価に関するほとんどの研究はアルゴリズムの影響の研究に集中しているが(しばしばアルゴリズムをブラックボックスとして扱う)、情報フローに由来する概念は、異質な処理の分析と構造的因果モデルによる異質な影響の両方に利用できる。 本稿では,量的および質的情報フロー特性と公平性との関係について検討する。 さらに,この双対性に基づいて,定量的情報フローを用いて解析し,対実的公正性に強く関係するフェアネス拡散という,新たな量的公正性の概念を導出する。 我々は,プログラムのアルゴリズム的公平性特性を解析するために,情報フロー特性の既製のツールが利用可能であることを実証した。

This work presents insights gained by investigating the relationship between algorithmic fairness and the concept of secure information flow. The problem of enforcing secure information flow is well-studied in the context of information security: If secret information may "flow" through an algorithm or program in such a way that it can influence the program's output, then that is considered insecure information flow as attackers could potentially observe (parts of) the secret. There is a strong correspondence between secure information flow and algorithmic fairness: if protected attributes such as race, gender, or age are treated as secret program inputs, then secure information flow means that these ``secret'' attributes cannot influence the result of a program. While most research in algorithmic fairness evaluation concentrates on studying the impact of algorithms (often treating the algorithm as a black-box), the concepts derived from information flow can be used both for the analysis of disparate treatment as well as disparate impact w.r.t. a structural causal model. In this paper, we examine the relationship between quantitative as well as qualitative information-flow properties and fairness. Moreover, based on this duality, we derive a new quantitative notion of fairness called fairness spread, which can be easily analyzed using quantitative information flow and which strongly relates to counterfactual fairness. We demonstrate that off-the-shelf tools for information-flow properties can be used in order to formally analyze a program's algorithmic fairness properties, including the new notion of fairness spread as well as established notions such as demographic parity.
翻訳日:2023-12-19 18:23:32 公開日:2023-12-15
# どのように機能するか? 生産用サーバレスワークロードの長期的トレンドの特徴付け

How Does It Function? Characterizing Long-term Trends in Production Serverless Workloads ( http://arxiv.org/abs/2312.10127v1 )

ライセンス: Link先を確認
Artjom Joosen, Ahmed Hassan, Martin Asenov, Rajkarn Singh, Luke Darlow, Jianfeng Wang, Adam Barker(参考訳) 本稿では、huawei cloud serverless tracesを2つリリースし、分析する。 トレースは、1.4兆以上の関数呼び出しが組み合わさった7ヶ月以上の期間にまたがる。 最初のトレースはHuaweiの内部ワークロードから派生したもので、複数のHuaweiクラウドデータセンタ上で動作する200の関数に関する秒毎の詳細な統計を含んでいる。 第2のトレースは、huaweiの公開faasプラットフォームの代表的ワークロードである。 このトレースには、単一のhuaweiデータセンターで実行される5000以上の関数の分単位の到着率が含まれている。 本稿では,資源消費,コールドスタート時間,使用するプログラミング言語,周期性,秒間対分バーストネス,相関,人気度を特徴付けることで,本番FaaSプラットフォームの内部構造を示す。 リクエストは1日に10億回以上実行される機能,スケジューリング時間,実行時間,コールドスタート分布は2~4桁の規模で異なり,非常に長い尾を持つこと,関数呼び出し数は多数の個々の関数と集約レベルで強い周期性を示すこと,などだ。 我々の分析は、サーバーレス関数の振る舞いにおける大きな多様性を説明するために、リソース予約と時系列予測のさらなる研究の必要性も強調している。 データセットとコードはhttps://github.com/sir-lab/data-releaseで利用可能

This paper releases and analyzes two new Huawei cloud serverless traces. The traces span a period of over 7 months with over 1.4 trillion function invocations combined. The first trace is derived from Huawei's internal workloads and contains detailed per-second statistics for 200 functions running across multiple Huawei cloud data centers. The second trace is a representative workload from Huawei's public FaaS platform. This trace contains per-minute arrival rates for over 5000 functions running in a single Huawei data center. We present the internals of a production FaaS platform by characterizing resource consumption, cold-start times, programming languages used, periodicity, per-second versus per-minute burstiness, correlations, and popularity. Our findings show that there is considerable diversity in how serverless functions behave: requests vary by up to 9 orders of magnitude across functions, with some functions executed over 1 billion times per day; scheduling time, execution time and cold-start distributions vary across 2 to 4 orders of magnitude and have very long tails; and function invocation counts demonstrate strong periodicity for many individual functions and on an aggregate level. Our analysis also highlights the need for further research in estimating resource reservations and time-series prediction to account for the huge diversity in how serverless functions behave. Datasets and code available at https://github.com/sir-lab/data-release
翻訳日:2023-12-19 18:23:04 公開日:2023-12-15
# テキスト単純化システムは意味を保存するか? 読書理解による人的評価

Do Text Simplification Systems Preserve Meaning? A Human Evaluation via Reading Comprehension ( http://arxiv.org/abs/2312.10126v1 )

ライセンス: Link先を確認
Sweta Agrawal, Marine Carpuat(参考訳) 自動テキスト単純化(TS)は、テキストの書き直しプロセスを自動化することで、読みやすくすることを目的としている。 TSが有用であることの前提条件は、元のテキストの意味と一致した情報を伝達することである。 しかし、現在のts評価プロトコルは、出力文が現れる文書コンテキストや、その理解方法によらず、簡潔さと意味の保存のためにシステム出力を評価する。 そこで本研究では,要約文が意味を保っているかどうかを,理解質問の読解を用いて評価するための評価フレームワークを提案する。 この枠組みを用いて,人間と9つの自動システムによるテキストの徹底的な人間による評価を行う。 事前学習知識を活用する監視システムは、自動制御可能なTSシステムの中で、読解理解(RC)タスクの最高スコアを達成する。 しかし、最も優れた監督されたシステムでさえ、少なくとも14%の質問に苦しめられ、単純化されたコンテンツに基づいて「答えられない」と表現している。 さらに,既存のts評価指標と自動質問応答システムについて検討した。

Automatic text simplification (TS) aims to automate the process of rewriting text to make it easier for people to read. A pre-requisite for TS to be useful is that it should convey information that is consistent with the meaning of the original text. However, current TS evaluation protocols assess system outputs for simplicity and meaning preservation without regard for the document context in which output sentences occur and for how people understand them. In this work, we introduce a human evaluation framework to assess whether simplified texts preserve meaning using reading comprehension questions. With this framework, we conduct a thorough human evaluation of texts by humans and by nine automatic systems. Supervised systems that leverage pre-training knowledge achieve the highest scores on the reading comprehension (RC) tasks amongst the automatic controllable TS systems. However, even the best-performing supervised system struggles with at least 14% of the questions, marking them as "unanswerable'' based on simplified content. We further investigate how existing TS evaluation metrics and automatic question-answering systems approximate the human judgments we obtained.
翻訳日:2023-12-19 18:22:42 公開日:2023-12-15
# MVHuman:リアルな3Dヒューマンジェネレーションのためのマルチビューサンプリングによる2次元拡散

MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic 3D Human Generation ( http://arxiv.org/abs/2312.10120v1 )

ライセンス: Link先を確認
Suyi Jiang, Haimin Luo, Haoran Jiang, Ziyu Wang, Jingyi Yu, Lan Xu(参考訳) 近年,拡散モデルに基づく3次元生成が急速に進展している。 ほとんどの進歩は、既存の2D安定ディフュージョンをマルチビュー設定や退屈な蒸留操作に微調整する必要があるため、多様な3Dデータセットが欠如しているため、人間の生成には欠落している。 MVHuman はテキスト誘導から人間の放射界を生成するための代替手法であり, 微調整や蒸留を行わずに, 予め訓練した安定なディフュージョンから直接, 連続した多視点画像を生成する。 我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。 ビュー一貫性のあるコンディショニングを包含し、元のノイズを`consistency-guided noises''に置き換え、潜在コードを最適化し、クロスビューの注意層を利用する。 サンプリング処理を通したマルチビュー画像を用いて,幾何補正と3次元ラミアンスフィールド生成を行い,その後,自由視点レンダリングのためのニューラルブレンディングスキームを適用する。 本手法の有効性と, 最先端の3次元人為的生成法に優れていることの実証実験を行った。

Recent months have witnessed rapid progress in 3D generation based on diffusion models. Most advances require fine-tuning existing 2D Stable Diffsuions into multi-view settings or tedious distilling operations and hence fall short of 3D human generation due to the lack of diverse 3D human datasets. We present an alternative scheme named MVHuman to generate human radiance fields from text guidance, with consistent multi-view images directly sampled from pre-trained Stable Diffsuions without any fine-tuning or distilling. Our core is a multi-view sampling strategy to tailor the denoising processes of the pre-trained network for generating consistent multi-view images. It encompasses view-consistent conditioning, replacing the original noises with ``consistency-guided noises'', optimizing latent codes, as well as utilizing cross-view attention layers. With the multi-view images through the sampling process, we adopt geometry refinement and 3D radiance field generation followed by a subsequent neural blending scheme for free-view rendering. Extensive experiments demonstrate the efficacy of our method, as well as its superiority to state-of-the-art 3D human generation methods.
翻訳日:2023-12-19 18:22:23 公開日:2023-12-15
# マグノンボース・アインシュタイン凝縮:時間結晶と量子色力学から渦センシングと宇宙論へ

Magnon Bose-Einstein condensates: from time crystals and quantum chromodynamics to vortex sensing and cosmology ( http://arxiv.org/abs/2312.10119v1 )

ライセンス: Link先を確認
Jere T. M\"akinen, Samuli Autti, Vladimir B. Eltsov(参考訳) 適切な実験条件下では、集合スピン波励起により、マグノンはボース・アインシュタイン凝縮体(BEC)を形成する。 マグノンのボース・アインシュタイン凝縮は、^3$heの超流動相、yttrium-iron-garnet (yig) 膜のような固体系、低温原子ガスを含むいくつかの系で報告されている。 これらの系の中で、$^3$Heの超流動相は、実験的に証明されたスピン超流動性、マグノン凝縮体の長寿命、そしてアクセス可能な現象の汎用性により、コヒーレントマグノン物理学のためのほぼ理想的なテストベンチを提供する。 我々はまず、超流動な$^3$Heに焦点をあてて、異なるマグノンBEC系の特性を簡潔に振り返る。 本論の本体は、素粒子物理学や宇宙論から凝縮物質の新しい相に至る様々な領域に結びついた基本的な物理現象を研究するための実験室としてのマグノンbecの最近の進歩を要約している。 この一連の研究は、マグノンBECを室温量子デバイスのためのプローブやコンポーネントとして利用するための継続的な努力を補完している。 結論として,我々はmagnon becの応用分野における今後の方向性のロードマップを基礎研究に提示する。

Under suitable experimental conditions collective spin-wave excitations, magnons, form a Bose-Einstein condensate (BEC) where the spins precess with a globally coherent phase. Bose-Einstein condensation of magnons has been reported in a few systems, including superfluid phases of $^3$He, solid state systems such as Yttrium-iron-garnet (YIG) films, and cold atomic gases. Among these systems, the superfluid phases of $^3$He provide a nearly ideal test bench for coherent magnon physics owing to experimentally proven spin superfluidity, the long lifetime of the magnon condensate, and the versatility of the accessible phenomena. We first briefly recap the properties of the different magnon BEC systems, with focus on superfluid $^3$He. The main body of this review summarizes recent advances in application of magnon BEC as a laboratory to study basic physical phenomena connecting to diverse areas from particle physics and cosmology to new phases of condensed matter. This line of research complements the ongoing efforts to utilize magnon BECs as probes and components for potentially room-temperature quantum devices. In conclusion, we provide a roadmap for future directions in the field of applications of magnon BEC to fundamental research.
翻訳日:2023-12-19 18:22:03 公開日:2023-12-15
# WordScape: Web Crawl Dataからレイアウトアノテーションで多言語で視覚的にリッチなドキュメントを抽出するパイプライン

WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data ( http://arxiv.org/abs/2312.10188v1 )

ライセンス: Link先を確認
Maurice Weber, Carlo Siebenschuh, Rory Butler, Anton Alexandrov, Valdemar Thanner, Georgios Tsolakis, Haris Jabbar, Ian Foster, Bo Li, Rick Stevens, Ce Zhang(参考訳) 本稿では,文書レイアウト検出のためのアノテーションを備えた数百万ページからなる多言語コーパスを作成するための新しいパイプラインであるWordScapeを紹介する。 文書ページ上での視覚的およびテキスト的項目の関連は、マルチモーダルモデルの出現によってさらに重要になっている。 様々なアプローチが視覚的質問応答やレイアウトセグメンテーションに有効であった。 しかし、テキスト、テーブル、ビジュアルの相互作用は、様々な文書理解タスクにおいて依然として困難である。 特に、トレーニングデータが不十分なため、多くのモデルは多様なドメインや新しい言語をうまく一般化できない。 WordScapeはこれらの制限に対処する。 自動アノテーションパイプラインは、Webから得られたWord文書のオープンXML構造を解析し、レイアウトアノテートされた文書画像とそのテキスト表現を共同で提供する。 次に、wordscapeは、(1)インターネット上のワードファイルフォーマットの普遍性を活用し、(2)は共通のクロールウェブコーパスを通じて容易にアクセスでき、(3)ドメイン固有の文書に適応し、(4)文化的、言語的に多様な文書ページを提供し、自然な意味構造と高品質なテキストを提供する。 パイプラインと共に9.5MのURLをワードドキュメントにリリースし、WordScapeを使って処理して4000万ページを超えるデータセットを作成する。 最後に、WordScapeが抽出したテキストやレイアウトアノテーションの品質を調査し、文書理解ベンチマークへの影響を評価し、手作業によるラベリングコストを大幅に削減できることを示す。

We introduce WordScape, a novel pipeline for the creation of cross-disciplinary, multilingual corpora comprising millions of pages with annotations for document layout detection. Relating visual and textual items on document pages has gained further significance with the advent of multimodal models. Various approaches proved effective for visual question answering or layout segmentation. However, the interplay of text, tables, and visuals remains challenging for a variety of document understanding tasks. In particular, many models fail to generalize well to diverse domains and new languages due to insufficient availability of training data. WordScape addresses these limitations. Our automatic annotation pipeline parses the Open XML structure of Word documents obtained from the web, jointly providing layout-annotated document images and their textual representations. In turn, WordScape offers unique properties as it (1) leverages the ubiquity of the Word file format on the internet, (2) is readily accessible through the Common Crawl web corpus, (3) is adaptive to domain-specific documents, and (4) offers culturally and linguistically diverse document pages with natural semantic structure and high-quality text. Together with the pipeline, we will additionally release 9.5M urls to word documents which can be processed using WordScape to create a dataset of over 40M pages. Finally, we investigate the quality of text and layout annotations extracted by WordScape, assess the impact on document understanding benchmarks, and demonstrate that manual labeling costs can be substantially reduced.
翻訳日:2023-12-19 18:15:30 公開日:2023-12-15
# TSRNet:マルチモーダル時間とスペクトログラム復元ネットワークを用いたリアルタイムECG異常検出のための簡易フレームワーク

TSRNet: Simple Framework for Real-time ECG Anomaly Detection with Multimodal Time and Spectrogram Restoration Network ( http://arxiv.org/abs/2312.10187v1 )

ライセンス: Link先を確認
Nhat-Tan Bui and Dinh-Hieu Hoang and Thinh Phan and Minh-Triet Tran and Brijesh Patel and Donald Adjeroh and Ngan Le(参考訳) 心電図(Electrocardiogram、ECG)は、心拍数やリズムなどの健康状態の様々な側面を評価するために用いられる貴重な信号である。 心臓の状態を特定し、心電図データの異常を検出する上で重要な役割を果たす。 しかし、正常なecg信号と異常なecg信号の区別は難しい課題である。 本稿では,異常検出を利用したトレーニング用心電図データのみを用いた不健康状態の同定手法を提案する。 さらに、利用可能な情報を強化し、ロバストなシステムを構築するために、ECG信号の時系列および時間周波数領域の両面を考慮することを提案する。 その結果,心電図信号の異常検出に特化して設計されたTSRNet(Multimodal Time and Spectrogram Restoration Network)が導入された。 tsrnetは復元に基づく異常検出のカテゴリに属し、時系列領域とスペクトログラム領域の両方からインスピレーションを得ている。 両領域から表現を抽出することにより、TSRNetはECG信号の包括的な特性を効果的にキャプチャする。 このアプローチにより、ネットワークはより優れた識別能力を持つ堅牢な表現を学習し、正常なECGパターンと異常なECGパターンをより効果的に区別することができる。 さらに,異常検出における重要な要素である心電図ピークに着目した新しい推定手法,Peak-based Errorを導入する。 大規模データセット PTB-XL を用いた実験結果から,ECG 異常検出における本手法の有効性を実証するとともに,トレーニング可能なパラメータの最小化による効率の優先順位付けを行った。 私たちのコードはhttps://github.com/uark-aicv/tsrnetで利用可能です。

The electrocardiogram (ECG) is a valuable signal used to assess various aspects of heart health, such as heart rate and rhythm. It plays a crucial role in identifying cardiac conditions and detecting anomalies in ECG data. However, distinguishing between normal and abnormal ECG signals can be a challenging task. In this paper, we propose an approach that leverages anomaly detection to identify unhealthy conditions using solely normal ECG data for training. Furthermore, to enhance the information available and build a robust system, we suggest considering both the time series and time-frequency domain aspects of the ECG signal. As a result, we introduce a specialized network called the Multimodal Time and Spectrogram Restoration Network (TSRNet) designed specifically for detecting anomalies in ECG signals. TSRNet falls into the category of restoration-based anomaly detection and draws inspiration from both the time series and spectrogram domains. By extracting representations from both domains, TSRNet effectively captures the comprehensive characteristics of the ECG signal. This approach enables the network to learn robust representations with superior discrimination abilities, allowing it to distinguish between normal and abnormal ECG patterns more effectively. Furthermore, we introduce a novel inference method, termed Peak-based Error, that specifically focuses on ECG peaks, a critical component in detecting abnormalities. The experimental result on the large-scale dataset PTB-XL has demonstrated the effectiveness of our approach in ECG anomaly detection, while also prioritizing efficiency by minimizing the number of trainable parameters. Our code is available at https://github.com/UARK-AICV/TSRNet.
翻訳日:2023-12-19 18:15:02 公開日:2023-12-15
# 騒音教師の代名詞としての学生

Student as an Inherent Denoiser of Noisy Teacher ( http://arxiv.org/abs/2312.10185v1 )

ライセンス: Link先を確認
Jiachen Zhao(参考訳) 知識蒸留(KD)は、大きな言語モデル(LLM)から擬似ラベル学習を通じて、低データ体制の特殊モデルへ知識を伝達するために広く用いられている。 しかし、教師モデルによって生成される偽のラベルは通常騒がしく、kdパフォーマンスに影響を与える可能性がある。 本研究は、ノイズの多い教師とKDを融合させ、学生モデルが、KD中にトレーニングする教師ラベルよりも、より正確な予測を生成できることを明らかにし、ノイズの多い教師ラベルを識別する固有の能力を示している。 そこで本研究では,ノイズの多い教師からバニラKDを改善するため,Pier-Advised KDを提案する。 実験の結果、Pier-Advised KDは50の人間ラベル付きデータで約5%LLMを上回り、750の人間ラベル付きデータで標準的な教師付き微調整と競合することがわかった。

Knowledge distillation (KD) has been widely employed to transfer knowledge from a large language model (LLM) to a specialized model in low-data regimes through pseudo label learning. However, pseudo labels generated by teacher models are usually noisy and may influence KD performance. This study delves into KD with noisy teachers and uncovers that the student model can already generate more accurate predictions than the teacher labels used to train it during KD, indicating its inherent ability to denoise noisy teacher labels. Motivated by this finding, we propose Peer-Advised KD to improve vanilla KD from noisy teachers. Experiments show that Peer-Advised KD can outperform LLM by approximately 5% with 50 human-labeled data, and even competitive to standard supervised finetuning with 750 human-labeled data.
翻訳日:2023-12-19 18:14:34 公開日:2023-12-15
# 単一実行時のフェアネスとプルーニングのカップリング:双方向最適化の視点

Coupling Fairness and Pruning in a Single Run: a Bi-level Optimization Perspective ( http://arxiv.org/abs/2312.10181v1 )

ライセンス: Link先を確認
Yucong Dai, Gen Li, Feng Luo, Xiaolong Ma, Yongkai Wu(参考訳) ディープニューラルネットワークは様々なタスクで顕著なパフォーマンスを示している。 疎いディープラーニングの必要性が高まっているため、モデル圧縮技術(特に刈り込み)が注目されている。 しかし、従来の刈り取り技術はアルゴリズムバイアスを不用意に悪化させ、不平等な予測をもたらす。 これを解決するために,スパースモデルがフェアネス要件に基づいて導出されるフェアプルーニングタスクを定義する。 特に,プルーニングマスクと重み更新処理を公平性制約で協調的に最適化する枠組みを提案する。 このフレームワークは、単一実行における公平性を確保しながら、パフォーマンスを維持するモデルを圧縮するように設計されている。 この目的のために,新しい制約付き二レベル最適化タスクとしてフェアプルーニング問題を定式化し,効率的かつ効果的な解法を導出する。 提案手法を検証するために,様々なデータセットと設定にまたがる実験を設計する。 我々の実証分析では, モデルフェア性, 性能, 効率の維持において, 提案手法が優れていることを強調し, 主観的な刈り取り戦略と対比した。

Deep neural networks have demonstrated remarkable performance in various tasks. With a growing need for sparse deep learning, model compression techniques, especially pruning, have gained significant attention. However, conventional pruning techniques can inadvertently exacerbate algorithmic bias, resulting in unequal predictions. To address this, we define a fair pruning task where a sparse model is derived subject to fairness requirements. In particular, we propose a framework to jointly optimize the pruning mask and weight update processes with fairness constraints. This framework is engineered to compress models that maintain performance while ensuring fairness in a single execution. To this end, we formulate the fair pruning problem as a novel constrained bi-level optimization task and derive efficient and effective solving strategies. We design experiments spanning various datasets and settings to validate our proposed method. Our empirical analysis contrasts our framework with several mainstream pruning strategies, emphasizing our method's superiority in maintaining model fairness, performance, and efficiency.
翻訳日:2023-12-19 18:14:19 公開日:2023-12-15
# 3FM: フェデレーションタスクのためのマルチモーダルメタ学習

3FM: Multi-modal Meta-learning for Federated Tasks ( http://arxiv.org/abs/2312.10179v1 )

ライセンス: Link先を確認
Minh Tran, Roochi Shah, Zejun Gong(参考訳) 本稿では,統合学習(FL)分野における新しいアプローチについて述べる。特に,不均一性,クライアント間のモダリティ可用性の変動,欠落データの問題に対処することに焦点を当てる。 マルチモーダルなフェデレーションタスクに特化したメタラーニングフレームワークを提案する。 我々のアプローチは、クライアントが利用可能なモダリティの数でしばしば異なるFLの一般的なシナリオである新しいモダリティに晒されると、フェデレートされたモデルが堅牢に適応できるようにする必要性によって動機付けられています。 提案手法の有効性は,音声および手話データに富んだ拡張MNISTデータセットの広範な実験により実証される。 提案アルゴリズムは,メタ学習率を慎重に調整することで,欠落したモダリティシナリオのサブセット上でのベースラインよりも優れた性能を実現することを示す。 これは短縮レポートで、作業はまもなく拡張され、更新されます。

We present a novel approach in the domain of federated learning (FL), particularly focusing on addressing the challenges posed by modality heterogeneity, variability in modality availability across clients, and the prevalent issue of missing data. We introduce a meta-learning framework specifically designed for multimodal federated tasks. Our approach is motivated by the need to enable federated models to robustly adapt when exposed to new modalities, a common scenario in FL where clients often differ in the number of available modalities. The effectiveness of our proposed framework is demonstrated through extensive experimentation on an augmented MNIST dataset, enriched with audio and sign language data. We demonstrate that the proposed algorithm achieves better performance than the baseline on a subset of missing modality scenarios with careful tuning of the meta-learning rates. This is a shortened report, and our work will be extended and updated soon.
翻訳日:2023-12-19 18:14:02 公開日:2023-12-15
# UniAR:視覚コンテンツにおける人間の注意と反応予測の統合

UniAR: Unifying Human Attention and Response Prediction on Visual Content ( http://arxiv.org/abs/2312.10175v1 )

ライセンス: Link先を確認
Peizhao Li, Junfeng He, Gang Li, Rachit Bhargava, Shaolei Shen, Nachiappan Valliappan, Youwei Liang, Hongxiang Gu, Venky Ramachandran, Golnaz Farhadi, Yang Li, Kai J Kohlhoff, and Vidhya Navalpakkam(参考訳) 人間の行動モデリングの進歩は、人間の注意のような暗黙的、早期の知覚的行動と、主観的格付け/参照のような明示的な後期の行動の両方を理解することである。 しかし、ほとんどの先行研究は、暗黙的および明示的な人間の行動を分離してモデリングすることに焦点を当てている。 多様な視覚コンテンツに対して確実に機能する,人間の注意と嗜好の統一モデルの構築は可能か? このようなモデルは、全体的な満足度や美的品質評価といった主観的なフィードバックを、人間の注意や相互作用のヒートマップや視聴順序とともに予測し、デザイナーやコンテンツ制作モデルが人間中心の改善のために創造を最適化することを可能にする。 本論文では,異なるタイプの視覚コンテンツに対して暗黙的・明示的な行動を予測する統一モデルUniARを提案する。 UniARはマルチモーダルトランスフォーマーを活用し、顔ごとに異なる予測ヘッドを特徴とし、アテンションヒートマップ、スキャンパスまたは視聴順序、主観評価/参照を予測する。 自然画像、webページ、グラフィックデザインにまたがるさまざまな公開データセットでユニアルをトレーニングし、異なる画像ドメインと様々な行動モデリングタスクにまたがる複数のベンチマークで主要なパフォーマンスを達成します。 潜在的なアプリケーションには、UI/デジタルデザイン/イメージの有効性に関する即時フィードバックの提供や、デザイン/イメージ作成をさらに最適化するための報酬モデルとして機能することが含まれる。

Progress in human behavior modeling involves understanding both implicit, early-stage perceptual behavior such as human attention and explicit, later-stage behavior such as subjective ratings/preferences. Yet, most prior research has focused on modeling implicit and explicit human behavior in isolation. Can we build a unified model of human attention and preference behavior that reliably works across diverse types of visual content? Such a model would enable predicting subjective feedback such as overall satisfaction or aesthetic quality ratings, along with the underlying human attention or interaction heatmaps and viewing order, enabling designers and content-creation models to optimize their creation for human-centric improvements. In this paper, we propose UniAR -- a unified model that predicts both implicit and explicit human behavior across different types of visual content. UniAR leverages a multimodal transformer, featuring distinct prediction heads for each facet, and predicts attention heatmap, scanpath or viewing order, and subjective rating/preference. We train UniAR on diverse public datasets spanning natural images, web pages and graphic designs, and achieve leading performance on multiple benchmarks across different image domains and various behavior modeling tasks. Potential applications include providing instant feedback on the effectiveness of UIs/digital designs/images, and serving as a reward model to further optimize design/image creation.
翻訳日:2023-12-19 18:13:47 公開日:2023-12-15
# ほぼどんな言語でも自動ファクトチェックのためのパイプラインとデータセット生成

Pipeline and Dataset Generation for Automated Fact-checking in Almost Any Language ( http://arxiv.org/abs/2312.10171v1 )

ライセンス: Link先を確認
Jan Drchal and Herbert Ullrich and Tom\'a\v{s} Mlyn\'a\v{r} and V\'aclav Moravec(参考訳) 本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。 目的は、根拠コーパスから得られた証拠を用いて、テキストクレームの正確性を評価することである。 パイプラインは、エビデンス検索とクレーム検証評価という2つの主要なモジュールで構成されている。 私たちの主な焦点は、自動ファクトチェックの分野で探索されていないさまざまな言語でのデプロイメントの容易さです。 証拠文を扱う他の類似のパイプラインとは異なり、パイプラインは段落レベルでデータを処理し、全体的なアーキテクチャとデータ要件を簡素化します。 言語固有の事実チェックトレーニングデータをアノテートするコストが高いことから、当社のソリューションは、パイプラインの全モデルに対するデータ生成に適応して使用する、クレーム生成(qacg)メソッドに対する質問応答に基づいています。 当社の戦略は、適度なサイズの固定データセットを2つだけ機械翻訳することで、新しい言語の導入を可能にする。 その後、対象言語のエビデンスコーパスに基づいて、任意の数のトレーニングサンプルを生成することができる。 我々は、チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータおよび微調整されたモデル、および結果の再現に使用されるコードベースへのオープンアクセスを提供し、人間のアノテーションやサンプルごとの難易度をポイントワイドV情報を用いて包括的に評価する。 提示された実験は、再現性を促進するために完全なwikipediaスナップショットに基づいている。 実装とユーザインタラクションを容易にするために,提案するパイプラインを特徴とするfactsearchアプリケーションとその性能に関する予備フィードバックを開発した。

This article presents a pipeline for automated fact-checking leveraging publicly available Language Models and data. The objective is to assess the accuracy of textual claims using evidence from a ground-truth evidence corpus. The pipeline consists of two main modules -- the evidence retrieval and the claim veracity evaluation. Our primary focus is on the ease of deployment in various languages that remain unexplored in the field of automated fact-checking. Unlike most similar pipelines, which work with evidence sentences, our pipeline processes data on a paragraph level, simplifying the overall architecture and data requirements. Given the high cost of annotating language-specific fact-checking training data, our solution builds on the Question Answering for Claim Generation (QACG) method, which we adapt and use to generate the data for all models of the pipeline. Our strategy enables the introduction of new languages through machine translation of only two fixed datasets of moderate size. Subsequently, any number of training samples can be generated based on an evidence corpus in the target language. We provide open access to all data and fine-tuned models for Czech, English, Polish, and Slovak pipelines, as well as to our codebase that may be used to reproduce the results.We comprehensively evaluate the pipelines for all four languages, including human annotations and per-sample difficulty assessment using Pointwise V-information. The presented experiments are based on full Wikipedia snapshots to promote reproducibility. To facilitate implementation and user interaction, we develop the FactSearch application featuring the proposed pipeline and the preliminary feedback on its performance.
翻訳日:2023-12-19 18:13:23 公開日:2023-12-15
# UINav: UI自動化エージェントのメーカー

UINav: A maker of UI automation agents ( http://arxiv.org/abs/2312.10170v1 )

ライセンス: Link先を確認
Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Oriana Riva, Max Lin(参考訳) アプリケーションのユーザインタフェース(UI)を駆動することで自然言語命令を実行できる自動化システムは、特に状況や永続性に障害がある場合に、ユーザに恩恵を与えることができる。 従来の自動化システム(手動のスクリプティング、デモツールによるプログラミングなど)は、uiやタスクワークフローの変更を許容する汎用モデルを生成しません。 機械学習の自動化エージェントは、より一般化するが、単純な手作りのアプリケーションでのみ動作するか、あるいは大きな事前訓練されたモデルに依存している。 本稿では,実演型エージェントメーカシステムである \emph{UINav} を提案する。 UINavエージェントはモバイルデバイスで動かすのに十分軽量だが、わずかな数のタスクデモで高い成功率を達成する。 タスクデモの数を最小化するために、UINavにはリファインダーモデルが含まれており、エージェントが追加デモの収集に最善を尽くしていないタスクに対して即座にフィードバックを受け取ることができる。 さらに、UINavはエージェントの状態空間を減らすためにマクロアクションを採用し、トレーニングデータの多様性を高めるために人間のデモを強化する。 評価の結果,UINav1タスクあたりの平均10回のデモでは70倍以上の精度を達成でき,40以上のタスクでほぼ完全な成功率を達成できることがわかった。

An automation system that can execute natural language instructions by driving the user interface (UI) of an application can benefit users, especially when situationally or permanently impaired. Traditional automation systems (manual scripting, programming by demonstration tools, etc.) do not produce generalizable models that can tolerate changes in the UI or task workflow. Machine-learned automation agents generalize better, but either work only in simple, hand-crafted applications or rely on large pre-trained models, which may be too computationally expensive to run on mobile devices. In this paper, we propose \emph{UINav}, a demonstration-based agent maker system. UINav agents are lightweight enough to run on mobile devices, yet they achieve high success rates with a modest number of task demonstrations. To minimize the number of task demonstrations, UINav includes a referee model that allows users to receive immediate feedback on tasks where the agent is failing to best guide efforts to collect additional demonstrations. Further, UINav adopts macro actions to reduce an agent's state space, and augments human demonstrations to increase the diversity of training data. Our evaluation demonstrates that with an average of 10 demonstrations per task UINav can achieve an accuracy of 70\% or higher, and that with enough demonstrations it can achieve near-perfect success rates on 40+ different tasks.
翻訳日:2023-12-19 18:12:55 公開日:2023-12-15
# 教師なしPOSタグのレビューと言語習得への示唆

Review of Unsupervised POS Tagging and Its Implications on Language Acquisition ( http://arxiv.org/abs/2312.10169v1 )

ライセンス: Link先を確認
Niels Dickson(参考訳) 人間の構文的知識の根底にある能力は、どの単語が類似した構造に現れるかを決定することである。 これらのグループ化により、人間は複雑な意味を伝えるために構造を結合することができる。 基礎的な疑問は、子供たちがこの能力をどのように獲得するかである。 本プロセスの探索では, 構文的知識を必要とせずに, テキストサンプル中の単語の音声(POS)を正確に識別する, 子どもの目標と類似した様々な工学的アプローチについて検討する。 これらの教師なしのタグ付けの取り組みをレビューし、モデルの進歩と言語獲得との関連性をサポートする共通のテーマについて論じる。 例えば、各モデルがどのように成功を判断するか(評価基準)、POS学習を制約する「追加情報」、POSを決定するのに使用される文脈(過去の単語、ターゲットの前後の単語など)について論じる。 特定テーマは、構文カテゴリーの獲得の基盤となる認知過程の今後の研究の道を開くとともに、非教師なしPOSタグ付けモデルの現在の状態の有用なレイアウトを提供する。

An ability that underlies human syntactic knowledge is determining which words can appear in the similar structures (i.e. grouping words by their syntactic categories). These groupings enable humans to combine structures in order to communicate complex meanings. A foundational question is how do children acquire this ability underlying syntactic knowledge. In exploring this process, we will review various engineering approaches whose goal is similar to that of a child's -- without prior syntactic knowledge, correctly identify the parts of speech (POS) of the words in a sample of text. In reviewing these unsupervised tagging efforts, we will discuss common themes that support the advances in the models and their relevance for language acquisition. For example, we discuss how each model judges success (evaluation metrics), the "additional information" that constrains the POS learning (such as orthographic information), and the context used to determine POS (only previous word, words before and after the target, etc). The identified themes pave the way for future investigations into the cognitive processes that underpin the acquisition of syntactic categories and provide a useful layout of current state of the art unsupervised POS tagging models.
翻訳日:2023-12-19 18:12:30 公開日:2023-12-15
# ドメイン認識バッチ正規化学習によるテスト時間領域適応

Test-Time Domain Adaptation by Learning Domain-Aware Batch Normalization ( http://arxiv.org/abs/2312.10165v1 )

ライセンス: Link先を確認
Yanan Wu, Zhixiang Chi, Yang Wang, Konstantinos N. Plataniotis, Songhe Feng(参考訳) テストタイムドメイン適応は、ソースドメインでトレーニングされたモデルを、ラベルのないいくつかのイメージを使用して、未表示のターゲットドメインに適応することを目的としている。 新興研究では、ラベルとドメイン情報は、重み行列とバッチ正規化(BN)層に別々に埋め込まれていることが示されている。 従来の作業は通常、ラベルとドメイン間の知識を明示的に分離することなく、ネットワーク全体をネイティブに更新する。 結果として、知識の干渉と欠陥のある分布適応につながる。 本研究では,このような学習干渉を低減し,bn層を操作するだけでドメイン知識学習を向上させることを提案する。 しかし、BNの正規化ステップは統計がいくつかのサンプルから再推定されるときに本質的に不安定である。 ソースドメイン統計を保ちながら、BN内の2つのアフィンパラメータを更新するだけで、曖昧さを大幅に低減できることがわかった。 ラベルなしデータからのドメイン知識抽出をさらに強化するため,ラベルに依存しない自己教師付き学習(SSL)を補助的に構築し,監視を行う。 さらに,メタラーニングに基づく二段階最適化を提案し,補助枝と主枝の2つの学習目標のアライメントを強制する。 目標は、補助ブランチを使用してドメインを適応させ、それに続く推論のメインタスクに便益を与えることです。 提案手法は,補助分岐を適応後に完全に破棄できるのと同じ計算コストを推定時に維持する。 大規模な実験により,本手法は5つのWILDS実世界のドメインシフトデータセットにおいて先行研究よりも優れていた。 本手法はラベル依存最適化手法と統合して性能境界をさらに押し上げることもできる。 私たちのコードはhttps://github.com/ynanwu/mabn.comで利用可能です。

Test-time domain adaptation aims to adapt the model trained on source domains to unseen target domains using a few unlabeled images. Emerging research has shown that the label and domain information is separately embedded in the weight matrix and batch normalization (BN) layer. Previous works normally update the whole network naively without explicitly decoupling the knowledge between label and domain. As a result, it leads to knowledge interference and defective distribution adaptation. In this work, we propose to reduce such learning interference and elevate the domain knowledge learning by only manipulating the BN layer. However, the normalization step in BN is intrinsically unstable when the statistics are re-estimated from a few samples. We find that ambiguities can be greatly reduced when only updating the two affine parameters in BN while keeping the source domain statistics. To further enhance the domain knowledge extraction from unlabeled data, we construct an auxiliary branch with label-independent self-supervised learning (SSL) to provide supervision. Moreover, we propose a bi-level optimization based on meta-learning to enforce the alignment of two learning objectives of auxiliary and main branches. The goal is to use the auxiliary branch to adapt the domain and benefit main task for subsequent inference. Our method keeps the same computational cost at inference as the auxiliary branch can be thoroughly discarded after adaptation. Extensive experiments show that our method outperforms the prior works on five WILDS real-world domain shift datasets. Our method can also be integrated with methods with label-dependent optimization to further push the performance boundary. Our code is available at https://github.com/ynanwu/MABN.
翻訳日:2023-12-19 18:12:09 公開日:2023-12-15
# 生成的・識別的視覚基盤モデルの統一に向けて:調査

Towards the Unification of Generative and Discriminative Visual Foundation Model: A Survey ( http://arxiv.org/abs/2312.10163v1 )

ライセンス: Link先を確認
Xu Liu, Tong Zhou, Yuanxin Wang, Yuping Wang, Qinjingwen Cao, Weizhi Du, Yonghuan Yang, Junjun He, Yu Qiao, Yiqing Shen(参考訳) 膨大なデータセットで事前学習された基礎モデルの出現は、その堅牢性と目立ったゼロショット一般化能力によって特徴付けられる、コンピュータビジョンの新たな時代へと導いてきた。 自然言語処理における大規模言語モデル(LLM)のような基礎モデルの変革的影響を反映して、視覚基盤モデル(VFM)はコンピュータビジョンにおける基盤的発展の触媒となっている。 本稿では,VFMの重要軌跡を概説し,テキスト・ツー・イメージ合成などの生成タスクにおけるスケーラビリティと習熟度,および画像セグメンテーションを含む識別タスクにおける有効性を強調した。 生成的および識別的モデルは歴史的に異なる経路をグラフ化してきたが、我々は両領域におけるVFMによる最近の進歩を包括的に検証し、その起源、初歩的なブレークスルー、そして重要な方法論を解明した。 さらに, VFMの開発を促進する広範な資源について検討し, 今後の研究への道を開く課題に対処する。 今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。 識別的文脈における生成モデルの誕生は、この合流の初期段階を意味する。 この調査は、VFMのコースを図解し、その多面的な風景を照らすことで、学者や実践家らにとって現代のコンペディションになることを志している。

The advent of foundation models, which are pre-trained on vast datasets, has ushered in a new era of computer vision, characterized by their robustness and remarkable zero-shot generalization capabilities. Mirroring the transformative impact of foundation models like large language models (LLMs) in natural language processing, visual foundation models (VFMs) have become a catalyst for groundbreaking developments in computer vision. This review paper delineates the pivotal trajectories of VFMs, emphasizing their scalability and proficiency in generative tasks such as text-to-image synthesis, as well as their adeptness in discriminative tasks including image segmentation. While generative and discriminative models have historically charted distinct paths, we undertake a comprehensive examination of the recent strides made by VFMs in both domains, elucidating their origins, seminal breakthroughs, and pivotal methodologies. Additionally, we collate and discuss the extensive resources that facilitate the development of VFMs and address the challenges that pave the way for future research endeavors. A crucial direction for forthcoming innovation is the amalgamation of generative and discriminative paradigms. The nascent application of generative models within discriminative contexts signifies the early stages of this confluence. This survey aspires to be a contemporary compendium for scholars and practitioners alike, charting the course of VFMs and illuminating their multifaceted landscape.
翻訳日:2023-12-19 18:11:42 公開日:2023-12-15
# LVLMはチャートを理解するか? チャートキャプションにおけるFactual Errorsの分析と修正

Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning ( http://arxiv.org/abs/2312.10160v1 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Mingyang Zhou, Hou Pong Chan, Yi R. Fung, Zhenhailong Wang, Lingyu Zhang, Shih-Fu Chang, Heng Ji(参考訳) 近年の大規模視覚言語モデル(LVLM)の進歩により、視覚コンテンツのための自然言語記述の生成が著しく進歩し、様々な応用が進んでいる。 これらの強力なモデルの1つの問題は、視覚入力と事実上矛盾するテキストを生成することがあることである。 自然画像のキャプションにおけるこのような矛盾を緩和する努力はいくつかあるが、チャートなどの構造化文書画像のキャプション生成の事実は、あまり精査されておらず、重要なアプリケーションにおける情報信頼性への潜在的な脅威となっている。 この研究は、生成されたチャートキャプションに事実エラーの包括的型付けを導入することで、事実性の側面を掘り下げる。 大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作成されたキャプションのエラーパターンと頻度に関する洞察を与え、最終的には新しいデータセットであるCHOCOLATEの基礎を形成する。 分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。 この課題に対応して,グラフキャプションの事実的誤り訂正の新たなタスクを確立し,事実的一貫性を評価する上で,プロプライエタリかつオープンソースなlvlmsを上回る視覚インテリメントモデルであるchartveを導入する。 さらに,事実誤りの訂正に優れた解釈可能な2段階フレームワークであるC2TFECを提案する。 本研究は, グラフキャプションの誤り訂正に新たな領域を見出し, 新たな評価機構を示し, 生成したチャートキャプションの事実性を確保するための効果的なアプローチを示す。

Recent advancements in large vision-language models (LVLMs) have led to significant progress in generating natural language descriptions for visual content and thus enhancing various applications. One issue with these powerful models is that they sometimes produce texts that are factually inconsistent with the visual input. While there has been some effort to mitigate such inconsistencies in natural image captioning, the factuality of generated captions for structured document images, such as charts, has not received as much scrutiny, posing a potential threat to information reliability in critical applications. This work delves into the factuality aspect by introducing a comprehensive typology of factual errors in generated chart captions. A large-scale human annotation effort provides insight into the error patterns and frequencies in captions crafted by various chart captioning models, ultimately forming the foundation of a novel dataset, CHOCOLATE. Our analysis reveals that even state-of-the-art models, including GPT-4V, frequently produce captions laced with factual inaccuracies. In response to this challenge, we establish the new task of Chart Caption Factual Error Correction and introduce CHARTVE, a model for visual entailment that outperforms proprietary and open-source LVLMs in evaluating factual consistency. Furthermore, we propose C2TFEC, an interpretable two-stage framework that excels at correcting factual errors. This work inaugurates a new domain in factual error correction for chart captions, presenting a novel evaluation mechanism, and demonstrating an effective approach to ensuring the factuality of generated chart captions.
翻訳日:2023-12-19 18:11:18 公開日:2023-12-15
# 難読化iqp回路に対する秘密抽出攻撃

Secret extraction attacks against obfuscated IQP circuits ( http://arxiv.org/abs/2312.10156v1 )

ライセンス: Link先を確認
David Gross and Dominik Hangleiter(参考訳) 量子コンピューティングデバイスは今やサンプリングタスクを実行でき、複雑性理論と数値的証拠によれば、古典的コンピュータの範囲を超えている。 これは、この状態で動作する量子コンピュータが意図したように動作することを効率的に検証できるかという疑問を提起する。 2008年、シェパードとブレムナーは、検証者が比較的簡単に実装できるIQP回路のファミリーからユニタリを構成するプロトコルを提案し、量子コンピュータ上で実行することを証明者に挑戦した。 チャレンジ問題は難解な秘密を含むように設計されており、正しい量子実装からサンプルを受け入れる統計的テストにすることができる。 チャレンジ問題から秘密を抽出することはnpハードであり、テストに合格する能力は、証明者が量子デバイスを持ち、それが主張通り動作するという強い証拠となると推測された。 残念ながら、約10年後、カハナモク・マイヤーは効率的な古典的秘密抽出攻撃を発見した。 Bremner氏、Cheng氏、Ji氏は最近、オリジナルのプロトコルを広範囲に一般化した。 iqp安定化器は既知の弱さを回避するために明示的に設計されている。 また、問題パラメータを調整することで元の構成をセキュアにすることも示唆した。 本研究では,様々な問題パラメータにおいて,新しいアプローチの双方に対して有効である秘密抽出攻撃を多数開発する。 量子超越性のサンプリングに基づく証明のための効率的で信頼性の高い検証プロトコルを見つけるという重要な問題は未解決のままである。

Quantum computing devices can now perform sampling tasks which, according to complexity-theoretic and numerical evidence, are beyond the reach of classical computers. This raises the question of how one can efficiently verify that a quantum computer operating in this regime works as intended. In 2008, Shepherd and Bremner proposed a protocol in which a verifier constructs a unitary from the comparatively easy-to-implement family of so-called IQP circuits, and challenges a prover to execute it on a quantum computer. The challenge problem is designed to contain an obfuscated secret, which can be turned into a statistical test that accepts samples from a correct quantum implementation. It was conjectured that extracting the secret from the challenge problem is NP-hard, so that the ability to pass the test constitutes strong evidence that the prover possesses a quantum device and that it works as claimed. Unfortunately, about a decade later, Kahanamoku-Meyer found an efficient classical secret extraction attack. Bremner, Cheng, and Ji very recently followed up by constructing a wide-ranging generalization of the original protocol. Their IQP Stabilizer Scheme has been explicitly designed to circumvent the known weakness. They also suggested that the original construction can be made secure by adjusting the problem parameters. In this work, we develop a number of secret extraction attacks which are effective against both new approaches in a wide range of problem parameters. The important problem of finding an efficient and reliable verification protocol for sampling-based proofs of quantum supremacy thus remains open.
翻訳日:2023-12-19 18:10:49 公開日:2023-12-15
# シナプス不確かさからのベイズ変塑性

Bayesian Metaplasticity from Synaptic Uncertainty ( http://arxiv.org/abs/2312.10153v1 )

ライセンス: Link先を確認
Djohan Bonnet, Tifenn Hirtzlin, Tarcisius Januel, Thomas Dalgaty, Damien Querlioz, Elisa Vianello(参考訳) 特に生涯学習シナリオにおいて、破滅的な忘れはニューラルネットワークにとって課題である。 本研究では,メタ可塑性とベイズ推論の原理に触発されたMetaplasticity from Synaptic Uncertainity (MESU)を紹介する。 MESUはシナプス不確実性を利用して情報を時間とともに保持し、その更新規則はシナプス更新のための対角線ニュートン法を密接に近似している。 MNISTタスクの連続学習実験を通じて、明示的なタスク境界を必要とせず、100タスクにわたる学習性能を維持するMESUの際立った能力を示す。

Catastrophic forgetting remains a challenge for neural networks, especially in lifelong learning scenarios. In this study, we introduce MEtaplasticity from Synaptic Uncertainty (MESU), inspired by metaplasticity and Bayesian inference principles. MESU harnesses synaptic uncertainty to retain information over time, with its update rule closely approximating the diagonal Newton's method for synaptic updates. Through continual learning experiments on permuted MNIST tasks, we demonstrate MESU's remarkable capability to maintain learning performance across 100 tasks without the need of explicit task boundaries.
翻訳日:2023-12-19 18:10:24 公開日:2023-12-15
# 超低温原子をもつフェルミ・ハバード模型における強磁性の実現

Realizing Altermagnetism in Fermi-Hubbard Models with Ultracold Atoms ( http://arxiv.org/abs/2312.10151v1 )

ライセンス: Link先を確認
Purnendu Das, Valentin Leeb, Johannes Knolle, Michael Knap(参考訳) 強磁性は強磁性と従来の反強磁性とは異なる新しいタイプのコリニア磁性を表す。 後者とは対照的に、反対スピンの超格子は空間回転と関係し、翻訳や反転によってのみ関係する。 その結果、反磁性体はスピン分割バンドを持ち、ユニークな実験的なシグネチャを生み出す。 本稿では,光格子中の超低温フェルミオン原子を用いてd波交互磁性相を実現する方法を示す。 異方性次ネアレスト近傍ホッピングを持つ変磁性ハバードモデルを提案し,ハートリー・フォック位相図を得る。 反磁性相は金属と絶縁相で分離し、大きなパラメータ状態に対して堅牢である。 異方性スピン輸送(異方性スピン輸送)という反磁性の定式化特性の1つがトラップ膨張実験によって探索可能であることを示す。

Altermagnetism represents a new type of collinear magnetism distinct from ferromagnetism and conventional antiferromagnetism. In contrast to the latter, sublattices of opposite spin are related by spatial rotations and not only by translations and inversions. As a result, altermagnets have spin split bands leading to unique experimental signatures. Here, we show theoretically how a d-wave altermagnetic phase can be realized with ultracold fermionic atoms in optical lattices. We propose an altermagnetic Hubbard model with anisotropic next-nearest neighbor hopping and obtain the Hartree-Fock phase diagram. The altermagnetic phase separates in a metallic and an insulating phase and is robust over a large parameter regime. We show that one of the defining characteristics of altermagnetism, the anisotropic spin transport, can be probed with trap-expansion experiments.
翻訳日:2023-12-19 18:10:13 公開日:2023-12-15
# 無限温度における障害可変絡み合い

Disorder-tunable entanglement at infinite temperature ( http://arxiv.org/abs/2312.10216v1 )

ライセンス: Link先を確認
Hang Dong, Jean-Yves Desaules, Yu Gao, Ning Wang, Zexian Guo, Jiachen Chen, Yiren Zou, Feitong Jin, Xuhao Zhu, Pengfei Zhang, Hekang Li, Zhen Wang, Qiujiang Guo, Junxiang Zhang, Lei Ying, Zlatko Papi\'c(参考訳) 多体量子系の複雑な絡み合い構造は量子技術に潜在的な利点をもたらすが、その適用性は熱ノイズや障害によって著しく制限される傾向がある。 この道路をバイパスするために、独自の超電導量子ラダーを用いて、エネルギースペクトルの中央に高い絡み合い構造を持つ非熱的状態の新しいパラダイムを実現する。 効果的に「無限の」温度アンサンブルを形成するにもかかわらず、これらの状態は、はしごのクエンチ力学における忠実度と絡み合いエントロピーを測定することによって、平衡から遠く離れた量子情報をしっかりとエンコードする。 提案手法は,最近提案されている非エルゴード的挙動であるrainbow scarを応用し,エネルギーに影響を与えずにモデルのカップリングをランダム化することにより,エルゴード性破壊特性を簡便に制御できる解析的完全固有関数を得る。 障害による絡み合い構造のオンデマンドチューニングにより、エルゴディディティの破れをその場で制御することができ、熱化を阻害するエキゾチックな多体状態を設計するためのノブを提供する。

Complex entanglement structures in many-body quantum systems offer potential benefits for quantum technology, yet their applicability tends to be severely limited by thermal noise and disorder. To bypass this roadblock, we utilize a custom-built superconducting qubit ladder to realize a new paradigm of non-thermalizing states with rich entanglement structures in the middle of the energy spectrum. Despite effectively forming an "infinite" temperature ensemble, these states robustly encode quantum information far from equilibrium, as we demonstrate by measuring the fidelity and entanglement entropy in the quench dynamics of the ladder. Our approach harnesses the recently proposed type of non-ergodic behavior known as "rainbow scar", which allows us to obtain analytically exact eigenfunctions whose ergodicity-breaking properties can be conveniently controlled by randomizing the couplings of the model, without affecting their energy. The on-demand tunability of entanglement structure via disorder allows for in situ control over ergodicity breaking and it provides a knob for designing exotic many-body states that defy thermalization.
翻訳日:2023-12-19 18:03:48 公開日:2023-12-15
# 低雑音光学用表面波空洞に埋め込まれたGated InAs量子ドット

Gated InAs quantum dots embedded in surface acoustic wave cavities for low-noise optomechanics ( http://arxiv.org/abs/2312.10215v1 )

ライセンス: Link先を確認
Zixuan Wang, Ryan A. DeCrescent, Poolad Imany, Joseph T. Bush, Dileep V. Reddy, Sae Woo Nam, Richard P. Mirin, Kevin L. Silverman(参考訳) 自己集合型InAs量子ドット(QD)は、その優れたフォトニック特性と局所ひずみ場に対する感度のために、光学的要素を約束している。 これらの効率的な量子エミッタから散乱した光子のマイクロ波周波数変調は、表面音響波(saw)共振器を用いて最近実証されている。 しかし、最適性能を得るためには、ゲート構造が電荷状態を決定論的に制御し、QDの電荷ノイズを低減する必要がある。 そこで我々は,分子線エピタキシーとナノファブリケーションを用いたゲートQDとSAWキャビティを統合する。 基板層構造を注意深く設計することで,各サブシステムの最適性能を維持しつつ,2つのシステムの統合を実現できることを示す。 これらの結果は、マイクロ波-光量子トランスダクションのための効率的で低ノイズの光学系への重要な一歩である。

Self-assembled InAs quantum dots (QDs) are promising optomechanical elements due to their excellent photonic properties and sensitivity to local strain fields. Microwave-frequency modulation of photons scattered from these efficient quantum emitters has been recently demonstrated using surface acoustic wave (SAW) cavities. However, for optimal performance, a gate structure is required to deterministically control the charge state and reduce charge noise of the QDs. Here, we integrate gated QDs and SAW cavities using molecular beam epitaxy and nanofabrication. We demonstrate that with careful design of the substrate layer structure, integration of the two systems can be accomplished while retaining the optimal performance of each subsystem. These results mark a critical step toward efficient and low-noise optomechanical systems for microwave-to-optical quantum transduction.
翻訳日:2023-12-19 18:03:25 公開日:2023-12-15
# 依存データの概念ドリフトに関する一考察

A Remark on Concept Drift for Dependent Data ( http://arxiv.org/abs/2312.10212v1 )

ライセンス: Link先を確認
Fabian Hinder, Valerie Vaquet, Barbara Hammer(参考訳) 概念ドリフト、すなわちデータ生成分布の変化は、機械学習モデルを不正確なものにすることができる。 ストリーミングコンテキストにおける概念ドリフトの現象を扱ういくつかの研究は、連続したデータポイントが互いに独立していると仮定している。 依存データに一般化するために、多くの著者は概念ドリフトの概念を時系列にリンクしている。 本研究では,時間依存性がサンプリングプロセスに強く影響していることを示す。 したがって、使用済みの定義には大きな変更が必要である。 特に、この設定には定常性の概念が適さないことを示し、代替案について議論する。 これらの代替形式的概念が数値実験における観測可能な学習行動を記述することを実証する。

Concept drift, i.e., the change of the data generating distribution, can render machine learning models inaccurate. Several works address the phenomenon of concept drift in the streaming context usually assuming that consecutive data points are independent of each other. To generalize to dependent data, many authors link the notion of concept drift to time series. In this work, we show that the temporal dependencies are strongly influencing the sampling process. Thus, the used definitions need major modifications. In particular, we show that the notion of stationarity is not suited for this setup and discuss alternatives. We demonstrate that these alternative formal notions describe the observable learning behavior in numerical experiments.
翻訳日:2023-12-19 18:03:13 公開日:2023-12-15
# VK-G2T:視覚とコンテキスト知識の強化Gross2Text

VK-G2T: Vision and Context Knowledge enhanced Gloss2Text ( http://arxiv.org/abs/2312.10210v1 )

ライセンス: Link先を確認
Liqiang Jing, Xuemeng Song, Xinxing Zu, Na Zheng, Zhongzhou Zhao, Liqiang Nie(参考訳) 既存の手話翻訳法は、2段階のパイプラインに従っており、まず手話動画をグロスシーケンス(Sign2Gloss)に変換し、次に生成されたグロスシーケンスを音声言語文(Gross2Text)に変換する。 これまではSign2Glossステージの性能向上に重点を置いてきたが,Gross2Textステージの最適化を強調した。 しかし,この課題はGross2Textの特徴として,(1)孤立したグロス入力と(2)低容量グロス語彙という2つの特徴がある。 これらの問題に対処するために,手話ビデオの視覚的内容を活用して目的の文の性質を学習し,文脈知識を活用してグロス単語の適応翻訳を容易にする,視覚的・文脈的知識強化型Gloss2Textモデルを提案する。 中国語ベンチマークを用いた広範な実験により,モデルの優越性が検証された。

Existing sign language translation methods follow a two-stage pipeline: first converting the sign language video to a gloss sequence (i.e. Sign2Gloss) and then translating the generated gloss sequence into a spoken language sentence (i.e. Gloss2Text). While previous studies have focused on boosting the performance of the Sign2Gloss stage, we emphasize the optimization of the Gloss2Text stage. However, this task is non-trivial due to two distinct features of Gloss2Text: (1) isolated gloss input and (2) low-capacity gloss vocabulary. To address these issues, we propose a vision and context knowledge enhanced Gloss2Text model, named VK-G2T, which leverages the visual content of the sign language video to learn the properties of the target sentence and exploit the context knowledge to facilitate the adaptive translation of gloss words. Extensive experiments conducted on a Chinese benchmark validate the superiority of our model.
翻訳日:2023-12-19 18:03:03 公開日:2023-12-15
# 経験的ウィンドウリングを超えて:自律走行車における信頼予測のための注意に基づくアプローチ

Beyond Empirical Windowing: An Attention-Based Approach for Trust Prediction in Autonomous Vehicles ( http://arxiv.org/abs/2312.10209v1 )

ライセンス: Link先を確認
Minxue Niu, Zhaobo Zheng, Kumar Akash, Teruhisa Misu(参考訳) 人間の内部状態は人間と機械の相互作用において重要な役割を担い、人間の状態推定が顕著な分野として台頭する。 驚きや刺激といった急激な状態の変化と比較して、信頼や満足度といった段階的な状態のモデリングは、ラベルの空間性によってさらに困難になる。 ウィンドウ化は長い時系列データの局所解析を可能にする手法として広く利用されている。 しかし、下流モデルの性能はウィンドウサイズに敏感であり、最適なウィンドウサイズを決定するにはドメインの専門知識と広範囲な検索が必要である。 この課題に対処するために、ウィンドウプロンプトとマスキングアテンション変換を用いたSelective Windowing Attention Network (SWAN)を提案する。 我々は、新しいマルチモーダル運転シミュレーションデータセットにおいて、信頼予測のタスク上でSWANを評価する。 実験の結果、SWANはCNN-LSTMやTransformerなど、既存の経験的ウィンドウ選択ベースラインとニューラルネットワークベースラインを大きく上回ることがわかった。 さらに、従来のウィンドウ化アプローチと比較して、幅広いウィンドウ範囲にわたって堅牢性を示す。

Humans' internal states play a key role in human-machine interaction, leading to the rise of human state estimation as a prominent field. Compared to swift state changes such as surprise and irritation, modeling gradual states like trust and satisfaction are further challenged by label sparsity: long time-series signals are usually associated with a single label, making it difficult to identify the critical span of state shifts. Windowing has been one widely-used technique to enable localized analysis of long time-series data. However, the performance of downstream models can be sensitive to the window size, and determining the optimal window size demands domain expertise and extensive search. To address this challenge, we propose a Selective Windowing Attention Network (SWAN), which employs window prompts and masked attention transformation to enable the selection of attended intervals with flexible lengths. We evaluate SWAN on the task of trust prediction on a new multimodal driving simulation dataset. Experiments show that SWAN significantly outperforms an existing empirical window selection baseline and neural network baselines including CNN-LSTM and Transformer. Furthermore, it shows robustness across a wide span of windowing ranges, compared to the traditional windowing approach.
翻訳日:2023-12-19 18:02:44 公開日:2023-12-15
# ガウス過程分類器を用いたビデオによる手術スキル評価

Video-based Surgical Skill Assessment using Tree-based Gaussian Process Classifier ( http://arxiv.org/abs/2312.10208v1 )

ライセンス: Link先を確認
Arefeh Rezaei, Mohammad Javad Ahmadi, Amir Molaei, Hamid. D. Taghirad(参考訳) ビデオデータを用いた評価と, 外科医の熟練度評価における提案手法の有効性, 対象訓練介入の可能性, 外科領域における品質保証について明らかにする。 このパイプラインには、表現フロー畳み込みニューラルネットワークと、新しいツリーベースのガウスプロセス分類器が組み込まれている。 さらに、精度を高めるために新しいカーネルが導入される。 パイプラインのパフォーマンスはJIGSAWSデータセットを使用して評価される。 既存の文献との比較分析では、計算コストの精度と改善が著しく向上している。 提案するパイプラインは,映像データを用いた手術スキル評価において,計算効率と精度の向上に寄与する。 当院の同僚外科医のコメントに基づいて検討した結果,本手法は,外科領域における訓練介入や品質保証等を通じて,手術仲間のスキル向上と患者の安全性向上を促進する可能性が示唆された。

assessment using video data and to showcase the effectiveness of the proposed approach in evaluating surgeon proficiency, its potential for targeted training interventions, and quality assurance in surgical departments. The pipeline incorporates a representation flow convolutional neural network and a novel tree-based Gaussian process classifier, which is robust to noise, while being computationally efficient. Additionally, new kernels are introduced to enhance accuracy. The performance of the pipeline is evaluated using the JIGSAWS dataset. Comparative analysis with existing literature reveals significant improvement in accuracy and betterment in computation cost. The proposed pipeline contributes to computational efficiency and accuracy improvement in surgical skill assessment using video data. Results of our study based on comments of our colleague surgeons show that the proposed method has the potential to facilitate skill improvement among surgery fellows and enhance patient safety through targeted training interventions and quality assurance in surgical departments.
翻訳日:2023-12-19 18:02:25 公開日:2023-12-15
# 大規模言語モデルを用いた臨床文章における移動機能情報の低リソース分類

Low-resource classification of mobility functioning information in clinical sentences using large language models ( http://arxiv.org/abs/2312.10202v1 )

ライセンス: Link先を確認
Tuan Dung Le, Thanh Duong, Thanh Thieu(参考訳) 目的: 機能は、個人全体の健康の重要な指標として、ますます認識される。 本研究は, 臨床ノートから機能的情報の存在を正確に識別する大規模言語モデル(llm)の可能性を評価する。 このタスクのパフォーマンスを改善するための様々な戦略を探求する。 資料と方法:モビリティnerデータセットから1000文のバランスのとれたバイナリ分類データセットを収集し,n2c2臨床ノートから収集した。 評価のために、ゼロショットと少数ショットプロンプトを構築し、与えられた文が移動機能情報を含むかどうかをllmに問い合わせる。 2つのサンプリングテクニック、ランダムサンプリングとk-nearest neighbor(knn)ベースのサンプリングを使用して、サンプルを選択できる。 さらに、パラメータ効率のよいプロンプトベースの微調整手法をLLMに適用し、様々なトレーニング環境下での性能評価を行う。 結果: Flan-T5-xxlはゼロショットと少数ショットの両方で他のモデルよりも優れており、kNNサンプリングによって選択された単一の実証例でF1スコアが0.865である。 プロンプトベースの微調整実験では、このファウンデーションモデルは、すべての低リソース設定に対して優れたパフォーマンスを示し、特にフルトレーニングデータセットを使用して、0.922の印象的なF1スコアを達成する。 より小型のモデルであるFlan-T5-xlは2.3Mの追加パラメータのみを微調整し、完全に微調整されたゲータトロンベースモデルに匹敵する性能を得る。 結論: オープンソースの命令調整型LLMは,移動機能分類タスクにおいて,コンテキスト内学習能力に優れていた。 これらのモデルの性能は、タスク固有のデータセットの微調整を継続することでさらに改善することができる。

Objective: Function is increasingly recognized as an important indicator of whole-person health. This study evaluates the ability of publicly available large language models (LLMs) to accurately identify the presence of functioning information from clinical notes. We explore various strategies to improve the performance on this task. Materials and Methods: We collect a balanced binary classification dataset of 1000 sentences from the Mobility NER dataset, which was curated from n2c2 clinical notes. For evaluation, we construct zero-shot and few-shot prompts to query the LLMs whether a given sentence contains mobility functioning information. Two sampling techniques, random sampling and k-nearest neighbor (kNN)-based sampling, are used to select the few-shot examples. Furthermore, we apply a parameter-efficient prompt-based fine-tuning method to the LLMs and evaluate their performance under various training settings. Results: Flan-T5-xxl outperforms all other models in both zero-shot and few-shot settings, achieving a F1 score of 0.865 with a single demonstrative example selected by kNN sampling. In prompt-based fine-tuning experiments, this foundation model also demonstrates superior performance across all low-resource settings, particularly achieving an impressive F1 score of 0.922 using the full training dataset. The smaller model, Flan-T5-xl, requires fine-tuning with only 2.3M additional parameters to achieve comparable performance to the fully fine-tuned Gatortron-base model, both surpassing 0.9 F1 score. Conclusion: Open-source instruction-tuned LLMs demonstrate impressive in-context learning capability in the mobility functioning classification task. The performance of these models can be further improved by continuing fine-tuning on a task-specific dataset.
翻訳日:2023-12-19 18:02:10 公開日:2023-12-15
# CARAT:マルチモーダルマルチラベル感情認識のためのコントラスト特徴再構成と集約

CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-modal Multi-label Emotion Recognition ( http://arxiv.org/abs/2312.10201v1 )

ライセンス: Link先を確認
Cheng Peng, Ke Chen, Lidan Shou, Gang Chen(参考訳) マルチモーダルマルチラベル感情認識(MMER)は、複数のモーダルから関連する感情を特定することを目的としている。 mmerの課題は、異種データから複数のラベルの識別的特徴を効果的に捉える方法である。 最近の研究は主に、マルチモーダル情報を全てのラベルの統一表現に統合するための様々な融合戦略の探求に費やされている。 しかし、このような学習スキームは、各モダリティの特異性を見逃すだけでなく、異なるラベルに対する個々の識別的特徴を捉えることに失敗する。 さらに、ラベルやモダリティの依存関係を効果的にモデル化することはできない。 これらの課題に対処するために,MMERタスクのためのContrAstive Feature Restruction and AggregaTion(CARAT)を提案する。 具体的には,モーダル分離とラベル特有の特徴を対比的に学習することにより,細粒度モダリティとラベル間の依存性をよりよくモデル化するための再構成ベースの融合機構を考案する。 モータリティの相補性をさらに活用するために,ラベル間の共起コラボレーションを充実させるシャッフルベースのアグリゲーション戦略を導入する。 CMU-MOSEIとM3EDの2つのベンチマークデータセットの実験は、最先端手法に対するCARATの有効性を示した。 コードはhttps://github.com/chengzju/CARAT.comで入手できる。

Multi-modal multi-label emotion recognition (MMER) aims to identify relevant emotions from multiple modalities. The challenge of MMER is how to effectively capture discriminative features for multiple labels from heterogeneous data. Recent studies are mainly devoted to exploring various fusion strategies to integrate multi-modal information into a unified representation for all labels. However, such a learning scheme not only overlooks the specificity of each modality but also fails to capture individual discriminative features for different labels. Moreover, dependencies of labels and modalities cannot be effectively modeled. To address these issues, this paper presents ContrAstive feature Reconstruction and AggregaTion (CARAT) for the MMER task. Specifically, we devise a reconstruction-based fusion mechanism to better model fine-grained modality-to-label dependencies by contrastively learning modal-separated and label-specific features. To further exploit the modality complementarity, we introduce a shuffle-based aggregation strategy to enrich co-occurrence collaboration among labels. Experiments on two benchmark datasets CMU-MOSEI and M3ED demonstrate the effectiveness of CARAT over state-of-the-art methods. Code is available at https://github.com/chengzju/CARAT.
翻訳日:2023-12-19 18:01:38 公開日:2023-12-15
# ナビゲーション提案を用いた物体検出のための深部アクティブセンシング

Deep Active Perception for Object Detection using Navigation Proposals ( http://arxiv.org/abs/2312.10200v1 )

ライセンス: Link先を確認
Stefanos Ginargiros, Nikolaos Passalis and Anastasios Tefas(参考訳) ディープラーニング(DL)は、ロボットビジョンタスクに大きな進歩をもたらした。 しかし、既存のDLメソッドの多くは大きな欠点があり、従来のコンピュータビジョンパイプラインに固有の静的推論パラダイムに依存している。 一方,近年の研究では,能動的知覚が静的パラダイムを越えて様々なモデルの知覚能力を向上させることが示されている。 アクティブな認識の潜在的な可能性にもかかわらず、主にディープラーニングモデルのためのトレーニングパイプラインの大幅な変更を含む、いくつかの課題が発生している。 これらの制約を克服するため,本研究では,既存のオフザシェルフ物体検出器を用いて物体検出のための汎用能動認識パイプラインを提案するとともに,シミュレーション環境の進歩も活用する。 この目的のために,提案手法では,物体検出装置の信頼性が不十分な場合の視点を推定する追加のニューラルネットワークアーキテクチャを用いる。 提案手法はwebotsロボティクスシミュレータ内に構築した合成データセットを用いて評価し,2つの物体検出においてその効果を示した。

Deep Learning (DL) has brought significant advances to robotics vision tasks. However, most existing DL methods have a major shortcoming, they rely on a static inference paradigm inherent in traditional computer vision pipelines. On the other hand, recent studies have found that active perception improves the perception abilities of various models by going beyond these static paradigms. Despite the significant potential of active perception, it poses several challenges, primarily involving significant changes in training pipelines for deep learning models. To overcome these limitations, in this work, we propose a generic supervised active perception pipeline for object detection that can be trained using existing off-the-shelf object detectors, while also leveraging advances in simulation environments. To this end, the proposed method employs an additional neural network architecture that estimates better viewpoints in cases where the object detector confidence is insufficient. The proposed method was evaluated on synthetic datasets, constructed within the Webots robotics simulator, showcasing its effectiveness in two object detection cases.
翻訳日:2023-12-19 18:01:16 公開日:2023-12-15
# 閉ループ保証付き非線形mpc近似

Automatic nonlinear MPC approximation with closed-loop guarantees ( http://arxiv.org/abs/2312.10199v1 )

ライセンス: Link先を確認
Abdullah Tokmak, Christian Fiedler, Melanie N. Zeilinger, Sebastian Trimpe, Johannes K\"ohler(参考訳) 本稿では,非線形モデル予測制御(MPC)スキームを閉ループ保証で自動的に近似する問題に対処する。 まず, この問題を関数近似問題に還元し, 適応局所化カーネル補間アルゴリズム ALKIA-X と eXtrapolated re production kernel Hilbert space norm を提案する。 ALKIA-Xは、数値的によく条件付けられた計算、高速で評価可能な近似関数、および近似誤差に対する任意の所望境界の満足度を保証する非定性アルゴリズムである。 したがって、ALKIA-XはMPCを近似する明示的な関数を自動的に計算し、安全クリティカルなシステムに適したコントローラと高いサンプリングレートを得る。 数値実験では,alcia-xを非線形mpc方式に適用し,最先端手法と比較してオフライン計算とオンライン評価時間を短縮した。

In this paper, we address the problem of automatically approximating nonlinear model predictive control (MPC) schemes with closed-loop guarantees. First, we discuss how this problem can be reduced to a function approximation problem, which we then tackle by proposing ALKIA-X, the Adaptive and Localized Kernel Interpolation Algorithm with eXtrapolated reproducing kernel Hilbert space norm. ALKIA-X is a non-iterative algorithm that ensures numerically well-conditioned computations, a fast-to-evaluate approximating function, and the guaranteed satisfaction of any desired bound on the approximation error. Hence, ALKIA-X automatically computes an explicit function that approximates the MPC, yielding a controller suitable for safety-critical systems and high sampling rates. In a numerical experiment, we apply ALKIA-X to a nonlinear MPC scheme, demonstrating reduced offline computation and online evaluation time compared to a state-of-the-art method.
翻訳日:2023-12-19 18:01:00 公開日:2023-12-15
# ガス化クラウドソーシングによる肺超音波B線分画のエキスパートレベルアノテーション品質

Expert-Level Annotation Quality Achieved by Gamified Crowdsourcing for B-line Segmentation in Lung Ultrasound ( http://arxiv.org/abs/2312.10198v1 )

ライセンス: Link先を確認
Mike Jin, Nicole M Duggan, Varoon Bashyakarla, Maria Alejandra Duran Mendicuti, Stephen Hallisey, Denie Bernier, Joseph Stegeman, Erik Duhaime, Tina Kapur, Andrew J Goldsmith(参考訳) 医療データの正確でスケーラブルなアノテーションは、医療用AIの開発には不可欠だが、医療専門家からアノテーションの時間を得るのは難しい。 ガミファイド・クラウドソーシングは, 医療データに対する高精度なアノテーションを大規模に取得する可能性を示しており, 本研究は, 肺の混雑の指標であるB線を, 気管内の静止フレームに分画する上でも同様であることを示した。 2.5日間で214の注釈から21,154のアノテーションを収集し,B行数(平均2乗誤差0.239 vs. 0.308, p<0.05)とB行アノテーション(平均Dice-H score 0.755 vs. 0.643, p<0.05)の両点において,参照基準との一致が同一の基準を持つ個々の専門家の一致を上回ることを示した。 これらの結果は,ゲーム化クラウドソーシングによってエキスパート品質のセグメンテーションを実現することを示唆する。

Accurate and scalable annotation of medical data is critical for the development of medical AI, but obtaining time for annotation from medical experts is challenging. Gamified crowdsourcing has demonstrated potential for obtaining highly accurate annotations for medical data at scale, and we demonstrate the same in this study for the segmentation of B-lines, an indicator of pulmonary congestion, on still frames within point-of-care lung ultrasound clips. We collected 21,154 annotations from 214 annotators over 2.5 days, and we demonstrated that the concordance of crowd consensus segmentations with reference standards exceeds that of individual experts with the same reference standards, both in terms of B-line count (mean squared error 0.239 vs. 0.308, p<0.05) as well as the spatial precision of B-line annotations (mean Dice-H score 0.755 vs. 0.643, p<0.05). These results suggest that expert-quality segmentations can be achieved using gamified crowdsourcing.
翻訳日:2023-12-19 18:00:42 公開日:2023-12-15
# SoloPose:ビデオデータ拡張によるワンショットキネマティックな3D人物位置推定

SoloPose: One-Shot Kinematic 3D Human Pose Estimation with Video Data Augmentation ( http://arxiv.org/abs/2312.10195v1 )

ライセンス: Link先を確認
David C. Jeong, Hongji Liu, Saunder Salazar, Jessie Jiang, Christopher A. Kitts(参考訳) 最近の2段階多対1のディープラーニングモデルは、3次元人間のポーズ推定で大きな成功を収めているが、このようなモデルは、単発および多対多のモデルと比較してシーケンシャルビデオ中の3dキーポイントを検出するための非効率な方法である。 2段モデルと多段モデルのもう一つの欠点は、第1段モデルのエラーが第2段に渡されることである。 本稿では,ビデオのキネマティックな3次元ポーズ推定のための新しいワンショット多対多時変圧器モデルであるSoloPoseを紹介する。 ソロポスはさらに、キーポイントをターゲットとするガウス混合モデル分布に基づく3次元ヒートマップであるheatpose(英語版)によって強化されている。 最後に、3D AugMotion Toolkitを用いてデータ多様性の制約に対処する。これは既存の3D人間のポーズデータセットを増大させる方法論であり、特に4つのトップパブリックな3D人間のポーズデータセット(Humans3.6M, MADS, AIST Dance++, MPI INF 3DHP)を、ユニバーサル座標系を備えた新しいデータセット(Humans7.1M)に投影することで実現される。 human3.6mと拡張型human7.1mデータセットに関する広範な実験が行われ、soloposeは最先端のアプローチと比較して優れた結果を示している。

While recent two-stage many-to-one deep learning models have demonstrated great success in 3D human pose estimation, such models are inefficient ways to detect 3D key points in a sequential video relative to one-shot and many-to-many models. Another key drawback of two-stage and many-to-one models is that errors in the first stage will be passed onto the second stage. In this paper, we introduce SoloPose, a novel one-shot, many-to-many spatio-temporal transformer model for kinematic 3D human pose estimation of video. SoloPose is further fortified by HeatPose, a 3D heatmap based on Gaussian Mixture Model distributions that factors target key points as well as kinematically adjacent key points. Finally, we address data diversity constraints with the 3D AugMotion Toolkit, a methodology to augment existing 3D human pose datasets, specifically by projecting four top public 3D human pose datasets (Humans3.6M, MADS, AIST Dance++, MPI INF 3DHP) into a novel dataset (Humans7.1M) with a universal coordinate system. Extensive experiments are conducted on Human3.6M as well as the augmented Humans7.1M dataset, and SoloPose demonstrates superior results relative to the state-of-the-art approaches.
翻訳日:2023-12-19 18:00:17 公開日:2023-12-15
# 強化学習によるPareto Envelopeの拡張:大規模拘束型加圧水炉最適化のための多目的強化学習に基づくアプローチ

Pareto Envelope Augmented with Reinforcement Learning: Multi-objective reinforcement learning-based approach for Large-Scale Constrained Pressurized Water Reactor optimization ( http://arxiv.org/abs/2312.10194v1 )

ライセンス: Link先を確認
Paul Seurin and Koroush Seurin(参考訳) 多目的問題、特に、候補解の評価に時間がかかる工学の分野で生じる課題に対処するために、強化学習によるパレート包絡法(pareto envelope augmented with reinforcement learning, pearl)が開発されている。 PEARLは、従来のポリシーベースの多目的強化学習法と区別し、単一のポリシーを学習することで、より単純なサブプロブレムを独立して解決する複数のニューラルネットワークの必要性を排除している。 ディープラーニングと進化的テクニックから着想を得たいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。 カリキュラム学習は、これらのバージョンの制約を効果的に管理するために利用される。 PEARLの性能は、古典的な多目的ベンチマークで評価される。 さらに、実世界の応用性を示すために、2つの実用的なPWRコアローディングパターン最適化問題でテストされている。 第1の問題はサイクル長と棒積分ピーク係数を主目的として最適化することであり、第2の問題は平均エンリッチメントを付加目的として含んでいる。 さらに、PEARLはホウ素濃度、ピークピンバーンアップ、ピークピンパワーに関連する3種類の制約に対処する。 結果は従来の手法である非支配ソーティング遺伝的アルゴリズムと体系的に比較される。 特に、PEARL、特にPEARL-NdSは、スケールした目的を持った単一の最適化とは対照的に、アルゴリズム設計者による追加の努力を必要とせずに、効率的にパレートフロントを発見できる。 また、ハイパーボリュームを含む複数のパフォーマンスメトリクスにまたがる古典的なアプローチよりも優れています。

A novel method, the Pareto Envelope Augmented with Reinforcement Learning (PEARL), has been developed to address the challenges posed by multi-objective problems, particularly in the field of engineering where the evaluation of candidate solutions can be time-consuming. PEARL distinguishes itself from traditional policy-based multi-objective Reinforcement Learning methods by learning a single policy, eliminating the need for multiple neural networks to independently solve simpler sub-problems. Several versions inspired from deep learning and evolutionary techniques have been crafted, catering to both unconstrained and constrained problem domains. Curriculum Learning is harnessed to effectively manage constraints in these versions. PEARL's performance is first evaluated on classical multi-objective benchmarks. Additionally, it is tested on two practical PWR core Loading Pattern optimization problems to showcase its real-world applicability. The first problem involves optimizing the Cycle length and the rod-integrated peaking factor as the primary objectives, while the second problem incorporates the mean average enrichment as an additional objective. Furthermore, PEARL addresses three types of constraints related to boron concentration, peak pin burnup, and peak pin power. The results are systematically compared against a conventional approach, the Non-dominated Sorting Genetic Algorithm. Notably, PEARL, specifically the PEARL-NdS variant, efficiently uncovers a Pareto front without necessitating additional efforts from the algorithm designer, as opposed to a single optimization with scaled objectives. It also outperforms the classical approach across multiple performance metrics, including the Hyper-volume.
翻訳日:2023-12-19 17:59:45 公開日:2023-12-15
# Adaptive Computation Modules: 効率的な推論のための粒界条件計算

Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference ( http://arxiv.org/abs/2312.10193v1 )

ライセンス: Link先を確認
Bartosz W\'ojcik, Alessio Devoto, Karol Pustelnik, Pasquale Minervini, Simone Scardapane(参考訳) トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。 量子化や線形注意といった手法は計算負荷を減少させるが、精度を低下させる可能性がある。 さらに、グローバルに全ての入力のコストを削減することは、準最適かもしれない。 各レイヤにおいて、各レイヤの完全な幅は、バッチ内のトークンの小さなサブセットに対してのみ必要であり、トークンを処理するのに必要な"効率的な"幅は、レイヤごとに異なる可能性があることを観察する。 そこで本研究では,その計算負荷を動的に適応し,入力の難易度を推定値ごとに一致させる汎用モジュールである適応計算モジュール(acm)を提案する。 ACMは、先行する学習者の出力を段階的に洗練する一連の学習者から構成される。 追加のゲーティング機構は、各トークンに対して実行する学習者の最適な数を決定する。 また, 事前学習したモデルを「ACM化」変種に置き換える蒸留技術についても述べる。 蒸留フェーズは、既存のネットワークへのプラグアンドプレイが簡単でありながら、レイヤー間で高い並列化が可能なように設計されている。 コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。

The computational cost of transformer models makes them inefficient in low-latency or low-power applications. While techniques such as quantization or linear attention can reduce the computational load, they may incur a reduction in accuracy. In addition, globally reducing the cost for all inputs may be sub-optimal. We observe that for each layer, the full width of the layer may be needed only for a small subset of tokens inside a batch and that the "effective" width needed to process a token can vary from layer to layer. Motivated by this observation, we introduce the Adaptive Computation Module (ACM), a generic module that dynamically adapts its computational load to match the estimated difficulty of the input on a per-token basis. An ACM consists of a sequence of learners that progressively refine the output of their preceding counterparts. An additional gating mechanism determines the optimal number of learners to execute for each token. We also describe a distillation technique to replace any pre-trained model with an "ACMized" variant. The distillation phase is designed to be highly parallelizable across layers while being simple to plug-and-play into existing networks. Our evaluation of transformer models in computer vision and speech recognition demonstrates that substituting layers with ACMs significantly reduces inference costs without degrading the downstream accuracy for a wide interval of user-defined budgets.
翻訳日:2023-12-19 17:59:14 公開日:2023-12-15
# テキストガイドでリアル世界のイメージをデノイング

Tell Me What You See: Text-Guided Real-World Image Denoising ( http://arxiv.org/abs/2312.10191v1 )

ライセンス: Link先を確認
Erez Yosef, Raja Giryes(参考訳) 低照度条件における画像再構成は難しい問題である。 多くの解決策が提案されているが、主なアプローチは自然画像の優れた事前学習と、シーンのノイズの真の統計をモデル化することである。 非常に低い照明条件下では、そのようなアプローチは通常不十分であり、例えば複数のキャプチャを使用するという形で追加情報が必要である。 本研究は,シーンを撮影している写真家が簡単に行えるように,シーンの説明を事前に付加する代替案を提案する。 テキスト条件拡散モデルを用いて,画像キャプション情報の追加により,合成画像と実世界画像の両方において,低照度条件における画像再構成が著しく向上することを示す。

Image reconstruction in low-light conditions is a challenging problem. Many solutions have been proposed for it, where the main approach is trying to learn a good prior of natural images along with modeling the true statistics of the noise in the scene. In the presence of very low lighting conditions, such approaches are usually not enough, and additional information is required, e.g., in the form of using multiple captures. In this work, we suggest as an alternative to add a description of the scene as prior, which can be easily done by the photographer who is capturing the scene. Using a text-conditioned diffusion model, we show that adding image caption information improves significantly the image reconstruction in low-light conditions on both synthetic and real-world images.
翻訳日:2023-12-19 17:58:50 公開日:2023-12-15
# シーングラフ知識による手術用VQAの改善

Advancing Surgical VQA with Scene Graph Knowledge ( http://arxiv.org/abs/2312.10251v1 )

ライセンス: Link先を確認
Kun Yuan, Manasi Kattel, Joel L. Lavanchy, Nassir Navab, Vinkle Srivastava, Nicolas Padoy(参考訳) 現代の手術室はますます複雑化しており、革新的な手術内支援システムを必要としている。 外科的データサイエンスの焦点は主にビデオ解析に向けられているが、外科的コンピュータビジョンと言語能力の統合が求められている。 本研究の目的は,手術用VQAデータセットにおける質問条件バイアスの除去と,手術用VQAモデル設計におけるシーン認識推論の導入という,現在の手術用VQAシステムにおける2つの課題に対処することである。 まず,公開データセットにセグメンテーションと検出モデルを用いた手術シーングラフベースのデータセットSSG-QAを提案する。 楽器や解剖の空間的・行動的情報を用いて手術シーングラフを構築する。 これらのグラフは質問エンジンに入力され、多様なQAペアを生成する。 我々のSSG-QAデータセットは、既存の外科的VQAデータセットと比較して、より複雑で、多様で、幾何学的基盤があり、偏見がなく、外科的アクション指向のデータセットを提供する。 次にssg-qa-netを提案する。ssg-qa-netは、テキスト特徴とシーン特徴の相互接続を用いて、vqaモデル設計に幾何学的シーン知識を統合する軽量なシーン埋め込みインタラクションモジュール(sim)を組み込んだ、新しい手術用vqaモデルである。 SSG-QAデータセットの包括的分析により、SSG-QA-Netは、様々な質問タイプや複雑さで既存のメソッドよりも優れていることが示された。 現在の外科的vqaシステムにおける主要な制限は、複雑なクエリに答えるためのシーン知識の欠如である。 本稿では,新しい外科的VQAデータセットとモデルを提案し,VQAモデル設計に幾何学的シーン特徴を取り入れることで,その結果を著しく改善できることを示す。 ソースコードとデータセットは、https://github.com/CAMMA-public/SSG-QAで公開されます。

Modern operating room is becoming increasingly complex, requiring innovative intra-operative support systems. While the focus of surgical data science has largely been on video analysis, integrating surgical computer vision with language capabilities is emerging as a necessity. Our work aims to advance Visual Question Answering (VQA) in the surgical context with scene graph knowledge, addressing two main challenges in the current surgical VQA systems: removing question-condition bias in the surgical VQA dataset and incorporating scene-aware reasoning in the surgical VQA model design. First, we propose a Surgical Scene Graph-based dataset, SSG-QA, generated by employing segmentation and detection models on publicly available datasets. We build surgical scene graphs using spatial and action information of instruments and anatomies. These graphs are fed into a question engine, generating diverse QA pairs. Our SSG-QA dataset provides a more complex, diverse, geometrically grounded, unbiased, and surgical action-oriented dataset compared to existing surgical VQA datasets. We then propose SSG-QA-Net, a novel surgical VQA model incorporating a lightweight Scene-embedded Interaction Module (SIM), which integrates geometric scene knowledge in the VQA model design by employing cross-attention between the textual and the scene features. Our comprehensive analysis of the SSG-QA dataset shows that SSG-QA-Net outperforms existing methods across different question types and complexities. We highlight that the primary limitation in the current surgical VQA systems is the lack of scene knowledge to answer complex queries. We present a novel surgical VQA dataset and model and show that results can be significantly improved by incorporating geometric scene features in the VQA model design. The source code and the dataset will be made publicly available at: https://github.com/CAMMA-public/SSG-QA
翻訳日:2023-12-19 17:53:28 公開日:2023-12-15
# テクニカルレポート: eatxt の未解決の課題と可能性

Technical Report: Unresolved Challenges and Potential Features in EATXT ( http://arxiv.org/abs/2312.10250v1 )

ライセンス: Link先を確認
Weixing Zhang, J\"org Holtmann(参考訳) EATXT というドメイン固有言語 EAST-ADL をサポートするテキスト具体的な構文とテキストエディタを開発した。 この文書は、まだ実装されていないEATXTに追加される可能性のある潜在的な高度な機能を記述する技術的レポートである。 本報告の目的は、関連する技術的課題の理解を共有し、潜在的に関心のある仲間を支援することである。

We developed a textual concrete syntax and a textual editor that supports it for the domain-specific language EAST-ADL, which we named EATXT. This document is a technical report that describes potential advanced features that could be added to EATXT that have not yet been implemented. The purpose of this report is to share our understanding of the relevant technical challenges and to assist potentially interested peers.
翻訳日:2023-12-19 17:52:38 公開日:2023-12-15
# クロスカテゴリ信号を用いた非剛体物体のインプリシトモデリング

Implicit Modeling of Non-rigid Objects with Cross-Category Signals ( http://arxiv.org/abs/2312.10246v1 )

ライセンス: Link先を確認
Yuchun Liu, Benjamin Planche, Meng Zheng, Zhongpai Gao, Pierre Sibut-Bourde, Fan Yang, Terrence Chen, Ziyan Wu(参考訳) 深部暗黙関数(DIF)は3次元形状を表現する強力な明瞭な手段として出現している。 しかし、オブジェクトカテゴリや非厳密なエンティティをモデル化するメソッドは、主に単一オブジェクトのシナリオに焦点を当てている。 本研究では,複数オブジェクトに対する変形場とインスタンス固有の潜時符号を同時に学習する多目的深部暗黙関数MODIFを提案する。 我々は臓器などの非剛性、非侵入性に重点を置いている。 これらの実体間の相互関係を効果的に捉え、正確で衝突のない表現を確実にするために、このアプローチは、適切な形状を整定するために、カテゴリ固有のフィールド間のシグナル伝達を容易にする。 物体間の接触領域を精密化するためにアトラクション・反発損失を定式化する。 このアプローチは様々な医学的ベンチマークで実証され、様々な複雑な解剖学的実体群をモデル化する。 実験結果から,本モデルでは各臓器の形状表現と他臓器との関係を良好に学習できることを示す。 最後に、modifは正確な点対応を通じて、人口全体に意味情報を伝播することができる。

Deep implicit functions (DIFs) have emerged as a potent and articulate means of representing 3D shapes. However, methods modeling object categories or non-rigid entities have mainly focused on single-object scenarios. In this work, we propose MODIF, a multi-object deep implicit function that jointly learns the deformation fields and instance-specific latent codes for multiple objects at once. Our emphasis is on non-rigid, non-interpenetrating entities such as organs. To effectively capture the interrelation between these entities and ensure precise, collision-free representations, our approach facilitates signaling between category-specific fields to adequately rectify shapes. We also introduce novel inter-object supervision: an attraction-repulsion loss is formulated to refine contact regions between objects. Our approach is demonstrated on various medical benchmarks, involving modeling different groups of intricate anatomical entities. Experimental results illustrate that our model can proficiently learn the shape representation of each organ and their relations to others, to the point that shapes missing from unseen instances can be consistently recovered by our method. Finally, MODIF can also propagate semantic information throughout the population via accurate point correspondences
翻訳日:2023-12-19 17:52:26 公開日:2023-12-15
# 古典的および量子的シーケンスモデルに関する調査

A Survey of Classical And Quantum Sequence Models ( http://arxiv.org/abs/2312.10242v1 )

ライセンス: Link先を確認
I-Chi Chen, Harshdeep Singh, V L Anukruti, Brian Quanz, Kavitha Yogaraj(参考訳) 我々の主な目的は、自己アテンションやリカレントニューラルネットワークを含む、様々な古典的および量子ニュートラルネットシーケンスモデルについて、短期的量子デバイスを扱うために提案された最近の量子アプローチに注目しながら、これらの量子モデルに対するいくつかの基本的な拡張を探求することである。 既存の手法の重要な代表セットを再実装し、テキストと画像の分類に有効な量子ハイブリッドトランスを作成するために量子自己アテンションを用いた画像分類アプローチを適用し、自然言語処理タスクに量子自己アテンションと量子リカレントニューラルネットワークを適用する。 また,様々な符号化手法を検討し,量子自己整合ニューラルネットワークに位置符号化を導入することで,テキストと画像の分類実験における精度の向上と収束の高速化を実現する。 また,古典的自己注意モデルとその量子モデルの比較分析を行い,これらのモデルの違いとその性能について明らかにした。

Our primary objective is to conduct a brief survey of various classical and quantum neural net sequence models, which includes self-attention and recurrent neural networks, with a focus on recent quantum approaches proposed to work with near-term quantum devices, while exploring some basic enhancements for these quantum models. We re-implement a key representative set of these existing methods, adapting an image classification approach using quantum self-attention to create a quantum hybrid transformer that works for text and image classification, and applying quantum self-attention and quantum recurrent neural networks to natural language processing tasks. We also explore different encoding techniques and introduce positional encoding into quantum self-attention neural networks leading to improved accuracy and faster convergence in text and image classification experiments. This paper also performs a comparative analysis of classical self-attention models and their quantum counterparts, helping shed light on the differences in these models and their performance.
翻訳日:2023-12-19 17:51:58 公開日:2023-12-15
# テキスト対画像生成のためのリッチヒューマンフィードバック

Rich Human Feedback for Text-to-Image Generation ( http://arxiv.org/abs/2312.10240v1 )

ライセンス: Link先を確認
Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J Kohlhoff, Deepak Ramachandran, and Vidhya Navalpakkam(参考訳) 近年のテキスト・トゥ・イメージ(T2I)生成モデルでは,テキスト記述に基づく高解像度画像の生成が著しく進歩している。 しかし、多くの生成画像は、アーティファクト/実装性、テキスト記述との誤認、低い美的品質といった問題に苦しんでいる。 大規模言語モデルにおける強化学習(Reinforcement Learning with Human Feedback, RLHF)の成功に触発された先行研究は、生成された画像に対するフィードバックとして人為的なスコアを収集し、T2I生成を改善するための報酬モデルを訓練した。 本稿ではフィードバック信号の強化について述べる。 (i)テキストと区別がつかない、又は不一致な画像領域をマークすること。 (ii)テキストプロンプトのどの単語が画像に誤表示されているか、あるいは欠落しているかを注釈する。 このようなリッチなフィードバックを18K生成画像から収集し、マルチモーダルトランスフォーマーをトレーニングして、リッチなフィードバックを自動的に予測する。 例えば、高品質なトレーニングデータを選択して生成モデルを微調整し改善したり、予測されたヒートマップでマスクを作成して問題領域に適応させることで、画像生成を改善することができることを示す。 特に、この改良は、人間のフィードバックデータが収集された画像を生成するために使用されるモデル(ミューズ)に一般化される(安定拡散変種)。

Recent Text-to-Image (T2I) generation models such as Stable Diffusion and Imagen have made significant progress in generating high-resolution images based on text descriptions. However, many generated images still suffer from issues such as artifacts/implausibility, misalignment with text descriptions, and low aesthetic quality. Inspired by the success of Reinforcement Learning with Human Feedback (RLHF) for large language models, prior works collected human-provided scores as feedback on generated images and trained a reward model to improve the T2I generation. In this paper, we enrich the feedback signal by (i) marking image regions that are implausible or misaligned with the text, and (ii) annotating which words in the text prompt are misrepresented or missing on the image. We collect such rich human feedback on 18K generated images and train a multimodal transformer to predict the rich feedback automatically. We show that the predicted rich human feedback can be leveraged to improve image generation, for example, by selecting high-quality training data to finetune and improve the generative models, or by creating masks with predicted heatmaps to inpaint the problematic regions. Notably, the improvements generalize to models (Muse) beyond those used to generate the images on which human feedback data were collected (Stable Diffusion variants).
翻訳日:2023-12-19 17:51:04 公開日:2023-12-15
# 局所的最大度を用いたクラス条件雑音の仮説検証

Hypothesis Testing for Class-Conditional Noise Using Local Maximum Likelihood ( http://arxiv.org/abs/2312.10238v1 )

ライセンス: Link先を確認
Weisong Yang, Rafael Poyiadzi, Niall Twomey, Raul Santos Rodriguez(参考訳) 教師付き学習では、学習が行われる前にラベルの質を自動的に評価することがオープンな研究課題である。 特定のケースでは、与えられたインスタンスラベルデータセットが一様ラベルノイズではなく、クラス条件ラベルノイズで汚染されているかどうかを評価するための仮説テスト手順が提案されている。 既存の理論は、パラメトリックロジスティック回帰の最大度推定の漸近的性質に基づいている。 しかし、これらのアプローチが構築される上でのパラメトリックな仮定は、しばしば強力で非現実的なものである。 この問題を緩和するために,本論文では,モデルがより柔軟な非パラメトリックロジスティック回帰モデルをもたらす局所最大類似度推定の積である場合に,どのように類似した手順を追従できるかを示す代替経路を提案する。 この異なるビューは、よりリッチなモデルクラスへのアクセスを提供することで、テストのより広い適用性を可能にする。 既存の作業と同様に、ユーザが提供するアンカーポイントにアクセス可能であると仮定する。 本稿では,非パラメトリックロジスティック回帰の場合に仮説テストを適用するために必要な要素を導入し,合成と実世界のケーススタディを提示するパラメトリックアプローチと比較し,提案手法の利点と限界について考察する。

In supervised learning, automatically assessing the quality of the labels before any learning takes place remains an open research question. In certain particular cases, hypothesis testing procedures have been proposed to assess whether a given instance-label dataset is contaminated with class-conditional label noise, as opposed to uniform label noise. The existing theory builds on the asymptotic properties of the Maximum Likelihood Estimate for parametric logistic regression. However, the parametric assumptions on top of which these approaches are constructed are often too strong and unrealistic in practice. To alleviate this problem, in this paper we propose an alternative path by showing how similar procedures can be followed when the underlying model is a product of Local Maximum Likelihood Estimation that leads to more flexible nonparametric logistic regression models, which in turn are less susceptible to model misspecification. This different view allows for wider applicability of the tests by offering users access to a richer model class. Similarly to existing works, we assume we have access to anchor points which are provided by the users. We introduce the necessary ingredients for the adaptation of the hypothesis tests to the case of nonparametric logistic regression and empirically compare against the parametric approach presenting both synthetic and real-world case studies and discussing the advantages and limitations of the proposed approach.
翻訳日:2023-12-19 17:50:24 公開日:2023-12-15
# マルチモーダルデータを用いた垂直フェデレーションアルツハイマーの検出

Vertical Federated Alzheimer's Detection on Multimodal Data ( http://arxiv.org/abs/2312.10237v1 )

ライセンス: Link先を確認
Paul K. Mandal(参考訳) 急速に進歩する医療技術の時代には、医療データのセグメンテーションは避けられなくなり、分散データでトレーニングできるプライバシー保護機械学習アルゴリズムの開発が必要とされるようになった。 hipaa(health insurance portability and accountability act)によって課される厳格なプライバシー規制のため、機密性の高い医療データの統合は必ずしも選択肢ではない。 本稿では,分散データからトレーニングできるHIPAA準拠のフレームワークを提案する。 次に,認知症,脳機能障害,簡単な作業,特に予防的ケアを伴わない重症神経変性疾患であるアルツハイマー病(AD)検出のための多モード垂直フェデレーションモデルを提案する。 この垂直連合モデルは、HIPAAが課したプライバシー制約を尊重しながら、さまざまな医療データのソースをまたいだ協調学習を可能にする分散アーキテクチャを提供する。 また、複数のデータモダリティを活用でき、AD検出の堅牢性と精度を高めることができる。 提案モデルは,連合学習技術の進歩に寄与するだけでなく,医学研究におけるデータセグメンテーションのハードルを克服する可能性を秘めている。 縦型連合学習を用いることで、医療機関が患者のプライバシを損なうことなく、分散データセットに埋め込まれた集団知能を活用できるフレームワークを提供することを目指している。

In the era of rapidly advancing medical technologies, the segmentation of medical data has become inevitable, necessitating the development of privacy preserving machine learning algorithms that can train on distributed data. Consolidating sensitive medical data is not always an option particularly due to the stringent privacy regulations imposed by the Health Insurance Portability and Accountability Act (HIPAA). In this paper, we introduce a HIPAA compliant framework that can train from distributed data. We then propose a multimodal vertical federated model for Alzheimer's Disease (AD) detection, a serious neurodegenerative condition that can cause dementia, severely impairing brain function and hindering simple tasks, especially without preventative care. This vertical federated model offers a distributed architecture that enables collaborative learning across diverse sources of medical data while respecting privacy constraints imposed by HIPAA. It is also able to leverage multiple modalities of data, enhancing the robustness and accuracy of AD detection. Our proposed model not only contributes to the advancement of federated learning techniques but also holds promise for overcoming the hurdles posed by data segmentation in medical research. By using vertical federated learning, this research strives to provide a framework that enables healthcare institutions to harness the collective intelligence embedded in their distributed datasets without compromising patient privacy.
翻訳日:2023-12-19 17:50:00 公開日:2023-12-15
# 複素流れに対するデータ駆動多様体力学モデルへの対称性の構築

Building symmetries into data-driven manifold dynamics models for complex flows ( http://arxiv.org/abs/2312.10235v1 )

ライセンス: Link先を確認
Carlos E. P\'erez De Jes\'us, Alec J. Linot, Michael D. Graham(参考訳) 動的システムの対称性は、データ駆動モデルの性能を劇的に改善する機会を提供する。 流体流の場合、このようなモデルは設計、理解、予測、制御に関連するタスクに必要となる。 本研究では,navier-stokes方程式(nse)の対称性を活用し,長期ダイナミクスが存続する多様体,完全状態表現よりも自由度が低い多様体,その多様体上のダイナミクスの進化方程式を求める。 この手法を'対称性チャート'と呼ぶ。 最初のステップは、「基礎チャート」にマッピングすることであり、これは全ての他の領域を対称性の操作でマッピングできる流れの状態空間の領域である。 基本チャートにマップするために、システムの対称性を一意に識別するフーリエ変換から指標の集合を同定する。 次に、オートエンコーダを用いて、基本チャート内のデータの低次元座標表現を求める。 重みの減衰を伴う暗黙のランク最小化オートエンコーダ(英語版)と呼ばれる変形を使い、データの次元を圧縮するだけでなく、データを表現するのに必要な次元を推定する。 最後に、この多様体上の力学をニューラル常微分方程式を用いて学習する。 カオスバースト状態における2次元コルモゴロフ流れに対称性チャートを適用する。 この系は連続的な変換対称性を持ち、離散回転とシフト反射対称性を有する。 このフレームワークでは、正確なデータ駆動モデルの学習に必要なデータが少なくなり、多様体次元のより堅牢な推定値が得られ、NSEの等式が満足され、真のデータに対するより優れた短時間追跡が観測され、長期統計が正しく取得される。

Symmetries in a dynamical system provide an opportunity to dramatically improve the performance of data-driven models. For fluid flows, such models are needed for tasks related to design, understanding, prediction, and control. In this work we exploit the symmetries of the Navier-Stokes equations (NSE) and use simulation data to find the manifold where the long-time dynamics live, which has many fewer degrees of freedom than the full state representation, and the evolution equation for the dynamics on that manifold. We call this method ''symmetry charting''. The first step is to map to a ''fundamental chart'', which is a region in the state space of the flow to which all other regions can be mapped by a symmetry operation. To map to the fundamental chart we identify a set of indicators from the Fourier transform that uniquely identify the symmetries of the system. We then find a low-dimensional coordinate representation of the data in the fundamental chart with the use of an autoencoder. We use a variation called an implicit rank minimizing autoencoder with weight decay, which in addition to compressing the dimension of the data, also gives estimates of how many dimensions are needed to represent the data: i.e. the dimension of the invariant manifold of the long-time dynamics. Finally, we learn dynamics on this manifold with the use of neural ordinary differential equations. We apply symmetry charting to two-dimensional Kolmogorov flow in a chaotic bursting regime. This system has a continuous translation symmetry, and discrete rotation and shift-reflect symmetries. With this framework we observe that less data is needed to learn accurate data-driven models, more robust estimates of the manifold dimension are obtained, equivariance of the NSE is satisfied, better short-time tracking with respect to the true data is observed, and long-time statistics are correctly captured.
翻訳日:2023-12-19 17:49:36 公開日:2023-12-15
# フロントドア関数を用いた平均因果効果推定のためのターゲット機械学習

Targeted Machine Learning for Average Causal Effect Estimation Using the Front-Door Functional ( http://arxiv.org/abs/2312.10234v1 )

ライセンス: Link先を確認
Anna Guo, David Benkeser, Razieh Nabi(参考訳) 結果に対する治療の平均因果効果(ace)の評価は、しばしば観察研究における因子の結合によって生じる課題を克服することを伴う。 伝統的なアプローチではバックドアの基準を使い、治療と結果の間の結合経路をブロックするための調整セットを求める。 しかし、この手法は未測定の共同設立者と競合する。 代替策として、フロントドアの基準は、治療と結果の間に未測定の共同創設者が存在する場合でも解決策を提供する。 この方法は、これらの共同設立者に直接影響されず、治療の効果を完全に仲介する仲介者を特定することに依存する。 本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。 我々の推定子は、バイナリ、連続、多変量メディエータを扱い、様々なシナリオで機能します。 データ適応型機械学習アルゴリズムを活用し、仮定を最小化し、漸近線形性、ダブルロバスト性、効率性、ターゲットパラメータ空間内の有効推定などの重要な統計特性を確保する。 そこで我々は,Nuisance関数推定がACE推定器のルートn-整合性を保証する条件を確立する。 数値実験により,提案した推定器の良好な有限サンプル性能を示した。 フィンランド社会科学データアーカイブのデータを用いて, 早期の学業成績が将来の年収に与える影響を分析するための評価器の適用性を示す。

Evaluating the average causal effect (ACE) of a treatment on an outcome often involves overcoming the challenges posed by confounding factors in observational studies. A traditional approach uses the back-door criterion, seeking adjustment sets to block confounding paths between treatment and outcome. However, this method struggles with unmeasured confounders. As an alternative, the front-door criterion offers a solution, even in the presence of unmeasured confounders between treatment and outcome. This method relies on identifying mediators that are not directly affected by these confounders and that completely mediate the treatment's effect. Here, we introduce novel estimation strategies for the front-door criterion based on the targeted minimum loss-based estimation theory. Our estimators work across diverse scenarios, handling binary, continuous, and multivariate mediators. They leverage data-adaptive machine learning algorithms, minimizing assumptions and ensuring key statistical properties like asymptotic linearity, double-robustness, efficiency, and valid estimates within the target parameter space. We establish conditions under which the nuisance functional estimations ensure the root n-consistency of ACE estimators. Our numerical experiments show the favorable finite sample performance of the proposed estimators. We demonstrate the applicability of these estimators to analyze the effect of early stage academic performance on future yearly income using data from the Finnish Social Science Data Archive.
翻訳日:2023-12-19 17:49:08 公開日:2023-12-15
# 多レベル量子システムのベイズ特性と同定可能性

Bayesian Characterization and Identifiability of Multilevel Quantum Systems ( http://arxiv.org/abs/2312.10233v1 )

ライセンス: Link先を確認
Sohail Reddy(参考訳) 量子システムのロバストな制御は、現在のノイズの多い量子ハードウェアを量子アルゴリズムのような全ポテンシャルに利用するために不可欠である。 このような目的を達成するためには,任意の実験における最適制御の体系的探索が不可欠である。 最適制御パルスの設計には正確な数値モデルが必要であるため、システムパラメータの正確なキャラクタリゼーションが必要である。 我々は,量子テストベッド上で行う必要のある実験の数を大幅に削減し,システムパラメータの最大情報を提供する最適実験を自動的かつ体系的に同定する,キュートリットシステムの量子特性評価のためのオンラインベイズ的手法を提案する。 パラメータの点推定を行うほとんどの評価プロトコルとは異なり、提案手法は確率分布を推定することができる。 パラメータ化制御パルスにより各実験が定義される試験問題に対してベイズ実験設計法の適用性を示した。 さらに, 適応パルスパラメタライゼーションのアプローチも提案した。これは遷移周波数やコヒーレンス時間, ショットノイズの不確実性に頑健であり, 広範に非形式的事前に初期化されている。 さらに、モデルパラメータの理論的識別可能性と、パラメータが識別可能な量子状態の現在の状態の数学的証明を提供する。 同定可能性の証明と条件は、それぞれschroedinger方程式とlindbladマスター方程式を用いて閉量子系と開量子系の両方に与えられる。

Robust control of a quantum system is essential to utilize the current noisy quantum hardware to their full potential, such as quantum algorithms. To achieve such a goal, systematic search for an optimal control for any given experiment is essential. Design of optimal control pulses require accurate numerical models, and therefore, accurate characterization of the system parameters. We present an online, Bayesian approach for quantum characterization of qutrit systems which automatically and systematically identifies the optimal experiments that provide maximum information on the system parameters, thereby greatly reducing the number of experiments that need to be performed on the quantum testbed. Unlike most characterization protocols that provide point-estimates of the parameters, the proposed approach is able to estimate their probability distribution. The applicability of the Bayesian experimental design technique was demonstrated on test problems where each experiment was defined by a parameterized control pulse. In addition to this, we also presented an approach for adaptive pulse parameterization which is robust under uncertainties in transition frequencies and coherence times, and shot noise, despite being initialized with wide uninformative priors. Furthermore, we provide a mathematical proof of the theoretical identifiability of the model parameters and present conditions on the quantum state under which the parameters are identifiable. The proof and conditions for identifiability are presented for both closed and open quantum systems using the Schroedinger equation and the Lindblad master equation respectively.
翻訳日:2023-12-19 17:48:46 公開日:2023-12-15
# 可変凸プログラミングを用いた適応型安全保証のための制約付きメタ強化学習

Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee with Differentiable Convex Programming ( http://arxiv.org/abs/2312.10230v1 )

ライセンス: Link先を確認
Minjae Cho and Chuangchuang Sun(参考訳) 人工知能における顕著な業績にもかかわらず、ハイステイクな実環境における学習可能なシステムの展開性は依然として永続的な課題に直面している。 例えば、自律運転、ロボット操作、医療といった安全クリティカルな領域では、ハイパフォーマンスを達成するだけでなく、与えられた制約に従うことも重要です。 さらに、環境パラメータが変化する非定常領域では適応性が最重要となる。 安全と適応性は、新しい世代のAIの重要な品質として認識されているが、現在のアプローチでは、制約された設定で効果的な適応性性能を示さない。 そこで本稿では,非定常環境における安全確保の課題を,メタラーニングアプローチ(ラーニング・トゥ・リールン)のレンズを通して解き明かした。 制約のないメタラーニングは、両レベルの性質による損失のエンド・ツー・エンドの区別において複雑さに遭遇するが、タスクレベルの更新に課される制約は、その区別プロセスを複雑にするため、その制約が課せられる。 この問題に対処するために,我々はまず,拡張可能な凸プログラミングを備えた複数のタスクにまたがる,convex-constrained policy update(convex-constrained policy update)を連続的に採用する。 このアプローチにより、安全制約の遵守を確保しつつ、非定常下での新しいタスクに迅速に適応することが可能になる。

Despite remarkable achievements in artificial intelligence, the deployability of learning-enabled systems in high-stakes real-world environments still faces persistent challenges. For example, in safety-critical domains like autonomous driving, robotic manipulation, and healthcare, it is crucial not only to achieve high performance but also to comply with given constraints. Furthermore, adaptability becomes paramount in non-stationary domains, where environmental parameters are subject to change. While safety and adaptability are recognized as key qualities for the new generation of AI, current approaches have not demonstrated effective adaptable performance in constrained settings. Hence, this paper breaks new ground by studying the unique challenges of ensuring safety in non-stationary environments by solving constrained problems through the lens of the meta-learning approach (learning-to-learn). While unconstrained meta-learning al-ready encounters complexities in end-to-end differentiation of the loss due to the bi-level nature, its constrained counterpart introduces an additional layer of difficulty, since the constraints imposed on task-level updates complicate the differentiation process. To address the issue, we first employ successive convex-constrained policy updates across multiple tasks with differentiable convexprogramming, which allows meta-learning in constrained scenarios by enabling end-to-end differentiation. This approach empowers the agent to rapidly adapt to new tasks under non-stationarity while ensuring compliance with safety constraints.
翻訳日:2023-12-19 17:48:22 公開日:2023-12-15
# 大規模マルチパス2チャンネルRF原子磁気センサ

Large-scale, Multi-pass, Two-chamber RF Atomic Magnetometer ( http://arxiv.org/abs/2312.10228v1 )

ライセンス: Link先を確認
D. J. Heilman (1), K. L. Sauer (1), D. W. Prescott (1), C. Z. Motamedi (1), N. Dural (2), M. V. Romalis (2), T. W. Kornack (3) ((1) George Mason University, (2) Princeton University, (3) Twinleaf LLC)(参考訳) 現在運用されている最大の高周波原子磁気センサの1つについて述べる。 総原子量は128$\mathrm{cm^3}$であり、それに対応する多数の$^{87}$rb原子があるため、原子ノイズを低減できる。 プローブビームの合計44パスは、フォトンショットノイズを低減する。 原子蒸気は、細胞を個別に汲み上げることができる2つのチャンバーに分割される。 この構成では、光シフトノイズを含む共通モードノイズ源を低減できる。 磁気チューニング場は個別のチャンバーにも適用でき、2つの周波数を同時に測定することができる。 この手法の応用は、NQR(Nuclear Quadrupole Resonance)を用いたコントラバンド素材の探索であり、同時に測定することで探索時間を著しく短縮することができる。 硝酸アンモニウム (NH$_4$NO$_3$) と塩素酸カリウム (KClO$_3$) のNQR周波数に対応して, 有効範囲423-531kHzの二重周波数測定を行った。 本システムにおける感度に対する基本的,かつ,インストゥルメンタルな,ノイズの寄与について検討する。

We describe one of the largest radio-frequency RF atomic magnetometers presently operating. A total atomic volume of 128 $\mathrm{cm^3}$, with correspondingly large number of $^{87}$Rb atoms, can reduce atom noise. A total of 44 passes of the probe beam reduces photon-shot noise. The atomic vapor is divided between two chambers allowing for pumping of the cells individually; doing so with opposite-helicity light enables use as an intrinsic gradiometer. In this configuration, common-mode noise sources including light-shift noise can be reduced. Magnetic tuning fields can also be applied to the chambers individually, allowing simultaneous measurement of two frequencies. An application of this is in the search for contraband materials using Nuclear Quadrupole Resonance (NQR), for which simultaneous measurement can significantly reduce search times. We demonstrate dual-frequency measurement on an effective range of 423-531 kHz, corresponding to the NQR frequencies of ammonium nitrate NH$_4$NO$_3$ at the lowest value and potassium chlorate KClO$_3$ at the highest. We explore fundamental, as well as instrumental, noise contributions to the sensitivity in this system.
翻訳日:2023-12-19 17:47:56 公開日:2023-12-15
# GPT-doctor:医療相談のための大規模言語モデルのカスタマイズ

GPT-doctor: Customizing Large Language Models for Medical Consultation ( http://arxiv.org/abs/2312.10225v1 )

ライセンス: Link先を確認
Wen Wang, Zhenyue Zhao, Tianshu Sun(参考訳) 大規模言語モデル(llms)の出現は、情報システムにおける設計科学の新しい時代を告げ、llms設計をビジネスコンテキストに合わせるためのパラダイムシフトを要求した。 本稿では,(1)会話パターンの整合,(2)深いドメイン知識の統合,(3)ソフトスキルとコア原則の具体化という3つの基本目標を同時に達成することを目的とした,一般的なビジネスコンテキストのllmをカスタマイズするための新しい枠組みを提案する。 LLMにおけるドメイン固有理論とスーパービジョンファインチューニング(SFT)を組み合わせる手法を設計する。 提案するフレームワークを医療相談の文脈でインスタンス化し,GPT-doctorモデルを作成する。 具体的には、主要なオンライン医療相談プラットフォームから大量の医師相談記録を収集し、専門データベースから医療知識を収集し、SFTのための包括的なデータセットを構築する。 さらに, 医療理論に基づいて, 専門性, 説明可能性, 情緒的支援を含む, 人間の医師のソフトスキルとコア原則を3つ同定し, これらのスキルをLCMに組み込む設計アプローチを提案する。 本研究は,実患者に対するオンライン実験とドメインエキスパートおよび実消費者による評価を用いて,提案フレームワークの実現可能性と性能を示す。 その結果、gpt-doctorは、医療の専門知識や消費者の嗜好など、複数の指標にわたる人間の医師と同等の性能を発揮することがわかった。 最後に,ブラックボックスを探索し,水平的会話パターンアライメントと垂直的医療知識の進化の観点からモデル性能改善の源泉を検討する。 提案するフレームワークは、現実のビジネス問題に対してLCMをカスタマイズするためのステップバイステップの原則とガイダンスを提供する。

The advent of Large Language Models (LLMs) has ushered in a new era for design science in Information Systems, demanding a paradigm shift in tailoring LLMs design for business contexts. This paper proposes a novel framework to customize LLMs for general business contexts that aims to achieve three fundamental objectives simultaneously: (1) aligning conversational patterns, (2) integrating in-depth domain knowledge, and (3) embodying the soft skills and core principles. We design methodologies to combine domain-specific theory with Supervised Fine Tuning (SFT) in LLMs. We instantiate our proposed framework in the context of medical consultation, creating a GPT-doctor model. Specifically, we construct a comprehensive dataset for SFT by collecting large volume of real doctors consultation records from a leading online medical consultation platform and medical knowledge from professional databases. Additionally, drawing on medical theory, we identify three soft skills and core principles of human doctors including professionalism, explainability, and emotional support, and design approaches to integrate these skills into LLMs. We demonstrate the feasibility and performance of our proposed framework using online experiments with real patients as well as evaluation by domain experts and real consumers. Results demonstrate that fine-tuned GPT-doctor performs on par with human doctors across multiple metrics including medical expertise and consumer preference. Finally, we unravel the black box and examine the sources of model performance improvement from the perspectives of horizontal conversation pattern alignment and vertical medical knowledge evolution. Our proposed framework offers step-by-step principles and guidance for customizing LLMs for real-world business problems.
翻訳日:2023-12-19 17:47:35 公開日:2023-12-15
# 原子渋滞の最適化の複雑さ

The Complexity of Optimizing Atomic Congestion ( http://arxiv.org/abs/2312.10219v1 )

ライセンス: Link先を確認
Cornelius Brand, Robert Ganian, Subrahmanyam Kalyanasundaram, and Fionn Mc Inerney(参考訳) アトミック混雑ゲームはネットワーク設計、ルーティング、アルゴリズムゲーム理論において古典的なトピックであり、様々なアプリケーション領域における混雑やフロー最適化タスクをモデル化することができる。 このようなゲームに対するアナキシーの価格と、nashの平衡計算の計算複雑性は、今ではよく理解されているが、システム最適戦略(すなわち、エージェントの平均コストを最小化する中央計画されたルーティング)を計算する計算の複雑さは、文献において非常に低い。 パラメータ化複雑性パラダイムのレンズを通して、問題に対するトラクタビリティの正確な境界を特定することで、このギャップを埋める。 極端に単純なネットワーク上でも問題は非常に難解であることを示す結果を得た後、問題の計算性(in)を制御する構造パラメータは、自然(例えば木幅)に基づく頂点分離子ではなく、エッジ分離子に基づいていることを示す結果を得る。 我々は、この問題の(さらに難しい)min-max変種に対する分析を拡張して結論付ける。

Atomic congestion games are a classic topic in network design, routing, and algorithmic game theory, and are capable of modeling congestion and flow optimization tasks in various application areas. While both the price of anarchy for such games as well as the computational complexity of computing their Nash equilibria are by now well-understood, the computational complexity of computing a system-optimal set of strategies -- that is, a centrally planned routing that minimizes the average cost of agents -- is severely understudied in the literature. We close this gap by identifying the exact boundaries of tractability for the problem through the lens of the parameterized complexity paradigm. After showing that the problem remains highly intractable even on extremely simple networks, we obtain a set of results which demonstrate that the structural parameters which control the computational (in)tractability of the problem are not vertex-separator based in nature (such as, e.g., treewidth), but rather based on edge separators. We conclude by extending our analysis towards the (even more challenging) min-max variant of the problem.
翻訳日:2023-12-19 17:47:09 公開日:2023-12-15
# T-MAE:ポイントクラウド表現学習のための仮面自動エンコーダ

T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning ( http://arxiv.org/abs/2312.10217v1 )

ライセンス: Link先を確認
Weijie Wei, Fatemeh Karimi Nejadasl, Theo Gevers, Martin R. Oswald(参考訳) アウトドアポイントクラウドセグメンテーションにおける注釈付きデータの不足は、トランスフォーマーのような高度なネットワークのモデリング能力を活用する上で大きな障害となる。 その結果、研究者は学習と再構築に基づく前文課題の対比など、効果的な自己教師付き事前学習戦略を積極的に研究してきた。 それでも、LiDAR点雲列に固有の時間情報は、常に無視されている。 この特性をより有効に活用するために、時間的隣接フレームを入力として時間的依存を学習する時間的マスク付きオートエンコーダ(T-MAE)という効果的な事前学習戦略を提案する。 2フレーム入力には、シームズエンコーダとウィンドウベースのクロスアテンション(WCA)モジュールを含むSiamWCAバックボーンが設定されている。 ego-vehicleの動作が同じインスタンスの照明角を変化させることを考慮すると、時間的モデリングはロバストで自然なデータ拡張としても機能し、対象オブジェクトの理解を深める。 また、連続フレームを利用する代わりに、遠い歴史フレームを使用することでコスト効率が高く、強力である。 SiamWCAは強力なアーキテクチャだが、アノテーション付きデータに大きく依存している。 当社のT-MAE事前学習戦略により,自己教師付き学習手法のWaymoデータセット上での最高の性能を実現する。 提案のすべてのコンポーネントを検証するため,包括的な実験を行った。 受け入れると、ソースコードがアクセスできるようになる。

The scarcity of annotated data in outdoor point cloud segmentation poses a significant obstacle in harnessing the modeling capabilities of advanced networks like transformers. Consequently, scholars have been actively investigating efficacious self-supervised pre-training strategies, e.g. contrasting learning and reconstruction-based pretext tasks. Nevertheless, temporal information, which is inherent in the LiDAR point cloud sequence, is consistently disregarded. To better utilize this property, we propose an effective pre-training strategy, namely Temporal Masked AutoEncoders (T-MAE), which takes as input temporally adjacent frames and learns temporal dependency. A SiamWCA backbone, containing a Siamese encoder and a window-based cross-attention (WCA) module, is established for the two-frame input. Taking into account that the motion of an ego-vehicle alters the illumination angles of the same instance, temporal modeling also serves as a robust and natural data augmentation, enhancing the comprehension of target objects. Moreover, instead of utilizing consecutive frames, it is more cost-effective and powerful by using distant historical frames. SiamWCA is a powerful architecture but heavily relies on annotated data. With our T-MAE pre-training strategy, we achieve the best performance on the Waymo dataset among self-supervised learning methods. Comprehensive experiments are conducted to validate all components of our proposal. Upon acceptance, the source code will be made accessible.
翻訳日:2023-12-19 17:46:49 公開日:2023-12-15
# 資産所有の同定: 機械学習による企業資産所有の予測

Asset Ownership Identification: Using machine learning to predict enterprise asset ownership ( http://arxiv.org/abs/2312.10266v1 )

ライセンス: Link先を確認
Craig Jacobik(参考訳) アセット所有者の識別は、あらゆる情報セキュリティ組織にとって重要な第一歩であり、組織はデータ漏洩や損失、脆弱性、攻撃面の可能性、効果的な対策を定義することができる。 既存の資産所有データを用いて、研究は機械学習アルゴリズムを用いて資産所有者を予測する最良の分類モデルを決定する。 調査では、列挙されたチームごとに別々の分析を行い、アダブースト、ロジスティック回帰、ナイブベイズ、分類と回帰ツリー、ランダムフォレストを横断する100回のモンテカルロクロス検証を実行した。 最後に、インタラクティブな探索データ分析によるアセットインベントリの理解を支援する視覚化ダッシュボードが作成され、各モデルの正確性、感度、特異性といったモデル評価メトリクスの理解が可能になった。 全体として、Adaboostは5%以下でテストエラーの少ない全オーナーでベストを尽くし、Naive Bayesは最悪だった。 残りのモデルも同様に行われた。 完全なドメイン名(FQDN)、CIDR/16(Classless Inter-Domain Routing)CIDR/16、ロケーションなどが最も重要な特徴であった。

Asset owner identification is an important first step for any information security organization, allowing organizations the ability to identify and detect data breaches and losses, vulnerabilities, possible attack surfaces, and define effective countermeasures. Using existing asset ownership data, the research utilized an assortment of machine learning algorithms to determine the best classification model to predict an asset's owner. The research ran separate analyses for each enumerated team, then ran a 100 iteration Monte Carlo Cross Validation across Adaboost, Logistic Regression, Naive Bayes, Classification and Regression Trees, and Random Forests. Finally, a visualization dashboard was created to help users understand the asset inventory through interactive exploratory data analysis as well as the ability to understand model evaluation metrics including accuracy, sensitivity, and specificity for each model. Overall, Adaboost performed the best across all owners with low testing errors below 5% while Naive Bayes performed the worst. The remaining models performed similarly. The fully qualified domain name (FQDN), Classless Inter-Domain Routing (CIDR) CIDR/16, and location were among the most important features.
翻訳日:2023-12-19 17:37:08 公開日:2023-12-15
# VoCopilot: 毎日の対話を音声で追跡する

VoCopilot: Voice-Activated Tracking of Everyday Interactions ( http://arxiv.org/abs/2312.10265v1 )

ライセンス: Link先を確認
Sheen An Goh, Manoj Gulati, Ambuj Varshney(参考訳) 音声は、コミュニケーションを促進し、感情を伝え、健康を示すことで、私たちの生活において重要な役割を果たす。 したがって、声質の相互作用を追跡することは、私たちの生活の多くの側面に対する貴重な洞察を与えることができる。 本稿では,VoCopilotと呼ばれる新しい音声追跡システムの設計について述べる。 VoCopilotは、エネルギー効率の良い音響ハードウェアとファームウェアと高度な機械学習モデルを組み合わせたエンドツーエンドシステムである。 その結果、VoCopilotは会話を継続的に追跡し、記録し、書き起こし、そこから有用な洞察を抽出することができる。 大きな言語モデルを利用することで、VoCopilotは、複雑な機械学習技術を学ぶことなく、記録されたインタラクションから有用な洞察を抽出できるようにする。 エンドユーザーのプライバシーを保護するために、vocopilotはエンドユーザーの会話のみを記録する新しい起動メカニズムを使っている。 さらに、残りのパイプラインはすべてコモディティコンピュータ(Mac Mini M2)で実行することができる。 本研究では,実環境におけるvocopilotの有効性を2つのユースケースで示す。

Voice plays an important role in our lives by facilitating communication, conveying emotions, and indicating health. Therefore, tracking vocal interactions can provide valuable insight into many aspects of our lives. This paper presents our ongoing efforts to design a new vocal tracking system we call VoCopilot. VoCopilot is an end-to-end system centered around an energy-efficient acoustic hardware and firmware combined with advanced machine learning models. As a result, VoCopilot is able to continuously track conversations, record them, transcribe them, and then extract useful insights from them. By utilizing large language models, VoCopilot ensures the user can extract useful insights from recorded interactions without having to learn complex machine learning techniques. In order to protect the privacy of end users, VoCopilot uses a novel wake-up mechanism that only records conversations of end users. Additionally, all the rest of pipeline can be run on a commodity computer (Mac Mini M2). In this work, we show the effectiveness of VoCopilot in real-world environment for two use cases.
翻訳日:2023-12-19 17:36:45 公開日:2023-12-15
# 低レベルスタイルから高レベルスタイルへのプログレッシブ絵画の高調波化

Progressive Painterly Image Harmonization from Low-level Styles to High-level Styles ( http://arxiv.org/abs/2312.10264v1 )

ライセンス: Link先を確認
Li Niu, Yan Hong, Junyan Cao, Liqing Zhang(参考訳) 画家的イメージ調和は、画家的背景にある写真前景オブジェクトを調和させることを目的としている。 従来の自動エンコーダベースの調和ネットワークとは違って,低レベルのスタイル(色,単純なテクスチャなど)から高レベルのスタイル(複雑なテクスチャなど)へ合成前景を調和させるプログレッシブ多段調和ネットワークを開発した。 ネットワークの解釈性と調和性が向上した。 さらに,出口の適切な段階を自動的に決定し,不必要で有害な最終段階をスキップするアーリーエクイット戦略を考案する。 ベンチマークデータセットに関する広範な実験は、当社のプログレッシブ・ハーモニゼーション・ネットワークの有効性を示しています。

Painterly image harmonization aims to harmonize a photographic foreground object on the painterly background. Different from previous auto-encoder based harmonization networks, we develop a progressive multi-stage harmonization network, which harmonizes the composite foreground from low-level styles (e.g., color, simple texture) to high-level styles (e.g., complex texture). Our network has better interpretability and harmonization performance. Moreover, we design an early-exit strategy to automatically decide the proper stage to exit, which can skip the unnecessary and even harmful late stages. Extensive experiments on the benchmark dataset demonstrate the effectiveness of our progressive harmonization network.
翻訳日:2023-12-19 17:36:31 公開日:2023-12-15
# 絵画作品からの学習による画家的イメージ調和

Painterly Image Harmonization by Learning from Painterly Objects ( http://arxiv.org/abs/2312.10263v1 )

ライセンス: Link先を確認
Li Niu, Junyan Cao, Yan Hong, Liqing Zhang(参考訳) 写真オブジェクトと画家的背景の複合画像が与えられると、画家的イメージ調和は、背景と互換性のある複合オブジェクトのスタイル化を目標とする。 既存の画家的調和作品の競争力はあったが、絵画における画家的対象を十分に活用することはできなかった。 本研究は,画家のイメージ調和のための絵画的物体からの学習について検討する。 特に,絵画における絵画的対象に基づいて,背景のスタイルや物体情報から物体のスタイルへのマッピングを学習する。 学習したマッピングにより、エンコーダ特徴写像を調和させて調和した画像を生成するために使用される複合オブジェクトのターゲットスタイルを幻覚することができる。 提案手法の有効性を示すため,ベンチマークデータセットの大規模な実験を行った。

Given a composite image with photographic object and painterly background, painterly image harmonization targets at stylizing the composite object to be compatible with the background. Despite the competitive performance of existing painterly harmonization works, they did not fully leverage the painterly objects in artistic paintings. In this work, we explore learning from painterly objects for painterly image harmonization. In particular, we learn a mapping from background style and object information to object style based on painterly objects in artistic paintings. With the learnt mapping, we can hallucinate the target style of composite object, which is used to harmonize encoder feature maps to produce the harmonized image. Extensive experiments on the benchmark dataset demonstrate the effectiveness of our proposed method.
翻訳日:2023-12-19 17:36:18 公開日:2023-12-15
# CRNNet: コピーリカレントニューラルネットワーク構造ネットワーク

CRNNet: Copy Recurrent Neural Network Structure Network ( http://arxiv.org/abs/2312.10259v1 )

ライセンス: Link先を確認
Xiaofan Zhou, Xunzhu Tang(参考訳) 電子健康記録(EHR)符号化の目的は、EHRに従って診断コードを見つけることである。 従来の研究では、研究者はEHRのコーディングタスクで複数の分類をすることを好んでおり、そのほとんどはまずEHRを符号化し、次にEHRの表現に基づいて各コードの確率を得るように処理している。 しかし, これらの方法には, 合併症の問題も無視されている。 本稿では,CRNNet(Copy Recurrent Neural Network Structure Network)と呼ばれる複雑な疾患を検出するための新しい EHR コーディングフレームワークを提案する。 本手法は, 対数学習の考え方を指し, 経路生成器と経路識別器は, EHR符号化のタスクをより効率的に完了するように設計されている。 複雑な疾患を検出するためのコピーモジュールを提案し,提案するコピーモジュールと逆学習戦略により,合併症を効率的に同定する。 本手法は, 予測における合併症の57.30倍の比率を達成し, 提案手法の有効性を実証する。 アブレーション研究によると、提案されたコピー機構は、複雑な疾患を検出する上で重要な役割を果たす。

The target of Electronic Health Record (EHR) coding is to find the diagnostic codes according to the EHRs. In previous research, researchers have preferred to do multi-classification on the EHR coding task; most of them encode the EHR first and then process it to get the probability of each code based on the EHR representation. However, the question of complicating diseases is neglected among all these methods. In this paper, we propose a novel EHR coding framework, which is the first attempt at detecting complicating diseases, called Copy Recurrent Neural Network Structure Network (CRNNet). This method refers to the idea of adversarial learning; a Path Generator and a Path Discriminator are designed to more efficiently finish the task of EHR coding. We propose a copy module to detect complicating diseases; by the proposed copy module and the adversarial learning strategy, we identify complicating diseases efficiently. Extensive experiments show that our method achieves a 57.30\% ratio of complicating diseases in predictions, demonstrating the effectiveness of our proposed model. According to the ablation study, the proposed copy mechanism plays a crucial role in detecting complicating diseases.
翻訳日:2023-12-19 17:36:07 公開日:2023-12-15
# 物理に変形したニューラルネットワーク重力モデル:第iii世代

The Physics-Informed Neural Network Gravity Model: Generation III ( http://arxiv.org/abs/2312.10257v1 )

ライセンス: Link先を確認
John Martin and Hanspeter Schaub(参考訳) 科学機械学習と物理情報ニューラルネットワーク(PINN)の出現は、複素微分方程式の解を同定する能力にかなりの可能性があることを示している。 過去2年間で、重力場モデリング(つまり、位置と加速度推定から重力ポテンシャルの微分可能な形式を学ぶ)を解くことができるPINNの開発に多くの研究が取り組んできた。 従来のPINN重力モデル (PINN-GMs) は, モデルコンパクト性, ノイズに対する頑健性, サンプル効率の優位性を実証してきたが, 本稿で論じる重要なモデリング課題は残されている。 具体的には,外挿誤差,低高度サンプルへのバイアス,高高度数値不安定性,モデル設計への多数の変更による境界条件の遵守といった問題を解く物理情報ニューラルネットワーク重力モデル(PINN-GM-III)の第3世代を紹介する。 PINN-GM-IIIは、既知の不均一密度の小惑星をモデル化して試験され、その性能は7つのコア指標を用いて評価される。

Scientific machine learning and the advent of the Physics-Informed Neural Network (PINN) show considerable potential in their capacity to identify solutions to complex differential equations. Over the past two years, much work has gone into the development of PINNs capable of solving the gravity field modeling problem -- i.e.\ learning a differentiable form of the gravitational potential from position and acceleration estimates. While the past PINN gravity models (PINN-GMs) have demonstrated advantages in model compactness, robustness to noise, and sample efficiency; there remain key modeling challenges which this paper aims to address. Specifically, this paper introduces the third generation of the Physics-Informed Neural Network Gravity Model (PINN-GM-III) which solves the problems of extrapolation error, bias towards low-altitude samples, numerical instability at high-altitudes, and compliant boundary conditions through numerous modifications to the model's design. The PINN-GM-III is tested by modeling a known heterogeneous density asteroid, and its performance is evaluated using seven core metrics which showcases its strengths against its predecessors and other analytic and numerical gravity models.
翻訳日:2023-12-19 17:35:47 公開日:2023-12-15
# マルチエージェント強化学習 : 総合的な調査

Multi-agent Reinforcement Learning: A Comprehensive Survey ( http://arxiv.org/abs/2312.10256v1 )

ライセンス: Link先を確認
Dom Huh, Prasant Mohapatra(参考訳) マルチエージェントアプリケーションの普及は、日常生活において様々な相互接続システムに及んでいる。 その普及にもかかわらず、共有環境におけるインテリジェントな意思決定エージェントの統合と開発は、効果的な実装に課題をもたらす。 この調査はマルチエージェントシステム(MAS)の領域を掘り下げ、マルチエージェント強化学習(MARL)として知られるMASフレームワーク内での学習最適制御の複雑さの解明に特に重点を置いている。 この調査の目的は、MASの様々な次元に関する総合的な洞察を提供することであり、多エージェントアプリケーションに伴う固有の課題を強調しながら、無数の機会に光を当てることである。 我々は、MASの景観のより深い理解に貢献するだけでなく、研究者と実践者の両方に貴重な視点を提供することを望んでいます。 そこで我々は,MASのダイナミック領域における情報探索と開発促進を促進し,MARLの新たな複雑さに対処する上で,適応戦略や継続的進化の必要性を認識した。

The prevalence of multi-agent applications pervades various interconnected systems in our everyday lives. Despite their ubiquity, the integration and development of intelligent decision-making agents in a shared environment pose challenges to their effective implementation. This survey delves into the domain of multi-agent systems (MAS), placing a specific emphasis on unraveling the intricacies of learning optimal control within the MAS framework, commonly known as multi-agent reinforcement learning (MARL). The objective of this survey is to provide comprehensive insights into various dimensions of MAS, shedding light on myriad opportunities while highlighting the inherent challenges that accompany multi-agent applications. We hope not only to contribute to a deeper understanding of the MAS landscape but also to provide valuable perspectives for both researchers and practitioners. By doing so, we aim to facilitate informed exploration and foster development within the dynamic realm of MAS, recognizing the need for adaptive strategies and continuous evolution in addressing emerging complexities in MARL.
翻訳日:2023-12-19 17:35:26 公開日:2023-12-15
# catwalk: 多くのデータセットのための統一言語モデル評価フレームワーク

Catwalk: A Unified Language Model Evaluation Framework for Many Datasets ( http://arxiv.org/abs/2312.10253v1 )

ライセンス: Link先を確認
Dirk Groeneveld and Anas Awadalla and Iz Beltagy and Akshita Bhagia and Ian Magnusson and Hao Peng and Oyvind Tafjord and Pete Walsh and Kyle Richardson and Jesse Dodge(参考訳) 大規模言語モデルの成功は自然言語処理(nlp)の評価パラダイムをシフトさせた。 コミュニティの関心は、多くのタスク、ドメイン、データセットのNLPモデルを極端な規模で比較することへと流れている。 データセットとモデルの構築への取り組みは断片化され、そのフォーマットとインターフェースは互換性がない。 結果として、公正かつ制御された比較を大規模に行うために、大規模な(再)実装作業がしばしば必要となる。 Catwalkはこれらの問題に対処することを目指している。 catwalkは、カノニカルな教師付きトレーニングと微調整から、コンテキスト内学習のようなより現代的なパラダイムまで、幅広い既存のnlpデータセットとモデルに対する統一的なインターフェースを提供する。 慎重に設計された抽象化によって、他の多くの拡張を簡単にできる。 キャットウォークは、大規模に制御された実験を行うための障壁を著しく低くする。 例えば、コードを書かずに、86以上のデータセット上の64以上のモデルを単一のコマンドで微調整し、評価しました。 Allen Institute for Artificial Intelligence (AI2)のAllenNLPチームによって管理されているCatwalkは、現在進行中のオープンソース活動である。

The success of large language models has shifted the evaluation paradigms in natural language processing (NLP). The community's interest has drifted towards comparing NLP models across many tasks, domains, and datasets, often at an extreme scale. This imposes new engineering challenges: efforts in constructing datasets and models have been fragmented, and their formats and interfaces are incompatible. As a result, it often takes extensive (re)implementation efforts to make fair and controlled comparisons at scale. Catwalk aims to address these issues. Catwalk provides a unified interface to a broad range of existing NLP datasets and models, ranging from both canonical supervised training and fine-tuning, to more modern paradigms like in-context learning. Its carefully-designed abstractions allow for easy extensions to many others. Catwalk substantially lowers the barriers to conducting controlled experiments at scale. For example, we finetuned and evaluated over 64 models on over 86 datasets with a single command, without writing any code. Maintained by the AllenNLP team at the Allen Institute for Artificial Intelligence (AI2), Catwalk is an ongoing open-source effort: https://github.com/allenai/catwalk.
翻訳日:2023-12-19 17:35:07 公開日:2023-12-15
# 比較リファインメントフレームワークを用いた科学文書からの物体認識

Object Recognition from Scientific Document based on Compartment Refinement Framework ( http://arxiv.org/abs/2312.09038v2 )

ライセンス: Link先を確認
Jinghong Li, Wen Gu, Koichi Ota, Shinobu Hasegawa(参考訳) 過去10年間のインターネットの急速な発展とともに、膨大な資源から価値ある情報を効率的に抽出することがますます重要になってきており、特に調査や理解の文脈において、包括的なデジタルエコシステムを確立する上で重要である。 これらのタスクの基礎は、堅牢なデータ基盤を構築するのに不可欠である科学文書からのデータの正確な抽出と深層採掘に焦点を当てている。 しかしながら、生データを解析したり、複雑な科学文書からデータを抽出することは、現在進行中の課題である。 現在の科学文書のデータ抽出方法は、典型的にはルールベース(rb)または機械学習(ml)アプローチを用いる。 しかし、ルールベースの方法を用いることで、複雑な型付けを持つ記事に対して高いコーディングコストを発生させることができる。 逆に、機械学習メソッドのみに依存することは、科学文書内の複雑なコンテンツタイプに対するアノテーション処理を必要とする。 さらに、科学的文書内の階層配置を徹底的に定義・検討した研究は少ない。 文書の内部構造と要素の包括的定義の欠如は、テキスト分類とオブジェクト認識タスクの精度に間接的に影響を及ぼす。 特定出版物における標準レイアウトとタイプセットの分析の観点から,CTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。 まず、科学文書をベースドメイン、コンパートメント、テキストブロックという階層的な区分に定義する。 次に,テキストブロックの意味の詳細な探索と分類を行う。 最後に,規則に基づく区画分割に基づく科学的文書内のオブジェクト認識を実現するために,テキストブロック分類の結果を利用する。

With the rapid development of the internet in the past decade, it has become increasingly important to extract valuable information from vast resources efficiently, which is crucial for establishing a comprehensive digital ecosystem, particularly in the context of research surveys and comprehension. The foundation of these tasks focuses on accurate extraction and deep mining of data from scientific documents, which are essential for building a robust data infrastructure. However, parsing raw data or extracting data from complex scientific documents have been ongoing challenges. Current data extraction methods for scientific documents typically use rule-based (RB) or machine learning (ML) approaches. However, using rule-based methods can incur high coding costs for articles with intricate typesetting. Conversely, relying solely on machine learning methods necessitates annotation work for complex content types within the scientific document, which can be costly. Additionally, few studies have thoroughly defined and explored the hierarchical layout within scientific documents. The lack of a comprehensive definition of the internal structure and elements of the documents indirectly impacts the accuracy of text classification and object recognition tasks. From the perspective of analyzing the standard layout and typesetting used in the specified publication, we propose a new document layout analysis framework called CTBR(Compartment & Text Blocks Refinement). Firstly, we define scientific documents into hierarchical divisions: base domain, compartment, and text blocks. Next, we conduct an in-depth exploration and classification of the meanings of text blocks. Finally, we utilize the results of text block classification to implement object recognition within scientific documents based on rule-based compartment segmentation.
翻訳日:2023-12-19 12:21:02 公開日:2023-12-15
# 再構成可能なインテリジェントサーフェスによる局所化:アクティブセンシングアプローチ

Localization with Reconfigurable Intelligent Surface: An Active Sensing Approach ( http://arxiv.org/abs/2312.09002v2 )

ライセンス: Link先を確認
Zhongze Zhang and Tao Jiang and Wei Yu(参考訳) 本稿では,基地局 (BS) が,構成変更可能なインテリジェントサーフェス (RIS) の助けを借りて遠隔地ユーザを見つけることを目的としたアップリンクローカライズ問題に対処する。 本稿では、パイロットを順次送信し、BSビームフォーミングベクターと複数のRIS反射係数を含むセンサベクトルを、既に達成された観測に基づいて適応的に調整し、最終的に推定されたユーザ位置を生成する戦略を提案する。 これは、最適な解を見つけるには、測定数で次元が増加する複雑な機能空間を探索することを伴う、挑戦的なアクティブセンシング問題である。 その結果,long short-term memory (lstm) ネットワークは,測定値間の潜在時間相関を利用してスケーラブルな状態ベクトルを自動構築できることがわかった。 その後、状態ベクトルは、ディープニューラルネットワーク(dnn)を介して、次の時間フレームのセンシングベクトルにマッピングされる。 最終dnnは、状態ベクトルを推定ユーザ位置にマッピングするために使用される。 その結果, 非アクティブセンシング法と比較して, アクティブセンシング設計の利点が示された。 提案する解は、解釈可能な結果を生成し、センシング段階の数で一般化する。 注目すべきは、ひとつのBSと複数のRISを持つネットワークが、複数のBSで同等な設定を達成できることである。

This paper addresses an uplink localization problem in which a base station (BS) aims to locate a remote user with the help of reconfigurable intelligent surfaces (RISs). We propose a strategy in which the user transmits pilots sequentially and the BS adaptively adjusts the sensing vectors, including the BS beamforming vector and multiple RIS reflection coefficients based on the observations already made, to eventually produce an estimated user position. This is a challenging active sensing problem for which finding an optimal solution involves searching through a complicated functional space whose dimension increases with the number of measurements. We show that the long short-term memory (LSTM) network can be used to exploit the latent temporal correlation between measurements to automatically construct scalable state vectors. Subsequently, the state vector is mapped to the sensing vectors for the next time frame via a deep neural network (DNN). A final DNN is used to map the state vector to the estimated user position. Numerical result illustrates the advantage of the active sensing design as compared to non-active sensing methods. The proposed solution produces interpretable results and is generalizable in the number of sensing stages. Remarkably, we show that a network with one BS and multiple RISs can outperform a comparable setting with multiple BSs.
翻訳日:2023-12-19 12:20:38 公開日:2023-12-15
# 多目的化による効果的な非知覚的テキストアタック

Effective and Imperceptible Adversarial Textual Attack via Multi-objectivization ( http://arxiv.org/abs/2111.01528v4 )

ライセンス: Link先を確認
Shengcai Liu, Ning Lu, Wenjing Hong, Chao Qian, Ke Tang(参考訳) 敵対的テキスト攻撃の分野は、ここ数年で著しく成長し、一般的には、ターゲットモデルをうまく騙すことのできる敵対的例(AE)を作成することを目的としている。 しかし、実際の攻撃者にも不可欠な攻撃の不可避性は、前回の研究では除外されることがしばしばある。 その結果、造形されたaesは、原文との明確な構造的および意味的な違いがあり、容易に認識できる。 本研究では,このような問題に対処するための多目的化の活用を提唱する。 具体的には,攻撃不可能性が補助目的と見なされる多目的最適化問題として,aesを製作する問題を再検討する。 そこで本研究では,HydraTextと呼ばれる単純な進化的アルゴリズムを提案する。 私たちの知る限りでは、HydraTextはスコアベースと意思決定ベースの攻撃設定の両方に効果的に適用できる唯一のアプローチです。 44237インスタンスを含む排他的実験により、HydraTextは、最近提案された攻撃アプローチよりも、一貫して競合的な攻撃成功率と攻撃不能性を達成している。 また,HydraText による AEs は人文テキストと区別がつかない。 最後に、これらのaesは転送性が良好であり、敵の訓練によってターゲットモデルに顕著な堅牢性改善をもたらすことができる。

The field of adversarial textual attack has significantly grown over the last few years, where the commonly considered objective is to craft adversarial examples (AEs) that can successfully fool the target model. However, the imperceptibility of attacks, which is also essential for practical attackers, is often left out by previous studies. In consequence, the crafted AEs tend to have obvious structural and semantic differences from the original human-written text, making them easily perceptible. In this work, we advocate leveraging multi-objectivization to address such issue. Specifically, we reformulate the problem of crafting AEs as a multi-objective optimization problem, where the attack imperceptibility is considered as an auxiliary objective. Then, we propose a simple yet effective evolutionary algorithm, dubbed HydraText, to solve this problem. To the best of our knowledge, HydraText is currently the only approach that can be effectively applied to both score-based and decision-based attack settings. Exhaustive experiments involving 44237 instances demonstrate that HydraText consistently achieves competitive attack success rates and better attack imperceptibility than the recently proposed attack approaches. A human evaluation study also shows that the AEs crafted by HydraText are more indistinguishable from human-written text. Finally, these AEs exhibit good transferability and can bring notable robustness improvement to the target model by adversarial training.
翻訳日:2023-12-18 20:06:48 公開日:2023-12-15
# 不連続な特徴の一貫性を増進したヒトのポーズ移行

Human Pose Transfer with Augmented Disentangled Feature Consistency ( http://arxiv.org/abs/2107.10984v4 )

ライセンス: Link先を確認
Kun Wu, Chengxiang Yin, Zhengping Che, Bo Jiang, Jian Tang, Zheng Guan and Gangyi Ding(参考訳) 深層生成モデルは、任意の人間のポーズで画像を合成し、ある人のポーズを他の人に転送する上で大きな進歩を遂げている。 視覚忠実度の高い画像を生成するために多くの異なる方法が提案されているが、主な課題は2つの根本的な問題である:ポーズの曖昧さと外観の矛盾である。 そこで本稿では,現在の制約を緩和し,合成画像の品質を向上させるために,不連続特徴一貫性(dfc-net)が強化されたポーズ伝達ネットワークを提案する。 ソースとターゲット人を含む一対のイメージが与えられた後、DFC-Netはソースからそれぞれポーズと静的情報を抽出し、ターゲット人の画像をソースから所望のポーズで合成する。 さらに、dfc-netは、逆訓練における不連続な特徴一貫性損失を利用して転送コヒーレンスを強化し、キーポイントアンプを統合してポーズ特徴抽出を強化する。 特徴的一貫性損失の解消により,dfc-netの汎用性とロバスト性を改善するために,一貫性制約が強化された非ペア型サポートデータを導入する新しいデータ拡張方式を提案する。 Mixamo-Pose と EDN-10k の大規模実験により,DFC-Net がポーズ転送における最先端性能を達成することを示した。

Deep generative models have made great progress in synthesizing images with arbitrary human poses and transferring poses of one person to others. Though many different methods have been proposed to generate images with high visual fidelity, the main challenge remains and comes from two fundamental issues: pose ambiguity and appearance inconsistency. To alleviate the current limitations and improve the quality of the synthesized images, we propose a pose transfer network with augmented Disentangled Feature Consistency (DFC-Net) to facilitate human pose transfer. Given a pair of images containing the source and target person, DFC-Net extracts pose and static information from the source and target respectively, then synthesizes an image of the target person with the desired pose from the source. Moreover, DFC-Net leverages disentangled feature consistency losses in the adversarial training to strengthen the transfer coherence and integrates a keypoint amplifier to enhance the pose feature extraction. With the help of the disentangled feature consistency losses, we further propose a novel data augmentation scheme that introduces unpaired support data with the augmented consistency constraints to improve the generality and robustness of DFC-Net. Extensive experimental results on Mixamo-Pose and EDN-10k have demonstrated DFC-Net achieves state-of-the-art performance on pose transfer.
翻訳日:2023-12-18 20:06:24 公開日:2023-12-15
# mava: jax における分散マルチエージェント強化学習のための研究ライブラリ

Mava: a research library for distributed multi-agent reinforcement learning in JAX ( http://arxiv.org/abs/2107.01460v2 )

ライセンス: Link先を確認
Ruan de Kock, Omayma Mahjoub, Sasha Abramowitz, Wiem Khlifi, Callum Rhys Tilbury, Claude Formanek, Andries Smit, Arnu Pretorius(参考訳) マルチエージェント強化学習(MARL)の研究は本質的に計算コストが高く、仮説を検証し、統計的に堅牢な主張を行うのに十分な数の実験サンプルを得るのは難しい。 さらに、marlアルゴリズムは一般的にその設計において複雑であり、正しく実装するのは難しい。 MARLのこれらの側面は、先進的な研究に有用なソフトウェアを開発する上で難しい課題である。 このようなソフトウェアに対する私たちの基準は、新しいアイデアを素早く実装するのに十分なシンプルさと、それらのアイデアを妥当な時間でテストできるほどスケーラブルで高速であるべきだということです。 この予備的技術報告では、jaxで書かれたmarlのための研究ライブラリであるmavaを紹介し、これらの基準を満たそうとしている。 我々は,Mavaの設計とコア機能について論じ,その利用と性能を様々な環境で実証する。 特に、他の人気のあるMARLフレームワークと比較して10~100倍改善され、高いパフォーマンスを維持しながら、Mavaの大幅な速度優位性を示す。 これにより、研究者は数時間ではなく数分でアイデアをテストできる。 最後に、MavaはMARLの高度な研究を促進するために、シームレスに統合されるライブラリのエコシステムの一部を形成する。 mavaがコミュニティに利益をもたらし、この分野における科学的に健全で統計的に堅牢な研究を推進することを願っている。 mavaのオープンソースリポジトリはhttps://github.com/instadeepai/mavaで入手できる。

Multi-agent reinforcement learning (MARL) research is inherently computationally expensive and it is often difficult to obtain a sufficient number of experiment samples to test hypotheses and make robust statistical claims. Furthermore, MARL algorithms are typically complex in their design and can be tricky to implement correctly. These aspects of MARL present a difficult challenge when it comes to creating useful software for advanced research. Our criteria for such software is that it should be simple enough to use to implement new ideas quickly, while at the same time be scalable and fast enough to test those ideas in a reasonable amount of time. In this preliminary technical report, we introduce Mava, a research library for MARL written purely in JAX, that aims to fulfill these criteria. We discuss the design and core features of Mava, and demonstrate its use and performance across a variety of environments. In particular, we show Mava's substantial speed advantage, with improvements of 10-100x compared to other popular MARL frameworks, while maintaining strong performance. This allows for researchers to test ideas in a few minutes instead of several hours. Finally, Mava forms part of an ecosystem of libraries that seamlessly integrate with each other to help facilitate advanced research in MARL. We hope Mava will benefit the community and help drive scientifically sound and statistically robust research in the field. The open-source repository for Mava is available at https://github.com/instadeepai/Mava.
翻訳日:2023-12-18 20:05:57 公開日:2023-12-15
# Maxwell Demon と Einstein-Podolsky-Rosen ステアリング

Maxwell Demon and Einstein-Podolsky-Rosen Steering ( http://arxiv.org/abs/2105.05656v3 )

ライセンス: Link先を確認
Meng-Jun Hu, Xiao-Min Hu, and Yong-Sheng Zhang(参考訳) マクスウェルの悪魔と量子絡み合いの研究は、物理学における基礎的な重要性と量子情報への潜在的な応用のために重要である。 マクスウェル・デーモンに関するこれまでの研究は主に量子相関を考慮した熱力学に焦点が当てられている。 ここでは、別の観点から、量子非局所性相関を仕事によってシミュレートできるかどうかを問う。 マクスウェル・デーモンが支援するアインシュタイン・ポドルスキー・ローゼン(epr)ステアリングは、新しいタイプの抜け穴を意味する。 ランダウアーの消去原理の適用は、操舵作業中にこの抜け穴を閉じる唯一の方法は、参加者による局所環境の熱変動を継続的に監視することであることを示している。 我々は、超伝導量子コンピュータのような現在のプログラマブル量子プロセッサで実証できる、マックスウェルのデモンアシスト型EPRステアリングの量子回路モデルを構築した。 この量子回路モデルに基づいて、デーモンの作用によるエネルギー散逸と量子非局所性相関の関係を記述する定量的な式を得る。 この結果は、量子非局所性、情報、熱力学の関係を探索し理解する新しい方法を提供するので、非常に物理的に興味深い。

The study of Maxwell demon and quantum entanglement is important because of its foundational significance in physics and its potential applications in quantum information. Previous research on the Maxwell demon has primarily focused on thermodynamics, taking into account quantum correlations. Here we consider from another perspective and ask whether quantum non-locality correlations can be simulated by performing work. The Maxwell demon-assisted Einstein-Podolsky-Rosen (EPR) steering is thus proposed, which implies a new type of loophole. The application of Landauer's erasure principle suggests that the only way to close this loophole during a steering task is by continuously monitoring the heat fluctuation of the local environment by the participant. We construct a quantum circuit model of Maxwell demon-assisted EPR steering, which can be demonstrated by current programmable quantum processors, such as superconducting quantum computers. Based on this quantum circuit model, we obtain a quantitative formula describing the relationship between energy dissipation due to the work of the demon and quantum non-locality correlation. The result is of great physical interest because it provides a new way to explore and understand the relationship between quantum non-locality, information, and thermodynamics.
翻訳日:2023-12-18 20:05:34 公開日:2023-12-15
# 連続電子干渉法による光電子円二色性増強とキラル応答に対する結合・自由・混合寄与の測定

Continuum-electron interferometry for enhancement of photoelectron circular dichroism and measurement of bound, free, and mixed contributions to chiral response ( http://arxiv.org/abs/2104.07522v2 )

ライセンス: Link先を確認
R. Esteban Goetz, Alexander Blech, Corbin Allison, Christiane P. Koch, and Loren Greenman(参考訳) レーザー支援極端紫外線電離を用いた光電子干渉法を開発し、ランダムに配向したキラル分子における光電子円二色性の柔軟かつ堅牢な制御を行う。 XUV光子のコムは、XUVイオン化光電子波パケットの成分間の干渉を促進する時間遅延赤外または可視レーザーパルスの存在下でキラル分子のサンプルをイオン化する。 パルス整形技術に依存する多色位相制御方式とは対照的に、XUVとレーザーパルスとの時間遅延により、結果のキラル信号の大きさが制御される。 さらに,xuv場とir場の相対偏光配置により,キラル応答に対する結合状態と連続状態の寄与を解消できることを示した。 提案手法は,光電子円二色性制御のためのシンプルで頑健で汎用的なツールと,PECDに対する境界状態と連続状態の個々の寄与を時間分解的に予測するための実験的に実現可能なプロトコルを提供する。

We develop photoelectron interferometry based on laser-assisted extreme ultraviolet ionization for flexible and robust control of photoelectron circular dichroism in randomly oriented chiral molecules. A comb of XUV photons ionizes a sample of chiral molecules in the presence of a time-delayed infrared or visible laser pulse promoting interferences between components of the XUV-ionized photoelectron wave packet. In striking contrast to multicolor phase control schemes relying on pulse shaping techniques, the magnitude of the resulting chiral signal is here controlled by the time delay between the XUV and laser pulses. Furthermore, we show that the relative polarization configurations of the XUV and IR fields allows for disentangling the contributions of bound and continuum states to the chiral response. Our proposal provides a simple, robust and versatile tool for the control of photoelectron circular dichroism and experimentally feasible protocol for probing the individual contributions of bound and continuum states to the PECD in a time-resolved manner.
翻訳日:2023-12-18 20:05:15 公開日:2023-12-15
# 指数族観測可能な潜在変数モデルの汎用的教師なし最適化

Generic Unsupervised Optimization for a Latent Variable Model With Exponential Family Observables ( http://arxiv.org/abs/2003.02214v3 )

ライセンス: Link先を確認
Hamid Mousavi, Jakob Drefs, Florian Hirschberger, J\"org L\"ucke(参考訳) 潜時変数モデル(LVM)は、潜時変数のパラメータ化関数によって観測された変数を表す。 教師なし学習のためのlvmの顕著な例は、確率的pca(英語版)または確率的sc(英語版)であり、どちらも観測可能な対象に対するガウス分布の平均を決定するために潜在者の重み付き線形和を仮定している。 しかし多くの場合、観測可能量はガウス分布に従わない。 教師なし学習では、特定の非ガウス可観測物を仮定するLVMが検討されている。 分布の特定の選択に既に、パラメータ最適化は困難であり、より一般的に定義された可観測分布を持つLVMを考慮に入れた以前のコントリビューションはわずかである。 ここでは、様々な異なる分布に対して定義される LVM を考える、すなわち、観測可能群は指数族(英語版)の任意の(正規)分布に従うことができる。 提示される新しいlvmクラスはバイナリラテントで定義されており、ラテントとオブザーバブルをリンクするために要約の代わりに最大化を使用する。 最適化手順を導出するために、最大パラメータ推定のためのEM手法に従う。 指数関数系分布に対して同じ関数形式を特徴とする,非常に簡潔なパラメータ更新方程式の集合を導出できることを示す。 導出された一般化最適化は、異なるタイプの計量データと異なるタイプの離散データに適用することができる。 また、導出された最適化方程式は、最近提案された変分加速度と組み合わせることができる。 したがって、この組み合わせは導出した最適化手順の汎用性と直接的な適用性を維持するが、決定的に効率的なスケーラビリティを実現する。 解析結果を数値的に検証し,分散構造の学習,雑音タイプ推定,雑音推定などの応用の可能性について検討した。

Latent variable models (LVMs) represent observed variables by parameterized functions of latent variables. Prominent examples of LVMs for unsupervised learning are probabilistic PCA or probabilistic SC which both assume a weighted linear summation of the latents to determine the mean of a Gaussian distribution for the observables. In many cases, however, observables do not follow a Gaussian distribution. For unsupervised learning, LVMs which assume specific non-Gaussian observables have therefore been considered. Already for specific choices of distributions, parameter optimization is challenging and only a few previous contributions considered LVMs with more generally defined observable distributions. Here, we consider LVMs that are defined for a range of different distributions, i.e., observables can follow any (regular) distribution of the exponential family. The novel class of LVMs presented is defined for binary latents, and it uses maximization in place of summation to link the latents to observables. To derive an optimization procedure, we follow an EM approach for maximum likelihood parameter estimation. We show that a set of very concise parameter update equations can be derived which feature the same functional form for all exponential family distributions. The derived generic optimization can consequently be applied to different types of metric data as well as to different types of discrete data. Also, the derived optimization equations can be combined with a recently suggested variational acceleration which is likewise generically applicable to the LVMs considered here. So, the combination maintains generic and direct applicability of the derived optimization procedure, but, crucially, enables efficient scalability. We numerically verify our analytical results and discuss some potential applications such as learning of variance structure, noise type estimation and denoising.
翻訳日:2023-12-18 20:04:57 公開日:2023-12-15
# グラフの簡潔なファジィ平面埋め込み:次元性低減アプローチ

Concise Fuzzy Planar Embedding of Graphs: a Dimensionality Reduction Approach ( http://arxiv.org/abs/1803.03114v2 )

ライセンス: Link先を確認
Faisal N. Abu-Khzam, Rana H. Mouawi, Amer Hajj Ahmad and Sergio Thoumi(参考訳) 巨大なグラフで表される膨大な量のデータは、場合によっては従来のコンピュータのリソースを超える。 特にエッジは、ノード数と比較してかなりの量のメモリを消費することができる。 しかし、厳密なエッジストレージは必ずしも必要な結論を引き出すのに必須ではないかもしれない。 同様の問題は、多くの変数を持つレコードを取り込み、最も識別可能な特徴を抽出しようとする。 このデータの ` `dimension'' は減少すると言われている。 同じ目的を念頭に置いて、グラフ表現を$k$-次元空間にマッピングし、主にユークリッド距離を測定することによって隣り合うノードの問い合わせに答えることができる。 我々の答えの正確さは低下するが、エラーの可能性についてのアイデアを与えるファジィ論理によって補償される。 この方法では、かなりの量の有用な情報を維持しながら、メモリ内の合理的な表現を可能にし、$k$次元ユークリッド空間に簡潔に埋め込み、グラフを圧縮することなくいくつかの問題を解くことができる。 特に興味深いのは$k=2$の場合である。 高精度な実験結果が得られ報告される。

The enormous amount of data to be represented using large graphs exceeds in some cases the resources of a conventional computer. Edges in particular can take up a considerable amount of memory as compared to the number of nodes. However, rigorous edge storage might not always be essential to be able to draw the needed conclusions. A similar problem takes records with many variables and attempts to extract the most discernible features. It is said that the ``dimension'' of this data is reduced. Following an approach with the same objective in mind, we can map a graph representation to a $k$-dimensional space and answer queries of neighboring nodes mainly by measuring Euclidean distances. The accuracy of our answers would decrease but would be compensated for by fuzzy logic which gives an idea about the likelihood of error. This method allows for reasonable representation in memory while maintaining a fair amount of useful information, and allows for concise embedding in $k$-dimensional Euclidean space as well as solving some problems without having to decompress the graph. Of particular interest is the case where $k=2$. Promising highly accurate experimental results are obtained and reported.
翻訳日:2023-12-18 20:03:57 公開日:2023-12-15
# バインディングなしの機械学習排他限界

Machine-Learned Exclusion Limits without Binning ( http://arxiv.org/abs/2211.04806v2 )

ライセンス: Link先を確認
Ernesto Arganda, Andres D. Perez, Martin de los Rios, Rosa Mar\'ia Sand\'a Seoane(参考訳) MLL(Machine-Learned Likelihoods)は、機械学習の分類手法と確率に基づく推論テストを組み合わせて、高次元データセットの実験感度を推定する。 本研究では,カーネル密度推定器(kde)を含むmll法を拡張し,分類器出力のバイナリ化を回避し,得られた1次元信号と背景確率密度関数を抽出する。 まず,実確率分布関数が知られている多変量ガウス分布で生成された玩具モデルについて実験を行った。 後に、この手法をLHCにおける2つの興味ある事例に適用する:エキゾチックなヒッグス粒子の探索と、レプトン対に崩壊するZ'$ボソンである。 物理量とは対照的に、ML出力の典型的なゆらぎは純粋信号および純粋背景サンプルに対して非滑らかな確率分布を与える。 非平滑性はKDE法の性能と柔軟性のために密度推定に伝播する。 最終有意性計算への影響について検討し,複数の独立ml出力実現平均を用いて結果を比較することにより,よりスムーズな分布を得ることができた。 重要度推定はこの問題には適さないと結論付けている。

Machine-Learned Likelihoods (MLL) combines machine-learning classification techniques with likelihood-based inference tests to estimate the experimental sensitivity of high-dimensional data sets. We extend the MLL method by including Kernel Density Estimators (KDE) to avoid binning the classifier output to extract the resulting one-dimensional signal and background probability density functions. We first test our method on toy models generated with multivariate Gaussian distributions, where the true probability distribution functions are known. Later, we apply the method to two cases of interest at the LHC: a search for exotic Higgs bosons, and a $Z'$ boson decaying into lepton pairs. In contrast to physical-based quantities, the typical fluctuations of the ML outputs give non-smooth probability distributions for pure-signal and pure-background samples. The non-smoothness is propagated into the density estimation due to the good performance and flexibility of the KDE method. We study its impact on the final significance computation, and we compare the results using the average of several independent ML output realizations, which allows us to obtain smoother distributions. We conclude that the significance estimation turns out to be not sensible to this issue.
翻訳日:2023-12-18 20:00:33 公開日:2023-12-15
# 摂動型J1-J2ハイゼンベルク量子鎖の基底および第1励起状態混合における相転移の推定

Estimating phase transition of perturbed J1-J2 Heisenberg quantum chain in mixtures of ground and first excited states ( http://arxiv.org/abs/2211.00623v2 )

ライセンス: Link先を確認
Sayan Mondal, George Biswas, Ahana Ghoshal, Anindya Biswas, Ujjwal Sen(参考訳) J1-J2ハイゼンベルク量子スピン鎖の1次励起状態と1次励起状態の混合状態における近傍の絡み合いは、無隙間スピン流体から間隙二量体相への鎖の相転移を検出する秩序パラメータとして利用できることを示す。 本研究では, 基底状態と第一励起状態との相対混合確率を, 系の大きさの異なるサブジャエント状態において変化させる順序パラメータの有効性について検討し, 熱力学的限界に導出する。 近傍のコンカレンスは, システムが基底状態であっても良好な順序パラメータとして機能するが, 第1励起状態に漏れる確率は有限である。 さらに,模型の位相図上の異方性およびガラス性障害の別々な導入に対する応答を調べるために,サブジャエント状態の次数パラメータを適用し,それに対応する有限スケール指数と創発的三重臨界点を分析した。 異方性J1-J2鎖はよりリッチな位相図を持ち、同じ順序パラメータを用いてはっきりと見える。

We show that the nearest neighbour entanglement in a mixture of ground and first excited states - a subjacent state - of the J1-J2 Heisenberg quantum spin chain can be used as an order parameter to detect the phase transition of the chain from a gapless spin fluid to a gapped dimer phase. We study the effectiveness of the order parameter for varying relative mixing probabilities between the ground and first excited states in the subjacent state for different system sizes, and extrapolate the results to the thermodynamic limit. We observe that the nearest neighbour concurrence can play a role of a good order parameter even if the system is in the ground state, but with a small finite probability of leaking into the first excited state. Moreover, we apply the order parameter of the subjacent state to investigate the response to separate introductions of anisotropy and of glassy disorder on the phase diagram of the model, and analyse the corresponding finite-size scale exponents and the emergent tricritical point in the former case. The anisotropic J1-J2 chain has a richer phase diagram which is also clearly visible by using the same order parameter.
翻訳日:2023-12-18 19:59:46 公開日:2023-12-15
# 自己組織化による空間流体適応サンプリング

Space-Fluid Adaptive Sampling by Self-Organisation ( http://arxiv.org/abs/2210.17505v5 )

ライセンス: Link先を確認
Roberto Casadei, Stefano Mariani, Danilo Pianini, Mirko Viroli, Franco Zambonelli(参考訳) 座標系におけるリカレントタスクは、分散センシングデータや計算結果など、空間的に異なる信号を管理する(推定、予測、制御)ことである。 特に大規模な環境では、ノードは局所的に知覚し、処理し、信号に作用し、近隣と協調して集団戦略を実装することができる。 そこで本研究では,協調型適応サンプリングによる空間現象推定のための分散協調戦略を考案する。 我々の設計は、空間を競合する領域に動的に分割し、正確な集計を行うという考え方に基づいている。 このような領域は、その構造が基礎となる現象によって作用する圧力に応じて適応するため、「流動」であるある種の仮想空間を定義する。 フィールドベースのコーディネーションフレームワークにおいて適応サンプリングアルゴリズムを提供し,自己安定化的で局所最適であることを証明した。 最後に,提案手法が精度と効率のトレードオフを維持しつつ,空間適応サンプリングを効果的に行うことをシミュレーションにより検証する。

A recurrent task in coordinated systems is managing (estimating, predicting, or controlling) signals that vary in space, such as distributed sensed data or computation outcomes. Especially in large-scale settings, the problem can be addressed through decentralised and situated computing systems: nodes can locally sense, process, and act upon signals, and coordinate with neighbours to implement collective strategies. Accordingly, in this work we devise distributed coordination strategies for the estimation of a spatial phenomenon through collaborative adaptive sampling. Our design is based on the idea of dynamically partitioning space into regions that compete and grow/shrink to provide accurate aggregate sampling. Such regions hence define a sort of virtualised space that is "fluid", since its structure adapts in response to pressure forces exerted by the underlying phenomenon. We provide an adaptive sampling algorithm in the field-based coordination framework, and prove it is self-stabilising and locally optimal. Finally, we verify by simulation that the proposed algorithm effectively carries out a spatially adaptive sampling while maintaining a tuneable trade-off between accuracy and efficiency.
翻訳日:2023-12-18 19:58:51 公開日:2023-12-15
# S2WAT:ストリップウィンドウアテンションを用いた階層型視覚変換器による画像スタイル転送

S2WAT: Image Style Transfer via Hierarchical Vision Transformer using Strips Window Attention ( http://arxiv.org/abs/2210.12381v3 )

ライセンス: Link先を確認
Chiyu Zhang, Xiaogang Xu, Lei Wang, Zaiyan Dai, Jun Yang(参考訳) Transformerの最近のスタイル転送への統合は、局所的なモデリングを減らしたにもかかわらず、長距離依存を確立する能力を活用している。 本稿では,スタイル転送用に設計された新しい階層型視覚トランスである strips window attention transformer (s2wat) を紹介する。 s2watは、短距離と長距離の両方の依存関係を捉えるために、様々なウィンドウ形状の注意計算を用いる。 統合された依存関係は"Attn Merge"戦略を利用しており、ターゲットへの関連性に基づいて空間重みを適応的に決定する。 代表的データセットに対する大規模な実験により,提案手法の有効性が,SOTA(State-of-the-art)トランスフォーマーおよび他のアプローチと比較された。 コードと事前訓練されたモデルはhttps://github.com/AlienZhang1996/S2WATで入手できる。

Transformer's recent integration into style transfer leverages its proficiency in establishing long-range dependencies, albeit at the expense of attenuated local modeling. This paper introduces Strips Window Attention Transformer (S2WAT), a novel hierarchical vision transformer designed for style transfer. S2WAT employs attention computation in diverse window shapes to capture both short- and long-range dependencies. The merged dependencies utilize the "Attn Merge" strategy, which adaptively determines spatial weights based on their relevance to the target. Extensive experiments on representative datasets show the proposed method's effectiveness compared to state-of-the-art (SOTA) transformer-based and other approaches. The code and pre-trained models are available at https://github.com/AlienZhang1996/S2WAT.
翻訳日:2023-12-18 19:58:33 公開日:2023-12-15
# 農業における衛星画像における深層学習の利用に関する体系的考察

A systematic review of the use of Deep Learning in Satellite Imagery for Agriculture ( http://arxiv.org/abs/2210.01272v2 )

ライセンス: Link先を確認
Brandon Victor, Zhen He, Aiden Nibali(参考訳) 農業研究は、今後数十年で人口増加の要求を満たすために食糧生産の増加に不可欠である。 近年,衛星技術は急速に進歩し,深層学習は汎用的なコンピュータビジョンタスクや,農地の分析を改善する重要な機会となる多くの応用分野において大きな成功を収めている。 本稿では,衛星画像の深層学習を農業研究に活用するための150の研究の体系的なレビューを紹介する。 農業モニタリングタスクの5つのカテゴリを識別するが、研究の関心の大部分は作物のセグメンテーションと収量予測である。 唯一の例外は、Long Short-Term Memory (LSTM) Recurrent Neural Networksは、収率予測のためにRandom Forests (RF)を一貫して上回らなかったことである。 レビューされた研究は、一般的なコンピュータビジョンの方法論を大まかに採用している: ベンチマークデータセットは研究全体にわたってモデルを評価するために利用されておらず、結果を比較するのが困難である。 さらに、いくつかの研究は、衛星画像で利用可能な余分なスペクトル分解能を特に活用しているが、他の異なる空間パターンのスケールのような衛星画像の異なる特性は、レビューされた研究では利用されていない。

Agricultural research is essential for increasing food production to meet the requirements of an increasing population in the coming decades. Recently, satellite technology has been improving rapidly and deep learning has seen much success in generic computer vision tasks and many application areas which presents an important opportunity to improve analysis of agricultural land. Here we present a systematic review of 150 studies to find the current uses of deep learning on satellite imagery for agricultural research. Although we identify 5 categories of agricultural monitoring tasks, the majority of the research interest is in crop segmentation and yield prediction. We found that, when used, modern deep learning methods consistently outperformed traditional machine learning across most tasks; the only exception was that Long Short-Term Memory (LSTM) Recurrent Neural Networks did not consistently outperform Random Forests (RF) for yield prediction. The reviewed studies have largely adopted methodologies from generic computer vision, except for one major omission: benchmark datasets are not utilised to evaluate models across studies, making it difficult to compare results. Additionally, some studies have specifically utilised the extra spectral resolution available in satellite imagery, but other divergent properties of satellite images - such as the hugely different scales of spatial patterns - are not being taken advantage of in the reviewed studies.
翻訳日:2023-12-18 19:58:18 公開日:2023-12-15
# 量子機械学習モデルにおけるオーバーフィットにもかかわらず一般化

Generalization despite overfitting in quantum machine learning models ( http://arxiv.org/abs/2209.05523v2 )

ライセンス: Link先を確認
Evan Peters and Maria Schuld(参考訳) 深層ニューラルネットワークの広範な成功は、古典的機械学習において驚きである。非常に複雑なモデルは、トレーニングデータをオーバーフィットしながら、うまく一般化することが多い。 この良性の過剰フィット現象は、ディープラーニングの背後にあるメカニズムをよりよく理解することを目的として、さまざまな古典モデルで研究されてきた。 量子機械学習の文脈で現象を特徴づけることで、オーバーフィッティング、オーバーパラメトリゼーション、一般化の関係の理解が向上する可能性がある。 本研究では,量子モデルにおける良性過剰適合の特性について述べる。 これを実現するために、古典的補間フーリエの振舞いはノイズ信号の回帰のモデルを示し、量子モデルのクラスがどのように類似した特徴を示すかを示し、量子回路の構造(データエンコーディングや状態準備操作など)を量子モデルの過度なパラメータ化と過度な適合に結びつける。 我々はこれらの特徴を、局所的な「スパイク」な振る舞いとノイズデータを補間する量子モデルの能力に応じて直感的に説明し、良性オーバーフィットの具体例を示す。

The widespread success of deep neural networks has revealed a surprise in classical machine learning: very complex models often generalize well while simultaneously overfitting training data. This phenomenon of benign overfitting has been studied for a variety of classical models with the goal of better understanding the mechanisms behind deep learning. Characterizing the phenomenon in the context of quantum machine learning might similarly improve our understanding of the relationship between overfitting, overparameterization, and generalization. In this work, we provide a characterization of benign overfitting in quantum models. To do this, we derive the behavior of a classical interpolating Fourier features models for regression on noisy signals, and show how a class of quantum models exhibits analogous features, thereby linking the structure of quantum circuits (such as data-encoding and state preparation operations) to overparameterization and overfitting in quantum models. We intuitively explain these features according to the ability of the quantum model to interpolate noisy data with locally "spiky" behavior and provide a concrete demonstration example of benign overfitting.
翻訳日:2023-12-18 19:57:54 公開日:2023-12-15
# 装飾AKLTモデルにおけるスペクトルギャップと基底状態の不明瞭性の安定性

Stability of the spectral gap and ground state indistinguishability for a decorated AKLT model ( http://arxiv.org/abs/2209.01141v3 )

ライセンス: Link先を確認
Angelo Lucia, Alvin Moon and Amanda Young(参考訳) AKLTモデルに対する有限体積基底状態の局所的不明瞭性を確立するためにクラスター展開を用いる。 我々の推定では、モデルは局所的位相量子秩序(LTQO)を満たすため、基底状態上のスペクトルギャップは局所的摂動に対して安定である。

We use cluster expansions to establish local indistiguishability of the finite-volume ground states for the AKLT model on decorated hexagonal lattices with decoration parameter at least 5. Our estimates imply that the model satisfies local topological quantum order (LTQO), and so the spectral gap above the ground state is stable against local perturbations.
翻訳日:2023-12-18 19:57:35 公開日:2023-12-15
# スペクトル視点における視覚変換器の対向ロバスト性探索

Exploring Adversarial Robustness of Vision Transformers in the Spectral Perspective ( http://arxiv.org/abs/2208.09602v2 )

ライセンス: Link先を確認
Gihyun Kim, Juyeop Kim, Jong-Seok Lee(参考訳) Vision Transformerは画像分類タスクの強力なツールとして登場し、畳み込みニューラルネットワーク(CNN)のパフォーマンスを上回っている。 近年,多くの研究者が反逆攻撃に対するトランスフォーマーの堅牢性を理解しようと試みている。 しかし、これまでの研究は空間領域の摂動にのみ焦点をあててきた。 本稿では,スペクトル領域における周波数選択摂動に対する変圧器の逆ロバスト性について検討する。 これら2つの領域の比較を容易にするために、空間領域とスペクトル領域における画像に対する攻撃を実装する柔軟なツールとして、攻撃フレームワークを定式化する。 実験の結果、トランスフォーマーは位相情報や低周波情報に依存しており、cnnよりも周波数選択攻撃に弱いことが判明した。 この研究はトランスフォーマーの特性と敵の堅牢性に関する新たな洞察を提供する。

The Vision Transformer has emerged as a powerful tool for image classification tasks, surpassing the performance of convolutional neural networks (CNNs). Recently, many researchers have attempted to understand the robustness of Transformers against adversarial attacks. However, previous researches have focused solely on perturbations in the spatial domain. This paper proposes an additional perspective that explores the adversarial robustness of Transformers against frequency-selective perturbations in the spectral domain. To facilitate comparison between these two domains, an attack framework is formulated as a flexible tool for implementing attacks on images in the spatial and spectral domains. The experiments reveal that Transformers rely more on phase and low frequency information, which can render them more vulnerable to frequency-selective attacks than CNNs. This work offers new insights into the properties and adversarial robustness of Transformers.
翻訳日:2023-12-18 19:57:09 公開日:2023-12-15
# 経路依存型ニューラルジャンプによるジェネリックダイナミクスの最適推定

Optimal Estimation of Generic Dynamics by Path-Dependent Neural Jump ODEs ( http://arxiv.org/abs/2206.14284v5 )

ライセンス: Link先を確認
Florian Krach, Marc N\"ubel, Josef Teichmann(参考訳) 本稿では,ニューラルジャンプODE(NJ-ODE)フレームワークの経路依存拡張を用いた一般確率過程の予測問題について検討する。 NJ-ODEは、不規則に観測された時系列の予測のための収束保証を確立する最初のフレームワークであったが、これらの結果は完全な観測、特にすべての座標を同時に観測するマルコフ過程から得られたデータに限られていた。 本研究では、シグネチャ変換の再構成特性を利用して、これらの結果を非マルコフ的あるいは不連続な確率的過程と不完全な観察に一般化する。 これらの理論結果は経験的研究によって支持され、パス依存NJ-ODEは非マルコフデータの場合、元のNJ-ODEフレームワークより優れていることが示されている。 さらに、PD-NJ-ODEは古典的確率的フィルタリング問題や順序帳(LOB)データにうまく適用可能であることを示す。

This paper studies the problem of forecasting general stochastic processes using a path-dependent extension of the Neural Jump ODE (NJ-ODE) framework \citep{herrera2021neural}. While NJ-ODE was the first framework to establish convergence guarantees for the prediction of irregularly observed time series, these results were limited to data stemming from It\^o-diffusions with complete observations, in particular Markov processes, where all coordinates are observed simultaneously. In this work, we generalise these results to generic, possibly non-Markovian or discontinuous, stochastic processes with incomplete observations, by utilising the reconstruction properties of the signature transform. These theoretical results are supported by empirical studies, where it is shown that the path-dependent NJ-ODE outperforms the original NJ-ODE framework in the case of non-Markovian data. Moreover, we show that PD-NJ-ODE can be applied successfully to classical stochastic filtering problems and to limit order book (LOB) data.
翻訳日:2023-12-18 19:56:55 公開日:2023-12-15
# 薬物・標的相互作用予測のための連想学習機構

Associative Learning Mechanism for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2205.15364v5 )

ライセンス: Link先を確認
Zhiqin Zhu, Zheng Yao, Guanqiu Qi, Neal Mazur, Baisen Cong(参考訳) 薬物開発に必要なプロセスとして、特定のタンパク質に選択的に結合できる化合物を見つけることは極めて困難で費用がかかる。 薬物標的親和性(DTA)は、薬物標的相互作用(DTI)の強さを表すものであり、過去10年間のDTI予測課題において重要な役割を果たしてきた。 深層学習はdta関連研究に応用されているが、既存の解は薬物化合物分子/タンパク質標的の分子表現学習における分子サブ構造間の基本的な相関を無視している。 さらに、従来の手法はDTA予測プロセスの解釈可能性に欠けていた。 これにより分子間相互作用の特徴情報が失われ、予測性能に影響を及ぼす。 そこで本稿では,対話型学習とオートエンコーダによるdta予測手法を提案する。 提案モデルは、薬物/タンパク質分子表現学習モジュールによって単一の分子配列の特徴情報をキャプチャする能力を高め、対話型情報学習モジュールによる分子配列対間の情報相互作用を補完する。 DTA値予測モジュールは、薬物対相互作用情報を融合してDTAの予測値を出力する。 また,提案手法は,実値と予測値との確率分布の一貫性を高めるため,dta予測モデルの合同分布におけるエビデンス下限値(elbo)を最大化することが理論的に証明されている。 その結果, MT-DTAは, 他の比較法よりも優れた性能を示すことがわかった。

As a necessary process in drug development, finding a drug compound that can selectively bind to a specific protein is highly challenging and costly. Drug-target affinity (DTA), which represents the strength of drug-target interaction (DTI), has played an important role in the DTI prediction task over the past decade. Although deep learning has been applied to DTA-related research, existing solutions ignore fundamental correlations between molecular substructures in molecular representation learning of drug compound molecules/protein targets. Moreover, traditional methods lack the interpretability of the DTA prediction process. This results in missing feature information of intermolecular interactions, thereby affecting prediction performance. Therefore, this paper proposes a DTA prediction method with interactive learning and an autoencoder mechanism. The proposed model enhances the corresponding ability to capture the feature information of a single molecular sequence by the drug/protein molecular representation learning module and supplements the information interaction between molecular sequence pairs by the interactive information learning module. The DTA value prediction module fuses the drug-target pair interaction information to output the predicted value of DTA. Additionally, this paper theoretically proves that the proposed method maximizes evidence lower bound (ELBO) for the joint distribution of the DTA prediction model, which enhances the consistency of the probability distribution between the actual value and the predicted value. The experimental results confirm mutual transformer-drug target affinity (MT-DTA) achieves better performance than other comparative methods.
翻訳日:2023-12-18 19:56:38 公開日:2023-12-15
# 内視鏡用バイモーダルカメラポース予測

Bimodal Camera Pose Prediction for Endoscopy ( http://arxiv.org/abs/2204.04968v2 )

ライセンス: Link先を確認
Anita Rau, Binod Bhattarai, Lourdes Agapito, Danail Stoyanov(参考訳) 内視鏡的シーンの3次元構造を画像から再現することは極めて困難である。 変形と視野依存の照明に加えて、結腸のような管状構造は、その自閉と繰り返し解剖学的構造に起因する問題が存在する。 本稿では,大腸内視鏡におけるカメラポーズ推定のための合成データセットであるSimColと,内視鏡ポーズ予測のためのバイモーダル分布を明示的に学習する手法を提案する。 我々のデータセットは実際の大腸内視鏡の動きを再現し、既存の方法の欠点を強調します。 シミュレーション大腸内視鏡による18kのRGB画像とそれに対応する深度とカメラのポーズを公開し,Unityのデータ生成環境を一般公開した。 異なるカメラポーズ予測法を評価し,データに基づいてトレーニングすると実際の大腸内視鏡像に一般化し,このバイモーダルアプローチが先行するユニモーダル作業よりも優れていることを示す。

Deducing the 3D structure of endoscopic scenes from images is exceedingly challenging. In addition to deformation and view-dependent lighting, tubular structures like the colon present problems stemming from their self-occluding and repetitive anatomical structure. In this paper, we propose SimCol, a synthetic dataset for camera pose estimation in colonoscopy, and a novel method that explicitly learns a bimodal distribution to predict the endoscope pose. Our dataset replicates real colonoscope motion and highlights the drawbacks of existing methods. We publish 18k RGB images from simulated colonoscopy with corresponding depth and camera poses and make our data generation environment in Unity publicly available. We evaluate different camera pose prediction methods and demonstrate that, when trained on our data, they generalize to real colonoscopy sequences, and our bimodal approach outperforms prior unimodal work.
翻訳日:2023-12-18 19:56:14 公開日:2023-12-15
# クエリ拡張型検索システムにおける意味関係の影響評価

Evaluation of semantic relations impact in query expansion-based retrieval systems ( http://arxiv.org/abs/2203.16230v4 )

ライセンス: Link先を確認
Lorenzo Massai(参考訳) 異なるコンテキスト(例えば移動中のユーザ)で動作可能なインテリジェントシステムの需要が高まる中、このようなシステムによって要求されるユーザニーズの正しい解釈は、ユーザの質問に対して一貫した回答を与えるために重要になっている。 そのようなタスクに対処する最も効果的なアプリケーションは、自然言語処理と用語の意味拡張の分野である。 これらの手法は、入力クエリを意図として再構成する目標を推定することを目的としており、一般的には \emph{synonymy} や \emph{antonymy} など、さまざまな意味関係を利用したテキストリソースに依存している。 本研究の目的は,ある分類学のラベルを情報源として,そのような資源を生成することである。 得られたリソースは、各意味関係が分類に与える影響を定量化するために、入力クエリの集合を意図として再構成し、各関係の効果を追跡するプレーン分類器に統合される。 この拡張として、このような関係を組み合わせる際の改善とノイズ導入の最良のトレードオフを評価する。 評価は、リソースとその組み合わせを生成し、ユーザ質問をラベルとして再構成するために使用される分類器のチューニングに使用する。 この評価は、多種多様な分類をユースケースとして採用し、そのラベルを意味的拡張の基礎として活用し、擬似クエリー推定を強化するために複数のコーパスを生産する。

With the increasing demand of intelligent systems capable of operating in different contexts (e.g. users on the move) the correct interpretation of the user-need by such systems has become crucial to give consistent answers to the user questions. The most effective applications addressing such task are in the fields of natural language processing and semantic expansion of terms. These techniques are aimed at estimating the goal of an input query reformulating it as an intent, commonly relying on textual resources built exploiting different semantic relations like \emph{synonymy}, \emph{antonymy} and many others. The aim of this paper is to generate such resources using the labels of a given taxonomy as source of information. The obtained resources are integrated into a plain classifier for reformulating a set of input queries as intents and tracking the effect of each relation, in order to quantify the impact of each semantic relation on the classification. As an extension to this, the best tradeoff between improvement and noise introduction when combining such relations is evaluated. The assessment is made generating the resources and their combinations and using them for tuning the classifier which is used to reformulate the user questions as labels. The evaluation employs a wide and varied taxonomy as a use-case, exploiting its labels as basis for the semantic expansion and producing several corpora with the purpose of enhancing the pseudo-queries estimation.
翻訳日:2023-12-18 19:56:02 公開日:2023-12-15
# 最適なデータ選択:オンライン分散ビュー

Optimal Data Selection: An Online Distributed View ( http://arxiv.org/abs/2201.10547v3 )

ライセンス: Link先を確認
Mariel Werner, Anastasios Angelopoulos, Stephen Bates, Michael I. Jordan(参考訳) ユビキタスなデータの祝福は、巨大な、ほとんど冗長なデータセットの通信、ストレージ、ラベリングという呪いも伴います。 我々は、その核心でこの問題を解決し、価値あるデータのみを収集し、サブモジュラーの最大化を通じて残りを破棄することを目指している。 具体的には,複数のデータストリームにまたがる非コーディネートな方法でデータ選択を行う,オンラインおよび分散バージョンのアルゴリズムを開発した。 我々は,任意のデータストリーム,その値の評価,選択コストの定式化を前提として,最小限のメモリを用いて,ストリームの最も価値の高いサブセットを一定要素まで抽出する,汎用的で柔軟なコア選択ルーチンを設計する。 特に,本手法はオフライン手法と同じ理論的保証を有しており,我々の知る限り,文献におけるオンライン分散サブモジュール最適化の最初の保証を提供する。 最後に、ImageNetとMNISTの学習タスクにおいて、ランダム選択法が5-20\%$より優れていることを示す。

The blessing of ubiquitous data also comes with a curse: the communication, storage, and labeling of massive, mostly redundant datasets. We seek to solve this problem at its core, collecting only valuable data and throwing out the rest via submodular maximization. Specifically, we develop algorithms for the online and distributed version of the problem, where data selection occurs in an uncoordinated fashion across multiple data streams. We design a general and flexible core selection routine for our algorithms which, given any stream of data, any assessment of its value, and any formulation of its selection cost, extracts the most valuable subset of the stream up to a constant factor while using minimal memory. Notably, our methods have the same theoretical guarantees as their offline counterparts, and, as far as we know, provide the first guarantees for online distributed submodular optimization in the literature. Finally, in learning tasks on ImageNet and MNIST, we show that our selection methods outperform random selection by $5-20\%$.
翻訳日:2023-12-18 19:55:37 公開日:2023-12-15
# 教師のいないプライバシ保全連系蒸留における選択的知識共有

Selective Knowledge Sharing for Privacy-Preserving Federated Distillation without A Good Teacher ( http://arxiv.org/abs/2304.01731v4 )

ライセンス: Link先を確認
Jiawei Shao, Fangzhao Wu, Jun Zhang(参考訳) フェデレーション学習は、ローカルデータを公開せずに、プライバシー保護による協調学習を約束する一方で、ホワイトボックス攻撃に弱いままであり、異種クライアントへの適応に苦慮している。 fd(federated distillation)は、教師モデルから生徒モデルへ知識を移す効果的な技術であり、プライバシー保証を強化し、モデルの不均一性に対処するためのパラダイムである。 それでも、ローカルなデータ分布の変化と、よく訓練された教師モデルの欠如によって生じる課題は、モデル性能を著しく低下させる誤解を招きあい、曖昧な知識共有につながる。 この問題に対処するため,本稿では,fdのための選択的知識共有機構を提案する。 クライアント側セレクタとサーバ側セレクタを含み、それぞれローカルとアンサンブルの予測から知識を正確かつ正確に識別する。 理論的洞察に裏付けられた実証研究は、このアプローチがfdフレームワークの一般化能力を高め、ベースラインメソッドを一貫して上回っていることを証明している。

While federated learning is promising for privacy-preserving collaborative learning without revealing local data, it remains vulnerable to white-box attacks and struggles to adapt to heterogeneous clients. Federated distillation (FD), built upon knowledge distillation--an effective technique for transferring knowledge from a teacher model to student models--emerges as an alternative paradigm, which provides enhanced privacy guarantees and addresses model heterogeneity. Nevertheless, challenges arise due to variations in local data distributions and the absence of a well-trained teacher model, which leads to misleading and ambiguous knowledge sharing that significantly degrades model performance. To address these issues, this paper proposes a selective knowledge sharing mechanism for FD, termed Selective-FD. It includes client-side selectors and a server-side selector to accurately and precisely identify knowledge from local and ensemble predictions, respectively. Empirical studies, backed by theoretical insights, demonstrate that our approach enhances the generalization capabilities of the FD framework and consistently outperforms baseline methods.
翻訳日:2023-12-18 19:48:10 公開日:2023-12-15
# 双対型自己増分・補充によるオンライン授業増分継続学習

Non-Exemplar Online Class-incremental Continual Learning via Dual-prototype Self-augment and Refinement ( http://arxiv.org/abs/2303.10891v3 )

ライセンス: Link先を確認
Fushuo Huo, Wenchao Xu, Jingcai Guo, Haozhao Wang, and Yunfeng Fan, Song Guo(参考訳) 本稿では、データ例をバッファリングすることなく、ベースクラスの識別性を保ち、シングルパス(オンライン)データストリームで新しいクラスを継続的に学習することを目的とした、新しい、実用的な、しかし難しい問題であるNon-Exemplar Online Class-incremental Continual Learning(NO-CL)について検討する。 1) 基礎クラスと新規クラスの両方が, 過去のサンプルがリプレイに利用できないため, 致命的な放棄に苦しむこと, の2つが課題である。 2) オンラインデータは一度しか観測できないため,プロトタイプアライメントや特徴蒸留による決定境界の再校正など,モデル全体を完全に再訓練する手段はない。 本稿では,NO-CL問題に対するDSR(Dual-prototype Self-augment and Refinement Method)を提案する。 1)2種類のプロトタイプ:バニラと高次元のプロトタイプを用いて事前学習した情報を利用して、プライバシー保護とメモリ削減の両方のためのバッファではなく、頑健な準直交表現を得る。 2) 自己提供と洗練: ネットワーク全体を更新するのではなく, 自己提供型バニラプロトタイプに基づく余分なプロジェクションモジュールを用いて, 二段階最適化問題により高次元プロトタイプを最適化する。 広範な実験により,提案するdsrの有効性と優位性が実証された。

This paper investigates a new, practical, but challenging problem named Non-exemplar Online Class-incremental continual Learning (NO-CL), which aims to preserve the discernibility of base classes without buffering data examples and efficiently learn novel classes continuously in a single-pass (i.e., online) data stream. The challenges of this task are mainly two-fold: (1) Both base and novel classes suffer from severe catastrophic forgetting as no previous samples are available for replay. (2) As the online data can only be observed once, there is no way to fully re-train the whole model, e.g., re-calibrate the decision boundaries via prototype alignment or feature distillation. In this paper, we propose a novel Dual-prototype Self-augment and Refinement method (DSR) for NO-CL problem, which consists of two strategies: 1) Dual class prototypes: vanilla and high-dimensional prototypes are exploited to utilize the pre-trained information and obtain robust quasi-orthogonal representations rather than example buffers for both privacy preservation and memory reduction. 2) Self-augment and refinement: Instead of updating the whole network, we optimize high-dimensional prototypes alternatively with the extra projection module based on self-augment vanilla prototypes, through a bi-level optimization problem. Extensive experiments demonstrate the effectiveness and superiority of the proposed DSR in NO-CL.
翻訳日:2023-12-18 19:47:51 公開日:2023-12-15
# 大規模逆問題加速のための分解拡散サンプラー

Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse Problems ( http://arxiv.org/abs/2303.05754v2 )

ライセンス: Link先を確認
Hyungjin Chung, Suhyeon Lee, Jong Chul Ye(参考訳) 与えられたベクトルを線型変換とその連続するパワーの行列で乗じて生成されるクリロフ部分空間は、古典的最適化文学において、大きな線形逆問題に対して素早く収束するアルゴリズムを設計するために広く研究されてきた。 例えば、最も人気のあるクリロフ部分空間法の一つである共役勾配法(CG)は、クリロフ部分空間の残差誤差を最小化するという考え方に基づいている。 しかし、近年の逆問題に対する高性能拡散解法の発展により、古典的知恵が現代拡散モデルと相乗的に組み合わせられるかは明らかでない。 本研究では,拡散サンプリング法とクリロフ部分空間法を組み合わせた新しい効率的な拡散サンプリング戦略を提案する。 具体的には、tweedie の公式による有界サンプルの接空間が krylov 部分空間を形成するならば、有界データで初期化された cg は、接空間にデータ一貫性の更新が残ることを保証する。 これにより、多様体制約勾配(MCG)を計算する必要がなくなり、より効率的な拡散サンプリング法が導かれる。 我々の方法は、パラメトリゼーションとセッティング(VE、VP)に関係なく適用可能である。 特に,マルチコイルMRI再構成や3次元CT再構成など,現実の医用逆画像の課題に対して,最先端の再現性を実現する。 さらに,提案手法は従来の最先端手法よりも80倍以上高速な推論時間を実現する。

Krylov subspace, which is generated by multiplying a given vector by the matrix of a linear transformation and its successive powers, has been extensively studied in classical optimization literature to design algorithms that converge quickly for large linear inverse problems. For example, the conjugate gradient method (CG), one of the most popular Krylov subspace methods, is based on the idea of minimizing the residual error in the Krylov subspace. However, with the recent advancement of high-performance diffusion solvers for inverse problems, it is not clear how classical wisdom can be synergistically combined with modern diffusion models. In this study, we propose a novel and efficient diffusion sampling strategy that synergistically combine the diffusion sampling and Krylov subspace methods. Specifically, we prove that if the tangent space at a denoised sample by Tweedie's formula forms a Krylov subspace, then the CG initialized with the denoised data ensures the data consistency update to remain in the tangent space. This negates the need to compute the manifold-constrained gradient (MCG), leading to a more efficient diffusion sampling method. Our method is applicable regardless of the parametrization and setting (i.e., VE, VP). Notably, we achieve state-of-the-art reconstruction quality on challenging real-world medical inverse imaging problems, including multi-coil MRI reconstruction and 3D CT reconstruction. Moreover, our proposed method achieves more than 80 times faster inference time than the previous state-of-the-art method.
翻訳日:2023-12-18 19:47:24 公開日:2023-12-15
# マスキングビジュアルトークンモデリングとしてのビジュアルプロンプト学習の再考

Rethinking Visual Prompt Learning as Masked Visual Token Modeling ( http://arxiv.org/abs/2303.04998v2 )

ライセンス: Link先を確認
Ning Liao, Bowen Shi, Xiaopeng Zhang, Min Cao, Junchi Yan, Qi Tian(参考訳) プロンプト学習は、自然言語処理(NLP)における大規模事前学習モデルを効率的に活用することに成功した。 下流タスクを生成前トレーニングタスクとして再構成し、一貫性を実現し、パフォーマンスを安定的に向上させる。 しかし、視覚領域に移す場合、現在の視覚プロンプト学習法は、ほぼ判別的事前学習モデルに基づいて設計されるが、事前訓練と下流タスクの形式を統合するための注意深い設計が欠如している。 生成前訓練された視覚モデルに対する迅速な学習とタスクの整合性を維持するため、我々は、下流の視覚分類を事前訓練された視覚トークン予測に変換するために、マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案する。 さらに,予測された視覚トークンを暗黙のセマンティクスにマッピングし,明示的な下流ラベルにマッピングする原型的動詞化器を開発した。 我々の知る限り、VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト手法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。 実験により、VPTMは他の視覚的プロンプト法よりも優れ、優れた効率を達成することが示された。 さらに、VPTMのタスク一貫性は、迅速な位置、迅速な長さ、プロトタイプ次元に対する堅牢性に寄与し、均一にデプロイできる。

Prompt learning has achieved great success in efficiently exploiting large-scale pre-trained models in natural language processing (NLP). It reformulates the downstream tasks as the generative pre-training ones to achieve consistency, thus improving the performance stably. However, when transferring it to the vision area, current visual prompt learning methods are almost designed on discriminative pre-trained models, and there is also a lack of careful design to unify the forms of pre-training and downstream tasks. To explore prompt learning on the generative pre-trained visual model, as well as keeping the task consistency, we propose Visual Prompt learning as masked visual Token Modeling (VPTM) to transform the downstream visual classification into the pre-trained masked visual token prediction. In addition, we develop the prototypical verbalizer for mapping the predicted visual token with implicit semantics to explicit downstream labels. To our best knowledge, VPTM is the first visual prompt method on the generative pre-trained visual model, which achieves consistency between pre-training and downstream visual classification by task reformulation. Experiments show that VPTM outperforms other visual prompt methods and achieves excellent efficiency. Moreover, the task consistency of VPTM contributes to the robustness against prompt location, prompt length and prototype dimension, and could be deployed uniformly.
翻訳日:2023-12-18 19:46:58 公開日:2023-12-15
# 小型フットプリント話者検証のためのマルチレベルXベクトル知識の蒸留

Distilling Multi-Level X-vector Knowledge for Small-footprint Speaker Verification ( http://arxiv.org/abs/2303.01125v2 )

ライセンス: Link先を確認
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) 深い話者モデルは話者検証タスクにおいて印象的な精度を示したが、これはしばしばモデルサイズと計算時間の増加を犠牲にし、リソース制約のある環境でのデプロイメントの課題を提示している。 本研究は, 知識蒸留を用いたフットプリント深層話者埋込み抽出の開発を通じて, この限界に対処することに焦点を当てる。 この領域でのこれまでの研究は発話レベルでの話者埋め込み抽出に集中しているが、このアプローチでは、x-vectorモデル(教師ネットワーク)の異なるレベルからの埋め込みを融合して、コンパクトな学生ネットワークを訓練する。 その結果, 学生モデルは, 教師の埋め込みの大きさによって85%~91%の顕著な縮小率を示し, フレームレベルの情報の重要性が強調された。 特に,教師の埋め込みを連結することにより,教師と同等の性能を維持しながら,モデルサイズを75%削減した学生ネットワークを実現する。 これらの発見と洞察は他のx-ベクター変種にまで拡張され、我々のアプローチの幅広い適用性を示している。

Even though deep speaker models have demonstrated impressive accuracy in speaker verification tasks, this often comes at the expense of increased model size and computation time, presenting challenges for deployment in resource-constrained environments. Our research focuses on addressing this limitation through the development of small footprint deep speaker embedding extraction using knowledge distillation. While previous work in this domain has concentrated on speaker embedding extraction at the utterance level, our approach involves amalgamating embeddings from different levels of the x-vector model (teacher network) to train a compact student network. The results highlight the significance of frame-level information, with the student models exhibiting a remarkable size reduction of 85%-91% compared to their teacher counterparts, depending on the size of the teacher embeddings. Notably, by concatenating teacher embeddings, we achieve student networks that maintain comparable performance to the teacher while enjoying a substantial 75% reduction in model size. These findings and insights extend to other x-vector variants, underscoring the broad applicability of our approach.
翻訳日:2023-12-18 19:46:32 公開日:2023-12-15
# Longformer: Longitudinal Transformer : 構造MRIによるアルツハイマー病分類

Longformer: Longitudinal Transformer for Alzheimer's Disease Classification with Structural MRIs ( http://arxiv.org/abs/2302.00901v4 )

ライセンス: Link先を確認
Qiuhui Chen, Yi Hong(参考訳) 構造核磁気共鳴画像(sMRI)は脳神経疾患の診断に広く用いられているが、アルツハイマー病(AD)の診断に使用されるように、経時的MRIは疾患の進行をモニターし、捉えるためにしばしば収集される。 しかし、現在のほとんどの手法はADの進歩的な性質を無視し、ADを認識するには単一のsMRIしか必要としない。 本稿では,被検体の縦方向MRIをAD識別に活用することの問題点について考察する。 本研究では,SMRIの経時的変化を捉えた新しいモデルLongformerを提案する。このネットワークは,各時点において,SMRI上で空間的に注意機構を実行し,時間とともに脳領域の特徴を統合して,分類のための経時的埋め込みを得る。 我々のLongformerはADNIデータセットを用いてADの異なるステージを分離する2つのバイナリ分類タスクで最先端のパフォーマンスを実現する。 ソースコードはhttps://github.com/qybc/longformerで入手できます。

Structural magnetic resonance imaging (sMRI) is widely used for brain neurological disease diagnosis; while longitudinal MRIs are often collected to monitor and capture disease progression, as clinically used in diagnosing Alzheimer's disease (AD). However, most current methods neglect AD's progressive nature and only take a single sMRI for recognizing AD. In this paper, we consider the problem of leveraging the longitudinal MRIs of a subject for AD identification. To capture longitudinal changes in sMRIs, we propose a novel model Longformer, a spatiotemporal transformer network that performs attention mechanisms spatially on sMRIs at each time point and integrates brain region features over time to obtain longitudinal embeddings for classification. Our Longformer achieves state-of-the-art performance on two binary classification tasks of separating different stages of AD using the ADNI dataset. Our source code is available at https://github.com/Qybc/LongFormer.
翻訳日:2023-12-18 19:46:15 公開日:2023-12-15
# 半教師ノード分類のための非教師なし近傍伝搬カーネル層

Unsupervised Neighborhood Propagation Kernel Layers for Semi-supervised Node Classification ( http://arxiv.org/abs/2301.13764v3 )

ライセンス: Link先を確認
Sonny Achten, Francesco Tonin, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) グラフにおける半教師付きノード分類のためのディープグラフ畳み込みカーネルマシン(GCKM)を提案する。 この方法は2種類のブロックで構成されている。 i) 暗黙的なノード特徴マッピングを用いて, ワンホップ近傍のノード特徴を伝搬するカーネルマシン層を導入する。 (II)Fenchel-Young不等式のレンズを通して半教師付き分類カーネルマシンを指定する。 アーキテクチャ全体の双対変数における効果的な初期化スキームと効率的なエンドツーエンドトレーニングアルゴリズムを導出する。 GCKMの根底にある基本的な考え方は、教師なしコアのため、最終モデルはトレーニング用にラベルが少ない場合、半教師付きノード分類においてより高いパフォーマンスを達成することができるということである。 実験の結果,提案手法の有効性が示された。

We present a deep Graph Convolutional Kernel Machine (GCKM) for semi-supervised node classification in graphs. The method is built of two main types of blocks: (i) We introduce unsupervised kernel machine layers propagating the node features in a one-hop neighborhood, using implicit node feature mappings. (ii) We specify a semi-supervised classification kernel machine through the lens of the Fenchel-Young inequality. We derive an effective initialization scheme and efficient end-to-end training algorithm in the dual variables for the full architecture. The main idea underlying GCKM is that, because of the unsupervised core, the final model can achieve higher performance in semi-supervised node classification when few labels are available for training. Experimental results demonstrate the effectiveness of the proposed framework.
翻訳日:2023-12-18 19:45:56 公開日:2023-12-15
# 超スペクトル画像の深部多様性強調特徴表現

Deep Diversity-Enhanced Feature Representation of Hyperspectral Images ( http://arxiv.org/abs/2301.06132v2 )

ライセンス: Link先を確認
Jinhui Hou, Zhiyu Zhu, Junhui Hou, Hui Liu, Huanqiang Zeng, and Deyu Meng(参考訳) 本稿では,超スペクトル(hs)画像の高次元空間スペクトル情報を特徴的多様性に導かれる効率的かつ効果的に埋め込む問題について検討する。 具体的には、機能多様性が展開されたカーネル行列のランクと相関する理論的な定式化に基づいて、そのトポロジを変更して3次元の畳み込みを修正し、上位バウンドを強化する。 この修正により、階数付き空間スペクトル対称畳み込み集合(ReS$^3$-ConvSet)が得られ、多彩で強力な特徴表現を学習するだけでなく、ネットワークパラメータも節約する。 さらに,要素間の独立性を最大化するために,機能マップに直接作用する新しい多様性認識正規化(da-reg)用語を提案する。 提案したReS$^3$-ConvSet と DA-Reg の優位性を実証するために,様々な HS 画像処理および解析タスクに適用する。 大規模実験により,提案手法は定量的にも定性的にも高い性能を示した。 コードはhttps://github.com/jinnh/ReSSS-ConvSetで公開されている。

In this paper, we study the problem of efficiently and effectively embedding the high-dimensional spatio-spectral information of hyperspectral (HS) images, guided by feature diversity. Specifically, based on the theoretical formulation that feature diversity is correlated with the rank of the unfolded kernel matrix, we rectify 3D convolution by modifying its topology to enhance the rank upper-bound. This modification yields a rank-enhanced spatial-spectral symmetrical convolution set (ReS$^3$-ConvSet), which not only learns diverse and powerful feature representations but also saves network parameters. Additionally, we also propose a novel diversity-aware regularization (DA-Reg) term that directly acts on the feature maps to maximize independence among elements. To demonstrate the superiority of the proposed ReS$^3$-ConvSet and DA-Reg, we apply them to various HS image processing and analysis tasks, including denoising, spatial super-resolution, and classification. Extensive experiments show that the proposed approaches outperform state-of-the-art methods both quantitatively and qualitatively to a significant extent. The code is publicly available at https://github.com/jinnh/ReSSS-ConvSet.
翻訳日:2023-12-18 19:45:39 公開日:2023-12-15
# キラル状態間のトンネル存在下でのキラル混合物の光励起エナンチオ変換

Optical-pumping enantio-conversion of chiral mixtures in presence of tunneling between chiral states ( http://arxiv.org/abs/2301.06005v2 )

ライセンス: Link先を確認
Fen Zou, Chong Ye, Yong Li(参考訳) キラル混合物のエナンチオ変換は、左右のキラル分子からなる混合物をホモキラルアンサンブルに変換し、化学および生物分野において重要な研究テーマとなっている。 これまでのエナンチオ変換の研究では、左右のキラル状態間のトンネル相互作用は無視されることが多かった。 しかし、特定のキラル分子では、このトンネル相互作用は重要であり無視できない。 本稿では、2つのキラル基底状態と2つのアキラル励起状態からなるキラル分子の4レベルモデルに基づく光ポンピングによるキラル混合物のエナンチオ変換手法を提案する。 1光子大きなデチューンと2光子共鳴条件下では、アキラル励起状態の1つが断続的に消滅する。 2つのキラル状態間のトンネル相互作用と1つのキラル状態と残りのアキラル励起状態との相互作用は、電磁場の変形と結合の強度を良く設計することにより、除去することができる。 したがって、1つのキラル状態は変化せず、もう1つのキラル状態はアキラル励起状態に励起され、キラル状態選択励起が確立される。 2つのキラル基底状態とエナンチオマー過剰の集団を数値的に計算することにより, 系散逸とキラル状態選択励起の併用効果により高効率なエナンチオ変換が達成されることを確認した。

Enantio-conversion of chiral mixtures, converting the mixtures composed of left- and right-handed chiral molecules into the homochiral ensembles, has become an important research topic in chemical and biological fields. In previous studies on enantio-conversion, the tunneling interaction between the left- and right-handed chiral states was often neglected. However, for certain chiral molecules, this tunneling interaction is significant and cannot be ignored. Here we propose a scheme for enantio-conversion of chiral mixtures through optical pumping based on a four-level model of chiral molecules, comprising two chiral ground states and two achiral excited states, with a tunneling interaction between the chiral states. Under one-photon large detuning and two-photon resonance conditions, one of the achiral excited states is eliminated adiabatically. By well designing the detuning and coupling strengths of the electromagnetic fields, the tunneling interaction between two chiral states and the interaction between one of the chiral states and the remaining achiral excited state can be eliminated. Consequently, one chiral state remains unchanged, while the other can be excited to an achiral excited state, establishing chiral-state-selective excitations. By numerically calculating the populations of two chiral ground states and the enantiomeric excess, we observe that high-efficiency enantio-conversion is achieved under the combined effects of system dissipation and chiral-state-selective excitations.
翻訳日:2023-12-18 19:45:16 公開日:2023-12-15
# CT再構成のための収束データ駆動正規化法

Convergent Data-driven Regularizations for CT Reconstruction ( http://arxiv.org/abs/2212.07786v2 )

ライセンス: Link先を確認
Samira Kabri, Alexander Auras, Danilo Riccio, Hartmut Bauermeister, Martin Benning, Michael Moeller, Martin Burger(参考訳) 対応する雑音ラドン変換からの画像の再構成は、CT(Computerized tomography)の適用により生じる不測の線形逆問題(英語版)の典型的な例である。 この(ナイーブな)解は連続的に測定されたデータに依存しないため、連続的な依存を再確立するには正規化が必要である。 本研究では,データから線形正則化法を学習する上で,単純だが証明可能なアプローチについて検討する。 より具体的には、以前の研究の拡張において線形作用素の特異値を操作する方法を学ぶ1つの一般線型正則化と、CT再構成に特有のフーリエ領域における1つの調整されたアプローチを解析する。 このような手法が収束正則化手法となること、およびそれらが提供する再構成が訓練されたトレーニングデータよりも典型的にスムーズであることを証明する。 最後に,CT再構成におけるスペクトルとフーリエ法を数値的に比較し,その利点と欠点を考察し,異なる解像度での離散化誤差の影響について検討する。

The reconstruction of images from their corresponding noisy Radon transform is a typical example of an ill-posed linear inverse problem as arising in the application of computerized tomography (CT). As the (naive) solution does not depend on the measured data continuously, regularization is needed to re-establish a continuous dependence. In this work, we investigate simple, but yet still provably convergent approaches to learning linear regularization methods from data. More specifically, we analyze two approaches: One generic linear regularization that learns how to manipulate the singular values of the linear operator in an extension of our previous work, and one tailored approach in the Fourier domain that is specific to CT-reconstruction. We prove that such approaches become convergent regularization methods as well as the fact that the reconstructions they provide are typically much smoother than the training data they were trained on. Finally, we compare the spectral as well as the Fourier-based approaches for CT-reconstruction numerically, discuss their advantages and disadvantages and investigate the effect of discretization errors at different resolutions.
翻訳日:2023-12-18 19:44:33 公開日:2023-12-15
# PulseImpute:Pulsative Physiological Signal Imputationのための新しいベンチマークタスク

PulseImpute: A Novel Benchmark Task for Pulsative Physiological Signal Imputation ( http://arxiv.org/abs/2212.07514v2 )

ライセンス: Link先を確認
Maxwell A. Xu, Alexander Moreno, Supriya Nagesh, V. Burak Aydemir, David W. Wetter, Santosh Kumar, James M. Rehg(参考訳) モバイルヘルス(mhealth)の約束は、ウェアラブルセンサーを使用して、日常生活中に高頻度で参加者の生理状態をモニターし、一時的な健康介入を可能にすることだ。 しかし、大きな課題は頻繁に欠落するデータである。 豊富なインプテーション文献にもかかわらず、既存の技術は多くのmhealthアプリケーションからなる脈動信号に効果がなく、利用可能なデータセットの欠如は進歩を阻害している。 このギャップに対処するPulseImputeは、現実的なmHealth欠失モデル、幅広いベースラインセット、臨床関連下流タスクを含む、最初の大規模パルス信号計算チャレンジである。 我々のベースラインモデルには、脈動信号の構造を利用するために設計された新しいトランスベースアーキテクチャが含まれています。 PulseImputeによって、MLコミュニティがこの重要かつ困難なタスクに取り組むことができることを期待しています。

The promise of Mobile Health (mHealth) is the ability to use wearable sensors to monitor participant physiology at high frequencies during daily life to enable temporally-precise health interventions. However, a major challenge is frequent missing data. Despite a rich imputation literature, existing techniques are ineffective for the pulsative signals which comprise many mHealth applications, and a lack of available datasets has stymied progress. We address this gap with PulseImpute, the first large-scale pulsative signal imputation challenge which includes realistic mHealth missingness models, an extensive set of baselines, and clinically-relevant downstream tasks. Our baseline models include a novel transformer-based architecture designed to exploit the structure of pulsative signals. We hope that PulseImpute will enable the ML community to tackle this significant and challenging task.
翻訳日:2023-12-18 19:44:15 公開日:2023-12-15
# ProCC: オープンワールド構成ゼロショット学習のためのプログレッシブ・クロスプライミティブ・コンパチビリティ

ProCC: Progressive Cross-primitive Compatibility for Open-World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2211.12417v4 )

ライセンス: Link先を確認
Fushuo Huo, Wenchao Xu, Song Guo, Jingcai Guo, Haozhao Wang, Ziming Liu, Xiaocheng Lu(参考訳) open-world compositional zero-shot learning (ow-czsl) は、合成空間に先行しない画像における状態および対象プリミティブの新しい合成を認識することを目的としている。 既存の作品は結合状態オブジェクト埋め込みを学習するか、別々の分類器で単純なプリミティブを予測する。 しかし、前者は外部単語埋め込み法に大きく依存しており、後者は相互依存プリミティブの相互作用を無視している。 本稿では,プリミティブ予測法を再検討し,ow-czslタスクの人間学習プロセスを模倣するprogressive cross-primitive compatibility(procc)と呼ばれる新しい手法を提案する。 具体的には、クロスプリミティブ互換性モジュールは、状態とオブジェクトの特徴とトレーニング可能なメモリユニットとの相互作用を明示的にモデル化することを学習し、外部の知識を必要とせずに、効率的にクロスプリミティブな視覚的な注意を得られる。 さらに,複数タスク予測の不均衡問題と同様に部分スーパービジョン設定(pczsl)も考慮し,プリミティブ分類器が対話し,容易に識別可能な情報を得るためのプログレッシブトレーニングパラダイムを設計した。 本手法はOW-CZSLおよびpCZSL設定において,他の代表的手法よりも大きなマージンで優れることを示した。

Open-World Compositional Zero-shot Learning (OW-CZSL) aims to recognize novel compositions of state and object primitives in images with no priors on the compositional space, which induces a tremendously large output space containing all possible state-object compositions. Existing works either learn the joint compositional state-object embedding or predict simple primitives with separate classifiers. However, the former heavily relies on external word embedding methods, and the latter ignores the interactions of interdependent primitives, respectively. In this paper, we revisit the primitive prediction approach and propose a novel method, termed Progressive Cross-primitive Compatibility (ProCC), to mimic the human learning process for OW-CZSL tasks. Specifically, the cross-primitive compatibility module explicitly learns to model the interactions of state and object features with the trainable memory units, which efficiently acquires cross-primitive visual attention to reason high-feasibility compositions, without the aid of external knowledge. Moreover, considering the partial-supervision setting (pCZSL) as well as the imbalance issue of multiple task prediction, we design a progressive training paradigm to enable the primitive classifiers to interact to obtain discriminative information in an easy-to-hard manner. Extensive experiments on three widely used benchmark datasets demonstrate that our method outperforms other representative methods on both OW-CZSL and pCZSL settings by large margins.
翻訳日:2023-12-18 19:43:58 公開日:2023-12-15
# 一般化カテゴリー発見のためのパラメトリック分類:基礎的検討

Parametric Classification for Generalized Category Discovery: A Baseline Study ( http://arxiv.org/abs/2211.11727v4 )

ライセンス: Link先を確認
Xin Wen, Bingchen Zhao, Xiaojuan Qi(参考訳) Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。 従来の研究では、パラメトリック分類器は見られるカテゴリーに過度に適合する傾向があり、半教師付きk平均で形成された非パラメトリック分類器を用いて支持されている。 そこで本研究では,パラメトリック分類器の故障を調査し,高品質な監視が可能な場合の設計選択の有効性を検証し,信頼性の低い擬似ラベルを鍵となる問題として同定する。 2つの予測バイアスが存在することを実証する: 分類器は、見かけのクラスをより頻繁に予測し、見るものや斬新なカテゴリーにまたがる不均衡な分布を生み出す傾向がある。 これらの結果に基づき,エントロピー正規化の恩恵を受け,複数のgcdベンチマークで最先端のパフォーマンスを達成し,未知のクラス数に対して強い堅牢性を示す,単純かつ効果的なパラメトリック分類法を提案する。 この研究と提案されたシンプルな枠組みが,今後の研究を促進するための強力な基盤となることを願っている。 私たちのコードは、https://github.com/CVMI-Lab/SimGCDで利用可能です。

Generalized Category Discovery (GCD) aims to discover novel categories in unlabelled datasets using knowledge learned from labelled samples. Previous studies argued that parametric classifiers are prone to overfitting to seen categories, and endorsed using a non-parametric classifier formed with semi-supervised k-means. However, in this study, we investigate the failure of parametric classifiers, verify the effectiveness of previous design choices when high-quality supervision is available, and identify unreliable pseudo-labels as a key problem. We demonstrate that two prediction biases exist: the classifier tends to predict seen classes more often, and produces an imbalanced distribution across seen and novel categories. Based on these findings, we propose a simple yet effective parametric classification method that benefits from entropy regularisation, achieves state-of-the-art performance on multiple GCD benchmarks and shows strong robustness to unknown class numbers. We hope the investigation and proposed simple framework can serve as a strong baseline to facilitate future studies in this field. Our code is available at: https://github.com/CVMI-Lab/SimGCD.
翻訳日:2023-12-18 19:43:26 公開日:2023-12-15
# 熱的系内カップリングによる局所コヒーレンス

Local coherence by thermalized intra-system coupling ( http://arxiv.org/abs/2211.08851v2 )

ライセンス: Link先を確認
Michal Kol\'a\v{r} and Radim Filip(参考訳) エネルギー固有状態の量子重ね合わせは、そのようなカップリングが適切な合成特性を持つ場合、低温熱浴に結合した単一の量子2レベルシステムに自律的に現れる。 ここでは,温度t$で弱結合した熱浴により,2レベルシステム間の工学的相互作用をグローバルギブズ状態にする手法を提案する。 したがって、そのような場合、量子コヒーレンスは異なる機構によって現れるが、システムバス結合は設計される必要はない。 このような自律的コヒーレンス生成が最大コヒーレンス値に達することを示す。 さらに、より弱いが、複数の2レベルシステムとの集合的な相互作用を利用することで、代わりに構築することができる。 このアプローチは、同等の相互作用強度のシステムバス結合によって生成されるコヒーレンスを超え、量子センシングにおける位相推定誤差を直接低減する。 これは自律的な量子センシングへの必要なステップである。

Quantum superposition of energy eigenstates can appear autonomously in a single quantum two-level system coupled to a low-temperature thermal bath, if such coupling has a proper composite nature. We propose here a principally different and more feasible approach employing engineered interactions between two-level systems being thermalized into a global Gibbs state by weakly coupled thermal bath at temperature $T$. Therefore, in such case quantum coherence appears by a different mechanism, whereas the system-bath coupling does not have to be engineered. We demonstrate such autonomous coherence generation reaching maximum values of coherence. Moreover, it can be alternatively built up by using weaker but collective interaction with several two-level systems. This approach surpasses the coherence generated by the engineered system-bath coupling for comparable interaction strengths and directly reduces phase estimation error in quantum sensing. This represents a necessary step towards the autonomous quantum sensing.
翻訳日:2023-12-18 19:43:06 公開日:2023-12-15
# PDE+: 適応分布拡散を用いたPDEによる一般化の促進

PDE+: Enhancing Generalization via PDE with Adaptive Distributional Diffusion ( http://arxiv.org/abs/2305.15835v2 )

ライセンス: Link先を確認
Yige Yuan, Bingbing Xu, Bo Lin, Liang Hou, Fei Sun, Huawei Shen, Xueqi Cheng(参考訳) ニューラルネットワークの一般化は機械学習における中心的な課題であり、特にトレーニングと異なる分布下でのパフォーマンスについてである。 データ拡張、逆トレーニング、ノイズインジェクションといったデータ駆動パラダイムに基づいた現在の手法は、モデル非スムースネスによる限定的な一般化に遭遇する可能性がある。 本稿では,部分微分方程式(PDE)の観点から一般化を考察し,入力データを調整することではなく,ニューラルネットワークの基盤機能を直接的に拡張することを目的とする。 具体的には、まずニューラルネットワークの一般化と特定のPDE、すなわち「輸送方程式」への解の滑らかさの関連性を確立する。 そこで我々は, 輸送方程式に適応分布拡散を導入し, 解の滑らかさを向上し, 一般化を向上する一般フレームワークを提案する。 ニューラルネットワークの文脈では、この理論フレームワークを、$\textbf{PDE+}$$$\textbf{PDE}$ with $\textbf{A}$daptive $\textbf{D}$istributional $\textbf{D}$iffusion)として実践し、各サンプルを意味論的に類似した入力をカバーする分布に拡散させる。 これにより、トレーニングで観測できない可能性のあるディストリビューションのカバレッジが向上し、単なるデータ駆動型メソッド以上の一般化が改善される。 PDE+の有効性を実験的に検証し,SOTA法と比較して優れた性能を示した。

The generalization of neural networks is a central challenge in machine learning, especially concerning the performance under distributions that differ from training ones. Current methods, mainly based on the data-driven paradigm such as data augmentation, adversarial training, and noise injection, may encounter limited generalization due to model non-smoothness. In this paper, we propose to investigate generalization from a Partial Differential Equation (PDE) perspective, aiming to enhance it directly through the underlying function of neural networks, rather than focusing on adjusting input data. Specifically, we first establish the connection between neural network generalization and the smoothness of the solution to a specific PDE, namely "transport equation". Building upon this, we propose a general framework that introduces adaptive distributional diffusion into transport equation to enhance the smoothness of its solution, thereby improving generalization. In the context of neural networks, we put this theoretical framework into practice as $\textbf{PDE+}$ ($\textbf{PDE}$ with $\textbf{A}$daptive $\textbf{D}$istributional $\textbf{D}$iffusion) which diffuses each sample into a distribution covering semantically similar inputs. This enables better coverage of potentially unobserved distributions in training, thus improving generalization beyond merely data-driven methods. The effectiveness of PDE+ is validated through extensive experimental settings, demonstrating its superior performance compared to SOTA methods.
翻訳日:2023-12-18 19:37:33 公開日:2023-12-15
# ラベル語はアンカーである:インコンテキスト学習を理解するための情報フロー視点

Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning ( http://arxiv.org/abs/2305.14160v3 )

ライセンス: Link先を確認
Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun(参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)の有望な能力として出現し、多様なタスクを実行するための実例を提供する。 しかしながら、llmが提供されたコンテキストからどのように学習するかのメカニズムは、まだ未検討のままである。 本稿では,情報フローレンズを用いたICLの動作機構について検討する。 その結果,(1)浅い計算層の処理中に意味情報がラベル語表現に集約され,(2)ラベル語に含まれる統合情報はllmsの最終予測の参照となることがわかった。 これらの知見に基づき、iclの性能向上のためのアンカー再重み付け法、推論を迅速化するデモンストレーション圧縮法、gpt2-xlにおけるiclエラーの診断のための分析フレームワークを提案する。 本研究の有望な応用は、未発見のICL作業機構を再び検証し、今後の研究の道を開くことである。

In-context learning (ICL) emerges as a promising capability of large language models (LLMs) by providing them with demonstration examples to perform diverse tasks. However, the underlying mechanism of how LLMs learn from the provided context remains under-explored. In this paper, we investigate the working mechanism of ICL through an information flow lens. Our findings reveal that label words in the demonstration examples function as anchors: (1) semantic information aggregates into label word representations during the shallow computation layers' processing; (2) the consolidated information in label words serves as a reference for LLMs' final predictions. Based on these insights, we introduce an anchor re-weighting method to improve ICL performance, a demonstration compression technique to expedite inference, and an analysis framework for diagnosing ICL errors in GPT2-XL. The promising applications of our findings again validate the uncovered ICL working mechanism and pave the way for future studies.
翻訳日:2023-12-18 19:37:01 公開日:2023-12-15
# 実世界マルチエージェントによる強化学習における適応的行動指導

Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations ( http://arxiv.org/abs/2305.13030v3 )

ライセンス: Link先を確認
Keisuke Fujii, Kazushi Tsutsui, Atom Scott, Hiroshi Nakahara, Naoya Takeishi, Yoshinobu Kawahara(参考訳) 実世界の生物多エージェントのモデリングは、様々な科学・工学分野における根本的な問題である。 強化学習(Reinforcement Learning, RL)は、サイバー空間における柔軟な多様な行動を生成する強力なフレームワークであるが、実世界の生物学的多エージェントをモデル化する際には、ソース(実世界のデータ)とターゲット(即ちRLのサイバー空間)の振る舞いと、ソース環境パラメータが通常不明である。 本稿では,マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。 本研究では, 動的時間ワーピングの最小距離に基づいて, rlにおける実演の動作を選択することで, rlと教師付き学習を組み合わせる手法を提案する。 このアプローチは多くの既存のニューラルネットワークアーキテクチャに容易に適用でき、再現可能性とサイバースペースにおける報酬を得るために一般化能力のバランスをとるRLモデルを提供する。 実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,再現性と一般化能力のバランスを,ベースラインと比較して達成した。 特に,プロサッカー選手の追跡データをサッカーのエキスパート・デモとして使用し,チェイス・アンド・エスケープ・タスクよりもソースとターゲット環境の挙動の差が大きいにもかかわらず,成功例を示した。

Modeling of real-world biological multi-agents is a fundamental problem in various scientific and engineering fields. Reinforcement learning (RL) is a powerful framework to generate flexible and diverse behaviors in cyberspace; however, when modeling real-world biological multi-agents, there is a domain gap between behaviors in the source (i.e., real-world data) and the target (i.e., cyberspace for RL), and the source environment parameters are usually unknown. In this paper, we propose a method for adaptive action supervision in RL from real-world demonstrations in multi-agent scenarios. We adopt an approach that combines RL and supervised learning by selecting actions of demonstrations in RL based on the minimum distance of dynamic time warping for utilizing the information of the unknown source dynamics. This approach can be easily applied to many existing neural network architectures and provide us with an RL model balanced between reproducibility as imitation and generalization ability to obtain rewards in cyberspace. In the experiments, using chase-and-escape and football tasks with the different dynamics between the unknown source and target environments, we show that our approach achieved a balance between the reproducibility and the generalization ability compared with the baselines. In particular, we used the tracking data of professional football players as expert demonstrations in football and show successful performances despite the larger gap between behaviors in the source and target environments than the chase-and-escape task.
翻訳日:2023-12-18 19:36:47 公開日:2023-12-15
# 幾何位相を生成するのに要する時間で下限がわずかに小さい

Tight lower bounds on the time it takes to generate a geometric phase ( http://arxiv.org/abs/2305.12156v3 )

ライセンス: Link先を確認
Niklas H\"ornedal and Ole S\"onnerborn(参考訳) 幾何学的位相は、物理のあらゆる分野において中心的な重要性の概念である。 本稿では,循環的に進化する量子系の進化時間は,系のエネルギー資源と状態が獲得する幾何学的位相によって制限されることを示す。 具体的には,所定のアハラノフ・アナンダン幾何位相を生成するのに必要な時間上の3つの厳密な下界を導出し,検討する。 これらの導出は、マンデルシュタム・タムとマルゴルス・レヴィティンの量子速度限界の幾何学的性質に関する最近の結果に基づいている。

Geometric phase is a concept of central importance in virtually every branch of physics. In this paper, we show that the evolution time of a cyclically evolving quantum system is restricted by the system's energy resources and the geometric phase acquired by the state. Specifically, we derive and examine three tight lower bounds on the time required to generate any prescribed Aharonov-Anandan geometric phase. The derivations are based on recent results on the geometric character of the Mandelstam-Tamm and Margolus-Levitin quantum speed limits.
翻訳日:2023-12-18 19:36:22 公開日:2023-12-15
# マルチタスクモデルにおける拡張逆攻撃に対する動的勾配バランス

Dynamic Gradient Balancing for Enhanced Adversarial Attacks on Multi-Task Models ( http://arxiv.org/abs/2305.12066v2 )

ライセンス: Link先を確認
Lijun Zhang, Xiao Liu, Kaleel Mahmood, Caiwen Ding, Hui Guan(参考訳) マルチタスク学習(MTL)は、マルチタスクモデルと呼ばれる単一の機械学習モデルを作成し、複数のタスクを同時に実行する。 単一タスク分類器のセキュリティは広く研究されているが、マルチタスクモデルにはいくつかの重要なセキュリティ研究課題がある。 1) マルチタスクモデルによる単一タスク対人機械学習攻撃の安全性 2)複数のタスクを同時に攻撃するように敵の攻撃を設計できる。 3)タスク共有と対人訓練は、対人攻撃に対するマルチタスクモデルロバスト性を高めるか? 本稿では,これらに注意深い分析と厳密な実験を通して答える。 まず,単タスクのホワイトボックス攻撃のna\"ive適応を開発し,それらの固有の欠点を分析する。 次に,新しい攻撃フレームワークである動的勾配バランスアタック(dgba)を提案する。 本フレームワークは、平均相対損失変化に基づく最適化問題としてマルチタスクモデルを攻撃する問題を提起し、整数線形計画問題として問題を近似することで解決する。 2つの人気のあるMTLベンチマークであるNYUv2とTiny-Taxonomyの大規模な評価は、クリーンかつ逆向きに訓練されたマルチタスクモデルにおいて、na\\iveマルチタスク攻撃ベースラインと比較してDGBAの有効性を示す。 また,タスク間のパラメータ共有によるタスク精度の向上と,パラメータ共有による攻撃伝達性の向上によるモデルのロバスト性低下とのトレードオフも明らかにした。 DGBAはhttps://github.com/zhanglijun95/MTLAttack-DGBAで公開されている。

Multi-task learning (MTL) creates a single machine learning model called multi-task model to simultaneously perform multiple tasks. Although the security of single task classifiers has been extensively studied, there are several critical security research questions for multi-task models including 1) How secure are multi-task models to single task adversarial machine learning attacks, 2) Can adversarial attacks be designed to attack multiple tasks simultaneously, and 3) Does task sharing and adversarial training increase multi-task model robustness to adversarial attacks? In this paper, we answer these questions through careful analysis and rigorous experimentation. First, we develop na\"ive adaptation of single-task white-box attacks and analyze their inherent drawbacks. We then propose a novel attack framework, Dynamic Gradient Balancing Attack (DGBA). Our framework poses the problem of attacking a multi-task model as an optimization problem based on averaged relative loss change, which can be solved by approximating the problem as an integer linear programming problem. Extensive evaluation on two popular MTL benchmarks, NYUv2 and Tiny-Taxonomy, demonstrates the effectiveness of DGBA compared to na\"ive multi-task attack baselines on both clean and adversarially trained multi-task models. The results also reveal a fundamental trade-off between improving task accuracy by sharing parameters across tasks and undermining model robustness due to increased attack transferability from parameter sharing. DGBA is open-sourced and available at https://github.com/zhanglijun95/MTLAttack-DGBA.
翻訳日:2023-12-18 19:36:11 公開日:2023-12-15
# 集団型セルフプレイにおける異種リスクの学習

Learning Diverse Risk Preferences in Population-based Self-play ( http://arxiv.org/abs/2305.11476v2 )

ライセンス: Link先を確認
Yuhua Jiang, Qihan Liu, Xiaoteng Ma, Chenghao Li, Yiqin Yang, Jun Yang, Bin Liang, Qianchuan Zhao(参考訳) 強化学習(Reinforcement Learning, RL)の成功のうち, セルフプレイアルゴリズムは, 競争ゲームを解く上で重要な役割を担っている。 現在の自己再生アルゴリズムは、エージェントを最適化して、現在のまたは歴史的なコピーに対する期待のウィンレートを最大化し、しばしば局所的最適化と戦略スタイルをシンプルで均質に保ちます。 可能な解決策は、ポリシーの多様性を改善することである。これはエージェントが停滞状態を打ち破るのを手助けし、異なる敵と向き合う際の堅牢性を高める。 しかし,自己再生アルゴリズムの多様性の向上は容易ではない。 本稿では,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から多様性を導入することを目的とする。 具体的には,リスクに敏感な近位政策最適化 (rppo) と呼ばれる新しい強化学習アルゴリズムを考案した。 RPPOと人口ベースのセルフプレイをシームレスに統合したエージェントは、多様な対戦相手と対戦した経験から、動的にリスクに敏感な目標を最適化する。 実験の結果,本手法は競争ゲームにおいて同等または優れた性能を達成し,多様な行動モードが出現することが示された。 私たちのコードは \url{https://github.com/Jackory/RPBT} で公開されています。

Among the great successes of Reinforcement Learning (RL), self-play algorithms play an essential role in solving competitive games. Current self-play algorithms optimize the agent to maximize expected win-rates against its current or historical copies, making it often stuck in the local optimum and its strategy style simple and homogeneous. A possible solution is to improve the diversity of policies, which helps the agent break the stalemate and enhances its robustness when facing different opponents. However, enhancing diversity in the self-play algorithms is not trivial. In this paper, we aim to introduce diversity from the perspective that agents could have diverse risk preferences in the face of uncertainty. Specifically, we design a novel reinforcement learning algorithm called Risk-sensitive Proximal Policy Optimization (RPPO), which smoothly interpolates between worst-case and best-case policy learning and allows for policy learning with desired risk preferences. Seamlessly integrating RPPO with population-based self-play, agents in the population optimize dynamic risk-sensitive objectives with experiences from playing against diverse opponents. Empirical results show that our method achieves comparable or superior performance in competitive games and that diverse modes of behaviors emerge. Our code is public online at \url{https://github.com/Jackory/RPBT}.
翻訳日:2023-12-18 19:35:27 公開日:2023-12-15
# Bare Homography による画像マッチング

Image Matching by Bare Homography ( http://arxiv.org/abs/2305.08946v6 )

ライセンス: Link先を確認
Fabio Bellavia(参考訳) 本稿では,シーンを粗い局所重なり面としてモデル化する,新しい非奥行き画像マッチングフレームワークslimeを提案する。 この中間表現は、キーポイントパッチの局所的なアフィン近似と、空間的および類似性の制約に基づくグローバルマッチングの間に位置し、プレーンが一般的なシーンに関して扱いやすいので、対応の漸進的プルーニングを提供する。 スライムは画像を異なるスケールで重なり合う領域に分解し、ゆるい平面ホモグラフを計算する。 平面は一致するマッチによって相互に拡張され、画像は固定タイルに分割され、タイルのペアごとに最適なホモグラフのみが保持される。 安定マッチは、ペアワイズホモグラフによって提供される許容ステレオ構成のコンセンサスに従って識別される。 タイル内では、粗面はマッチの重なりに応じてマージされ、さらに一貫した対応が抽出される。 プロセス全体はホモグラフィの制約のみを含む。 その結果、シーン上の正しいマッチのカバレッジと安定性の両方が増幅され、困難なシーンでマッチを見つけられるようになり、従来のハイブリッドマッチングパイプラインが、最近のエンドツーエンドのディープマッチングメソッドに対して失われた基盤を構築できるようになった。 さらに、エンドツーエンドのディープ・ネットワークとハイブリッド・パイプラインで表現される画像マッチングにおける最近の最先端画像の比較分析を行った。 この評価は、急激な時間変化や相対的な画像回転の強い変動など、批判的かつ困難なシナリオを考慮して、平面と非平面の両方を考慮する。 この分析によれば、この分野における印象的な進歩にもかかわらず、今後の研究で検討すべき改善の余地は広い。

This paper presents Slime, a novel non-deep image matching framework which models the scene as rough local overlapping planes. This intermediate representation sits in-between the local affine approximation of the keypoint patches and the global matching based on both spatial and similarity constraints, providing a progressive pruning of the correspondences, as planes are easier to handle with respect to general scenes. Slime decomposes the images into overlapping regions at different scales and computes loose planar homographies. Planes are mutually extended by compatible matches and the images are split into fixed tiles, with only the best homographies retained for each pair of tiles. Stable matches are identified according to the consensus of the admissible stereo configurations provided by pairwise homographies. Within tiles, the rough planes are then merged according to their overlap in terms of matches and further consistent correspondences are extracted. The whole process only involves homography constraints. As a result, both the coverage and the stability of correct matches over the scene are amplified, together with the ability to spot matches in challenging scenes, allowing traditional hybrid matching pipelines to make up lost ground against recent end-to-end deep matching methods. In addition, the paper gives a thorough comparative analysis of recent state-of-the-art in image matching represented by end-to-end deep networks and hybrid pipelines. The evaluation considers both planar and non-planar scenes, taking into account critical and challenging scenarios including abrupt temporal image changes and strong variations in relative image rotations. According to this analysis, although the impressive progress done in this field, there is still a wide room for improvements to be investigated in future research.
翻訳日:2023-12-18 19:34:40 公開日:2023-12-15
# DC3DCD:マルチクラス3D点雲変化検出のための教師なし学習

DC3DCD: unsupervised learning for multiclass 3D point cloud change detection ( http://arxiv.org/abs/2305.05421v2 )

ライセンス: Link先を確認
Iris de G\'elis (1 and 2), S\'ebastien Lef\`evre (2) and Thomas Corpetti (3) ((1) Magellium, (2) Institut de Recherche en Informatique et Syst\`emes Al\'eatoires IRISA - UMR 6074 - Universit\'e Bretagne Sud, (3) Littoral - Environnement - T\'el\'ed\'etection - G\'eomatique LETG - UMR 6554 - Universit\'e Rennes 2)(参考訳) 常に進化している世界では、更新されたマップを維持するためには変更検出が最も重要なのです。 複雑な幾何学(特にアーバン領域)を持つ領域をよりよく知覚するために、3Dデータは古典的な2D画像の代替として興味深いものと思われる。 この文脈では、3Dポイントクラウド(PC)は、LiDARまたはフォトグラム技術によって得られるかに関わらず、貴重な情報を提供する。 近年の研究では、生の3D PCに変化を検出し、特徴付ける深層学習に基づく手法を用いることによる大きなメリットが示されているが、これらの研究は、正確な結果を得るために大量の注釈付きトレーニングデータに依存している。 これらのアノテーションのコレクションはトリッキーで時間がかかります。 教師なしあるいは弱教師付きアプローチの可用性は主要な関心事である。 本稿では,マルチクラス変化をポイントレベルで検出・分類する,deepcluster 3d change detection (dc3dcd) と呼ばれる教師なし手法を提案する。 我々は、潜在的変化に関連する多数のクラスタを、完全に教師なしの方法で抽出するという事実から、教師なしファミリーのアプローチを分類する。 プロセスの最後に、ユーザは最後の変更マップを導出するために、それぞれのクラスタにラベルを割り当てるだけです。 本手法は,画像分類のためのDeepClusterアプローチに基づいて,複雑な生の3次元PCを処理し,変更セグメンテーションタスクを実行する。 シミュレーションと実際の公開データセットの両方における手法の評価を行う。 提案手法は, 従来の機械学習アルゴリズムよりも優れており, シミュレーションおよび実データに対して, 57.06\%, 66.69\%の変化のクラスに対して, IoU平均で3次元PCのラスタ化に適用した完全教師付きディープラーニングネットワークと競合する。

In a constant evolving world, change detection is of prime importance to keep updated maps. To better sense areas with complex geometry (urban areas in particular), considering 3D data appears to be an interesting alternative to classical 2D images. In this context, 3D point clouds (PCs), whether obtained through LiDAR or photogrammetric techniques, provide valuable information. While recent studies showed the considerable benefit of using deep learning-based methods to detect and characterize changes into raw 3D PCs, these studies rely on large annotated training data to obtain accurate results. The collection of these annotations are tricky and time-consuming. The availability of unsupervised or weakly supervised approaches is then of prime interest. In this paper, we propose an unsupervised method, called DeepCluster 3D Change Detection (DC3DCD), to detect and categorize multiclass changes at point level. We classify our approach in the unsupervised family given the fact that we extract in a completely unsupervised way a number of clusters associated with potential changes. Let us precise that in the end of the process, the user has only to assign a label to each of these clusters to derive the final change map. Our method builds upon the DeepCluster approach, originally designed for image classification, to handle complex raw 3D PCs and perform change segmentation task. An assessment of the method on both simulated and real public dataset is provided. The proposed method allows to outperform fully-supervised traditional machine learning algorithm and to be competitive with fully-supervised deep learning networks applied on rasterization of 3D PCs with a mean of IoU over classes of change of 57.06\% and 66.69\% for the simulated and the real datasets, respectively.
翻訳日:2023-12-18 19:34:14 公開日:2023-12-15
# 量子サービス提供の比較

Comparing Quantum Service Offerings ( http://arxiv.org/abs/2304.12718v3 )

ライセンス: Link先を確認
Julian Obst and Johanna Barzen and Martin Beisel and Frank Leymann and Marie Salm and Felix Truger(参考訳) 量子コンピューティングの出現に伴い、多くの量子デバイスがクラウド経由でアクセスできるようになった。 しかし、この分野の急速な発展により、これらの量子特化サービスの提供は、ソフトウェア開発者に課す能力と要件が著しく異なる。 これは、これらのサービスをアプリケーションの一部として使用することに関心がある量子コンピューティング領域の外部の実践者にとって、特に困難である。 本稿では,異なるハードウェア技術に基づく複数のデバイスを比較し,それぞれに同じ実験を行うことにより,異なる提供物を通じて提供する。 実験から得られた教訓を文書化することにより,量子特化製品の利用を簡素化し,主要な量子ハードウェア技術間の差異を明らかにすることを目的とする。

With the emergence of quantum computing, a growing number of quantum devices is accessible via cloud offerings. However, due to the rapid development of the field, these quantum-specific service offerings vary significantly in capabilities and requirements they impose on software developers. This is particularly challenging for practitioners from outside the quantum computing domain who are interested in using these offerings as parts of their applications. In this paper, we compare several devices based on different hardware technologies and provided through different offerings, by conducting the same experiment on each of them. By documenting the lessons learned from our experiments, we aim to simplify the usage of quantum-specific offerings and illustrate the differences between predominant quantum hardware technologies.
翻訳日:2023-12-18 19:33:36 公開日:2023-12-15
# 低用量スパイラルCTのための多フレームクロスドメインデノイング

Multi-frame-based Cross-domain Denoising for Low-dose Spiral Computed Tomography ( http://arxiv.org/abs/2304.10839v3 )

ライセンス: Link先を確認
Yucheng Lu, Zhixin Xu, Moon Hyung Choi, Jimin Kim, and Seung-Won Jung(参考訳) CTは診断支援のための非侵襲的検査として世界中で用いられている。 しかしながら、X線被曝の電離性は、がんのような潜在的な健康リスクへの懸念を引き起こす。 放射線線量を減らすという欲求は、研究者に再建の質の向上を促した。 従来の低線量CT(LDCT)デノナイジングでは学習法の有効性が示されているが,Radon変換を用いて収集したシミュレーションデータに基づいて開発が進められている。 しかし、実世界のシナリオはシミュレーション領域と大きく異なり、特にマルチスライススパイラルスキャナの形状を用いる場合である。 本稿では,LDCTの完全再建パイプラインをよりよく活用する,市販の第3世代マルチスライス・スパイラルCTスキャナの2段階化手法を提案する。 提案手法では,マルチスライス・プロジェクションの高冗長性とボリュームリコンストラクションを生かしつつ,従来のカスケード・フレームワークにおける高頻度情報の過剰スムーシングを積極的に活用する。 専用の設計は、データフローのより明確な解釈も提供する。 各種データセットに対する広範囲な実験により,提案手法は空間分解能を損なうことなく最大70%のノイズを除去できることが示された。

Computed tomography (CT) has been used worldwide as a non-invasive test in assisting diagnosis. However, the ionizing nature of X-ray exposure raises concerns about potential health risks such as cancer. The desire for lower radiation doses has driven researchers to improve reconstruction quality. Although previous studies on low-dose computed tomography (LDCT) denoising have demonstrated the effectiveness of learning-based methods, most were developed on the simulated data collected using the Radon transform. However, the real-world scenario differs significantly from the simulation domain, especially when using the multi-slice spiral scanner geometry. This paper proposes a two-stage method for the commercially available third-generation multi-slice spiral CT scanners that better exploits the complete reconstruction pipeline for LDCT denoising across different domains. Our approach makes good use of the high redundancy of the multi-slice projections and the volumetric reconstructions while leveraging the over-smoothing of high-frequency information in conventional cascaded frameworks due to aggressive denoising. The dedicated design also provides a more explicit interpretation of the data flow. Extensive experiments on various datasets showed that the proposed method could remove up to 70% of noise without compromised spatial resolution, while subjective evaluations by two radiologists further supported its superior performance against state-of-the-art methods in clinical practice.
翻訳日:2023-12-18 19:33:27 公開日:2023-12-15
# 機械系に特有の非エルミート潜在対称性によって保護される安定な例外鎖の実験的実現

Experimental realization of stable exceptional chains protected by non-Hermitian latent symmetries unique to mechanical systems ( http://arxiv.org/abs/2304.10347v2 )

ライセンス: Link先を確認
Xiaohan Cui, Ruo-Yang Zhang, Xulong Wang, Wei Wang, Guancong Ma, C.T. Chan(参考訳) 例外点の直線は対称性を必要としない三次元非エルミートパラメータ空間において堅牢である。 しかし、より精巧な例外構造を考えると、対称性の役割は批判的になる。 そのような場合の1つは例外連鎖 (EC) であり、これは複数の例外線 (EL) の交叉または浸透によって形成される。 本研究では,非エルミート古典力学系を考察し,二次力学方程式に内在する対称性が,elsの源のない原理と組み合わせてecsの出現を保証できることを明らかにする。 この対称性は、一階schr\"odinger-like方程式に根ざした一般的な形式論には存在しない非エルミート一般化潜在対称性として理解することができ、これまでほとんど見過ごされてきた。 アクティブ・メカニカル・オシレータ・システムを用いてECを実験的に確認し特徴付ける。 さらに,連鎖点におけるELs集合の固有値ブレイディングを測定することで,EC形成機構の根底をなす指向ELsのソースフリー原理を実証する。 我々の研究は非エルミート退化の多様性を豊かにするだけでなく、二階力学系における非エルミート物理学の新たな可能性も強調する。

Lines of exceptional points are robust in the 3-dimensional non-Hermitian parameter space without requiring any symmetry. However, when more elaborate exceptional structures are considered, the role of symmetry becomes critical. One such case is the exceptional chain (EC), which is formed by the intersection or osculation of multiple exceptional lines (ELs). In this study, we investigate a non-Hermitian classical mechanical system and reveal that a symmetry intrinsic to second-order dynamical equations, in combination with the source-free principle of ELs, guarantees the emergence of ECs. This symmetry can be understood as a non-Hermitian generalized latent symmetry, which is absent in prevailing formalisms rooted in first-order Schr\"odinger-like equations and has largely been overlooked so far. We experimentally confirm and characterize the ECs using an active mechanical oscillator system. Moreover, by measuring eigenvalue braiding around the ELs meeting at a chain point, we demonstrate the source-free principle of directed ELs that underlies the mechanism for EC formation. Our work not only enriches the diversity of non-Hermitian degeneracies, but also highlights the new potential for non-Hermitian physics in second-order dynamical systems.
翻訳日:2023-12-18 19:33:04 公開日:2023-12-15
# w-mae:マルチ変数天気予報のためのマスク付きオートエンコーダによる事前学習型気象モデル

W-MAE: Pre-trained weather model with masked autoencoder for multi-variable weather forecasting ( http://arxiv.org/abs/2304.08754v2 )

ライセンス: Link先を確認
Xin Man, Chenghong Zhang, Jin Feng, Changyu Li, Jie Shao(参考訳) 天気予報は社会と経済の直接的な影響を伴う長年の計算課題である。 このタスクは大量の連続データ収集を伴い、長期間にわたって豊富な時空間依存性を示し、ディープラーニングモデルに非常に適しています。 本稿では,気象予報に事前学習技術を適用し,気象予報のためのMasked AutoEncoderを用いた気象モデルW-MAEを提案する。 W-MAEは、気象変数内の空間的相関を再構成するために、自己教師付きで事前訓練される。 時間スケールでは、事前訓練したW-MAEを微調整し、気象変数の将来の状態を予測し、気象データに存在する時間依存性をモデル化する。 我々は,第5世代ECMWFリアナリシス(ERA5)データを用いて,試料を6時間毎に選択した。 実験の結果、w-maeフレームワークには3つの大きなメリットがあります。 1)気象変数の将来状態を予測する場合,事前訓練されたw-maeの利用は,予測における累積誤差の問題を効果的に軽減することができる。 2) 診断変数(例えば総降水量)の予測では,FourCastNetよりも優れた性能を示す。 3)タスクに依存しない事前学習スキーマは,タスク固有のモデルと容易に統合できる。 予備学習フレームワークを FourCastNet に適用すると,Anomaly correlation Coefficient (ACC) における平均20%の性能向上が得られる。

Weather forecasting is a long-standing computational challenge with direct societal and economic impacts. This task involves a large amount of continuous data collection and exhibits rich spatiotemporal dependencies over long periods, making it highly suitable for deep learning models. In this paper, we apply pre-training techniques to weather forecasting and propose W-MAE, a Weather model with Masked AutoEncoder pre-training for weather forecasting. W-MAE is pre-trained in a self-supervised manner to reconstruct spatial correlations within meteorological variables. On the temporal scale, we fine-tune the pre-trained W-MAE to predict the future states of meteorological variables, thereby modeling the temporal dependencies present in weather data. We conduct our experiments using the fifth-generation ECMWF Reanalysis (ERA5) data, with samples selected every six hours. Experimental results show that our W-MAE framework offers three key benefits: 1) when predicting the future state of meteorological variables, the utilization of our pre-trained W-MAE can effectively alleviate the problem of cumulative errors in prediction, maintaining stable performance in the short-to-medium term; 2) when predicting diagnostic variables (e.g., total precipitation), our model exhibits significant performance advantages over FourCastNet; 3) Our task-agnostic pre-training schema can be easily integrated with various task-specific models. When our pre-training framework is applied to FourCastNet, it yields an average 20% performance improvement in Anomaly Correlation Coefficient (ACC).
翻訳日:2023-12-18 19:32:42 公開日:2023-12-15
# 自己教師型視覚変換器と空中ライダーを用いた畳み込みデコーダを用いたRGB画像からの高分解能キャノピー高さマップ

Very high resolution canopy height maps from RGB imagery using self-supervised vision transformer and convolutional decoder trained on Aerial Lidar ( http://arxiv.org/abs/2304.07213v3 )

ライセンス: Link先を確認
Jamie Tolan, Hung-I Yang, Ben Nosarzewski, Guillaume Couairon, Huy Vo, John Brandt, Justine Spore, Sayantan Majumdar, Daniel Haziza, Janaki Vamaraju, Theo Moutakanni, Piotr Bojanowski, Tracy Johns, Brian White, Tobias Tiecke, Camille Couprie(参考訳) 植生構造マッピングは、地球規模の炭素循環を理解し、気候適応と緩和に対する自然に基づくアプローチを監視するために重要である。 これらのデータを繰り返し測定することで、森林の森林破壊や劣化の観察、自然林の再生、アグロフォレストリーのような持続可能な農業の実践が可能になる。 樹冠の高さと樹冠突出部を高空間分解能で評価することは,特に農林システムにおいて,森林構造が空間的に不均一であることから,炭素フラックスのモニタリングや森林利用の評価にも重要である。 非常に高解像度の衛星画像(1m未満の地上サンプル距離)は、非常に大規模な監視を可能にしながら、ツリーレベルで情報を抽出することができる。 本稿では,複数の国別管轄区域で同時に作成される最初の高解像度天蓋の高さマップについて述べる。 具体的には,カリフォルニア州とサンパウロ州で高解像度のキャノピー高マップを作成し,従来のSentinel/GEDIをベースとした世界地図の10メートル (10m) の解像度を大幅に改善した。 マップは、2017年から2020年にかけて、maxarイメージで訓練された自己教師モデルからの特徴抽出と、空中ライダーマップに対する高密度予測デコーダのトレーニングによって生成される。 また、GEDI観測に基づいて訓練された畳み込みネットワークを用いた後処理も導入する。 提案したマップを,他のリモートセンシングマップやフィールド収集データと比較し,セットアサイド検証ライダーデータを用いて評価し,平均平均平均絶対誤差(MAE)が2.8m,平均誤差(ME)が0.6mであることを確認した。

Vegetation structure mapping is critical for understanding the global carbon cycle and monitoring nature-based approaches to climate adaptation and mitigation. Repeated measurements of these data allow for the observation of deforestation or degradation of existing forests, natural forest regeneration, and the implementation of sustainable agricultural practices like agroforestry. Assessments of tree canopy height and crown projected area at a high spatial resolution are also important for monitoring carbon fluxes and assessing tree-based land uses, since forest structures can be highly spatially heterogeneous, especially in agroforestry systems. Very high resolution satellite imagery (less than one meter (1m) Ground Sample Distance) makes it possible to extract information at the tree level while allowing monitoring at a very large scale. This paper presents the first high-resolution canopy height map concurrently produced for multiple sub-national jurisdictions. Specifically, we produce very high resolution canopy height maps for the states of California and Sao Paulo, a significant improvement in resolution over the ten meter (10m) resolution of previous Sentinel / GEDI based worldwide maps of canopy height. The maps are generated by the extraction of features from a self-supervised model trained on Maxar imagery from 2017 to 2020, and the training of a dense prediction decoder against aerial lidar maps. We also introduce a post-processing step using a convolutional network trained on GEDI observations. We evaluate the proposed maps with set-aside validation lidar data as well as by comparing with other remotely sensed maps and field-collected data, and find our model produces an average Mean Absolute Error (MAE) of 2.8 meters and Mean Error (ME) of 0.6 meters.
翻訳日:2023-12-18 19:32:16 公開日:2023-12-15
# プライバシー保護型連合学習のためのゲーム理論フレームワーク

A Game-theoretic Framework for Privacy-preserving Federated Learning ( http://arxiv.org/abs/2304.05836v2 )

ライセンス: Link先を確認
Xiaojin Zhang, Lixin Fan, Siwei Wang, Wenjie Li, Kai Chen, Qiang Yang(参考訳) 連合学習では、良性参加者はグローバルなモデルを協調的に最適化することを目指している。 しかし、 \textit{semi-honest} 敵の存在下では、 \textit{privacy leakage} のリスクは無視できない。 既存の研究は防御機構の設計や攻撃機構の発明に重点を置いている。 被告側と攻撃側の間での戦いは終わらないように思われるが、我々は1つの重要な疑問に気を配っている。 そこで本稿では,計算コスト,FLモデルユーティリティ,プライバシリークリスクなどを含む各支払額の観点から,FLディフェンダーとアタッカーの両方を考慮に入れた最初のゲーム理論フレームワークを提案する。 我々はこのゲームをFLPG(Federated Learning Privacy Game)と名付け、ディフェンダーもアタッカーもすべての参加者の報酬を意識していない。 この状況に固有の \textit{incomplete information} を扱うために,2つの主要な責務を持つ \textit{oracle} と FLPG を関連付けることを提案する。 第一に、オラクルはプレイヤーに対する支払いの下位と上位のバウンドを提供する。 第2に、oracleは相関デバイスとして動作し、各プレイヤーに提案するアクションをプライベートに提供します。 この新たな枠組みにより,守備隊と攻撃隊の最適戦略を解析する。 さらに、私たちは、合理的な意思決定者として、攻撃者が常にoracleの提案である \textit{not to attack}に従うべき条件を導出して示します。

In federated learning, benign participants aim to optimize a global model collaboratively. However, the risk of \textit{privacy leakage} cannot be ignored in the presence of \textit{semi-honest} adversaries. Existing research has focused either on designing protection mechanisms or on inventing attacking mechanisms. While the battle between defenders and attackers seems never-ending, we are concerned with one critical question: is it possible to prevent potential attacks in advance? To address this, we propose the first game-theoretic framework that considers both FL defenders and attackers in terms of their respective payoffs, which include computational costs, FL model utilities, and privacy leakage risks. We name this game the federated learning privacy game (FLPG), in which neither defenders nor attackers are aware of all participants' payoffs. To handle the \textit{incomplete information} inherent in this situation, we propose associating the FLPG with an \textit{oracle} that has two primary responsibilities. First, the oracle provides lower and upper bounds of the payoffs for the players. Second, the oracle acts as a correlation device, privately providing suggested actions to each player. With this novel framework, we analyze the optimal strategies of defenders and attackers. Furthermore, we derive and demonstrate conditions under which the attacker, as a rational decision-maker, should always follow the oracle's suggestion \textit{not to attack}.
翻訳日:2023-12-18 19:31:45 公開日:2023-12-15
# ChatGPT生成コードの精錬:コード品質問題の特徴と緩和

Refining ChatGPT-Generated Code: Characterizing and Mitigating Code Quality Issues ( http://arxiv.org/abs/2307.12596v2 )

ライセンス: Link先を確認
Yue Liu, Thanh Le-Cong, Ratnadira Widyasari, Chakkrit Tantithamthavorn, Li Li, Xuan-Bach D. Le, David Lo(参考訳) 我々は,4,066個のChatGPT生成コードを2,033個のプログラミング言語,すなわちJavaとPythonで実装し,その品質を体系的に研究した。 この作品の目標は3つある。 まず、コード生成タスクにおけるChatGPTの正しさを分析し、タスクの難易度、プログラミング言語、タスクが導入された時間、プログラムサイズなど、その効果に影響を与える要因を明らかにする。 第二に、ChatGPT生成コードの品質に関する潜在的な問題を識別し、特徴付ける。 最後に、これらの問題を緩和する方法についての洞察を提供する。 実験の結果、ChatGPTが生成した4,066プログラムのうち、2,756プログラムは正しいと判断され、1,082プログラムは間違った出力を提供し、177プログラムはコンパイルや実行時のエラーを含むことがわかった。 さらに,コードスタイルや保守性といった静的解析ツールを通じて生成したコードの特徴をさらに分析し,1,930個のchatgpt生成コードスニペットが保守性の問題に直面していることを発見した。 その後,chatgptの自己修復能力と静的解析ツールとの相互作用について検討し,その前のステップで明らかになった誤りを修正する。 実験によると、ChatGPTはこれらの課題に部分的に対処でき、コード品質を20%以上改善できるが、まだ改善の余地と機会がある。 全体として、私たちの研究はChatGPTの現在の限界に関する貴重な洞察を提供し、ChatGPTのようなAIモデルのコード生成能力を強化するための将来の研究と開発のためのロードマップを提供します。

We systematically study the quality of 4,066 ChatGPT-generated code implemented in two popular programming languages, i.e., Java and Python, for 2,033 programming tasks. The goal of this work is three folds. First, we analyze the correctness of ChatGPT on code generation tasks and uncover the factors that influence its effectiveness, including task difficulty, programming language, time that tasks are introduced, and program size. Second, we identify and characterize potential issues with the quality of ChatGPT-generated code. Last, we provide insights into how these issues can be mitigated. Experiments highlight that out of 4,066 programs generated by ChatGPT, 2,756 programs are deemed correct, 1,082 programs provide wrong outputs, and 177 programs contain compilation or runtime errors. Additionally, we further analyze other characteristics of the generated code through static analysis tools, such as code style and maintainability, and find that 1,930 ChatGPT-generated code snippets suffer from maintainability issues. Subsequently, we investigate ChatGPT's self-repairing ability and its interaction with static analysis tools to fix the errors uncovered in the previous step. Experiments suggest that ChatGPT can partially address these challenges, improving code quality by more than 20%, but there are still limitations and opportunities for improvement. Overall, our study provides valuable insights into the current limitations of ChatGPT and offers a roadmap for future research and development efforts to enhance the code generation capabilities of AI models like ChatGPT.
翻訳日:2023-12-18 19:24:35 公開日:2023-12-15
# 不可能」の排除:量子場論における局所測定理論の最近の進歩

Eliminating the "impossible": Recent progress on local measurement theory for quantum field theory ( http://arxiv.org/abs/2307.08524v2 )

ライセンス: Link先を確認
Maria Papageorgiou, Doreen Fraser(参考訳) Sorkin arXiv:gr-qc/9302018 と Borsten, Jubb, and Kells arXiv:1912.06141 の主張は、非相対論的量子力学から相対論的量子論への量子測定理論の自然な拡張は、空間的分離領域におけるユニタリ演算のどの領域に依存するかによって、ある領域における期待値が許容できない結果をもたらすことを証明している。 ソーキンはそのようなシナリオを「不可能な測定」とラベル付けしている。 量子場論(QFT)において、これらの議論は実数論の論理形式を伴って無数の結果として明示的に提示し、測定結果について検討する。 ソーキン型の不可能な測定シナリオは、L\udersの法則を用いる相対論的量子論において、マイクロ因果性はそれ自体が超光信号の排除に十分でないというモラルを明らかに示している。我々は、QFTの測定基準を定式化し、その「不可能な測定」問題に対する応答を分析するための3つの異なるアプローチを概観する。 2つのアプローチは、Polo-G\'omez、Garay、Mart\'in-Mart\'inez arXiv:2108.02793で提案された検出器モデルに基づく測定理論と、FewsterとVerch arXiv:1810.06512で提案された代数QFTのための測定フレームワークである。 特にQFTの基礎に対する関心は、QFTにおける測定の方法に関する一般的なモラルを保持する共通の特徴を共有することである。 これらのモラルは、ダイナミクスが「不可能な測定」を排除し、局所代数の操作的解釈をある領域で実行可能な操作として放棄し、状態更新規則の解釈に果たす役割に関するものである。 最後に, ヒストリーに基づくアプローチの「実証不可能な測定」問題がもたらす形態について検討し, 残る課題について考察する。

Arguments by Sorkin arXiv:gr-qc/9302018 and Borsten, Jubb, and Kells arXiv:1912.06141 establish that a natural extension of quantum measurement theory from non-relativistic quantum mechanics to relativistic quantum theory leads to the unacceptable consequence that expectation values in one region depend on which unitary operation is performed in a spacelike separated region. Sorkin labels such scenarios "impossible measurements". We explicitly present these arguments as a no-go result with the logical form of a reductio argument and investigate the consequences for measurement in quantum field theory (QFT). Sorkin-type impossible measurement scenarios clearly illustrate the moral that Microcausality is not by itself sufficient to rule out superluminal signalling in relativistic quantum theories that use L\"uders' rule. We review three different approaches to formulating an account of measurement for QFT and analyze their responses to the "impossible measurements" problem. Two of the approaches are: a measurement theory based on detector models proposed in Polo-G\'omez, Garay, and Mart\'in-Mart\'Inez arXiv:2108.02793 and a measurement framework for algebraic QFT proposed in Fewster and Verch arXiv:1810.06512. Of particular interest for foundations of QFT is that they share common features that may hold general morals about how to represent measurement in QFT. These morals are about the role that dynamics plays in eliminating "impossible measurements", the abandonment of the operational interpretation of local algebras as representing possible operations carried out in a region, and the interpretation of state update rules. Finally, we examine the form that the "impossible measurements" problem takes in histories-based approaches and we discuss the remaining challenges.
翻訳日:2023-12-18 19:23:49 公開日:2023-12-15
# 微調整vqganを用いた極端画像圧縮

Extreme Image Compression using Fine-tuned VQGANs ( http://arxiv.org/abs/2307.08265v3 )

ライセンス: Link先を確認
Qi Mao, Tinghan Yang, Yinuo Zhang, Zijian Wang, Meng Wang, Shiqi Wang, Siwei Ma(参考訳) 近年の生成圧縮法の進歩は、特にビットレートの低いシナリオにおいて、圧縮データの知覚的品質の向上に顕著な進歩を示している。 しかし、極端な圧縮率(<0.05$ bpp)を達成する効果と適用性は依然として制限されている。 本研究では,画像圧縮領域にベクトル量子化(vq)に基づく生成モデルを導入することで,単純かつ効果的な符号化フレームワークを提案する。 主な洞察は、vqganモデルによって学習されたコードブックは、強い表現能力をもたらし、再構築品質を維持しながら、潜在空間における連続情報の効率的な圧縮を促進する。 具体的には、最も近いコードワードを見つけることで、画像はvqインデックスとして表現でき、損失のない圧縮メソッドを使ってビットストリームにエンコードすることができる。 我々は、学習済みの大規模コードブックをK-meansアルゴリズムによりより小さなコードブックにクラスタリングし、プログラミングフレームワーク内の様々なビットレートと異なるレベルの再構築品質を得る。 さらに,不安定な環境下での損失指標の予測と画像復元を行うトランスフォーマを導入する。 様々なベンチマークデータセットの大規模な定性的および定量的実験により、提案されたフレームワークは、知覚的品質指向のメトリクスと極低ビットレートでの人間の知覚において、最先端のコーデックよりも優れている(\le 0.04$ bpp)。 驚くべきことに、最大20〜%のインデックスが失われても、画像は最小限の知覚損失で効果的に復元できる。

Recent advances in generative compression methods have demonstrated remarkable progress in enhancing the perceptual quality of compressed data, especially in scenarios with low bitrates. However, their efficacy and applicability to achieve extreme compression ratios ($<0.05$ bpp) remain constrained. In this work, we propose a simple yet effective coding framework by introducing vector quantization (VQ)--based generative models into the image compression domain. The main insight is that the codebook learned by the VQGAN model yields a strong expressive capacity, facilitating efficient compression of continuous information in the latent space while maintaining reconstruction quality. Specifically, an image can be represented as VQ-indices by finding the nearest codeword, which can be encoded using lossless compression methods into bitstreams. We propose clustering a pre-trained large-scale codebook into smaller codebooks through the K-means algorithm, yielding variable bitrates and different levels of reconstruction quality within the coding framework. Furthermore, we introduce a transformer to predict lost indices and restore images in unstable environments. Extensive qualitative and quantitative experiments on various benchmark datasets demonstrate that the proposed framework outperforms state-of-the-art codecs in terms of perceptual quality-oriented metrics and human perception at extremely low bitrates ($\le 0.04$ bpp). Remarkably, even with the loss of up to $20\%$ of indices, the images can be effectively restored with minimal perceptual loss.
翻訳日:2023-12-18 19:23:04 公開日:2023-12-15
# 不定環境における開量子系

Open quantum system in the indefinite environment ( http://arxiv.org/abs/2307.06601v2 )

ライセンス: Link先を確認
He Wang and Jin Wang(参考訳) 本稿では,干渉計や補助量子ビットの導入によって環境が無期限に構築されるオープン量子システムの干渉工学について検討する。 環境は、完全に接続されたキュービット浴でモデル化され、正確な解析ダイナミクスを持つ。 システムは干渉計を通過するか、補助量子ビットによって制御されるので、異なる経路またはそれらの重ね合わせに沿って伝播し、各経路の環境と異なる相互作用をもたらす。 これにより、経路に関する一貫性のある情報を保持する特定の測定によって検出できる環境の重ね合わせが生じる。 結果は,環境の不定性が量子相関を著しく高めることを示した。 しかし、経路コヒーレンスが破壊される場合、環境からの影響の統計的混合のみが保存される。 また,テレポーテーションと量子パラメータ推定のための資源としての不定値の利用可能性についても検討した。 さらに, 波動-粒子-絡み合い-無知の相補性の観点から, 不定値の定量化とシステムのダイナミクスへの影響について考察する。 全体的に、量子情報処理における無期限環境の潜在的な利点を強調し、その効果の基礎となる基本原理に光を当てる。

In this paper, we investigate the interference engineering of the open quantum system, where the environment is made indefinite either through the use of an interferometer or the introduction of auxiliary qubits. The environments are modeled by fully connected qubit baths with exact analytical dynamics. As the system passes through the interferometer or is controlled by auxiliary qubits, it is propagated along different paths or their superpositions, leading to distinct interactions with the environment in each path. This results in the superposition of the environments, which can be detected through specific measurements that retain certain coherent information about the paths. Our results demonstrate that the indefiniteness of the environment can significantly enhance the quantum correlations. However, only the statistical mixture of the influences from the environments preserves provided that the path coherence is destructed. We also examine the serviceability of the indefiniteness as a resource for teleportation and quantum parameter estimation. Additionally, we discuss how to quantify the indefiniteness and the ways in which it affects the system's dynamics from the perspective of wave-particle-entanglement-ignorance complementarity. Overall, our study highlights the potential benefits of an indefinite environment in quantum information processing and sheds light on the fundamental principles underlying its effects.
翻訳日:2023-12-18 19:22:41 公開日:2023-12-15
# $\nu^2$-flows:条件付き正規化流を伴うマルチニュートリノ最終状態における高速で改善されたニュートリノ再構成

$\nu^2$-Flows: Fast and improved neutrino reconstruction in multi-neutrino final states with conditional normalizing flows ( http://arxiv.org/abs/2307.02405v3 )

ライセンス: Link先を確認
John Andrew Raine, Matthew Leigh, Knut Zoch, Tobias Golling(参考訳) 本研究では、複数のニュートリノを含むファイナル状態への$\nu$-Flows法の拡張である$\nu^2$-Flowsを導入する。 このアーキテクチャは、任意の所望のニュートリノ乗数に対して最終状態のオブジェクトタイプと乗数の組み合わせに対してネイティブにスケールすることができる。 t\bar{t}$ dileptonイベントにおいて、ニュートリノとそれらの間の相関のモーメントは、最も一般的な標準解析技術を使用する時よりも正確に再構築され、全てのイベントに対して解が見つかる。 推論時間は競合する手法よりも大幅に速く、グラフィック処理ユニット上で並列に評価することでさらに削減することができる。 我々は、$\nu^2$-Flows to $t\bar{t}$ dilepton イベントを適用し、展開分布における各ビンの不確かさが、標準手法よりも完全ニュートリノ再構成による性能の限界にかなり近いことを示す。 選択された双微分可観測量 $\nu^2$- Flows は、ニュートリノ重み付け法と比較して1.5から2の係数で各ビンの統計的精度を改善し、楕円法と比較して最大4倍に向上する。

In this work we introduce $\nu^2$-Flows, an extension of the $\nu$-Flows method to final states containing multiple neutrinos. The architecture can natively scale for all combinations of object types and multiplicities in the final state for any desired neutrino multiplicities. In $t\bar{t}$ dilepton events, the momenta of both neutrinos and correlations between them are reconstructed more accurately than when using the most popular standard analytical techniques, and solutions are found for all events. Inference time is significantly faster than competing methods, and can be reduced further by evaluating in parallel on graphics processing units. We apply $\nu^2$-Flows to $t\bar{t}$ dilepton events and show that the per-bin uncertainties in unfolded distributions is much closer to the limit of performance set by perfect neutrino reconstruction than standard techniques. For the chosen double differential observables $\nu^2$-Flows results in improved statistical precision for each bin by a factor of 1.5 to 2 in comparison to the Neutrino Weighting method and up to a factor of four in comparison to the Ellipse approach.
翻訳日:2023-12-18 19:22:23 公開日:2023-12-15
# 確率制約付きマルチチョース・ナップサック問題:モデル、アルゴリズム、および応用

Chance-Constrained Multiple-Choice Knapsack Problem: Model, Algorithms, and Applications ( http://arxiv.org/abs/2306.14690v2 )

ライセンス: Link先を確認
Xuanfeng Li, Shengcai Liu, Jin Wang, Xiao Chen, Yew-Soon Ong, Ke Tang(参考訳) multi-choice knapsack problem (mckp) は古典的なnp-hard combinatorial optimization問題である。 いくつかの重要な実世界の応用によって動機づけられた本研究では、アイテムの重みがランダム変数である確率制約多重クナップサック問題 (CCMCKP) と呼ばれる新しいMCKPの変種を調査する。 特に、ランダムな重みの確率分布が未知であるがサンプルデータのみが利用可能なCCMCKPの実践シナリオに焦点を当てる。 まず、CCMCKPの問題を定式化し、2つのベンチマークセットを確立する。 第1のセットは合成インスタンスを含み、第2のセットは特定の通信会社の実世界のアプリケーションシナリオをシミュレートするために考案される。 CCMCKPを解決するために,データ駆動型適応局所探索(DDALS)アルゴリズムを提案する。 DDALSの主な新規性は、アイテム重みの未知の確率分布を効果的に処理できるデータ駆動型ソリューション評価アプローチにある。 さらに, 未知分布の場合, 確率制約の強度, サンプルデータ量の制限, 大規模問題では, 高い性能を示す。 実験の結果、DDALSは2つのベンチマークで他のベースラインよりも優れていることが示された。 さらに、アブレーション研究はアルゴリズムの各成分の有効性を確認する。 最後に、DDALSは将来の研究のベースラインとして機能し、ベンチマークセットは、この課題の研究をさらに促進するためにオープンソース化されている。

The multiple-choice knapsack problem (MCKP) is a classic NP-hard combinatorial optimization problem. Motivated by several significant real-world applications, this work investigates a novel variant of MCKP called chance-constrained multiple-choice knapsack problem (CCMCKP), where the item weights are random variables. In particular, we focus on the practical scenario of CCMCKP, where the probability distributions of random weights are unknown but only sample data is available. We first present the problem formulation of CCMCKP and then establish two benchmark sets. The first set contains synthetic instances and the second set is devised to simulate a real-world application scenario of a certain telecommunication company. To solve CCMCKP, we propose a data-driven adaptive local search (DDALS) algorithm. The main novelty of DDALS lies in its data-driven solution evaluation approach that can effectively handle unknown probability distributions of item weights. Moreover, in cases with unknown distributions, high intensity of chance constraints, limited amount of sample data and large-scale problems, it still exhibits good performance. Experimental results demonstrate the superiority of DDALS over other baselines on the two benchmarks. Additionally, ablation studies confirm the effectiveness of each component of the algorithm. Finally, DDALS can serve as the baseline for future research, and the benchmark sets are open-sourced to further promote research on this challenging problem.
翻訳日:2023-12-18 19:21:49 公開日:2023-12-15
# マルチドメイン画像から画像への変換のための進歩的エネルギーベース協調学習

Progressive Energy-Based Cooperative Learning for Multi-Domain Image-to-Image Translation ( http://arxiv.org/abs/2306.14448v2 )

ライセンス: Link先を確認
Weinan Song, Yaxuan Zhu, Lei He, Yingnian Wu, and Jianwen Xie(参考訳) 本稿では,マルチドメイン画像・画像翻訳のための新しいエネルギーベース協調学習フレームワークについて検討する。 フレームワークは、ディスクリプタ、トランスレータ、スタイルエンコーダ、スタイルジェネレータの4つのコンポーネントで構成されている。 ディスクリプタはマルチヘッドエネルギーベースのモデルであり、マルチドメイン画像分布を表す。 トランスレータ、スタイルエンコーダ、スタイルジェネレータのコンポーネントは、多様化したイメージジェネレータを構成する。 具体的には、ソースドメインからの入力画像が与えられた場合、トランスレータは、基準画像からスタイルエンコーダにより推測されるか、ランダムノイズからスタイルジェネレータによって生成されるスタイルコードに従って、ターゲットドメインのスタイル化された出力画像に変換する。 スタイルジェネレータは、スタイルコードのドメイン固有の分布として表現されるため、トランスレータはソースドメインとターゲットドメインの間の1対多変換(つまり、多様化生成)を提供できる。 To train our framework, we propose a likelihood-based multi-domain cooperative learning algorithm to jointly train the multi-domain descriptor and the diversified image generator (including translator, style encoder, and style generator modules) via multi-domain MCMC teaching, in which the descriptor guides the diversified image generator to shift its probability density toward the data distribution, while the diversified image generator uses its randomly translated images to initialize the descriptor's Langevin dynamics process for efficient sampling.

This paper studies a novel energy-based cooperative learning framework for multi-domain image-to-image translation. The framework consists of four components: descriptor, translator, style encoder, and style generator. The descriptor is a multi-head energy-based model that represents a multi-domain image distribution. The components of translator, style encoder, and style generator constitute a diversified image generator. Specifically, given an input image from a source domain, the translator turns it into a stylised output image of the target domain according to a style code, which can be inferred by the style encoder from a reference image or produced by the style generator from a random noise. Since the style generator is represented as an domain-specific distribution of style codes, the translator can provide a one-to-many transformation (i.e., diversified generation) between source domain and target domain. To train our framework, we propose a likelihood-based multi-domain cooperative learning algorithm to jointly train the multi-domain descriptor and the diversified image generator (including translator, style encoder, and style generator modules) via multi-domain MCMC teaching, in which the descriptor guides the diversified image generator to shift its probability density toward the data distribution, while the diversified image generator uses its randomly translated images to initialize the descriptor's Langevin dynamics process for efficient sampling.
翻訳日:2023-12-18 19:21:25 公開日:2023-12-15
# 詳細な網膜血管セグメンテーションのための合成光コヒーレンストモグラフィーによる血管造影

Synthetic optical coherence tomography angiographs for detailed retinal vessel segmentation without human annotations ( http://arxiv.org/abs/2306.10941v2 )

ライセンス: Link先を確認
Linus Kreitner, Johannes C. Paetzold, Nikolaus Rauch, Chen Chen, Ahmed M. Hagag, Alaa E. Fayed, Sobha Sivaprasad, Sebastian Rausch, Julian Weichsel, Bjoern H. Menze, Matthias Harders, Benjamin Knier, Daniel Rueckert and Martin J. Menten(参考訳) 光コヒーレンストモグラフィー(OCTA)は、非侵襲的な画像モダリティであり、網膜血管の高解像度の容積を取得し、眼・神経・心臓疾患の診断を助ける。 これらの画像から定量的バイオマーカーを抽出する際の、可視血管の分離は一般的な第一歩である。 閾値に基づく古典的セグメンテーションアルゴリズムは、画像アーティファクトと限られた信号-雑音比の影響を強く受けている。 最新の深層学習に基づくセグメンテーション法の使用は、血管の詳細なアノテーションを持つ大規模なデータセットの欠如によって妨げられている。 この問題に対処するため、近年の研究では、セグメンテーションネットワークを合成OCTA画像に基づいてトレーニングし、実データに適用するトランスファーラーニングが採用されている。 しかし、前述したシミュレーションは網膜血管を忠実にモデル化できず、効果的な領域適応を提供していない。 このため、現在の方法は網膜血管、特に最小の毛細血管を完全に分断することはできない。 本研究では,より高速でリアルなOCTA合成のために,空間コロニー化に基づく網膜血管網の軽量なシミュレーションを行う。 次に3つのコントラスト適応パイプラインを導入し,実画像と人工画像の領域ギャップを低減した。 提案手法を従来のコンピュータビジョンアルゴリズムと比較し,人間のアノテーションを用いた教師付きトレーニングを行う3つの公開データセットに対して,広範に定量的かつ定性的な実験を行った。 最後に、ソースコード、事前トレーニングされたモデル、合成オクタイメージの大規模なデータセットなど、パイプライン全体を公開しています。

Optical coherence tomography angiography (OCTA) is a non-invasive imaging modality that can acquire high-resolution volumes of the retinal vasculature and aid the diagnosis of ocular, neurological and cardiac diseases. Segmenting the visible blood vessels is a common first step when extracting quantitative biomarkers from these images. Classical segmentation algorithms based on thresholding are strongly affected by image artifacts and limited signal-to-noise ratio. The use of modern, deep learning-based segmentation methods has been inhibited by a lack of large datasets with detailed annotations of the blood vessels. To address this issue, recent work has employed transfer learning, where a segmentation network is trained on synthetic OCTA images and is then applied to real data. However, the previously proposed simulations fail to faithfully model the retinal vasculature and do not provide effective domain adaptation. Because of this, current methods are unable to fully segment the retinal vasculature, in particular the smallest capillaries. In this work, we present a lightweight simulation of the retinal vascular network based on space colonization for faster and more realistic OCTA synthesis. We then introduce three contrast adaptation pipelines to decrease the domain gap between real and artificial images. We demonstrate the superior segmentation performance of our approach in extensive quantitative and qualitative experiments on three public datasets that compare our method to traditional computer vision algorithms and supervised training using human annotations. Finally, we make our entire pipeline publicly available, including the source code, pretrained models, and a large dataset of synthetic OCTA images.
翻訳日:2023-12-18 19:21:06 公開日:2023-12-15
# 分散半教師付きスパース統計推論

Distributed Semi-Supervised Sparse Statistical Inference ( http://arxiv.org/abs/2306.10395v2 )

ライセンス: Link先を確認
Jiyuan Tu, Weidong Liu, Xiaojun Mao, Mingyue Xu(参考訳) debiased estimatorは、高次元モデルパラメータの統計的推論において重要なツールである。 しかし、そのような推定器を構築するには、高次元の逆ヘッセン行列を推定し、かなりの計算コストがかかる。 この課題は、従来の方法がすべてのマシンでデバイアス推定器を計算する必要がある分散セットアップにおいて特に深刻になる。 これは、特に多くのマシンでは、不利になる。 本稿では,半教師付きスパース統計推論を分散配置で検討する。 ラベル付きデータとラベル付きデータの両方を統合する効率的なマルチラウンド分散デバイアス推定器を開発した。 ラベルなしのデータを追加することで、各イテレーションのラウンドの統計率が向上することを示す。 本手法は、損失関数の特定の形式に従って、$m$推定と一般化線形モデルのための調整されたデバイアス手法を提供する。 本手法は絶対偏差損失のような非スムース損失にも適用できる。 さらに,このアルゴリズムは高次元逆共分散行列の1つの推定しか必要としないため,計算効率がよい。 提案手法の有効性をシミュレーション研究と実データ応用で示し, ラベルなしデータの導入によるメリットを浮き彫りにした。

The debiased estimator is a crucial tool in statistical inference for high-dimensional model parameters. However, constructing such an estimator involves estimating the high-dimensional inverse Hessian matrix, incurring significant computational costs. This challenge becomes particularly acute in distributed setups, where traditional methods necessitate computing a debiased estimator on every machine. This becomes unwieldy, especially with a large number of machines. In this paper, we delve into semi-supervised sparse statistical inference in a distributed setup. An efficient multi-round distributed debiased estimator, which integrates both labeled and unlabelled data, is developed. We will show that the additional unlabeled data helps to improve the statistical rate of each round of iteration. Our approach offers tailored debiasing methods for $M$-estimation and generalized linear models according to the specific form of the loss function. Our method also applies to a non-smooth loss like absolute deviation loss. Furthermore, our algorithm is computationally efficient since it requires only one estimation of a high-dimensional inverse covariance matrix. We demonstrate the effectiveness of our method by presenting simulation studies and real data applications that highlight the benefits of incorporating unlabeled data.
翻訳日:2023-12-18 19:20:38 公開日:2023-12-15
# K'arolyh\'azyモデルの検証可能性について

On the testability of the K\'arolyh\'azy model ( http://arxiv.org/abs/2306.10094v3 )

ライセンス: Link先を確認
Laria Figurato, Angelo Bassi, Sandro Donadi(参考訳) k\'arolyh\'azy の元々の提案は、時空揺らぎが宇宙空間における非一貫性の源になり得ることを示唆しており、予期せぬほど高い放射の放出(最新の実験で観測されたよりも13桁大きい)のために大きな課題に直面した。 この問題に対処するために、K\'arolyh\'azy の確率的計量ゆらぎは波動方程式に従わなければならないという仮定を再評価した。 時空変動のより一般的な相関関数を考慮し、この問題を解決し、上記の提案を復活させる。

K\'arolyh\'azy's original proposal, suggesting that space-time fluctuations could be a source of decoherence in space, faced a significant challenge due to an unexpectedly high emission of radiation (13 orders of magnitude more than what was observed in the latest experiment). To address this issue, we reevaluated K\'arolyh\'azy's assumption that the stochastic metric fluctuation must adhere to a wave equation. By considering more general correlation functions of space-time fluctuations, we resolve the problem and consequently revive the aforementioned proposal.
翻訳日:2023-12-18 19:20:21 公開日:2023-12-15
# GPT-3の個人性検査 : 時間的信頼性に限界があるが、GPT-3の人格測定結果の社会的欲求性を強調した

Personality testing of GPT-3: Limited temporal reliability, but highlighted social desirability of GPT-3's personality instruments results ( http://arxiv.org/abs/2306.04308v2 )

ライセンス: Link先を確認
Bojana Bodroza, Bojana M. Dinic and Ljubisa Bojic(参考訳) aiボットは、人間のような特性とユーザーへの親密さのために人気が高まり続けているため、必然的にその社会的影響は拡大する。 これにより、包括的な研究がAIボットを完全に理解し、その可能性、欠点、全体的な社会的影響を明らかにする必要性が高まる。 そこで本研究では,人格プロファイルの時間的信頼性を評価することを目的として,知名度の高いAIボットChatGPT3について広範な調査を行った。 チャットボットに対して, 心理的質問紙を2回に分けて実施し, 次いで人間規範データとの比較を行った。 その結果,チャットボットの反応は時間とともに変化し,いくつかの尺度では優れた一致を示した。 概して、ダヴィンチ-003は社会的に望ましい社会的パーソナリティプロファイルを示し、特にコミュニオンの領域で顕著であった。 しかし、意識的な自己反射や所定のアルゴリズムによって駆動されるチャットボットの応答の基盤は不確かである。

As AI-bots continue to gain popularity due to their human-like traits and the intimacy they offer to users, their societal impact inevitably expands. This leads to the rising necessity for comprehensive studies to fully understand AI-bots and reveal their potential opportunities, drawbacks, and overall societal impact. With that in mind, this research conducted an extensive investigation into ChatGPT3, a renowned AI bot, aiming to assess the temporal reliability of its personality profile. Psychological questionnaires were administered to the chatbot on two separate occasions, followed by a comparison of the responses to human normative data. The findings revealed varying levels of agreement in chatbot's responses over time, with some scales displaying excellent agreement while others demonstrated poor agreement. Overall, Davinci-003 displayed a socially desirable and pro-social personality profile, particularly in the domain of communion. However, the underlying basis of the chatbot's responses-whether driven by conscious self reflection or predetermined algorithms-remains uncertain.
翻訳日:2023-12-18 19:20:08 公開日:2023-12-15
# qudit量子力学のフレーム表現

Frame representations of qudit quantum mechanics ( http://arxiv.org/abs/2305.19287v7 )

ライセンス: Link先を確認
Nicolae Cotfas(参考訳) quditsのwigner関数を定義する試みは数多くあり、それぞれにその利点と限界がある。 既存の有限バージョンは単純な定義を持つが、構成上は人工的であり、直感的な状態解析を許さない。 連続バージョンはより複雑な定義を持つが、元のウィグナー関数と類似しており、量子状態の可視化を可能にする。 我々が提示するタイトフレームの概念に基づくバージョンは有限であるが、連続バージョンと似た特性と応用がある。

There exist many attempts to define a Wigner function for qudits, each of them coming with its advantages and limitations. The existing finite versions have simple definitions, but they are artificial in their construction and do not allow an intuitive state analysis. The continuous versions have more complicated definitions, but they are similar to the original Wigner function and allow a visualization of the quantum states. The version based on the concept of tight frame we present is finite, but it has certain properties and applications similar to those of continuous versions.
翻訳日:2023-12-18 19:19:46 公開日:2023-12-15
# LLMは暗号化プロンプトを理解できる:プライバシーに配慮したフレンドリーなトランスフォーマーを目指して

LLMs Can Understand Encrypted Prompt: Towards Privacy-Computing Friendly Transformers ( http://arxiv.org/abs/2305.18396v3 )

ライセンス: Link先を確認
Xuanqi Liu and Zhuotao Liu(参考訳) コミュニティは、サーバがモデルパラメータを保持し、クライアントが推論のためにプライベートデータ(またはプロンプト)を入力するサーバークライアント設定で、トランスフォーマーベースの大規模言語モデル(LLM)のためのプライベート推論フレームワークを構築することを模索した。 しかし、これらのフレームワークは、プライベートインプットが元のllmを通じて前方に伝播するときに大きなオーバーヘッドを課す。 本稿では,プライバシ計算フレンドリー近似を用いたトランスフォーマアーキテクチャにおける計算・通信重演算子の置換により,モデル性能への影響が極めて小さい一方で,プライベート推論コストを大幅に削減できることを示す。 最先端のiron(neurips 2022)と比較して、当社のプライバシコンピューティングフレンドリーなモデル推論パイプラインは、ほぼ同じ精度を維持しながら、計算速度が5\times$で、通信オーバーヘッドが80%削減されます。

The community explored to build private inference frameworks for transformer-based large language models (LLMs) in a server-client setting, where the server holds the model parameters and the client inputs its private data (or prompt) for inference. However, these frameworks impose significant overhead when the private inputs are forward propagated through the original LLMs. In this paper, we show that substituting the computation- and communication-heavy operators in the transformer architecture with privacy-computing friendly approximations can greatly reduce the private inference costs while incurring very minor impact on model performance. Compared to state-of-the-art Iron (NeurIPS 2022), our privacy-computing friendly model inference pipeline achieves a $5\times$ acceleration in computation and an 80% reduction in communication overhead, while retaining nearly identical accuracy.
翻訳日:2023-12-18 19:19:37 公開日:2023-12-15
# 3D-MuPPET:3次元マルチピジョンポーズ推定と追跡

3D-MuPPET: 3D Multi-Pigeon Pose Estimation and Tracking ( http://arxiv.org/abs/2308.15316v3 )

ライセンス: Link先を確認
Urs Waldmann, Alex Hoi Hang Chan, Hemal Naik, M\'at\'e Nagy, Iain D. Couzin, Oliver Deussen, Bastian Goldluecke, Fumihiro Kano(参考訳) 動物の姿勢追跡のためのマーカーレス手法は近年急速に発展しているが、3dで大きな動物集団を追跡するためのフレームワークやベンチマークはまだ不足している。 このギャップを克服するために,複数のカメラビューを用いて,最大10羽のハトを対話的速度で3Dポーズを推定・追跡する3D-MuPPETを提案する。 ポーズ推定器を訓練して、2Dのキーポイントと複数のハトのバウンディングボックスを推定し、キーポイントを3Dに三角測量する。 すべてのビューにおける個人識別マッチングにおいて、まず最初に第1フレームにおけるグローバルIDに対する2D検出を動的にマッチングし、次に2Dトラッカーを使用して、その後のフレームにおけるビュー間のIDを維持する。 正解率の中央値誤差と正解率の点で, art 3次元ポーズ推定器の状態と同等の精度が得られる。 さらに,3D-MuPPETの推定速度を2Dで9.45fps,3Dで1.89fpsとベンチマークし,定量的な追跡評価を行い,その結果を得た。 最後に、3D-MuPPETの2つの新しい応用を紹介した。 まず,1羽のハトのデータを用いてモデルを訓練し,最大5羽のハトに対して2次元および3次元姿勢推定で同等の結果を得る。 第2に、3D-MuPPETは自然環境からのアノテーションを伴わずに屋外でも動作することを示す。 どちらのユースケースも、新しい種や環境へのドメインシフトを単純化し、3D姿勢追跡に必要なアノテーションの労力を大幅に削減する。 我々の知る限りでは、最大10人までの屋内および屋外環境で動作する2D/3D動物の姿勢と軌跡追跡のためのフレームワークを最初に提示する。 動物集団行動研究の新たな機会を開拓し、3D多動物姿勢追跡のさらなる発展を促すことを願っている。

Markerless methods for animal posture tracking have been rapidly developing recently, but frameworks and benchmarks for tracking large animal groups in 3D are still lacking. To overcome this gap in the literature, we present 3D-MuPPET, a framework to estimate and track 3D poses of up to 10 pigeons at interactive speed using multiple camera views. We train a pose estimator to infer 2D keypoints and bounding boxes of multiple pigeons, then triangulate the keypoints to 3D. For identity matching of individuals in all views, we first dynamically match 2D detections to global identities in the first frame, then use a 2D tracker to maintain IDs across views in subsequent frames. We achieve comparable accuracy to a state of the art 3D pose estimator in terms of median error and Percentage of Correct Keypoints. Additionally, we benchmark the inference speed of 3D-MuPPET, with up to 9.45 fps in 2D and 1.89 fps in 3D, and perform quantitative tracking evaluation, which yields encouraging results. Finally, we showcase two novel applications for 3D-MuPPET. First, we train a model with data of single pigeons and achieve comparable results in 2D and 3D posture estimation for up to 5 pigeons. Second, we show that 3D-MuPPET also works in outdoors without additional annotations from natural environments. Both use cases simplify the domain shift to new species and environments, largely reducing annotation effort needed for 3D posture tracking. To the best of our knowledge we are the first to present a framework for 2D/3D animal posture and trajectory tracking that works in both indoor and outdoor environments for up to 10 individuals. We hope that the framework can open up new opportunities in studying animal collective behaviour and encourages further developments in 3D multi-animal posture tracking.
翻訳日:2023-12-18 19:13:06 公開日:2023-12-15
# OEBench: 実世界のリレーショナルデータストリームにおけるオープン環境問題の調査

OEBench: Investigating Open Environment Challenges in Real-World Relational Data Streams ( http://arxiv.org/abs/2308.15059v3 )

ライセンス: Link先を確認
Yiqun Diao, Yutong Yang, Qinbin Li, Bingsheng He, Mian Lu(参考訳) リレーショナルデータストリームからの洞察をタイムリーに取得する方法は、ホットな研究トピックです。 データストリームは、分散ドリフト、外れ値、新興クラス、そして最近機械学習のオープン環境課題として説明されている機能変更など、ユニークな課題を提示することができる。 データストリームの漸進的学習に関する既存の研究は行われているが、その評価は主に合成データセットを用いて行われている。 したがって、自然な疑問は、これらのオープン環境の課題がどのようなもので、既存のインクリメンタル学習アルゴリズムが現実世界のリレーショナルデータストリームでどのように機能するかである。 このギャップを埋めるために,OEBenchというオープン環境ベンチマークを開発し,実世界のリレーショナルデータストリームにおけるオープン環境の課題を評価する。 具体的には,55個の実世界のリレーショナルデータストリームを調査し,オープン環境シナリオが実際に広く普及していることを確認する。 既存のインクリメンタル学習アルゴリズムによるベンチマークを通じて、データ量の増加は、実世界のデータストリームにおける値の欠如、分散ドリフト、異常によって機械学習モデルを著しく損なう可能性があるオープン環境シナリオに適用された場合、モデルの精度を一貫して向上させるものではないことが分かりました。 現在の技術は、オープン環境がもたらすこれらの課題を効果的に緩和するには不十分である。 現実世界のオープン環境問題に対処するためには、さらなる研究が必要である。 すべてのデータセットとコードはhttps://github.com/sjtudyq/OEBenchで公開されている。

How to get insights from relational data streams in a timely manner is a hot research topic. Data streams can present unique challenges, such as distribution drifts, outliers, emerging classes, and changing features, which have recently been described as open environment challenges for machine learning. While existing studies have been done on incremental learning for data streams, their evaluations are mostly conducted with synthetic datasets. Thus, a natural question is how those open environment challenges look like and how existing incremental learning algorithms perform on real-world relational data streams. To fill this gap, we develop an Open Environment Benchmark named OEBench to evaluate open environment challenges in real-world relational data streams. Specifically, we investigate 55 real-world relational data streams and establish that open environment scenarios are indeed widespread, which presents significant challenges for stream learning algorithms. Through benchmarks with existing incremental learning algorithms, we find that increased data quantity may not consistently enhance the model accuracy when applied in open environment scenarios, where machine learning models can be significantly compromised by missing values, distribution drifts, or anomalies in real-world data streams. The current techniques are insufficient in effectively mitigating these challenges brought by open environments. More researches are needed to address real-world open environment challenges. All datasets and code are open-sourced in https://github.com/sjtudyq/OEBench.
翻訳日:2023-12-18 19:12:33 公開日:2023-12-15
# 3ディスク散乱系の共鳴状態

Resonance states of the three-disk scattering system ( http://arxiv.org/abs/2308.12783v2 )

ライセンス: Link先を確認
Jan Robert Schmidt, Roland Ketzmerick(参考訳) パラダイム的3次元散乱系では、共振状態は2つの因子からなると主張する開カオス系の最近の予想を確認する。 特に、一因子が普遍指数分布の強度ゆらぎによって与えられることを示す。 他の因子は共鳴状態の寿命に依存する古典的な密度であると考えられており、古典的な構成によって非常によく説明されている。 さらに, 誘電体キャビティで最近観測された光線痕は, 3点散乱系においても小さな波長で全ての共鳴状態を支配している。 本稿では, 半古典的限界にさらに踏み込むことができる, 共鳴計算のための新しい数値計算法を提案する。 その結果、フラクタルワイルの法則を対応する広い範囲にわたって確認することができる。

For the paradigmatic three-disk scattering system, we confirm a recent conjecture for open chaotic systems, which claims that resonance states are composed of two factors. In particular, we demonstrate that one factor is given by universal exponentially distributed intensity fluctuations. The other factor, supposed to be a classical density depending on the lifetime of the resonance state, is found to be very well described by a classical construction. Furthermore, ray-segment scars, recently observed in dielectric cavities, dominate every resonance state at small wavelengths also in the three-disk scattering system. We introduce a new numerical method for computing resonances, which allows for going much further into the semiclassical limit. As a consequence we are able to confirm the fractal Weyl law over a correspondingly large range.
翻訳日:2023-12-18 19:12:07 公開日:2023-12-15
# safear: リスクアウェアポリシによるより安全なアルゴリズムリコースに向けて

SafeAR: Towards Safer Algorithmic Recourse by Risk-Aware Policies ( http://arxiv.org/abs/2308.12367v2 )

ライセンス: Link先を確認
Haochen Wu, Shubham Sharma, Sunandita Patra, Sriram Gopalakrishnan(参考訳) 金融や医療といった重要な分野における機械学習(ML)モデルの利用の増加に伴い、MLモデルの決定に悪影響を及ぼす人々に対して、レコメンデーションを提供する必要性が高まっている。 一連の変更を推奨するシーケンシャルアルゴリズムのリコースに関する以前の作業は、アクションの実現性を重視し、機能変更の近接を利用してアクションコストを決定する。 しかし,リコースにおける特徴変化の不確実性と平均コストよりも高いリスクは考慮されていない。 もしリカバリが極めて高いコストを必要とする状況で(ある程度の確率で)悪化する可能性があるなら、それは望ましくない。 再帰を計算し評価する場合、リスクを組み込むことが不可欠である。 サファーアルゴリズム・リコース(SafeAR)のようなリスクを考慮したリコースを計算した。 その目的は、リスク許容度に基づいてリコースを選択する権限を人々に与えることだ。 本研究では,既存のデシラタが高コストのリスクを捕捉できないことを議論し,示す。 本稿では,コストの変動性を考慮したリコースポリシを算出し,アルゴリズムリコース文献とリスクに敏感な強化学習を結びつける手法を提案する。 また、リスクを簡潔に要約するために、金融文献から「リスク価値」と「リスク条件価値」を取り入れる。 提案手法を実世界の2つのデータセットに適用し,リスク尺度とレコース・デシダータ(スパーシティと近接性)を用いて,異なるリスク回避レベルでポリシーを比較する。

With the growing use of machine learning (ML) models in critical domains such as finance and healthcare, the need to offer recourse for those adversely affected by the decisions of ML models has become more important; individuals ought to be provided with recommendations on actions to take for improving their situation and thus receiving a favorable decision. Prior work on sequential algorithmic recourse -- which recommends a series of changes -- focuses on action feasibility and uses the proximity of feature changes to determine action costs. However, the uncertainties of feature changes and the risk of higher than average costs in recourse have not been considered. It is undesirable if a recourse could (with some probability) result in a worse situation from which recovery requires an extremely high cost. It is essential to incorporate risks when computing and evaluating recourse. We call the recourse computed with such risk considerations as Safer Algorithmic Recourse (SafeAR). The objective is to empower people to choose a recourse based on their risk tolerance. In this work, we discuss and show how existing recourse desiderata can fail to capture the risk of higher costs. We present a method to compute recourse policies that consider variability in cost and connect algorithmic recourse literature with risk-sensitive reinforcement learning. We also adopt measures "Value at Risk" and "Conditional Value at Risk" from the financial literature to summarize risk concisely. We apply our method to two real-world datasets and compare policies with different risk-aversion levels using risk measures and recourse desiderata (sparsity and proximity).
翻訳日:2023-12-18 19:11:55 公開日:2023-12-15
# VadCLIP:弱教師付きビデオ異常検出のための視覚言語モデルへの適応

VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2308.11681v3 )

ライセンス: Link先を確認
Peng Wu, Xuerong Zhou, Guansong Pang, Lingru Zhou, Qingsen Yan, Peng Wang, Yanning Zhang(参考訳) 最近のコントラスト言語画像事前学習(CLIP)モデルは、幅広い画像レベルのタスクで大きな成功を収めており、リッチなセマンティクスで強力な視覚表現を学習する驚くべき能力を示している。 オープンで価値のある問題は、そのような強力なモデルをビデオ領域に効率的に適応させ、堅牢なビデオ異常検知器を設計することである。 本研究では,凍結したCLIPモデルを事前学習や微調整を行うことなく直接利用することにより,弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。 フレームレベルのバイナリ分類のための弱い教師付き分類器に抽出された特徴を直接供給する現在の作業とは異なり、VadCLIPはCLIPの強度で視覚と言語の間のきめ細かい関連をフル活用し、二重分岐を伴う。 1つのブランチは、粗粒度のバイナリ分類に視覚的特徴を単純に利用し、もう1つは細粒度の言語イメージアライメントを完全に活用する。 二重分岐の利点により、VadCLIPはCLIPからWSVADタスクに事前学習した知識を転送することで、粗粒度と細粒度の両方の動画異常検出を実現する。 我々は2つの一般的なベンチマーク実験を行い、VadCLIPが粗粒度と細粒度の両方で最高の性能を達成し、最先端の手法を大きなマージンで上回っていることを示す。 具体的には、VadCLIPは84.51%APと88.02%AUCをそれぞれXD-ViolenceとUCF-Crimeで達成している。 コードと機能はhttps://github.com/nwpu-zxr/VadCLIPで公開されている。

The recent contrastive language-image pre-training (CLIP) model has shown great success in a wide range of image-level tasks, revealing remarkable ability for learning powerful visual representations with rich semantics. An open and worthwhile problem is efficiently adapting such a strong model to the video domain and designing a robust video anomaly detector. In this work, we propose VadCLIP, a new paradigm for weakly supervised video anomaly detection (WSVAD) by leveraging the frozen CLIP model directly without any pre-training and fine-tuning process. Unlike current works that directly feed extracted features into the weakly supervised classifier for frame-level binary classification, VadCLIP makes full use of fine-grained associations between vision and language on the strength of CLIP and involves dual branch. One branch simply utilizes visual features for coarse-grained binary classification, while the other fully leverages the fine-grained language-image alignment. With the benefit of dual branch, VadCLIP achieves both coarse-grained and fine-grained video anomaly detection by transferring pre-trained knowledge from CLIP to WSVAD task. We conduct extensive experiments on two commonly-used benchmarks, demonstrating that VadCLIP achieves the best performance on both coarse-grained and fine-grained WSVAD, surpassing the state-of-the-art methods by a large margin. Specifically, VadCLIP achieves 84.51% AP and 88.02% AUC on XD-Violence and UCF-Crime, respectively. Code and features are released at https://github.com/nwpu-zxr/VadCLIP.
翻訳日:2023-12-18 19:11:21 公開日:2023-12-15
# 位置埋め込み型事前学習モデルに基づく新しいehanced move recognitionアルゴリズム

A Novel Ehanced Move Recognition Algorithm Based on Pre-trained Models with Positional Embeddings ( http://arxiv.org/abs/2308.10822v2 )

ライセンス: Link先を確認
Hao Wen, Jie Wang, Xiaodong Qiao(参考訳) 要約の認識は、内容の特定と記事の明確化に不可欠である。 既存の移動認識アルゴリズムは、単語の位置情報を学習して文脈意味論を得る能力がない。 本稿では,中国の科学技術論文の非構造化要約のための注意機構を備えた,事前学習モデルとゲートネットワークを改良した新しい拡張移動認識アルゴリズムを提案する。 提案アルゴリズムは,まず要約データセグメンテーションと語彙訓練を行う。 ep-ernie$\_$at-gruフレームワークは、単語の位置情報を組み込むことで、深い意味学習とターゲット機能抽出を促進する。 実験の結果,提案アルゴリズムは分割データセットの精度が元のデータセットよりも13.37$\%高いこと,基本比較モデルよりも7.55$\%高い精度が得られた。

The recognition of abstracts is crucial for effectively locating the content and clarifying the article. Existing move recognition algorithms lack the ability to learn word position information to obtain contextual semantics. This paper proposes a novel enhanced move recognition algorithm with an improved pre-trained model and a gated network with attention mechanism for unstructured abstracts of Chinese scientific and technological papers. The proposed algorithm first performs summary data segmentation and vocabulary training. The EP-ERNIE$\_$AT-GRU framework is leveraged to incorporate word positional information, facilitating deep semantic learning and targeted feature extraction. Experimental results demonstrate that the proposed algorithm achieves 13.37$\%$ higher accuracy on the split dataset than on the original dataset and a 7.55$\%$ improvement in accuracy over the basic comparison model.
翻訳日:2023-12-18 19:10:49 公開日:2023-12-15
# 量子ニューラルネットワークのランダム性エンハンスド表現性

Randomness-enhanced expressivity of quantum neural networks ( http://arxiv.org/abs/2308.04740v2 )

ライセンス: Link先を確認
Yadong Wu, Juan Yao, Pengfei Zhang and Xiaopeng Li(参考訳) 人工知能と量子コンピューティングのハイブリッドとして、量子ニューラルネットワーク(QNN)は、短期的、ノイズの多い中間規模量子(NISQ)デバイスへの有望な応用として注目されている。 従来のQNNは、量子状態のユニタリ演算と測定を行うパラメタライズド量子回路によって記述される。 本研究では,量子回路にランダム性を導入することにより,QNNの表現性を高める新しい手法を提案する。 具体的には,学習可能なアンサンブルプールからサンプリングされた単一キュービットゲートを含むランダム層を導入する。 QNNの予測は、測定結果の古典的な関数に対してアンサンブル平均で表現される。 本手法は,可観測学習を可能にするuhlmannの定理を用いて,任意の対象作用素を正確に近似できることを実証する。 提案手法は,観測可能学習,R'enyiエントロピー測定,画像認識など,広範な数値実験により実証された。 量子機械学習に広く応用できる複数の学習タスクに対してランダム性を導入することにより,QNNの表現性が向上することを発見した。

As a hybrid of artificial intelligence and quantum computing, quantum neural networks (QNNs) have gained significant attention as a promising application on near-term, noisy intermediate-scale quantum (NISQ) devices. Conventional QNNs are described by parametrized quantum circuits, which perform unitary operations and measurements on quantum states. In this work, we propose a novel approach to enhance the expressivity of QNNs by incorporating randomness into quantum circuits. Specifically, we introduce a random layer, which contains single-qubit gates sampled from an trainable ensemble pooling. The prediction of QNN is then represented by an ensemble average over a classical function of measurement outcomes. We prove that our approach can accurately approximate arbitrary target operators using Uhlmann's theorem for majorization, which enables observable learning. Our proposal is demonstrated with extensive numerical experiments, including observable learning, R\'enyi entropy measurement, and image recognition. We find the expressivity of QNNs is enhanced by introducing randomness for multiple learning tasks, which could have broad application in quantum machine learning.
翻訳日:2023-12-18 19:09:59 公開日:2023-12-15
# コンフォメーション予測による無線チャネル上の信頼性不確実性定量化を用いたフェデレーション推定

Federated Inference with Reliable Uncertainty Quantification over Wireless Channels via Conformal Prediction ( http://arxiv.org/abs/2308.04237v2 )

ライセンス: Link先を確認
Meiyi Zhu, Matteo Zecchin, Sangwoo Park, Caili Guo, Chunyan Feng, Osvaldo Simeone(参考訳) 本稿では,デバイスとサーバが事前学習された機械学習モデルを共有する無線フェデレーション推論シナリオについて考察する。 デバイスは、ローカルデータに関する統計情報を共通の無線チャネルを介してサーバに伝達し、サーバにおける推論決定の質を高める。 最近の研究では、デバイス間通信を利用してサーバの決定の信頼性を向上させるfederated conformal prediction(cp)が導入されている。 連合CPでは、デバイスがローカルデータ上で共有事前学習モデルによって得られた損失に関するサーバ情報と通信し、サーバは、この情報を利用して決定間隔や設定を校正し、予め定義された目標信頼性レベルに正しい回答を含むことが保証される。 以前の作業ではノイズのない通信を想定しており、デバイスは1つの実数をサーバに通信できる。 本稿では,無線環境下での初となるフェデレーションCPについて検討する。 本稿では,タイプベース多重アクセス(TBMA)と新しい量子補正戦略に基づく新しいプロトコルWFCPを提案する。 WFCPは、サーバが生成した予測セットのカバレッジに関して、正式な信頼性を保証することが証明されている。 計算結果を用いて、既存の連合CP方式のデジタル実装に対するWFCPの顕著なアドバンテージを、特に限られた通信資源や多数のデバイスで示している。

In this paper, we consider a wireless federated inference scenario in which devices and a server share a pre-trained machine learning model. The devices communicate statistical information about their local data to the server over a common wireless channel, aiming to enhance the quality of the inference decision at the server. Recent work has introduced federated conformal prediction (CP), which leverages devices-to-server communication to improve the reliability of the server's decision. With federated CP, devices communicate to the server information about the loss accrued by the shared pre-trained model on the local data, and the server leverages this information to calibrate a decision interval, or set, so that it is guaranteed to contain the correct answer with a pre-defined target reliability level. Previous work assumed noise-free communication, whereby devices can communicate a single real number to the server. In this paper, we study for the first time federated CP in a wireless setting. We introduce a novel protocol, termed wireless federated conformal prediction (WFCP), which builds on type-based multiple access (TBMA) and on a novel quantile correction strategy. WFCP is proved to provide formal reliability guarantees in terms of coverage of the predicted set produced by the server. Using numerical results, we demonstrate the significant advantages of WFCP against digital implementations of existing federated CP schemes, especially in regimes with limited communication resources and/or large number of devices.
翻訳日:2023-12-18 19:09:43 公開日:2023-12-15
# 多成分2成分量子相関とその3種類の測度

Multipartite Two-partite Quantum Correlation and Its Three Types of Measures ( http://arxiv.org/abs/2308.03044v5 )

ライセンス: Link先を確認
Jing-Min Zhu(参考訳) MQC (Multipartite quantum correlation) は多くの新しい微視的およびマクロ的な量子現象を説明できるだけでなく、優れた特定の量子技術にも期待できる。 MQCの説明と測定は、リッチで複雑な組織と構造のため、オープンなトピックである。 本稿では,いくつかの量子技術におけるmqc記述とその実用的応用を再考し,直観的かつ明快な物理像を提供する多成分2成分qcと呼ばれる新しい記述を提案する。 Specifically, we present three types of measures: one class based on minimal entropy-like difference of local measurement fore-and-aft multipartite two-partite density matrix such as multipartite two-partite quantum discord (QD), another class based on minimal trace-like geometric distance such as multipartite two-partite Hilbert-Schmidt Distance (HSD), and a third class based on decoherence such as multipartite two-partite Local Measurement-Induced Minimal Decoherence (LMIMD) and Local Eigen-Measurement-Induced Decoherence (LEMID). これらの測定に必要な計算は比較的容易である。 これらすべての利点は、様々な量子技術における特定の潜在的な応用への有望な候補となる。 最後に,これら3つの尺度を用いて,本質的mqcsの構成と構造を探索し,それらの物理的意味と数学的構造に基づく相対的特性を解析した。

Multipartite quantum correlation (MQC) not only explains many novel microscopic and macroscopic quantum phenomena, but also holds promise for specific quantum technologies with superiorities. MQCs descriptions and measures have been an open topic, due to their rich and complex organization and structure. Here reconsidering MQC descriptions and their practical applications in some quantum technologies, we propose a novel description called multipartite two-partite QC, which provides an intuitive and clear physical picture. Specifically, we present three types of measures: one class based on minimal entropy-like difference of local measurement fore-and-aft multipartite two-partite density matrix such as multipartite two-partite quantum discord (QD), another class based on minimal trace-like geometric distance such as multipartite two-partite Hilbert-Schmidt Distance (HSD), and a third class based on decoherence such as multipartite two-partite Local Measurement-Induced Minimal Decoherence (LMIMD) and Local Eigen-Measurement-Induced Decoherence (LEMID). Their computations required for these measures are relatively easy. All of the advantages make them promising candidates for specific potential applications in various quantum technologies. Finally, we employ these three types of measures to explore the organization and structure of some typical genuine MQCs, and analyze their relative characteristics based on their physical implications and mathematical structures.
翻訳日:2023-12-18 19:09:17 公開日:2023-12-15
# 弱アノテーションを用いたビデオオブジェクトセグメンテーションの学習

Learning Referring Video Object Segmentation from Weak Annotation ( http://arxiv.org/abs/2308.02162v2 )

ライセンス: Link先を確認
Wangbo Zhao, Kepan Nan, Songyang Zhang, Kai Chen, Dahua Lin, Yang You(参考訳) RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化するタスクである。 既存の RVOS 手法は性能は高いが,高コストで取得に時間がかかる高密度なアノテーション付きデータセットに依存している。 本稿では, RVOS を十分に監視しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。 私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。 本研究では,弱いアノテーションを効果的に活用する新しいRVOS手法を提案する。 具体的には,アノテーションの弱いRVOSに対して,シンプルだが効果的なベースラインモデルであるSimRVOSを構築した。 そこで我々は,あるフレームから言語誘導された動的フィルタを用いて,対象オブジェクトを他のフレームに分割し,貴重なマスクアノテーションとバウンディングボックスを徹底的に活用するクロスフレームセグメンテーションモジュールを設計する。 最後に,モデルの画素レベル判別表現を弱アノテーションで強化する2レベルコントラスト学習法を開発した。 マスクアノテーションを必要とせずに,本手法が完全教師付き手法と同等あるいはそれ以上の性能を発揮することを示すため,広範囲な実験を行った。

Referring video object segmentation (RVOS) is a task that aims to segment the target object in all video frames based on a sentence describing the object. Although existing RVOS methods have achieved significant performance, they depend on densely-annotated datasets, which are expensive and time-consuming to obtain. In this paper, we propose a new annotation scheme that reduces the annotation effort by 8 times, while providing sufficient supervision for RVOS. Our scheme only requires a mask for the frame where the object first appears and bounding boxes for the rest of the frames. Based on this scheme, we develop a novel RVOS method that exploits weak annotations effectively. Specifically, we build a simple but effective baseline model, SimRVOS, for RVOS with weak annotation. Then, we design a cross frame segmentation module, which uses the language-guided dynamic filters from one frame to segment the target object in other frames to thoroughly leverage the valuable mask annotation and bounding boxes. Finally, we develop a bi-level contrastive learning method to enhance the pixel-level discriminative representation of the model with weak annotation. We conduct extensive experiments to show that our method achieves comparable or even superior performance to fully-supervised methods, without requiring dense mask annotations.
翻訳日:2023-12-18 19:08:56 公開日:2023-12-15
# 衛星画像を用いたNeRFアーキテクチャによるレンダリングへの季節と太陽特異性の導入

Incorporating Season and Solar Specificity into Renderings made by a NeRF Architecture using Satellite Images ( http://arxiv.org/abs/2308.01262v2 )

ライセンス: Link先を確認
Michael Gableman and Avinash Kak(参考訳) シャドウnerfとsat-nerfの結果として、衛星画像を用いた新しい視点からシーンを訓練するためのnerfベースの枠組みにおいて、太陽角度を考慮に入れることができる。 私たちの作品は、これらのコントリビューションを拡張し、どのようにしてレンダリングシーズンを特定できるかを示します。 私たちの主な課題は、視角と太陽の角度とは無関係に季節的な特徴をレンダリングし、影をレンダリングできるニューラル・ラジアンス・フィールド(nerf)を作ることでした。 私たちはネットワークに1つの入力変数(年の時間)を導入することで季節的な特徴を表現できるように教えています。 しかし、衛星画像に典型的な小さな訓練データセットは、特定の季節のイメージごとに影が同じ場所に存在している場合、曖昧さをもたらす可能性がある。 我々は、ネットワークがシャドウの会計に季節的特徴を使用するのを妨げるために、損失関数に追加条件を追加する。 我々は、maxar worldview-3衛星が撮影した画像を含む8つの関心領域におけるネットワークの性能を示す。 この評価には、新しいビューを正確にレンダリングし、高さマップを生成し、シャドウを予測し、シャドウから独立して季節の特徴を特定するフレームワークの能力を測定するテストが含まれる。 我々のアブレーション研究は、ネットワーク設計パラメータの選択を正当化する。

As a result of Shadow NeRF and Sat-NeRF, it is possible to take the solar angle into account in a NeRF-based framework for rendering a scene from a novel viewpoint using satellite images for training. Our work extends those contributions and shows how one can make the renderings season-specific. Our main challenge was creating a Neural Radiance Field (NeRF) that could render seasonal features independently of viewing angle and solar angle while still being able to render shadows. We teach our network to render seasonal features by introducing one more input variable -- time of the year. However, the small training datasets typical of satellite imagery can introduce ambiguities in cases where shadows are present in the same location for every image of a particular season. We add additional terms to the loss function to discourage the network from using seasonal features for accounting for shadows. We show the performance of our network on eight Areas of Interest containing images captured by the Maxar WorldView-3 satellite. This evaluation includes tests measuring the ability of our framework to accurately render novel views, generate height maps, predict shadows, and specify seasonal features independently from shadows. Our ablation studies justify the choices made for network design parameters.
翻訳日:2023-12-18 19:08:33 公開日:2023-12-15
# CIF-T: 音声認識のための新しいCIFベースのトランスデューサアーキテクチャ

CIF-T: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition ( http://arxiv.org/abs/2307.14132v3 )

ライセンス: Link先を確認
Tian-Hao Zhang, Dinghao Zhou, Guiping Zhong, Jiaming Zhou, Baoxiang Li(参考訳) RNN-Tモデルは、入力オーディオとターゲットシーケンス間の長さアライメントを実現するために、RNN-T損失に依存するASRで広く使われている。 しかし、実装の複雑さとrnn-t損失のアライメントに基づく最適化ターゲットは、それぞれ計算冗長性と予測ネットワークの役割を減少させる。 本稿では,CIF(Continuous Integrate-and-Fire)機構をRNN-Tモデルに組み込んだCIF-Transducer(CIF-T)という新しいモデルを提案する。 このようにして、RNN-T損失は放棄され、計算量が減少し、予測ネットワークがより重要な役割を果たす。 また,Funnel-CIF,Context Blocks,Unified Gating and Bilinear Pooling joint network,およびパフォーマンス向上のための補助的トレーニング戦略についても紹介する。 178時間AISHELL-1と10000時間WnetSpeechデータセットの実験は、CIF-TがRNN-Tモデルと比較して計算オーバーヘッドの少ない最先端の結果を達成することを示した。

RNN-T models are widely used in ASR, which rely on the RNN-T loss to achieve length alignment between input audio and target sequence. However, the implementation complexity and the alignment-based optimization target of RNN-T loss lead to computational redundancy and a reduced role for predictor network, respectively. In this paper, we propose a novel model named CIF-Transducer (CIF-T) which incorporates the Continuous Integrate-and-Fire (CIF) mechanism with the RNN-T model to achieve efficient alignment. In this way, the RNN-T loss is abandoned, thus bringing a computational reduction and allowing the predictor network a more significant role. We also introduce Funnel-CIF, Context Blocks, Unified Gating and Bilinear Pooling joint network, and auxiliary training strategy to further improve performance. Experiments on the 178-hour AISHELL-1 and 10000-hour WenetSpeech datasets show that CIF-T achieves state-of-the-art results with lower computational overhead compared to RNN-T models.
翻訳日:2023-12-18 19:07:55 公開日:2023-12-15
# 不特定オフポリティ値関数推定における最適近似係数

The Optimal Approximation Factors in Misspecified Off-Policy Value Function Estimation ( http://arxiv.org/abs/2307.13332v2 )

ライセンス: Link先を確認
Philip Amortila, Nan Jiang, Csaba Szepesv\'ari(参考訳) 強化学習の理論的保証 (RL) は, 関数近似の誤特定誤差に関して, 乗算的爆破要因を負うことが知られている。 しかし、そのような「emph{approximation factor}」の性質(特に学習問題における最適形)は理解されていない。 本稿では,多くの疑問が残る線形オフ・ポリシー値関数推定において,この問題を考察する。 例えば、重み付けされた$L_2$-norm(重み付けはオフライン状態分布である)、$L_\infty$ norm、状態エイリアスの有無、状態空間の完全対部分カバレッジなどである。 これらすべての設定に対して最適な漸近近似係数(定数まで)を確立する。 特に、境界は、$l_2(\mu)$ノルムの2つのインスタンス依存因子と、誤って特定された場合のオフポリシー評価の困難さを規定する$l_\infty$ノルムの1つを識別する。

Theoretical guarantees in reinforcement learning (RL) are known to suffer multiplicative blow-up factors with respect to the misspecification error of function approximation. Yet, the nature of such \emph{approximation factors} -- especially their optimal form in a given learning problem -- is poorly understood. In this paper we study this question in linear off-policy value function estimation, where many open questions remain. We study the approximation factor in a broad spectrum of settings, such as with the weighted $L_2$-norm (where the weighting is the offline state distribution), the $L_\infty$ norm, the presence vs. absence of state aliasing, and full vs. partial coverage of the state space. We establish the optimal asymptotic approximation factors (up to constants) for all of these settings. In particular, our bounds identify two instance-dependent factors for the $L_2(\mu)$ norm and only one for the $L_\infty$ norm, which are shown to dictate the hardness of off-policy evaluation under misspecification.
翻訳日:2023-12-18 19:07:36 公開日:2023-12-15
# データ依存結合を持つ確率補間体

Stochastic interpolants with data-dependent couplings ( http://arxiv.org/abs/2310.03725v2 )

ライセンス: Link先を確認
Michael S. Albergo, Mark Goldstein, Nicholas M. Boffi, Rajesh Ranganath, Eric Vanden-Eijnden(参考訳) フローや拡散のような測度の動的輸送にインスパイアされた生成モデルは、2つの確率密度の間の連続時間マップを構築する。 従来、これらのうちの1つはターゲット密度であり、サンプルを通してのみアクセス可能であり、もう1つはデータに依存しない単純なベース密度である。 本研究では,確率的補間子の枠組みを用いて,ベースとターゲット密度の \textit{couple} を定式化する。そこで,ベースからのサンプルを,クラスラベルや連続埋め込みに関する情報を組み込んだ(ただし妨げない)方法で,ターゲットからのサンプルを条件付きで計算する。 これにより、条件付き生成モデルとして機能する動的トランスポートマップを構築することができる。 これらのトランスポート写像は、標準独立集合に類似した単純な二乗損失回帰問題を解いて得られることを示す。 超高分解能および in-painting の実験を通じて, 実際に依存結合を構築することの有用性を示す。

Generative models inspired by dynamical transport of measure -- such as flows and diffusions -- construct a continuous-time map between two probability densities. Conventionally, one of these is the target density, only accessible through samples, while the other is taken as a simple base density that is data-agnostic. In this work, using the framework of stochastic interpolants, we formalize how to \textit{couple} the base and the target densities, whereby samples from the base are computed conditionally given samples from the target in a way that is different from (but does preclude) incorporating information about class labels or continuous embeddings. This enables us to construct dynamical transport maps that serve as conditional generative models. We show that these transport maps can be learned by solving a simple square loss regression problem analogous to the standard independent setting. We demonstrate the usefulness of constructing dependent couplings in practice through experiments in super-resolution and in-painting.
翻訳日:2023-12-18 19:01:21 公開日:2023-12-15
# 多目的直接選好最適化における一方向全アライメントの超越

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization ( http://arxiv.org/abs/2310.03708v3 )

ライセンス: Link先を確認
Zhanhui Zhou, Jie Liu, Chao Yang, Jing Shao, Yu Liu, Xiangyu Yue, Wanli Ouyang, Yu Qiao(参考訳) 単一言語モデル(LM)は、人間からのフィードバック(RLHF)からの強化学習を通じて平均的なラベラーと整合するが、多種多様な人間の嗜好に普遍的に適合しない。 したがって、近年のアプローチでは、多次元フィードバックを収集し、各次元(例えば、有用性、無害性、正直性)ごとに異なる報酬モデル(RM)を作成することでカスタマイズを選択できる。 異なるLMは、異なる報酬重み付けを持つ多目的RLHF(MORLHF)を使用して異なる好みに最適化することができる。 しかし、RL微調整は不安定であり、特に多様で通常矛盾する目的を持つMORLHFにとって、資源重大である。 本稿では、最小限のオーバーヘッドで複数のアライメント対象に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムであるMODPOを提案する。 本質的には、MODPOは言語モデリングを直接報酬モデリングに折り畳み、全ての目的を特定の重み付けと組み合わせた暗黙的な集団報酬モデル(cRM)としてLMを訓練する。 理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定で計算的に効率的である。 安全性アライメントと長文質問応答による実証的な結果から、MODPOは既存の手法と一致し、MORLHFに比べて3倍少ない計算資源で様々な好みに対応するLMのParetoフロントを一貫して生成することを確認した。

A single language model (LM), despite aligning well with an average labeler through reinforcement learning from human feedback (RLHF), may not universally suit diverse human preferences. Recent approaches therefore opt for customization by collecting multi-dimensional feedback and creating distinct reward models (RMs) for each dimension (e.g., helpfulness, harmlessness, or honesty). Different LMs can then be optimized for different preferences using multi-objective RLHF (MORLHF) with different reward weightings. Yet, RL fine-tuning is unstable and resource-heavy, especially for MORLHF with diverse and usually conflicting objectives. In this paper, we present Multi-Objective Direct Preference Optimization (MODPO), an RL-free algorithm that extends Direct Preference Optimization (DPO) for multiple alignment objectives with minimal overheads. Essentially, MODPO folds language modeling directly into reward modeling, training LMs as implicit collective reward models (cRMs) that combine all objectives with specific weightings. While theoretically guaranteed to produce the same optimal solutions as MORLHF, MODPO is practically more stable and computationally efficient. Empirical results from safety alignment and long-form question answering confirm that MODPO matches or outperforms existing methods, consistently producing a Pareto front of LMs that cater to diverse preferences with 3 times less computational resources compared to MORLHF.
翻訳日:2023-12-18 19:01:03 公開日:2023-12-15
# 準粒子分解モデルにおける超拡散輸送

Superdiffusive Transport in Quasi-Particle Dephasing Models ( http://arxiv.org/abs/2310.03069v2 )

ライセンス: Link先を確認
Yu-Peng Wang, Chen Fang, and Jie Ren(参考訳) 局所的デファスメントを受ける非相互作用フェルミオンの挙動を調べることにより,準粒子デファスメントが超拡散輸送を誘発することを明らかにした。 この超拡散は、局所的な減圧準粒子の運動量分布内の結節点から生じ、漸近長モードをもたらす。 ウィグナー関数のダイナミクスを研究することによって、これらの持続モードのダイナミクスがl\'evyウォークプロセス(超拡散現象の根底にある有名なメカニズム)をいかに生み出すかを厳密に解明する。 本研究は,準粒子の選択による動的スケーリング指数の制御可能性を示し,その適用性を高次元に拡張し,強調モデルにおける超拡散の浸透性を示す。

Investigating the behavior of noninteracting fermions subjected to local dephasing, we reveal that quasi-particle dephasing can induce superdiffusive transport. This superdiffusion arises from nodal points within the momentum distribution of local dephasing quasi-particles, leading to asymptotic long-lived modes. By studying the dynamics of the Wigner function, we rigorously elucidate how the dynamics of these enduring modes give rise to L\'evy walk processes, a renowned mechanism underlying superdiffusion phenomena. Our research demonstrates the controllability of dynamical scaling exponents by selecting quasi-particles and extends its applicability to higher dimensions, underlining the pervasive nature of superdiffusion in dephasing models.
翻訳日:2023-12-18 19:00:35 公開日:2023-12-15
# コンテキストI2W: ゼロショット合成画像検索のための文脈依存語への画像マッピング

Context-I2W: Mapping Images to Context-dependent Words for Accurate Zero-Shot Composed Image Retrieval ( http://arxiv.org/abs/2309.16137v2 )

ライセンス: Link先を確認
Yuanmin Tang, Jing Yu, Keke Gai, Jiamin Zhuang, Gang Xiong, Yue Hu and Qi Wu(参考訳) タスク固有のモデルのトレーニングに高価なラベルを必要とするComposeed Image Retrievalタスクとは異なり、Zero-Shot Composed Image Retrieval (ZS-CIR)は、ドメイン、シーン、オブジェクト、属性に関連する幅広い視覚的コンテンツ操作意図を持つ多様なタスクを含む。 ZS-CIRタスクの鍵となる課題は、様々な操作記述のための参照画像に適応的な注意を払って、より正確な画像表現を学ぶことである。 本稿では,記述関連画像情報をzs-cirの正確な記述からなる擬似単語トークンに適応的に変換する,コンテキスト依存型マッピングネットワークcontext-i2wを提案する。 具体的には、Intent View Selectorが最初に回転規則を動的に学習し、同一画像をタスク固有の操作ビューにマップする。 次に、Visual Target Extractorは、複数の学習可能なクエリのガイダンスの下で、ZS-CIRタスクの主要なターゲットをカバーするローカル情報をキャプチャする。 2つの補完モジュールは協力して、余分な監督なしに、イメージをコンテキスト依存の擬似ワードトークンにマッピングする。 提案モデルは,zs-cirタスクにおいて,ドメイン変換,オブジェクト構成,オブジェクト操作,属性操作などの強力な一般化能力を示す。 最高の方法よりも1.88%から3.60%の一貫性があり、zs-cirの新たな最先端結果が得られる。 私たちのコードはhttps://github.com/pter61/context-i2wで利用可能です。

Different from Composed Image Retrieval task that requires expensive labels for training task-specific models, Zero-Shot Composed Image Retrieval (ZS-CIR) involves diverse tasks with a broad range of visual content manipulation intent that could be related to domain, scene, object, and attribute. The key challenge for ZS-CIR tasks is to learn a more accurate image representation that has adaptive attention to the reference image for various manipulation descriptions. In this paper, we propose a novel context-dependent mapping network, named Context-I2W, for adaptively converting description-relevant Image information into a pseudo-word token composed of the description for accurate ZS-CIR. Specifically, an Intent View Selector first dynamically learns a rotation rule to map the identical image to a task-specific manipulation view. Then a Visual Target Extractor further captures local information covering the main targets in ZS-CIR tasks under the guidance of multiple learnable queries. The two complementary modules work together to map an image to a context-dependent pseudo-word token without extra supervision. Our model shows strong generalization ability on four ZS-CIR tasks, including domain conversion, object composition, object manipulation, and attribute manipulation. It obtains consistent and significant performance boosts ranging from 1.88% to 3.60% over the best methods and achieves new state-of-the-art results on ZS-CIR. Our code is available at https://github.com/Pter61/context-i2w.
翻訳日:2023-12-18 19:00:20 公開日:2023-12-15
# 映像シーングラフ生成のための空間時間知識埋め込み変換器

Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph Generation ( http://arxiv.org/abs/2309.13237v3 )

ライセンス: Link先を確認
Tao Pu, Tianshui Chen, Hefeng Wu, Yongyi Lu, Liang Lin(参考訳) video scene graph generation (vidsgg) は、視覚シーン内のオブジェクトを識別し、与えられたビデオの関係を推測することを目的としている。 それぞれの物体が全体像に散らばっていることを包括的に理解するだけでなく、時間的動きや相互作用を深く掘り下げる必要がある。 因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受し、VidSGGモデル学習と推論を容易にする事前知識として機能する。 本研究では,従来の空間的時間的知識を多面的相互認識機構に組み込んだ空間的時間的知識埋め込み変換器(STKET)を提案する。 具体的には,空間的共起と時間的遷移の相関を統計的に学習する。 次に、空間的および時間的知識埋め込み層をデザインし、視覚表現と知識との相互作用を十分に探究し、空間的および時間的知識埋め込み表現を生成するマルチヘッドクロスアテンション機構を導入する。 最後に、各対象物対にこれらの表現を集約し、最終的な意味ラベルとその関係を予測する。 大規模な実験では、STKETは現在の競合アルゴリズムよりも大きなマージンで、例えばmR@50を8.1%、4.7%、そして2.1%改善している。

Video scene graph generation (VidSGG) aims to identify objects in visual scenes and infer their relationships for a given video. It requires not only a comprehensive understanding of each object scattered on the whole scene but also a deep dive into their temporal motions and interactions. Inherently, object pairs and their relationships enjoy spatial co-occurrence correlations within each image and temporal consistency/transition correlations across different images, which can serve as prior knowledge to facilitate VidSGG model learning and inference. In this work, we propose a spatial-temporal knowledge-embedded transformer (STKET) that incorporates the prior spatial-temporal knowledge into the multi-head cross-attention mechanism to learn more representative relationship representations. Specifically, we first learn spatial co-occurrence and temporal transition correlations in a statistical manner. Then, we design spatial and temporal knowledge-embedded layers that introduce the multi-head cross-attention mechanism to fully explore the interaction between visual representation and the knowledge to generate spatial- and temporal-embedded representations, respectively. Finally, we aggregate these representations for each subject-object pair to predict the final semantic labels and their relationships. Extensive experiments show that STKET outperforms current competing algorithms by a large margin, e.g., improving the mR@50 by 8.1%, 4.7%, and 2.1% on different settings over current algorithms.
翻訳日:2023-12-18 18:59:53 公開日:2023-12-15
# 順序保存シーケンスモデリングのための変分コネクショナリスト時間分類

Variational Connectionist Temporal Classification for Order-Preserving Sequence Modeling ( http://arxiv.org/abs/2309.11983v3 )

ライセンス: Link先を確認
Zheng Nan, Ting Dang, Vidhyasaharan Sethu, Beena Ahmed(参考訳) コネクショニスト時間分類(ctc)は、入力と対象のシーケンス間の順序を保存する必要がある音声認識のようなシーケンスモデリングタスクに一般的に採用されている。 しかし、ctcは、潜在空間が不連続でスパースである決定論的シーケンスモデルにのみ適用されるため、変分モデルと比較してデータの可変性を扱えない。 本稿では,CTCを変分モデルと統合し,秩序を保ったより一般化可能なシーケンスモデルのトレーニングに使用できる損失関数を導出する。 具体的には、2つの合理的な仮定に基づいて、新しい変分ctcの2つのバージョンを導出する。1つは各時間ステップにおける変分潜時変数が条件付き独立であること、もう1つはこれらの潜時変数がマルコフ型であることである。 両損失関数は、モデル対数様の変分下界の直接最適化を可能にし、それらを実装するための計算処理可能な形式を示す。

Connectionist temporal classification (CTC) is commonly adopted for sequence modeling tasks like speech recognition, where it is necessary to preserve order between the input and target sequences. However, CTC is only applied to deterministic sequence models, where the latent space is discontinuous and sparse, which in turn makes them less capable of handling data variability when compared to variational models. In this paper, we integrate CTC with a variational model and derive loss functions that can be used to train more generalizable sequence models that preserve order. Specifically, we derive two versions of the novel variational CTC based on two reasonable assumptions, the first being that the variational latent variables at each time step are conditionally independent; and the second being that these latent variables are Markovian. We show that both loss functions allow direct optimization of the variational lower bound for the model log-likelihood, and present computationally tractable forms for implementing them.
翻訳日:2023-12-18 18:59:24 公開日:2023-12-15
# カラーパス再考: 可換因子を用いたリフテッドモデルの構築

Colour Passing Revisited: Lifted Model Construction with Commutative Factors ( http://arxiv.org/abs/2309.11236v2 )

ライセンス: Link先を確認
Malte Luttermann, Tanya Braun, Ralf M\"oller, Marcel Gehrke(参考訳) lifted probabilistic inferenceは、確率モデルにおける対称性を利用して、ドメインサイズに関して扱いやすい確率的推論を可能にする。 昇降推論を適用するには、昇降表現を得る必要があり、そうするためには、いわゆるカラーパスアルゴリズムが最先端技術である。 しかし,色通過アルゴリズムは特定の推論アルゴリズムに結びついており,昇降表現を構築しながら因子の可換性を無視していることがわかった。 我々は、論理変数を用いて特定の推論アルゴリズムとは無関係に昇降表現を構築するとともに、オフライン段階における因子の可換性を利用した色通りアルゴリズムの修正版を寄贈する。 提案アルゴリズムは, 提案手法の精度が高く, 圧縮量を大幅に増加させ, 結果モデルを適用した際の確率的推論におけるオンラインクエリ時間を大幅に高速化する。

Lifted probabilistic inference exploits symmetries in a probabilistic model to allow for tractable probabilistic inference with respect to domain sizes. To apply lifted inference, a lifted representation has to be obtained, and to do so, the so-called colour passing algorithm is the state of the art. The colour passing algorithm, however, is bound to a specific inference algorithm and we found that it ignores commutativity of factors while constructing a lifted representation. We contribute a modified version of the colour passing algorithm that uses logical variables to construct a lifted representation independent of a specific inference algorithm while at the same time exploiting commutativity of factors during an offline-step. Our proposed algorithm efficiently detects more symmetries than the state of the art and thereby drastically increases compression, yielding significantly faster online query times for probabilistic inference when the resulting model is applied.
翻訳日:2023-12-18 18:59:07 公開日:2023-12-15
# C-Pack:中国の一般的な埋め込みを促進するためにパッケージ化されたリソース

C-Pack: Packaged Resources To Advance General Chinese Embedding ( http://arxiv.org/abs/2309.07597v2 )

ライセンス: Link先を確認
Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighoff(参考訳) C-Packは、一般的な中国の埋め込みの分野を大きく前進させるリソースのパッケージである。 C-Packには3つの重要なリソースが含まれている。 1) C-MTEBは6タスクと35データセットをカバーする中国語テキスト埋め込みの総合ベンチマークである。 2) c-mtpは、ラベル付きおよびラベルなしの中国コーパスからキュレートされた大量のテキスト埋め込みデータセットである。 3) C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。 弊社のモデルは、C-MTEB上の以前の中国語のテキスト埋め込みを、リリース時に最大で10%上回っている。 また、c-temのトレーニング方法全体の統合と最適化も行っています。 一般的な中国語の埋め込みに関するリソースとともに、英語のテキスト埋め込みのためのデータとモデルをリリースします。 英語モデルはmtebベンチマークで最先端のパフォーマンスを達成していますが、私たちのリリースした英語データは中国のデータより2倍大きいのです。 これらのリソースはすべて、https://github.com/flagopen/flagembeddingで公開されている。

We introduce C-Pack, a package of resources that significantly advance the field of general Chinese embeddings. C-Pack includes three critical resources. 1) C-MTEB is a comprehensive benchmark for Chinese text embeddings covering 6 tasks and 35 datasets. 2) C-MTP is a massive text embedding dataset curated from labeled and unlabeled Chinese corpora for training embedding models. 3) C-TEM is a family of embedding models covering multiple sizes. Our models outperform all prior Chinese text embeddings on C-MTEB by up to +10% upon the time of the release. We also integrate and optimize the entire suite of training methods for C-TEM. Along with our resources on general Chinese embedding, we release our data and models for English text embeddings. The English models achieve state-of-the-art performance on MTEB benchmark; meanwhile, our released English data is 2 times larger than the Chinese data. All these resources are made publicly available at https://github.com/FlagOpen/FlagEmbedding.
翻訳日:2023-12-18 18:58:51 公開日:2023-12-15
# where2Explore: アートオブジェクトの未知の新たなカテゴリのためのFew-shot Affordance Learning

Where2Explore: Few-shot Affordance Learning for Unseen Novel Categories of Articulated Objects ( http://arxiv.org/abs/2309.07473v2 )

ライセンス: Link先を確認
Chuanruo Ning, Ruihai Wu, Haoran Lu, Kaichun Mo, Hao Dong(参考訳) 人工物体の操作はロボティクスの基本的な課題である。 対象カテゴリ間での幾何学的および意味的変異により、従来の操作モデルは新しいカテゴリへの一般化に苦慮している。 少ないショットの学習は、ロボットが見えないオブジェクトといくつかのインタラクションを実行できることによって、この問題を軽減するための有望なソリューションだ。 しかし、既存のアプローチでは、コストがかかり、非効率的なテストタイムインタラクションが必要となることが多い。 この制限を認識し、異なる形状にもかかわらず、異なるカテゴリは、プル可能なハンドルや把持可能なエッジなど、操作に不可欠な類似のローカルジオメトリを共有することが多いことを観察する。 このような共通性を利用するため,我々は,限られた数のインスタンス上で,最小限のインタラクションで,新しいカテゴリを効果的に探索するアプライアンス学習フレームワーク「where2explore」を紹介する。 提案手法は,異なるカテゴリ間の幾何学的類似性を明示的に推定し,学習カテゴリの形状と異なる局所領域を識別し,対象の類似部分に余裕知識を移し,効率的な探索を行う。 シミュレーション環境と実環境における広範囲な実験により,フレームワークの効率的な数発探索と一般化能力が証明された。

Articulated object manipulation is a fundamental yet challenging task in robotics. Due to significant geometric and semantic variations across object categories, previous manipulation models struggle to generalize to novel categories. Few-shot learning is a promising solution for alleviating this issue by allowing robots to perform a few interactions with unseen objects. However, extant approaches often necessitate costly and inefficient test-time interactions with each unseen instance. Recognizing this limitation, we observe that despite their distinct shapes, different categories often share similar local geometries essential for manipulation, such as pullable handles and graspable edges - a factor typically underutilized in previous few-shot learning works. To harness this commonality, we introduce 'Where2Explore', an affordance learning framework that effectively explores novel categories with minimal interactions on a limited number of instances. Our framework explicitly estimates the geometric similarity across different categories, identifying local areas that differ from shapes in the training categories for efficient exploration while concurrently transferring affordance knowledge to similar parts of the objects. Extensive experiments in simulated and real-world environments demonstrate our framework's capacity for efficient few-shot exploration and generalization.
翻訳日:2023-12-18 18:58:38 公開日:2023-12-15
# 不規則スピン2ハイゼンベルク鎖のランダム一重項と置換対称性:テンソルネットワーク再正規化群の研究

Random singlets and permutation symmetry in the disordered spin-2 Heisenberg chain: A tensor network renormalization group study ( http://arxiv.org/abs/2309.04249v2 )

ライセンス: Link先を確認
Yen-Tung Lin, Shao-Fu Liu, Pochung Chen, Yu-Cheng Lin(参考訳) テンソルネットワーク再正規化法を用いて、交互結合強度分布を持つランダム$S=2$反強磁性ハイゼンベルク鎖を研究する。 ランダム性がない場合、結合の交互化は、S=2$ハルデン相と部分的に二量化相と完全に二量化相の間に2つの量子臨界点を誘導する。 これら3つの相は (\sigma$,$4-\sigma$)=(2,2), (3,1) および (4,0) 相と呼ばれ、偶数リンクにまたがって形成される$\sigma$ valence 結合と奇数リンク上の 4-\sigma$ valence bond によって特徴づけられる。 本研究では,二量化スピンチェーンの基底状態に対する結合ランダム性の影響について検討し,乱平均ツイストオーダーパラメータとスピン相関を計算する。 結合ランダム性$R$と二量化$D$は、奇数/偶数$\sigma$のVBS位相に対して負・正の符号を持つツイストオーダーパラメータを用いて、ランダムなVBS位相のタイプを分類する。 以上の結果から, (2,2), (3,1) 相と (4,0) 相が一致する中間性障害における多臨界点の存在が示唆された。 この多重臨界点は$r$-$d$平面の3つの位相境界の接合点にある: (2,2)-(3,1) と (3,1)-(4,0) の境界はゼロランダム性に拡張され、(2,2)-(4,0) 位相境界は非二量化極限の別の多臨界点と接続する。 非二量化多重臨界点は、ギャップのないハルダン位相と無限ランダム臨界線を分離し、大きな$R$制限のD=0$で発散する動的臨界指数を持つ。 さらに、3,1)-(4,0)相境界を小額のr$でも無限ランダム臨界線と同定し、(2,2)-(3,1)相境界における無限ランダム性のシグネチャを多臨界点付近でのみ見つける。

We use a tensor network renormalization group method to study random $S=2$ antiferromagnetic Heisenberg chains with alternating bond strength distributions. In the absence of randomness, bond alternation induces two quantum critical points between the $S=2$ Haldane phase, a partially dimerized phase and a fully dimerized phase, depending on the strength of dimerization. These three phases, called ($\sigma$,$4-\sigma$)=(2,2), (3,1) and (4,0) phases, are valence-bond solid (VBS) states characterized by $\sigma$ valence bonds forming across even links and $4-\sigma$ valence bonds on odd links. Here we study the effects of bond randomness on the ground states of the dimerized spin chain, calculating disorder-averaged twist order parameters and spin correlations. We classify the types of random VBS phases depending on the strength of bond randomness $R$ and dimerization $D$ using the twist order parameter, which has a negative/positive sign for a VBS phase with odd/even $\sigma$. Our results demonstrate the existence of a multicritical point in the intermediate disorder regime with finite dimerization, where (2,2), (3,1) and (4,0) phases meet. This multicritical point is at the junction of three phase boundaries in the $R$-$D$ plane: the (2,2)-(3,1) and (3,1)-(4,0) boundaries that extend to zero randomness, and the (2,2)-(4,0) phase boundary that connects another multicritical point in the undimerized limit. The undimerized multicritical point separates a gapless Haldane phase and an infinite-randomness critical line with the diverging dynamic critical exponent in the large $R$ limit at $D=0$. Furthermore, we identify the (3,1)-(4,0) phase boundary as an infinite-randomness critical line even at small $R$, and find the signature of infinite randomness at the (2,2)-(3,1) phase boundary only in the vicinity of the multicritical point.
翻訳日:2023-12-18 18:58:06 公開日:2023-12-15
# Stylebook: 音声データのみを用いた任意の音声変換のためのコンテンツ依存音声スタイルモデリング

Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data ( http://arxiv.org/abs/2309.02730v3 )

ライセンス: Link先を確認
Hyungseob Lim, Kyungguen Byun, Sunkuk Moon, Erik Visser(参考訳) 最近の音声変換モデルの多くは、対象音声のスタイル情報を変換音声に転送することに成功したが、それでも対象話者の発話スタイルを忠実に再現する能力に欠けていた。 本研究では,対象発話からリッチなスタイル情報を抽出し,テキストの書き起こしや話者ラベリングを必要とせずにソース音声コンテンツに効率的に転送する手法を提案する。 提案手法では,音声内容の異なる話者の発話スタイルを収集するために,自己教師付き学習(ssl)モデルを用いた注意機構を導入する。 スタイルはスタイルブックと呼ばれる埋め込みのセットで表現される。 次のステップでは、スタイルブックにソース音声の音声コンテンツが添付され、ソースコンテンツ毎の最終ターゲットスタイルが決定される。 最後に、ソース音声から抽出されたコンテンツ情報とコンテンツ依存のターゲットスタイル埋め込みとを拡散型デコーダに入力し、変換された音声メルスペクトルを生成する。 実験結果から,提案手法と拡散型生成モデルを組み合わせることで,ベースラインモデルと比較して音声変換タスクの話者類似性が向上し,長い発話による計算複雑性の増大が抑制された。

While many recent any-to-any voice conversion models succeed in transferring some target speech's style information to the converted speech, they still lack the ability to faithfully reproduce the speaking style of the target speaker. In this work, we propose a novel method to extract rich style information from target utterances and to efficiently transfer it to source speech content without requiring text transcriptions or speaker labeling. Our proposed approach introduces an attention mechanism utilizing a self-supervised learning (SSL) model to collect the speaking styles of a target speaker each corresponding to the different phonetic content. The styles are represented with a set of embeddings called stylebook. In the next step, the stylebook is attended with the source speech's phonetic content to determine the final target style for each source content. Finally, content information extracted from the source speech and content-dependent target style embeddings are fed into a diffusion-based decoder to generate the converted speech mel-spectrogram. Experiment results show that our proposed method combined with a diffusion-based generative model can achieve better speaker similarity in any-to-any voice conversion tasks when compared to baseline models, while the increase in computational complexity with longer utterances is suppressed.
翻訳日:2023-12-18 18:57:03 公開日:2023-12-15
# 分類による回帰を用いた回帰問題に対するストリーミングアクティブ学習

Streaming Active Learning for Regression Problems Using Regression via Classification ( http://arxiv.org/abs/2309.01013v2 )

ライセンス: Link先を確認
Shota Horiguchi, Kota Dohi, Yohei Kawaguchi(参考訳) マシンラーニングモデルをデプロイする上での課題のひとつは、運用環境が変化すると、モデルのパフォーマンスが低下することです。 パフォーマンスを維持するために、サンプルの予測が十分でない場合には、トレーニングデータセットに新たに注釈付きサンプルを追加して、モデルの再トレーニングを行うストリーミングアクティブラーニングが使用される。 多くのストリーミングアクティブな学習手法が分類のために提案されているが、産業分野でよく扱われる回帰問題に対する取り組みはほとんど行われていない。 本稿では,回帰学習のためのストリーミング能動学習のための回帰情報分類フレームワークを提案する。 レグレッション・ウィズ・クラス化は回帰問題を分類問題に変換し、分類問題に提案されたストリーミングアクティブラーニング手法を回帰問題に直接適用できるようにする。 4つの実データ集合に対する実験的検証により,提案手法は同一のアノテーションコストで高い精度で回帰を行うことができることを示す。

One of the challenges in deploying a machine learning model is that the model's performance degrades as the operating environment changes. To maintain the performance, streaming active learning is used, in which the model is retrained by adding a newly annotated sample to the training dataset if the prediction of the sample is not certain enough. Although many streaming active learning methods have been proposed for classification, few efforts have been made for regression problems, which are often handled in the industrial field. In this paper, we propose to use the regression-via-classification framework for streaming active learning for regression. Regression-via-classification transforms regression problems into classification problems so that streaming active learning methods proposed for classification problems can be applied directly to regression problems. Experimental validation on four real data sets shows that the proposed method can perform regression with higher accuracy at the same annotation cost.
翻訳日:2023-12-18 18:56:41 公開日:2023-12-15
# 機械学習を用いた大陸横断の都市形態とCO2排出量の因果関係の解明

Using machine learning to understand causal relationships between urban form and travel CO2 emissions across continents ( http://arxiv.org/abs/2308.16599v2 )

ライセンス: Link先を確認
Felix Wagner and Florian Nachtigall and Lukas Franken and Nikola Milojevic-Dupont and Rafael H.M. Pereira and Nicolas Koch and Jakob Runge and Marta Gonzalez and Felix Creutzig(参考訳) 都市移動における気候変動の緩和は、アクセシビリティを高め、低炭素輸送モードを促進するために都市形態を再構成する政策を必要とする。 しかし、現在の政策研究は、カートラベルにおける都市形態の影響を3段階に満たしていない:(1)因果性 -- 因果性は理論的および相関に基づく分析を超えて確立できるのか? 2) 一般性 -- 関係は異なる都市や世界地域にわたって存在するか? (3) コンテキスト特異性 -- 都市周辺の関係はどのように変化するのか? ここでは,3大陸6都市の移動データに基づいて,因果グラフ探索と説明可能な機械学習を用いて,都市内交通における都市形態の影響を検出する。 過去の研究で無視されていたトリップ・エミッションと機能間効果に対して,都市形態が有意な因果効果を見出した。 以上の結果から,低密度・低接続性がCO$2$排出を著しく増加させる一方,目的地のアクセシビリティが最も重要であることが示された。 これらの一般的な傾向は、都市全体で似ているが、我々は、かなり異なるレコメンデーションに繋がる慣用的効果を見つける。 市中心部から約10~50km離れた、より一心的な都市では、中心市街地へのアクセスが増すよりも、中心市街地開発がより重要視される空間回廊が特定されている。 我々の研究は、エビデンスベースの都市気候ソリューションをスケールするための因果関係、一般化可能性、文脈的特異性の必要性に対処する新しい研究を可能にする機械学習の応用を実証する。

Climate change mitigation in urban mobility requires policies reconfiguring urban form to increase accessibility and facilitate low-carbon modes of transport. However, current policy research has insufficiently assessed urban form effects on car travel at three levels: (1) Causality -- Can causality be established beyond theoretical and correlation-based analyses? (2) Generalizability -- Do relationships hold across different cities and world regions? (3) Context specificity -- How do relationships vary across neighborhoods of a city? Here, we address all three gaps via causal graph discovery and explainable machine learning to detect urban form effects on intra-city car travel, based on mobility data of six cities across three continents. We find significant causal effects of urban form on trip emissions and inter-feature effects, which had been neglected in previous work. Our results demonstrate that destination accessibility matters most overall, while low density and low connectivity also sharply increase CO$_2$ emissions. These general trends are similar across cities but we find idiosyncratic effects that can lead to substantially different recommendations. In more monocentric cities, we identify spatial corridors -- about 10--50 km from the city center -- where subcenter-oriented development is more relevant than increased access to the main center. Our work demonstrates a novel application of machine learning that enables new research addressing the needs of causality, generalizability, and contextual specificity for scaling evidence-based urban climate solutions.
翻訳日:2023-12-18 18:56:25 公開日:2023-12-15
# UMedNeRF:医療用ニューラルラジアンスフィールドのための不確かさを意識した単一ビューボリュームレンダリング

UMedNeRF: Uncertainty-aware Single View Volumetric Rendering for Medical Neural Radiance Fields ( http://arxiv.org/abs/2311.05836v4 )

ライセンス: Link先を確認
Jing Hu, Qinrui Fan, Shu Hu, Siwei Lyu, Xi Wu, Xin Wang(参考訳) 臨床医学の分野ではCT(Computerd tomography)は様々な病態の診断に有効な医用画像モダリティである。 X線画像と比較すると、CT画像は多平面スライスや臨床診断のための3次元構造など、より多くの情報を提供することができる。 しかし、CT画像では、患者が大量の電離放射線に長時間曝されることが要求され、これは不可逆的な身体的損傷を引き起こす可能性がある。 本稿では,発生した放射場に基づく不確実性を考慮したMedNeRF(UMedNeRF)ネットワークを提案する。 ネットワークは、内部構造と深度情報を取得し、適応損失重みを用いて2次元X線画像からCT投影の連続表現を学習し、生成画像の品質を確保する。 本モデルは, 人工膝関節と胸部データセットを用いて訓練し, 単一のX線によるCTプロジェクションレンダリングの結果を示し, 生成放射線場に基づく他の方法との比較を行った。

In the field of clinical medicine, computed tomography (CT) is an effective medical imaging modality for the diagnosis of various pathologies. Compared with X-ray images, CT images can provide more information, including multi-planar slices and three-dimensional structures for clinical diagnosis. However, CT imaging requires patients to be exposed to large doses of ionizing radiation for a long time, which may cause irreversible physical harm. In this paper, we propose an Uncertainty-aware MedNeRF (UMedNeRF) network based on generated radiation fields. The network can learn a continuous representation of CT projections from 2D X-ray images by obtaining the internal structure and depth information and using adaptive loss weights to ensure the quality of the generated images. Our model is trained on publicly available knee and chest datasets, and we show the results of CT projection rendering with a single X-ray and compare our method with other methods based on generated radiation fields.
翻訳日:2023-12-18 18:50:55 公開日:2023-12-15
# 推薦のための大規模言語モデルによる表現学習

Representation Learning with Large Language Models for Recommendation ( http://arxiv.org/abs/2310.15950v2 )

ライセンス: Link先を確認
Xubin Ren, Wei Wei, Lianghao Xia, Lixin Su, Suqi Cheng, Junfeng Wang, Dawei Yin, Chao Huang(参考訳) レコメンダシステムは、ディープラーニングとグラフニューラルネットワークの影響、特に複雑なユーザとテーマの関係を捉えることで大きな進歩を遂げている。 しかし、これらのグラフベースのレコメンデータは、IDベースのデータに大きく依存しており、ユーザやアイテムに関連する貴重なテキスト情報を無視する可能性がある。 さらに、暗黙的なフィードバックデータの利用は潜在的なノイズとバイアスを導入し、ユーザの嗜好学習の有効性に挑戦する。 大規模言語モデル(LLM)を従来のIDベースのレコメンダに統合することは注目されているが、スケーラビリティの問題、テキストのみ依存の制限、実用的なレコメンダシステムにおける効果的な実装のためには入力制約に対処する必要がある。 これらの課題に対処するため,LLMを用いた表現学習により既存のレコメンデータを強化することを目的としたモデルに依存しないフレームワーク RLMRec を提案する。 ユーザ行動や嗜好の複雑な意味的側面を捉えるために,表現学習とLLMを統合したレコメンデーションパラダイムを提案する。 RLMRecには補助的なテキスト信号が組み込まれており、LLMによって強化されたユーザ/イテムプロファイリングのパラダイムが開発されており、LLMのセマンティック空間と協調的な関係信号の表現空間を、クロスビューアライメントフレームワークを通じて整列する。 この研究はさらに、相互情報最大化によるテキスト信号の統合が表現の質を高めることを実証する理論的基礎を確立する。 本評価では,rlmrecを最先端のレコメンダモデルに統合するとともに,ノイズデータに対する効率性とロバスト性を分析する。 実装コードはhttps://github.com/hkuds/rlmrecで利用可能です。

Recommender systems have seen significant advancements with the influence of deep learning and graph neural networks, particularly in capturing complex user-item relationships. However, these graph-based recommenders heavily depend on ID-based data, potentially disregarding valuable textual information associated with users and items, resulting in less informative learned representations. Moreover, the utilization of implicit feedback data introduces potential noise and bias, posing challenges for the effectiveness of user preference learning. While the integration of large language models (LLMs) into traditional ID-based recommenders has gained attention, challenges such as scalability issues, limitations in text-only reliance, and prompt input constraints need to be addressed for effective implementation in practical recommender systems. To address these challenges, we propose a model-agnostic framework RLMRec that aims to enhance existing recommenders with LLM-empowered representation learning. It proposes a recommendation paradigm that integrates representation learning with LLMs to capture intricate semantic aspects of user behaviors and preferences. RLMRec incorporates auxiliary textual signals, develops a user/item profiling paradigm empowered by LLMs, and aligns the semantic space of LLMs with the representation space of collaborative relational signals through a cross-view alignment framework. This work further establish a theoretical foundation demonstrating that incorporating textual signals through mutual information maximization enhances the quality of representations. In our evaluation, we integrate RLMRec with state-of-the-art recommender models, while also analyzing its efficiency and robustness to noise data. Our implementation codes are available at https://github.com/HKUDS/RLMRec.
翻訳日:2023-12-18 18:50:12 公開日:2023-12-15
# 圧縮量子波形推定

Compressive quantum waveform estimation ( http://arxiv.org/abs/2310.15630v2 )

ライセンス: Link先を確認
Alex Tritt, Joshua Morris, Christopher C. Bounds, Hamish A. M. Taylor, James Saunderson, L. D. Turner(参考訳) 量子波形推定では、量子センサーが時系列全体をサンプリングし、ニューロンを発射する生体磁気インパルスのような弱い信号や確率的な信号の感知に革命を起こすことを約束している。 高速トランジェントを持つ長時間の信号の場合、通常の量子サンプリングは、異なる制御と読み出しの多くの測定を必要とするため、強制的にリソース集約となる。 本稿では,量子計測の慎重な選択と圧縮センシングの現代数学が,ナイキストの要件をはるかに下回る多くの測定値において,スパース信号の量子波形推定を実現することを実証する。 我々は、高周波の超低温原子で合成した神経様磁気信号を知覚し、圧縮理論境界の保証として、わずかな測定で良好な波形推定を得る。

Quantum waveform estimation, in which quantum sensors sample entire time series, promises to revolutionize the sensing of weak and stochastic signals, such as the biomagnetic impulses emitted by firing neurons. For long duration signals with rapid transients, regular quantum sampling becomes prohibitively resource intensive as it demands many measurements with distinct control and readout. In this Manuscript, we demonstrate how careful choice of quantum measurements, along with the modern mathematics of compressive sensing, achieves quantum waveform estimation of sparse signals in a number of measurements far below the Nyquist requirement. We sense synthesized neural-like magnetic signals with radiofrequency-dressed ultracold atoms, retrieving successful waveform estimates with as few measurements as compressive theoretical bounds guarantee.
翻訳日:2023-12-18 18:49:39 公開日:2023-12-15
# SteloCoder: Pythonコードへの多言語翻訳のためのデコーダ専用LLM

SteloCoder: a Decoder-Only LLM for Multi-Language to Python Code Translation ( http://arxiv.org/abs/2310.15539v2 )

ライセンス: Link先を確認
Jialing Pan, Adrien Sad\'e, Jin Kim, Eric Soriano, Guillem Sole, Sylvain Flamant(参考訳) 最近、Large Language Models (LLMs) に焦点が当てられ、StarCoder (Li et al., 2023) と Code Llama (Rozi\`ere et al., 2023) の両方がコード生成において顕著なパフォーマンスを示している。 しかし、効率的なトレーニング技術によるコード翻訳機能の改善はいまだに必要である。 これに対応するために,マルチプログラミング言語からpythonコードへの翻訳用に設計された,デコーダ専用のstarcoderベースのllmであるstelocoderを紹介する。 特にSteroCoderは、入力プログラミング言語を指定せずに、C++、C#、JavaScript、Java、PHPからPythonへのコード変換を実現している。 我々は,5人の専門家とマルチタスク処理のためのゲーティングネットワークを備えたMixture-of-Experts (MoE)技術を組み込んだStarCoderモデルアーキテクチャを改良した。 専門家はstarcoderの微調整によって得られる。 具体的には,各専門家のサイズをStarCoderのパラメータの0.06%に制限するローランド適応手法(LoRA)を用いる。 同時に、時間的学習効率を向上させるため、カリキュラム学習戦略を採用し、自己指導データを用いて効率的な微調整を行う。 その結果、各専門家は1つの80Gb A100 HBMでトレーニングするのにわずか6時間しかかからない。 XLCoSTデータセットの実験により、SteroCoderは、マルチプログラミング言語からPythonへの翻訳において平均73.76のCodeBLEUスコアを達成し、リーダーボードの最高パフォーマンスを3.5以上上回った。 この成果は、StarCoderをバックボーンとし、1つの80GB A100 HBMで32時間の有効なトレーニングを行うという、わずか4500万の余剰パラメータによるものである。 ソースコードはhttps://github.com/sade-adrien/stelocoder.com/。

With the recent focus on Large Language Models (LLMs), both StarCoder (Li et al., 2023) and Code Llama (Rozi\`ere et al., 2023) have demonstrated remarkable performance in code generation. However, there is still a need for improvement in code translation functionality with efficient training techniques. In response to this, we introduce SteloCoder, a decoder-only StarCoder-based LLM designed specifically for multi-programming language-to-Python code translation. In particular, SteloCoder achieves C++, C#, JavaScript, Java, or PHP-to-Python code translation without specifying the input programming language. We modified StarCoder model architecture by incorporating a Mixture-of-Experts (MoE) technique featuring five experts and a gating network for multi-task handling. Experts are obtained by StarCoder fine-tuning. Specifically, we use a Low-Rank Adaptive Method (LoRA) technique, limiting each expert size as only 0.06% of number of StarCoder's parameters. At the same time, to enhance training efficiency in terms of time, we adopt curriculum learning strategy and use self-instruct data for efficient fine-tuning. As a result, each expert takes only 6 hours to train on one single 80Gb A100 HBM. With experiments on XLCoST datasets, SteloCoder achieves an average of 73.76 CodeBLEU score in multi-programming language-to-Python translation, surpassing the top performance from the leaderboard by at least 3.5. This accomplishment is attributed to only 45M extra parameters with StarCoder as the backbone and 32 hours of valid training on one 80GB A100 HBM. The source code is release here: https://github.com/sade-adrien/SteloCoder.
翻訳日:2023-12-18 18:49:24 公開日:2023-12-15
# chatgptはジオコーディングのためのゲームチェンジャーか - ジオコーディングアドレス解析テクニックのベンチマーク

Is ChatGPT a game changer for geocoding -- a benchmark for geocoding address parsing techniques ( http://arxiv.org/abs/2310.14360v4 )

ライセンス: Link先を確認
Zhengcong Yin, Diya Li, Daniel W. Goldberg(参考訳) トポニーミー認識を含む様々なタスクにおけるGPTモデルの顕著な成功は、ジオコーディングアドレス解析タスクにおけるGPT-3モデルの性能を評価する動機となる。 そこで本研究では,実運用中のジオコーディングシステムの実際の入力ログからマイニングした人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。 このデータセットには21の異なる入力エラーとバリエーションがあり、米国50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれており、トレーニング、検証、テストセットとして使用される3つのサブセットで構成されている。 そこで我々は,GPT-3モデルを用いてアドレス成分抽出の性能をトレーニングし,その性能をトランスフォーマモデルとLSTMモデルと対比する。 評価結果から,両方向LSTM-CRFモデルは,これらのトランスモデルとGPT-3モデルよりも優れた性能を示した。 トランスフォーマーベースのモデルは、双方向LSTM-CRFモデルと非常によく似た結果を示す。 GPT-3モデルは性能に追随するが、いくつかの例でアドレス解析タスクのポテンシャルを示し、追加の微調整による改善の余地を示す。 このベンチマークのコードとデータをオープンソースにして、研究者が将来のモデル開発に利用したり、ドキュメントジオコーディングのような同様のタスクを評価するために拡張したりできるようにします。

The remarkable success of GPT models across various tasks, including toponymy recognition motivates us to assess the performance of the GPT-3 model in the geocoding address parsing task. To ensure that the evaluation more accurately mirrors performance in real-world scenarios with diverse user input qualities and resolve the pressing need for a 'gold standard' evaluation dataset for geocoding systems, we introduce a benchmark dataset of low-quality address descriptions synthesized based on human input patterns mining from actual input logs of a geocoding system in production. This dataset has 21 different input errors and variations; contains over 239,000 address records that are uniquely selected from streets across all U.S. 50 states and D.C.; and consists of three subsets to be used as training, validation, and testing sets. Building on this, we train and gauge the performance of the GPT-3 model in extracting address components, contrasting its performance with transformer-based and LSTM-based models. The evaluation results indicate that Bidirectional LSTM-CRF model has achieved the best performance over these transformer-based models and GPT-3 model. Transformer-based models demonstrate very comparable results compared to the Bidirectional LSTM-CRF model. The GPT-3 model, though trailing in performance, showcases potential in the address parsing task with few-shot examples, exhibiting room for improvement with additional fine-tuning. We open source the code and data of this presented benchmark so that researchers can utilize it for future model development or extend it to evaluate similar tasks, such as document geocoding.
翻訳日:2023-12-18 18:48:47 公開日:2023-12-15
# Relaxedメモリモデルによるコンパイラテスト

Compiler Testing With Relaxed Memory Models ( http://arxiv.org/abs/2310.12337v2 )

ライセンス: Link先を確認
Luke Geeson, Lee Smith(参考訳) バグを見つけることは、現在広く使われているコンパイラの正しさの鍵である。 コンパイルされたプログラムの動作が、アーキテクチャメモリモデルによって許されるように、ソースモデルの下でソースプログラムの動作ではない場合、バグが発生する。 これはすべてのプログラムに当てはまるが、2つ以上の実行スレッドでのみ発生する並行性バグに焦点を当てる。 C/C++コンパイラのそのようなバグを検出するテスト技術に注力する。 プログラムサイズの固定境界まで自動的に並列バグをカバーし、多数のコードでコンパイルされたプログラムのバグを見つけるためにスケールするテスト手法を模索する。 そうでなければ、テストテクニックはバグを見逃す可能性がある。 残念ながら、最先端の技術はこれらの特性をすべて満たしていない。 並列プログラムのためのT'el\'echatコンパイラテストツールを提案する。 T\'el\'echatは並列C/C++プログラムをコンパイルし、ソースとアーキテクチャのメモリモデルを使用して、ソースとコンパイルされたプログラムの振る舞いを比較する。 t\'el\'echatはマルチスレッド実行のためのコード生成におけるバグ発見の最先端を改善し、業界にデプロイされる並行性のためのコンパイラテストツールの最初の公開記述であり、望ましいプロパティに向けて大きな一歩を踏み出した最初のツールである。 我々はT'el\'echatが他の最先端技術に欠落しているバグを発見したことを示す実験的な証拠を提供する。

Finding bugs is key to the correctness of compilers in wide use today. If the behaviour of a compiled program, as allowed by its architecture memory model, is not a behaviour of the source program under its source model, then there is a bug. This holds for all programs, but we focus on concurrency bugs that occur only with two or more threads of execution. We focus on testing techniques that detect such bugs in C/C++ compilers. We seek a testing technique that automatically covers concurrency bugs up to fixed bounds on program sizes and that scales to find bugs in compiled programs with many lines of code. Otherwise, a testing technique can miss bugs. Unfortunately, the state-of-the-art techniques are yet to satisfy all of these properties. We present the T\'el\'echat compiler testing tool for concurrent programs. T\'el\'echat compiles a concurrent C/C++ program and compares source and compiled program behaviours using source and architecture memory models. We make three claims: T\'el\'echat improves the state-of-the-art at finding bugs in code generation for multi-threaded execution, it is the first public description of a compiler testing tool for concurrency that is deployed in industry, and it is the first tool that takes a significant step towards the desired properties. We provide experimental evidence suggesting T\'el\'echat finds bugs missed by other state-of-the-art techniques, case studies indicating that T\'el\'echat satisfies the properties, and reports of our experience deploying T\'el\'echat in industry regression testing.
翻訳日:2023-12-18 18:48:06 公開日:2023-12-15
# ノイズのある中間規模量子ハードウェアの量子ファイナンシャルモデリング:近似量子計数によるランダムウォーク

Quantum Financial Modeling on Noisy Intermediate-Scale Quantum Hardware: Random Walks using Approximate Quantum Counting ( http://arxiv.org/abs/2310.11394v2 )

ライセンス: Link先を確認
Dominic Widdows, Amit Bhattacharyya(参考訳) 量子コンピュータは、経済プロセスのモデリングをより効率的かつ正確に行うことが期待されている。 量子ハードウェアは現在比較的小さなスケールで利用可能であるが、有効アルゴリズムは論理ゲートの数によって制限されており、ゲート不正確なノイズが結果を支配する傾向にある。 長年提案され研究されてきたいくつかの理論アルゴリズムは、実際には量子ハードウェア上ではまだうまく機能していない。 これにより、限られた文脈で同様の役割を果たす適切な代替アルゴリズムの開発が促進される。 本稿では,量子ウォークにおける位置の追跡のための成分として用いられる量子計数(quantum counting)の場合には,この戦略を実装し,資産価格の経時変化をシミュレーションするモデルとして用いる。 従来の2進位置符号化による量子カウントよりも、2量子ビットの絡み合いゲートをはるかに少ない量子近似計数回路を導入する。 これらの回路のノイズに対する堅牢性を示す。 その結果を株価指数からの価格変動分布と比較し、量子回路の挙動と中間測定値の有無と住宅市場の傾向を比較した。 住宅データによると、低流動性は量子モデルで予想される価格変動をもたらす。

Quantum computers are expected to contribute more efficient and accurate ways of modeling economic processes. Quantum hardware is currently available at a relatively small scale, but effective algorithms are limited by the number of logic gates that can be used, before noise from gate inaccuracies tends to dominate results. Some theoretical algorithms that have been proposed and studied for years do not perform well yet on quantum hardware in practice. This encourages the development of suitable alternative algorithms that play similar roles in limited contexts. This paper implements this strategy in the case of quantum counting, which is used as a component for keeping track of position in a quantum walk, which is used as a model for simulating asset prices over time. We introduce quantum approximate counting circuits that use far fewer 2-qubit entangling gates than traditional quantum counting that relies on binary positional encoding. The robustness of these circuits to noise is demonstrated. We compare the results to price change distributions from stock indices, and compare the behavior of quantum circuits with and without mid-measurement to trends in the housing market. The housing data shows that low liquidity brings price volatility, as expected with the quantum models.
翻訳日:2023-12-18 18:47:39 公開日:2023-12-15
# SeqXGPT: 文レベルAI生成テキスト検出

SeqXGPT: Sentence-Level AI-Generated Text Detection ( http://arxiv.org/abs/2310.08903v2 )

ライセンス: Link先を確認
Pengyu Wang, Linyang Li, Ke Ren, Botian Jiang, Dong Zhang, Xipeng Qiu(参考訳) 広範に適用された大規模言語モデル(LLM)は、人間に似たコンテンツを生成し、LLMの悪用に対する懸念を提起する。 したがって、強力なAI生成テキスト(AIGT)検出器を構築することが重要である。 現在,文書レベルのAIGT検出のみを考慮しているため,本論文ではまず,LLMで洗練された文書を含むデータセット,すなわちLLMで修正された文を含む文書を合成し,文レベルの検出課題を導入する。 次に,文レベルのAIGT検出機能として,白箱LEMのログ確率リストを利用する新しい手法である,textbf{Seq}uence \textbf{X} (Check) \textbf{GPT}を提案する。 これらの特徴は音声処理における \textit{waves} のように構成され、llms では研究できない。 そこで我々は,畳み込みと自己注意ネットワークに基づくSeqXGPTを構築した。 文と文書レベルの検出課題の両方でテストします。 実験の結果,従来の手法は文レベルAIGTの検出に苦慮していたのに対し,本手法は文レベル検出と文書レベル検出の両方において基準手法をはるかに上回るだけでなく,強力な一般化能力を示した。

Widely applied large language models (LLMs) can generate human-like content, raising concerns about the abuse of LLMs. Therefore, it is important to build strong AI-generated text (AIGT) detectors. Current works only consider document-level AIGT detection, therefore, in this paper, we first introduce a sentence-level detection challenge by synthesizing a dataset that contains documents that are polished with LLMs, that is, the documents contain sentences written by humans and sentences modified by LLMs. Then we propose \textbf{Seq}uence \textbf{X} (Check) \textbf{GPT}, a novel method that utilizes log probability lists from white-box LLMs as features for sentence-level AIGT detection. These features are composed like \textit{waves} in speech processing and cannot be studied by LLMs. Therefore, we build SeqXGPT based on convolution and self-attention networks. We test it in both sentence and document-level detection challenges. Experimental results show that previous methods struggle in solving sentence-level AIGT detection, while our method not only significantly surpasses baseline methods in both sentence and document-level detection challenges but also exhibits strong generalization capabilities.
翻訳日:2023-12-18 18:47:21 公開日:2023-12-15
# 脆弱性検出のための因果的ディープラーニング

Towards Causal Deep Learning for Vulnerability Detection ( http://arxiv.org/abs/2310.07958v4 )

ライセンス: Link先を確認
Md Mahbubur Rahman, Ira Ceka, Chengzhi Mao, Saikat Chakraborty, Baishakhi Ray, and Wei Le(参考訳) ディープラーニングの脆弱性検出は近年、有望な結果を示している。 しかし、実際に非常に有用であることを妨げる重要な課題は、モデルが摂動下では堅牢ではなく、例えば実世界の未確認プロジェクトにトレーニングされたモデルを適用するなど、アウト・オブ・ディストリビューション(OOD)データに対してうまく一般化できないことである。 これは、このモデルがラベルとの相関が高まるような非ロバスト特徴(変数名など)を学習したためだと仮定する。 perturbedとoodデータセットがもはや同じスプリアス機能を持っていない場合、モデル予測は失敗する。 本稿では,この課題に対処するため,ディープラーニングの脆弱性検出に因果性を導入した。 我々のアプローチは2つのフェーズからなる。 まず,モデルが予測に使用するスプリアスな特徴を発見するために,新しい摂動をデザインした。 第2に,既存のディープラーニングモデルに加えて,因果学習アルゴリズム,特にdo-calculusを適用し,スプリアス特徴の利用を体系的に排除し,因果に基づく予測を促進する。 その結果、CausalVulは、実験したすべての最先端モデルとデータセットに対して、モデル精度、堅牢性、OOD性能を一貫して改善した。 私たちの知る限りでは、これは計算に基づく因果学習をソフトウェア工学モデルに導入した最初の作品であり、モデル精度、堅牢性、一般化を改善するのに本当に有用であることを示している。 私たちのレプリケーションパッケージはhttps://figshare.com/s/0ffda320dcb96c249ef2にあります。

Deep learning vulnerability detection has shown promising results in recent years. However, an important challenge that still blocks it from being very useful in practice is that the model is not robust under perturbation and it cannot generalize well over the out-of-distribution (OOD) data, e.g., applying a trained model to unseen projects in real world. We hypothesize that this is because the model learned non-robust features, e.g., variable names, that have spurious correlations with labels. When the perturbed and OOD datasets no longer have the same spurious features, the model prediction fails. To address the challenge, in this paper, we introduced causality into deep learning vulnerability detection. Our approach CausalVul consists of two phases. First, we designed novel perturbations to discover spurious features that the model may use to make predictions. Second, we applied the causal learning algorithms, specifically, do-calculus, on top of existing deep learning models to systematically remove the use of spurious features and thus promote causal based prediction. Our results show that CausalVul consistently improved the model accuracy, robustness and OOD performance for all the state-of-the-art models and datasets we experimented. To the best of our knowledge, this is the first work that introduces do calculus based causal learning to software engineering models and shows it's indeed useful for improving the model accuracy, robustness and generalization. Our replication package is located at https://figshare.com/s/0ffda320dcb96c249ef2.
翻訳日:2023-12-18 18:46:39 公開日:2023-12-15
# ロバスト性は分布シフトの異なる条件下で考えるよりも脆いかもしれない

Robustness May be More Brittle than We Think under Different Degrees of Distribution Shifts ( http://arxiv.org/abs/2310.06622v2 )

ライセンス: Link先を確認
Kaican Li, Yifan Zhang, Lanqing Hong, Zhenguo Li, Nevin L. Zhang(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、トレーニング領域とテスト領域の間の分布シフトの特異性のために複雑な問題である。 ほとんどのベンチマークでは、この問題に対処するためにさまざまなデータセットを使用しているが、トレーニングドメインと各データセットのテストドメイン間の分散シフトの程度は、大半が固定されている。 これはモデルの実際のood性能を過小評価または過大評価する偏った結論につながる可能性がある。 私たちの研究は、幅広いシフト度をカバーするよりニュアンス的な評価設定に落ち着きます。 分散シフトの度合いが異なる場合,モデルの堅牢性は極めて不安定で不整合であり,従って,限られた範囲で評価結果から結論を導出する場合は,より慎重であることが示唆された。 さらに,クリップなどの大規模事前学習モデルが,新しい下流タスクの分単位分布シフトにも敏感であることも観察した。 これは、事前訓練された表現は下流の分散性能を改善するのに役立つが、適切に使用しなければ下流のタスクの特定のoodシナリオの一般化に最小、あるいは悪影響を及ぼす可能性があることを示している。 これらの知見に照らして,我々は今後の研究において,可能な限り広い範囲のシフト度で評価を行うことを奨励する。

Out-of-distribution (OOD) generalization is a complicated problem due to the idiosyncrasies of possible distribution shifts between training and test domains. Most benchmarks employ diverse datasets to address this issue; however, the degree of the distribution shift between the training domains and the test domains of each dataset remains largely fixed. This may lead to biased conclusions that either underestimate or overestimate the actual OOD performance of a model. Our study delves into a more nuanced evaluation setting that covers a broad range of shift degrees. We show that the robustness of models can be quite brittle and inconsistent under different degrees of distribution shifts, and therefore one should be more cautious when drawing conclusions from evaluations under a limited range of degrees. In addition, we observe that large-scale pre-trained models, such as CLIP, are sensitive to even minute distribution shifts of novel downstream tasks. This indicates that while pre-trained representations may help improve downstream in-distribution performance, they could have minimal or even adverse effects on generalization in certain OOD scenarios of the downstream task if not used properly. In light of these findings, we encourage future research to conduct evaluations across a broader range of shift degrees whenever possible.
翻訳日:2023-12-18 18:45:44 公開日:2023-12-15
# HI-SLAM:ハイブリッドインピーダンス場を用いた単眼リアルタイム高密度マッピング

HI-SLAM: Monocular Real-time Dense Mapping with Hybrid Implicit Fields ( http://arxiv.org/abs/2310.04787v2 )

ライセンス: Link先を確認
Wei Zhang, Tiecheng Sun, Sen Wang, Qing Cheng, Norbert Haala(参考訳) 本稿では,高精度かつ高密度な同時局所化マッピング(SLAM)のための,ニューラルネットワークに基づくリアルタイムモノクルマッピングフレームワークを提案する。 最近のニューラルマッピングフレームワークは有望な結果を示しているが、RGB-Dやポーズ入力に依存している。 これらの制限に対処するため、我々は高密度SLAMとニューラル暗黙の場を統合する。 具体的には、我々の高密度SLAMアプローチは並列トラッキングとグローバル最適化を実行し、ニューラルフィールドベースのマップは最新のSLAM推定に基づいて漸進的に構築される。 ニューラルネットワークの効率的な構築には、マルチレゾリューショングリッド符号化と符号付き距離関数(SDF)表現を用いる。 これにより、マップを常に最新に保つことができ、ループを閉じてグローバルな更新に即時に適応できます。 グローバルな整合性を実現するため,オンラインループのクローズドとスケールドリフトの緩和のために,効率的なSim(3)ベースのポーズグラフバンドル調整(PGBA)手法を提案する。 さらに奥行き精度を高めるため,学習した単眼深度優先法を組み込んだ。 本研究では, 深度事前に固有のスケールのあいまいさを解決するために, 新たなJDSAモジュールを提案する。 合成および実世界のデータセット全体にわたる広範囲な評価により、我々のアプローチは、リアルタイムのパフォーマンスを維持しながら、既存の手法よりも精度が高く、完全性をマップする。

In this letter, we present a neural field-based real-time monocular mapping framework for accurate and dense Simultaneous Localization and Mapping (SLAM). Recent neural mapping frameworks show promising results, but rely on RGB-D or pose inputs, or cannot run in real-time. To address these limitations, our approach integrates dense-SLAM with neural implicit fields. Specifically, our dense SLAM approach runs parallel tracking and global optimization, while a neural field-based map is constructed incrementally based on the latest SLAM estimates. For the efficient construction of neural fields, we employ multi-resolution grid encoding and signed distance function (SDF) representation. This allows us to keep the map always up-to-date and adapt instantly to global updates via loop closing. For global consistency, we propose an efficient Sim(3)-based pose graph bundle adjustment (PGBA) approach to run online loop closing and mitigate the pose and scale drift. To enhance depth accuracy further, we incorporate learned monocular depth priors. We propose a novel joint depth and scale adjustment (JDSA) module to solve the scale ambiguity inherent in depth priors. Extensive evaluations across synthetic and real-world datasets validate that our approach outperforms existing methods in accuracy and map completeness while preserving real-time performance.
翻訳日:2023-12-18 18:45:22 公開日:2023-12-15
# 潜伏拡散モデルによる敵攻撃の理解と改善

Understanding and Improving Adversarial Attacks on Latent Diffusion Model ( http://arxiv.org/abs/2310.04687v2 )

ライセンス: Link先を確認
Boyang Zheng, Chumeng Liang, Xiaoyu Wu, Yan Liu(参考訳) latent diffusion model (ldm) は画像生成における最先端のパフォーマンスを実現し、著作権やプライバシーの懸念も高めている。 ldmに対する敵対的な攻撃は、ldm駆動の少数ショット生成で不正な画像が使用されるのを防ぐために生まれます。 しかし、これらの攻撃は、特にgpuメモリにおいて、適度なパフォーマンスと過剰な計算コストに苦しむ。 本稿では, LDMの現時点の複数ショット生成パイプライン(例えばLoRA)に対して優れた性能を示す, LDMに対する効果的な対向攻撃を提案する。 我々は、いくつかのメカニズムを導入し、攻撃のメモリコストを6GB未満に削減することで、メモリ効率で攻撃を実行する。 提案した攻撃は、LDMが自己保護のためにもたらした著作権とプライバシーのリスクに直面する人々にとって、実用的なツールとなり得る。

Latent Diffusion Model (LDM) achieves state-of-the-art performances in image generation yet raising copyright and privacy concerns. Adversarial attacks on LDM are then born to protect unauthorized images from being used in LDM-driven few-shot generation. However, these attacks suffer from moderate performance and excessive computational cost, especially in GPU memory. In this paper, we propose an effective adversarial attack on LDM that shows superior performance against state-of-the-art few-shot generation pipeline of LDM, for example, LoRA. We implement the attack with memory efficiency by introducing several mechanisms and decrease the memory cost of the attack to less than 6GB, which allows individual users to run the attack on a majority of consumer GPUs. Our proposed attack can be a practical tool for people facing the copyright and privacy risk brought by LDM to protect themselves.
翻訳日:2023-12-18 18:44:58 公開日:2023-12-15
# 注意型音声認識エンコーダを用いたマンダリン音声を用いた認知症評価

Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder ( http://arxiv.org/abs/2310.03985v2 )

ライセンス: Link先を確認
Zih-Jyun Lin, Yi-Ju Chen, Po-Chih Kuo, Likai Huang, Chaur-Jong Hu, Cheng-Yu Chen(参考訳) 認知症診断には様々な検査方法が必要であり、複雑で時間がかかる。 認知症の早期発見は、状態のさらなる悪化を予防できるため重要である。 本稿では,マンダリン話者を対象とした認知症評価システムを構築するために,音声認識モデルを用いた。 実世界のシナリオによく似た音声データに対して注意に基づく音声認識モデルを訓練することにより,モデルの認識能力を大幅に向上させた。 その後,音声認識モデルからエンコーダを抽出し,認知症評価のための線形層を追加した。 99名の被験者からマンダリン音声データを収集し,地域病院から臨床評価を得た。 アルツハイマー病検出の精度は92.04%であり, 臨床認知症スコア予測の絶対誤差は9%であった。

Dementia diagnosis requires a series of different testing methods, which is complex and time-consuming. Early detection of dementia is crucial as it can prevent further deterioration of the condition. This paper utilizes a speech recognition model to construct a dementia assessment system tailored for Mandarin speakers during the picture description task. By training an attention-based speech recognition model on voice data closely resembling real-world scenarios, we have significantly enhanced the model's recognition capabilities. Subsequently, we extracted the encoder from the speech recognition model and added a linear layer for dementia assessment. We collected Mandarin speech data from 99 subjects and acquired their clinical assessments from a local hospital. We achieved an accuracy of 92.04% in Alzheimer's disease detection and a mean absolute error of 9% in clinical dementia rating score prediction.
翻訳日:2023-12-18 18:44:42 公開日:2023-12-15
# デモフュージョン:高解像度画像生成を$$$なしで民主化

DemoFusion: Democratising High-Resolution Image Generation With No $$$ ( http://arxiv.org/abs/2311.16973v2 )

ライセンス: Link先を確認
Ruoyi Du, Dongliang Chang, Timothy Hospedales, Yi-Zhe Song, Zhanyu Ma(参考訳) 生成人工知能(GenAI)による高解像度画像生成は、大きな可能性を持っているが、トレーニングに必要な巨額の資本投資のため、少数の大企業に集中化され、ペイウォールの後ろに隠れている。 本稿では,ハイレゾ世代のフロンティアを広範に確保しつつ,高レゾリューションなGenAIを民主化することを目的とする。 既存の潜在拡散モデル (LDM) は高解像度画像生成のための未解決ポテンシャルを有することを示す。 新しいdemofusionフレームワークはオープンソースのgenaiモデルをシームレスに拡張し,プログレッシブアップスケーリング,スキップ残差,拡張サンプリング機構を用いて高分解能画像生成を実現する。 DemoFusionのプログレッシブな性質はより多くのパスを必要とするが、中間結果は"プレビュー"として機能し、迅速な反復を容易にする。

High-resolution image generation with Generative Artificial Intelligence (GenAI) has immense potential but, due to the enormous capital investment required for training, it is increasingly centralised to a few large corporations, and hidden behind paywalls. This paper aims to democratise high-resolution GenAI by advancing the frontier of high-resolution generation while remaining accessible to a broad audience. We demonstrate that existing Latent Diffusion Models (LDMs) possess untapped potential for higher-resolution image generation. Our novel DemoFusion framework seamlessly extends open-source GenAI models, employing Progressive Upscaling, Skip Residual, and Dilated Sampling mechanisms to achieve higher-resolution image generation. The progressive nature of DemoFusion requires more passes, but the intermediate results can serve as "previews", facilitating rapid prompt iteration.
翻訳日:2023-12-18 18:37:59 公開日:2023-12-15
# アダプティブ・プロンプト学習による統一モーダルサルト物体検出

Unified-modal Salient Object Detection via Adaptive Prompt Learning ( http://arxiv.org/abs/2311.16835v3 )

ライセンス: Link先を確認
Kunpeng Wang, Chenglong Li, Zhengzheng Tu, Bin Luo(参考訳) 既存のシングルモーダルおよびマルチモーダルサルトオブジェクト検出(SOD)手法は、それぞれのタスクに適した特定のアーキテクチャの設計に重点を置いている。 しかし、異なるタスクに対する全く異なるモデルの開発は、高い計算と実践的なデプロイメントコストだけでなく、労働と時間の消費につながる。 本稿では,unisodと呼ばれる統一フレームワークにおいて,シングルモーダルとマルチモーダルsodの両方に対応する最初の試みを行う。 それでも、モダリティ変数入力に適切な戦略を割り当てることは困難である。 この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントを学習し、提案したトレーニング済みベースラインSODモデルに接続して対応するタスクを処理する。 各モダリティ対応プロンプトは、シングルモーダルおよびマルチモーダル入力のみに依存する構造切替を行うスイッチ可能なプロンプト生成ブロックから生成される。 UniSODは、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットに対して一貫した性能向上を実現し、本手法がシングルモーダルおよびマルチモーダルのSODタスクを効果的かつ効率的に統一することを示す。

Existing single-modal and multi-modal salient object detection (SOD) methods focus on designing specific architectures tailored for their respective tasks. However, developing completely different models for different tasks leads to labor and time consumption, as well as high computational and practical deployment costs. In this paper, we make the first attempt to address both single-modal and multi-modal SOD in a unified framework called UniSOD. Nevertheless, assigning appropriate strategies to modality variable inputs is challenging. To this end, UniSOD learns modality-aware prompts with task-specific hints through adaptive prompt learning, which are plugged into the proposed pre-trained baseline SOD model to handle corresponding tasks, while only requiring few learnable parameters compared to training the entire model. Each modality-aware prompt is generated from a switchable prompt generation block, which performs structural switching solely relied on single-modal and multi-modal inputs. UniSOD achieves consistent performance improvement on 14 benchmark datasets for RGB, RGB-D, and RGB-T SOD, which demonstrates that our method effectively and efficiently unifies single-modal and multi-modal SOD tasks.
翻訳日:2023-12-18 18:37:43 公開日:2023-12-15
# YUAN 2.0: ローカライズされたフィルタリングベースの注意を伴う大規模言語モデル

YUAN 2.0: A Large Language Model with Localized Filtering-based Attention ( http://arxiv.org/abs/2311.15786v3 )

ライセンス: Link先を確認
Shaohua Wu, Xudong Zhao, Shenling Wang, Jiangang Luo, Lingjun Li, Xi Chen, Bing Zhao, Wei Wang, Tong Yu, Rongguo Zhang, Jiahua Zhang, Chao Wang(参考訳) 本研究では,210億から1026億のパラメータを持つ,一連の大規模言語モデルである yuan 2.0 の開発とリリースを行う。 局所フィルタリングに基づく注意(LFA)は、自然言語の局所的な依存関係に関する事前の知識を注意に組み込むために導入された。 事前学習および微調整データセットを高品質で構築するために,データフィルタリングおよび生成システムを提案する。 非一様パイプライン並列,データ並列,オプティマイザ並列の分散トレーニング手法を提案し,ノード間通信の帯域幅要求を大幅に低減し,大規模分散トレーニングにおいて優れた性能を実現する。 Yuan 2.0モデルは、既存のモデルと比較して、コード生成、数学の問題解決、チャットにおいて素晴らしい能力を示している。 モデルウェイトとソースコードを含むYUAN 2.0の最新バージョンはGithubで公開されている。

In this work, we develop and release Yuan 2.0, a series of large language models with parameters ranging from 2.1 billion to 102.6 billion. The Localized Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. A data filtering and generating system is presented to build pre-training and fine-tuning dataset in high quality. A distributed training method with non-uniform pipeline parallel, data parallel, and optimizer parallel is proposed, which greatly reduces the bandwidth requirements of intra-node communication, and achieves good performance in large-scale distributed training. Yuan 2.0 models display impressive ability in code generation, math problem-solving, and chatting compared with existing models. The latest version of YUAN 2.0, including model weights and source code, is accessible at Github.
翻訳日:2023-12-18 18:37:18 公開日:2023-12-15
# 文書理解の改善に向けて : MLLMによるテキスト収集の探索

Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs ( http://arxiv.org/abs/2311.13194v2 )

ライセンス: Link先を確認
Yonghui Wang, Wengang Zhou, Hao Feng, Keyi Zhou, Houqiang Li(参考訳) 文書理解の分野では、命令追従データを用いたMLLM(Multimodal Large Language Models)の微調整において重要な進歩がなされている。 それでも、テキスト豊富なシナリオにおけるテキストの接頭辞機能の可能性は未検討のままである。 本稿では,画像中のテキストの空間的位置を識別できるMLLMを改良することにより,この欠陥に対処するテキストグラウンド文書理解モデルTGDocを提案する。 経験的な証拠は、テキストグラウンディングがモデルのテキストコンテンツの解釈を改善し、テキストリッチな画像の理解能力を高めていることを示唆している。 具体的には、インターネットからソースされた99KのPowerPointプレゼンテーションを含むデータセットをコンパイルする。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密結合を容易にする。 さらに、テキストリッチな画像の集合をキュレートし、テキストのみのGPT-4に、テキストリッチなシナリオ内のテキストロケーションを特徴とする12Kの高品質な会話を生成する。 テキスト位置データを命令に組み込むことで、TGDocは視覚的質問プロセス中のテキスト位置を識別できる。 大規模な実験により,本手法は複数のテキストリッチベンチマークにおいて最先端性能を実現し,本手法の有効性を検証した。

In the field of document understanding, significant advances have been made in the fine-tuning of Multimodal Large Language Models (MLLMs) with instruction-following data. Nevertheless, the potential of text-grounding capability within text-rich scenarios remains underexplored. In this paper, we present a text-grounding document understanding model, termed TGDoc, which addresses this deficiency by enhancing MLLMs with the ability to discern the spatial positioning of text within images. Empirical evidence suggests that text-grounding improves the model's interpretation of textual content, thereby elevating its proficiency in comprehending text-rich images. Specifically, we compile a dataset containing 99K PowerPoint presentations sourced from the internet. We formulate instruction tuning tasks including text detection, recognition, and spotting to facilitate the cohesive alignment between the visual encoder and large language model. Moreover, we curate a collection of text-rich images and prompt the text-only GPT-4 to generate 12K high-quality conversations, featuring textual locations within text-rich scenarios. By integrating text location data into the instructions, TGDoc is adept at discerning text locations during the visual question process. Extensive experiments demonstrate that our method achieves state-of-the-art performance across multiple text-rich benchmarks, validating the effectiveness of our method.
翻訳日:2023-12-18 18:37:03 公開日:2023-12-15
# Masked Latent Generative Modeling を用いた説明可能な時系列異常検出

Explainable Time Series Anomaly Detection using Masked Latent Generative Modeling ( http://arxiv.org/abs/2311.12550v3 )

ライセンス: Link先を確認
Daesoo Lee, Sara Malacarne and Erlend Aune(参考訳) 本稿では,より優れた説明性を提供しながら,優れた検出精度を実現する新しい時系列異常検出手法を提案する。 提案手法であるTimeVQVAE-ADは、TimeVQVAEとして知られる最先端の時系列生成法に適応したマスク付き生成モデルを利用する。 先行モデルは、時間周波数領域の離散潜在空間に基づいて訓練される。 特に、時間周波数領域の次元的意味論は潜在空間に保存され、異なる周波数帯域にまたがる異常スコアを計算できるため、検出された異常に対するより良い洞察が得られる。 さらに、先行モデルの生成特性は、検出された異常に対する通常の状態のサンプリングを可能にし、検出された異常の説明可能性を高める。 UCR Time Series Anomaly Archiveの実験結果から,TimeVQVAE-ADは検出精度と説明可能性において既存の手法を大幅に上回っていることが示された。 実装はgithubにある。 \url{https://github.com/ml4its/timevqvae-anomalydetection}。

We present a novel time series anomaly detection method that achieves excellent detection accuracy while offering a superior level of explainability. Our proposed method, TimeVQVAE-AD, leverages masked generative modeling adapted from the cutting-edge time series generation method known as TimeVQVAE. The prior model is trained on the discrete latent space of a time-frequency domain. Notably, the dimensional semantics of the time-frequency domain are preserved in the latent space, enabling us to compute anomaly scores across different frequency bands, which provides a better insight into the detected anomalies. Additionally, the generative nature of the prior model allows for sampling likely normal states for detected anomalies, enhancing the explainability of the detected anomalies through counterfactuals. Our experimental evaluation on the UCR Time Series Anomaly archive demonstrates that TimeVQVAE-AD significantly surpasses the existing methods in terms of detection accuracy and explainability. We provide our implementation on GitHub: \url{https://github.com/ML4ITS/TimeVQVAE-AnomalyDetection}.
翻訳日:2023-12-18 18:36:42 公開日:2023-12-15
# テキスト符号化における大規模言語モデルの利用方法:公共政策文書における父の役割を事例として

How to Use Large Language Models for Text Coding: The Case of Fatherhood Roles in Public Policy Documents ( http://arxiv.org/abs/2311.11844v2 )

ライセンス: Link先を確認
Lorenzo Lupo, Oscar Magnusson, Dirk Hovy, Elin Naurin, Lena W\"angnerud(参考訳) GPT-3やGPT-4のような大規模言語モデル(LLM)の最近の進歩は、政治学におけるテキスト分析の新しい機会を開きつつある。 より良い結果と少ないプログラミングで自動化を約束している。 本研究では,非英語政治科学テキストの3つのオリジナルコーディングタスクについてllmを評価し,政治科学研究におけるテキストコーディングにllmを使用する一般的なワークフローの詳細な説明を行う。 我々のユースケースは、LLMをテキスト分析の研究に組み込もうとする研究者に実践的なガイドを提供する。 詳細なラベル定義やコーディング例が提供されれば、llmは、ずっと高速で(数百倍まで)、かなり安く(人間のコーディングよりも最大60%安くなる)、大規模テキストへのスケールがずっと簡単であると同時に、人間の注釈器と同じくらい、あるいはさらに優れたものになることが分かりました。 概して、llmはほとんどのテキストコーディングプロジェクトで実行可能な選択肢となります。

Recent advances in large language models (LLMs) like GPT-3 and GPT-4 have opened up new opportunities for text analysis in political science. They promise automation with better results and less programming. In this study, we evaluate LLMs on three original coding tasks of non-English political science texts, and we provide a detailed description of a general workflow for using LLMs for text coding in political science research. Our use case offers a practical guide for researchers looking to incorporate LLMs into their research on text analysis. We find that, when provided with detailed label definitions and coding examples, an LLM can be as good as or even better than a human annotator while being much faster (up to hundreds of times), considerably cheaper (costing up to 60% less than human coding), and much easier to scale to large amounts of text. Overall, LLMs present a viable option for most text coding projects.
翻訳日:2023-12-18 18:36:27 公開日:2023-12-15
# 高忠実な人物中心の主題から画像への合成

High-fidelity Person-centric Subject-to-Image Synthesis ( http://arxiv.org/abs/2311.10329v2 )

ライセンス: Link先を確認
Yibin Wang and Weizhong Zhang and Jianwei Zheng and Cheng Jin(参考訳) 現在の被写体駆動画像生成手法は、人中心画像生成において重大な課題に遭遇する。 その理由は、事前訓練された共通拡散を微調整することで、意味的シーンと個人生成を学習するからである。 正確には、現実的な人物を生成するためには、事前訓練されたモデルを十分に調整する必要がある。 さらに, 十分な微調整を施しても, 現場と人物の同時学習が品質の妥協につながるため, 高忠実な人物を生成できない。 本稿では,上記の学習不均衡と品質の妥協を解消する効果的な協調生成パイプラインであるface-diffuserを提案する。 具体的には,まずテキスト駆動拡散モデル (TDM) と主観拡張拡散モデル (SDM) の2つの専門的な事前学習拡散モデルを開発し,シーン生成と人物生成を行う。 サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。 第1段と第2段はそれぞれTDMとSDMによって行われる。 課題・シーン融合段階は,新規かつ高効率なメカニズムであるsnf(saliency-adaptive noise fusion)によって達成された協調である。 具体的には, 分類器なしの誘導応答と生成画像の塩分率との間には, 強固な関係があることを示す。 各時間ステップにおいて、SNFは各モデルの特異な強度を活用し、両方のモデルから予測されたノイズを、正当性を考慮した方法で自動的に空間ブレンディングすることができる。 広範な実験により、フェイスディフューザの有効性とロバスト性が実証された。

Current subject-driven image generation methods encounter significant challenges in person-centric image generation. The reason is that they learn the semantic scene and person generation by fine-tuning a common pre-trained diffusion, which involves an irreconcilable training imbalance. Precisely, to generate realistic persons, they need to sufficiently tune the pre-trained model, which inevitably causes the model to forget the rich semantic scene prior and makes scene generation over-fit to the training data. Moreover, even with sufficient fine-tuning, these methods can still not generate high-fidelity persons since joint learning of the scene and person generation also lead to quality compromise. In this paper, we propose Face-diffuser, an effective collaborative generation pipeline to eliminate the above training imbalance and quality compromise. Specifically, we first develop two specialized pre-trained diffusion models, i.e., Text-driven Diffusion Model (TDM) and Subject-augmented Diffusion Model (SDM), for scene and person generation, respectively. The sampling process is divided into three sequential stages, i.e., semantic scene construction, subject-scene fusion, and subject enhancement. The first and last stages are performed by TDM and SDM respectively. The subject-scene fusion stage, that is the collaboration achieved through a novel and highly effective mechanism, Saliency-adaptive Noise Fusion (SNF). Specifically, it is based on our key observation that there exists a robust link between classifier-free guidance responses and the saliency of generated images. In each time step, SNF leverages the unique strengths of each model and allows for the spatial blending of predicted noises from both models automatically in a saliency-aware manner. Extensive experiments confirm the impressive effectiveness and robustness of the Face-diffuser.
翻訳日:2023-12-18 18:36:10 公開日:2023-12-15
# anytext:多言語視覚テキストの生成と編集

AnyText: Multilingual Visual Text Generation And Editing ( http://arxiv.org/abs/2311.03054v4 )

ライセンス: Link先を確認
Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie(参考訳) 拡散モデルに基づくText-to-Imageは最近、素晴らしい成果を上げています。 現在, 画像合成技術は高度に進歩しており, 忠実度の高い画像を生成することができるが, 生成した画像のテキスト領域に注目する場合には, 表示を排除できる。 この問題に対処するため,拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介した。 anytextは、補助的潜在モジュールとテキスト埋め込みモジュールという2つの主要な要素を持つ拡散パイプラインで構成されている。 前者はテキストグリフ、位置、マスク画像などの入力を使用してテキスト生成や編集の遅延機能を生成する。 後者は、ストロークデータを埋め込みとしてエンコードするためのOCRモデルを採用しており、トークンのイメージキャプションの埋め込みと組み合わせて、背景とシームレスに統合するテキストを生成する。 テキスト制御拡散損失とテキスト知覚損失を訓練に採用し,文章の精度をさらに向上させた。 anytextは、私たちの知る限りでは、複数の言語で文字を書くことができます。 AnyTextはコミュニティの既存の拡散モデルにプラグインして、テキストのレンダリングや編集を正確に行うこともできる。 広範な評価実験を行った結果,本手法は他の手法をかなり上回っている。 さらに,300万のイメージテキストペアとocrアノテーションを複数言語で含む,最初の大規模多言語テキストイメージデータセットanyword-3mをコントリビュートする。 anyword-3mデータセットに基づいて,テキスト生成精度と品質評価のためのanytext-benchmarkを提案する。 私たちのプロジェクトは、テキスト生成技術の改善と促進のために、https://github.com/tyxspa/anytextでオープンソース化されます。

Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce AnyText, a diffusion-based multilingual visual text generation and editing model, that focuses on rendering accurate and coherent text in the image. AnyText comprises a diffusion pipeline with two primary elements: an auxiliary latent module and a text embedding module. The former uses inputs like text glyph, position, and masked image to generate latent features for text generation or editing. The latter employs an OCR model for encoding stroke data as embeddings, which blend with image caption embeddings from the tokenizer to generate texts that seamlessly integrate with the background. We employed text-control diffusion loss and text perceptual loss for training to further enhance writing accuracy. AnyText can write characters in multiple languages, to the best of our knowledge, this is the first work to address multilingual visual text generation. It is worth mentioning that AnyText can be plugged into existing diffusion models from the community for rendering or editing text accurately. After conducting extensive evaluation experiments, our method has outperformed all other approaches by a significant margin. Additionally, we contribute the first large-scale multilingual text images dataset, AnyWord-3M, containing 3 million image-text pairs with OCR annotations in multiple languages. Based on AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual text generation accuracy and quality. Our project will be open-sourced on https://github.com/tyxsspa/AnyText to improve and promote the development of text generation technology.
翻訳日:2023-12-18 18:34:56 公開日:2023-12-15
# グラフニューラルネットワークトレーニングのための分散行列ベースサンプリング

Distributed Matrix-Based Sampling for Graph Neural Network Training ( http://arxiv.org/abs/2311.02909v2 )

ライセンス: Link先を確認
Alok Tripathy, Katherine Yelick, Aydin Buluc(参考訳) 本研究の主な貢献は,分散GNNトレーニングにおけるサンプリングステップにおける通信の削減手法である。 本稿では,スパース行列乗算(SpGEMM)としてサンプリングを表現する行列ベースのバルクサンプリング手法を提案し,同時に複数のミニバッチをサンプリングする。 入力グラフトポロジが1つのデバイスに収まらない場合、そのグラフを分散し、通信回避のSpGEMMアルゴリズムを用いてGNNミニバッチサンプリングをスケールし、単一のデバイスメモリに収まるものよりもはるかに大きなグラフでのトレーニングを可能にする。 入力グラフトポロジ(埋め込みではない)が1つのgpuのメモリに収まると、(1)通信なしでサンプリングを行い、(2)ミニバッチをサンプリングするオーバーヘッドを償却し、(3)異なるマトリックス構成を用いて複数のサンプリングアルゴリズムを表現できる。 新しいサンプリング法に加えて,分散GNNトレーニングにおける特徴抽出の現在の手法よりも,単純なオール・ツー・オール交換で特徴データを任意に複製できることを示す。 我々は、28ドルのGPU上で最大のOpen Graph Benchmark(OGB)データセットの実験結果を提供し、パイプラインが3ドルのGraphSAGEネットワーク上で2.5\times$ faster Quiver(PyTorch-Geometricへの分散拡張)であることを示す。 OGB以外のデータセットでは、画期的な時間内に128ドルのGPUで8.46\times$のスピードアップを示す。 最後に、グラフがGPUに分散されている場合のスケーリングと、ノードワイドおよびレイヤワイドサンプリングアルゴリズムのスケーリングを示す。

The primary contribution of this paper is new methods for reducing communication in the sampling step for distributed GNN training. Here, we propose a matrix-based bulk sampling approach that expresses sampling as a sparse matrix multiplication (SpGEMM) and samples multiple minibatches at once. When the input graph topology does not fit on a single device, our method distributes the graph and use communication-avoiding SpGEMM algorithms to scale GNN minibatch sampling, enabling GNN training on much larger graphs than those that can fit into a single device memory. When the input graph topology (but not the embeddings) fits in the memory of one GPU, our approach (1) performs sampling without communication, (2) amortizes the overheads of sampling a minibatch, and (3) can represent multiple sampling algorithms by simply using different matrix constructions. In addition to new methods for sampling, we show that judiciously replicating feature data with a simple all-to-all exchange can outperform current methods for the feature extraction step in distributed GNN training. We provide experimental results on the largest Open Graph Benchmark (OGB) datasets on $128$ GPUs, and show that our pipeline is $2.5\times$ faster Quiver (a distributed extension to PyTorch-Geometric) on a $3$-layer GraphSAGE network. On datasets outside of OGB, we show a $8.46\times$ speedup on $128$ GPUs in-per epoch time. Finally, we show scaling when the graph is distributed across GPUs and scaling for both node-wise and layer-wise sampling algorithms
翻訳日:2023-12-18 18:34:26 公開日:2023-12-15
# Cobalt Blue Eyes: 一貫性と持続可能な言語モデルを作成するためのプロンプトテスト

She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and Sustainable Language Models ( http://arxiv.org/abs/2310.18333v3 )

ライセンス: Link先を確認
Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza(参考訳) 大きな言語モデル(LLM)の使用が社会内で増加するにつれて、その誤用のリスクも増大する。 適切な安全対策は、LLMの出力が社会の倫理的基準を守れるようにし、人工知能技術が持つべきポジティブな役割を強調しなければならない。 最近の出来事は、従来の訓練されたllmに関する倫理的な懸念を示し、全体的に安全でないユーザエクスペリエンスに繋がる。 LLMのアライメントを確保するにはどうすればいいのか? 本稿では,公平かつ安全かつ堅牢なアライメントllmの開発を促進するための,ユニークなプロンプトのテストスイートを紹介する。 データキュレーションや事前トレーニング,微調整など,開発パイプラインのすべてのステップでLLMをプッシュすることで,全体的な責任を負うモデルが実現することを示す。 テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。 本稿では,社会的アライメントと現在のLCMの能力のギャップを明らかにする。 さらに、我々のようなテストスイートの実装は、モデルを安全かつ公平にする際の環境負荷を低減します。

As the use of large language models (LLMs) increases within society, as does the risk of their misuse. Appropriate safeguards must be in place to ensure LLM outputs uphold the ethical standards of society, highlighting the positive role that artificial intelligence technologies can have. Recent events indicate ethical concerns around conventionally trained LLMs, leading to overall unsafe user experiences. This motivates our research question: how do we ensure LLM alignment? In this work, we introduce a test suite of unique prompts to foster the development of aligned LLMs that are fair, safe, and robust. We show that prompting LLMs at every step of the development pipeline, including data curation, pre-training, and fine-tuning, will result in an overall more responsible model. Our test suite evaluates outputs from four state-of-the-art language models: GPT-3.5, GPT-4, OPT, and LLaMA-2. The assessment presented in this paper highlights a gap between societal alignment and the capabilities of current LLMs. Additionally, implementing a test suite such as ours lowers the environmental overhead of making models safe and fair.
翻訳日:2023-12-18 18:33:09 公開日:2023-12-15
# インテリジェントな製造アプリケーションのための大規模基盤モデル:調査

Large Scale Foundation Models for Intelligent Manufacturing Applications: A Survey ( http://arxiv.org/abs/2312.06718v2 )

ライセンス: Link先を確認
Haotian Zhang, Semujju Stuart Dereck, Zhicheng Wang, Xianwei Lv, Kang Xu, Liang Wu, Ye Jia, Jing Wu, Zhuo Long, Wensheng Liang, X.G. Ma, and Ruiyan Zhuang(参考訳) 人工知能の応用、特に深層学習は知的製造の様々な側面を大幅に改善したが、一般化能力の貧弱さ、高品質なトレーニングデータセットの確立の困難、ディープラーニング手法の不満足な性能など、幅広い雇用の課題に直面した。 大規模な基礎モデル(LSFM)の出現は、人工知能の分野で波を巻き起こし、ディープラーニングモデルをシングルタスク、シングルモーダル、限定データパターンから、多様なタスクを含むパラダイム、マルチモーダル、大規模データセットの事前トレーニングへとシフトさせた。 LSFMは、強力な一般化能力、自動高品質のトレーニングデータセット生成、様々な領域での優れた性能を示したが、LSFMの知能製造への応用はまだ初期段階にあった。 このトピックの体系的な概要は欠如しており、特に深層学習の課題がLSFMによってどのように対処され、これらの課題が体系的に取り組まれるかについてである。 このギャップを埋めるため,本稿では,現在のlsfm像とその知的製造における利点を体系的に提示した。 そして、さまざまなインテリジェントな製造アプリケーションにおいて、現在のディープラーニングモデルが直面する課題と包括的に比較する。 LSFMを利用してこれらの課題に対処するためのロードマップも概説した。 最後に、LSFMを実世界のインテリジェントな製造シナリオに適用する事例研究を行い、LSFMが産業にどのように貢献し、その効率を向上するかを示した。

Although the applications of artificial intelligence especially deep learning had greatly improved various aspects of intelligent manufacturing, they still face challenges for wide employment due to the poor generalization ability, difficulties to establish high-quality training datasets, and unsatisfactory performance of deep learning methods. The emergence of large scale foundational models(LSFMs) had triggered a wave in the field of artificial intelligence, shifting deep learning models from single-task, single-modal, limited data patterns to a paradigm encompassing diverse tasks, multimodal, and pre-training on massive datasets. Although LSFMs had demonstrated powerful generalization capabilities, automatic high-quality training dataset generation and superior performance across various domains, applications of LSFMs on intelligent manufacturing were still in their nascent stage. A systematic overview of this topic was lacking, especially regarding which challenges of deep learning can be addressed by LSFMs and how these challenges can be systematically tackled. To fill this gap, this paper systematically expounded current statue of LSFMs and their advantages in the context of intelligent manufacturing. and compared comprehensively with the challenges faced by current deep learning models in various intelligent manufacturing applications. We also outlined the roadmaps for utilizing LSFMs to address these challenges. Finally, case studies of applications of LSFMs in real-world intelligent manufacturing scenarios were presented to illustrate how LSFMs could help industries, improve their efficiency.
翻訳日:2023-12-18 18:27:17 公開日:2023-12-15
# 最小マージンを最大化するマルチクラスサポートベクトルマシン

Multi-class Support Vector Machine with Maximizing Minimum Margin ( http://arxiv.org/abs/2312.06578v2 )

ライセンス: Link先を確認
Feiping Nie, Zhezheng Hao, Rong Wang(参考訳) サポートベクターマシン(svm)は、実用的なパターン認識タスクに広く適用される機械学習技術として際立っている。 インスタンスと決定境界の間の最小距離を表す "margin" を最大化することでバイナリ分類を実現する。 マルチクラスのケースに対するsvmの拡張には、1対1、その他に対する戦略など多くの努力がなされているが、十分なソリューションは開発されていない。 本稿では,クラス損失のペア化と最小マージンの最大化を両立するマルチクラスSVMの新たな手法を提案する。 この概念に則り、マルチクラスSVMの柔軟性を高める新しい定式化を受け入れます。 さらに,提案手法と複数種類のマルチクラスSVMの相関関係について検討した。 提案した正規化器は、"margin"の概念に似ており、深層学習におけるソフトマックスをシームレスに拡張し、ネットワークパラメータ学習のためのガイダンスを提供する。 実証的な評価は、既存のマルチクラス化メソッドよりも提案手法の有効性と優れていることを示している。

Support Vector Machine (SVM) stands out as a prominent machine learning technique widely applied in practical pattern recognition tasks. It achieves binary classification by maximizing the "margin", which represents the minimum distance between instances and the decision boundary. Although many efforts have been dedicated to expanding SVM for multi-class case through strategies such as one versus one and one versus the rest, satisfactory solutions remain to be developed. In this paper, we propose a novel method for multi-class SVM that incorporates pairwise class loss considerations and maximizes the minimum margin. Adhering to this concept, we embrace a new formulation that imparts heightened flexibility to multi-class SVM. Furthermore, the correlations between the proposed method and multiple forms of multi-class SVM are analyzed. The proposed regularizer, akin to the concept of "margin", can serve as a seamless enhancement over the softmax in deep learning, providing guidance for network parameter learning. Empirical evaluations demonstrate the effectiveness and superiority of our proposed method over existing multi-classification methods.Code is available at https://github.com/zz-haooo/M3SVM.
翻訳日:2023-12-18 18:26:51 公開日:2023-12-15
# コンテキストバンディットにおける2倍ロバスト差動報酬モデルのための偏差機械学習とネットワーク凝集

Debiased Machine Learning and Network Cohesion for Doubly-Robust Differential Reward Models in Contextual Bandits ( http://arxiv.org/abs/2312.06403v2 )

ライセンス: Link先を確認
Easton K. Huch, Jieru Shi, Madeline R. Abbott, Jessica R. Golbus, Alexander Moreno, and Walter H. Dempsey(参考訳) モバイルヘルス(mhealth)の介入ポリシーを学ぶ一般的なアプローチは、線形トンプソンサンプリングである。 2つの望ましいmhealthポリシーフィーチャは、(1)個人と時間にまたがる情報をプールすること、(2)時間的なベースライン報酬を組み込むことである。 これまでのアプローチでは、個人間で情報をプールするが、時間ではなく、時間とともに治療効果の傾向を捉えることができなかった。 さらに、これらのアプローチはベースライン報酬を明示的にモデル化していないため、差分報酬モデルのパラメータを正確に推定する能力が制限された。 本稿では,(1)近隣住民が利用者と時間にまたがる差分報酬関数に関する情報を効率的にプールする「DML-TS-NNR」と呼ばれる新しいトンプソンサンプリングアルゴリズムを提案し,(2)ベースライン報酬を明示的にモデル化し,使用する教師付き学習アルゴリズムに非依存な状態を保つためのDML(Double Machine Learning)フレームワークを提案する。 ベースライン報酬を明示的にモデル化することにより、差分報酬パラメータに対する信頼度を小さくする。 実証的な結果によって支持される擬似回帰に関する理論的保証を提供する。 重要なことに、DML-TS-NNRアルゴリズムはベースライン報酬モデルにおける潜在的な誤特定に対して堅牢性を示す。

A common approach to learning mobile health (mHealth) intervention policies is linear Thompson sampling. Two desirable mHealth policy features are (1) pooling information across individuals and time and (2) incorporating a time-varying baseline reward. Previous approaches pooled information across individuals but not time, failing to capture trends in treatment effects over time. In addition, these approaches did not explicitly model the baseline reward, which limited the ability to precisely estimate the parameters in the differential reward model. In this paper, we propose a novel Thompson sampling algorithm, termed ''DML-TS-NNR'' that leverages (1) nearest-neighbors to efficiently pool information on the differential reward function across users and time and (2) the Double Machine Learning (DML) framework to explicitly model baseline rewards and stay agnostic to the supervised learning algorithms used. By explicitly modeling baseline rewards, we obtain smaller confidence sets for the differential reward parameters. We offer theoretical guarantees on the pseudo-regret, which are supported by empirical results. Importantly, the DML-TS-NNR algorithm demonstrates robustness to potential misspecifications in the baseline reward model.
翻訳日:2023-12-18 18:26:32 公開日:2023-12-15
# BAT:自律運転のための行動認識型人型軌道予測

BAT: Behavior-Aware Human-Like Trajectory Prediction for Autonomous Driving ( http://arxiv.org/abs/2312.06371v2 )

ライセンス: Link先を確認
Haicheng Liao, Zhenning Li, Huanming Shen, Wenxuan Zeng, Dongping Liao, Guofa Li, Shengbo Eben Li, Chengzhong Xu(参考訳) 周囲の車両の軌道を正確に予測する能力は、完全自動運転車への旅を乗り越える上で重要なハードルとなる。 この課題に対処するために,交通心理学,人間行動,意思決定からの洞察と知見を取り入れた行動認識軌道予測モデル(BAT)を考案した。 本モデルは,動作認識,対話認識,優先認識,位置認識の各モジュールから構成され,運転行動の厳格な分類を伴わずに高いレベルの学習と柔軟性を実現する。 このアプローチは、トレーニングプロセスにおける手動ラベリングの必要性を排除し、非連続的な振る舞いラベリングと適切な時間ウィンドウの選択の課題に対処する。 我々は、次世代シミュレーション(NGSIM)、ハイウェイドローン(HighD)、ラウンドアバウンドドローン(RounD)、マカオコネクテッド自律運転(MoCAD)データセットにおけるBATの性能を評価し、予測精度と効率性の観点から、最先端のSOTAベンチマークよりも優れていることを示す。 注目すべきは、トレーニングデータ(25%)の少ない部分のトレーニングであっても、私たちのモデルはベースラインの大部分を上回り、車軌道予測の堅牢性と効率、特にコーナーケースにおける自動運転車の訓練に必要なデータ量を削減する可能性を示している。 結論として、行動認識モデルは、人間の運転者と同じ習熟度で軌道を予測できる自動運転車の開発において、大きな進歩を示す。 プロジェクトページはhttps://github.com/Petrichor625/BATraj-Behavior-aware-Modelで公開されている。

The ability to accurately predict the trajectory of surrounding vehicles is a critical hurdle to overcome on the journey to fully autonomous vehicles. To address this challenge, we pioneer a novel behavior-aware trajectory prediction model (BAT) that incorporates insights and findings from traffic psychology, human behavior, and decision-making. Our model consists of behavior-aware, interaction-aware, priority-aware, and position-aware modules that perceive and understand the underlying interactions and account for uncertainty and variability in prediction, enabling higher-level learning and flexibility without rigid categorization of driving behavior. Importantly, this approach eliminates the need for manual labeling in the training process and addresses the challenges of non-continuous behavior labeling and the selection of appropriate time windows. We evaluate BAT's performance across the Next Generation Simulation (NGSIM), Highway Drone (HighD), Roundabout Drone (RounD), and Macao Connected Autonomous Driving (MoCAD) datasets, showcasing its superiority over prevailing state-of-the-art (SOTA) benchmarks in terms of prediction accuracy and efficiency. Remarkably, even when trained on reduced portions of the training data (25%), our model outperforms most of the baselines, demonstrating its robustness and efficiency in predicting vehicle trajectories, and the potential to reduce the amount of data required to train autonomous vehicles, especially in corner cases. In conclusion, the behavior-aware model represents a significant advancement in the development of autonomous vehicles capable of predicting trajectories with the same level of proficiency as human drivers. The project page is available at https://github.com/Petrichor625/BATraj-Behavior-aware-Model.
翻訳日:2023-12-18 18:26:11 公開日:2023-12-15
# ノイズクロスモーダルマッチングのための負の事前認識

Negative Pre-aware for Noisy Cross-modal Matching ( http://arxiv.org/abs/2312.05777v2 )

ライセンス: Link先を確認
Xu Zhang and Hao Li and Mang Ye(参考訳) 雑音対応は認識と修正が難しいため,クロスモーダルノイズロバスト学習は難しい課題である。 未解決ノイズの累積及び不可避負の影響により、既存の手法ではノイズが増大しても安定した性能を維持することはできない。 本稿では,雑音の多い下流タスクにおける大規模視覚言語モデルファインチューニングのための,NPC(Negative Pre-aware Cross-modal)マッチングソリューションを提案する。 1) ノイズ認識と抵抗の2つの側面で特徴付けられる:(1) 従来の手法は、通常、ノイズサブセットを直接フィルタリングするが、各サンプルの負の影響を推定する。 信頼できない修正結果を予測するための追加の補正機構は不要であり、自己補強誤差につながる。 トレーニングプロセスにおける負の影響に応じて,各サンプルに信頼度重みを割り当てる。 これにより、ノイズ蓄積を避けるために各試料の寄与を適応的に調整する。 2) ノイズの増加とともに安定した性能を維持するため, メモリバンクの維持によるDNNの記憶効果を利用する。 具体的には、メモリエントリとして高信頼クリーンサンプルを選択するためにGMMを適用し、メモリエントリを使用して各サンプルの負の影響を推定する。 クリーンサンプルはノイズの増加とともにGMMにより識別が容易であるため、メモリバンクは高いノイズ比で高い品質を維持することができる。 ノイズサンプルに着目した補正機構に比べ、メモリバンクに基づく推定はより堅牢であり、ノイズの多いデータセットでモデル性能を安定させる。 広汎な実験により,提案手法は雑音比の増加に伴うマッチング精度と性能安定性を著しく向上することが示された。 我々のアプローチは最先端の手法を大きく上回っている。 コードはhttps://github.com/ZhangXu0963/NPCで入手できる。

Cross-modal noise-robust learning is a challenging task since noisy correspondence is hard to recognize and rectify. Due to the cumulative and unavoidable negative impact of unresolved noise, existing methods cannot maintain a stable performance when the noise increases. In this paper, we present a novel Negative Pre-aware Cross-modal (NPC) matching solution for large visual-language model fine-tuning on noisy downstream tasks. It is featured in two aspects: (1) For noise recognition and resistance, previous methods usually directly filter out a noise subset, we propose to estimate the negative impact of each sample. It does not need additional correction mechanisms that may predict unreliable correction results, leading to self-reinforcing error. We assign a confidence weight to each sample according to its negative impact in the training process. This adaptively adjusts the contribution of each sample to avoid noisy accumulation. (2) For maintaining stable performance with increasing noise, we utilize the memorization effect of DNNs by maintaining a memory bank. Specifically, we apply GMM to select high-confident clean samples as the memory entry, where the memory entry is used to estimate the negative impact of each sample. Since clean samples are easier distinguished by GMM with increasing noise, the memory bank can still maintain high quality at a high noise ratio. Compared to the correction mechanism focusing on noise samples, memory bank-based estimation is more robust, which makes the model performance stable on noisy datasets. Extensive experiments demonstrate that our method significantly improves matching accuracy and performance stability at increasing noise ratio. Our approach also surpasses the state-of-the-art methods by a large margin. The code is available at: https://github.com/ZhangXu0963/NPC.
翻訳日:2023-12-18 18:25:40 公開日:2023-12-15
# aiイノベーションが米国の職業に及ぼす影響

The Impact of AI Innovations on U.S. Occupations ( http://arxiv.org/abs/2312.04714v2 )

ライセンス: Link先を確認
Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia(参考訳) AIの影響は伝統的に職業の観点から評価されてきた。 しかし、職業は相互接続されたタスクで構成されており、AIの影響を受けているのは職業自身ではなく、これらのタスクである。 タスクがどう影響するかを評価するために、以前のアプローチでは手動アノテーションや粗い粒度のマッチングを利用した。 機械学習の最近の進歩を利用して、粗粒度マッチングをより正確なディープラーニングアプローチに置き換える。 AI Impact(AII)測定の導入では、Deep Learning Natural Language Processingを使用して、さまざまな作業タスクに影響を及ぼすAI特許を自動的に識別する。 我々の方法論は、2015年から2020年にかけて米国特許商標庁(USPTO)に提出された12,984件のAI特許の分析を通じて、19,498件のタスク記述の包括的なデータセットに依存し、AIの影響を定量化する。 我々の観察によると、AIが職業に与える影響は、タスクの複雑さに基づく単純な分類に反し、基本的なスキルと高度なスキルの二分法だけでAIの効果が説明できるという従来の信念に異議を唱えている。 その代わり、影響は、特定のタスクに関連する基本的なスキルや高度なスキルに複雑に結びついている。 例えば、アイテムをスキャンするといった基本的なスキルが影響を受けるかもしれないが、料理のようなスキルは影響しない。 同様に、放射線学における画像解析のようなある種の高度な技術は影響を受けうるが、対人関係に関わるスキルは影響を受けない。 さらに、AIの影響は知識中心の領域を超えて広がる。 経済不平等や経済の多様化の欠如によってしばしば特徴づけられる、AIの変化に強く依存する米国の地域は、顕著なAIの影響を経験する。

AI's impact has traditionally been assessed in terms of occupations. However, an occupation is comprised of interconnected tasks, and it is these tasks, not occupations themselves, that are affected by AI. To evaluate how tasks may be impacted, previous approaches utilized manual annotations or coarse-grained matching. Leveraging recent advancements in machine learning, we replace coarse-grained matching with more precise deep learning approaches. Introducing the AI Impact (AII) measure, we employ Deep Learning Natural Language Processing to automatically identify AI patents that impact various occupational tasks at scale. Our methodology relies on a comprehensive dataset of 19,498 task descriptions and quantifies AI's impact through analysis of 12,984 AI patents filed with the United States Patent and Trademark Office (USPTO) between 2015 and 2020. Our observations reveal that the impact of AI on occupations defies simplistic categorizations based on task complexity, challenging the conventional belief that the dichotomy between basic and advanced skills alone explains the effects of AI. Instead, the impact is intricately linked to specific skills, whether basic or advanced, associated with particular tasks. For instance, while basic skills like scanning items may be affected, others like cooking may not. Similarly, certain advanced skills, such as image analysis in radiology, may face impact, while skills involving interpersonal relationships may remain unaffected. Furthermore, the influence of AI extends beyond knowledge-centric regions. Regions in the U.S. that heavily rely on industries susceptible to AI changes, often characterized by economic inequality or a lack of economic diversification, will experience notable AI impact.
翻訳日:2023-12-18 18:25:14 公開日:2023-12-15
# 土木インフラにおけるき裂分割のための微調整ビジョン基礎モデル

Fine-tuning vision foundation model for crack segmentation in civil infrastructures ( http://arxiv.org/abs/2312.04233v2 )

ライセンス: Link先を確認
Kang Ge and Chen Wang and Yutao Guo and Yansong Tang and Zhenzhong Hu(参考訳) 大規模な基礎モデルが主流となる一方で、土木工学ではAIモデルの規模は厳しく制限されている。 本稿では,クラックセグメント化のためのビジョン基盤モデルを提案する。 セグメンテーションにおける基礎モデルを微調整するために,2つのパラメータ効率の高い微調整手法,アダプタと低ランク適応が採用された。 微調整されたCrackSAMモデルは、既存のすべてのクラックセグメンテーションモデルよりもはるかに大きいが、優れた性能を示している。 提案手法のゼロショット性能をテストするため,道路および外壁の亀裂に関する2つのユニークなデータセットを,合計810枚の画像に対して収集,注釈付け,オープンソース化した。 12の成熟したセマンティクスセグメンテーションモデルを用いて比較実験を行った。 人工ノイズのあるデータセットや、以前は目に見えないデータセットでは、CrackSAMのパフォーマンスは、すべての最先端モデルのデータセットをはるかに上回っている。 CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件下で、顕著な優位性を示す。 これらのクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデルを開発するための新しいアイデアを提供する。

Large-scale foundation models have become the mainstream deep learning method, while in civil engineering, the scale of AI models is strictly limited. In this work, a vision foundation model is introduced for crack segmentation. Two parameter-efficient fine-tuning methods, adapter and low-rank adaptation, are adopted to fine-tune the foundation model in semantic segmentation: the Segment Anything Model (SAM). The fine-tuned CrackSAM model is much larger than all the existing crack segmentation models but shows excellent performance. To test the zero-shot performance of the proposed method, two unique datasets related to road and exterior wall cracks are collected, annotated and open-sourced, for a total of 810 images. Comparative experiments are conducted with twelve mature semantic segmentation models. On datasets with artificial noise and previously unseen datasets, the performance of CrackSAM far exceeds that of all state-of-the-art models. CrackSAM exhibits remarkable superiority, particularly under challenging conditions such as dim lighting, shadows, road markings, construction joints, and other interference factors. These cross-scenario results demonstrate the outstanding zero-shot capability of foundation models and provide new ideas for developing vision models in civil engineering.
翻訳日:2023-12-18 18:24:45 公開日:2023-12-15
# 自己説明的合理化のための論理-入力アライメントの強化

Enhancing the Rationale-Input Alignment for Self-explaining Rationalization ( http://arxiv.org/abs/2312.04103v2 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Zhiying Deng, YuanKai Zhang, Cheng Wang, Ruixuan Li(参考訳) 合理化は協調ゲームを通じて自己説明能力を持つディープラーニングモデルに権限を与え、ジェネレータが入力の意味論的に一貫したサブセットを論理として選択し、続く予測器が選択された論理に基づいて予測を行う。 本稿では,協調ゲームにおけるアルゴリズム的バイアスから生じる「emph{rationale shift}」という問題に合理化が伴うことを示した。 論理シフトは、選択された論理のセマンティクスが元の入力から逸脱する可能性がある状況を指すが、予測器は依然として偏差に基づいて正確な予測を生成し、誤ったフィードバックを伴う漏洩発生器を生成する。 この問題に対処するため,我々はまず,経験的観察と理論解析の両方を通して,理論と入力の一致の重要性を実証する。 次に,全入力に事前学習された補助モジュールを使用して,選択された論理と元の入力を識別的に調整する,dar(\textbf{d}iscriminatively \textbf{a}ligned \textbf{r}ationalization)と呼ばれる新しいアプローチを導入する。 理論的には、DARが望ましいアライメントをどのように達成し、したがって有理シフト問題を克服するかを論じる。 実世界の2つのベンチマークを用いた実験により,提案手法は,最先端技術と比較して,説明品質(モデル選択説明とヒューマンアノテート推論の重なり)が有意に向上することが示された。 さらに、2つの合成設定の結果は、理性シフト問題に対するdarの有効性をさらに検証している。

Rationalization empowers deep learning models with self-explaining capabilities through a cooperative game, where a generator selects a semantically consistent subset of the input as a rationale, and a subsequent predictor makes predictions based on the selected rationale. In this paper, we discover that rationalization is prone to a problem named \emph{rationale shift}, which arises from the algorithmic bias of the cooperative game. Rationale shift refers to a situation where the semantics of the selected rationale may deviate from the original input, but the predictor still produces accurate predictions based on the deviation, resulting in a compromised generator with misleading feedback. To address this issue, we first demonstrate the importance of the alignment between the rationale and the full input through both empirical observations and theoretical analysis. Subsequently, we introduce a novel approach called DAR (\textbf{D}iscriminatively \textbf{A}ligned \textbf{R}ationalization), which utilizes an auxiliary module pretrained on the full input to discriminatively align the selected rationale and the original input. We theoretically illustrate how DAR accomplishes the desired alignment, thereby overcoming the rationale shift problem. The experiments on two widely used real-world benchmarks show that the proposed method significantly improves the explanation quality (measured by the overlap between the model-selected explanation and the human-annotated rationale) as compared to state-of-the-art techniques. Additionally, results on two synthetic settings further validate the effectiveness of DAR in addressing the rationale shift problem.
翻訳日:2023-12-18 18:24:25 公開日:2023-12-15
# CaloQVAE : ハイブリッド量子古典生成モデルを用いた高エネルギー粒子-カロリメータ相互作用のシミュレーション

CaloQVAE : Simulating high-energy particle-calorimeter interactions using hybrid quantum-classical generative models ( http://arxiv.org/abs/2312.03179v2 )

ライセンス: Link先を確認
Sehmimul Hoque (1, 2), Hao Jia (3), Abhishek Abhishek (4), Mojde Fadaie (1), J. Quetzalcoatl Toledo-Mar\'in (4), Tiago Vale (5, 4), Roger G. Melko (1, 6), Maximilian Swiatlowski (4), Wojciech T. Fedorko (4) ((1) Perimeter Institute for Theoretical Physics, (2) Faculty of Mathematics, University of Waterloo, (3) Department of Physics and Astronomy, University of British Columbia, (4) TRIUMF, (5) Department of Physics, Simon Fraser University, (6) Department of Physics and Astronomy, University of Waterloo)(参考訳) 大型ハドロン衝突型加速器の高輝度時代は、衝突現象の分析において重要な計算上の課題を呈している。 モンテカルロシミュレーション(MC)は、これらの実験データの下のシミュレーションデータセットの統計的不確実性を制限するために必要とされる。 検出器のカロリー領域を伝播する高エネルギー粒子のモデリングは、最も計算集約的なMCシミュレーションタスクである。 本稿では,高エネルギー粒子-カロリメータ相互作用の高速かつ効率的なシミュレーションのための生成モデルと量子アニールの最近の進歩を組み合わせた手法を提案する。

The Large Hadron Collider's high luminosity era presents major computational challenges in the analysis of collision events. Large amounts of Monte Carlo (MC) simulation will be required to constrain the statistical uncertainties of the simulated datasets below these of the experimental data. Modelling of high-energy particles propagating through the calorimeter section of the detector is the most computationally intensive MC simulation task. We introduce a technique combining recent advancements in generative models and quantum annealing for fast and efficient simulation of high-energy particle-calorimeter interactions.
翻訳日:2023-12-18 18:23:54 公開日:2023-12-15
# プロパゲータのFeynman-Dyson図形摂動拡大の失敗

Failures of the Feynman-Dyson diagrammatic perturbation expansion of propagators ( http://arxiv.org/abs/2312.03157v2 )

ライセンス: Link先を確認
So Hirata, Ireneusz Grabowski, Rodney J. Bartlett(参考訳) 分子の一般順序多体グリーン関数を用いて, 1粒子多体グリーン関数を電子伝達体として, ファインマン・ダイソン図式摂動展開の3つの病理学的挙動を数値的に示す。 まず、周波数依存自己エネルギーの摂動拡大は、多くの周波数領域における正確な自己エネルギーにおいて非収束である。 第二に、奇階自己エネルギーを持つダイソン方程式は定性的に間違った形状であり、その結果、衛星の根の大部分は複雑で非物理的である。 第三に、等階の自己エネルギーを持つダイソン方程式は摂動順序が上昇するにつれて指数関数的に増加する根の数を持ち、正しい根の数を超える。 頂点や辺修正による図形の無限部分和はこれらの問題を悪化させる。 非収束理論は高次摂動理論を衛星の根には役に立たないだけでなく、すべての極と残基の知識を必要とする ans\"{a}tze との併用の有効性を疑問視する。 このような ans\"{a}tze には、ガリツキー・ミグダル恒等式、自己整合グリーン関数法、ルッティンガー・ウォード汎函数、代数図形構成のモデルなどがある。

Using a general-order many-body Green's-function method for molecules, we numerically illustrate three pathological behaviors of the Feynman-Dyson diagrammatic perturbation expansion of one-particle many-body Green's functions as electron propagators. First, the perturbation expansion of the frequency-dependent self-energy is nonconvergent at the exact self-energy in many frequency domains. Second, the Dyson equation with an odd-order self-energy has a qualitatively wrong shape and, as a result, most of their satellite roots are complex and nonphysical. Third, the Dyson equation with an even-order self-energy has an exponentially increasing number of roots as the perturbation order is raised, which quickly exceeds the correct number of roots. Infinite partial summation of diagrams by vertex or edge modification exacerbates these problems. Not only does the nonconvergence render higher-order perturbation theories useless for satellite roots, but it also calls into question the validity of their combined use with the ans\"{a}tze requiring the knowledge of all poles and residues. Such ans\"{a}tze include the Galitskii-Migdal identity, self-consistent Green's-function methods, Luttinger-Ward functional, and some models of the algebraic diagrammatic construction.
翻訳日:2023-12-18 18:23:46 公開日:2023-12-15
# 健康のための機械学習シンポジウム2023 -- findings track

Machine Learning for Health symposium 2023 -- Findings track ( http://arxiv.org/abs/2312.00655v3 )

ライセンス: Link先を確認
Stefan Hegselmann, Antonio Parziale, Divya Shanmugam, Shengpu Tang, Mercy Nyamewaa Asiedu, Serina Chang, Thomas Hartvigsen, Harvineet Singh(参考訳) 2023年12月10日にルイジアナ州ニューオーリンズで開催された第3回機械学習・フォー・ヘルスシンポジウム(ML4H 2023)で発表されたFindingsの論文集。 ML4H 2023は、医療、バイオメディシン、公衆衛生など、様々な健康関連分野における問題に関する高品質な申請を招待した。 提出トラックはアーカイバル・プロシージャー・トラックと非アーキバル・アック・トラックの2つが提供された。 研究対象は、高度な技術的洗練と健康への影響の高い成熟した作業であった。 調査結果のトラックは、洞察に富んだ議論を呼び起こしたり、コミュニティにとって貴重なリソースになったり、新しいコラボレーションを可能にする新しいアイデアを探した。 手続トラックへの提出は受理されなかったとしても、自動的に結果トラックとして検討された。 ml4hシンポジウムに提出された全ての原稿は、二重盲検のピアレビュープロセスが行われた。

A collection of the accepted Findings papers that were presented at the 3rd Machine Learning for Health symposium (ML4H 2023), which was held on December 10, 2023, in New Orleans, Louisiana, USA. ML4H 2023 invited high-quality submissions on relevant problems in a variety of health-related disciplines including healthcare, biomedicine, and public health. Two submission tracks were offered: the archival Proceedings track, and the non-archival Findings track. Proceedings were targeted at mature work with strong technical sophistication and a high impact to health. The Findings track looked for new ideas that could spark insightful discussion, serve as valuable resources for the community, or could enable new collaborations. Submissions to the Proceedings track, if not accepted, were automatically considered for the Findings track. All the manuscripts submitted to ML4H Symposium underwent a double-blind peer-review process.
翻訳日:2023-12-18 18:23:19 公開日:2023-12-15
# 3SAT問題に対する量子近似最適化アルゴリズムの断熱型パラメータ設定法

Adiabatic-Passage Based Parameter Setting Method for Quantum Approximate Optimization Algorithm on 3-SAT Problem ( http://arxiv.org/abs/2312.00077v2 )

ライセンス: Link先を確認
Mingyou Wu, Zhihao Liu(参考訳) 量子近似最適化アルゴリズム(QAOA)は、組合せ最適化問題に対処する大きな可能性を示す。 短期量子デバイスへの期待にもかかわらず、QAOAを適用する上での大きな課題は、パラメータ設定に関連する最適化コストにある。 パラメータ設定の既存の方法は、一般的には少なくとも超線形最適化コストがかかる。 本研究では,3SAT問題に適用した場合,QAOAの深さpに関するサブ線形レベルに対する最適化コストを著しく低減する,断熱経路に基づくパラメータ設定手法を提案する。 この手法は3SAT問題のランダムモデルの解析から始まり、ハミルトニアン問題に問題依存の事前処理を適用し、問題のスケールからパラメータの大きさを効果的に分離する。 これにより、最適化コストを伴わずに問題に依存しない初期化が実現される。 さらに、最適断熱通路の連続性に基づいてパラメータ空間を調整し、QAOAの隣接層間のパラメータの相違を低減させる。 この連続性を活用することにより、準最適パラメータを見つけるコストは、サブ線形レベルに大幅に削減される。

The Quantum Approximate Optimization Algorithm (QAOA) exhibits significant potential for tackling combinatorial optimization problems. Despite its promise for near-term quantum devices, a major challenge in applying QAOA lies in the optimization cost associated with parameter setting. Existing methods for parameter setting generally incur at least a superlinear optimization cost. In this study, we propose a novel adiabatic-passage-based parameter setting method that remarkably reduces the optimization cost, specifically when applied to the 3-SAT problem, to a sublinear level concerning the depth p of QAOA. Beginning with an analysis of the random model of 3-SAT problem, this method applies a problem-dependent preprocessing on the problem Hamiltonian, effectively segregating the magnitude of parameters from the scale of the problem. Consequently, a problem-independent initialization is achieved without incurring any optimization cost. Furthermore, the parameter space is adjusted based on the continuity of the optimal adiabatic passage, resulting in a reduction in the disparity of parameters between adjacent layers of QAOA. By leveraging this continuity, the cost to find quasi-optimal parameters is significantly reduced to a sublinear level.
翻訳日:2023-12-18 18:23:04 公開日:2023-12-15
# Gene-MOE: パンカウンサーゲノム解析のためのスパースゲートフレームワーク

Gene-MOE: A Sparsely-gated Framework for Pan-Cancer Genomic Analysis ( http://arxiv.org/abs/2311.17401v2 )

ライセンス: Link先を確認
Xiangyu Meng, Xue Li, Qing Yang, Huanhuan Dai, Lian Qiao, Hongzhen Ding, Long Hao and Xun Wang(参考訳) 深層学習の進歩の恩恵を受け、生存分析、腫瘍とそのサブタイプの分類、特定の経路の探索など様々なゲノム解析技術は、がんを駆動する生物学的メカニズムの理解を大きく高めています。 しかし、患者サンプルの数が限られていることから生じる過剰適合問題は、ニューラルネットワークの深化によってゲノム解析の精度を向上させる上で課題となる。 さらに,sparsely gated mixture of expert (moe) やself-attention mechanism などの新しい手法がゲノム解析の精度を向上させるかは,まだ不明である。 本稿では,Gene-MOEと呼ばれるRNA-seq解析フレームワークについて紹介する。 このフレームワークは、moe層と提案する注意エキスパート(moae)層の混合を利用して分析精度を向上させる。 さらに,TGAパン・カンサーRNA-seqデータセットに,33種類のがん情報を事前訓練することで,過剰適合する課題に対処した。 その後,事前訓練した遺伝子MOEに基づく癌分類と生存分析に関する実験を行った。 14種類のがんの生存率分析の結果、遺伝子モエは12種類のがんの最先端モデルよりも優れていた。 詳細な特徴分析により,遺伝子MOEモデルは高次元遺伝子のリッチな特徴表現を学習できることがわかった。 分類結果によると,33のがん分類の分類モデルの総精度は95.8%に達し,最先端モデルと比較して最高の成績を示した。 これらの結果から,遺伝子MOEは癌分類と生存分析に有用であることが示唆された。

Benefiting from the advancements in deep learning, various genomic analytical techniques, such as survival analysis, classification of tumors and their subtypes, and exploration of specific pathways, have significantly enhanced our understanding of the biological mechanisms driving cancer. However, the overfitting issue, arising from the limited number of patient samples, poses a challenge in improving the accuracy of genome analysis by deepening the neural network. Furthermore, it remains uncertain whether novel approaches such as the sparsely gated mixture of expert (MOE) and self-attention mechanisms can improve the accuracy of genomic analysis. In this paper, we introduce a novel sparsely gated RNA-seq analysis framework called Gene-MOE. This framework exploits the potential of the MOE layers and the proposed mixture of attention expert (MOAE) layers to enhance the analysis accuracy. Additionally, it addresses overfitting challenges by integrating pan-cancer information from 33 distinct cancer types through pre-training.We pre-trained Gene-MOE on TCGA pan-cancer RNA-seq dataset with 33 cancer types. Subsequently, we conducted experiments involving cancer classification and survival analysis based on the pre-trained Gene-MOE. According to the survival analysis results on 14 cancer types, Gene-MOE outperformed state-of-the-art models on 12 cancer types. Through detailed feature analysis, we found that the Gene-MOE model could learn rich feature representations of high-dimensional genes. According to the classification results, the total accuracy of the classification model for 33 cancer classifications reached 95.8%, representing the best performance compared to state-of-the-art models. These results indicate that Gene-MOE holds strong potential for use in cancer classification and survival analysis.
翻訳日:2023-12-18 18:22:49 公開日:2023-12-15
# トラブルシューティング物理コンピューティングプロジェクトにおける高校生の成長理解のための障害アーチファクトシナリオ

Failure Artifact Scenarios to Understand High School Students' Growth in Troubleshooting Physical Computing Projects ( http://arxiv.org/abs/2311.17212v2 )

ライセンス: Link先を確認
L. Morales-Navarro, D. A. Fields, D. Barapatre, Y. B. Kafai(参考訳) 物理コンピューティングプロジェクトのデバッグは、コンピューティングとエンジニアリングの複数の領域を統合する分野横断的な問題解決を理解するためのリッチなコンテキストを提供する。 しかし、ハードウェアやソフトウェアのバグの発見と修正は、特に物理コンピューティングなどの未調査領域において、デバッグに関する学生の学習を理解し、評価することは依然として困難である。 本稿では,電子織物(e-textiles)のデバッギングとトラブルシューティングに対する学生のアプローチの変化を研究するために,「障害アーティファクトシナリオ(failure artifact scenarios)」の開発とパイロットを行うための,臨床面接の豊富な歴史について述べる。 8週間のe-textilesユニットの前後で臨床面接プロトコルを適用した。 4つの学校における18人の学生のプレ/ポスト臨床面接の分析を行った。 分析の結果、学生はより特定度の高いバグを識別し、また複数のバグの原因を検討することで改善した。 本稿では,物理コンピューティングにおけるコンテキスト化されたデバッグシナリオを通じて,学生のデバッグ能力を評価するツールの開発について論じる。

Debugging physical computing projects provides a rich context to understand cross-disciplinary problem solving that integrates multiple domains of computing and engineering. Yet understanding and assessing students' learning of debugging remains a challenge, particularly in understudied areas such as physical computing, since finding and fixing hardware and software bugs is a deeply contextual practice. In this paper we draw on the rich history of clinical interviews to develop and pilot "failure artifact scenarios" in order to study changes in students' approaches to debugging and troubleshooting electronic textiles (e-textiles). We applied this clinical interview protocol before and after an eight-week-long e-textiles unit. We analyzed pre/post clinical interviews from 18 students at four different schools. The analysis revealed that students improved in identifying bugs with greater specificity, and across domains, and in considering multiple causes for bugs. We discuss implications for developing tools to assess students' debugging abilities through contextualized debugging scenarios in physical computing.
翻訳日:2023-12-18 18:22:05 公開日:2023-12-15
# 外来遺伝子情報を用いた単細胞深層クラスタリング法 : 細胞タイプ同定のための新しいアプローチ

Single-Cell Deep Clustering Method Assisted by Exogenous Gene Information: A Novel Approach to Identifying Cell Types ( http://arxiv.org/abs/2311.17104v2 )

ライセンス: Link先を確認
Dayu Hu, Ke Liang, Hao Yu, Xinwang Liu(参考訳) 近年,単一セルデータ解析の分野はクラスタリング手法の開発において顕著な進歩を遂げている。 進歩にもかかわらず、これらのアルゴリズムのほとんどは提供されたシングルセル行列データの分析に集中している。 しかし、医療応用においては、単一細胞データは遺伝子ネットワークを含む多くの外因性情報を含むことが多い。 この側面を見渡すと、重要な臨床的関連性を欠いた情報損失とクラスタリング結果につながる可能性がある。 この制限を克服するために、外来遺伝子情報を含む革新的な単細胞深層クラスタリング法が提案されている。 このモデルは外来遺伝子ネットワーク情報を利用してクラスタリングプロセスを促進し、識別的表現を生成する。 具体的には,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。 同時に,外因性プロテイン-プロテイン相互作用(PPI)ネットワーク上でランダムウォークを行い,そのトポロジカルな特徴を得た。 最終的に、クラスタリングプロセス中に、両方の情報セットを統合し、細胞と遺伝子の特徴を再構築し、識別表現を生成しました。 提案手法の有効性を実験により検証した。 本研究は,疾患の早期診断と治療の基礎となる細胞の性質と分布に関する洞察を深めるものである。

In recent years, the field of single-cell data analysis has seen a marked advancement in the development of clustering methods. Despite advancements, most of these algorithms still concentrate on analyzing the provided single-cell matrix data. However, in medical applications, single-cell data often involves a wealth of exogenous information, including gene networks. Overlooking this aspect could lead to information loss and clustering results devoid of significant clinical relevance. An innovative single-cell deep clustering method, incorporating exogenous gene information, has been proposed to overcome this limitation. This model leverages exogenous gene network information to facilitate the clustering process, generating discriminative representations. Specifically, we have developed an attention-enhanced graph autoencoder, which is designed to efficiently capture the topological features between cells. Concurrently, we conducted a random walk on an exogenous Protein-Protein Interaction (PPI) network, thereby acquiring the gene's topological features. Ultimately, during the clustering process, we integrated both sets of information and reconstructed the features of both cells and genes to generate a discriminative representation. Extensive experiments have validated the effectiveness of our proposed method. This research offers enhanced insights into the characteristics and distribution of cells, thereby laying the groundwork for early diagnosis and treatment of diseases.
翻訳日:2023-12-18 18:21:35 公開日:2023-12-15
# ハイブリッドグラフコントラスト学習と強化インクリメンタルクラスタリングによる教師なしソーシャルイベント検出

Unsupervised Social Event Detection via Hybrid Graph Contrastive Learning and Reinforced Incremental Clustering ( http://arxiv.org/abs/2312.08374v2 )

ライセンス: Link先を確認
Yuanyuan Guo, Zehua Zang, Hang Gao, Xiao Xu, Rui Wang, Lixiang Liu, Jiangmeng Li(参考訳) ソーシャルメディアのデータストリームからイベントを検出することは、徐々に研究者を惹きつけている。 イベントを検出するための固有の課題は、ソーシャルメディアデータから識別情報を抽出し、異なるイベントにデータを割り当てることである。 社会的データの過剰な多様性と高い更新頻度のため、ソーシャルメッセージからイベントを検出するための教師付きアプローチがほとんど得られない。 本研究では,グラフコントラスト学習(gcl)とクラスタリング埋め込みを教師なしで活用し,ソーシャルメッセージからの識別情報の学習について検討する。 従来のGCLは部分的な属性のみを探索し、社会的メッセージの識別情報を不十分に学習する; ベンチマーク手法では、学習された埋め込みは、教師なし学習パラダイムの原則と矛盾する特定の特定の事前知識を生かして潜在空間にクラスタ化される。 本稿では,ハイブリッドグラフコントラスト学習と強化逐次クラスタリング(HCRC)を用いて,ソーシャルメッセージや強化逐次クラスタリングから意味的・構造的識別情報を包括的に学習し,効率的なクラスタリングを実現する,新しい教師なしソーシャルメディアイベント検出手法を提案する。 TwitterとMavenのデータセット上でHCRCを評価するための包括的な実験を行います。 実験の結果,本手法は一貫した性能向上をもたらすことがわかった。 従来のインクリメンタルセッティング、半教師付きインクリメンタルセッティング、そしてしっかりと教師なしセッティングでは、モデルパフォーマンスはそれぞれ53%、45%、そして37%の最大改善を達成した。

Detecting events from social media data streams is gradually attracting researchers. The innate challenge for detecting events is to extract discriminative information from social media data thereby assigning the data into different events. Due to the excessive diversity and high updating frequency of social data, using supervised approaches to detect events from social messages is hardly achieved. To this end, recent works explore learning discriminative information from social messages by leveraging graph contrastive learning (GCL) and embedding clustering in an unsupervised manner. However, two intrinsic issues exist in benchmark methods: conventional GCL can only roughly explore partial attributes, thereby insufficiently learning the discriminative information of social messages; for benchmark methods, the learned embeddings are clustered in the latent space by taking advantage of certain specific prior knowledge, which conflicts with the principle of unsupervised learning paradigm. In this paper, we propose a novel unsupervised social media event detection method via hybrid graph contrastive learning and reinforced incremental clustering (HCRC), which uses hybrid graph contrastive learning to comprehensively learn semantic and structural discriminative information from social messages and reinforced incremental clustering to perform efficient clustering in a solidly unsupervised manner. We conduct comprehensive experiments to evaluate HCRC on the Twitter and Maven datasets. The experimental results demonstrate that our approach yields consistent significant performance boosts. In traditional incremental setting, semi-supervised incremental setting and solidly unsupervised setting, the model performance has achieved maximum improvements of 53%, 45%, and 37%, respectively.
翻訳日:2023-12-18 18:11:26 公開日:2023-12-15
# 視覚言語支援属性学習

Vision-language Assisted Attribute Learning ( http://arxiv.org/abs/2312.07009v2 )

ライセンス: Link先を確認
Kongming Liang, Xinran Wang, Rui Wang, Donghui Gao, Ling Jin, Weidong Liu, Xiatian Zhu, Zhanyu Ma, Jun Guo(参考訳) 大規模な属性ラベリングは通常不完全で部分的であり、モデルの最適化には重大な課題がある。 既存の属性学習手法では、欠落したラベルを負のラベルとして扱う場合や、トレーニング中にすべて無視する場合が多い。 これらの制限を克服するため,本稿では,利用可能な視覚言語知識を活用し,モデル学習に欠落するラベルを明確に開示する。 画像が与えられた場合、既成の視覚言語モデルによって支援された各属性ラベルの可能性を予測し、訓練中のスコアの高い属性を無作為に選択する。 当社の戦略は、この高いスコアがラベルの曖昧さを明らかにする上で有益であることから、完全な無視と欠落したラベルの否定のバランスを保ちます。 広汎な実験により,提案した視覚言語支援損失は,新たにクリーン化したVAWデータセット上で最先端のパフォーマンスを実現することができた。 定性的評価は,提案手法がより完全な属性を予測できることを示す。

Attribute labeling at large scale is typically incomplete and partial, posing significant challenges to model optimization. Existing attribute learning methods often treat the missing labels as negative or simply ignore them all during training, either of which could hamper the model performance to a great extent. To overcome these limitations, in this paper we leverage the available vision-language knowledge to explicitly disclose the missing labels for enhancing model learning. Given an image, we predict the likelihood of each missing attribute label assisted by an off-the-shelf vision-language model, and randomly select to ignore those with high scores in training. Our strategy strikes a good balance between fully ignoring and negatifying the missing labels, as these high scores are found to be informative on revealing label ambiguity. Extensive experiments show that our proposed vision-language assisted loss can achieve state-of-the-art performance on the newly cleaned VAW dataset. Qualitative evaluation demonstrates the ability of the proposed method in predicting more complete attributes.
翻訳日:2023-12-18 18:10:12 公開日:2023-12-15
# オンラインサドルポイント問題とオンライン凸凹最適化

Online Saddle Point Problem and Online Convex-Concave Optimization ( http://arxiv.org/abs/2312.06957v2 )

ライセンス: Link先を確認
Qing-xin Meng and Jian-wei Liu(参考訳) 本稿では,オンライン・サドルポイント問題を解くことを中心に,オンライン・コンベックス・コンベブ最適化(occo)フレームワークを紹介する。 本稿では、性能指標として一般化双対性ギャップ(Dual-Gap)を提案し、OCCOとDual-Gapとオンライン凸最適化(OCO)の並列性を確立する。 OCOからのOCCOの自然な拡張を示すために、暗黙のオンラインミラー降下指数と楽観的な変種という2つのアルゴリズムを開発した。 分析の結果、OCOの暗黙的な更新によって生じる動的後悔と、それらの双対性ギャップが類似した表現形式を共有することが明らかとなった。 実験結果は、アルゴリズムの有効性をさらに実証する。 同時に,最近の論文で紹介された動的ナッシュ均衡の後悔には本質的な欠陥があることを明らかにした。

Centered around solving the Online Saddle Point problem, this paper introduces the Online Convex-Concave Optimization (OCCO) framework, which involves a sequence of two-player time-varying convex-concave games. We propose the generalized duality gap (Dual-Gap) as the performance metric and establish the parallel relationship between OCCO with Dual-Gap and Online Convex Optimization (OCO) with regret. To demonstrate the natural extension of OCCO from OCO, we develop two algorithms, the implicit online mirror descent-ascent and its optimistic variant. Analysis reveals that their duality gaps share similar expression forms with the corresponding dynamic regrets arising from implicit updates in OCO. Empirical results further substantiate the effectiveness of our algorithms. Simultaneously, we unveil that the dynamic Nash equilibrium regret, which was initially introduced in a recent paper, has inherent defects.
翻訳日:2023-12-18 18:09:55 公開日:2023-12-15
# TAB:産業検査作業におけるテキストアラインな異常バックボーンモデル

TAB: Text-Align Anomaly Backbone Model for Industrial Inspection Tasks ( http://arxiv.org/abs/2312.09480v1 )

ライセンス: Link先を確認
Ho-Weng Lee, Shang-Hong Lai(参考訳) 近年,産業検査作業における異常検出と局所化に焦点が当てられている。 既存の研究は印象的な結果を示しているが、ImageNetのような多様なデータセットでトレーニングされたトレーニング済みモデルから抽出された広範なトレーニングデータセットや堅牢な機能に大きく依存することが多い。 本研究では,視覚言語クリップモデルを用いて,製造領域に合わせたバックボーンモデルを適切にトレーニングする新しいフレームワークを提案する。 本手法は,正常および異常な条件下での視覚空間とテキストアライメント埋め込み空間を同時に考慮する。 その結果、トレーニング済みのバックボーンは、特に異常検出とローカライゼーションにおいて、工業的な下流タスクのパフォーマンスを著しく向上させる。 特に、この改善はMVTecAD、BTAD、KSDD2といった複数のデータセットで実施された実験を通じて裏付けられている。 さらに、事前トレーニングされたバックボーン重みを用いることで、トレーニングデータが少なく、わずかなシナリオでも優れたパフォーマンスを実現できます。 提案した異常バックボーンは、より正確な異常検出と局所化のための基礎モデルを提供する。

In recent years, the focus on anomaly detection and localization in industrial inspection tasks has intensified. While existing studies have demonstrated impressive outcomes, they often rely heavily on extensive training datasets or robust features extracted from pre-trained models trained on diverse datasets like ImageNet. In this work, we propose a novel framework leveraging the visual-linguistic CLIP model to adeptly train a backbone model tailored to the manufacturing domain. Our approach concurrently considers visual and text-aligned embedding spaces for normal and abnormal conditions. The resulting pre-trained backbone markedly enhances performance in industrial downstream tasks, particularly in anomaly detection and localization. Notably, this improvement is substantiated through experiments conducted on multiple datasets such as MVTecAD, BTAD, and KSDD2. Furthermore, using our pre-trained backbone weights allows previous works to achieve superior performance in few-shot scenarios with less training data. The proposed anomaly backbone provides a foundation model for more precise anomaly detection and localization.
翻訳日:2023-12-18 17:38:26 公開日:2023-12-15
# 多変量時系列異常検出のためのエントロピー因果グラフ

Entropy Causal Graphs for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2312.09478v1 )

ライセンス: Link先を確認
Falih Gozi Febrinanto, Kristen Moore, Chandra Thapa, Mujie Liu, Vidya Saikrishna, Jiangang Ma, Feng Xia(参考訳) 多くの多変量時系列異常検出フレームワークが提案され、広く利用されている。 しかし、これらのフレームワークの多くは、多変量時系列データにおける変数間の固有の関係を考慮せず、変数間の因果関係を無視し、異常検出性能を劣化させる。 本研究では,多変量時系列異常検出のためのエントロピー因果グラフであるCGADを提案する。 CGADは転送エントロピーを利用して時系列データ間の因果関係を明らかにするグラフ構造を構築する。 重み付きグラフ畳み込みネットワークと因果畳み込みを組み合わせることで、多変量時系列データ内の因果グラフ構造と時間パターンの両方をモデル化する。 さらに、CGADは異常スコアを適用し、中央値の偏差に基づく正規化を利用して異常識別プロセスの堅牢性を向上させる。 広範な実験により、cgadは3つの異なる多変量時系列異常検出メトリクスに基づいて15%の平均改善を行い、実世界のデータセットで最先端の手法よりも優れていることが示されている。

Many multivariate time series anomaly detection frameworks have been proposed and widely applied. However, most of these frameworks do not consider intrinsic relationships between variables in multivariate time series data, thus ignoring the causal relationship among variables and degrading anomaly detection performance. This work proposes a novel framework called CGAD, an entropy Causal Graph for multivariate time series Anomaly Detection. CGAD utilizes transfer entropy to construct graph structures that unveil the underlying causal relationships among time series data. Weighted graph convolutional networks combined with causal convolutions are employed to model both the causal graph structures and the temporal patterns within multivariate time series data. Furthermore, CGAD applies anomaly scoring, leveraging median absolute deviation-based normalization to improve the robustness of the anomaly identification process. Extensive experiments demonstrate that CGAD outperforms state-of-the-art methods on real-world datasets with a 15% average improvement based on three different multivariate time series anomaly detection metrics.
翻訳日:2023-12-18 17:38:11 公開日:2023-12-15
# トロイダルフラックス量子ビット上の位相非局所演算

Topological nonlocal operations on toroidal flux qubits ( http://arxiv.org/abs/2312.09471v1 )

ライセンス: Link先を確認
Adel Ali and Alexey Belyanin(参考訳) 本研究では, 量子化トロイダル磁束を量子化して量子リング上の荷電粒子に結合したトロイダル磁束をフィールドフリー相互作用により構成するトロイダル磁束量子ビットの概念モデルを提案する。 システムを2つ以上のflux qubitsにスケールすると、創発的なフィールドフリーな結合が発生する。 このシステムの位相的および非局所的な側面が量子情報に深く応用できることを示す。 本稿では,フラックス量子ビット間の絡み合いや'テレポーティング'の励起エネルギーなど,環境騒音から保護されるフラックス量子ビット上の非局所操作の例を示す。

We propose a conceptual model of a toroidal flux qubit, which consists of a quantized toroidal magnetic flux coupled to a charged particle on a quantum ring through field-free interaction. Scaling the system to two or more flux qubits results in emergent field-free coupling between them. We show that the topological and nonlocal aspects of this system can have profound applications in quantum information. We illustrate it with examples of nonlocal operations on these flux qubits which are protected from environmental noise, including creating entanglement and ``teleporting'' excitation energy between the flux qubits.
翻訳日:2023-12-18 17:37:55 公開日:2023-12-15
# OTOv3: 自動アーキテクチャ非依存ニューラルネットワークトレーニングと構造化プルーニングから消去演算子への圧縮

OTOv3: Automatic Architecture-Agnostic Neural Network Training and Compression from Structured Pruning to Erasing Operators ( http://arxiv.org/abs/2312.09411v1 )

ライセンス: Link先を確認
Tianyi Chen, Tianyu Ding, Zhihui Zhu, Zeyu Chen, HsiangTao Wu, Ilya Zharkov, Luming Liang(参考訳) 効率的な機械学習領域において、事前に定義されたディープニューラルネットワーク(DNN)を競合性能でコンパクトなサブネットワークに圧縮することが不可欠である。 このトピックは、構造化プルーニングからニューラルネットワークの検索まで、さまざまなテクニックにまたがり、プルーニングと消去演算子の観点を包含する。 進歩にもかかわらず、既存の手法は複雑な多段階のプロセスに悩まされ、工学とドメインの知識が要求され、より広範な応用が制限される。 まず,pruning と erasing による一般的な dnn の自動訓練と圧縮を行い,微調整を必要とせず,コンパクトで競争性の高いサブネットワークを構築する。 OTOv3は、トレーニングと圧縮プロセスを単純化し、自動化し、ユーザに必要なエンジニアリング作業を最小化する。 重要な技術的進歩をもたらします (i)依存性グラフ分析に基づく一般dnnの自動検索空間の構成 二 二重半空間投影勾配(DHSPG)とその階層探索による拡張版(H2SPG)により、(階層的な)構造的疎結合問題を確実に解決し、サブネットワークの妥当性を確保する。 3) DHSPG/H2SPGと依存グラフの解を用いたサブネットワーク構築 我々は,構造化プルーニングとニューラルアーキテクチャ探索におけるOTOv3の有効性を実証した。 OTOv3は、最先端に適合または超えるサブネットワークを製造している。 ソースコードはhttps://github.com/tianyic/only_train_onceで入手できる。

Compressing a predefined deep neural network (DNN) into a compact sub-network with competitive performance is crucial in the efficient machine learning realm. This topic spans various techniques, from structured pruning to neural architecture search, encompassing both pruning and erasing operators perspectives. Despite advancements, existing methods suffers from complex, multi-stage processes that demand substantial engineering and domain knowledge, limiting their broader applications. We introduce the third-generation Only-Train-Once (OTOv3), which first automatically trains and compresses a general DNN through pruning and erasing operations, creating a compact and competitive sub-network without the need of fine-tuning. OTOv3 simplifies and automates the training and compression process, minimizes the engineering efforts required from users. It offers key technological advancements: (i) automatic search space construction for general DNNs based on dependency graph analysis; (ii) Dual Half-Space Projected Gradient (DHSPG) and its enhanced version with hierarchical search (H2SPG) to reliably solve (hierarchical) structured sparsity problems and ensure sub-network validity; and (iii) automated sub-network construction using solutions from DHSPG/H2SPG and dependency graphs. Our empirical results demonstrate the efficacy of OTOv3 across various benchmarks in structured pruning and neural architecture search. OTOv3 produces sub-networks that match or exceed the state-of-the-arts. The source code will be available at https://github.com/tianyic/only_train_once.
翻訳日:2023-12-18 17:37:45 公開日:2023-12-15
# 共同進化時系列を用いた家庭用機器の運転におけるレア事象の予測

Prediction of rare events in the operation of household equipment using co-evolving time series ( http://arxiv.org/abs/2312.09410v1 )

ライセンス: Link先を確認
Hadia Mecheri, Islam Benamirouche, Feriel Fass, Djemel Ziou, Nassima Kadri(参考訳) 本研究では,共進化における時系列を利用した希少事象の予測手法を提案する。 我々のアプローチは、データの時間的挙動を利用して予測能力を向上する重み付き自己回帰モデルである。 不均衡データセットの問題に対処することで、重み推定とパフォーマンス向上につながる制約を確立する。 合成および実世界のデータセットの評価は、我々の手法が家庭機器の故障予測手法よりも優れていることを裏付けている。

In this study, we propose an approach for predicting rare events by exploiting time series in coevolution. Our approach involves a weighted autologistic regression model, where we leverage the temporal behavior of the data to enhance predictive capabilities. By addressing the issue of imbalanced datasets, we establish constraints leading to weight estimation and to improved performance. Evaluation on synthetic and real-world datasets confirms that our approach outperform state-of-the-art of predicting home equipment failure methods.
翻訳日:2023-12-18 17:37:17 公開日:2023-12-15
# 超音波画像再構成のための高速サンプリング生成モデル

Fast Sampling generative model for Ultrasound image reconstruction ( http://arxiv.org/abs/2312.09510v1 )

ライセンス: Link先を確認
Hengrong Lan, Zhiqiang Li, Qiong He, Jianwen Luo(参考訳) 超高速平面超音波イメージングでは、電波データからの画像再構成が重要となる。 やや不正確な仮定に依存する従来の遅延・アンド・サム(DAS)手法とは異なり、深層学習に基づく手法はペアデータによるトレーニングにより画像再構成を行い、画像品質が顕著に向上する。 しかし、これらの戦略はしばしば限定的な一般化能力を示す。 近年,画像再構成タスクにおいて,ノイズ拡散モデルが好まれるパラダイムとなっている。 しかし、反復的なサンプリング手順に依存するため、生成時間が長くなる。 本稿では,超音波信号とデータ駆動前のデータ一貫性を同時に実施する新しいサンプリングフレームワークを提案する。 高度な拡散モデルを活用することで、高品質な画像の生成が大幅に促進される。 実験結果から, 単平面波によるアプローチは, 75面波の空間コヒーレント合成によるDASを超えることが示唆された。

Image reconstruction from radio-frequency data is pivotal in ultrafast plane wave ultrasound imaging. Unlike the conventional delay-and-sum (DAS) technique, which relies on somewhat imprecise assumptions, deep learning-based methods perform image reconstruction by training on paired data, leading to a notable enhancement in image quality. Nevertheless, these strategies often exhibit limited generalization capabilities. Recently, denoising diffusion models have become the preferred paradigm for image reconstruction tasks. However, their reliance on an iterative sampling procedure results in prolonged generation time. In this paper, we propose a novel sampling framework that concurrently enforces data consistency of ultrasound signals and data-driven priors. By leveraging the advanced diffusion model, the generation of high-quality images is substantially expedited. Experimental evaluations on an in-vivo dataset indicate that our approach with a single plane wave surpasses DAS with spatial coherent compounding of 75 plane waves.
翻訳日:2023-12-18 17:29:14 公開日:2023-12-15
# IndicIRSuite:インド語の多言語データセットとニューラル情報モデル

IndicIRSuite: Multilingual Dataset and Neural Information Models for Indian Languages ( http://arxiv.org/abs/2312.09508v1 )

ライセンス: Link先を確認
Saiful Haq, Ashutosh Sharma, Pushpak Bhattacharyya(参考訳) 本稿では,インドで話されている11言語(アサム語,ベンガル語,グジャラティ語,ヒンディー語,カンナダ語,マラヤラム語,マラティ語,オリヤ語,パンジャビ語,タミル語,テルグ語)について,インドの主要2言語族(インド・アーリア語,ドレイダ語)の神経情報検索資源を紹介する。 これらの資源には (a)INDIC-MARCO、機械翻訳を用いて作成した11のインド言語におけるMSMARCOデータセットの多言語版 (b)Indic-ColBERTは11の異なるモノリンガルニューラル情報検索モデルのコレクションであり、それぞれINDIC-MARCOデータセットの11言語のうちの1つで訓練されている。 私たちの知る限りでは、IndicIRSuiteは、多数のインド言語に対して大規模なニューラル情報検索リソースを構築する最初の試みであり、インド言語のためのニューラルIRの研究を加速させることを願っている。 実験により、indic-colbertは、オリヤを除く11のインド諸言語のindic-marcoベースラインよりも平均47.47%、miracl bengaliとhindiのベースラインで平均12.26%、mrr@100スコアがmr.tydi bengaliのベースラインよりも20%改善されていることが示されている。 IndicIRSuiteはhttps://github.com/saifulhaq95/IndicIRSuiteで入手できる。

In this paper, we introduce Neural Information Retrieval resources for 11 widely spoken Indian Languages (Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil, and Telugu) from two major Indian language families (Indo-Aryan and Dravidian). These resources include (a) INDIC-MARCO, a multilingual version of the MSMARCO dataset in 11 Indian Languages created using Machine Translation, and (b) Indic-ColBERT, a collection of 11 distinct Monolingual Neural Information Retrieval models, each trained on one of the 11 languages in the INDIC-MARCO dataset. To the best of our knowledge, IndicIRSuite is the first attempt at building large-scale Neural Information Retrieval resources for a large number of Indian languages, and we hope that it will help accelerate research in Neural IR for Indian Languages. Experiments demonstrate that Indic-ColBERT achieves 47.47% improvement in the MRR@10 score averaged over the INDIC-MARCO baselines for all 11 Indian languages except Oriya, 12.26% improvement in the NDCG@10 score averaged over the MIRACL Bengali and Hindi Language baselines, and 20% improvement in the MRR@100 Score over the Mr.Tydi Bengali Language baseline. IndicIRSuite is available at https://github.com/saifulhaq95/IndicIRSuite
翻訳日:2023-12-18 17:29:00 公開日:2023-12-15
# WAVER:オープンボキャブラリ知識による視覚言語モデルの蒸留による筆記型ビデオ検索

WAVER: Writing-style Agnostic Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge ( http://arxiv.org/abs/2312.09507v1 )

ライセンス: Link先を確認
Huy Le, Tung Kieu, Anh Nguyen, Ngan Le(参考訳) テキストビデオ検索は、マルチメディアコンテンツ管理の分野において目立ったサブフィールドであり、過去10年間で著しい成長とイノベーションを目の当たりにしている。 しかし、既存の手法では、ビデオシーンは一貫性があり、説明注釈は偏っていないと仮定している。 これらの制限は現実の流動的なシナリオと一致せず、記述は注釈のバイアス、多彩な書き込みスタイル、様々なテキストの観点の影響を受けうる。 上述した問題を克服するために,書字型不可知論に対処するためのクロスドメイン知識蒸留機構であるWAVERを導入する。 WAVERは、事前学習された視覚言語モデルに固有のオープン語彙特性を活かし、教師モデルから教師モデルへのテキストベースの知識の伝達に暗黙の知識蒸留アプローチを採用している。 さまざまな設定を含む4つの標準ベンチマークデータセットで実施された実証研究は、‘WAVER’がテキストビデオ検索タスクにおいて、書き込みスタイルのバリエーションを処理しながら、最先端のパフォーマンスを達成できるという説得力のある証拠を提供する。

Text-video retrieval, a prominent sub-field within the broader domain of multimedia content management, has witnessed remarkable growth and innovation over the past decade. However, existing methods assume the video scenes are consistent and the description annotators are unbiased. These limitations fail to align with fluid real-world scenarios, and descriptions can be influenced by annotator biases, diverse writing styles, and varying textual perspectives. To overcome the aforementioned problems, we introduce WAVER, a cross-domain knowledge distillation mechanism designed to tackle the challenge of handling writing-style agnostics. WAVER capitalizes on the open-vocabulary properties inherent in pre-trained vision-language models and employs an implicit knowledge distillation approach to transfer text-based knowledge from a teacher model to a vision-based student. Empirical studies conducted across four standard benchmark datasets, encompassing various settings, provide compelling evidence that \WAVER can achieve state-of-the-art performance in text-video retrieval tasks while handling writing-style variations.
翻訳日:2023-12-18 17:28:26 公開日:2023-12-15
# 雑音ラベル学習における部分ラベル学習と負学習の適応的統合

Adaptive Integration of Partial Label Learning and Negative Learning for Enhanced Noisy Label Learning ( http://arxiv.org/abs/2312.09505v1 )

ライセンス: Link先を確認
Mengmeng Sheng, Zeren Sun, Zhenhuang Cai, Tao Chen, Yichao Zhou, Yazhou Yao(参考訳) 半教師付き学習、コントラスト学習、メタラーニングといった様々な領域の有効性に注目が集まっており、ノイズラベル学習(NLL)タスクの手法の性能向上に寄与している。 しかし、既存の手法のほとんどは、異なるノイズ源(例えば、事前定義されたドロップレートまたはクリーンサンプルの小さなサブセット)の中でクリーンサンプルに関する事前の仮定に依存している。 本稿では,「textbf{N}oisy」ラベル学習(PLL)と「textbf{N}egative Learning(NL)」を統合することで,「textbf{N}oisy」ラベル学習に革命をもたらす,シンプルだが強力な概念を提案する。 この目的に向けて、まず与えられたラベル空間を候補ラベルと補完ラベルに適応的に分解し、pllとnlの条件を確立する。 PLLにおけるラベル曖昧化の適応的データ駆動パラダイムとして,ハード曖昧化とソフト曖昧化の2つを提案する。 さらに,nlの非候補ラベルを用いて信頼性の高い補完ラベルを生成し,間接的監督によるモデルのロバスト性を高める。 モデル学習の後半段階においてラベル信頼性を維持するために,複数の増補の出力間の一致を促す一貫性規則化用語を導入する。 合成劣化データセットと実世界の雑音データセットの両方で実施された実験は、他のSOTA法と比較してNPNの優位性を示している。 ソースコードは {\color{purple}{\url{https://github.com/NUST-Machine-Intelligence-Laboratory/NPN}}} で公開されている。

There has been significant attention devoted to the effectiveness of various domains, such as semi-supervised learning, contrastive learning, and meta-learning, in enhancing the performance of methods for noisy label learning (NLL) tasks. However, most existing methods still depend on prior assumptions regarding clean samples amidst different sources of noise (\eg, a pre-defined drop rate or a small subset of clean samples). In this paper, we propose a simple yet powerful idea called \textbf{NPN}, which revolutionizes \textbf{N}oisy label learning by integrating \textbf{P}artial label learning (PLL) and \textbf{N}egative learning (NL). Toward this goal, we initially decompose the given label space adaptively into the candidate and complementary labels, thereby establishing the conditions for PLL and NL. We propose two adaptive data-driven paradigms of label disambiguation for PLL: hard disambiguation and soft disambiguation. Furthermore, we generate reliable complementary labels using all non-candidate labels for NL to enhance model robustness through indirect supervision. To maintain label reliability during the later stage of model training, we introduce a consistency regularization term that encourages agreement between the outputs of multiple augmentations. Experiments conducted on both synthetically corrupted and real-world noisy datasets demonstrate the superiority of NPN compared to other state-of-the-art (SOTA) methods. The source code has been made available at {\color{purple}{\url{https://github.com/NUST-Machine-Intelligence-Laboratory/NPN}}}.
翻訳日:2023-12-18 17:28:08 公開日:2023-12-15
# コンビネーション錯体:細胞複合体とハイパーグラフの間のギャップを橋渡しする

Combinatorial Complexes: Bridging the Gap Between Cell Complexes and Hypergraphs ( http://arxiv.org/abs/2312.09504v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Theodore Papamarkou, Aldo Guzm\'an-S\'aenz, Tolga Birdal, Michael T. Schaub(参考訳) グラフに基づく信号処理技術は非ユークリッド空間におけるデータ処理に不可欠である。 しかし、これらのグラフモデルは、高次元データに見られる複雑な関係を効果的に表現するために、'高階'領域に拡張する必要があるという認識が高まっている。 このような高次ドメインは通常、ハイパーグラフ、または単純、立方体またはその他の細胞複合体としてモデル化される。 この文脈では、細胞複合体は、しばしばスペクトル理論を開発するために、追加の代数構造を持つハイパーグラフのサブクラスと見なされる。 この記事では、別の視点を奨励します。 ハイパーグラフとセルコンプレックスは,アプリケーションコンテキストによって異なる実用性を持つ可能性のある, 'emph{different}' タイプの関係を強調する。 ハイパーグラフは集合型と実体間の多体関係をモデル化するのに有効であるが、細胞複合体は階層的、内部-境界型関係をモデル化する効果的な手段を提供する。 これら2つの選択の相対的な利点を議論し、既存の集合型と階層的関係を可能にする組合せ複体の概念について詳述する。 最後に,このモデリングの柔軟性が学習タスクにおいて有利であることを示すために,簡単な数値実験を行った。

Graph-based signal processing techniques have become essential for handling data in non-Euclidean spaces. However, there is a growing awareness that these graph models might need to be expanded into `higher-order' domains to effectively represent the complex relations found in high-dimensional data. Such higher-order domains are typically modeled either as hypergraphs, or as simplicial, cubical or other cell complexes. In this context, cell complexes are often seen as a subclass of hypergraphs with additional algebraic structure that can be exploited, e.g., to develop a spectral theory. In this article, we promote an alternative perspective. We argue that hypergraphs and cell complexes emphasize \emph{different} types of relations, which may have different utility depending on the application context. Whereas hypergraphs are effective in modeling set-type, multi-body relations between entities, cell complexes provide an effective means to model hierarchical, interior-to-boundary type relations. We discuss the relative advantages of these two choices and elaborate on the previously introduced concept of a combinatorial complex that enables co-existing set-type and hierarchical relations. Finally, we provide a brief numerical experiment to demonstrate that this modelling flexibility can be advantageous in learning tasks.
翻訳日:2023-12-18 17:27:42 公開日:2023-12-15
# 多ビットエンタングルメントのタイターモノガミー不等式

Tighter monogamy inequalities of multiqubit entanglement ( http://arxiv.org/abs/2312.09502v1 )

ライセンス: Link先を確認
Jia-Yi Li, Zhong-Xi Shen and Shao-Ming Fei(参考訳) 多成分の絡み合いは量子情報処理において非常に重要である。 サブシステム間の絡み合いの分布はモノガミー関係によって特徴づけられる。 共起とネガティビティの$\beta$thの力に基づいて、2つの新しい一夫一夫一婦の不等式を提供する。 詳細な例を通して、これらの不等式が以前の結果よりも厳密であることを示す。

Multipartite entanglement holds great importance in quantum information processing. The distribution of entanglement among subsystems can be characterized by monogamy relations. Based on the $\beta$th power of concurrence and negativity, we provide two new monogamy inequalities. Through detailed examples, we demonstrate that these inequalities are tighter than previous results.
翻訳日:2023-12-18 17:27:21 公開日:2023-12-15
# EDA:マルチモーダル動作予測のための進化と固有アンカー

EDA: Evolving and Distinct Anchors for Multimodal Motion Prediction ( http://arxiv.org/abs/2312.09501v1 )

ライセンス: Link先を確認
Longzhong Lin, Xuewu Lin, Tianwei Lin, Lichao Huang, Rong Xiong, Yue Wang(参考訳) 運動予測は自動運転において重要な課題であり、その大きな課題の1つは将来の行動のマルチモーダル性である。 多くの成功した研究は、正の混合成分の同定を必要とする混合モデルを利用しており、その結果、予測ベースとアンカーベースマッチングの2つの主要ラインに該当する。 予測に基づくマッチングにおける予測クラスタリング現象は、下流タスクの代表的な軌道を選択するのが難しく、アンカーベースのマッチングは限られた回帰能力に悩まされる。 本稿では,混合モデルに基づくマルチモーダル動作予測のための正および負の成分を定義するために,EDA(Evolving and Distinct Anchors)という新しいパラダイムを導入する。 アンカーが拡張された回帰キャパシティのために、特定のシーンで自らを進化させ再配布できるようにします。 さらに,基底真理と一致させる前に,異なるアンカーを選択することにより,印象的なスコアリング性能が得られる。 このアプローチは、ベースラインmtrと比較して、特に13.5%のミスレートが顕著に減少し、waymo open motionデータセットでの最先端のパフォーマンスが向上している。 コードはhttps://github.com/Longzhong-Lin/EDA.comで入手できる。

Motion prediction is a crucial task in autonomous driving, and one of its major challenges lands in the multimodality of future behaviors. Many successful works have utilized mixture models which require identification of positive mixture components, and correspondingly fall into two main lines: prediction-based and anchor-based matching. The prediction clustering phenomenon in prediction-based matching makes it difficult to pick representative trajectories for downstream tasks, while the anchor-based matching suffers from a limited regression capability. In this paper, we introduce a novel paradigm, named Evolving and Distinct Anchors (EDA), to define the positive and negative components for multimodal motion prediction based on mixture models. We enable anchors to evolve and redistribute themselves under specific scenes for an enlarged regression capacity. Furthermore, we select distinct anchors before matching them with the ground truth, which results in impressive scoring performance. Our approach enhances all metrics compared to the baseline MTR, particularly with a notable relative reduction of 13.5% in Miss Rate, resulting in state-of-the-art performance on the Waymo Open Motion Dataset. Code is available at https://github.com/Longzhong-Lin/EDA.
翻訳日:2023-12-18 17:27:15 公開日:2023-12-15
# 微分グラフ構造学習のためのニューラルガウス類似性モデリング

Neural Gaussian Similarity Modeling for Differential Graph Structure Learning ( http://arxiv.org/abs/2312.09498v1 )

ライセンス: Link先を確認
Xiaolong Fan and Maoguo Gong and Yue Wu and Zedong Tang and Jieyi Liu(参考訳) グラフ構造学習(GSL)は、幅広い領域にわたるグラフ未知の非ユークリッドデータの解析において大きな可能性を示している。 しかし,最寄り近傍のサンプリング戦略による勾配流の障害により,エンドツーエンドのグラフ構造学習モデルの構築が課題となっている。 本稿では,非微分可能近傍サンプリングを再パラメータ化手法を用いて微分可能サンプリングに置き換え,微分的グラフ構造学習モデルを構築する。 この枠組みの下では、特にノード特徴がかなりの類似性を示す場合において、nbox{nearest} 近傍をサンプリングする行為は必然的に必須ではないかもしれないと論じる。 この問題を軽減するために,非ネアレスト近傍をサンプリングするために,ベル型ガウス類似性(gausim)モデルが提案されている。 類似性を適応的にモデル化するために、フレキシブルサンプリング動作を特徴とする学習可能なパラメータを持つニューラルガウス類似性(NeuralGauSim)を提案する。 さらに,大規模グラフを遷移グラフに転送することで,複雑さを著しく低減し,スケーラブルな手法を開発する。 実験の結果,提案手法の有効性が示された。

Graph Structure Learning (GSL) has demonstrated considerable potential in the analysis of graph-unknown non-Euclidean data across a wide range of domains. However, constructing an end-to-end graph structure learning model poses a challenge due to the impediment of gradient flow caused by the nearest neighbor sampling strategy. In this paper, we construct a differential graph structure learning model by replacing the non-differentiable nearest neighbor sampling with a differentiable sampling using the reparameterization trick. Under this framework, we argue that the act of sampling \mbox{nearest} neighbors may not invariably be essential, particularly in instances where node features exhibit a significant degree of similarity. To alleviate this issue, the bell-shaped Gaussian Similarity (GauSim) modeling is proposed to sample non-nearest neighbors. To adaptively model the similarity, we further propose Neural Gaussian Similarity (NeuralGauSim) with learnable parameters featuring flexible sampling behaviors. In addition, we develop a scalable method by transferring the large-scale graph to the transition graph to significantly reduce the complexity. Experimental results demonstrate the effectiveness of the proposed methods.
翻訳日:2023-12-18 17:26:40 公開日:2023-12-15
# GANを用いた画像劣化

Image Deblurring using GAN ( http://arxiv.org/abs/2312.09496v1 )

ライセンス: Link先を確認
Zhengdong Li(参考訳) 近年、GAN(Generative Adversarial Network)のような深層生成モデルは、コンピュータビジョンの分野で大きな注目を集めている。 本研究は,動きのぼやけなどの要因によるぼやけた入力から,より鮮明な画像を生成することを目的とした,画像劣化へのGANの適用に焦点を当てる。 しかし、従来の画像復元技術は複雑なぼやけたパターンを扱うのに限界がある。 したがって、高品質なデブロワー画像を生成するソリューションとして、GANベースのフレームワークが提案されている。 プロジェクトはTensorflowでGANモデルを定義し、GoPROデータセットでトレーニングする。 ジェネレータは、ぼやけた画像を直接入力して偽画像を生成し、識別者が同時に明快な画像を受け取り、実際の画像と偽画像を区別するように説得する。 トレーニングされたパラメータを得た後、モデルは、日常生活で撮影されたモーションブラル画像と検証のためのテストセットの分離に使用された。 その結果、ganの事前学習したネットワークは画像中のシャープな画素を得ることができ、平均29.3 ピーク信号対雑音比(psnr)と 0.72 構造類似度評価(ssim)が得られる。 これは、画像のぼやけによって生じる課題を効果的に解決し、視覚的な快感と鋭い画像を生成するのに役立つ。 敵対的学習フレームワークを利用することにより,提案手法は,画像復元における実世界応用の可能性を高める。

In recent years, deep generative models, such as Generative Adversarial Network (GAN), has grabbed significant attention in the field of computer vision. This project focuses on the application of GAN in image deblurring with the aim of generating clearer images from blurry inputs caused by factors such as motion blur. However, traditional image restoration techniques have limitations in handling complex blurring patterns. Hence, a GAN-based framework is proposed as a solution to generate high-quality deblurred images. The project defines a GAN model in Tensorflow and trains it with GoPRO dataset. The Generator will intake blur images directly to create fake images to convince the Discriminator which will receive clear images at the same time and distinguish between the real image and the fake image. After obtaining the trained parameters, the model was used to deblur motion-blur images taken in daily life as well as testing set for validation. The result shows that the pretrained network of GAN can obtain sharper pixels in image, achieving an average of 29.3 Peak Signal-to-Noise Ratio (PSNR) and 0.72 Structural Similarity Assessment (SSIM). This help to effectively address the challenges posed by image blurring, leading to the generation of visually pleasing and sharp images. By exploiting the adversarial learning framework, the proposed approach enhances the potential for real-world applications in image restoration.
翻訳日:2023-12-18 17:26:08 公開日:2023-12-15
# no-skim:スキミングに基づく言語モデルの効率ロバスト性評価に向けて

No-Skim: Towards Efficiency Robustness Evaluation on Skimming-based Language Models ( http://arxiv.org/abs/2312.09494v1 )

ライセンス: Link先を確認
Shengyao Zhang, Mi Zhang, Xudong Pan, Min Yang(参考訳) 大規模言語モデル(LLM)における計算コストとエネルギー消費を低減するため、スイミングベースの加速度は、意味的に重要なトークンを保持しつつ、LLMの層に沿って、入力シーケンスの重要でないトークンを徐々に減少させる。 しかし、私たちの研究によると、アクセラレーションはDoS(DoS)攻撃に弱い可能性がある。 本稿では,スキー用LLMの所有者がアクセラレーションスキームのロバスト性を理解し,測定するための一般的なフレームワークであるNo-Skimを提案する。 具体的には,文字レベルおよびトークンレベルの最小かつ無意味な摂動を探索し,残余のトークン比を十分に増大させる逆入力を生成し,計算コストとエネルギー消費を増加させる。 GLUEベンチマークにおいて,BERT や RoBERTa を含む様々な LLM アーキテクチャにおけるスキミングアクセラレーションの脆弱性を系統的に評価した。 最悪の場合、No-Skimが発見した摂動はLLMのランニングコストを平均145%以上増加させる。 さらに、No-Skimは評価フレームワークを様々なシナリオに拡張し、異なるレベルの知識で評価を行う。

To reduce the computation cost and the energy consumption in large language models (LLM), skimming-based acceleration dynamically drops unimportant tokens of the input sequence progressively along layers of the LLM while preserving the tokens of semantic importance. However, our work for the first time reveals the acceleration may be vulnerable to Denial-of-Service (DoS) attacks. In this paper, we propose No-Skim, a general framework to help the owners of skimming-based LLM to understand and measure the robustness of their acceleration scheme. Specifically, our framework searches minimal and unnoticeable perturbations at character-level and token-level to generate adversarial inputs that sufficiently increase the remaining token ratio, thus increasing the computation cost and energy consumption. We systematically evaluate the vulnerability of the skimming acceleration in various LLM architectures including BERT and RoBERTa on the GLUE benchmark. In the worst case, the perturbation found by No-Skim substantially increases the running cost of LLM by over 145% on average. Moreover, No-Skim extends the evaluation framework to various scenarios, making the evaluation conductible with different level of knowledge.
翻訳日:2023-12-18 17:25:29 公開日:2023-12-15
# レーダパルスアクティブセグメンテーションのための多段階学習

Multi-stage Learning for Radar Pulse Activity Segmentation ( http://arxiv.org/abs/2312.09489v1 )

ライセンス: Link先を確認
Zi Huang, Akila Pemasiri, Simon Denman, Clinton Fookes, Terrence Martin(参考訳) 無線信号認識は電子戦において重要な機能である。 レーダパルス活動の正確な同定と局所化は、効果的な対策を作成するために電子戦システムによって要求される。 これらのタスクの重要性にもかかわらず、深層学習に基づくレーダーパルス活動認識法は、ほとんど未探索のままである。 レーダー変調認識のための深層学習は以前から検討されてきたが、分類タスクは一般に短距離かつ非インターリーブのIQ信号に限られており、軍事的応用に限定している。 このギャップに対処するために、我々は、時間軸を延ばしたレーダー信号のパルス活動を検出し、ローカライズするエンドツーエンドの多段階学習手法を導入する。 本稿では,複数のチャネルにまたがるレーダパルスを局所化する微細なセグメンテーションマスクをインクリメンタルに予測する,シンプルかつ高効率なマルチステージアーキテクチャを提案する。 本稿では,新しいレーダデータセット上での複数の参照モデルに対するアプローチの有効性を示すとともに,レーダパルス活動セグメンテーションのための一級ベンチマークも提供する。

Radio signal recognition is a crucial function in electronic warfare. Precise identification and localisation of radar pulse activities are required by electronic warfare systems to produce effective countermeasures. Despite the importance of these tasks, deep learning-based radar pulse activity recognition methods have remained largely underexplored. While deep learning for radar modulation recognition has been explored previously, classification tasks are generally limited to short and non-interleaved IQ signals, limiting their applicability to military applications. To address this gap, we introduce an end-to-end multi-stage learning approach to detect and localise pulse activities of interleaved radar signals across an extended time horizon. We propose a simple, yet highly effective multi-stage architecture for incrementally predicting fine-grained segmentation masks that localise radar pulse activities across multiple channels. We demonstrate the performance of our approach against several reference models on a novel radar dataset, while also providing a first-of-its-kind benchmark for radar pulse activity segmentation.
翻訳日:2023-12-18 17:24:22 公開日:2023-12-15
# 逐次適応場不完全推定(SAFE) : MRF定量化のための$B_1^+$および$B_0$不均一性の振り返り推定と補正

Sequence adaptive field-imperfection estimation (SAFE): retrospective estimation and correction of $B_1^+$ and $B_0$ inhomogeneities for enhanced MRF quantification ( http://arxiv.org/abs/2312.09488v1 )

ライセンス: Link先を確認
Mengze Gao, Xiaozhi Cao, Daniel Abraham, Zihan Zhou, Kawin Setsompop(参考訳) b_1^+$ と $b_0$ フィールド不均一性は mrf の定量的パラメータ推定の精度とロバスト性を著しく低下させる。 追加の$B_1^+$と$B_0$キャリブレーションスキャンは、これを緩和できるが、スキャン時間を追加し、以前収集されたデータに振り返ることはできない。 そこで我々は,任意のMDFシーケンスの効果を推定・補正するために,キャリブレーションフリーなシーケンス適応型ディープラーニングフレームワークを提案する。 トレーニングデータが得られなかった3Tで任意のMRFシーケンスでその能力を実証した。 このようなアプローチは、以前買収された将来のMRFスキャンにも適用できる。 このフレームワークを他の定量的シーケンスに直接適用する柔軟性も強調されている。

$B_1^+$ and $B_0$ field-inhomogeneities can significantly reduce accuracy and robustness of MRF's quantitative parameter estimates. Additional $B_1^+$ and $B_0$ calibration scans can mitigate this but add scan time and cannot be applied retrospectively to previously collected data. Here, we proposed a calibration-free sequence-adaptive deep-learning framework, to estimate and correct for $B_1^+$ and $B_0$ effects of any MRF sequence. We demonstrate its capability on arbitrary MRF sequences at 3T, where no training data were previously obtained. Such approach can be applied to any previously-acquired and future MRF-scans. The flexibility in directly applying this framework to other quantitative sequences is also highlighted.
翻訳日:2023-12-18 17:23:40 公開日:2023-12-15
# $\alpha$-Bi$_4$Br$_4$における位相ヒンジモードの輸送応答

Transport response of topological hinge modes in $\alpha$-Bi$_4$Br$_4$ ( http://arxiv.org/abs/2312.09487v1 )

ライセンス: Link先を確認
Md Shafayat Hossain, Qi Zhang, Zhiwei Wang, Nikhil Dhale, Wenhao Liu, Maksim Litskevich, Brian Casas, Nana Shumiya, Jia-Xin Yin, Tyler A. Cochran, Yongkai Li, Yu-Xiao Jiang, Ying Yang, Guangming Cheng, Zi-Jia Cheng, Xian P. Yang, Nan Yao, Titus Neupert, Luis Balicas, Yugui Yao, Bing Lv, M. Zahid Hasan(参考訳) 電子位相相は、絶縁された3次元バルクの境界に導電性表面状態が存在するユニークな性質で有名である。 表面状態の輸送応答は広く研究されているが、トポロジ的ヒンジモードの応答は解明されていない。 ここでは、層状位相絶縁体$\alpha$-bi$_4$br$_4$を調べ、絶縁バルクおよび表面エネルギーギャップに存在するギャップのない位相ヒンジ状態における量子輸送の最初の証拠を提供する。 我々の磁気抵抗測定では、h/e周期的(hはプランク定数、eは電子電荷を表す)アハロノフ・ボーム振動が明らかである。 観察された周期性は、位相コヒーレント電子伝播の密閉領域を直接反射し、サンプルヒンジで囲まれた領域と一致し、ヒンジを囲む電子の量子干渉の説得力のある証拠を与える。 特に、h/e振動は、トポロジーと対称性によって許容されるヒンジモードに沿った干渉経路に従って磁場配向の関数として発展し、走査型トンネル顕微鏡画像によるヒンジモードの位置と一致している。 興味深いことに、このトポロジカル絶縁体における量子輸送の実証は、フレーク幾何学を用いて達成することができ、高温でも頑健であることを示す。 本研究は, 位相的特性と量子コヒーレンスを両立させた位相的ヒンジモードの量子輸送応答を総合的に明らかにし, 効率的な量子電子デバイスの開発に直接適用できることを示した。

Electronic topological phases are renowned for their unique properties, where conducting surface states exist on the boundary of an insulating three-dimensional bulk. While the transport response of the surface states has been extensively studied, the response of the topological hinge modes remains elusive. Here, we investigate a layered topological insulator $\alpha$-Bi$_4$Br$_4$, and provide the first evidence for quantum transport in gapless topological hinge states existing within the insulating bulk and surface energy gaps. Our magnetoresistance measurements reveal pronounced h/e periodic (where h denotes Planck's constant and e represents the electron charge) Aharonov-Bohm oscillation. The observed periodicity, which directly reflects the enclosed area of phase-coherent electron propagation, matches the area enclosed by the sample hinges, providing compelling evidence for the quantum interference of electrons circumnavigating around the hinges. Notably, the h/e oscillations evolve as a function of magnetic field orientation, following the interference paths along the hinge modes that are allowed by topology and symmetry, and in agreement with the locations of the hinge modes according to our scanning tunneling microscopy images. Remarkably, this demonstration of quantum transport in a topological insulator can be achieved using a flake geometry and we show that it remains robust even at elevated temperatures. Our findings collectively reveal the quantum transport response of topological hinge modes with both topological nature and quantum coherence, which can be directly applied to the development of efficient quantum electronic devices.
翻訳日:2023-12-18 17:23:24 公開日:2023-12-15
# 実時間実時間適応のためのバッチ正規化の解法

Unraveling Batch Normalization for Realistic Test-Time Adaptation ( http://arxiv.org/abs/2312.09486v1 )

ライセンス: Link先を確認
Zixian Su, Jingwei Guo, Kai Yao, Xi Yang, Qiufeng Wang, Kaizhu Huang(参考訳) 近年の試験時間適応は、バッチ正規化を狭い領域差に調整することで有効性を示すが、その効果は、不正確なターゲット推定による現実的なミニバッチによって減少する。 以前の試みは、この問題を軽減するためにソース統計を導入するだけなので、不正確なターゲット推定の根本的な問題は依然として継続され、本質的なテスト時ドメインのシフトは解決されない。 本稿では,ミニバッチ劣化問題について考察する。 バッチ正規化を解き放つことにより,不正確な対象統計はバッチのクラス多様性が大幅に減少することに起因することが判明した。 この知見を引き合いに出し、トレーニングとテストバッチ間のクラス多様性のギャップを埋めるためのテスト時間指数移動平均(tema)という簡単なツールを紹介します。 重要なことに、私たちのTEMAは、現在のバッチを超えて典型的なメソッドの範囲を適応的に拡張し、多様なクラス情報を組み込むことで、正確なターゲット推定を向上します。 この基盤を基盤として,テスト時間性能を一貫して向上させるために,新たな層別整流戦略を更に設計する。 提案手法はトレーニングもチューニングパラメータも必要とせず,真のハードルフリーソリューションを提供するため,ユニークな利点がある。 シフトしたドメインに対するモデルロバスト性を大幅に向上させ、さまざまなバッチサイズを持つさまざまな実世界のシナリオでレジリエンスを維持し、いくつかの主要なベンチマークで最先端のパフォーマンスを達成する。 コードは \url{https://github.com/kiwi12138/realistictta} で入手できる。

While recent test-time adaptations exhibit efficacy by adjusting batch normalization to narrow domain disparities, their effectiveness diminishes with realistic mini-batches due to inaccurate target estimation. As previous attempts merely introduce source statistics to mitigate this issue, the fundamental problem of inaccurate target estimation still persists, leaving the intrinsic test-time domain shifts unresolved. This paper delves into the problem of mini-batch degradation. By unraveling batch normalization, we discover that the inexact target statistics largely stem from the substantially reduced class diversity in batch. Drawing upon this insight, we introduce a straightforward tool, Test-time Exponential Moving Average (TEMA), to bridge the class diversity gap between training and testing batches. Importantly, our TEMA adaptively extends the scope of typical methods beyond the current batch to incorporate a diverse set of class information, which in turn boosts an accurate target estimation. Built upon this foundation, we further design a novel layer-wise rectification strategy to consistently promote test-time performance. Our proposed method enjoys a unique advantage as it requires neither training nor tuning parameters, offering a truly hassle-free solution. It significantly enhances model robustness against shifted domains and maintains resilience in diverse real-world scenarios with various batch sizes, achieving state-of-the-art performance on several major benchmarks. Code is available at \url{https://github.com/kiwi12138/RealisticTTA}.
翻訳日:2023-12-18 17:22:53 公開日:2023-12-15
# 継続的な敵防衛

Continual Adversarial Defense ( http://arxiv.org/abs/2312.09481v1 )

ライセンス: Link先を確認
Qian Wang, Yaoyao Liu, Hefei Ling, Yingwei Li, Qihao Liu, Ping Li, Jiazhong Chen, Alan Yuille, Ning Yu(参考訳) 月次攻撃の急速な発展に対応するため、可能な限り多くの既知の攻撃に対して、多くの防衛策が提案されている。 しかし、防御システムの動作環境が動的であり、多くの攻撃者が使用する様々なユニークな攻撃を含むため、見えない攻撃を含むあらゆる種類の攻撃に一般化できる防御方法を設計することは現実的ではない。 防御システムは、少数の防御フィードバックと効率的なメモリを利用することで、自らをアップグレードする必要がある。 そこで本研究では,様々な攻撃が段階的に現れる動的シナリオにおいて,任意の攻撃に適応するcad(continual adversarial defense)フレームワークを提案する。 CAD は,(1) 壊滅的忘れを伴わない新たな攻撃への連続的適応,(2) 少数ショット適応,(3) メモリ効率の適応,(4) クリーン画像と逆画像の両方において高い精度の 4 つの原理でモデル化されている。 我々は,最先端の連続学習,少数ショット学習,アンサンブル学習技術を用いて原則を検証した。 CIFAR-10とImageNet-100で行った実験は、現代の10の敵攻撃の複数段階に対するアプローチの有効性を検証し、10のベースライン法を大幅に改善した。 特にcadは、古い攻撃に対する優れた性能を維持しながら、最小限のフィードバックと低い防御失敗で迅速に適応することができる。 我々の研究は、動的および進化的攻撃に対する継続的な防御適応のための新しいパラダイムに光を当てています。

In response to the rapidly evolving nature of adversarial attacks on a monthly basis, numerous defenses have been proposed to generalize against as many known attacks as possible. However, designing a defense method that can generalize to all types of attacks, including unseen ones, is not realistic because the environment in which defense systems operate is dynamic and comprises various unique attacks used by many attackers. The defense system needs to upgrade itself by utilizing few-shot defense feedback and efficient memory. Therefore, we propose the first continual adversarial defense (CAD) framework that adapts to any attacks in a dynamic scenario, where various attacks emerge stage by stage. In practice, CAD is modeled under four principles: (1) continual adaptation to new attacks without catastrophic forgetting, (2) few-shot adaptation, (3) memory-efficient adaptation, and (4) high accuracy on both clean and adversarial images. We leverage cutting-edge continual learning, few-shot learning, and ensemble learning techniques to qualify the principles. Experiments conducted on CIFAR-10 and ImageNet-100 validate the effectiveness of our approach against multiple stages of 10 modern adversarial attacks and significant improvements over 10 baseline methods. In particular, CAD is capable of quickly adapting with minimal feedback and a low cost of defense failure, while maintaining good performance against old attacks. Our research sheds light on a brand-new paradigm for continual defense adaptation against dynamic and evolving attacks.
翻訳日:2023-12-18 17:22:27 公開日:2023-12-15
# Riveter: エンティティ間のパワーと社会的ダイナミクスの測定

Riveter: Measuring Power and Social Dynamics Between Entities ( http://arxiv.org/abs/2312.09536v1 )

ライセンス: Link先を確認
Maria Antoniak, Anjalie Field, Jimin Mun, Melanie Walsh, Lauren F. Klein, Maarten Sap(参考訳) riveterは、テキストコーパスのエンティティに関連する動詞の意味を分析するために、完全に使いやすいパイプラインを提供する。 このパッケージには感情、力、エージェンシーといった意味の枠組みが組み込まれており、幅広いコーパスにおいてジェンダーバイアスなどの社会現象を捉えるのに有用であることを示す。 何十年もの間、辞書フレームワークは計算社会科学、デジタル人文科学、自然言語処理における基礎的なツールであり、テキストコーパスの多面的分析を容易にする。 しかし、動詞中心の語彙を扱うには、自然言語処理のスキルが特に必要で、他の研究者へのアクセシビリティが低下する。 言語処理パイプラインを編成し、コーパス内のすべてのエンティティに対して完全なレキシコンスコアと可視化を提供し、ユーザが特定の研究質問を対象とする機能を提供することで、riveterは動詞語彙のアクセシビリティを大幅に改善し、幅広い将来の研究を促進することができる。

Riveter provides a complete easy-to-use pipeline for analyzing verb connotations associated with entities in text corpora. We prepopulate the package with connotation frames of sentiment, power, and agency, which have demonstrated usefulness for capturing social phenomena, such as gender bias, in a broad range of corpora. For decades, lexical frameworks have been foundational tools in computational social science, digital humanities, and natural language processing, facilitating multifaceted analysis of text corpora. But working with verb-centric lexica specifically requires natural language processing skills, reducing their accessibility to other researchers. By organizing the language processing pipeline, providing complete lexicon scores and visualizations for all entities in a corpus, and providing functionality for users to target specific research questions, Riveter greatly improves the accessibility of verb lexica and can facilitate a broad range of future research.
翻訳日:2023-12-18 17:15:33 公開日:2023-12-15
# WeatherProof: 逆気象におけるセマンティックセグメンテーションに対するペアデータセットアプローチ

WeatherProof: A Paired-Dataset Approach to Semantic Segmentation in Adverse Weather ( http://arxiv.org/abs/2312.09534v1 )

ライセンス: Link先を確認
Blake Gella, Howard Zhang, Rishi Upadhyay, Tiffany Chang, Matthew Waliman, Yunhao Ba, Alex Wong, Achuta Kadambi(参考訳) コンピュータビジョンへの大規模な基礎モデルの導入により、セマンティックセグメンテーションのタスクにおける性能が大幅に向上した。 しかし、これらの既存手法は、雨や霧、雪などの気象条件によって劣化した画像をテストする際に大きな性能低下を示す。 本稿では,現在の基盤モデルアーキテクチャすべてに適用可能な一般的なペア学習手法を提案する。 そこで本研究では,新しい学習パラダイムを実現するだけでなく,クリアセグメントとデグレードセグメンテーション間のパフォーマンスギャップの評価を改善するため,正確かつ悪天候イメージペアを用いた最初のセグメンテーションデータセットであるweatherproof datasetを作成した。 その結果,これら2組の晴天フレームと悪天候フレームのトレーニングにより,悪天候データの性能が向上することが判明した。 この知識を活かして,一貫性損失と言語指導を用いたペアデータトレーニングの利点を強調し,標準的なトレーニング手順と比較して最大18.4%パフォーマンス改善を実現したトレーニングパイプラインを提案する。

The introduction of large, foundational models to computer vision has led to drastically improved performance on the task of semantic segmentation. However, these existing methods exhibit a large performance drop when testing on images degraded by weather conditions such as rain, fog, or snow. We introduce a general paired-training method that can be applied to all current foundational model architectures that leads to improved performance on images in adverse weather conditions. To this end, we create the WeatherProof Dataset, the first semantic segmentation dataset with accurate clear and adverse weather image pairs, which not only enables our new training paradigm, but also improves the evaluation of the performance gap between clear and degraded segmentation. We find that training on these paired clear and adverse weather frames which share an underlying scene results in improved performance on adverse weather data. With this knowledge, we propose a training pipeline which accentuates the advantages of paired-data training using consistency losses and language guidance, which leads to performance improvements by up to 18.4% as compared to standard training procedures.
翻訳日:2023-12-18 17:15:15 公開日:2023-12-15
# k$-meansによる画像分類における敵対的ロバスト性

Adversarial Robustness on Image Classification with $k$-means ( http://arxiv.org/abs/2312.09533v1 )

ライセンス: Link先を確認
Rollin Omari, Junae Kim and Paul Montague(参考訳) 本稿では,逆操作に対する$k$-meansクラスタリングアルゴリズムの堅牢性向上のための課題と戦略を検討する。 攻撃に対するクラスタリングアルゴリズムの脆弱性を評価し,関連するセキュリティリスクを強調した。 本研究では,訓練におけるインクリメンタルアタック強度の影響を調査し,教師付きモデルと教師なしモデル間の伝達可能性の概念を導入し,教師なしモデルのサンプル分布に対する感受性を強調する。 また, 対人シナリオにおけるテスト性能を向上させる対人トレーニング手法を導入, 評価し, 連続学習, セントロイド初期化, 対人ステップカウントなど, 提案手法における様々なパラメータの重要性を強調した。

In this paper we explore the challenges and strategies for enhancing the robustness of $k$-means clustering algorithms against adversarial manipulations. We evaluate the vulnerability of clustering algorithms to adversarial attacks, emphasising the associated security risks. Our study investigates the impact of incremental attack strength on training, introduces the concept of transferability between supervised and unsupervised models, and highlights the sensitivity of unsupervised models to sample distributions. We additionally introduce and evaluate an adversarial training method that improves testing performance in adversarial scenarios, and we highlight the importance of various parameters in the proposed training method, such as continuous learning, centroid initialisation, and adversarial step-count.
翻訳日:2023-12-18 17:14:57 公開日:2023-12-15
# 人工知能の接地

Grounding for Artificial Intelligence ( http://arxiv.org/abs/2312.09532v1 )

ライセンス: Link先を確認
Bing Liu(参考訳) インテリジェンスの中心的な機能は、自然言語と抽象的な知識を人間のような知的な存在の中で現実世界の内部表現に結びつけるプロセスである。 人間の認知は、外界における感覚運動経験と内界における主観的感情に根ざしている。 言語を使って相互にコミュニケーションし、言語は共有された知覚的経験と感情に基づいています。 なぜなら、すべての自然言語は高度に抽象的であり、実際に起きていることや実際に起きていることのごく一部しか記述できないからです。 さまざまな分野や応用において,高レベルあるいは抽象レベルの基盤の研究が続けられているが,我々の知る限り,きめ細かいレベルでの体系的な研究は限られている。 大規模言語モデル(llm)の急速な進歩により、次のレベルの知性に移行するためには、グラウンドングを健全に理解することが不可欠である。 また、AI(Artificial General Intelligence, AGI)にも接地が必要であると考えられている。 本稿では,この問題を体系的に研究しようと試みる。

A core function of intelligence is grounding, which is the process of connecting the natural language and abstract knowledge to the internal representation of the real world in an intelligent being, e.g., a human. Human cognition is grounded in our sensorimotor experiences in the external world and subjective feelings in our internal world. We use languages to communicate with each other and the languages are grounded on our shared sensorimotor experiences and feelings. Without this shard grounding, it is impossible for us to understand each other because all natural languages are highly abstract and are only able to describe a tiny portion of what has happened or is happening in the real world. Although grounding at high or abstract levels has been studied in different fields and applications, to our knowledge, limited systematic work at fine-grained levels has been done. With the rapid progress of large language models (LLMs), it is imperative that we have a sound understanding of grounding in order to move to the next level of intelligence. It is also believed that grounding is necessary for Artificial General Intelligence (AGI). This paper makes an attempt to systematically study this problem.
翻訳日:2023-12-18 17:14:42 公開日:2023-12-15
# スピン鎖系におけるステアリング量子コヒーレンスと量子フィッシャー情報

Steered quantum coherence and quantum Fisher information in spin-chain system ( http://arxiv.org/abs/2312.09531v1 )

ライセンス: Link先を確認
Biao-Liang Ye, Yao-Kun Wang, and Shao-Ming Fei(参考訳) 本稿では,ステアリングコヒーレンスのl_1$ノルムとステアリングコヒーレンスの相対エントロピー,および2量子ビット$xxz$系のギブス状態における量子フィッシャー情報について検討する。 温度、外部磁場、相互作用強度に関するそれらの変化を解析的にも数値的にも詳細に分析する。 これら3つの量子測度間の同様の挙動を、$XXZ$モデルで示す。

In this paper, we investigate steered quantum coherence, i.e., the $l_1$ norm of steered coherence and the relative entropy of steered coherence, and the quantum Fisher information in the Gibbs state of two-qubit $XXZ$ systems. Their variations with respect to the temperature, external magnetic field, and interaction intensities are analyzed both analytically and numerically in detail. The similar behaviors among these three quantum measures in the $XXZ$ model are presented.
翻訳日:2023-12-18 17:14:25 公開日:2023-12-15
# 医師の判断は信頼性を高めるか? 直腸癌における病理リンパ節の予測に関する検討

Can Physician Judgment Enhance Model Trustworthiness? A Case Study on Predicting Pathological Lymph Nodes in Rectal Cancer ( http://arxiv.org/abs/2312.09529v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Yasuyuki Takamizawa, Mototaka Miyake, Sono Ito, Lin Gu, Tatsuya Nakatsuka, Yu Akagi, Tatsuya Harada, Yukihide Kanemitsu, Ryuji Hamamoto(参考訳) 説明責任は、医療における人工知能の信頼性を高める鍵となる。 しかし, 臨床意思決定における説明可能なモデルの実効性については, 課題がいくつか残されている。 第一に、効果的な説明責任が実践者にもたらすべき実践的メリットを定量的に評価するための評価フレームワークに関する合意が欠如している。 第二に、医師中心の説明可能性の評価は限られている。 第3に,変圧器モデルにおけるアテンション機構を説明可能性として組み込んだ手法の有用性は明らかでない。 我々は、優れた注意マップは医師がフォーカスする情報と一致し、予測の不確実性を減らし、モデルの信頼性を高めるべきであると仮定する。 臨床データとmriを用いて, 直腸癌リンパ節転移の予測にマルチモーダルトランスフォーマーを応用し, 最新技術を用いて注意マップを可視化し, 医師の理解と一致させる方法について検討した。 予測確率分散や定量化合意といったメタレベル情報を用いてモデルの不確かさを推定した。 この合意が不確実性を減少させるかどうかの私たちの評価は、大きな影響は出なかった。 その結果,モデル信頼性を高める上での注意マップのメリットは確認されなかった。 表面的な説明は、医師を不確実な予測に頼らせ、説明可能性における注意機構の現況を過度に見積もってはならないことを示唆する。 臨床的意思決定に真に有効な説明可能性メカニズムの同定は依然として不可欠である。

Explainability is key to enhancing artificial intelligence's trustworthiness in medicine. However, several issues remain concerning the actual benefit of explainable models for clinical decision-making. Firstly, there is a lack of consensus on an evaluation framework for quantitatively assessing the practical benefits that effective explainability should provide to practitioners. Secondly, physician-centered evaluations of explainability are limited. Thirdly, the utility of built-in attention mechanisms in transformer-based models as an explainability technique is unclear. We hypothesize that superior attention maps should align with the information that physicians focus on, potentially reducing prediction uncertainty and increasing model reliability. We employed a multimodal transformer to predict lymph node metastasis in rectal cancer using clinical data and magnetic resonance imaging, exploring how well attention maps, visualized through a state-of-the-art technique, can achieve agreement with physician understanding. We estimated the model's uncertainty using meta-level information like prediction probability variance and quantified agreement. Our assessment of whether this agreement reduces uncertainty found no significant effect. In conclusion, this case study did not confirm the anticipated benefit of attention maps in enhancing model reliability. Superficial explanations could do more harm than good by misleading physicians into relying on uncertain predictions, suggesting that the current state of attention mechanisms in explainability should not be overestimated. Identifying explainability mechanisms truly beneficial for clinical decision-making remains essential.
翻訳日:2023-12-18 17:14:15 公開日:2023-12-15
# tiface:tensorial radiance fieldと暗黙的表面による顔面再建の改善

TIFace: Improving Facial Reconstruction through Tensorial Radiance Fields and Implicit Surfaces ( http://arxiv.org/abs/2312.09527v1 )

ライセンス: Link先を確認
Ruijie Zhu, Jiahao Chang, Ziyang Song, Jiahuan Yu, Tianzhu Zhang(参考訳) 本報告では,ICCV 2023ワークショップにおいて,「VSCHH(View Synthesis Challenge for Human Heads)」の第1位を獲得したソリューションについて述べる。 この課題は、人間の頭部のまばらなビューイメージを考えると、新しい視点からイメージを合成することである。 顔のテクスチャの複雑さと照明の影響により、ベースライン法であるTensoRFは、顔の再構成に大きな影響を及ぼす重要な成果をもたらす。 この問題に対処するため,T-Face と暗黙の面 (I-Face) を用いて顔の再構成を改善する TI-Face を提案する。 具体的には,フォアグラウンドマスクを得るためにSAMベースのアプローチを採用し,背景の強い照明をフィルタリングする。 さらに、レンダリングアーティファクトを効果的に排除するために、マスクベースの制約とスパーシティ制約を設計します。 実験の結果,提案手法が顔再建に有効であること,優れた性能が得られた。 コードはhttps://github.com/RuijieZhu94/TI-Faceで入手できる。

This report describes the solution that secured the first place in the "View Synthesis Challenge for Human Heads (VSCHH)" at the ICCV 2023 workshop. Given the sparse view images of human heads, the objective of this challenge is to synthesize images from novel viewpoints. Due to the complexity of textures on the face and the impact of lighting, the baseline method TensoRF yields results with significant artifacts, seriously affecting facial reconstruction. To address this issue, we propose TI-Face, which improves facial reconstruction through tensorial radiance fields (T-Face) and implicit surfaces (I-Face), respectively. Specifically, we employ an SAM-based approach to obtain the foreground mask, thereby filtering out intense lighting in the background. Additionally, we design mask-based constraints and sparsity constraints to eliminate rendering artifacts effectively. The experimental results demonstrate the effectiveness of the proposed improvements and superior performance of our method on face reconstruction. The code will be available at https://github.com/RuijieZhu94/TI-Face.
翻訳日:2023-12-18 17:13:54 公開日:2023-12-15
# ゼロショットVOSのための階層グラフパターン理解

Hierarchical Graph Pattern Understanding for Zero-Shot VOS ( http://arxiv.org/abs/2312.09525v1 )

ライセンス: Link先を確認
Gensheng Pei, Fumin Shen, Yazhou Yao, Tao Chen, Xian-Sheng Hua, and Heng-Tao Shen(参考訳) 光フロー誘導戦略は,映像中の物体の運動情報を得るのに最適である。 ビデオセグメンテーションタスクで広く利用されている。 しかし、既存の光フローベースの手法は光フローに大きく依存しており、特定のシーンで光フロー推定が失敗すると性能が低下する。 光流による時間的整合性は、構造体のモデリングによって効果的に補うことができる。 本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための階層グラフパターン理解(HGPU)と呼ばれる新しい階層グラフニューラルネットワーク(GNN)アーキテクチャを提案する。 構造的関係の捕捉におけるGNNの強い能力にインスパイアされたHGPUは、ターゲットフレームの隣人からの高次表現を強化するために、革新的にモーションキュー (\ie, optical flow) を活用する。 具体的には、メッセージアグリゲーションを持つ階層グラフパターンエンコーダを導入し、異なるレベルの動作と外観特徴を逐次的に取得する。 さらにデコーダは、変換されたマルチモーダルコンテキストを階層的に解析し、理解し、より正確で堅牢な結果を得るように設計されている。 HGPUは、4つの公開ベンチマーク(DAVIS-16、YouTube-Objects、Long-Videos、DAVIS-17)で最先端のパフォーマンスを達成する。 コードと事前訓練されたモデルは、 \url{https://github.com/NUST-Machine-Intelligence-Laboratory/HGPU} で見ることができる。

The optical flow guidance strategy is ideal for obtaining motion information of objects in the video. It is widely utilized in video segmentation tasks. However, existing optical flow-based methods have a significant dependency on optical flow, which results in poor performance when the optical flow estimation fails for a particular scene. The temporal consistency provided by the optical flow could be effectively supplemented by modeling in a structural form. This paper proposes a new hierarchical graph neural network (GNN) architecture, dubbed hierarchical graph pattern understanding (HGPU), for zero-shot video object segmentation (ZS-VOS). Inspired by the strong ability of GNNs in capturing structural relations, HGPU innovatively leverages motion cues (\ie, optical flow) to enhance the high-order representations from the neighbors of target frames. Specifically, a hierarchical graph pattern encoder with message aggregation is introduced to acquire different levels of motion and appearance features in a sequential manner. Furthermore, a decoder is designed for hierarchically parsing and understanding the transformed multi-modal contexts to achieve more accurate and robust results. HGPU achieves state-of-the-art performance on four publicly available benchmarks (DAVIS-16, YouTube-Objects, Long-Videos and DAVIS-17). Code and pre-trained model can be found at \url{https://github.com/NUST-Machine-Intelligence-Laboratory/HGPU}.
翻訳日:2023-12-18 17:13:38 公開日:2023-12-15
# DriveTrack: リアルタイムビデオにおけるロングランジポイントトラッキングのベンチマーク

DriveTrack: A Benchmark for Long-Range Point Tracking in Real-World Videos ( http://arxiv.org/abs/2312.09523v1 )

ライセンス: Link先を確認
Arjun Balasingam, Joseph Chandler, Chenning Li, Zhoutong Zhang, Hari Balakrishnan(参考訳) 本稿では,リアルタイムビデオにおける長距離キーポイント追跡のための新しいベンチマークおよびデータ生成フレームワークであるdrivetrackを提案する。 DriveTrackは、最先端のトラッカーの精度が、テクスチャや照明などの選択されたキーポイント周辺の視覚的特性に強く依存しているという観察に動機づけられている。 問題は、これらのアーティファクトが現実世界のビデオでは特に顕著であることですが、アノテーションの不足のため、これらのトラッカーはそのようなシーンでトレーニングすることはできません。 DriveTrackはこのギャップを埋めるために、自律的な運転データセット上のポイントトラックを自動的にアノテートするフレームワークを構築する。 ビデオの24時間にわたって10億点のトラックからなるデータセットをリリースし、これは以前の実世界のベンチマークよりも7桁大きく、合成ベンチマークの規模に匹敵する。 DriveTrackは、現実世界のビデオのポイントトラッキングのための新しいユースケースをアンロックする。 まず、DriveTrackの微調整キーポイントトラッカーが現実世界のシーンの精度を最大7%向上することを示す。 第2に,実シーンにおける視覚的アーティファクトに対するトラッカーの感度を分析し,トラッカーとともに補助キーポイントセレクタを走らせるというアイデアを動機づける。

This paper presents DriveTrack, a new benchmark and data generation framework for long-range keypoint tracking in real-world videos. DriveTrack is motivated by the observation that the accuracy of state-of-the-art trackers depends strongly on visual attributes around the selected keypoints, such as texture and lighting. The problem is that these artifacts are especially pronounced in real-world videos, but these trackers are unable to train on such scenes due to a dearth of annotations. DriveTrack bridges this gap by building a framework to automatically annotate point tracks on autonomous driving datasets. We release a dataset consisting of 1 billion point tracks across 24 hours of video, which is seven orders of magnitude greater than prior real-world benchmarks and on par with the scale of synthetic benchmarks. DriveTrack unlocks new use cases for point tracking in real-world videos. First, we show that fine-tuning keypoint trackers on DriveTrack improves accuracy on real-world scenes by up to 7%. Second, we analyze the sensitivity of trackers to visual artifacts in real scenes and motivate the idea of running assistive keypoint selectors alongside trackers.
翻訳日:2023-12-18 17:13:15 公開日:2023-12-15
# SlowTrack: 反対例を用いた自律運転におけるカメラベース知覚のレイテンシ向上

SlowTrack: Increasing the Latency of Camera-based Perception in Autonomous Driving Using Adversarial Examples ( http://arxiv.org/abs/2312.09520v1 )

ライセンス: Link先を確認
Chen Ma, Ningfei Wang, Qi Alfred Chen, Chao Shen(参考訳) 自律運転(AD)では、リアルタイム認識は周囲の物体を検知して安全な運転を確実にするための重要な要素である。 研究者は、その安全性とセキュリティの影響から、広告知覚の完全性を検討したが、可用性(リアルタイムパフォーマンス)やレイテンシの側面は、あまり注目されていない。 既存の遅延ベースの攻撃の研究は、主にオブジェクト検出、すなわちカメラベースのAD知覚のコンポーネントに焦点を当てており、カメラベースのAD認識全体を見渡すことで、車両のクラッシュのような効果的なシステムレベルの効果を達成するのを妨げている。 本稿では,カメラベースの広告知覚の実行時間を増やすために,敵対的攻撃を発生させる新しいフレームワークであるslowtrackを提案する。 3つの新しい損失関数設計とともに,新たな2段階攻撃戦略を提案する。 その結果,SlowTrackは既存の遅延ベースの攻撃に対して,同等の非受容レベルを維持しながら有意に優れていたことがわかった。 さらに,業界レベルのフルスタックADシステムであるBaidu Apolloと,生産レベルのADシミュレータであるLGSVLについて,SlowTrackと既存攻撃のシステムレベル効果を比較する2つのシナリオで評価を行った。 評価の結果,slowtrackの車両クラッシュ率は平均で95%程度であり,既存の作業では30%程度であることがわかった。

In Autonomous Driving (AD), real-time perception is a critical component responsible for detecting surrounding objects to ensure safe driving. While researchers have extensively explored the integrity of AD perception due to its safety and security implications, the aspect of availability (real-time performance) or latency has received limited attention. Existing works on latency-based attack have focused mainly on object detection, i.e., a component in camera-based AD perception, overlooking the entire camera-based AD perception, which hinders them to achieve effective system-level effects, such as vehicle crashes. In this paper, we propose SlowTrack, a novel framework for generating adversarial attacks to increase the execution time of camera-based AD perception. We propose a novel two-stage attack strategy along with the three new loss function designs. Our evaluation is conducted on four popular camera-based AD perception pipelines, and the results demonstrate that SlowTrack significantly outperforms existing latency-based attacks while maintaining comparable imperceptibility levels. Furthermore, we perform the evaluation on Baidu Apollo, an industry-grade full-stack AD system, and LGSVL, a production-grade AD simulator, with two scenarios to compare the system-level effects of SlowTrack and existing attacks. Our evaluation results show that the system-level effects can be significantly improved, i.e., the vehicle crash rate of SlowTrack is around 95% on average while existing works only have around 30%.
翻訳日:2023-12-18 17:12:55 公開日:2023-12-15
# 高次法と再スケーリングによる非線形微分方程式の量子アルゴリズムの改善

Further improving quantum algorithms for nonlinear differential equations via higher-order methods and rescaling ( http://arxiv.org/abs/2312.09518v1 )

ライセンス: Link先を確認
Pedro C. S. Costa, Philipp Schleich, Mauro E. S. Morales, and Dominic W. Berry(参考訳) 非線形微分方程式の大規模系の解は、科学や工学の多くの応用に必要である。 本研究では,Carleman線形化法に基づく既存量子アルゴリズムの3つの改良点について述べる。 まず,線形化微分方程式の解法として高精度な手法を用いることで,誤差の対数的依存性と時間的近線形依存性を実現する。 第二に、再スケーリング技術がコストを大幅に削減できることを示し、それ以外は、ODEのシステムに対するCarleman順序で指数関数的であり、PDEの量子スピードアップを防ぐ。 第3に、Carleman線型化の誤差を改良し、より厳密な境界を提供する。 本研究では,空間分解能の高次有限差分を用いた離散化反応拡散方程式のクラスに適用する。 離散化に依存しない安定性基準を提供することは、maxノルムと2ノルムの違いによる再スケーリングの使用と矛盾する可能性がある。 離散化点の数が制限されている場合、高次微分を用いても、効率的な解が得られる。

The solution of large systems of nonlinear differential equations is needed for many applications in science and engineering. In this study, we present three main improvements to existing quantum algorithms based on the Carleman linearisation technique. First, by using a high-precision technique for the solution of the linearised differential equations, we achieve logarithmic dependence of the complexity on the error and near-linear dependence on time. Second, we demonstrate that a rescaling technique can considerably reduce the cost, which would otherwise be exponential in the Carleman order for a system of ODEs, preventing a quantum speedup for PDEs. Third, we provide improved, tighter bounds on the error of Carleman linearisation. We apply our results to a class of discretised reaction-diffusion equations using higher-order finite differences for spatial resolution. We show that providing a stability criterion independent of the discretisation can conflict with the use of the rescaling due to the difference between the max-norm and 2-norm. An efficient solution may still be provided if the number of discretisation points is limited, as is possible when using higher-order discretisations.
翻訳日:2023-12-18 17:12:31 公開日:2023-12-15
# シングルPWは、USイメージングでPWを合成するためにショートカットを取る

Single PW takes a shortcut to compound PW in US imaging ( http://arxiv.org/abs/2312.09514v1 )

ライセンス: Link先を確認
Zhiqiang Li, Hengrong Lan, Lijie Huang, Qiong He, Jianwen Luo(参考訳) 超音波(US)画像の高周波データからの再構成は線形逆問題として概念化できる。 先行学習を直接学習することで、米国の画像の品質向上を目指す従来のディープラーニングアプローチは、一般化の課題に直面することが多い。 近年,画像再構成におけるロバストな性能から,拡散型生成モデルが研究コミュニティで注目されている。 しかし、これらのモデルの制限は、純粋なガウス雑音から画像サンプルを生成する際の固有の低速度である。 本研究では,単平面波(PW)から再構成した米国画像とPW合成PWCとの類似性を利用した。 我々は、1つのpwがpwcの拡散軌道に到達する近道を取ることができると仮定し、ガウス雑音から始める必要性を取り除いた。 高度な拡散モデルを用いることで,米国の画像再構成におけるその効果を実証し,サンプリングステップの大幅な削減を実現する。 in-vivo実験の結果,従来の拡散モデルと同等の性能指標を維持しつつ,サンプリングステップを60%削減できることがわかった。

Reconstruction of ultrasound (US) images from radio-frequency data can be conceptualized as a linear inverse problem. Traditional deep learning approaches, which aim to improve the quality of US images by directly learning priors, often encounter challenges in generalization. Recently, diffusion-based generative models have received significant attention within the research community due to their robust performance in image reconstruction tasks. However, a limitation of these models is their inherent low speed in generating image samples from pure Gaussian noise progressively. In this study, we exploit the inherent similarity between the US images reconstructed from a single plane wave (PW) and PW compounding PWC). We hypothesize that a single PW can take a shortcut to reach the diffusion trajectory of PWC, removing the need to begin with Gaussian noise. By employing an advanced diffusion model, we demonstrate its effectiveness in US image reconstruction, achieving a substantial reduction in sampling steps. In-vivo experimental results indicate that our approach can reduce sampling steps by 60%, while preserving comparable performance metrics with the conventional diffusion model.
翻訳日:2023-12-18 17:12:14 公開日:2023-12-15
# cgs-mask:alの時系列予測を直感的にする

CGS-Mask: Making Time Series Predictions Intuitive for Al ( http://arxiv.org/abs/2312.09513v1 )

ライセンス: Link先を確認
Feng Lu, Wei Li, Yifei Sun, Cheng Song, Yufei Ren, Albert Y. Zomaya(参考訳) 人工知能(AI)は時系列予測において大きな可能性を秘めているが、ほとんどの説明可能なツールは、時間とともに重要な機能の体系的な理解を提供する能力に制限がある。 これらのツールは一般的に、単一の時点を評価し、入力の時間順序を見落とし、時系列アプリケーションの時間に敏感な性質を無視する。 これらの要因は、特にドメイン知識のないユーザにとって、AIモデルの判断を理解し、意味のある説明を得るのを難しくする。 本稿では,これらの課題に対処するために,CGS-Maskを提案する。 CGS-Maskは、連続した時間ステップを結合的なエンティティとして使用し、最終的な予測に対する機能の影響を評価し、時間とともにバイナリと持続的な機能の重要度スコアを提供する。 本アルゴリズムはマスク数を反復的に最適化し,適切な時間で最適マスクを得る。 我々はCGS-Maskを合成および実世界のデータセット上で評価し、時間とともに特徴の重要性を解明する最先端の手法より優れていた。 アンケートによるパイロットユーザ調査によると、CGS-Maskは、容易に理解できる時系列予測結果を示す最も効果的なアプローチであり、AIモデルの意思決定プロセスを簡単に理解することができる。

Artificial intelligence (AI) has immense potential in time series prediction, but most explainable tools have limited capabilities in providing a systematic understanding of important features over time. These tools typically rely on evaluating a single time point, overlook the time ordering of inputs, and neglect the time-sensitive nature of time series applications. These factors make it difficult for users, particularly those without domain knowledge, to comprehend AI model decisions and obtain meaningful explanations. We propose CGS-Mask, a post-hoc and model-agnostic cellular genetic strip mask-based saliency approach to address these challenges. CGS-Mask uses consecutive time steps as a cohesive entity to evaluate the impact of features on the final prediction, providing binary and sustained feature importance scores over time. Our algorithm optimizes the mask population iteratively to obtain the optimal mask in a reasonable time. We evaluated CGS-Mask on synthetic and real-world datasets, and it outperformed state-of-the-art methods in elucidating the importance of features over time. According to our pilot user study via a questionnaire survey, CGS-Mask is the most effective approach in presenting easily understandable time series prediction results, enabling users to comprehend the decision-making process of AI models with ease.
翻訳日:2023-12-18 17:11:57 公開日:2023-12-15
# 多元系に対する任意の量子相関の一般単元数と多元数関係

General monogamy and polygamy relations of arbitrary quantum correlations for multipartite systems ( http://arxiv.org/abs/2312.09512v1 )

ライセンス: Link先を確認
Zhong-Xi Shen, Ke-Ke Wang, Shao-Ming Fei(参考訳) 量子相関のモノガミーとポリガミーは量子系の基本的な性質である。 多部量子系における任意の量子相関によって満たされるモノガミーとポリガミーの関係について検討する。 0\leq\alpha \leq\gamma$, $\gamma\geq2$ 量子相関のパワーに対して一般単元関係が提示され、一般多元関係は量子相関のパワーの$\beta$th $(\beta\geq \delta$,$0\leq\delta\leq1) に対して与えられる。 新たに派生したモノガミーとポリガミーの不等式は,既存のものよりも厳密であることを示す。 これらの結果を共起性(concurrence)や凸屋根拡張負性(convex-roof extended negativity of aid, SCRENoA)のような特定の量子相関に応用することにより、対応するモノガミーとポリガミーの関係の新たなクラスが得られ、その中には既存のものも含まれる。 結果の利点を説明するための詳細な例を挙げる。

Monogamy and polygamy of quantum correlations are the fundamental properties of quantum systems. We study the monogamy and polygamy relations satisfied by any quantum correlations in multipartite quantum systems. General monogamy relations are presented for the $\alpha$th $(0\leq\alpha \leq\gamma$, $\gamma\geq2)$ power of quantum correlation, and general polygamy relations are given for the $\beta$th $(\beta\geq \delta$, $0\leq\delta\leq1)$ power of quantum correlation. We show that these newly derived monogamy and polygamy inequalities are tighter than the existing ones. By applying these results to specific quantum correlations such as concurrence and the square of convex-roof extended negativity of assistance (SCRENoA), the corresponding new classes of monogamy and polygamy relations are obtained, which include the existing ones as special cases. Detailed examples are given to illustrate the advantages of our results.
翻訳日:2023-12-18 17:11:34 公開日:2023-12-15
# monet:モダリティを包含するグラフ畳み込みネットワークとマルチメディア推薦のためのターゲット意識

MONET: Modality-Embracing Graph Convolutional Network and Target-Aware Attention for Multimedia Recommendation ( http://arxiv.org/abs/2312.09511v1 )

ライセンス: Link先を確認
Yungi Kim, Taeri Kim, Won-Yong Shin, and Sang-Wook Kim(参考訳) 本稿では,グラフ畳み込みネットワーク(gcns)を用いたマルチメディアレコメンダシステムに着目し,マルチモーダル機能とユーザ・テーマインタラクションを併用する。 本研究は,商品の嗜好を正確に把握するために,より効果的にマルチモーダル機能を活用することを目的とする。 To this end, we point out following two limitations of existing GCN-based multimedia recommender systems: (L1) although multimodal features of interacted items by a user can reveal her preferences on items, existing methods utilize GCN designed to focus only on capturing collaborative signals, resulting in insufficient reflection of the multimodal features in the final user/item embeddings; (L2) although a user decides whether to prefer the target item by considering its multimodal features, existing methods represent her as only a single embedding regardless of the target item's multimodal features and then utilize her embedding to predict her preference for the target item. 上記の課題に対処するために,モダリティを考慮したGCN(MeGCN)とターゲット認識型アテンションの2つの基本概念からなる,MONETという新しいマルチメディアレコメンデータシステムを提案する。 4つの実世界のデータセットを用いた広範囲な実験を通じて i) 7つの最先端コンペティター(最高のコンペティターと比較して、リコール@20の精度が最大30.32%高い)とMONETの顕著な優位性 ii)MONETにおける2つの中核的概念の有効性。 すべてのMONETコードはhttps://github.com/Kimyungi/MONETで入手できる。

In this paper, we focus on multimedia recommender systems using graph convolutional networks (GCNs) where the multimodal features as well as user-item interactions are employed together. Our study aims to exploit multimodal features more effectively in order to accurately capture users' preferences for items. To this end, we point out following two limitations of existing GCN-based multimedia recommender systems: (L1) although multimodal features of interacted items by a user can reveal her preferences on items, existing methods utilize GCN designed to focus only on capturing collaborative signals, resulting in insufficient reflection of the multimodal features in the final user/item embeddings; (L2) although a user decides whether to prefer the target item by considering its multimodal features, existing methods represent her as only a single embedding regardless of the target item's multimodal features and then utilize her embedding to predict her preference for the target item. To address the above issues, we propose a novel multimedia recommender system, named MONET, composed of following two core ideas: modality-embracing GCN (MeGCN) and target-aware attention. Through extensive experiments using four real-world datasets, we demonstrate i) the significant superiority of MONET over seven state-of-the-art competitors (up to 30.32% higher accuracy in terms of recall@20, compared to the best competitor) and ii) the effectiveness of the two core ideas in MONET. All MONET codes are available at https://github.com/Kimyungi/MONET.
翻訳日:2023-12-18 17:10:54 公開日:2023-12-15
# 科学研究に責任あるAIを探求する実証的研究

Investigating Responsible AI for Scientific Research: An Empirical Study ( http://arxiv.org/abs/2312.09561v1 )

ライセンス: Link先を確認
Muneera Bano, Didar Zowghi, Pip Shea, Georgina Ibarra(参考訳) 人工知能(AI)システムを開発、展開している科学研究機関は、技術進歩と倫理的考察の交差点にいる。 このような機関におけるResponsible AI(RAI)の推進は、AI設計と開発における倫理的配慮の統合、公正性、説明責任、透明性といった中核的な価値の擁護に重点を置いている。 科学研究組織にとって、これらのプラクティスの優先順位付けは、バイアスの緩和と排他性の確保だけでなく、ユーザと幅広い利害関係者の両方のaiシステムに対する信頼を育むためにも最重要です。 本稿では,AI設計と開発に固有の倫理的リスクに対する意識と準備性を評価することを目的とした,AI実践に関する研究組織における実践について検討する。 総合的な調査とai関連プロジェクトから選ばれた参加者とのフォローアップインフルインタビューを組み合わせた,混合手法の研究アプローチを採用した。 その結果、倫理的、責任的、包括的AIに関する知識ギャップが明らかとなり、利用可能なAI倫理フレームワークに対する認識が制限された。 これにより、AI技術がもたらす倫理的リスク、特に適切なガイドラインやガバナンスなしで実施される場合の過大評価が明らかになった。 我々の発見は、能力を高め、責任、倫理的、包括的なAI開発と展開のために科学研究チームを支援するための総合的で多層的な戦略の必要性を明らかにします。

Scientific research organizations that are developing and deploying Artificial Intelligence (AI) systems are at the intersection of technological progress and ethical considerations. The push for Responsible AI (RAI) in such institutions underscores the increasing emphasis on integrating ethical considerations within AI design and development, championing core values like fairness, accountability, and transparency. For scientific research organizations, prioritizing these practices is paramount not just for mitigating biases and ensuring inclusivity, but also for fostering trust in AI systems among both users and broader stakeholders. In this paper, we explore the practices at a research organization concerning RAI practices, aiming to assess the awareness and preparedness regarding the ethical risks inherent in AI design and development. We have adopted a mixed-method research approach, utilising a comprehensive survey combined with follow-up in-depth interviews with selected participants from AI-related projects. Our results have revealed certain knowledge gaps concerning ethical, responsible, and inclusive AI, with limitations in awareness of the available AI ethics frameworks. This revealed an overarching underestimation of the ethical risks that AI technologies can present, especially when implemented without proper guidelines and governance. Our findings reveal the need for a holistic and multi-tiered strategy to uplift capabilities and better support science research teams for responsible, ethical, and inclusive AI development and deployment.
翻訳日:2023-12-18 17:05:11 公開日:2023-12-15
# STEAM & MoSAFE:SOTIFエラー・障害モデルとAI対応運転自動化の解析

STEAM & MoSAFE: SOTIF Error-and-Failure Model & Analysis for AI-Enabled Driving Automation ( http://arxiv.org/abs/2312.09559v1 )

ライセンス: Link先を確認
Krzysztof Czarnecki and Hiroshi Kuwajima(参考訳) ドライビング・オートメーション・システムズ(DAS)は複雑な道路環境と車両の挙動を考慮し、高度なセンサーと人工知能(AI)に依存している。 これらの特性は、仕様の不十分さと技術的パフォーマンスの制限から生じるユニークな安全性の欠陥を引き起こし、センサーとAIは、大きさや時間的パターンの異なるエラーを導入し、潜在的な安全性リスクを生じさせる。 The Safety of the Intended Functionality (SOTIF) 標準はこれらの懸念に対処するための有望な枠組みとして登場し、危険行動とその原因を特定するシナリオベースの分析に焦点を当てている。 現在の標準は基本的な原因と効果のモデルと高レベルのプロセスガイダンスを提供するが、特にAIのコンテキストにおいて、有害なエラーを特定し評価するために必要な概念は欠如している。 本稿ではこのギャップを埋めるための2つの重要な貢献を紹介する。 まず、SOTIFの時間エラーと失敗モデル(STEAM)をSOTIFの因果モデルの改良として定義し、総合的なシステム設計の視点を提供する。 STEAMはエラー定義を洗練し、エラーシーケンスを導入し、エラーシーケンスパターンとして分類する。 第2に,システム設計モデルに基づく蒸気のインスタンス化を可能にするモデルに基づくsofif解析(mosafe)手法を提案する。 最後に,DASの複雑な安全性問題に対処するために,改良モデルとMoSAFE法の実用性を示す,自動速度制御機能を中心としたケーススタディを提案する。

Driving Automation Systems (DAS) are subject to complex road environments and vehicle behaviors and increasingly rely on sophisticated sensors and Artificial Intelligence (AI). These properties give rise to unique safety faults stemming from specification insufficiencies and technological performance limitations, where sensors and AI introduce errors that vary in magnitude and temporal patterns, posing potential safety risks. The Safety of the Intended Functionality (SOTIF) standard emerges as a promising framework for addressing these concerns, focusing on scenario-based analysis to identify hazardous behaviors and their causes. Although the current standard provides a basic cause-and-effect model and high-level process guidance, it lacks concepts required to identify and evaluate hazardous errors, especially within the context of AI. This paper introduces two key contributions to bridge this gap. First, it defines the SOTIF Temporal Error and Failure Model (STEAM) as a refinement of the SOTIF cause-and-effect model, offering a comprehensive system-design perspective. STEAM refines error definitions, introduces error sequences, and classifies them as error sequence patterns, providing particular relevance to systems employing advanced sensors and AI. Second, this paper proposes the Model-based SOTIF Analysis of Failures and Errors (MoSAFE) method, which allows instantiating STEAM based on system-design models by deriving hazardous error sequence patterns at module level from hazardous behaviors at vehicle level via weakest precondition reasoning. Finally, the paper presents a case study centered on an automated speed-control feature, illustrating the practical applicability of the refined model and the MoSAFE method in addressing complex safety challenges in DAS.
翻訳日:2023-12-18 17:04:45 公開日:2023-12-15
# 物理的世界における移動可能な3次元敵攻撃に向けて

Towards Transferable Targeted 3D Adversarial Attack in the Physical World ( http://arxiv.org/abs/2312.09558v1 )

ライセンス: Link先を確認
Yao Huang, Yinpeng Dong, Shouwei Ruan, Xiao Yang, Hang Su, Xingxing Wei(参考訳) 転送可能な非ターゲティング攻撃と比較すると、転送可能な標的攻撃は、攻撃対象サンプルの誤分類カテゴリを特定でき、セキュリティクリティカルなタスクにとって脅威となる。 一方で、マルチビューの堅牢性の可能性から、3dの逆さまなサンプルは、既存のディープラーニングシステムの弱点をより包括的に識別し、大きなアプリケーション価値を持つことができる。 しかし、転送可能な3d攻撃の分野は空白のままである。 本研究の目的は、移動可能な3次元対向体を生成できるより効率的な技術を開発し、この分野のギャップを埋めることである。 この目的を達成するために,少数のマルチビュー画像からTransferable Targeted 3D テクスチャメッシュに迅速に再構成できる TT3D という新しいフレームワークを設計した。 既存のメッシュベースのテクスチャ最適化手法は,高次元メッシュ空間の勾配を計算し,局所最適に陥りやすいため,不満足な転送性や歪みが生じるが,TT3Dは,グリッドベースのNeRF空間における特徴格子と多層パーセプトロン(MLP)パラメータの両方に対して,革新的な2つの最適化を行い,自然さを享受しながらブラックボックスの転送性を大幅に向上させる。 実験結果から,TT3Dはクロスモデル転送性に優れるだけでなく,様々なレンダリングや視覚タスクに適応可能であることが示された。 さらに,実世界における3Dプリンティング技術を用いた3次元対向的な実例を作成し,その頑健な性能を様々なシナリオで検証する。

Compared with transferable untargeted attacks, transferable targeted adversarial attacks could specify the misclassification categories of adversarial samples, posing a greater threat to security-critical tasks. In the meanwhile, 3D adversarial samples, due to their potential of multi-view robustness, can more comprehensively identify weaknesses in existing deep learning systems, possessing great application value. However, the field of transferable targeted 3D adversarial attacks remains vacant. The goal of this work is to develop a more effective technique that could generate transferable targeted 3D adversarial examples, filling the gap in this field. To achieve this goal, we design a novel framework named TT3D that could rapidly reconstruct from few multi-view images into Transferable Targeted 3D textured meshes. While existing mesh-based texture optimization methods compute gradients in the high-dimensional mesh space and easily fall into local optima, leading to unsatisfactory transferability and distinct distortions, TT3D innovatively performs dual optimization towards both feature grid and Multi-layer Perceptron (MLP) parameters in the grid-based NeRF space, which significantly enhances black-box transferability while enjoying naturalness. Experimental results show that TT3D not only exhibits superior cross-model transferability but also maintains considerable adaptability across different renders and vision tasks. More importantly, we produce 3D adversarial examples with 3D printing techniques in the real world and verify their robust performance under various scenarios.
翻訳日:2023-12-18 17:04:16 公開日:2023-12-15
# 身体的対向攻撃 : 自律運転における動的ロバスト物理攻撃

Embodied Adversarial Attack: A Dynamic Robust Physical Attack in Autonomous Driving ( http://arxiv.org/abs/2312.09554v1 )

ライセンス: Link先を確認
Yitong Sun, Yao Huang, Xingxing Wei(参考訳) セキュリティクリティカルなシナリオの潜在的なリスク、特に自動運転において、物理的な敵攻撃が広範囲に適用されるにつれ、環境変化に対する脆弱性も明らかになってきた。 物理的な敵攻撃の非ロバスト性は、安定した性能をもたらす。 To enhance the robustness of physical adversarial attacks in the real world, instead of statically optimizing a robust adversarial example via an off-line training manner like the existing methods, this paper proposes a brand new robust adversarial attack framework: Embodied Adversarial Attack (EAA) from the perspective of dynamic adaptation, which aims to employ the paradigm of embodied intelligence: Perception-Decision-Control to dynamically adjust the optimal attack strategy according to the current situations in real time. 認識モジュールは、被害者の視点でシミュレーションを必要とすることを考えると、攻撃者の視点から標的の変換を推定するパースペクティブ・トランスフォーメーション・ネットワークを革新的に考案する。 判定制御モジュールでは、レーザーを高操作可能な媒体として採用して物理的攻撃を実施、さらに強化学習で攻撃エージェントを訓練し、認識情報に基づいて最適な攻撃戦略を瞬時に決定できるようにする。 最後に、我々のフレームワークを自律運転シナリオに適用する。 複雑な環境下での手法の有効性を検証した実験は多種多様である。

As physical adversarial attacks become extensively applied in unearthing the potential risk of security-critical scenarios, especially in autonomous driving, their vulnerability to environmental changes has also been brought to light. The non-robust nature of physical adversarial attack methods brings less-than-stable performance consequently. To enhance the robustness of physical adversarial attacks in the real world, instead of statically optimizing a robust adversarial example via an off-line training manner like the existing methods, this paper proposes a brand new robust adversarial attack framework: Embodied Adversarial Attack (EAA) from the perspective of dynamic adaptation, which aims to employ the paradigm of embodied intelligence: Perception-Decision-Control to dynamically adjust the optimal attack strategy according to the current situations in real time. For the perception module, given the challenge of needing simulation for the victim's viewpoint, EAA innovatively devises a Perspective Transformation Network to estimate the target's transformation from the attacker's perspective. For the decision and control module, EAA adopts the laser-a highly manipulable medium to implement physical attacks, and further trains an attack agent with reinforcement learning to make it capable of instantaneously determining the best attack strategy based on the perceived information. Finally, we apply our framework to the autonomous driving scenario. A variety of experiments verify the high effectiveness of our method under complex scenes.
翻訳日:2023-12-18 17:03:45 公開日:2023-12-15
# 教師なし領域適応のためのプロンプトベース分布アライメント

Prompt-based Distribution Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2312.09553v1 )

ライセンス: Link先を確認
Shuanghao Bai, Min Zhang, Wanqi Zhou, Siteng Huang, Zhirong Luan, Donglin Wang and Badong Chen(参考訳) 近年,大規模な事前学習型視覚言語モデル(VLM)が幅広い下流タスクで成功しているにもかかわらず,現実の非教師なし領域適応(UDA)問題はいまだよく研究されていない。 そこで本研究では,教師なし学習VLMがソース領域とターゲット領域の分布差を大幅に低減し,UDAの性能を向上できることを示す。 しかし、下流のUDAタスクにそのようなモデルを直接デプロイする上での大きな課題は、優れたドメイン不変表現の影響を受けやすいため、ソースおよびターゲットドメインのドメイン知識を整合させる必要がある、即時エンジニアリングである。 さらに,ドメイン知識を素早い学習に組み込むために,PDA(Prompt-based Distribution Alignment)手法を提案する。 具体的には、PDAは2ブランチのプロンプトチューニングパラダイム、すなわちベースブランチとアライメントブランチを採用している。 ベースブランチは、クラス関連の表現をプロンプトに統合し、異なるクラス間の差別を保証することに焦点を当てている。 さらに、アライメントブランチにおいて、ソースドメインとターゲットドメインの両方に特徴バンクを構築し、入力を特徴バンクに従わせるための画像誘導特徴チューニング(IFT)を提案し、効果的に自己拡張的およびクロスドメイン的特徴をモデルに統合する。 このようにして、これらの2つの枝を相互に推進して、UDA用VLMの適応性を高めることができる。 我々は,提案したPDAが最先端の性能を達成することを示すために,3つのベンチマークで広範な実験を行った。 コードはhttps://github.com/baishuanghao/prompt-based-distribution-alignmentで入手できる。

Recently, despite the unprecedented success of large pre-trained visual-language models (VLMs) on a wide range of downstream tasks, the real-world unsupervised domain adaptation (UDA) problem is still not well explored. Therefore, in this paper, we first experimentally demonstrate that the unsupervised-trained VLMs can significantly reduce the distribution discrepancy between source and target domains, thereby improving the performance of UDA. However, a major challenge for directly deploying such models on downstream UDA tasks is prompt engineering, which requires aligning the domain knowledge of source and target domains, since the performance of UDA is severely influenced by a good domain-invariant representation. We further propose a Prompt-based Distribution Alignment (PDA) method to incorporate the domain knowledge into prompt learning. Specifically, PDA employs a two-branch prompt-tuning paradigm, namely base branch and alignment branch. The base branch focuses on integrating class-related representation into prompts, ensuring discrimination among different classes. To further minimize domain discrepancy, for the alignment branch, we construct feature banks for both the source and target domains and propose image-guided feature tuning (IFT) to make the input attend to feature banks, which effectively integrates self-enhanced and cross-domain features into the model. In this way, these two branches can be mutually promoted to enhance the adaptation of VLMs for UDA. We conduct extensive experiments on three benchmarks to demonstrate that our proposed PDA achieves state-of-the-art performance. The code is available at https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment.
翻訳日:2023-12-18 17:03:25 公開日:2023-12-15
# 学習に基づく軸運動拡大

Learning-based Axial Motion Magnification ( http://arxiv.org/abs/2312.09551v1 )

ライセンス: Link先を確認
Kwon Byung-Ki, Oh Hyun-Bin, Kim Jun-Seong, Tae-Hyun Oh(参考訳) ビデオの動きの拡大は目に見えない小さな動きを増幅し、人間が興味のある場面から小さな動きについて空間的に密集して全体的な理解を与える。 これは、小さな動きを拡大することで動きの正当性を高めるという前提に基づいている。 しかし実世界では、振動する物体はしばしば複雑なシステムを持ち、複雑な自然周波数、モード、方向を持っている。 既存の動きの倍率はしばしば、複雑な動きが拡大しても複雑な特性を保ち、解析に支障をきたすため、正当性の向上に失敗する。 本研究では, ユーザが特定した方向に沿って分解した動きを拡大できる新しい概念である軸運動拡大を提案することで, レジリエンスの向上に着目する。 簡易で読みやすい動き情報を提供することにより、特定の軸の運動が重要となる様々な用途に軸運動倍率を適用することができる。 本稿では,興味軸に沿った動き表現の非絡み合いと拡大を可能にする運動分離モジュールを用いた新しい学習ベース軸運動拡大法を提案する。 さらに,軸方向運動拡大タスクのための新しい合成訓練データセットを構築した。 提案手法は,特定の軸に沿った動作の可読性を改善しつつ,ユーザ制御性も付加する。 本手法は, 一般運動拡大に直接適用でき, 競合する手法に対して良好な性能が得られる。 プロジェクトページはhttps://axial-momag.github.io/axial-momag/で閲覧できます。

Video motion magnification amplifies invisible small motions to be perceptible, which provides humans with spatially dense and holistic understanding about small motions from the scene of interest. This is based on the premise that magnifying small motions enhances the legibility of the motion. In the real world, however, vibrating objects often possess complex systems, having complex natural frequencies, modes, and directions. Existing motion magnification often fails to improve the legibility since the intricate motions still retain complex characteristics even when magnified, which distracts us from analyzing them. In this work, we focus on improving the legibility by proposing a new concept, axial motion magnification, which magnifies decomposed motions along the user-specified direction. Axial motion magnification can be applied to various applications where motions of specific axes are critical, by providing simplified and easily readable motion information. We propose a novel learning-based axial motion magnification method with the Motion Separation Module that enables to disentangle and magnify the motion representation along axes of interest. Further, we build a new synthetic training dataset for the axial motion magnification task. Our proposed method improves the legibility of resulting motions along certain axes, while adding additional user controllability. Our method can be directly adopted to the generic motion magnification and achieves favorable performance against competing methods. Our project page is available at https://axial-momag.github.io/axial-momag/.
翻訳日:2023-12-18 17:02:57 公開日:2023-12-15
# データ駆動型教育決定のためのAIと学習分析の統合と教育におけるパーソナライズされた介入

Integrating AI and Learning Analytics for Data-Driven Pedagogical Decisions and Personalized Interventions in Education ( http://arxiv.org/abs/2312.09548v1 )

ライセンス: Link先を確認
Ramteja Sajja, Yusuf Sermet, David Cwiertny, Ibrahim Demir(参考訳) 本研究は,OpenAIのGPT-4モデルの能力を活用して,革新的な学習分析ツールの概念化,開発,展開について考察する。 このツールは、学生のエンゲージメントの定量化、学習の進展のマップ化、および教育文脈における多様な教育戦略の有効性の評価を目的としている。 学生のストレスレベル、好奇心、混乱、扇動、トピックの嗜好、学習方法など、さまざまな重要なデータポイントの分析を通じて、学習環境のリッチで多次元的なビューを提供する。 さらに、ブルームの分類法を、学生の質問に対する認知レベルを測定する枠組みとして採用し、学習の進行を解明する。 これらの測定から得られた情報は、教育方法論を強化するための貴重な洞察を提供し、改善のための潜在的な領域を特定し、個々の学生にパーソナライズされた介入を行うことによって、教育者に与えることができる。 この研究は、学習分析ツールの設計の複雑さ、実装戦略、徹底的な評価を特徴付け、教育成果の向上と学生の成功の促進にその将来的な貢献を強調するものである。 さらに、既存の教育プラットフォームにツールを統合する実用性や、堅牢でセキュアでスケーラブルな技術基盤にも対処している。 この研究は、AIが教育の未来を形作る可能性を生かし、データ駆動型教育的意思決定を促進し、最終的にはより円滑でパーソナライズされた学習環境を育むための道を開く。

This research study delves into the conceptualization, development, and deployment of an innovative learning analytics tool, leveraging the capabilities of OpenAI's GPT-4 model. This tool is designed to quantify student engagement, map learning progression, and evaluate the efficacy of diverse instructional strategies within an educational context. Through the analysis of various critical data points such as students' stress levels, curiosity, confusion, agitation, topic preferences, and study methods, the tool offers a rich, multi-dimensional view of the learning environment. Furthermore, it employs Bloom's taxonomy as a framework to gauge the cognitive levels addressed by students' questions, thereby elucidating their learning progression. The information gathered from these measurements can empower educators by providing valuable insights to enhance teaching methodologies, pinpoint potential areas for improvement, and craft personalized interventions for individual students. The study articulates the design intricacies, implementation strategy, and thorough evaluation of the learning analytics tool, underscoring its prospective contributions to enhancing educational outcomes and bolstering student success. Moreover, the practicalities of integrating the tool within existing educational platforms and the requisite robust, secure, and scalable technical infrastructure are addressed. This research opens avenues for harnessing AI's potential in shaping the future of education, facilitating data-driven pedagogical decisions, and ultimately fostering a more conducive, personalized learning environment.
翻訳日:2023-12-18 17:02:32 公開日:2023-12-15
# インテリジェンスの機能的定義について

On a Functional Definition of Intelligence ( http://arxiv.org/abs/2312.09546v1 )

ライセンス: Link先を確認
Warisa Sritriratanarak and Paulo Garcia(参考訳) Without an agreed-upon definition of intelligence, asking "is this system intelligent?"" is an untestable question. This lack of consensus hinders research, and public perception, on Artificial Intelligence (AI), particularly since the rise of generative- and large-language models. Most work on precisely capturing what we mean by "intelligence" has come from the fields of philosophy, psychology, and cognitive science. Because these perspectives are intrinsically linked to intelligence as it is demonstrated by natural creatures, we argue such fields cannot, and will not, provide a sufficiently rigorous definition that can be applied to artificial means. Thus, we present an argument for a purely functional, black-box definition of intelligence, distinct from how that intelligence is actually achieved; focusing on the "what", rather than the "how". これを達成するために、我々はまず、他の関連する概念(感覚、感覚、エージェンシーなど)を知性の概念と区別し、特にこれらの概念が人工知能システムにどのように関係しているかを特定する。 その結果、外部観測のみから概念的に検証可能なインテリジェンスの公式定義を実現し、インテリジェンスを連続変数とすることを示す。 我々は、定量化可能な測定にまだ残る課題を特定することで結論づける。 この研究は、AIの開発と、AIの能力とリスクに対する大衆の認識の両方に有用な視点を提供する。

Without an agreed-upon definition of intelligence, asking "is this system intelligent?"" is an untestable question. This lack of consensus hinders research, and public perception, on Artificial Intelligence (AI), particularly since the rise of generative- and large-language models. Most work on precisely capturing what we mean by "intelligence" has come from the fields of philosophy, psychology, and cognitive science. Because these perspectives are intrinsically linked to intelligence as it is demonstrated by natural creatures, we argue such fields cannot, and will not, provide a sufficiently rigorous definition that can be applied to artificial means. Thus, we present an argument for a purely functional, black-box definition of intelligence, distinct from how that intelligence is actually achieved; focusing on the "what", rather than the "how". To achieve this, we first distinguish other related concepts (sentience, sensation, agency, etc.) from the notion of intelligence, particularly identifying how these concepts pertain to artificial intelligent systems. As a result, we achieve a formal definition of intelligence that is conceptually testable from only external observation, that suggests intelligence is a continuous variable. We conclude by identifying challenges that still remain towards quantifiable measurement. This work provides a useful perspective for both the development of AI, and for public perception of the capabilities and risks of AI.
翻訳日:2023-12-18 17:02:05 公開日:2023-12-15
# GPT-4 言語プラグマティクスにおける人的パフォーマンスの回避

GPT-4 Surpassing Human Performance in Linguistic Pragmatics ( http://arxiv.org/abs/2312.09545v1 )

ライセンス: Link先を確認
Ljubisa Bojic, Predrag Kovacevic and Milan Cabarkapa(参考訳) 大規模言語モデル(LLM)が日常生活にますます統合されるにつれて、人間の認知を理解し、エミュレートする能力は着実に検証されている。 本研究は,文脈と意味を考慮したコミュニケーションの側面である言語プラグマティクスを理解・解釈するLLMの能力について考察する。 Grice のコミュニケーション原理を用いて,様々な対話型タスクに対する回答に基づいて LLM と人体 (N=76) を評価した。 以上の結果から,llm,特にgpt4は実用的解釈においてヒトよりも優れた性能と速度を示した。 GPT4はまた、人間の手書きサンプルの事前検査において精度を示し、テキスト解析におけるその可能性を示した。 ヒトの個人と平均スコアを用いたLCMの比較分析では,時間的改善が顕著であった。 GPT2は78位、GPT3は23位、Bardは10位、GPT3.5は5位、Best Humanは2位、GPT4は4位だった。 この結果は, これらのLCMの開発と性能の著しい進歩を浮き彫りにした。 今後の研究は、LLMの能力を完全に理解するために、多様な主題、複数の言語、その他の認知的側面を検討するべきである。 この研究は、コミュニケーション中心セクターにおけるAIベースのモデルの開発と応用に大きな影響を与える。

As Large Language Models (LLMs) become increasingly integrated into everyday life, their capabilities to understand and emulate human cognition are under steady examination. This study investigates the ability of LLMs to comprehend and interpret linguistic pragmatics, an aspect of communication that considers context and implied meanings. Using Grice's communication principles, LLMs and human subjects (N=76) were evaluated based on their responses to various dialogue-based tasks. The findings revealed the superior performance and speed of LLMs, particularly GPT4, over human subjects in interpreting pragmatics. GPT4 also demonstrated accuracy in the pre-testing of human-written samples, indicating its potential in text analysis. In a comparative analysis of LLMs using human individual and average scores, the models exhibited significant chronological improvement. The models were ranked from lowest to highest score, with GPT2 positioned at 78th place, GPT3 ranking at 23rd, Bard at 10th, GPT3.5 placing 5th, Best Human scoring 2nd, and GPT4 achieving the top spot. The findings highlight the remarkable progress made in the development and performance of these LLMs. Future studies should consider diverse subjects, multiple languages, and other cognitive aspects to fully comprehend the capabilities of LLMs. This research holds significant implications for the development and application of AI-based models in communication-centered sectors.
翻訳日:2023-12-18 17:01:46 公開日:2023-12-15
# Marathon: 大規模言語モデルによる長いコンテキストの領域でのレース

Marathon: A Race Through the Realm of Long Context with Large Language Models ( http://arxiv.org/abs/2312.09542v1 )

ライセンス: Link先を確認
Lei Zhang, Yunshui Li, Ziqiang Liu, Jiaxi yang, Junhao Liu and Min Yang(参考訳) 現在、大きな言語モデルの長いコンテキスト理解と推論能力を評価するためのベンチマークが多数存在するが、これらのモデルにコンテキストウィンドウが拡張されているため、既存の長期コンテキストベンチマークは大きな言語モデルの長いコンテキスト理解と推論能力を評価するのに十分ではない。 本稿では,大規模言語モデルの長文理解能力を迅速,正確に,客観的に評価するために,mmluなどのベンチマークに触発された複数の選択質問の形式でマラソンと名づけた,新たな長文文脈評価ベンチマークを開発した。 我々は,最新の,最もポピュラーな大規模言語モデルと,最近かつ効果的な3つの長期文脈最適化手法をベンチマークで評価した。 これは、これらの大きな言語モデルの長い文脈推論と理解能力を示し、これらの最適化手法の有効性を検証する。 Marathonはhttps://huggingface.co/datasets/Lemoncoke/Marathonで入手できる。

Although there are currently many benchmarks available for evaluating the long context understanding and reasoning capability of large language models, with the expansion of the context window in these models, the existing long context benchmarks are no longer sufficient for evaluating the long context understanding and reasoning capability of large language models. In this paper, we have developed a fresh long context evaluation benchmark, which we name it Marathon in the form of multiple choice questions, inspired by benchmarks such as MMLU, for assessing the long context comprehension capability of large language models quickly, accurately, and objectively. We have evaluated several of the latest and most popular large language models, as well as three recent and effective long context optimization methods, on our benchmark. This showcases the long context reasoning and comprehension capabilities of these large language models and validates the effectiveness of these optimization methods. Marathon is available at https://huggingface.co/datasets/Lemoncoke/Marathon.
翻訳日:2023-12-18 17:01:21 公開日:2023-12-15
# 未使用の頭部の選定:対話コリファレンス情報を用いた注意ヘッド選択のネットワークpruning視点

Picking the Underused Heads: A Network Pruning Perspective of Attention Head Selection for Fusing Dialogue Coreference Information ( http://arxiv.org/abs/2312.09541v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Nancy F. Chen(参考訳) マルチヘッドセルフアテンション機構を備えたトランスフォーマーモデルは,自然言語処理において広く用いられ,最先端の結果を提供する。 事前学習された言語バックボーンは、特定の言語知識を暗黙的に捉えることが示されているが、構造認識機能を明示的に組み込むことで、下流タスクがさらに改善される可能性がある。 しかし、このような強化には、しばしば追加の神経コンポーネントが必要となり、トレーニングパラメータのサイズが増加する。 本研究では,特徴注入のための注意ヘッド選択と操作戦略をネットワークプルーニングの観点から検討し,対話要約を事例として検討する。 まず、階層的に重要なトランスフォーマーベースの要約器で注意点をランク付けする。 次に,未使用の頭部を広範囲な解析により選択し,選択した頭部を操作することで構造認識特徴を注入する。 実験の結果,重要度に基づく頭部選択は特徴注入に有効であり,頭部操作によるコレファレンス情報の導入により対話要約が改善されることがわかった。

The Transformer-based models with the multi-head self-attention mechanism are widely used in natural language processing, and provide state-of-the-art results. While the pre-trained language backbones are shown to implicitly capture certain linguistic knowledge, explicitly incorporating structure-aware features can bring about further improvement on the downstream tasks. However, such enhancement often requires additional neural components and increases training parameter size. In this work, we investigate the attention head selection and manipulation strategy for feature injection from a network pruning perspective, and conduct a case study on dialogue summarization. We first rank attention heads in a Transformer-based summarizer with layer-wise importance. We then select the underused heads through extensive analysis, and inject structure-aware features by manipulating the selected heads. Experimental results show that the importance-based head selection is effective for feature injection, and dialogue summarization can be improved by incorporating coreference information via head manipulation.
翻訳日:2023-12-18 17:01:06 公開日:2023-12-15
# 医療応用による新しいハイブリッド順序学習モデル

A Novel Hybrid Ordinal Learning Model with Health Care Application ( http://arxiv.org/abs/2312.09540v1 )

ライセンス: Link先を確認
Lujia Wang, Hairong Wang, Yi Su, Fleming Lure, Jing Li(参考訳) 順序学習(ordinal learning、ol)は、病気の異なるグレード(軽度、軽度、重度など)の診断や、疾患進行の速さの予測(例えば、非常に高速、高速、中等度、遅い)など、医療応用において広く有用な機械学習モデルである。 本研究の目的は,ラベル付きサンプルがコストや可用性の制約によりトレーニングセットに制限されている場合,不正確なラベル付きサンプルが多数存在する場合である。 例えば、サンプルがラベルの間隔に属するが、どのユニークなラベルを持っているかはわからないということを知ることができる。 この状況は、診断器の制限、臨床訪問の不足、患者の退院などにより、医療データセットでは極めて一般的である。 inrecise/intervalラベルを用いたolモデルの開発には限定的な研究がなされている。 そこで本研究では,サンプルを正確なラベルと間隔ラベルの両方と統合し,頑健なOLモデルをトレーニングするためのHOL(Hybrid Ordinal Learner)を提案する。 また,HOLの定式化を解くため,トラクタブルで効率的な最適化アルゴリズムを開発した。 HOLと最近開発された4つのベンチマークデータセットのOL法を比較し,HOLの優れた性能を示す。 最後に、HOLを現実のデータセットに適用し、マルチモーダル・ニューロイメージングと人口統計/臨床データセットの組み合わせに基づいて、軽度認知障害(MCI)患者に対するアルツハイマー病(AD)の進行速度を予測する。 HOLは予測精度が高く、既存の手法より優れている。 MCIによる個人ごとのADの進行速度を正確に予測する能力は、より個別に最適化された介入戦略を促進する可能性がある。

Ordinal learning (OL) is a type of machine learning models with broad utility in health care applications such as diagnosis of different grades of a disease (e.g., mild, modest, severe) and prediction of the speed of disease progression (e.g., very fast, fast, moderate, slow). This paper aims to tackle a situation when precisely labeled samples are limited in the training set due to cost or availability constraints, whereas there could be an abundance of samples with imprecise labels. We focus on imprecise labels that are intervals, i.e., one can know that a sample belongs to an interval of labels but cannot know which unique label it has. This situation is quite common in health care datasets due to limitations of the diagnostic instrument, sparse clinical visits, or/and patient dropout. Limited research has been done to develop OL models with imprecise/interval labels. We propose a new Hybrid Ordinal Learner (HOL) to integrate samples with both precise and interval labels to train a robust OL model. We also develop a tractable and efficient optimization algorithm to solve the HOL formulation. We compare HOL with several recently developed OL methods on four benchmarking datasets, which demonstrate the superior performance of HOL. Finally, we apply HOL to a real-world dataset for predicting the speed of progressing to Alzheimer's Disease (AD) for individuals with Mild Cognitive Impairment (MCI) based on a combination of multi-modality neuroimaging and demographic/clinical datasets. HOL achieves high accuracy in the prediction and outperforms existing methods. The capability of accurately predicting the speed of progression to AD for each individual with MCI has the potential for helping facilitate more individually-optimized interventional strategies.
翻訳日:2023-12-18 17:00:49 公開日:2023-12-15
# 状況依存因果影響に基づく協調型マルチエージェント強化学習

Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2312.09539v1 )

ライセンス: Link先を確認
Xiao Du, Yutong Ye, Pengyu Zhang, Yaning Yang, Mingsong Chen, Ting Wang(参考訳) 協調学習はマルチエージェント強化学習(MARL)において大きな進歩をみせた。 しかし,エージェント間の協調と探索能力の向上は依然として課題である。 マルチエージェント環境では、エージェント間の相互作用は特定の状況で制限される。 したがって、エージェント間の効果的なコラボレーションは、エージェントの行動が他のエージェントにどのように影響するかを微妙に理解する必要がある。 そこで本稿では,エージェント間の因果関係の影響を計測した新たな協調基準に基づく,新たな固有報酬機構を組み込んだ,状況依存型因果関係型協調型マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。 本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。 これは、他のエージェントに正の影響を与えるような状態を探索するエージェントを効果的に支援し、エージェント間の協力を促進する。 その結果得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高める。 各種MARLベンチマーク実験の結果, 最先端手法と比較して, 提案手法の優位性を示した。

Learning to collaborate has witnessed significant progress in multi-agent reinforcement learning (MARL). However, promoting coordination among agents and enhancing exploration capabilities remain challenges. In multi-agent environments, interactions between agents are limited in specific situations. Effective collaboration between agents thus requires a nuanced understanding of when and how agents' actions influence others. To this end, in this paper, we propose a novel MARL algorithm named Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning (SCIC), which incorporates a novel Intrinsic reward mechanism based on a new cooperation criterion measured by situation-dependent causal influence among agents. Our approach aims to detect inter-agent causal influences in specific situations based on the criterion using causal intervention and conditional mutual information. This effectively assists agents in exploring states that can positively impact other agents, thus promoting cooperation between agents. The resulting update links coordinated exploration and intrinsic reward distribution, which enhance overall collaboration and performance. Experimental results on various MARL benchmarks demonstrate the superiority of our method compared to state-of-the-art approaches.
翻訳日:2023-12-18 17:00:19 公開日:2023-12-15
# AEGIS-Net:屋内位置認識のための注意誘導多層特徴集合

AEGIS-Net: Attention-guided Multi-Level Feature Aggregation for Indoor Place Recognition ( http://arxiv.org/abs/2312.09538v1 )

ライセンス: Link先を確認
Yuhang Ming, Jian Ma, Xingrui Yang, Weichen Dai, Yong Peng, Wanzeng Kong(参考訳) AEGIS-Netは、RGB点雲を取り込み、低レベルの色、幾何学的特徴、高レベルの暗黙的意味的特徴を集約することでグローバルな場所記述子を生成する新しい屋内位置認識モデルである。 しかし、単純な機能結合ではなく、屋内の場所を最もよく表現する最も重要な局所的な特徴を選択するために自己照準モジュールが用いられる。 AEGIS-Netはセマンティックエンコーダ、セマンティックデコーダ、注意誘導機能埋め込みで構成されています。 モデルは、補助的なセマンティックセグメンテーションタスクと、場所認識タスクにおける第2のセマンティックセグメンテーションタスクに焦点を当てた2段階のプロセスで訓練される。 我々は,ScanNetPRデータセット上でAIGIS-Netを評価し,その性能を事前学習機能ベース手法と5つの最先端ディープラーニングベース手法と比較した。 AEGIS-Netは例外的な性能を達成し、6つのメソッド全てを上回ります。

We present AEGIS-Net, a novel indoor place recognition model that takes in RGB point clouds and generates global place descriptors by aggregating lower-level color, geometry features and higher-level implicit semantic features. However, rather than simple feature concatenation, self-attention modules are employed to select the most important local features that best describe an indoor place. Our AEGIS-Net is made of a semantic encoder, a semantic decoder and an attention-guided feature embedding. The model is trained in a 2-stage process with the first stage focusing on an auxiliary semantic segmentation task and the second one on the place recognition task. We evaluate our AEGIS-Net on the ScanNetPR dataset and compare its performance with a pre-deep-learning feature-based method and five state-of-the-art deep-learning-based methods. Our AEGIS-Net achieves exceptional performance and outperforms all six methods.
翻訳日:2023-12-18 16:59:52 公開日:2023-12-15
# D波量子アニールを用いたブラックボックス最適化による新しい化学物質の探索

Exploration of new chemical materials using black-box optimization with the D-wave quantum annealer ( http://arxiv.org/abs/2312.09537v1 )

ライセンス: Link先を確認
Mikiya Doi, Yoshihiro Nakao, Takuro Tanaka, Masami Sako and Masayuki Ohzeki(参考訳) 材料情報学では, 化学空間の広さから, 所望の特性を有する化学物質の探索が困難である。 さらに、プロパティ評価の高コストは、いくつかの手がかりで検索を必要とする。 実際には、合成が容易な構成の提案も要求されている。 化学材料の探索などの実世界では、客観的関数を明示的に定式化することが困難であり、評価コストが高いブラックボックス目的関数を対象とする問題に遭遇することが一般的である。 近年,離散変数を持つブラックボックス対象関数のサロゲートモデルとして,2次非制約バイナリ最適化(QUBO)問題を定式化するためのベイズ最適化法が提案されている。 この方法に関して、d波量子アニーラを用いて、サロゲートモデルに基づいてブラックボックス目的関数の次の探索点を決定する獲得関数を最適化する研究が行われている。 本稿では,実化学材料探索の文脈における離散変数を含むブラックボックス目的関数の最適化について述べる。 この最適化問題において,分散のある確率分布からサンプリングすることで獲得関数のパラメータを得る結果が,分散しない場合よりも広い解空間を探索できることを示す。 その結果, 組成中の置換基と所望の特性との組合せが, 適切な分散を設定する際にのみ発見できることがわかった。

In materials informatics, searching for chemical materials with desired properties is challenging due to the vastness of the chemical space. Moreover, the high cost of evaluating properties necessitates a search with a few clues. In practice, there is also a demand for proposing compositions that are easily synthesizable. In the real world, such as in the exploration of chemical materials, it is common to encounter problems targeting black-box objective functions where formalizing the objective function in explicit form is challenging, and the evaluation cost is high. In recent research, a Bayesian optimization method has been proposed to formulate the quadratic unconstrained binary optimization (QUBO) problem as a surrogate model for black-box objective functions with discrete variables. Regarding this method, studies have been conducted using the D-Wave quantum annealer to optimize the acquisition function, which is based on the surrogate model and determines the next exploration point for the black-box objective function. In this paper, we address optimizing a black-box objective function containing discrete variables in the context of actual chemical material exploration. In this optimization problem, we demonstrate results obtaining parameters of the acquisition function by sampling from a probability distribution with variance can explore the solution space more extensively than in the case of no variance. As a result, we found combinations of substituents in compositions with the desired properties, which could only be discovered when we set an appropriate variance.
翻訳日:2023-12-18 16:59:24 公開日:2023-12-15
# 密度問題:アクティブドメイン適応セグメンテーションのためのコアセットの改善

Density Matters: Improved Core-set for Active Domain Adaptive Segmentation ( http://arxiv.org/abs/2312.09595v1 )

ライセンス: Link先を確認
Shizhan Liu, Zhengkai Jiang, Yuxi Li, Jinlong Peng, Yabiao Wang, Weiyao Lin(参考訳) セマンティックセグメンテーションにおいて、高価なアノテーションコストとトレーニングされたモデルのパフォーマンスをバランスさせるソリューションとして、アクティブドメイン適応が登場した。 しかし、既存の研究は通常、選択されたサンプルとその特徴空間の局所的文脈の相関を無視しており、アノテーション予算が劣る。 本研究では,古典的コアセット法の理論的境界を再検討し,その性能が選択したサンプルの局所分布と密接な関係があることを確かめる。 局所サンプルの密度を効率的に推定するために,動的マスキング畳み込みを伴う局所プロキシ推定器を導入し,境界を最適化する密度認識グリーディアルゴリズムを開発した。 広範な実験が我々のアプローチの優越性を示している。 さらに, ラベル数が少ないため, 完全に監督されたラベルと同等の性能が得られる。

Active domain adaptation has emerged as a solution to balance the expensive annotation cost and the performance of trained models in semantic segmentation. However, existing works usually ignore the correlation between selected samples and its local context in feature space, which leads to inferior usage of annotation budgets. In this work, we revisit the theoretical bound of the classical Core-set method and identify that the performance is closely related to the local sample distribution around selected samples. To estimate the density of local samples efficiently, we introduce a local proxy estimator with Dynamic Masked Convolution and develop a Density-aware Greedy algorithm to optimize the bound. Extensive experiments demonstrate the superiority of our approach. Moreover, with very few labels, our scheme achieves comparable performance to the fully supervised counterpart.
翻訳日:2023-12-18 16:52:01 公開日:2023-12-15
# 多層パーセプトロンを用いたクロスドメインファウショット分類の改良

Improving Cross-domain Few-shot Classification with Multilayer Perceptron ( http://arxiv.org/abs/2312.09589v1 )

ライセンス: Link先を確認
Shuanghao Bai, Wanqi Zhou, Zhirong Luan, Donglin Wang, Badong Chen(参考訳) クロスドメイン・ショット分類(CDFSC)は、異なるドメインにまたがる大きな分散の相違により困難で難しい課題である。 この課題に対処するために、多くのアプローチは転送可能な表現を学ぶことを目指している。 多層パーセプトロン(mlp)は、教師なし画像分類や教師なし概念一般化など、様々な下流タスクで転送可能な表現を学習する能力を示している。 しかし、少数の設定での可能性はまだ包括的に検討されていない。 本研究では,CDFSC の課題に対処するための MLP の可能性を検討する。 具体的には,MLPを組み込んだ3つの異なるフレームワークについて,MLPの有効性を検証するための3種類の複数ショット分類手法を提案する。 10のベースラインモデルと12のベンチマークデータセットを含む高価な実験によって,MDPは識別能力を大幅に向上し,分散シフトを緩和できることが明らかになった。 さらに,本手法は他の最先端CDFSCアルゴリズムと比較した。

Cross-domain few-shot classification (CDFSC) is a challenging and tough task due to the significant distribution discrepancies across different domains. To address this challenge, many approaches aim to learn transferable representations. Multilayer perceptron (MLP) has shown its capability to learn transferable representations in various downstream tasks, such as unsupervised image classification and supervised concept generalization. However, its potential in the few-shot settings has yet to be comprehensively explored. In this study, we investigate the potential of MLP to assist in addressing the challenges of CDFSC. Specifically, we introduce three distinct frameworks incorporating MLP in accordance with three types of few-shot classification methods to verify the effectiveness of MLP. We reveal that MLP can significantly enhance discriminative capabilities and alleviate distribution shifts, which can be supported by our expensive experiments involving 10 baseline models and 12 benchmark datasets. Furthermore, our method even compares favorably against other state-of-the-art CDFSC algorithms.
翻訳日:2023-12-18 16:51:46 公開日:2023-12-15
# NeuroFlow:自律運転システムのための軽量かつ効率的なモデル統合スケジューリング戦略の開発

NeuroFlow: Development of lightweight and efficient model integration scheduling strategy for autonomous driving system ( http://arxiv.org/abs/2312.09588v1 )

ライセンス: Link先を確認
Eunbin Seo, Gwanjun Shin, Eunho Lee(参考訳) 本稿では,自動運転技術の革新的進歩をめざして,自動車システムの特異な制約や特性を考慮した自動運転システムを提案する。 提案システムは、自律運転における複雑なデータフローを体系的に分析し、ディープラーニングモデルに影響を与える様々な要因を動的に調整する機能を提供する。 さらに、ディープラーニングモデルに依存しないアルゴリズムでは、システムはフローを分析してリソース割り当ての優先順位を決定する。 本質的に、システムはデータフローとスケジュールを効率的に最適化し、リアルタイムのパフォーマンスと安全性を確保する。 提案システムは実際の自動運転車に実装され、様々な運転シナリオで実験的に検証された。 実験結果は、システムの安定した推論と自律走行車の効果的な制御の証拠となり、自律走行システムの開発における重要な転換点となった。

This paper proposes a specialized autonomous driving system that takes into account the unique constraints and characteristics of automotive systems, aiming for innovative advancements in autonomous driving technology. The proposed system systematically analyzes the intricate data flow in autonomous driving and provides functionality to dynamically adjust various factors that influence deep learning models. Additionally, for algorithms that do not rely on deep learning models, the system analyzes the flow to determine resource allocation priorities. In essence, the system optimizes data flow and schedules efficiently to ensure real-time performance and safety. The proposed system was implemented in actual autonomous vehicles and experimentally validated across various driving scenarios. The experimental results provide evidence of the system's stable inference and effective control of autonomous vehicles, marking a significant turning point in the development of autonomous driving systems.
翻訳日:2023-12-18 16:51:33 公開日:2023-12-15
# 変分最適化に基づく連立状態推定と雑音同定

Joint State Estimation and Noise Identification Based on Variational Optimization ( http://arxiv.org/abs/2312.09585v1 )

ライセンス: Link先を確認
Hua Lan and Shijie Zhao and Jinjie Hu and Zengfu Wang and Jing Fu(参考訳) 本稿では,線形および非線形系の未知のプロセスノイズと測定ノイズの共分散に関する状態推定問題を考察する。 システム状態と雑音パラメータの同時推定を最適化問題として定式化することにより,cviakfと呼ばれる共役計算変分推定に基づく新しい適応カルマンフィルタ法を提案し,潜在変数の連立後確率密度関数を近似する。 自然パラメータ空間の変分推論を利用する既存の適応カルマンフィルタとは異なり、CVIAKFは期待パラメータ空間の最適化を行い、より高速で簡単な解が得られる。 一方,CVIAKFは最適化目標を非線形力学モデルの共役部と非共役部に分割し,共役計算と確率ミラー・ディフレッションを適用した。 驚くべきことに、再パラメータ化トリックは、非共役部分の確率勾配の分散を低減するために使用される。 cviakfの有効性は、操作対象追跡の合成および実世界データセットを通じて検証される。

In this article, the state estimation problems with unknown process noise and measurement noise covariances for both linear and nonlinear systems are considered. By formulating the joint estimation of system state and noise parameters into an optimization problem, a novel adaptive Kalman filter method based on conjugate-computation variational inference, referred to as CVIAKF, is proposed to approximate the joint posterior probability density function of the latent variables. Unlike the existing adaptive Kalman filter methods utilizing variational inference in natural-parameter space, CVIAKF performs optimization in expectation-parameter space, resulting in a faster and simpler solution. Meanwhile, CVIAKF divides optimization objectives into conjugate and non-conjugate parts of nonlinear dynamical models, whereas conjugate computations and stochastic mirror-descent are applied, respectively. Remarkably, the reparameterization trick is used to reduce the variance of stochastic gradients of the non-conjugate parts. The effectiveness of CVIAKF is validated through synthetic and real-world datasets of maneuvering target tracking.
翻訳日:2023-12-18 16:51:20 公開日:2023-12-15
# 深層クラスタリング制御による弱教師付き物体定位のためのマルチスケールビジョントランスフォーマ

Multiscale Vision Transformer With Deep Clustering-Guided Refinement for Weakly Supervised Object Localization ( http://arxiv.org/abs/2312.09584v1 )

ライセンス: Link先を確認
David Kim, Sinhae Cha, Byeongkeun Kang(参考訳) この研究は、弱教師付きオブジェクトローカライゼーションの課題に対処する。 目標は、イメージレベルのクラスラベルのみを使用してオブジェクトのローカライゼーションを学ぶことだ。 このタスクは、労働集約的な地頭アノテーションの必要性を減らすために重要である。 しかしながら、弱い監督を用いて訓練されたオブジェクトのローカライゼーションの方法は、しばしばローカライゼーションの精度の低下に苦しむ。 この課題に対処し、ローカライズ精度を向上させるために、マルチスケールオブジェクトローカライゼーショントランス (MOLT) を提案する。 様々なスケールでパッチ埋め込みを抽出する複数のオブジェクトローカライゼーション変換器を備える。 さらに,別々に抽出した画像セグメントを利用して局所化精度を高めるディープクラスタリング誘導改良手法を提案する。 これらのセグメントは畳み込みニューラルネットワークを用いてピクセルをクラスタリングすることで得られる。 最後に, 提案手法の有効性について, ILSVRC-2012データセットを用いて実験を行った。

This work addresses the task of weakly-supervised object localization. The goal is to learn object localization using only image-level class labels, which are much easier to obtain compared to bounding box annotations. This task is important because it reduces the need for labor-intensive ground-truth annotations. However, methods for object localization trained using weak supervision often suffer from limited accuracy in localization. To address this challenge and enhance localization accuracy, we propose a multiscale object localization transformer (MOLT). It comprises multiple object localization transformers that extract patch embeddings across various scales. Moreover, we introduce a deep clustering-guided refinement method that further enhances localization accuracy by utilizing separately extracted image segments. These segments are obtained by clustering pixels using convolutional neural networks. Finally, we demonstrate the effectiveness of our proposed method by conducting experiments on the publicly available ILSVRC-2012 dataset.
翻訳日:2023-12-18 16:51:01 公開日:2023-12-15
# 符号切替音声認識のための中間CTC損失計算のための言語IDの活用

Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition ( http://arxiv.org/abs/2312.09583v1 )

ライセンス: Link先を確認
Tzu-Ting Yang, Hsin-Wei Wang, Berlin Chen(参考訳) 近年,従来の音声認識モデルの音響,発音辞書,言語モデルコンポーネントを統合する技術として,エンドツーエンド音声認識が登場している。 事前の発音辞書を作成することなく、人間的な認識を実現することができる。 しかし、コードスイッチングに関するトレーニングデータが比較的少ないため、この現象に遭遇すると、ASRモデルの性能は劇的に低下する傾向にある。 コードスイッチングタスクを1つの言語を扱う複数のタスクに分割し、各言語のドメイン固有の知識を個別に学習することで、過去の研究はモデルの学習複雑さを単純化した。 そこで本稿では,ASRモデルのエンコーダの中間層に言語識別情報を導入する。 言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。

In recent years, end-to-end speech recognition has emerged as a technology that integrates the acoustic, pronunciation dictionary, and language model components of the traditional Automatic Speech Recognition model. It is possible to achieve human-like recognition without the need to build a pronunciation dictionary in advance. However, due to the relative scarcity of training data on code-switching, the performance of ASR models tends to degrade drastically when encountering this phenomenon. Most past studies have simplified the learning complexity of the model by splitting the code-switching task into multiple tasks dealing with a single language and then learning the domain-specific knowledge of each language separately. Therefore, in this paper, we attempt to introduce language identification information into the middle layer of the ASR model's encoder. We aim to generate acoustic features that imply language distinctions in a more implicit way, reducing the model's confusion when dealing with language switching.
翻訳日:2023-12-18 16:50:48 公開日:2023-12-15
# プレフィックスツリーに基づく文脈ASRのための音素認識符号化

Phoneme-aware Encoding for Prefix-tree-based Contextual ASR ( http://arxiv.org/abs/2312.09582v1 )

ライセンス: Link先を確認
Hayato Futami, Emiru Tsunoo, Yosuke Kashiwagi, Hiroaki Ogawa, Siddhant Arora, Shinji Watanabe(参考訳) 音声認識の応用においては、適切な名詞などの文脈固有の稀な単語を認識することが重要である。 tree-constrained pointer generator (tcpgen) はこの目的に有望であり、プレフィックスツリーでこれらの単語を効率的にバイアスする。 元のTCPGenは、グラファイムベースのエンコーディングに依存しているが、不規則な発音の単語をよりよく認識するために、音素認識エンコーディングで拡張することを提案する。 TCPGenは単語をサブワード単位として扱うため,音素とサブワードのアライメントを用いてサブワードレベルの音素認識符号化を提案する。 さらに,ctcからtcpgenのクエリへ音素レベルの予測を注入することで,音素認識エンコーディングをよりよく解釈する手法を提案する。 RNNトランスデューサのためのTCPGenを用いてASR実験を行った。 提案した音素認識符号化法は,英語のLibriSpeechと日本語のCSJデータセットにおいて,言語的に多言語にまたがるアプローチの堅牢性を実証した。

In speech recognition applications, it is important to recognize context-specific rare words, such as proper nouns. Tree-constrained Pointer Generator (TCPGen) has shown promise for this purpose, which efficiently biases such words with a prefix tree. While the original TCPGen relies on grapheme-based encoding, we propose extending it with phoneme-aware encoding to better recognize words of unusual pronunciations. As TCPGen handles biasing words as subword units, we propose obtaining subword-level phoneme-aware encoding by using alignment between phonemes and subwords. Furthermore, we propose injecting phoneme-level predictions from CTC into queries of TCPGen so that the model better interprets the phoneme-aware encodings. We conducted ASR experiments with TCPGen for RNN transducer. We observed that proposed phoneme-aware encoding outperformed ordinary grapheme-based encoding on both the English LibriSpeech and Japanese CSJ datasets, demonstrating the robustness of our approach across linguistically diverse languages.
翻訳日:2023-12-18 16:50:32 公開日:2023-12-15
# MobileSAMv2: セグメンテーションの高速化

MobileSAMv2: Faster Segment Anything to Everything ( http://arxiv.org/abs/2312.09579v1 )

ライセンス: Link先を確認
Chaoning Zhang, Dongshen Han, Sheng Zheng, Jinwoo Choi, Tae-Ho Kim, Choong Seon Hong(参考訳) Segment Any Model (SAM) は2つの実用的で困難なセグメンテーションタスクに対処する: \textbf{segment anything (SegAny)} は特定の点を利用して1つの関心対象に対してマスクを予測し、 \textbf{segment everything (SegEvery) は画像上のすべての対象に対してマスクを予測する。 SAMがSegAnyを遅くしているのは、その重い画像エンコーダである。 しかし、SegEveryとSAMの効率ボトルネックは、まず余分なグリッド探索プロンプトを持つ多数のマスクを生成し、最後に有効なマスクを得るためにフィルタリングを実行する必要があるため、マスクデコーダにある。 有効なプロンプトのみを用いて,最終的なマスクを直接生成することにより,その効率を向上させることを提案する。 提案手法は,マスクデコーダの合計時間を少なくとも16倍に短縮するだけでなく,優れた性能を実現する。 具体的には、マスクAR@$K$メトリックによるLVISデータセット上のゼロショットオブジェクトの提案に対して、平均的なパフォーマンスが3.6\% (42.5\% \textit{v.s.} 38.9\%) になる。 定性的な結果は, 過剰なセグメンテーションを回避しつつ, きめ細かいマスクを生成することを示す。 オリジナルのSAMよりも高速なSegEveryをターゲットにしたこのプロジェクトはMobileSAMv2と呼ばれ、より高速なSegAnyをターゲットにしたMobileSAMと区別されている。 さらに,新たなプロンプトサンプリングがMobileSAMの蒸留画像エンコーダと互換性があることを実証し,SegAnyとSegEveryの効率的な統合フレームワークに寄与した。 コードはMobileSAM Project \href{https://github.com/ChaoningZhang/MobileSAM}{\textcolor{red}{https://github.com/ChaoningZhang/MobileSAM}}と同じリンクで利用できる。 \end{abstract}

Segment anything model (SAM) addresses two practical yet challenging segmentation tasks: \textbf{segment anything (SegAny)}, which utilizes a certain point to predict the mask for a single object of interest, and \textbf{segment everything (SegEvery)}, which predicts the masks for all objects on the image. What makes SegAny slow for SAM is its heavyweight image encoder, which has been addressed by MobileSAM via decoupled knowledge distillation. The efficiency bottleneck of SegEvery with SAM, however, lies in its mask decoder because it needs to first generate numerous masks with redundant grid-search prompts and then perform filtering to obtain the final valid masks. We propose to improve its efficiency by directly generating the final masks with only valid prompts, which can be obtained through object discovery. Our proposed approach not only helps reduce the total time on the mask decoder by at least 16 times but also achieves superior performance. Specifically, our approach yields an average performance boost of 3.6\% (42.5\% \textit{v.s.} 38.9\%) for zero-shot object proposal on the LVIS dataset with the mask AR@$K$ metric. Qualitative results show that our approach generates fine-grained masks while avoiding over-segmenting things. This project targeting faster SegEvery than the original SAM is termed MobileSAMv2 to differentiate from MobileSAM which targets faster SegAny. Moreover, we demonstrate that our new prompt sampling is also compatible with the distilled image encoders in MobileSAM, contributing to a unified framework for efficient SegAny and SegEvery. The code is available at the same link as MobileSAM Project \href{https://github.com/ChaoningZhang/MobileSAM}{\textcolor{red}{https://github.com/ChaoningZhang/MobileSAM}}. \end{abstract}
翻訳日:2023-12-18 16:50:11 公開日:2023-12-15
# 異常音検出のための自己教師付き学習

Self-Supervised Learning for Anomalous Sound Detection ( http://arxiv.org/abs/2312.09578v1 )

ライセンス: Link先を確認
Kevin Wilkinghoff(参考訳) State-of-the-art anomalous Sound Detection (ASD) システムは、しばしば埋め込み空間を学習するために補助的な分類タスクを用いて訓練される。 これにより、システムは、ノイズに頑健で、ターゲット外の音声イベントを無視している埋め込みを学習できるが、手動で注釈付きメタ情報をクラスラベルとして使用する必要がある。 しかし、分類作業が困難になればなるほど、埋め込みが減り、さらに悪いことに、結果としてのSD性能が低下する。 この問題の解決策は、自己教師付き学習(SSL)を活用することである。 本稿では,asdに対する単純かつ効果的なsslアプローチであるfeature exchange(featex)を提案する。 さらに、FeatExは既存のSSLアプローチと比較され、組み合わせられている。 その結果、dcase2023 asdデータセットの新たな最先端性能が得られ、このデータセット上の他のすべての公開結果よりも大きなマージンが得られた。

State-of-the-art anomalous sound detection (ASD) systems are often trained by using an auxiliary classification task to learn an embedding space. Doing so enables the system to learn embeddings that are robust to noise and are ignoring non-target sound events but requires manually annotated meta information to be used as class labels. However, the less difficult the classification task becomes, the less informative are the embeddings and the worse is the resulting ASD performance. A solution to this problem is to utilize self-supervised learning (SSL). In this work, feature exchange (FeatEx), a simple yet effective SSL approach for ASD, is proposed. In addition, FeatEx is compared to and combined with existing SSL approaches. As the main result, a new state-of-the-art performance for the DCASE2023 ASD dataset is obtained that outperforms all other published results on this dataset by a large margin.
翻訳日:2023-12-18 16:49:36 公開日:2023-12-15
# SegRap2023 鼻咽喉頭癌放射線治療計画のための臓器・腫瘍容積分画のベンチマーク

SegRap2023: A Benchmark of Organs-at-Risk and Gross Tumor Volume Segmentation for Radiotherapy Planning of Nasopharyngeal Carcinoma ( http://arxiv.org/abs/2312.09576v1 )

ライセンス: Link先を確認
Xiangde Luo, Jia Fu, Yunxin Zhong, Shuolin Liu, Bing Han, Mehdi Astaraki, Simone Bendazzoli, Iuliana Toma-Dasu, Yiwen Ye, Ziyang Chen, Yong Xia, Yanzhou Su, Jin Ye, Junjun He, Zhaohu Xing, Hongqiu Wang, Lei Zhu, Kaixiang Yang, Xin Fang, Zhiwei Wang, Chan Woong Lee, Sang Joon Park, Jaehee Chun, Constantin Ulrich, Klaus H. Maier-Hein, Nchongmaje Ndipenoch, Alina Miron, Yongmin Li, Yimeng Zhang, Yu Chen, Lu Bai, Jinlong Huang, Chengyang An, Lisheng Wang, Kaiwen Huang, Yunqi Gu, Tao Zhou, Mu Zhou, Shichuan Zhang, Wenjun Liao, Guotai Wang, Shaoting Zhang(参考訳) 放射線治療はNasoPharyngeal Carcinoma(NPC)治療戦略の1つである。 放射線治療においてGross tumor Volumes (GTVs) とOrgans-At-Risk (OARs) の正確な記述は患者の予後に直接影響を及ぼす。 以前は、経験豊富な放射線腫瘍学者がGTVとOARの線引きを行った。 近年,多くの医療画像セグメンテーションタスクにおいて,深層学習は有望な成果を上げている。 しかし、NPC OARとGTVのセグメンテーションでは、モデル開発と評価のための公開データセットはほとんどない。 この問題を緩和するため、SegRap2023チャレンジはMICCAI2023と共同で編成され、200人のNPC患者のOARとGTVセグメンテーションの大規模なベンチマークと400 CT(Computd Tomography)スキャン、それぞれに1対の非コントラストとコントラスト強化CTスキャンが実施された。 課題は、45機のOARと2機のGTVをペアのCTスキャンから切り離すことであった。 本稿では,課題を詳述し,全参加者のソリューションを分析した。 全ての提出物の平均Dice類似度係数スコアは76.68\%から86.70\%、OARとGTVはそれぞれ70.42\%から73.44\%であった。 我々は,大規模OARのセグメンテーションは良好であり,GTVや小型・薄型OARにはさらなる努力が必要であると結論付けた。 ベンチマークは、ここで公開される。 https://segrap2023.grand-challenge.org

Radiation therapy is a primary and effective NasoPharyngeal Carcinoma (NPC) treatment strategy. The precise delineation of Gross Tumor Volumes (GTVs) and Organs-At-Risk (OARs) is crucial in radiation treatment, directly impacting patient prognosis. Previously, the delineation of GTVs and OARs was performed by experienced radiation oncologists. Recently, deep learning has achieved promising results in many medical image segmentation tasks. However, for NPC OARs and GTVs segmentation, few public datasets are available for model development and evaluation. To alleviate this problem, the SegRap2023 challenge was organized in conjunction with MICCAI2023 and presented a large-scale benchmark for OAR and GTV segmentation with 400 Computed Tomography (CT) scans from 200 NPC patients, each with a pair of pre-aligned non-contrast and contrast-enhanced CT scans. The challenge's goal was to segment 45 OARs and 2 GTVs from the paired CT scans. In this paper, we detail the challenge and analyze the solutions of all participants. The average Dice similarity coefficient scores for all submissions ranged from 76.68\% to 86.70\%, and 70.42\% to 73.44\% for OARs and GTVs, respectively. We conclude that the segmentation of large-size OARs is well-addressed, and more efforts are needed for GTVs and small-size or thin-structure OARs. The benchmark will remain publicly available here: https://segrap2023.grand-challenge.org
翻訳日:2023-12-18 16:49:21 公開日:2023-12-15
# IR-UWBレーダーによる母音・子音・単語・句の無接触無声音声認識

IR-UWB Radar-Based Contactless Silent Speech Recognition of Vowels, Consonants, Words, and Phrases ( http://arxiv.org/abs/2312.09572v1 )

ライセンス: Link先を確認
Sunghwa Lee, Younghoon Shin, Myungjong Kim, Jiwon Seo(参考訳) サイレント音声認識(SSR)にはいくつかのセンシング技術が提案されているが、これらの手法の多くは粘着テープや接着剤を用いて皮膚に侵入するプロセスやセンサアタッチメントを必要とするため、日常的に頻繁に使用するには適さない。 対照的に、インパルス無線超広帯域(IR-UWB)レーダーは、ユーザの調音器や関連する身体部品と物理的に接触することなく動作可能であり、SSRにはいくつかの利点がある。 これらの利点には、高域分解能、高い透過性、低消費電力、外部光や音の干渉に対する堅牢性、空間に制約された携帯機器に埋め込まれる能力などがある。 本研究は,4種類の音声刺激(母音,子音,単語,フレーズ)を用いたIR-UWBレーダを用いた非接触SSR実験を行った。 そこで,IR-UWBレーダを用いたSSRのための音声特徴抽出アルゴリズムを提案する。 抽出された音声特徴に分類アルゴリズムを適用して各音声刺激を認識する。 2つの異なるアルゴリズム、MD-DTW(Multidimensional dynamic time warping)とDNN-HMM(Deep Neural Network-hidden Markov model)を比較した。 また,ユーザの唇前か顎下のいずれかに好適なレーダアンテナ位置が決定され,高い認識精度が得られた。 実験により, 母音, 子音, 単語, 句を分類するために, DNN-HMMと組み合わせた音声特徴抽出アルゴリズムの有効性が示された。 本研究は,非接触レーダーを用いた音素レベルSSRの最初の実演である。

Several sensing techniques have been proposed for silent speech recognition (SSR); however, many of these methods require invasive processes or sensor attachment to the skin using adhesive tape or glue, rendering them unsuitable for frequent use in daily life. By contrast, impulse radio ultra-wideband (IR-UWB) radar can operate without physical contact with users' articulators and related body parts, offering several advantages for SSR. These advantages include high range resolution, high penetrability, low power consumption, robustness to external light or sound interference, and the ability to be embedded in space-constrained handheld devices. This study demonstrated IR-UWB radar-based contactless SSR using four types of speech stimuli (vowels, consonants, words, and phrases). To achieve this, a novel speech feature extraction algorithm specifically designed for IR-UWB radar-based SSR is proposed. Each speech stimulus is recognized by applying a classification algorithm to the extracted speech features. Two different algorithms, multidimensional dynamic time warping (MD-DTW) and deep neural network-hidden Markov model (DNN-HMM), were compared for the classification task. Additionally, a favorable radar antenna position, either in front of the user's lips or below the user's chin, was determined to achieve higher recognition accuracy. Experimental results demonstrated the efficacy of the proposed speech feature extraction algorithm combined with DNN-HMM for classifying vowels, consonants, words, and phrases. Notably, this study represents the first demonstration of phoneme-level SSR using contactless radar.
翻訳日:2023-12-18 16:48:51 公開日:2023-12-15
# 意味圧縮による大規模言語モデルのコンテキストウィンドウの拡張

Extending Context Window of Large Language Models via Semantic Compression ( http://arxiv.org/abs/2312.09571v1 )

ライセンス: Link先を確認
Weizhi Fei, Xueyan Niu, Pingyi Zhou, Lu Hou, Bo Bai, Lei Deng, Wei Han(参考訳) Transformer-based Large Language Models (LLM) はテキスト入力の長さに制限を課し、流動的で関連する応答の生成を保証する。 この制約は、長いテキストを含むシナリオでの適用性を制限する。 計算コストの大幅な削減や微調整を必要とせず、6~8倍の長文を一般化できる新しい意味圧縮法を提案する。 提案手法は,情報理論におけるソースコーディングから着想を得て,学習済みモデルを用いて,ダウンストリームタスクのllmに渡す前に,長い入力の意味的冗長性を低減する。 実験結果から,本手法は質問応答,要約,少数ショット学習,情報検索など,様々なタスクにおいて,LLMのコンテキストウィンドウを効果的に拡張することを示した。 さらに,提案する意味圧縮法は,計算オーバーヘッドを低減しつつ,テキスト生成の一貫性を示す。

Transformer-based Large Language Models (LLMs) often impose limitations on the length of the text input to ensure the generation of fluent and relevant responses. This constraint restricts their applicability in scenarios involving long texts. We propose a novel semantic compression method that enables generalization to texts that are 6-8 times longer, without incurring significant computational costs or requiring fine-tuning. Our proposed framework draws inspiration from source coding in information theory and employs a pre-trained model to reduce the semantic redundancy of long inputs before passing them to the LLMs for downstream tasks. Experimental results demonstrate that our method effectively extends the context window of LLMs across a range of tasks including question answering, summarization, few-shot learning, and information retrieval. Furthermore, the proposed semantic compression method exhibits consistent fluency in text generation while reducing the associated computational overhead.
翻訳日:2023-12-18 16:48:20 公開日:2023-12-15
# CAGE:コントロール可能なアーティキュレーション・ジェネレーション

CAGE: Controllable Articulation GEneration ( http://arxiv.org/abs/2312.09570v1 )

ライセンス: Link先を確認
Jiayi Liu, Hou In Ivan Tam, Ali Mahdavi-Amiri, Manolis Savva(参考訳) 制御可能な方法で3次元関節オブジェクトを生成するという課題に対処します。 現在、3Dオブジェクトのモデリングは、精巧な手作業によるオーサリングや、事前の作業で直接スケールや制御が難しいメソッドを使用することで実現されている。 部分属性間の相関関係を抽出するために,注意モジュールを用いた分周拡散ベース手法を用いて,部分形状,接続性,運動の相互作用を利用する。 本手法では,オブジェクトカテゴリラベルと部分接続グラフを入力として,オブジェクトの形状と運動パラメータを生成する。 生成されたオブジェクトは、オブジェクトカテゴリ、部分形状、部分記述に関するユーザ指定の制約に準拠します。 本手法は,よりリアルなオブジェクトを生成しつつ,ユーザの制約に合致する手法であることを示す。 ビデオ概要: http://youtu.be/cH_rbKbyTpE

We address the challenge of generating 3D articulated objects in a controllable fashion. Currently, modeling articulated 3D objects is either achieved through laborious manual authoring, or using methods from prior work that are hard to scale and control directly. We leverage the interplay between part shape, connectivity, and motion using a denoising diffusion-based method with attention modules designed to extract correlations between part attributes. Our method takes an object category label and a part connectivity graph as input and generates an object's geometry and motion parameters. The generated objects conform to user-specified constraints on the object category, part shape, and part articulation. Our experiments show that our method outperforms the state-of-the-art in articulated object generation, producing more realistic objects while conforming better to user constraints. Video Summary at: http://youtu.be/cH_rbKbyTpE
翻訳日:2023-12-18 16:48:05 公開日:2023-12-15
# マイグレーションベースの自動テスト生成によるライブラリ脆弱性のエクスプロイト

Exploiting Library Vulnerability via Migration Based Automating Test Generation ( http://arxiv.org/abs/2312.09564v1 )

ライセンス: Link先を確認
Zirui Chen, Xing Hu, Xin Xia, Yi Gao, Tongtong Xu, David Lo, Xiaohu Yang(参考訳) ソフトウェア開発において、開発者は既存の機能を実装するのを避けるためにサードパーティのライブラリを幅広く利用する。 新しいサードパーティライブラリの脆弱性が開示された場合、プロジェクトのメンテナは、プロジェクトが脆弱性によって影響を受けるかどうかを判断する必要がある。 静的解析ツールは誤ったアラームを生成し、動的解析ツールは既存のテストを必要とし、テスト生成ツールは複雑な脆弱性に直面した場合の成功率が低い。 脆弱性のエクスプロイトは、公開後に脆弱性を再現するためのコードスニペットとして、豊富な脆弱性関連情報を含んでいる。 本研究では,VESTA(Vulnerability Exploit-based Software Testing Auto-Generator)と呼ばれる脆弱性エクスプロイトに基づく新たな手法を提案する。 VESTAは、マイグレーションステップを追加して検索ベースのテスト生成方法を拡張し、生成されたテストと脆弱性エクスプロイトの類似性を保証することで、プロジェクト内の潜在的ライブラリ脆弱性を検出する可能性を高める。 過去5年間に公表された30の脆弱性に対して,60の脆弱性プロジェクトペアを含む実験を行い,実験結果をベースライン手法であるTransferと比較した。 vestaの成功率は71.7\%であり、悪用可能な脆弱性の検証の有効性において、転送に対する53.4\%の改善である。

In software development, developers extensively utilize third-party libraries to avoid implementing existing functionalities. When a new third-party library vulnerability is disclosed, project maintainers need to determine whether their projects are affected by the vulnerability, which requires developers to invest substantial effort in assessment. However, existing tools face a series of issues: static analysis tools produce false alarms, dynamic analysis tools require existing tests and test generation tools have low success rates when facing complex vulnerabilities. Vulnerability exploits, as code snippets provided for reproducing vulnerabilities after disclosure, contain a wealth of vulnerability-related information. This study proposes a new method based on vulnerability exploits, called VESTA (Vulnerability Exploit-based Software Testing Auto-Generator), which provides vulnerability exploit tests as the basis for developers to decide whether to update dependencies. VESTA extends the search-based test generation methods by adding a migration step, ensuring the similarity between the generated test and the vulnerability exploit, which increases the likelihood of detecting potential library vulnerabilities in a project. We perform experiments on 30 vulnerabilities disclosed in the past five years, involving 60 vulnerability-project pairs, and compare the experimental results with the baseline method, TRANSFER. The success rate of VESTA is 71.7\% which is a 53.4\% improvement over TRANSFER in the effectiveness of verifying exploitable vulnerabilities.
翻訳日:2023-12-18 16:47:49 公開日:2023-12-15
# 変分量子領域適応

Variational Quantum Domain Adaptation ( http://arxiv.org/abs/2312.09563v1 )

ライセンス: Link先を確認
Chunhui Wu, Junhao Pei, Yihua Wu, Shengmei Zhao(参考訳) 量子機械学習は、ノイズの多い中間スケール量子デバイスの時代における量子コンピューティングの重要な応用である。 ドメイン適応は、ニューラルネットワークモデルがデプロイされたとき、トレーニングデータと実際のデータとの間の分散不一致問題に対処する有効な方法である。 本稿では,量子畳み込みニューラルネットワークと勾配反転モジュールと,変分量子領域適応(VQDA)と呼ばれる2つの量子完全連結層を用いて,変分量子領域適応法を提案する。 Qiskit によるローカルコンピュータと IBM Quantum Experience (IBM Q) プラットフォーム上のシミュレーションは,提案手法の有効性を示した。 その結果、vqdaは従来の対応するドメイン適応法と比較して、mnistからuspsへのドメイン転送の精度において、同じパラメータスケールで平均4%の改善を達成した。 同様に、SynDigitsからSVHNドメイン転送の場合、VQDAは同じパラメータスケールでの精度で平均2%の改善が達成される。

Quantum machine learning is an important application of quantum computing in the era of noisy intermediate-scale quantum devices. Domain adaptation is an effective method for addressing the distribution discrepancy problem between the training data and the real data when the neural network model is deployed. In this paper, a variational quantum domain adaptation method is proposed by using a quantum convolutional neural network, together with a gradient reversal module, and two quantum fully connected layers, named variational quantum domain adaptation(VQDA). The simulations on the local computer and IBM Quantum Experience (IBM Q) platform by Qiskit show the effectiveness of the proposed method. The results demonstrate that, compared to its classical corresponding domain adaptation method, VQDA achieves an average improvement of 4% on the accuracy for MNIST to USPS domain transfer under the same parameter scales. Similarly, for SYNDigits to SVHN domain transfer, VQDA achieves an average improvement of 2% on the accuracy under the same parameter scales.
翻訳日:2023-12-18 16:47:27 公開日:2023-12-15
# 視覚言語アライメントに基づく弱教師付き3次元視覚接地

Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment ( http://arxiv.org/abs/2312.09625v1 )

ライセンス: Link先を確認
Xiaoxu Xu, Yitian Yuan, Qiudan Zhang, Wenhui Wu, Zequn Jie, Lin Ma, Xu Wang(参考訳) 3Dポイントクラウド内のオブジェクトやリージョンをターゲットとする自然言語クエリの基盤化を学ぶことは、3Dシーン理解にとって極めて重要です。 それでも、既存の3Dビジュアルグラウンドディングアプローチでは、テキストクエリのためのかなりの数のバウンディングボックスアノテーションが必要である。 本稿では, \textbf{v}isual \textbf{l}inguistic \textbf{a}lignmentに基づく, \textbf{3d} visual groundingに対する弱い教師付きアプローチである \textbf{3d-vla} を提案する。 私たちの3d-vlaは,テキストと2d画像のセマンティクスの整合や,2dイメージと3dポイントクラウドとの自然な対応において,現在の大規模ビジョン言語モデル(vlms)の優れた能力を活用し,学習手順において詳細なボックスアノテーションを必要とせずに,テキストと3dポイントクラウド間の対応を暗黙的に構築する。 推測段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。 この3d-vlaは,大規模視覚言語モデルと,reviewit3dおよびscanreferデータセットに関する広範な実験によって,完全な教師付き手法と比較して,同等かつ優れた結果が得られることが証明された。

Learning to ground natural language queries to target objects or regions in 3D point clouds is quite essential for 3D scene understanding. Nevertheless, existing 3D visual grounding approaches require a substantial number of bounding box annotations for text queries, which is time-consuming and labor-intensive to obtain. In this paper, we propose \textbf{3D-VLA}, a weakly supervised approach for \textbf{3D} visual grounding based on \textbf{V}isual \textbf{L}inguistic \textbf{A}lignment. Our 3D-VLA exploits the superior ability of current large-scale vision-language models (VLMs) on aligning the semantics between texts and 2D images, as well as the naturally existing correspondences between 2D images and 3D point clouds, and thus implicitly constructs correspondences between texts and 3D point clouds with no need for fine-grained box annotations in the training procedure. During the inference stage, the learned text-3D correspondence will help us ground the text queries to the 3D target objects even without 2D images. To the best of our knowledge, this is the first work to investigate 3D visual grounding in a weakly supervised manner by involving large scale vision-language models, and extensive experiments on ReferIt3D and ScanRefer datasets demonstrate that our 3D-VLA achieves comparable and even superior results over the fully supervised methods.
翻訳日:2023-12-18 16:40:40 公開日:2023-12-15
# 睡眠ステージ分類のための新しい二重ストリーム時間周波数コントラストプリテキストタスクフレームワーク

A novel dual-stream time-frequency contrastive pretext tasks framework for sleep stage classification ( http://arxiv.org/abs/2312.09623v1 )

ライセンス: Link先を確認
Sergio Kazatzidis, Siamak Mehrkanoon(参考訳) 自己教師付き学習は、多くの教師付き手法、すなわち大量の注釈付きデータの要求が直面する課題に対処する。 この課題は特に脳波研究領域(EEG)のような分野において顕著である。 自己教師付き学習は、プリテキストタスクによって生成される擬似ラベルを利用して、リッチで意味のあるデータ表現を得る。 本研究では,時間領域と周波数領域の両方で動作するデュアルストリームプリテキストタスクアーキテクチャを導入することを目的としている。 特に,新しい周波数類似性(fs)プリテキストタスクを,相対位置決め(rp)と時間シャッフル(ts)という2つの既存のプリテキストタスクに組み込む方法を検討した。 ダウンストリームタスク睡眠ステージ分類において,これらのモデルの精度をPhysoronet Challenge 2018 (PC18)データセットを用いて評価した。 FSの導入により、ダウンストリームタスクの精度が大幅に改善され、RPが1.28パーセント改善、TSが2.02%改善された。 さらに、Uniform Manifold Approximation and Projection (UMAP)を用いて学習した埋め込みを可視化すると、異なるクラスタが出現し、学習された表現が意味のある情報を持っていることを示す。

Self-supervised learning addresses the challenge encountered by many supervised methods, i.e. the requirement of large amounts of annotated data. This challenge is particularly pronounced in fields such as the electroencephalography (EEG) research domain. Self-supervised learning operates instead by utilizing pseudo-labels, which are generated by pretext tasks, to obtain a rich and meaningful data representation. In this study, we aim at introducing a dual-stream pretext task architecture that operates both in the time and frequency domains. In particular, we have examined the incorporation of the novel Frequency Similarity (FS) pretext task into two existing pretext tasks, Relative Positioning (RP) and Temporal Shuffling (TS). We assess the accuracy of these models using the Physionet Challenge 2018 (PC18) dataset in the context of the downstream task sleep stage classification. The inclusion of FS resulted in a notable improvement in downstream task accuracy, with a 1.28 percent improvement on RP and a 2.02 percent improvement on TS. Furthermore, when visualizing the learned embeddings using Uniform Manifold Approximation and Projection (UMAP), distinct clusters emerge, indicating that the learned representations carry meaningful information.
翻訳日:2023-12-18 16:40:10 公開日:2023-12-15
# 結び目量子波動関数を用いたトポロジカル原子光学

Topological atom optics and beyond with knotted quantum wavefunctions ( http://arxiv.org/abs/2312.09619v1 )

ライセンス: Link先を確認
Maitreyi Jayaseelan, Joseph D. Murphree, Justin T. Schultz, Janne Ruostekoski, and Nicholas P. Bigelow(参考訳) 原子光学はコヒーレント物質波による光学現象を示し、光と物質の間に基礎的なつながりを与える。 光の顕著な進歩は、複素特異点と位相的に非自明な特徴を包含する構造化光場の実現に続く。 しかし、類似の研究は原子光学の分野ではまだ初期段階にある。 ここでは、非自明な位相を示すスピノルボース-アインシュタイン凝縮体における結び目付き量子波動関数を実験的に研究・作成する。 我々の研究では、原子波動関数の座標軌道とスピン回転を構築し、スピンと軌道の自由度の組み合わせで様々な離散対称性を工学する。 トーラスの表面にマップを作り、トーラスの結び目、m\"obius strips、そして2重リンクされたソロモンの結び目を形成する構造的な波動関数。 本稿では、多成分原子系の対称性と基礎となるトポロジとベクトル光学場との間の顕著な関係を実証する。

Atom optics demonstrates optical phenomena with coherent matter waves, providing a foundational connection between light and matter. Significant advances in optics have followed the realisation of structured light fields hosting complex singularities and topologically non-trivial characteristics. However, analogous studies are still in their infancy in the field of atom optics. Here, we investigate and experimentally create knotted quantum wavefunctions in spinor Bose--Einstein condensates which display non-trivial topologies. In our work we construct coordinated orbital and spin rotations of the atomic wavefunction, engineering a variety of discrete symmetries in the combined spin and orbital degrees of freedom. The structured wavefunctions that we create map to the surface of a torus to form torus knots, M\"obius strips, and a twice-linked Solomon's knot. In this paper we demonstrate striking connections between the symmetries and underlying topologies of multicomponent atomic systems and of vector optical fields--a realization of topological atom-optics.
翻訳日:2023-12-18 16:39:49 公開日:2023-12-15
# グラフニューラルネットワークにおける因果関係学習の再考

Rethinking Causal Relationships Learning in Graph Neural Networks ( http://arxiv.org/abs/2312.09613v1 )

ライセンス: Link先を確認
Hang Gao, Chengyu Yao, Jiangmeng Li, Lingyu Si, Yifan Jin, Fengge Wu, Changwen Zheng, Huaping Liu(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データ内の複雑な相互関係を効果的にモデル化することで、その重要性を示す。 GNNの信頼性と堅牢性を高めるために、因果関係を捉える能力を強化することは極めて重要である。 しかし、近年のGNNの因果的学習の観点からの進歩にもかかわらず、GNNの因果的モデリング技術を特に対象とする詳細な分析は未解決の問題である。 因果学習の観点から様々なGNNモデルを包括的に解析するために,データとラベル間の既知の制御可能な因果関係を持つ人工合成データセットを構築した。 生成されたデータの合理性はさらに理論的基礎を通じて保証される。 当社のデータセットを用いて実施した分析結果をもとに,さまざまなタスクにわたるgnnの因果学習能力を強化するために設計された,軽量かつ高度に適応可能なgnnモジュールについて紹介する。 合成データセットおよび他の実世界のデータセットを用いて一連の実験を行い、提案モジュールの有効性を実証的に検証した。

Graph Neural Networks (GNNs) demonstrate their significance by effectively modeling complex interrelationships within graph-structured data. To enhance the credibility and robustness of GNNs, it becomes exceptionally crucial to bolster their ability to capture causal relationships. However, despite recent advancements that have indeed strengthened GNNs from a causal learning perspective, conducting an in-depth analysis specifically targeting the causal modeling prowess of GNNs remains an unresolved issue. In order to comprehensively analyze various GNN models from a causal learning perspective, we constructed an artificially synthesized dataset with known and controllable causal relationships between data and labels. The rationality of the generated data is further ensured through theoretical foundations. Drawing insights from analyses conducted using our dataset, we introduce a lightweight and highly adaptable GNN module designed to strengthen GNNs' causal learning capabilities across a diverse range of tasks. Through a series of experiments conducted on both synthetic datasets and other real-world datasets, we empirically validate the effectiveness of the proposed module.
翻訳日:2023-12-18 16:39:32 公開日:2023-12-15
# top-reid:トークン置換によるマルチスペクトルオブジェクトの再識別

TOP-ReID: Multi-spectral Object Re-Identification with Token Permutation ( http://arxiv.org/abs/2312.09612v1 )

ライセンス: Link先を確認
Yuhao Wang and Xuehu Liu and Pingping Zhang and Hu Lu and Zhengzheng Tu and Huchuan Lu(参考訳) ReID(Multi-spectral Object Re-identification)は、異なる画像スペクトルから補完情報を活用することで、特定のオブジェクトを検索することを目的としている。 複雑な視覚環境において、従来の単一スペクトルReIDよりも大きな利点を提供する。 しかし、異なる画像スペクトル間の有意な分布ギャップは、効果的なマルチスペクトル特徴表現に大きな課題をもたらす。 さらに、現在のtransformerベースのreidメソッドのほとんどは、クラストークンのグローバル特徴のみを使用して、局所的な判別を無視して、総合的な検索を実現する。 上記の問題に対処するため、トランスフォーマーのトークンを全て活用し、マルチスペクトルオブジェクトReIDのための循環トークン置換フレームワークTOP-ReIDを提案する。 具体的には、視覚変換器に基づくマルチストリームディープネットワークを最初に展開し、異なる画像スペクトルから異なる情報を保存する。 そこで本研究では,巡回多スペクトル特徴集約のためのToken Permutation Module (TPM)を提案する。 異なる画像スペクトル間の空間的特徴のアライメントを促進するだけでなく、各スペクトルのクラストークンが他のスペクトルの局所的詳細を認識できるようにする。 一方,画像スペクトル間の分散ギャップを低減するために,高密度なトークンレベルの再構成制約を導入する補完的再構成モジュール(CRM)を提案する。 上記のモジュールにより、提案フレームワークはロバストなオブジェクトreidに対してより識別可能なマルチスペクトル機能を生成することができる。 3つのReIDベンチマーク(RGBNT201、RGBNT100、MSVR310)の大規模な実験により、本手法の有効性が検証された。 コードはhttps://github.com/924973292/top-reidで入手できる。

Multi-spectral object Re-identification (ReID) aims to retrieve specific objects by leveraging complementary information from different image spectra. It delivers great advantages over traditional single-spectral ReID in complex visual environment. However, the significant distribution gap among different image spectra poses great challenges for effective multi-spectral feature representations. In addition, most of current Transformer-based ReID methods only utilize the global feature of class tokens to achieve the holistic retrieval, ignoring the local discriminative ones. To address the above issues, we step further to utilize all the tokens of Transformers and propose a cyclic token permutation framework for multi-spectral object ReID, dubbled TOP-ReID. More specifically, we first deploy a multi-stream deep network based on vision Transformers to preserve distinct information from different image spectra. Then, we propose a Token Permutation Module (TPM) for cyclic multi-spectral feature aggregation. It not only facilitates the spatial feature alignment across different image spectra, but also allows the class token of each spectrum to perceive the local details of other spectra. Meanwhile, we propose a Complementary Reconstruction Module (CRM), which introduces dense token-level reconstruction constraints to reduce the distribution gap across different image spectra. With the above modules, our proposed framework can generate more discriminative multi-spectral features for robust object ReID. Extensive experiments on three ReID benchmarks (i.e., RGBNT201, RGBNT100 and MSVR310) verify the effectiveness of our methods. The code is available at https://github.com/924973292/TOP-ReID.
翻訳日:2023-12-18 16:39:16 公開日:2023-12-15
# オンライン公開談話におけるダイナミクスの捉え方:Redditにおけるユニバーサルベーシックインカムの議論を事例として

Capturing Dynamics in Online Public Discourse: A Case Study of Universal Basic Income Discussions on Reddit ( http://arxiv.org/abs/2312.09611v1 )

ライセンス: Link先を確認
Rachel Kim, Veniamin Veselovsky, Ashton Anderson(参考訳) 社会的な変化はしばしば世論の変化によって引き起こされる。 市民の規範、信念、価値観が進化するにつれて、公共政策も変化する。 従来の世論調査や調査では、特定の話題に関する世論が変化しているかどうかという幅広い議論を概説できるが、多次元の富と大きな異種集団に存在する意見の多様性を捉えることはできない。 しかし、オンラインプラットフォーム上では、公共政策問題に関する公的な言論が増えているため、質的に異なる解像度と文脈で世論の変化を測定する機会が生まれている。 本稿では,オンラインプラットフォーム上での意見変化の概念モデルを提案し,それをReddit上でのUniversal Basic Income(UBI)に関する公開談話に応用する。 UBI(英: UBI)は、人口のすべての市民に支給される定期的な、弦なしの現金支払いである。 UBIは、新型コロナウイルス(COVID-19)のパンデミックなど、自動化やイベントといったトレンドを通じて、最近関心が急増した、明確に定義された政策提案として研究しています。 RedditのUBIに対する全体的な姿勢は、この歴史的な傾向が突然逆転し、Redditがかなり支持的になった2019年中頃まで大幅に低下していた。 我々のモデルを用いて、この全体的なスタンスの変化の最も重要な要因は、異なるユーザコホート、類似のアフルエンスレベルを表すコミュニティ、および同様のパルチザン傾向を示すコミュニティ内にある。 提案手法は,オンライン上で定期的に発生し,他の重要な問題や政策にも適用可能な大規模公開談話における,意見転換のニュアンス的社会的要因を特定するものである。

Societal change is often driven by shifts in public opinion. As citizens evolve in their norms, beliefs, and values, public policies change too. While traditional opinion polling and surveys can outline the broad strokes of whether public opinion on a particular topic is changing, they usually cannot capture the full multi-dimensional richness and diversity of opinion present in a large heterogeneous population. However, an increasing fraction of public discourse about public policy issues is now occurring on online platforms, which presents an opportunity to measure public opinion change at a qualitatively different scale of resolution and context. In this paper, we present a conceptual model of observed opinion change on online platforms and apply it to study public discourse on Universal Basic Income (UBI) on Reddit throughout its history. UBI is a periodic, no-strings-attached cash payment given to every citizen of a population. We study UBI as it is a clearly-defined policy proposal that has recently experienced a surge of interest through trends like automation and events like the COVID-19 pandemic. We find that overall stance towards UBI on Reddit significantly declined until mid-2019, when this historical trend suddenly reversed and Reddit became substantially more supportive. Using our model, we find the most significant drivers of this overall stance change were shifts within different user cohorts, within communities that represented similar affluence levels, and within communities that represented similar partisan leanings. Our method identifies nuanced social drivers of opinion change in the large-scale public discourse that now regularly occurs online, and could be applied to a broad set of other important issues and policies.
翻訳日:2023-12-18 16:38:50 公開日:2023-12-15
# ML-Enabledシステムのためのグリーンアーキテクチャ手法の合成

A Synthesis of Green Architectural Tactics for ML-Enabled Systems ( http://arxiv.org/abs/2312.09610v1 )

ライセンス: Link先を確認
Heli J\"arvenp\"a\"a, Patricia Lago, Justus Bogner, Grace Lewis, Henry Muccini, Ipek Ozkaya(参考訳) 人工知能(AI)と機械学習(ML)の急速な普及は、環境への影響と環境に優しいML対応システムの設計に関わる課題を理解することへの関心が高まっている。 グリーンai研究、すなわちaiのエネルギーフットプリントを最小化しようとする研究が注目を集めている一方で、ml対応システムがより環境に持続可能なものになるように設計できる具体的なガイドラインはごくわずかである。 本稿では,ML対応システムにおいて,このギャップを埋めるための30のグリーンアーキテクチャ戦略のカタログを提供する。 アーキテクチャ戦略(architecture tactic)は、ソフトウェア品質を改善するための高レベルの設計手法である。 我々は、グリーンAIを主に探求する51の査読論文の分析からこの戦術を導き、これらを3人の専門家によるフォーカスグループアプローチを用いて検証した。 私たちが特定した30の戦術は、ソフトウェアエンジニアリングの観点からグリーンAIをさらに探求するための最初のリファレンスガイドとして機能し、持続可能なML対応システムの設計を支援することを目的としています。 透明性を高め、その普及と拡張を促進するため、この戦術をオンラインで簡単に利用できるようにする。 これらの戦術を広く採用することで、ML対応システムのエネルギーと炭素フットプリントに対する社会的影響を大幅に減少させる可能性がある。

The rapid adoption of artificial intelligence (AI) and machine learning (ML) has generated growing interest in understanding their environmental impact and the challenges associated with designing environmentally friendly ML-enabled systems. While Green AI research, i.e., research that tries to minimize the energy footprint of AI, is receiving increasing attention, very few concrete guidelines are available on how ML-enabled systems can be designed to be more environmentally sustainable. In this paper, we provide a catalog of 30 green architectural tactics for ML-enabled systems to fill this gap. An architectural tactic is a high-level design technique to improve software quality, in our case environmental sustainability. We derived the tactics from the analysis of 51 peer-reviewed publications that primarily explore Green AI, and validated them using a focus group approach with three experts. The 30 tactics we identified are aimed to serve as an initial reference guide for further exploration into Green AI from a software engineering perspective, and assist in designing sustainable ML-enabled systems. To enhance transparency and facilitate their widespread use and extension, we make the tactics available online in easily consumable formats. Wide-spread adoption of these tactics has the potential to substantially reduce the societal impact of ML-enabled systems regarding their energy and carbon footprint.
翻訳日:2023-12-18 16:38:21 公開日:2023-12-15
# 意味認識変換-不変RoIアライメント

Semantic-Aware Transformation-Invariant RoI Align ( http://arxiv.org/abs/2312.09609v1 )

ライセンス: Link先を確認
Guo-Ye Yang, George Kiyohiro Nakayama, Zi-Kai Xiao, Tai-Jiang Mu, Xiaolei Huang, Shi-Min Hu(参考訳) 過去10年間、学習に基づく物体検出手法は大きな進歩を遂げてきた。 2段検出器は、異なるroi提案に対して変換不変なroi特徴を抽出する領域抽出器(roi)を使用することにより、1段検出器よりも検出精度が高く、境界ボックスの改良とオブジェクトカテゴリの予測がより堅牢で正確である。 しかし、以前のRoI特徴抽出器は、限られた変換の下でのみ不変特徴を抽出できる。 本稿では,2段検出器の様々な変換の下で不変なRoI特徴を抽出できる新しいRoI特徴抽出器,Semantic RoI Align (SRA)を提案する。 具体的には,RoI内の大域的および局所的意味関係を利用して,異なるサンプリング領域を適応的に決定するセマンティックアテンションモジュールを提案する。 また、SRAの効率を高めるためにRoIアスペクト比に基づいて動的に特徴をサンプリングする動的特徴サンプリング器を提案し、改良されたサンプリング領域表現によりSRAのより正確な位置情報を提供するために、新しい位置埋め込みであるShaie Area Embeddingを提案する。 実験により,本モデルは計算オーバーヘッドの少ないベースラインモデルよりも有意に優れていた。 さらに、優れた一般化能力を示し、様々な最先端のバックボーンと検出方法による性能向上に使用できる。

Great progress has been made in learning-based object detection methods in the last decade. Two-stage detectors often have higher detection accuracy than one-stage detectors, due to the use of region of interest (RoI) feature extractors which extract transformation-invariant RoI features for different RoI proposals, making refinement of bounding boxes and prediction of object categories more robust and accurate. However, previous RoI feature extractors can only extract invariant features under limited transformations. In this paper, we propose a novel RoI feature extractor, termed Semantic RoI Align (SRA), which is capable of extracting invariant RoI features under a variety of transformations for two-stage detectors. Specifically, we propose a semantic attention module to adaptively determine different sampling areas by leveraging the global and local semantic relationship within the RoI. We also propose a Dynamic Feature Sampler which dynamically samples features based on the RoI aspect ratio to enhance the efficiency of SRA, and a new position embedding, \ie Area Embedding, to provide more accurate position information for SRA through an improved sampling area representation. Experiments show that our model significantly outperforms baseline models with slight computational overhead. In addition, it shows excellent generalization ability and can be used to improve performance with various state-of-the-art backbones and detection methods.
翻訳日:2023-12-18 16:38:01 公開日:2023-12-15
# 高速拡散: 拡散モデルにおけるUNetエンコーダの役割を再考する

Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models ( http://arxiv.org/abs/2312.09608v1 )

ライセンス: Link先を確認
Senmao Li, Taihang Hu, Fahad Shahbaz Khan, Linxuan Li, Shiqi Yang, Yaxing Wang, Ming-Ming Cheng and Jian Yang(参考訳) 拡散モデルにおける重要なコンポーネントの1つは、ノイズ予測のためのUNetである。 unetデコーダの基本特性を探求するいくつかの作品があるが、そのエンコーダはほとんど未調査のままである。 本稿では、unetエンコーダに関する最初の包括的な研究を行う。 我々は,エンコーダの特徴を実証的に分析し,推論プロセスにおけるその変化に関する重要な質問に対する洞察を提供する。 特に,エンコーダの特徴は緩やかに変化するが,デコーダの特徴は時間段階によって大きく異なる。 この発見は、エンコーダを特定の隣接した時間ステップで省略し、デコーダの以前の時間ステップのエンコーダ機能を循環的に再利用するきっかけとなった。 さらに,この観察に基づいて,多様なタスクの拡散サンプリングを高速化する簡易かつ効果的なエンコーダ伝搬方式を提案する。 伝搬方式の利点を生かして,特定の時間ステップでデコーダを並列に実行することが可能となる。 さらに,生成画像のテクスチャ詳細を改善するために,先行的なノイズ注入法を提案する。 標準のテキスト・ツー・イメージタスクに加えて、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクにもアプローチを検証する。 提案手法は, 知識蒸留技術を用いずに, 安定拡散(SD)モデルとDeepFloyd-IFモデルの両方を41$\%および24$\%でサンプリングし, 高品質な生成性能を維持しながら高速化する。 私たちのコードは \href{https://github.com/hutaiHang/Faster-Diffusion}{FasterDiffusion} で利用可能です。

One of the key components within diffusion models is the UNet for noise prediction. While several works have explored basic properties of the UNet decoder, its encoder largely remains unexplored. In this work, we conduct the first comprehensive study of the UNet encoder. We empirically analyze the encoder features and provide insights to important questions regarding their changes at the inference process. In particular, we find that encoder features change gently, whereas the decoder features exhibit substantial variations across different time-steps. This finding inspired us to omit the encoder at certain adjacent time-steps and reuse cyclically the encoder features in the previous time-steps for the decoder. Further based on this observation, we introduce a simple yet effective encoder propagation scheme to accelerate the diffusion sampling for a diverse set of tasks. By benefiting from our propagation scheme, we are able to perform in parallel the decoder at certain adjacent time-steps. Additionally, we introduce a prior noise injection method to improve the texture details in the generated image. Besides the standard text-to-image task, we also validate our approach on other tasks: text-to-video, personalized generation and reference-guided generation. Without utilizing any knowledge distillation technique, our approach accelerates both the Stable Diffusion (SD) and the DeepFloyd-IF models sampling by 41$\%$ and 24$\%$ respectively, while maintaining high-quality generation performance. Our code is available in \href{https://github.com/hutaiHang/Faster-Diffusion}{FasterDiffusion}.
翻訳日:2023-12-18 16:37:38 公開日:2023-12-15
# 一般状態空間モデルにおける変分過剰リスク

Variational excess risk bound for general state space models ( http://arxiv.org/abs/2312.09607v1 )

ライセンス: Link先を確認
\'Elisabeth Gassiat (LM-Orsay), Sylvain Le Corff (SU, LPSM (UMR\_8001))(参考訳) 本稿では、一般状態空間モデルに対する変分オートエンコーダ(VAE)について考察する。 我々は,vaeに関連する過剰なリスクを分析するために,変動分布の後方要因化を検討する。 このような後方因子分解は,オンライン変分学習と変分推定誤差の上限を求めるために最近提案されている。 状態空間モデルと変分分布に関する強い混合仮定の下で、配列の独立な軌跡が観測された場合、サンプル数および観測列の長さで明示されたオラクル不等式が提供される。 そして、この理論結果の結果を導き出す。 特に,データ分布が状態空間モデルによって与えられる場合,データ分布と推定値との間のKullback-Leibler分散と,変動後部と推定状態空間後部分布との上限を与える。

In this paper, we consider variational autoencoders (VAE) for general state space models. We consider a backward factorization of the variational distributions to analyze the excess risk associated with VAE. Such backward factorizations were recently proposed to perform online variational learning and to obtain upper bounds on the variational estimation error. When independent trajectories of sequences are observed and under strong mixing assumptions on the state space model and on the variational distribution, we provide an oracle inequality explicit in the number of samples and in the length of the observation sequences. We then derive consequences of this theoretical result. In particular, when the data distribution is given by a state space model, we provide an upper bound for the Kullback-Leibler divergence between the data distribution and its estimator and between the variational posterior and the estimated state space posterior distributions.Under classical assumptions, we prove that our results can be applied to Gaussian backward kernels built with dense and recurrent neural networks.
翻訳日:2023-12-18 16:37:10 公開日:2023-12-15
# 回帰ニューラルネットワークを用いた信頼性予測区間

Reliable Prediction Intervals with Regression Neural Networks ( http://arxiv.org/abs/2312.09606v1 )

ライセンス: Link先を確認
Harris Papadopoulos and Haris Haralambous(参考訳) 本稿では,従来の回帰ニューラルネットワーク(NN)を拡張して,所要の信頼度を満たす予測間隔で生成する点予測を置き換える手法を提案する。 我々のアプローチは、データが独立で同一に分散されていることを前提とせずに、信頼できる信頼度を予測に割り当てる、Conformal Prediction (CP)と呼ばれる新しい機械学習フレームワークに従う。 提案手法は,4つのベンチマークデータセットと,超電離圏リンクにおける重要なパラメータであるTotal Electron Content (TEC) の予測問題について評価する。 実験結果から,本手法が生成する予測間隔は良好に校正され,かつ厳密であることがわかった。

This paper proposes an extension to conventional regression Neural Networks (NNs) for replacing the point predictions they produce with prediction intervals that satisfy a required level of confidence. Our approach follows a novel machine learning framework, called Conformal Prediction (CP), for assigning reliable confidence measures to predictions without assuming anything more than that the data are independent and identically distributed (i.i.d.). We evaluate the proposed method on four benchmark datasets and on the problem of predicting Total Electron Content (TEC), which is an important parameter in trans-ionospheric links; for the latter we use a dataset of more than 60000 TEC measurements collected over a period of 11 years. Our experimental results show that the prediction intervals produced by our method are both well-calibrated and tight enough to be useful in practice.
翻訳日:2023-12-18 16:36:54 公開日:2023-12-15
# 呼吸音の分類に基づくクロスドメイン適応のためのステレオガイド付き教師付きコントラスト学習

Stethoscope-guided Supervised Contrastive Learning for Cross-domain Adaptation on Respiratory Sound Classification ( http://arxiv.org/abs/2312.09603v1 )

ライセンス: Link先を確認
June-Woo Kim and Sangmin Bae and Won-Yang Cho and Byungjo Lee and Ho-Young Jung(参考訳) 深層学習技術の飛躍的な進歩にもかかわらず、利用可能なデータの不足のため、肺音分類における十分な性能を達成することは依然として課題である。 さらに、呼吸音サンプルは様々な電子聴診器から収集され、訓練されたモデルにバイアスをもたらす可能性がある。 テストデータセット内や実際のシナリオで重要な分散シフトが発生した場合、パフォーマンスが大幅に低下する可能性がある。 この問題に取り組むため,我々は,知識をソースドメインから別のターゲットドメインに転送するクロスドメイン適応手法を導入する。 特に,異なる聴診器タイプを個別の領域として考慮し,新しい聴診器誘導教師付き比較学習手法を提案する。 この方法では、ドメイン関連の相違を緩和し、聴診器の記録変動の呼吸音を識別することができる。 icbhiデータセットの実験的結果は、提案手法がドメイン依存度を減少させ、61.71%のicbhiスコアを達成するのに有効であることを示し、これはベースラインに対して2.16%の大幅な改善である。

Despite the remarkable advances in deep learning technology, achieving satisfactory performance in lung sound classification remains a challenge due to the scarcity of available data. Moreover, the respiratory sound samples are collected from a variety of electronic stethoscopes, which could potentially introduce biases into the trained models. When a significant distribution shift occurs within the test dataset or in a practical scenario, it can substantially decrease the performance. To tackle this issue, we introduce cross-domain adaptation techniques, which transfer the knowledge from a source domain to a distinct target domain. In particular, by considering different stethoscope types as individual domains, we propose a novel stethoscope-guided supervised contrastive learning approach. This method can mitigate any domain-related disparities and thus enables the model to distinguish respiratory sounds of the recording variation of the stethoscope. The experimental results on the ICBHI dataset demonstrate that the proposed methods are effective in reducing the domain dependency and achieving the ICBHI Score of 61.71%, which is a significant improvement of 2.16% over the baseline.
翻訳日:2023-12-18 16:36:41 公開日:2023-12-15
# バイナリコードの要約: ChatGPT/GPT-4とその他の大規模言語モデルのベンチマーク

Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models ( http://arxiv.org/abs/2312.09601v1 )

ライセンス: Link先を確認
Xin Jin, Jonathan Larson, Weiwei Yang, Zhiqiang Lin(参考訳) バイナリコードの要約は、コードセマンティクスを理解するのに有用だが、その労働集約性のために難しい。 本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。 この目的のために,557K以上のバイナリ関数の包括的なベンチマークとデータセットであるBinSumを紹介し,迅速な合成と最適化のための新しい手法を提案する。 LLMの性能をより正確に評価するために,従来の正確なマッチング手法を超越した意味的類似度指標を提案する。 ChatGPT, GPT-4, Llama 2, Code Llamaを含む著名なLLMの広範な評価により, 10つの重要な洞察が得られた。 この評価は40億の推論トークンを生成し、合計費用は11,418米ドルと873 NVIDIA A100 GPU時間である。 この分野でのLSMの変革的ポテンシャルと、まだ克服されていない課題の両方を強調した。

Binary code summarization, while invaluable for understanding code semantics, is challenging due to its labor-intensive nature. This study delves into the potential of large language models (LLMs) for binary code comprehension. To this end, we present BinSum, a comprehensive benchmark and dataset of over 557K binary functions and introduce a novel method for prompt synthesis and optimization. To more accurately gauge LLM performance, we also propose a new semantic similarity metric that surpasses traditional exact-match approaches. Our extensive evaluation of prominent LLMs, including ChatGPT, GPT-4, Llama 2, and Code Llama, reveals 10 pivotal insights. This evaluation generates 4 billion inference tokens, incurred a total expense of 11,418 US dollars and 873 NVIDIA A100 GPU hours. Our findings highlight both the transformative potential of LLMs in this field and the challenges yet to be overcome.
翻訳日:2023-12-18 16:36:22 公開日:2023-12-15
# CLAF:アンバランスな半教師付き学習のための機能強化によるコントラスト学習

CLAF: Contrastive Learning with Augmented Features for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2312.09598v1 )

ライセンス: Link先を確認
Bowen Tao, Lan Li, Xin-Chun Li, De-Chuan Zhan(参考訳) ラベルなしデータと有意義な表現の学習の利点により、半教師あり学習と対照学習は徐々に結合され、ラベルなしデータとラベルなしデータが少ない一般的なアプリケーションでパフォーマンスが向上した。 一般的な方法は、ラベルなしのサンプルに擬似ラベルを割り当て、偽ラベルのサンプルから正のサンプルと負のサンプルを選択して対比学習を適用することである。 しかし、現実世界のデータは不均衡になり、擬似ラベルが多数派クラスに偏り、さらにコントラスト学習の有効性を損なう可能性がある。 この課題に対処するため,我々はCLAF(Contrastive Learning with Augmented Features)を提案する。 対照学習における少数クラスサンプルの不足を軽減するために,クラス依存機能拡張モジュールを設計する。 擬似ラベル付きサンプル毎にラベル付きデータではなくラベル付きデータから正と負のサンプルを選択してコントラスト損失を計算する。 不均衡画像分類データセットに関する総合実験は、不均衡半教師あり学習におけるCLAFの有効性を示す。

Due to the advantages of leveraging unlabeled data and learning meaningful representations, semi-supervised learning and contrastive learning have been progressively combined to achieve better performances in popular applications with few labeled data and abundant unlabeled data. One common manner is assigning pseudo-labels to unlabeled samples and selecting positive and negative samples from pseudo-labeled samples to apply contrastive learning. However, the real-world data may be imbalanced, causing pseudo-labels to be biased toward the majority classes and further undermining the effectiveness of contrastive learning. To address the challenge, we propose Contrastive Learning with Augmented Features (CLAF). We design a class-dependent feature augmentation module to alleviate the scarcity of minority class samples in contrastive learning. For each pseudo-labeled sample, we select positive and negative samples from labeled data instead of unlabeled data to compute contrastive loss. Comprehensive experiments on imbalanced image classification datasets demonstrate the effectiveness of CLAF in the context of imbalanced semi-supervised learning.
翻訳日:2023-12-18 16:36:06 公開日:2023-12-15
# 検出器シグナチャシミュレーションのための深部生成モデル:分析分類学

Deep Generative Models for Detector Signature Simulation: An Analytical Taxonomy ( http://arxiv.org/abs/2312.09597v1 )

ライセンス: Link先を確認
Hosein Hashemi, Claudius Krause(参考訳) 現代の衝突型加速器実験では、素粒子間の基本的な相互作用を探究する探索は、非平行な精度に達している。 粒子物理学検出器からの信号は衝突の物理を符号化する低レベル物体である。 検出器内のそれらの完全なシミュレーションは、メモリとストレージ集約的なタスクである。 粒子物理学におけるこの計算ボトルネックに対処するため、"Fast Simulation"は長年にわたって導入され、洗練されてきた。 この分野は、深層生成モデルの進歩によって加速された検出器シミュレーションのサロゲートモデリングへの関心が高まっている。 これらのモデルは、観測データと統計的に同一の応答を生成することを目的としている。 本稿では,従来の文献を包括的かつ徹底的に分析し,方法論的・応用的両面から検出シグネチャのシミュレーションを行う。 まず、検出器シグネチャシミュレーションの問題を定式化し、統一可能な様々なバリエーションについて議論する。 次に,最先端の手法を,その基盤となるモデルアーキテクチャに基づいて4つの異なるカテゴリに分類し,それぞれの世代戦略を要約する。 そして、3つの重要なアプリケーション領域を特定し、議論する。 最後に,検出器シグネチャシミュレーションに先立つ課題と機会について考察し,今後の研究・開発に向けてのステージを設定した。

In modern collider experiments, the quest to explore fundamental interactions between elementary particles has reached unparalleled levels of precision. Signatures from particle physics detectors are low-level objects encoding the physics of collisions. The complete simulation of them in a detector is a memory and storage-intensive task. To address this computational bottleneck in particle physics, "Fast Simulation" has been introduced and refined over the years. The field has seen a surge in interest in surrogate modeling the detector simulation, fueled by the advancements in deep generative models. These models aim to generate responses that are statistically identical to the observed data. In this paper, we conduct a comprehensive and exhaustive taxonomic review of the existing literature on the simulation of detector signatures from both methodological and application-wise perspectives. Initially, we formulate the problem of detector signature simulation and discuss its different variations that can be unified. Next, we classify the state-of-the-art methods into four distinct categories based on their underlying model architectures, summarizing their respective generation strategies. We then identify and discuss three key application areas. Finally, we shed light on the challenges and opportunities that lie ahead in detector signature simulation, setting the stage for future research and development.
翻訳日:2023-12-18 16:35:47 公開日:2023-12-15
# FlowMur: 限られた知識を持つステルスで実用的なオーディオバックドアアタック

FlowMur: A Stealthy and Practical Audio Backdoor Attack with Limited Knowledge ( http://arxiv.org/abs/2312.09665v1 )

ライセンス: Link先を確認
Jiahe Lan, Jie Wang, Baochen Yan, Zheng Yan, and Elisa Bertino(参考訳) dnnが駆動する音声認識システムは、音声インターフェースを通じて人間とコンピュータのインタラクションに革命をもたらした。 しかし、これらのシステムの人気が高まり、特にバックドア攻撃に対するセキュリティに対する懸念も高まっている。 バックドア攻撃は、トレーニングプロセス中に1つ以上の隠れたバックドアをDNNモデルに挿入し、良性入力に対するモデルの性能に影響を与えないようにするが、特定のトリガがモデル入力に存在する場合、モデルに敵意の出力を生成するように強制する。 現在の音声バックドア攻撃の成功にもかかわらず、以下の制限に苦しむ。 (i)そのほとんどが十分な知識を必要とし、普及を制限している。 (ii)十分にステルス性がないため、人間によって容易に検出できる。 (iii)ほとんどは実話に攻撃できず、実用性が低下する。 この問題に対処するため,本稿では,限定的な知識で起動可能な,ステルスで実用的なオーディオバックドア攻撃であるflowmurを提案する。 FlowMurは、補助的なデータセットと代理モデルを構築し、敵の知識を拡張する。 動的性を達成するため、トリガー生成を最適化問題として定式化し、異なるアタッチメント位置に対してトリガーを最適化する。 ステルス性を高めるため,Signal-to-Noise Ratio (SNR) に基づく適応データ中毒法を提案する。 さらに、環境騒音をトリガ生成とデータ中毒のプロセスに取り入れ、環境騒音に対してflowmurを堅牢にし、実用性を向上させる。 2つのデータセットで実施された大規模な実験により、FlowMurは、最先端の防御に耐性を維持しながら、デジタルおよび物理的な設定の両方で高い攻撃性能を達成することが示された。 特に人間の研究では、FlowMurによって生成されたトリガーが参加者によって容易に検出されないことが確認されている。

Speech recognition systems driven by DNNs have revolutionized human-computer interaction through voice interfaces, which significantly facilitate our daily lives. However, the growing popularity of these systems also raises special concerns on their security, particularly regarding backdoor attacks. A backdoor attack inserts one or more hidden backdoors into a DNN model during its training process, such that it does not affect the model's performance on benign inputs, but forces the model to produce an adversary-desired output if a specific trigger is present in the model input. Despite the initial success of current audio backdoor attacks, they suffer from the following limitations: (i) Most of them require sufficient knowledge, which limits their widespread adoption. (ii) They are not stealthy enough, thus easy to be detected by humans. (iii) Most of them cannot attack live speech, reducing their practicality. To address these problems, in this paper, we propose FlowMur, a stealthy and practical audio backdoor attack that can be launched with limited knowledge. FlowMur constructs an auxiliary dataset and a surrogate model to augment adversary knowledge. To achieve dynamicity, it formulates trigger generation as an optimization problem and optimizes the trigger over different attachment positions. To enhance stealthiness, we propose an adaptive data poisoning method according to Signal-to-Noise Ratio (SNR). Furthermore, ambient noise is incorporated into the process of trigger generation and data poisoning to make FlowMur robust to ambient noise and improve its practicality. Extensive experiments conducted on two datasets demonstrate that FlowMur achieves high attack performance in both digital and physical settings while remaining resilient to state-of-the-art defenses. In particular, a human study confirms that triggers generated by FlowMur are not easily detected by participants.
翻訳日:2023-12-18 16:30:12 公開日:2023-12-15
# 深部ドラム音源分離に向けて

Toward Deep Drum Source Separation ( http://arxiv.org/abs/2312.09663v1 )

ライセンス: Link先を確認
Alessandro Ilic Mezza, Riccardo Giampiccolo, Alberto Bernardini, Augusto Sarti(参考訳) 過去には、ドラムソース分離の分野は、データ可用性の制限のために大きな課題に直面しており、他の関連するオーディオアプリケーションで成功を収めた最先端のディープラーニング手法の採用を妨げていた。 本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。 10個の実音響ドラムキットを用いて、各オーディオクリップを表現型ドラム演奏のMIDI記録から合成する。 合計1224時間のstemgmdは、これまでで最大のドラムのオーディオデータセットであり、カノニカルな9ピースドラムキットで各楽器用の孤立したオーディオクリップを初めて構成した。 我々は,新しい深部ドラム音源分離モデルlarsnetの開発にstemgmdを利用する。 専用U-Netのバンクを通じて、LarsNetはステレオドラムの混合物から5本の幹をリアルタイムより高速に分離することができ、最先端の非負の分光時間分解法よりも大幅に優れていることを示す。

In the past, the field of drum source separation faced significant challenges due to limited data availability, hindering the adoption of cutting-edge deep learning methods that have found success in other related audio applications. In this manuscript, we introduce StemGMD, a large-scale audio dataset of isolated single-instrument drum stems. Each audio clip is synthesized from MIDI recordings of expressive drums performances using ten real-sounding acoustic drum kits. Totaling 1224 hours, StemGMD is the largest audio dataset of drums to date and the first to comprise isolated audio clips for every instrument in a canonical nine-piece drum kit. We leverage StemGMD to develop LarsNet, a novel deep drum source separation model. Through a bank of dedicated U-Nets, LarsNet can separate five stems from a stereo drum mixture faster than real-time and is shown to significantly outperform state-of-the-art nonnegative spectro-temporal factorization methods.
翻訳日:2023-12-18 16:29:02 公開日:2023-12-15
# 目標指向対話システムにおける自動意図抽出と発話分類のためのアルゴリズム

Algorithms for automatic intents extraction and utterances classification for goal-oriented dialogue systems ( http://arxiv.org/abs/2312.09658v1 )

ライセンス: Link先を確認
Leonid Legashev, Alexander Shukhman, Arthur Zhigalov(参考訳) 自然言語処理領域における現代の機械学習技術は、ゴール指向対話システムのためのスクリプトを自動生成するために使用することができる。 本稿では,目標指向対話システムにおけるスクリプトの自動生成に関する一般的な枠組みについて述べる。 JSONフォーマットでダイアログデータセットを前処理する方法について述べる。 BERTopic と Latent Dirichlet の割り当てに基づいてユーザ意図を抽出する2つの方法の比較を行う。 ロジスティック回帰とbertトランスフォーマーモデルに基づく目標指向対話システムのユーザの文を分類するための2つの実装アルゴリズムの比較が行われた。 bert-base-uncasedモデルを用いたbert変換法は、他の手法と比較して3つの測定精度(0.80)、f1-score(0.78)、マシューズ相関係数(0.74)に対して優れた結果を示した。

Modern machine learning techniques in the natural language processing domain can be used to automatically generate scripts for goal-oriented dialogue systems. The current article presents a general framework for studying the automatic generation of scripts for goal-oriented dialogue systems. A method for preprocessing dialog data sets in JSON format is described. A comparison is made of two methods for extracting user intent based on BERTopic and latent Dirichlet allocation. A comparison has been made of two implemented algorithms for classifying statements of users of a goal-oriented dialogue system based on logistic regression and BERT transformer models. The BERT transformer approach using the bert-base-uncased model showed better results for the three metrics Precision (0.80), F1-score (0.78) and Matthews correlation coefficient (0.74) in comparison with other methods.
翻訳日:2023-12-18 16:28:46 公開日:2023-12-15
# 音のディープフェイク検出のための自己適応型連続学習

What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection ( http://arxiv.org/abs/2312.09651v1 )

ライセンス: Link先を確認
Xiaohui Zhang, Jiangyan Yi, Chenglong Wang, Chuyuan Zhang, Siding Zeng, Jianhua Tao(参考訳) 音声合成と音声変換の急速な進化により、このような技術の誤用が懸念され、効果的な音声ディープフェイク検出機構の必要性が高まっている。 既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。 この課題に対処するために、創発的な効果的なアプローチの1つは継続的学習である。 本稿では,ラジアン重み修正(rwm)と呼ばれる,音のディープフェイク検出のための連続学習手法を提案する。 RWMの基礎となる概念は、すべてのクラスを2つのグループに分類することである。 これらの区別は、クラス内のコサイン距離によって定量化され、RWMが異なるデータタイプに対してトレーニング可能な勾配修正方向を導入する基礎となる。 主流の連続学習手法に対する実験評価は、知識獲得とオーディオディープフェイク検出における忘れの軽減の観点からRWMの優位性を明らかにする。 さらに、RWMの適用性はオーディオディープフェイク検出を超えて拡張され、画像認識などの多様な機械学習領域においてその潜在的重要性が示される。

The rapid evolution of speech synthesis and voice conversion has raised substantial concerns due to the potential misuse of such technology, prompting a pressing need for effective audio deepfake detection mechanisms. Existing detection models have shown remarkable success in discriminating known deepfake audio, but struggle when encountering new attack types. To address this challenge, one of the emergent effective approaches is continual learning. In this paper, we propose a continual learning approach called Radian Weight Modification (RWM) for audio deepfake detection. The fundamental concept underlying RWM involves categorizing all classes into two groups: those with compact feature distributions across tasks, such as genuine audio, and those with more spread-out distributions, like various types of fake audio. These distinctions are quantified by means of the in-class cosine distance, which subsequently serves as the basis for RWM to introduce a trainable gradient modification direction for distinct data types. Experimental evaluations against mainstream continual learning methods reveal the superiority of RWM in terms of knowledge acquisition and mitigating forgetting in audio deepfake detection. Furthermore, RWM's applicability extends beyond audio deepfake detection, demonstrating its potential significance in diverse machine learning domains such as image recognition.
翻訳日:2023-12-18 16:28:29 公開日:2023-12-15
# マルチエージェントパスファイニングのための厳密なアルゴリズムと下限:木状トポロジーのパワー

Exact Algorithms and Lowerbounds for Multiagent Pathfinding: Power of Treelike Topology ( http://arxiv.org/abs/2312.09646v1 )

ライセンス: Link先を確認
Foivos Fioravantes, Du\v{s}an Knop, Jan Maty\'a\v{s} K\v{r}i\v{s}\v{t}an, Nikolaos Melissinos, Michal Opler(参考訳) マルチエージェントパス探索問題(MAPF: Multiagent Path Finding problem)では、各エージェントが元の頂点からターゲットへの経路を求める場合、与えられたグラフ上の1組の$k$エージェントの非衝突経路を効率的に見つけることに重点を置いている。 解の質に関する重要な尺度は、提案されたスケジュール$\ell$の長さ、すなわち最長経路の長さ(待ち時間を含む)である。 本研究では,パラメータ化複雑性フレームワークに基づく体系的研究を提案する。 この問題に使用される多くのヒューリスティックと整合して提供する硬度結果は、固定パラメータのトラクタビリティ結果に基づいて実行時間を改善できる可能性がある。 MAPF は$k$ に対して W[1]-ハードであることが示される($k$ と入力グラフの最大次数の組み合わせであっても)。 この問題は、最大次数とmakepan$\ell$が固定定数であっても、平面グラフにおいてnp-hardのままである。 正の面では、$k+\ell$に対するFPTアルゴリズムを示す。 さらに詳しく調べると、~$G$の構造が現れます。 パラメータ$k$とグラフの直径~$G$に対してFPTアルゴリズムを与える。 MAPF 問題は、$G$ + $\ell$ のクリッド幅に対して W[1]-ハードであり、$G$ + $\ell$ のツリー幅に対して FPT である。

In the Multiagent Path Finding problem (MAPF for short), we focus on efficiently finding non-colliding paths for a set of $k$ agents on a given graph $G$, where each agent seeks a path from its source vertex to a target. An important measure of the quality of the solution is the length of the proposed schedule $\ell$, that is, the length of a longest path (including the waiting time). In this work, we propose a systematic study under the parameterized complexity framework. The hardness results we provide align with many heuristics used for this problem, whose running time could potentially be improved based on our fixed-parameter tractability results. We show that MAPF is W[1]-hard with respect to $k$ (even if $k$ is combined with the maximum degree of the input graph). The problem remains NP-hard in planar graphs even if the maximum degree and the makespan$\ell$ are fixed constants. On the positive side, we show an FPT algorithm for $k+\ell$. As we delve further, the structure of~$G$ comes into play. We give an FPT algorithm for parameter $k$ plus the diameter of the graph~$G$. The MAPF problem is W[1]-hard for cliquewidth of $G$ plus $\ell$ while it is FPT for treewidth of $G$ plus $\ell$.
翻訳日:2023-12-18 16:28:07 公開日:2023-12-15
# 多言語符号化音声における言語ダイアリゼーションのための微調整自己教師付き音声表現

Fine-Tuned Self-Supervised Speech Representations for Language Diarization in Multilingual Code-Switched Speech ( http://arxiv.org/abs/2312.09645v1 )

ライセンス: Link先を確認
Geoffrey Frost, Emily Morris, Joshua Jansen van V\"uren, Thomas Niesler(参考訳) 多言語コード切り換えコーパスの注釈付けは、専門的な言語知識を必要とする面倒なプロセスである。 これは、発話中に現れる可能性のある多数の言語の組み合わせが、発話を順次考慮するために、異なる言語的専門知識を持つ複数の注釈家を必要とする可能性があるためである。 これは時間と費用がかかります。 発話中の音声言語とその境界がアノテーションの開始前に知られていた場合、セグメントを関連する言語専門家に並行して割り当てることができる。 本研究では,事前学習型自己教師付きアーキテクチャ(wavlm)から抽出した微調整音声表現を用いた連続多言語用ダイアリゼータの開発について検討する。 5つの南アフリカ語(isizulu, isixhosa, setwana, sesotho, english)からなるコード交換コーパスを実験し,ベースラインシステム上での言語ファミリー,言語グループ,個々の言語に対するダイアリゼーションエラー率の改善を示す。

Annotating a multilingual code-switched corpus is a painstaking process requiring specialist linguistic expertise. This is partly due to the large number of language combinations that may appear within and across utterances, which might require several annotators with different linguistic expertise to consider an utterance sequentially. This is time-consuming and costly. It would be useful if the spoken languages in an utterance and the boundaries thereof were known before annotation commences, to allow segments to be assigned to the relevant language experts in parallel. To address this, we investigate the development of a continuous multilingual language diarizer using fine-tuned speech representations extracted from a large pre-trained self-supervised architecture (WavLM). We experiment with a code-switched corpus consisting of five South African languages (isiZulu, isiXhosa, Setswana, Sesotho and English) and show substantial diarization error rate improvements for language families, language groups, and individual languages over baseline systems.
翻訳日:2023-12-18 16:27:42 公開日:2023-12-15
# 量子過程の非線形特性のロバスト推定

Robust Estimation of Nonlinear Properties of Quantum Processes ( http://arxiv.org/abs/2312.09643v1 )

ライセンス: Link先を確認
Yuqing Wang, Guoding Liu, Zhenhuan Liu, Yifan Tang, Xiongfeng Ma, and Hao Dai(参考訳) 量子プロセス特性の正確かつ堅牢な推定は、量子情報処理と量子多体物理学において重要である。 古典的なシャドウトモグラフィーとランダム化ベンチマークを組み合わせることで、ヘルセンらは量子プロセスの線形特性を推定する方法を導入した。 本研究では, 状態生成および測定誤差に頑健な非線形プロセス特性の推定プロトコルに着目した。 ランダムなゲート列を利用する2つのプロトコルを導入し、異なる非線型特性を測定するために異なるポストプロセッシング手法を適用した。 最初のプロトコルは、Isingモデルで数値的に示されるように、時間外相関を推定する頑健で健全な方法を提供する。 第2のプロトコルはユニタリティを推定し、量子チャネルの不整合を効果的に特徴づける。 この2つのプロトコルは、量子多体物理を探索し、量子過程を特徴づけるのに有用なツールになるだろう。

Accurate and robust estimation of quantum process properties is crucial for quantum information processing and quantum many-body physics. Combining classical shadow tomography and randomized benchmarking, Helsen et al. introduced a method to estimate the linear properties of quantum processes. In this work, we focus on the estimation protocols of nonlinear process properties that are robust to state preparation and measurement errors. We introduce two protocols, both utilizing random gate sequences but employing different post-processing methods, which make them suitable for measuring different nonlinear properties. The first protocol offers a robust and sound method to estimate the out-of-time-ordered correlation, as demonstrated numerically in an Ising model. The second protocol estimates unitarity, effectively characterizing the incoherence of quantum channels. We expect the two protocols to be useful tools for exploring quantum many-body physics and characterizing quantum processes.
翻訳日:2023-12-18 16:27:22 公開日:2023-12-15
# Ins-HOI: ヒューマンオブジェクトインタラクションのリカバリを意識したインスタンス

Ins-HOI: Instance Aware Human-Object Interactions Recovery ( http://arxiv.org/abs/2312.09641v1 )

ライセンス: Link先を確認
Jiajun Zhang, Yuxiang Zhang, Hongwen Zhang, Boyao Zhou, Ruizhi Shao, Zonghai Hu, Yebin Liu(参考訳) 人間と手と物体の詳細な相互作用を復元することは、魅力的だが難しい課題だ。 既存のメソッドは通常、テンプレートベースの表現を使ってヒューマン/ハンドとオブジェクトのインタラクションを追跡する。 進歩にもかかわらず、それらは目に見えない接触面を処理できない。 本稿では,インスタンスレベルの暗黙的再構成による人・手オブジェクトの復元のためのエンドツーエンドソリューションであるIns-HOIを提案する。 この目的のために,人間/手/オブジェクトの同時表現をサポートするインスタンスレベルの占有領域と,インスタンスレベルの基礎的真理の欠如に対処するための補完的なトレーニング戦略を導入する。 このような表現は、疎い観察から暗黙的に接触を学習することができる。 補足訓練中に,人間・手・物体の個別スキャンをランダムに構成し,故意に浸透を許すことにより,合成データによる実取得データを増強する。 このようにして、我々のネットワークは、実際のスキャンに基づいて接触制約や全体的な推論可能性を認識しながら、合成データから可能な限り個々の形状を復元することを学ぶ。 実験で示されたように,本手法は極めて密接な相互作用であっても,合理的かつ現実的な非可視接触面を生成できる。 この課題の解明を容易にするため,実世界におけるヒューマンチェアとハンドオブジェクトインタラクションによる5.2kの高品質スキャンを含む,大規模で高忠実な3Dスキャンデータセットを収集した。 データセットとソースコードをリリースします。 データ例と本手法のビデオ結果については,プロジェクトのページで確認することができる。

Recovering detailed interactions between humans/hands and objects is an appealing yet challenging task. Existing methods typically use template-based representations to track human/hand and objects in interactions. Despite the progress, they fail to handle the invisible contact surfaces. In this paper, we propose Ins-HOI, an end-to-end solution to recover human/hand-object reconstruction via instance-level implicit reconstruction. To this end, we introduce an instance-level occupancy field to support simultaneous human/hand and object representation, and a complementary training strategy to handle the lack of instance-level ground truths. Such a representation enables learning a contact prior implicitly from sparse observations. During the complementary training, we augment the real-captured data with synthesized data by randomly composing individual scans of humans/hands and objects and intentionally allowing for penetration. In this way, our network learns to recover individual shapes as completely as possible from the synthesized data, while being aware of the contact constraints and overall reasonability based on real-captured scans. As demonstrated in experiments, our method Ins-HOI can produce reasonable and realistic non-visible contact surfaces even in cases of extremely close interaction. To facilitate the research of this task, we collect a large-scale, high-fidelity 3D scan dataset, including 5.2k high-quality scans with real-world human-chair and hand-object interactions. We will release our dataset and source codes. Data examples and the video results of our method can be found on the project page.
翻訳日:2023-12-18 16:27:09 公開日:2023-12-15
# 揚力モデリングのためのマルチインスタンス学習

Multiple Instance Learning for Uplift Modeling ( http://arxiv.org/abs/2312.09639v1 )

ライセンス: Link先を確認
Yao Zhao, Haipeng Zhang, Shiwei Lyu, Ruiying Jiang, Jinjie Gu, Guannan Zhang(参考訳) uplift modelingは、プロモーションキャンペーンの効果(顧客保持率の増加など)を見積もるために、パフォーマンスマーケティングで広く使われている。 治療対象者の結果(例えば、特定の昇進を受ける)とコントロールグループ(例えば、昇進なし)を同時に観察することは不可能であるため、昇降モデルは、主に2つのモデルを形成するために、処置群と制御群の例に基づいて訓練され、2つのモデル(すなわち、2モデル法)からの予測の違いによって昇降が予測される。 応答が騒がしく、治療効果が小さければ、個々の上昇予測が不正確になり、望ましくない顧客をターゲットにする。 個別治療効果(ites)として知られる理想的地上的個人昇降力は得られないが、実験的な配送から平均治療効果(ate)と呼ばれるユーザーの集団の平均昇降を観測することができる。 これにより、トレーニングサンプルがインスタンスの袋であるMultiple Instance Learning(MIL)と同様に、我々のフレームワークは、各ユーザのバッグ毎のユーザアップリフト予測をバッグ単位のATE予測としてまとめ、それをATEラベルに正規化し、より正確な個別アップリフトを学習する。 さらに、分数処理効果を増幅するために、バッグはランダムなインスタンスではなく、隣接する個々の上昇予測を持つインスタンスで構成されている。 2つのデータセットで行った実験は、提案フレームワークの有効性と普遍性を示している。

Uplift modeling is widely used in performance marketing to estimate effects of promotion campaigns (e.g., increase of customer retention rate). Since it is impossible to observe outcomes of a recipient in treatment (e.g., receiving a certain promotion) and control (e.g., without promotion) groups simultaneously (i.e., counter-factual), uplift models are mainly trained on instances of treatment and control groups separately to form two models respectively, and uplifts are predicted by the difference of predictions from these two models (i.e., two-model method). When responses are noisy and the treatment effect is fractional, induced individual uplift predictions will be inaccurate, resulting in targeting undesirable customers. Though it is impossible to obtain the ideal ground-truth individual uplifts, known as Individual Treatment Effects (ITEs), alternatively, an average uplift of a group of users, called Average Treatment Effect (ATE), can be observed from experimental deliveries. Upon this, similar to Multiple Instance Learning (MIL) in which each training sample is a bag of instances, our framework sums up individual user uplift predictions for each bag of users as its bag-wise ATE prediction, and regularizes it to its ATE label, thus learning more accurate individual uplifts. Additionally, to amplify the fractional treatment effect, bags are composed of instances with adjacent individual uplift predictions, instead of random instances. Experiments conducted on two datasets show the effectiveness and universality of the proposed framework.
翻訳日:2023-12-18 16:26:45 公開日:2023-12-15
# 複製対称性の破れ下における密結合メモリによる教師なし・教師なし学習

Unsupervised and Supervised learning by Dense Associative Memory under replica symmetry breaking ( http://arxiv.org/abs/2312.09638v1 )

ライセンス: Link先を確認
Linda Albanese, Andrea Alessandrelli, Alessia Annibale, Adriano Barra(参考訳) スピングラスの統計力学は、ニューラルネットワークや学習機械による情報処理の理解に向けた主要な要素の1つである。 このアプローチをかなり標準的なレプリカ対称な記述レベルで取り組むことで、最近、多ノード相互作用(しばしば密結合記憶と呼ばれる)を持つヘビーアトラクタネットワークは、敵の攻撃に対する頑健さや、超線形記憶容量に対する制限的に弱い信号を扱う能力から、多くのタスクにおいて、古典的なペアワイズアトラクタネットワークよりも優れていることが示されている。 計算的側面よりも数学的手法に焦点をあてて、我々はレプリカ対称性の仮定を緩和し、これらのDense Associative Memoriesに対する教師付きおよび教師なし学習プロトコルの一段階の破壊レプリカ対称性の図を導出する:制御パラメータの空間における位相図は、パリの階層と、分解レプリカ補間におけるゲラの望遠鏡を通して独立に達成される。 さらに、これらのネットワークのビッグデータおよび基底状態の限界を深くし、また、複製対称性の破れが学習のしきい値を変えず、最大記憶容量をわずかに増加させる証拠を明示的な分析研究として提供する。 最後に、レプリカ対称記述の不安定な開始を描写した de almeida と thouless の線は、この境界を越え、どのように破られたレプリカ記述が望ましいかを分析的に導出する。

Statistical mechanics of spin glasses is one of the main strands toward a comprehension of information processing by neural networks and learning machines. Tackling this approach, at the fairly standard replica symmetric level of description, recently Hebbian attractor networks with multi-node interactions (often called Dense Associative Memories) have been shown to outperform their classical pairwise counterparts in a number of tasks, from their robustness against adversarial attacks and their capability to work with prohibitively weak signals to their supra-linear storage capacities. Focusing on mathematical techniques more than computational aspects, in this paper we relax the replica symmetric assumption and we derive the one-step broken-replica-symmetry picture of supervised and unsupervised learning protocols for these Dense Associative Memories: a phase diagram in the space of the control parameters is achieved, independently, both via the Parisi's hierarchy within then replica trick as well as via the Guerra's telescope within the broken-replica interpolation. Further, an explicit analytical investigation is provided to deepen both the big-data and ground state limits of these networks as well as a proof that replica symmetry breaking does not alter the thresholds for learning and slightly increases the maximal storage capacity. Finally the De Almeida and Thouless line, depicting the onset of instability of a replica symmetric description, is also analytically derived highlighting how, crossed this boundary, the broken replica description should be preferred.
翻訳日:2023-12-18 16:25:50 公開日:2023-12-15
# 敵の攻撃と防御に関するマルウェア分類調査

A Malware Classification Survey on Adversarial Attacks and Defences ( http://arxiv.org/abs/2312.09636v1 )

ライセンス: Link先を確認
Mahesh Datta Sai Ponnuru, Likhitha Amasala, Tanu Sree Bhimavarapu, Guna Chaitanya Garikipati(参考訳) マルウェア攻撃の数と複雑さが増加し続けており、効果的なマルウェア検出システムが必要である。 ディープラーニングモデルはマルウェアの検出に有効であるが、敵の攻撃に弱い。 このような攻撃は、検出に抵抗する悪意のあるファイルを生成し、重大なサイバーセキュリティリスクを生み出す。 近年の研究では、このような攻撃に対する深層学習モデルのレジリエンスを強化するために、いくつかの敵攻撃と対応アプローチが開発されている。 この調査は、サイバーセキュリティにおけるマルウェア分類の敵攻撃と防御戦略に関する最近の研究を詳細に分析する。 手法は, 生成モデル, 特徴に基づくアプローチ, アンサンブル手法, ハイブリッド戦術の4つのカテゴリに分類される。 この記事では、各領域における最先端の手順について概説し、そのメリットと欠点を評価している。 各トピックは最先端のアプローチを示し、そのメリットとデメリットを探求する。 また,本研究は,本研究でよく用いられるデータセットと評価基準について述べる。 最後に、オープンな研究課題を特定し、将来の研究オプションを提案する。 この文書はマルウェアの分類とサイバーセキュリティ研究者と実践者にとって重要な情報源である。

As the number and complexity of malware attacks continue to increase, there is an urgent need for effective malware detection systems. While deep learning models are effective at detecting malware, they are vulnerable to adversarial attacks. Attacks like this can create malicious files that are resistant to detection, creating a significant cybersecurity risk. Recent research has seen the development of several adversarial attack and response approaches aiming at strengthening deep learning models' resilience to such attacks. This survey study offers an in-depth look at current research in adversarial attack and defensive strategies for malware classification in cybersecurity. The methods are classified into four categories: generative models, feature-based approaches, ensemble methods, and hybrid tactics. The article outlines cutting-edge procedures within each area, assessing their benefits and drawbacks. Each topic presents cutting-edge approaches and explores their advantages and disadvantages. In addition, the study discusses the datasets and assessment criteria that are often utilized on this subject. Finally, it identifies open research difficulties and suggests future study options. This document is a significant resource for malware categorization and cyber security researchers and practitioners.
翻訳日:2023-12-18 16:25:20 公開日:2023-12-15
# テーブル上のデータ処理のための文字列エントリのベクトル化: 大きな言語モデルはいつより良くなりますか?

Vectorizing string entries for data processing on tables: when are larger language models better? ( http://arxiv.org/abs/2312.09634v1 )

ライセンス: Link先を確認
L\'eo Grinsztajn (SODA, MLIA, ISIR), Edouard Oyallon (MLIA, CNRS, ISIR, SU), Myung Jun Kim (SODA), Ga\"el Varoquaux (SODA)(参考訳) 例えば、ほとんどの機械学習モデルや、高速な類似検索のためのベクトルデータベースなど、数値のベクトルを扱う効率的なデータ処理パイプラインが増えている。 これらはデータを数値に変換する必要がある。 この変換は単純な数値や分類のエントリでは容易であるが、データベースには名前や記述などのテキストエントリが混在している。 大きな言語モデルの時代において、テーブルエントリをベクトル化する最良の戦略は何でしょうか? 本研究は,14のテーブル上の解析タスクにおける言語モデルの利点と,トレーニングサイズの変化,ファジィ結合ベンチマークについて検討する。 以下の2つの設定を示す列の簡単なキャラクタリゼーションを紹介します。 1) 文字列がエントリ間で多くの類似点を共有し、逆に共有する汚いカテゴリの設定 2)多様な項目の設定。 汚いカテゴリでは、事前訓練された言語モデルは単純な文字列モデルに比べてほとんど恩恵を受けない。 多様なエントリに対して、より大きな言語モデルがデータ処理を改善することを示す。 これらのために、複雑性と性能のトレードオフを調査し、それらが古典的なテキスト埋め込みのトレードオフを反映していることを示す: より大きなモデルはより良いパフォーマンスを示す傾向があるが、埋め込み目的のためにそれらを微調整することは有用である。

There are increasingly efficient data processing pipelines that work on vectors of numbers, for instance most machine learning models, or vector databases for fast similarity search. These require converting the data to numbers. While this conversion is easy for simple numerical and categorical entries, databases are strife with text entries, such as names or descriptions. In the age of large language models, what's the best strategies to vectorize tables entries, baring in mind that larger models entail more operational complexity? We study the benefits of language models in 14 analytical tasks on tables while varying the training size, as well as for a fuzzy join benchmark. We introduce a simple characterization of a column that reveals two settings: 1) a dirty categories setting, where strings share much similarities across entries, and conversely 2) a diverse entries setting. For dirty categories, pretrained language models bring little-to-no benefit compared to simpler string models. For diverse entries, we show that larger language models improve data processing. For these we investigate the complexity-performance tradeoffs and show that they reflect those of classic text embedding: larger models tend to perform better, but it is useful to fine tune them for embedding purposes.
翻訳日:2023-12-18 16:25:06 公開日:2023-12-15
# ハイパースペクトル画像クラスタリングのための画素コントラスト学習と擬似ラベル補正

Pixel-Superpixel Contrastive Learning and Pseudo-Label Correction for Hyperspectral Image Clustering ( http://arxiv.org/abs/2312.09630v1 )

ライセンス: Link先を確認
Renxiang Guan and Zihao Li and Xianju Li and Chang Tang(参考訳) hyperspectral image (hsi)クラスタリングは、教師なし情報による非効率性や誤解を招く結果を克服する近年の手法により、かなりの注目を集めている。 既存のピクセルレベルと超ピクセルレベルのHSIクラスタリングタスクで比較学習法が優れている。 画素レベルのコントラスト学習法は、HSIの微細な特徴を捕捉するモデルの能力を効果的に向上するが、大きな時間的オーバーヘッドを必要とする。 超ピクセルレベルのコントラスト学習法はhsiの均質性を利用し、計算資源を減少させるが、大まかな分類結果が得られる。 両手法の強みを利用するために,HSIクラスタリングのための画素超画素コントラスト学習と擬似ラベル補正(PSCPC)手法を提案する。 pscpcはスーパーピクセルとスーパーピクセル内の少数のピクセルの比較学習によって、ドメイン固有かつ細かな特徴を合理的に捉えることができる。 スーパーピクセルのクラスタリング性能を向上させるために,スーパーピクセルとスーパーピクセルのクラスタリング擬似ラベルを整列する擬似ラベル補正モジュールを提案する。 さらに、画素レベルのクラスタリング結果を用いて、スーパーピクセルレベルのクラスタリングを監督し、モデルの一般化能力を向上させる。 大規模な実験はPSCPCの有効性と効率を実証した。

Hyperspectral image (HSI) clustering is gaining considerable attention owing to recent methods that overcome the inefficiency and misleading results from the absence of supervised information. Contrastive learning methods excel at existing pixel level and super pixel level HSI clustering tasks. The pixel-level contrastive learning method can effectively improve the ability of the model to capture fine features of HSI but requires a large time overhead. The super pixel-level contrastive learning method utilizes the homogeneity of HSI and reduces computing resources; however, it yields rough classification results. To exploit the strengths of both methods, we present a pixel super pixel contrastive learning and pseudo-label correction (PSCPC) method for the HSI clustering. PSCPC can reasonably capture domain-specific and fine-grained features through super pixels and the comparative learning of a small number of pixels within the super pixels. To improve the clustering performance of super pixels, this paper proposes a pseudo-label correction module that aligns the clustering pseudo-labels of pixels and super-pixels. In addition, pixel-level clustering results are used to supervise super pixel-level clustering, improving the generalization ability of the model. Extensive experiments demonstrate the effectiveness and efficiency of PSCPC.
翻訳日:2023-12-18 16:24:48 公開日:2023-12-15
# TF-CLIP:ビデオによる人物再同定のためのテキストフリーCLIP学習

TF-CLIP: Learning Text-free CLIP for Video-based Person Re-Identification ( http://arxiv.org/abs/2312.09627v1 )

ライセンス: Link先を確認
Chenyang Yu and Xuehu Liu and Yingquan Wang and Pingping Zhang and Huchuan Lu(参考訳) 大規模言語イメージ事前訓練モデル(例えばCLIP)は、多くのクロスモーダル検索タスクにおいて優れた性能を示している。 しかし,そのようなモデルから学んだ知識を映像に基づく人物識別(ReID)に移行する問題は,ほとんど検討されていない。 さらに、現在のreidベンチマークには、まともなテキスト記述が欠けている。 これらの課題に対処するため、ビデオベースのReIDのための一段階のテキストフリーCLIPベースの学習フレームワークTF-CLIPを提案する。 具体的には、テキスト機能を置き換えるために、ID固有のシーケンス機能をCLIPメモリとして抽出する。 一方、CLIPメモリをオンラインで更新するSequence-Specific Prompt (SSP) モジュールを設計する。 さらに,時間的情報を取得するために,時間的メモリ拡散 (TMD) モジュールを提案し,時間的メモリ構成 (TMC) とメモリ拡散 (MD) の2つの重要なコンポーネントからなる。 技術的には、tmcはシーケンス内のフレームレベルのメモリ同士の通信を可能にし、シーケンス内の関係に基づいて時間情報を抽出する。 mdはさらに、元の特徴のそれぞれのトークンに時間記憶を拡散させ、よりロバストなシーケンス特徴を得る。 提案手法はMARS, LS-VID, iLIDS-VIDの他の最先端手法よりも優れた結果を示した。 コードはhttps://github.com/AsuradaYuci/TF-CLIPで入手できる。

Large-scale language-image pre-trained models (e.g., CLIP) have shown superior performances on many cross-modal retrieval tasks. However, the problem of transferring the knowledge learned from such models to video-based person re-identification (ReID) has barely been explored. In addition, there is a lack of decent text descriptions in current ReID benchmarks. To address these issues, in this work, we propose a novel one-stage text-free CLIP-based learning framework named TF-CLIP for video-based person ReID. More specifically, we extract the identity-specific sequence feature as the CLIP-Memory to replace the text feature. Meanwhile, we design a Sequence-Specific Prompt (SSP) module to update the CLIP-Memory online. To capture temporal information, we further propose a Temporal Memory Diffusion (TMD) module, which consists of two key components: Temporal Memory Construction (TMC) and Memory Diffusion (MD). Technically, TMC allows the frame-level memories in a sequence to communicate with each other, and to extract temporal information based on the relations within the sequence. MD further diffuses the temporal memories to each token in the original features to obtain more robust sequence features. Extensive experiments demonstrate that our proposed method shows much better results than other state-of-the-art methods on MARS, LS-VID and iLIDS-VID. The code is available at https://github.com/AsuradaYuci/TF-CLIP.
翻訳日:2023-12-18 16:24:26 公開日:2023-12-15
# BumbleのMatch Recommendationsにおける性差の探索

Exploring Gender Disparities in Bumble's Match Recommendations ( http://arxiv.org/abs/2312.09626v1 )

ライセンス: Link先を確認
Ritvik Aryan Kalra, Pratham Gupta, Ben Varghese and Nimmi Rangaswamy(参考訳) インドのオンラインデートプラットフォームであるBumbleの文脈で偏見と差別を研究する。 aiの公平性と包摂性の研究を題材に,アルゴリズムバイアスとその傾向を分析し,バイアスを再現する。 実世界の潜在的な日付のプロファイルとして,bumbleがユーザに対してプッシュするマッチングアルゴリズムにおけるバイアスの存在を識別し,対処する実験を行った。 bumbleのようなデートアプリは、ユーザーデータから学習するアルゴリズムを利用して推薦する。 アルゴリズムが意図や意識を持っていなくても、それは人間が作り、維持するシステムである。 このようなシステムのモラルエージェンシーは、これらのプラットフォームの設計と利用をアルゴリズムの仲介から合成したものとみなす。 したがって、デートプラットフォームの開発者、デザイナー、オペレーターは、アルゴリズムのバイアスを緩和し、多様な社会的アイデンティティを肯定する包括的プラットフォームを作成する道徳的義務を持つ。

We study bias and discrimination in the context of Bumble, an online dating platform in India. Drawing on research in AI fairness and inclusion studies we analyze algorithmic bias and their propensity to reproduce bias. We conducted an experiment to identify and address the presence of bias in the matching algorithms Bumble pushes to its users in the form of profiles for potential dates in the real world. Dating apps like Bumble utilize algorithms that learn from user data to make recommendations. Even if the algorithm does not have intentions or consciousness, it is a system created and maintained by humans. We attribute moral agency of such systems to be compositely derived from algorithmic mediations, the design and utilization of these platforms. Developers, designers, and operators of dating platforms thus have a moral obligation to mitigate biases in the algorithms to create inclusive platforms that affirm diverse social identities.
翻訳日:2023-12-18 16:24:02 公開日:2023-12-15
# 社会的、法的、倫理的、共感的、文化的規則:編纂と推論(拡張版)

Social, Legal, Ethical, Empathetic, and Cultural Rules: Compilation and Reasoning (Extended Version) ( http://arxiv.org/abs/2312.09699v1 )

ライセンス: Link先を確認
Nicolas Troquard, Martina De Sanctis, Paola Inverardi, Patrizio Pelliccione, Gian Luca Scoccia(参考訳) AIベースの自律システムの台頭は、その行動や決定から生じる潜在的なネガティブな影響により、懸念と理解を高めている。 これらのシステムは、操作する人間のコンテキストに適合するように設計されなければならない。 この範囲で、townsend et al. (2022) は、aiベースの自律システムおよびルールの定式化、検証、実施を促進することを目的とした、sleec(social, legal, ethics, empathetic, or cultural)ルールの概念を導入している。 彼らは彼らを誘惑し、哲学者、弁護士、ドメインの専門家、その他に自然言語で定式化させる方法論を編み出した。 AIシステムで効果的な使用を可能にするためには、これらのルールを自動推論をサポートする形式言語に体系的に翻訳する必要がある。 本研究ではまず,SLEEC規則の古典論理への翻訳を正当化するSLEEC規則パターンの言語学的解析を行う。 次に,SLEECルールの推論における計算複雑性について検討し,SLEECルールの実装に論理プログラミングフレームワークをどのように適用できるかを示す。 その結果、SLEECルールとして表される規範に準拠したAIシステムを実装するための、容易に適用可能な戦略である。

The rise of AI-based and autonomous systems is raising concerns and apprehension due to potential negative repercussions stemming from their behavior or decisions. These systems must be designed to comply with the human contexts in which they will operate. To this extent, Townsend et al. (2022) introduce the concept of SLEEC (social, legal, ethical, empathetic, or cultural) rules that aim to facilitate the formulation, verification, and enforcement of the rules AI-based and autonomous systems should obey. They lay out a methodology to elicit them and to let philosophers, lawyers, domain experts, and others to formulate them in natural language. To enable their effective use in AI systems, it is necessary to translate these rules systematically into a formal language that supports automated reasoning. In this study, we first conduct a linguistic analysis of the SLEEC rules pattern, which justifies the translation of SLEEC rules into classical logic. Then we investigate the computational complexity of reasoning about SLEEC rules and show how logical programming frameworks can be employed to implement SLEEC rules in practical scenarios. The result is a readily applicable strategy for implementing AI systems that conform to norms expressed as SLEEC rules.
翻訳日:2023-12-18 16:17:14 公開日:2023-12-15
# Reward Martingales を用いた深層強化学習に基づく制御系のロバスト性検証

Robustness Verification of Deep Reinforcement Learning Based Control Systems using Reward Martingales ( http://arxiv.org/abs/2312.09695v1 )

ライセンス: Link先を確認
Dapeng Zhi, Peixin Wang, Cheng Chen, Min Zhang(参考訳) 制御システムに対する効果的なアプローチとして,深層強化学習(DRL)が注目されている。 しかし、実際のデプロイメントは、システムパフォーマンスに重大な影響を及ぼす状態の摂動によって妨げられている。 この重要な課題に対処するには、システムのパフォーマンスに関する堅牢性検証が必要である。 (i)期待累積報酬の保証限度の設定方法、及び (ii)累積報酬のテールバウンドを決定する方法。 本稿では,DRLに基づく制御システムのロバスト性検証のための最初のアプローチを提案する。この手法は,累積報酬の観点から,状態摂動がシステム性能に与える影響を特徴づける厳密な数学的基盤を提供する。 検証結果は,2つの質問に対して有効に定量的な証明を与える。 次に,報酬マーチンゲールをニューラルネットワークを通じて,異なる種類の制御ポリシに対して実装し,トレーニングできることを実証する。 実験の結果,提案手法の有効性と汎用性を示す各種drl制御系上でのシミュレーション結果が厳密に囲まれていることが判明した。

Deep Reinforcement Learning (DRL) has gained prominence as an effective approach for control systems. However, its practical deployment is impeded by state perturbations that can severely impact system performance. Addressing this critical challenge requires robustness verification about system performance, which involves tackling two quantitative questions: (i) how to establish guaranteed bounds for expected cumulative rewards, and (ii) how to determine tail bounds for cumulative rewards. In this work, we present the first approach for robustness verification of DRL-based control systems by introducing reward martingales, which offer a rigorous mathematical foundation to characterize the impact of state perturbations on system performance in terms of cumulative rewards. Our verified results provide provably quantitative certificates for the two questions. We then show that reward martingales can be implemented and trained via neural networks, against different types of control policies. Experimental results demonstrate that our certified bounds tightly enclose simulation outcomes on various DRL-based control systems, indicating the effectiveness and generality of the proposed approach.
翻訳日:2023-12-18 16:16:51 公開日:2023-12-15
# トピックモデリングのための大規模言語モデルの提案

Prompting Large Language Models for Topic Modeling ( http://arxiv.org/abs/2312.09693v1 )

ライセンス: Link先を確認
Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, Roy Ka-Wei Lee(参考訳) トピックモデリングは、テキストデータ内の主題構造を明らかにするために広く用いられている手法である。 しかし、既存のモデルは特定の制限があり、特に共起語を持たない短いテキストデータセットを扱う場合である。 さらに、これらのモデルは、主にトークンレベルの意味論に焦点を当てた文レベルの意味論を無視することが多い。 本稿では,これらの課題に対処するために,大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。 個々の文書から文章レベルでトピックを抽出し、それらのトピックを事前定義された量に集約し、最終的に長さの異なるテキストに対して一貫性のあるトピックを提供する。 このアプローチは、手動パラメータチューニングの必要性を排除し、抽出されたトピックの品質を改善する。 我々は3つの非常に多様なデータセットで最先端のベースラインに対してプロンプトトピックをベンチマークし,有意義なトピックの発見能力を確立した。 さらに、質的分析は、複数のデータセットで関連するトピックを明らかにするプロンプトトピックの能力を示す。

Topic modeling is a widely used technique for revealing underlying thematic structures within textual data. However, existing models have certain limitations, particularly when dealing with short text datasets that lack co-occurring words. Moreover, these models often neglect sentence-level semantics, focusing primarily on token-level semantics. In this paper, we propose PromptTopic, a novel topic modeling approach that harnesses the advanced language understanding of large language models (LLMs) to address these challenges. It involves extracting topics at the sentence level from individual documents, then aggregating and condensing these topics into a predefined quantity, ultimately providing coherent topics for texts of varying lengths. This approach eliminates the need for manual parameter tuning and improves the quality of extracted topics. We benchmark PromptTopic against the state-of-the-art baselines on three vastly diverse datasets, establishing its proficiency in discovering meaningful topics. Furthermore, qualitative analysis showcases PromptTopic's ability to uncover relevant topics in multiple datasets.
翻訳日:2023-12-18 16:16:34 公開日:2023-12-15
# quilt: コンセプトドリフトに対するロバストなデータセグメント選択

Quilt: Robust Data Segment Selection against Concept Drifts ( http://arxiv.org/abs/2312.09691v1 )

ライセンス: Link先を確認
Minsu Kim, Seong-Hyeon Hwang, Steven Euijong Whang(参考訳) 継続的機械学習パイプラインは、モデルが定期的にデータストリームでトレーニングされる産業環境で一般的である。 残念なことに、データ X とラベル y, P(X, y) の結合分布が時間とともに変化し、おそらくモデルの精度が低下するデータストリームにコンセプトドリフトが発生する可能性がある。 既存のコンセプトドリフト適応アプローチは、おそらく以前のモデルのアンサンブル技術を用いて新しいデータにモデルを更新することに集中し、漂流した歴史データを破棄する傾向がある。 しかし, ドリフトデータを明確に活用することでモデル精度が向上し, モデル精度を最大化するデータセグメントを識別・選択するためのデータ中心フレームワークQultを提案する。 効率の潜在的な欠点に対処するため、quiltは既存のデータサブセット選択技術を拡張し、モデルの精度を損なうことなくトレーニングデータを減らすことができる。 これらの手法は、後続確率 P(y|X) が変化しないと仮定される仮想ドリフトのみを仮定しているため、使用できない。 対照的に、セットアップの重要な課題は、望ましくないデータセグメントをコンセプトドリフトで捨てることです。 これにより、クイットはドリフトされたデータセグメントを破棄し、正確で効率的なモデルトレーニングのためにデータセグメントサブセットを選択する。 2つの演算は勾配ベースのスコアを使用し、計算オーバーヘッドが少ない。 実験では,quiltが合成データと実データで最先端のドリフト適応とデータ選択ベースラインよりも優れていることを示す。

Continuous machine learning pipelines are common in industrial settings where models are periodically trained on data streams. Unfortunately, concept drifts may occur in data streams where the joint distribution of the data X and label y, P(X, y), changes over time and possibly degrade model accuracy. Existing concept drift adaptation approaches mostly focus on updating the model to the new data possibly using ensemble techniques of previous models and tend to discard the drifted historical data. However, we contend that explicitly utilizing the drifted data together leads to much better model accuracy and propose Quilt, a data-centric framework for identifying and selecting data segments that maximize model accuracy. To address the potential downside of efficiency, Quilt extends existing data subset selection techniques, which can be used to reduce the training data without compromising model accuracy. These techniques cannot be used as is because they only assume virtual drifts where the posterior probabilities P(y|X) are assumed not to change. In contrast, a key challenge in our setup is to also discard undesirable data segments with concept drifts. Quilt thus discards drifted data segments and selects data segment subsets holistically for accurate and efficient model training. The two operations use gradient-based scores, which have little computation overhead. In our experiments, we show that Quilt outperforms state-of-the-art drift adaptation and data selection baselines on synthetic and real datasets.
翻訳日:2023-12-18 16:16:20 公開日:2023-12-15
# ContractsがCryptoと出会う - Ethereum暗号化APIによる開発者の戦略を探る

When Contracts Meets Crypto: Exploring Developers' Struggles with Ethereum Cryptographic APIs ( http://arxiv.org/abs/2312.09685v1 )

ライセンス: Link先を確認
Jiashuo Zhang, Jiachi Chen, Zhiyuan Wan, Ting Chen, Jianbo Gao and Zhong Chen(参考訳) 暗号の有望な能力でスマートコントラクトを強化するため、Ethereumは、楕円曲線操作のようなスマートコントラクト内の基本的な暗号操作を容易にする一連の暗号APIを公式に導入した。 しかし、開発者は必ずしも暗号の専門家ではないため、これらの基本的なapiと直接やりとりする必要が、現実世界のセキュリティ問題と潜在的なユーザビリティの問題を引き起こしている。 これらの課題に対する今後の研究と解決策を導くため、Ethereum暗号の実践に関する最初の実証的研究を行った。 ethereumトランザクション91,484,856件、暗号化関連コントラクト500件、stackexchangeポスト483件の分析を通じて、開発者が遭遇する障害の5つのカテゴリの達成と識別に必要な暗号タスクを、初めて詳細に調査します。 さらに,78人のスマートコントラクト実践者を対象としたオンライン調査を実施し,これらの障害に対する彼らの視点を調査し,根本的な理由を明らかにする。 実践者の半数以上が、スマートコントラクトの一般的なビジネスロジックと比較して、暗号処理の課題に直面しています。 彼らのフィードバックは、低レベルの暗号化apiと達成すべき高レベルのタスクの間のギャップを強調し、暗号化apiの改善、タスクベースのテンプレート、効果的な支援ツールの必要性を強調している。 これらの結果を踏まえて,さらなる改善に向けた実践的意義と今後の研究方向性について概説する。

To empower smart contracts with the promising capabilities of cryptography, Ethereum officially introduced a set of cryptographic APIs that facilitate basic cryptographic operations within smart contracts, such as elliptic curve operations. However, since developers are not necessarily cryptography experts, requiring them to directly interact with these basic APIs has caused real-world security issues and potential usability challenges. To guide future research and solutions to these challenges, we conduct the first empirical study on Ethereum cryptographic practices. Through the analysis of 91,484,856 Ethereum transactions, 500 crypto-related contracts, and 483 StackExchange posts, we provide the first in-depth look at cryptographic tasks developers need to accomplish and identify five categories of obstacles they encounter. Furthermore, we conduct an online survey with 78 smart contract practitioners to explore their perspectives on these obstacles and elicit the underlying reasons. We find that more than half of practitioners face more challenges in cryptographic tasks compared to general business logic in smart contracts. Their feedback highlights the gap between low-level cryptographic APIs and high-level tasks they need to accomplish, emphasizing the need for improved cryptographic APIs, task-based templates, and effective assistance tools. Based on these findings, we provide practical implications for further improvements and outline future research directions.
翻訳日:2023-12-18 16:15:53 公開日:2023-12-15
# DreamGaussian を用いた絶滅危惧種のリアル3次元モデル作成の可能性を探る:モデル生成に対する標高角の影響の分析

Exploring the Feasibility of Generating Realistic 3D Models of Endangered Species Using DreamGaussian: An Analysis of Elevation Angle's Impact on Model Generation ( http://arxiv.org/abs/2312.09682v1 )

ライセンス: Link先を確認
Selcuk Anil Karatopak and Deniz Sen(参考訳) 多くの種が絶滅の危機に直面している。 これらの種を研究し、生物多様性を維持するために可能な限り情報を集めることが重要である。 絶滅危惧種の希少性のため、利用可能なデータは限られており、この領域に生成AIメソッドを必要とするデータを適用するのは難しい。 限られたデータを用いて,絶滅危惧動物の一貫性と実際の3dモデルの生成可能性について検討することを目的とする。 このような現象によってゼロショットの安定拡散モデルが利用でき、対象種の単一画像から3次元モデルを生成することができる。 本稿では, ドリームガウシアンにおける革新的アプローチに着目し, 標高角度と3次元モデル生成の出力品質の関係について検討する。 DreamGaussian, Generative Gaussian Splatting と新しいメッシュ抽出および精錬アルゴリズムを併用した新しいフレームワークは,本研究の焦点となっている。 本研究では,DreamGaussianが3Dシーンを正確に再現する能力に,様々な角度が与える影響を総合的に分析する。 経験的評価を通じて,標高角度の変化が生成画像の空間的コヒーレンス,構造的完全性,知覚的リアリズムにどのように影響するかを示す。 入力画像で正確な標高角を与えると,生成した3次元モデルの結果に大きく影響することがわかった。 この研究は、絶滅危惧動物を保護するためのAIの利用性に影響を及ぼすことを願っている。本研究の目的は、小さなサンプルを通して生物学的に一貫した3Dモデルを出力できるモデルを得ることであるが、DreamGaussianのような既存の最先端モデルの質的な解釈は、私たちのゴールの一歩となるだろう。

Many species face the threat of extinction. It's important to study these species and gather information about them as much as possible to preserve biodiversity. Due to the rarity of endangered species, there is a limited amount of data available, making it difficult to apply data requiring generative AI methods to this domain. We aim to study the feasibility of generating consistent and real-like 3D models of endangered animals using limited data. Such a phenomenon leads us to utilize zero-shot stable diffusion models that can generate a 3D model out of a single image of the target species. This paper investigates the intricate relationship between elevation angle and the output quality of 3D model generation, focusing on the innovative approach presented in DreamGaussian. DreamGaussian, a novel framework utilizing Generative Gaussian Splatting along with novel mesh extraction and refinement algorithms, serves as the focal point of our study. We conduct a comprehensive analysis, analyzing the effect of varying elevation angles on DreamGaussian's ability to reconstruct 3D scenes accurately. Through an empirical evaluation, we demonstrate how changes in elevation angle impact the generated images' spatial coherence, structural integrity, and perceptual realism. We observed that giving a correct elevation angle with the input image significantly affects the result of the generated 3D model. We hope this study to be influential for the usability of AI to preserve endangered animals; while the penultimate aim is to obtain a model that can output biologically consistent 3D models via small samples, the qualitative interpretation of an existing state-of-the-art model such as DreamGaussian will be a step forward in our goal.
翻訳日:2023-12-18 16:15:30 公開日:2023-12-15
# 多視点コントラスト予測による都市域埋め込み

Urban Region Embedding via Multi-View Contrastive Prediction ( http://arxiv.org/abs/2312.09681v1 )

ライセンス: Link先を確認
Zechen Li, Weiming Huang, Kai Zhao, Min Yang, Yongshun Gong, Meng Chen(参考訳) 近年,都市における多様な社会経済的特徴の分布を深く理解するために,マルチモーダルデータ(情報視点)を用いた都市地域表現の学習が盛んに行われている。 しかし、従来の手法は通常、後続の段階で多視点情報をブレンドし、異なる視点にまたがるコヒーレントで一貫した表現の学習に不足する。 本稿では,様々な視点から一貫した表現を学習するための新しいパイプラインを構築し,poi(point-of-interest)とモビリティデータから複数の情報ビューを活用するrecp(multi-view contrastive prediction model for urban region embedded)を提案する。 具体的には、ReCPは、コントラスト学習と特徴再構成を利用して個々のビューからユニークな情報をキャプチャするビュー内学習モジュールと、コントラスト予測学習スキームを用いて2つのビュー間の一貫性を知覚するビュー間学習モジュールの2つの主要モジュールから構成される。 提案モデル,すなわち土地利用クラスタリングと地域人気予測を評価するため,下流2つの課題について徹底的な実験を行った。 実験の結果,都市域の表現学習において,我々のモデルは最先端のベースライン手法よりも優れていた。

Recently, learning urban region representations utilizing multi-modal data (information views) has become increasingly popular, for deep understanding of the distributions of various socioeconomic features in cities. However, previous methods usually blend multi-view information in a posteriors stage, falling short in learning coherent and consistent representations across different views. In this paper, we form a new pipeline to learn consistent representations across varying views, and propose the multi-view Contrastive Prediction model for urban Region embedding (ReCP), which leverages the multiple information views from point-of-interest (POI) and human mobility data. Specifically, ReCP comprises two major modules, namely an intra-view learning module utilizing contrastive learning and feature reconstruction to capture the unique information from each single view, and inter-view learning module that perceives the consistency between the two views using a contrastive prediction learning scheme. We conduct thorough experiments on two downstream tasks to assess the proposed model, i.e., land use clustering and region popularity prediction. The experimental results demonstrate that our model outperforms state-of-the-art baseline methods significantly in urban region representation learning.
翻訳日:2023-12-18 16:14:58 公開日:2023-12-15
# 逐次意思決定のためのニューラルネットワークに基づくポリシーの検証と検証のレビュー

A Review of Validation and Verification of Neural Network-based Policies for Sequential Decision Making ( http://arxiv.org/abs/2312.09680v1 )

ライセンス: Link先を確認
Q. Mazouni, H. Spieker, A. Gotlieb and M. Acher(参考訳) 逐次意思決定では、ニューラルネットワーク(nn)がエージェントのポリシーを表現し学習するために一般的に使用される。 この適用領域は、従来の検証と検証のプラクティスでは処理できない新しいソフトウェア品質評価の課題を暗示している。 その後、これらの手法をnnベースの政策に順次決定するための新しいアプローチが登場している。 本稿では,これらの新たな貢献を要約し,今後の研究の方向性を提案する。 我々は最近の研究論文(2018年から2023年初頭)の文献レビューを行い、その内容はnnベースの政策の検証や検証の側面を取り上げている。 この選択は、研究の範囲を緩和し、同様の検証課題とその最近の解決策に関する洞察を読者に提供するため、以前に選択した論文からの雪球プロセスによって強化されている。 最終的に18の論文が選ばれた。 以上の結果から,本研究への関心が高まっていることを示す。 彼らは、考慮された問題とそれらに取り組むのに使用されるテクニックの両方の多様性を強調している。

In sequential decision making, neural networks (NNs) are nowadays commonly used to represent and learn the agent's policy. This area of application has implied new software quality assessment challenges that traditional validation and verification practises are not able to handle. Subsequently, novel approaches have emerged to adapt those techniques to NN-based policies for sequential decision making. This survey paper aims at summarising these novel contributions and proposing future research directions. We conducted a literature review of recent research papers (from 2018 to beginning of 2023), whose topics cover aspects of the test or verification of NN-based policies. The selection has been enriched by a snowballing process from the previously selected papers, in order to relax the scope of the study and provide the reader with insight into similar verification challenges and their recent solutions. 18 papers have been finally selected. Our results show evidence of increasing interest for this subject. They highlight the diversity of both the exact problems considered and the techniques used to tackle them.
翻訳日:2023-12-18 16:14:35 公開日:2023-12-15
# 2ビット回転ゲートの最適継手切削

Optimal joint cutting of two-qubit rotation gates ( http://arxiv.org/abs/2312.09679v1 )

ライセンス: Link先を確認
Christian Ufrecht and Laura S. Herzog and Daniel D. Scherer and Maniraman Periyasamy and Sebastian Rietsch and Axel Plinge and Christopher Mutschler(参考訳) 量子回路を小さな独立した断片に分割する回路切断は、現在の量子計算実験をスケールアップするための有望な手段となっている。 本稿では,仮想ゲート・テレポーテーションプロトコルに基づく2ビット回転ゲートの接合切断方式を提案する。 これにより、サンプリングオーバーヘッドの前の上限を大幅に下げ、スキームの最適性が証明される。 さらに,回路分割間の古典的な通信は不要であることを示す。 平行2量子回転ゲートに対しては、CNOTゲートを含む最適アンシラフリー分解を特別な場合として導出する。

Circuit cutting, the partitioning of quantum circuits into smaller independent fragments, has become a promising avenue for scaling up current quantum-computing experiments. Here, we introduce a scheme for joint cutting of two-qubit rotation gates based on a virtual gate-teleportation protocol. By that, we significantly lower the previous upper bounds on the sampling overhead and prove optimality of the scheme. Furthermore, we show that no classical communication between the circuit partitions is required. For parallel two-qubit rotation gates we derive an optimal ancilla-free decomposition, which include CNOT gates as a special case.
翻訳日:2023-12-18 16:14:19 公開日:2023-12-15
# nuScenes Knowledge Graph -- 軌跡予測のための交通シーンの包括的意味表現

nuScenes Knowledge Graph -- A comprehensive semantic representation of traffic scenes for trajectory prediction ( http://arxiv.org/abs/2312.09676v1 )

ライセンス: Link先を確認
Leon Mlodzian, Zhigang Sun, Hendrik Berkemeyer, Sebastian Monka, Zixu Wang, Stefan Dietze, Lavdim Halilaj, Juergen Luettin(参考訳) 交通シーンにおける軌道予測は、周囲の車両の挙動を正確に予測する。 この目的を達成するためには、車両の走行経路、道路トポロジー、車線分割器、交通規則などの文脈情報を考慮することが不可欠である。 研究は、軌跡予測を改善するために異種コンテキストを活用する可能性を示したが、最先端のディープラーニングアプローチは依然としてこの情報の限られたサブセットに依存している。 これは主に包括的な表現が限られているためである。 本稿では,知識グラフを用いて交通シーン内の多様なエンティティとその意味的関係をモデル化する手法を提案する。 さらに, nSKG(nuScenes Knowledge Graph)という, nuScenesデータセットの知識グラフを提示する。 トラジェクトリ予測のためのグラフニューラルネットワークによるnSKGの利用を容易にするため,PyGライブラリが使用可能なフォーマットでデータを提供する。 すべてのアーティファクトはここにある。 https://github.com/boschresearch/nuScenes_Knowledge_Graph

Trajectory prediction in traffic scenes involves accurately forecasting the behaviour of surrounding vehicles. To achieve this objective it is crucial to consider contextual information, including the driving path of vehicles, road topology, lane dividers, and traffic rules. Although studies demonstrated the potential of leveraging heterogeneous context for improving trajectory prediction, state-of-the-art deep learning approaches still rely on a limited subset of this information. This is mainly due to the limited availability of comprehensive representations. This paper presents an approach that utilizes knowledge graphs to model the diverse entities and their semantic connections within traffic scenes. Further, we present nuScenes Knowledge Graph (nSKG), a knowledge graph for the nuScenes dataset, that models explicitly all scene participants and road elements, as well as their semantic and spatial relationships. To facilitate the usage of the nSKG via graph neural networks for trajectory prediction, we provide the data in a format, ready-to-use by the PyG library. All artefacts can be found here: https://github.com/boschresearch/nuScenes_Knowledge_Graph
翻訳日:2023-12-18 16:14:10 公開日:2023-12-15
# バンディットにおける協調学習のための最適後悔限度

Optimal Regret Bounds for Collaborative Learning in Bandits ( http://arxiv.org/abs/2312.09674v1 )

ライセンス: Link先を確認
Amitis Shidani and Sattar Vakili(参考訳) 汎用的な協調型マルチエージェント・マルチアーム・バンディット・モデルでは,各エージェントが有限個のアームに面し,中央制御器を介して他のエージェントと通信することができる。 このモデルにおける各エージェントの最適なアームは、最も期待される混合報酬を持つアームであり、各アームの混合報酬は、各エージェント間の報酬の重み付け平均であり、エージェント間の通信が不可欠である。 このコラボレーティブモデルの下では、最善の腕識別のための最適に近いサンプル複合体が知られているが、最適後悔の問題は未解決である。 本研究では,この問題に対処し,この協調帯域モデルの下での最適後悔境界付きアルゴリズムを提案する。 さらに,期待される通信ラウンドの一定数しか必要としないことを示す。

We consider regret minimization in a general collaborative multi-agent multi-armed bandit model, in which each agent faces a finite set of arms and may communicate with other agents through a central controller. The optimal arm for each agent in this model is the arm with the largest expected mixed reward, where the mixed reward of each arm is a weighted average of its rewards across all agents, making communication among agents crucial. While near-optimal sample complexities for best arm identification are known under this collaborative model, the question of optimal regret remains open. In this work, we address this problem and propose the first algorithm with order optimal regret bounds under this collaborative bandit model. Furthermore, we show that only a small constant number of expected communication rounds is needed.
翻訳日:2023-12-18 16:13:51 公開日:2023-12-15
# 深部生成逆ネットワークを用いたロボット書道のスタイル生成

Style Generation in Robot Calligraphy with Deep Generative Adversarial Networks ( http://arxiv.org/abs/2312.09673v1 )

ライセンス: Link先を確認
Xiaoming Wang, Zhiguo Gong(参考訳) ロボット書道は、芸術と教育の分野における人工知能の新たな探索である。 従来の書道世代の研究は主にツールベースの画像処理、生成モデル、スタイル転送などの手法に焦点を当てている。 英語のアルファベットとは異なり、漢字の数は数万であり、6000文字を超える中国の書体が一貫した書体を生成するのが困難である。 高品質なデータセットの欠如、書道知識の形式的定義、科学的技術評価方法により、得られた結果は品質が低く、専門レベルの要件に満たないことが多い。 上記の問題に対処するため,本研究では,プロフェッショナルな基準で書体を生成可能な,深層生成逆数ネットワーク(deepGAN)に基づく自動書跡生成モデルを提案する。 提案手法の主な特徴は,(1)高品質かつ十分な量を確保するために,データセットが高精度な書道合成手法を使用すること,(2)モデル生成結果と人間の芸術的レベルのギャップを評価するための一連のチューリングテストを実施すること,(3)実験結果から,提案手法が現行の書道生成手法の最先端であることを示唆する。 チューリング試験と類似性評価は,提案手法の有効性を検証した。

Robot calligraphy is an emerging exploration of artificial intelligence in the fields of art and education. Traditional calligraphy generation researches mainly focus on methods such as tool-based image processing, generative models, and style transfer. Unlike the English alphabet, the number of Chinese characters is tens of thousands, which leads to difficulties in the generation of a style consistent Chinese calligraphic font with over 6000 characters. Due to the lack of high-quality data sets, formal definitions of calligraphy knowledge, and scientific art evaluation methods, The results generated are frequently of low quality and falls short of professional-level requirements. To address the above problem, this paper proposes an automatic calligraphy generation model based on deep generative adversarial networks (deepGAN) that can generate style calligraphy fonts with professional standards. The key highlights of the proposed method include: (1) The datasets use a high-precision calligraphy synthesis method to ensure its high quality and sufficient quantity; (2) Professional calligraphers are invited to conduct a series of Turing tests to evaluate the gap between model generation results and human artistic level; (3) Experimental results indicate that the proposed model is the state-of-the-art among current calligraphy generation methods. The Turing tests and similarity evaluations validate the effectiveness of the proposed method.
翻訳日:2023-12-18 16:13:37 公開日:2023-12-15
# instructpipe: ヒューマンインストラクションによるビジュアルプログラミングパイプラインの構築

InstructPipe: Building Visual Programming Pipelines with Human Instructions ( http://arxiv.org/abs/2312.09672v1 )

ライセンス: Link先を確認
Zhongyi Zhou, Jing Jin, Vrushank Phadnis, Xiuxiu Yuan, Jun Jiang, Xun Qian, Jingtao Zhou, Yiyi Huang, Zheng Xu, Yinda Zhang, Kristen Wright, Jason Mayes, Mark Sherwood, Johnny Lee, Alex Olwal, David Kim, Ram Iyengar, Na Li, Ruofei Du(参考訳) visual programmingは初心者レベルのプログラマに、カスタマイズされたパイプラインを構築するためのコーディング不要なエクスペリエンスを提供する。 既存のシステムでは、スクラッチから完全にパイプラインを構築する必要があるため、初心者のユーザは、空白のワークスペースから始まる適切なノードを自分でセットアップしてリンクする必要がある。 InstructPipeは、ユーザーがテキスト命令で機械学習パイプライン(ML)のプロトタイピングを開始することができるAIアシスタントである。 2つのLCMモジュールとコードインタプリタを設計してソリューションを実行しました。 LLMモジュールはターゲットパイプラインの擬似コードを生成し、インタプリタはノードグラフエディタにパイプラインを描画して、さらなる人間とAIのコラボレーションを行う。 技術的評価では、instructpipeは従来の方法に比べてユーザインタラクションを81.1%削減している。 私たちのユーザスタディ(N=16)では、InstructPipeによって、望まれるMLパイプラインの作成において、初心者のワークフローを合理化し、学習曲線を減らし、オープンなコマンドで革新的なアイデアを創り出すことができます。

Visual programming provides beginner-level programmers with a coding-free experience to build their customized pipelines. Existing systems require users to build a pipeline entirely from scratch, implying that novice users need to set up and link appropriate nodes all by themselves, starting from a blank workspace. We present InstructPipe, an AI assistant that enables users to start prototyping machine learning (ML) pipelines with text instructions. We designed two LLM modules and a code interpreter to execute our solution. LLM modules generate pseudocode of a target pipeline, and the interpreter renders a pipeline in the node-graph editor for further human-AI collaboration. Technical evaluations reveal that InstructPipe reduces user interactions by 81.1% compared to traditional methods. Our user study (N=16) showed that InstructPipe empowers novice users to streamline their workflow in creating desired ML pipelines, reduce their learning curve, and spark innovative ideas with open-ended commands.
翻訳日:2023-12-18 16:13:13 公開日:2023-12-15
# 階層特性を持つ事前学習言語モデルの提案

Probing Pretrained Language Models with Hierarchy Properties ( http://arxiv.org/abs/2312.09670v1 )

ライセンス: Link先を確認
Jes\'us Lov\'on-Melgarejo, Jose G. Moreno, Romaric Besan\c{c}on, Olivier Ferret, Lynda Tamine(参考訳) 事前学習言語モデル(PLM)は、最新の情報検索モデル(IR)の基盤となっているため、セマンティック知識を符号化する方法は特に重要である。 しかし、PLMの階層的意味知識を捉える能力についてはほとんど注目されていない。 伝統的に、PLMにエンコードされたそのような知識の評価は、ハイパーネミー検出のようなプロキシタスクに基づくタスク依存評価アプローチの性能に依存する。 残念ながら、このアプローチは他の暗黙的かつ複雑な分類学的関係を無視している可能性がある。 本研究では, PLMが祖先や兄弟等の複雑な分類学関係をどの程度捉えることができるかを評価するためのタスク非依存評価手法を提案する。 この評価は分類法の階層的性質を捉えた本質的性質に基づいている。 実験の結果,plmに暗黙的にエンコードされたレクシコ・セマンティクス的知識は必ずしも階層的関係を捉えているとは限らない。 さらに,提案するプロパティを PLM に注入することで,階層構造に対する理解を深めることができることを示す。 分類の再構築,ハイパーネム発見,理解的タスクの評価を通じて,階層構造に関する知識は適度ではあるが,タスク間で体系的に伝達できないことを示す。

Since Pretrained Language Models (PLMs) are the cornerstone of the most recent Information Retrieval (IR) models, the way they encode semantic knowledge is particularly important. However, little attention has been given to studying the PLMs' capability to capture hierarchical semantic knowledge. Traditionally, evaluating such knowledge encoded in PLMs relies on their performance on a task-dependent evaluation approach based on proxy tasks, such as hypernymy detection. Unfortunately, this approach potentially ignores other implicit and complex taxonomic relations. In this work, we propose a task-agnostic evaluation method able to evaluate to what extent PLMs can capture complex taxonomy relations, such as ancestors and siblings. The evaluation is based on intrinsic properties that capture the hierarchical nature of taxonomies. Our experimental evaluation shows that the lexico-semantic knowledge implicitly encoded in PLMs does not always capture hierarchical relations. We further demonstrate that the proposed properties can be injected into PLMs to improve their understanding of hierarchy. Through evaluations on taxonomy reconstruction, hypernym discovery and reading comprehension tasks, we show that the knowledge about hierarchy is moderately but not systematically transferable across tasks.
翻訳日:2023-12-18 16:12:54 公開日:2023-12-15
# 帰納的マルコフ圏と量子デ・フィネッティ定理

Involutive Markov categories and the quantum de Finetti theorem ( http://arxiv.org/abs/2312.09666v1 )

ライセンス: Link先を確認
Tobias Fritz and Antonio Lorenzin(参考訳) マルコフ圏は近年、確率論と理論統計の強力な高水準フレームワークとして登場している。 ここでは、インボリューティブマルコフ圏と呼ばれるこの概念の量子バージョンを研究する。 まず、これらはParzygnatの量子マルコフ圏と同値であるが、これらはより単純であると主張する。 帰納的マルコフ圏の主な例は、(任意の次元の) C*-代数を対象とし、関心の図形の射としての完全正のユニタリ写像である。 第二に、最小の C*-テンソルノルムと最大の C*-テンソルノルムの両方に対して量子デフィネッティ定理を証明し、状態空間の普遍性に相当するそのような量子デフィネッティ定理の分類学的記述を開発する。

Markov categories have recently emerged as a powerful high-level framework for probability theory and theoretical statistics. Here we study a quantum version of this concept, called involutive Markov categories. First, we show that these are equivalent to Parzygnat's quantum Markov categories but argue that they are simpler to work with. Our main examples of involutive Markov categories involve C*-algebras (of any dimension) as objects and completely positive unital maps as morphisms in the picture of interest. Second, we prove a quantum de Finetti theorem for both the minimal and the maximal C*-tensor norms, and we develop a categorical description of such quantum de Finetti theorems which amounts to a universal property of state spaces.
翻訳日:2023-12-18 16:12:35 公開日:2023-12-15
# PELP:シーケンス間ニューラルネットワークを用いたパイオニアイベントログ予測

PELP: Pioneer Event Log Prediction Using Sequence-to-Sequence Neural Networks ( http://arxiv.org/abs/2312.09741v1 )

ライセンス: Link先を確認
Wenjun Zhou, Artem Polyvyanyy, James Bailey(参考訳) イベントログを使ってビジネスプロセスを分析し、視覚化し、改善するためのデータ駆動アプローチであるプロセスマイニングは、ビジネスプロセス管理の分野で強力な技術として登場しました。 プロセス予測は、将来のプロセスやプロセスモデルを予測する方法を研究するプロセスマイニングのサブフィールドである。 本稿では,イベントログ予測の問題の紹介と動機付けを行い,イベントログ予測問題,特にシーケンシャル・ツー・シーケンス・ディープラーニング手法を用いて解決する手法を提案する。 我々は,様々な合成ログと7つの実生活ログの予測結果を評価し分析し,この手法が合成ログの完全な予測を生成できることを示すとともに,ディープラーニング技術が実世界のイベントログ予測タスクに適用できる可能性を示す。 さらに,実測実験の結果に基づくイベントログ予測について,実用的な推奨を行う。

Process mining, a data-driven approach for analyzing, visualizing, and improving business processes using event logs, has emerged as a powerful technique in the field of business process management. Process forecasting is a sub-field of process mining that studies how to predict future processes and process models. In this paper, we introduce and motivate the problem of event log prediction and present our approach to solving the event log prediction problem, in particular, using the sequence-to-sequence deep learning approach. We evaluate and analyze the prediction outcomes on a variety of synthetic logs and seven real-life logs and show that our approach can generate perfect predictions on synthetic logs and that deep learning techniques have the potential to be applied in real-world event log prediction tasks. We further provide practical recommendations for event log predictions grounded in the outcomes of the conducted experiments.
翻訳日:2023-12-18 16:07:32 公開日:2023-12-15
# 3DAxies Prompts: GPT-4Vの3次元空間タスク能力の展開

3DAxiesPrompts: Unleashing the 3D Spatial Task Capabilities of GPT-4V ( http://arxiv.org/abs/2312.09738v1 )

ライセンス: Link先を確認
Dingning Liu, Xiaomeng Dong, Renrui Zhang, Xu Luo, Peng Gao, Xiaoshui Huang, Yongshun Gong, Zhihui Wang(参考訳) 本研究では,3次元空間タスクにおけるGPT-4Vの能力を解き放つために,3DAxiesPrompts (3DAP) と呼ばれる新しい視覚的プロンプト法を提案する。 GPT-4Vは、現在の視覚的プロンプト技術による2次元実体の位置と相互関係を識別する能力を示すが、3次元空間タスクの処理能力はまだ検討されていない。 提案手法では,3次元画像に適した3次元座標系を作成し,注釈付きスケール情報で完結する。 3dap視覚プロンプトを入力としてイメージを提示することにより、gpt-4vに、所定の3dターゲット画像の空間位置情報を高精度に確認する権限を与える。 実験により,3DAP法を用いて安定的に完了可能な3つのタスク,すなわち2Dから3Dポイント再構成,2Dから3Dポイントマッチング,3Dオブジェクト検出を同定した。 提案した3DAPデータを用いて実験を行い, これらの実験結果から, 3DAPによるGPT-4V入力の有効性を検証した。

In this work, we present a new visual prompting method called 3DAxiesPrompts (3DAP) to unleash the capabilities of GPT-4V in performing 3D spatial tasks. Our investigation reveals that while GPT-4V exhibits proficiency in discerning the position and interrelations of 2D entities through current visual prompting techniques, its abilities in handling 3D spatial tasks have yet to be explored. In our approach, we create a 3D coordinate system tailored to 3D imagery, complete with annotated scale information. By presenting images infused with the 3DAP visual prompt as inputs, we empower GPT-4V to ascertain the spatial positioning information of the given 3D target image with a high degree of precision. Through experiments, We identified three tasks that could be stably completed using the 3DAP method, namely, 2D to 3D Point Reconstruction, 2D to 3D point matching, and 3D Object Detection. We perform experiments on our proposed dataset 3DAP-Data, the results from these experiments validate the efficacy of 3DAP-enhanced GPT-4V inputs, marking a significant stride in 3D spatial task execution.
翻訳日:2023-12-18 16:07:15 公開日:2023-12-15
# HEAR:ビデオ対話のための音声応答の強化

HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue ( http://arxiv.org/abs/2312.09736v1 )

ライセンス: Link先を確認
Sunjae Yoon, Dahyun Kim, Eunseop Yoon, Hee Suk Yoon, Junyeong Kim, Chnag D. Yoo(参考訳) ビデオグラウンドド・ダイアログ(VGD)は、ビデオ、音声、対話履歴を含む所定のマルチモーダル入力に関する質問に答えることを目的としている。 応答の質を向上させるためのVGDシステムの開発には多くの取り組みがあったが、既存のシステムはビデオやテキストに情報を取り込むことしかできず、質問に対する適切な応答を生成する際には音声から必要な情報を取り出すのに苦労する傾向にある。 VGDシステムは聴覚障害のように見えるため、現在のシステムでは聴覚障害として音声データを無視しているという症状を生じさせる。 難聴者応答問題を克服するために,質問時に音声を選択的に受聴することにより,聴力強化音声応答(hear)フレームワークを提案する。 hearフレームワークはモデルに依存しない方法でvgdシステムの精度と可聴性を高める。 HEARはVGDデータセット(AVSD@DSTC7とAVSD@DSTC8)で検証され、様々なVGDシステムでの有効性を示す。

Video-grounded Dialogue (VGD) aims to answer questions regarding a given multi-modal input comprising video, audio, and dialogue history. Although there have been numerous efforts in developing VGD systems to improve the quality of their responses, existing systems are competent only to incorporate the information in the video and text and tend to struggle in extracting the necessary information from the audio when generating appropriate responses to the question. The VGD system seems to be deaf, and thus, we coin this symptom of current systems' ignoring audio data as a deaf response. To overcome the deaf response problem, Hearing Enhanced Audio Response (HEAR) framework is proposed to perform sensible listening by selectively attending to audio whenever the question requires it. The HEAR framework enhances the accuracy and audibility of VGD systems in a model-agnostic manner. HEAR is validated on VGD datasets (i.e., AVSD@DSTC7 and AVSD@DSTC8) and shows effectiveness with various VGD systems.
翻訳日:2023-12-18 16:06:53 公開日:2023-12-15
# 核ヒルベルト空間を再現したハミルトン力学の学習

Learning of Hamiltonian Dynamics with Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2312.09734v1 )

ライセンス: Link先を確認
Torbj{\o}rn Smith, Olav Egeland(参考訳) 本稿では,限られたデータ点からハミルトン力学を学習する手法を提案する。 ハミルトニアンベクトル場は、本質的にハミルトニアンであり、ベクトル場が奇数あるいは偶数であるようなベクトル場の再生核ヒルベルト空間上の正規化された最適化によって発見される。 これはシンプレクティックカーネルで行われ、このシンプレクティックカーネルが奇妙でも偶数でも変更可能であることを示す。 この手法の性能は2つのハミルトニアン系のシミュレーションで検証される。 学習したダイナミクスはハミルトニアンであり、学習されたハミルトニアンベクトル場は奇数あるいは偶数であると定式化できることを示した。

This paper presents a method for learning Hamiltonian dynamics from a limited set of data points. The Hamiltonian vector field is found by regularized optimization over a reproducing kernel Hilbert space of vector fields that are inherently Hamiltonian, and where the vector field is required to be odd or even. This is done with a symplectic kernel, and it is shown how this symplectic kernel can be modified to be odd or even. The performance of the method is validated in simulations for two Hamiltonian systems. It is shown that the learned dynamics are Hamiltonian, and that the learned Hamiltonian vector field can be prescribed to be odd or even.
翻訳日:2023-12-18 16:06:34 公開日:2023-12-15
# ゼロショットllmを用いたソフトウェア開発者コミュニケーションにおける感情原因の解明

Uncovering the Causes of Emotions in Software Developer Communication Using Zero-shot LLMs ( http://arxiv.org/abs/2312.09731v1 )

ライセンス: Link先を確認
Mia Mohammad Imran, Preetha Chatterjee, Kostadin Damevski(参考訳) 開発者の感情の背後にある原因の理解と識別(例えば、“プルリクエストのマージ時の遅延”によるフラストレーション)は、問題に対する解決策を見つけ、オープンソースコミュニティにおけるコラボレーションを育む上で極めて重要である。 チャット、Eメール、イシューコメントなど、異なるプロジェクトチャネル間のコミュニケーションの量でそのような情報を効果的に識別するには、感情とその原因を自動認識する必要がある。 この自動化を実現するには、正確な機械学習モデルをトレーニングするために使用できる、大規模なソフトウェアエンジニアリング固有のデータセットが必要である。 しかし、そのようなデータセットは、ソフトウェアプロジェクトのコミュニケーションチャネルの多様性と非公式の性質で作成するのに高価である。 本稿では,ソフトウェア工学における感情の原因を検出するタスクであるChatGPT,GPT-4,Flan-alpacaを特に微調整することなく,大量のデータセットで事前訓練したゼロショットLCMについて検討する。 評価の結果,最近利用可能なモデルでは,詳細な感情を与えられた場合の感情カテゴリーを識別できることがわかった。 感情原因同定では,ゼロショットllmがbleu-2スコア0.598の正確な感情原因の認識に有効であることが示された。 これらのテクニックの潜在的な利用を強調するため,我々は,人気の高いオープンソースプロジェクトの開発におけるフラストレーションの原因についてケーススタディを行い,いくつかの興味深い知見を明らかにした。

Understanding and identifying the causes behind developers' emotions (e.g., Frustration caused by `delays in merging pull requests') can be crucial towards finding solutions to problems and fostering collaboration in open-source communities. Effectively identifying such information in the high volume of communications across the different project channels, such as chats, emails, and issue comments, requires automated recognition of emotions and their causes. To enable this automation, large-scale software engineering-specific datasets that can be used to train accurate machine learning models are required. However, such datasets are expensive to create with the variety and informal nature of software projects' communication channels. In this paper, we explore zero-shot LLMs that are pre-trained on massive datasets but without being fine-tuned specifically for the task of detecting emotion causes in software engineering: ChatGPT, GPT-4, and flan-alpaca. Our evaluation indicates that these recently available models can identify emotion categories when given detailed emotions, although they perform worse than the top-rated models. For emotion cause identification, our results indicate that zero-shot LLMs are effective at recognizing the correct emotion cause with a BLEU-2 score of 0.598. To highlight the potential use of these techniques, we conduct a case study of the causes of Frustration in the last year of development of a popular open-source project, revealing several interesting insights.
翻訳日:2023-12-18 16:06:07 公開日:2023-12-15
# LiteVSR: ラベルなしデータの音声表現から学習した効率的な視覚音声認識

LiteVSR: Efficient Visual Speech Recognition by Learning from Speech Representations of Unlabeled Data ( http://arxiv.org/abs/2312.09727v1 )

ライセンス: Link先を確認
Hendrik Laux, Emil Mededovic, Ahmed Hallawa, Lukas Martin, Arne Peine, Anke Schmeink(参考訳) 本稿では,任意の訓練済み自動音声認識(asr)モデルによって生成された音声表現を活用した,視覚音声認識(vsr)に対する新しい資源効率の高いアプローチを提案する。 近年の文献では,資源集約的な傾向から離れて,訓練されたコンフォーマーベースのASRモデルから知識を抽出し,標準VSRベンチマークの競争性能を著しく低下させる。 LRS2 と LRS3 のテストベンチマークでは,ラベル付き音声視覚データのみを用いて,ワードエラー率 47.4% と 54.7% をそれぞれ達成している。 ラベル付きデータでモデルを微調整した後、単語エラー率は35%(LRS2)と45.7%(LRS3)に低下する。 我々のモデルは、数日で1つのコンシューマグレードのGPUでトレーニングでき、日付のハードウェア上でリアルタイムのエンドツーエンドのVSRを実行することができる。

This paper proposes a novel, resource-efficient approach to Visual Speech Recognition (VSR) leveraging speech representations produced by any trained Automatic Speech Recognition (ASR) model. Moving away from the resource-intensive trends prevalent in recent literature, our method distills knowledge from a trained Conformer-based ASR model, achieving competitive performance on standard VSR benchmarks with significantly less resource utilization. Using unlabeled audio-visual data only, our baseline model achieves a word error rate (WER) of 47.4% and 54.7% on the LRS2 and LRS3 test benchmarks, respectively. After fine-tuning the model with limited labeled data, the word error rate reduces to 35% (LRS2) and 45.7% (LRS3). Our model can be trained on a single consumer-grade GPU within a few days and is capable of performing real-time end-to-end VSR on dated hardware, suggesting a path towards more accessible and resource-efficient VSR methodologies.
翻訳日:2023-12-18 16:05:23 公開日:2023-12-15
# スキーヤーを上から下まで追跡する

Tracking Skiers from the Top to the Bottom ( http://arxiv.org/abs/2312.09723v1 )

ライセンス: Link先を確認
Matteo Dunnhofer, Luca Sordi, Niki Martinel, Christian Micheloni(参考訳) スキーは冬のスポーツ競技で人気があり、競技の長い歴史がある。 この領域では、コンピュータビジョンはアスリートのパフォーマンスの理解を高める可能性があるが、その応用は限られた研究とデータセットのために他のスポーツよりも遅れている。 本稿では,このような隙間を埋めるための一歩を踏み出す。 完全なパフォーマンスを捉えたビデオにおいて、スキーヤー追跡のタスクについて徹底的な調査を行う。 連続的かつ正確なスキーヤーのローカライゼーションは、さらなるハイレベルなパフォーマンス解析の前提となる。 この研究を可能にするために、スキーにおけるコンピュータビジョンのための最大かつ最も注釈付きデータセットであるSkiTBを紹介した。 確立された手法と新たに導入されたスキーヤー最適化ベースラインアルゴリズムの両方を含む、いくつかのビジュアルオブジェクト追跡アルゴリズムをデータセットを用いてテストする。 その結果、視覚に基づくスキー解析における異なる追跡手法の適用性に関する貴重な知見が得られる。 SkiTB、コード、結果はhttps://machinelearning.uniud.it/datasets/skitb.comで入手できる。

Skiing is a popular winter sport discipline with a long history of competitive events. In this domain, computer vision has the potential to enhance the understanding of athletes' performance, but its application lags behind other sports due to limited studies and datasets. This paper makes a step forward in filling such gaps. A thorough investigation is performed on the task of skier tracking in a video capturing his/her complete performance. Obtaining continuous and accurate skier localization is preemptive for further higher-level performance analyses. To enable the study, the largest and most annotated dataset for computer vision in skiing, SkiTB, is introduced. Several visual object tracking algorithms, including both established methodologies and a newly introduced skier-optimized baseline algorithm, are tested using the dataset. The results provide valuable insights into the applicability of different tracking methods for vision-based skiing analysis. SkiTB, code, and results are available at https://machinelearning.uniud.it/datasets/skitb.
翻訳日:2023-12-18 16:04:52 公開日:2023-12-15
# 組織学的スライドレベル分類のためのニューラルネットワークの校正について

On the calibration of neural networks for histological slide-level classification ( http://arxiv.org/abs/2312.09719v1 )

ライセンス: Link先を確認
Alexander Kurz, Hendrik A. Mehrtens, Tabea-Clara Bucher, Titus J. Brinker(参考訳) ディープニューラルネットワークは、デジタル病理学におけるスライド画像全体から特定のバイオマーカーを予測する際に有望な分類性能を示している。 しかし、ネットワークの出力確率のキャリブレーションは評価されないことが多い。 信頼性スコアを提供することによる不確実性のコミュニケーションは、医学的文脈において高い関連性を持つ。 本研究では,パッチレベルの特徴表現とスライドレベルの予測を組み合わせた3つのニューラルネットワークアーキテクチャの分類性能を比較し,キャリブレーションを評価する。 スライドレベルの分類課題として,大腸癌組織からマイクロサテライト不安定性の予測を行う。 我々はトランスフォーマーが分類性能と校正の点で良い結果をもたらすことを観察する。 別データセットで分類性能を評価する際,Transformerが最適であることを示す。 信頼性図の調査は、期待された校正誤差測定値にさらなる洞察を与え、特にトランスフォーマーが出力確率を極端な値に押し上げ、過度な予測をもたらすことを観察する。

Deep Neural Networks have shown promising classification performance when predicting certain biomarkers from Whole Slide Images in digital pathology. However, the calibration of the networks' output probabilities is often not evaluated. Communicating uncertainty by providing reliable confidence scores is of high relevance in the medical context. In this work, we compare three neural network architectures that combine feature representations on patch-level to a slide-level prediction with respect to their classification performance and evaluate their calibration. As slide-level classification task, we choose the prediction of Microsatellite Instability from Colorectal Cancer tissue sections. We observe that Transformers lead to good results in terms of classification performance and calibration. When evaluating the classification performance on a separate dataset, we observe that Transformers generalize best. The investigation of reliability diagrams provides additional insights to the Expected Calibration Error metric and we observe that especially Transformers push the output probabilities to extreme values, which results in overconfident predictions.
翻訳日:2023-12-18 16:04:30 公開日:2023-12-15
# 高能率ショートカット推論の発見:テンプレートなし自動アプローチ

Discovering Highly Influential Shortcut Reasoning: An Automated Template-Free Approach ( http://arxiv.org/abs/2312.09718v1 )

ライセンス: Link先を確認
Daichi Haraguchi, Kiyoaki Shirai, Naoya Inoue, Natthawut Kertkeidkachorn(参考訳) ショートカット推論は推論の不合理なプロセスであり、NLPモデルの堅牢性を低下させる。 これまで多くの作業がショートカット推論の特定に取り組んできたが、依然として2つの大きな制限がある。 (i) 発見された近道推論の重大度を定量化する方法が提供されない。 (ii)特定の種類の近道推論を欠くことができる。 この問題に対処するために,近道推論を同定する新しい手法を提案する。 提案手法は,分布外データを利用してショートカット推論の重症度を定量化し,ショートカット推論を誘発するトークンの種類を仮定しない。 自然言語推論と感性分析に関する実験により、我々のフレームワークは、以前の研究で既知の、未知のショートカット推論を発見しました。

Shortcut reasoning is an irrational process of inference, which degrades the robustness of an NLP model. While a number of previous work has tackled the identification of shortcut reasoning, there are still two major limitations: (i) a method for quantifying the severity of the discovered shortcut reasoning is not provided; (ii) certain types of shortcut reasoning may be missed. To address these issues, we propose a novel method for identifying shortcut reasoning. The proposed method quantifies the severity of the shortcut reasoning by leveraging out-of-distribution data and does not make any assumptions about the type of tokens triggering the shortcut reasoning. Our experiments on Natural Language Inference and Sentiment Analysis demonstrate that our framework successfully discovers known and unknown shortcut reasoning in the previous work.
翻訳日:2023-12-18 16:04:01 公開日:2023-12-15
# let all be whitened: 効率的な視覚検索のためのマルチティーチャー蒸留

Let All be Whitened: Multi-teacher Distillation for Efficient Visual Retrieval ( http://arxiv.org/abs/2312.09716v1 )

ライセンス: Link先を確認
Zhe Ma, Jianfeng Dong, Shouling Ji, Zhenguang Liu, Xuhong Zhang, Zonghui Wang, Sifeng He, Feng Qian, Xiaobo Zhang, Lei Yang(参考訳) ビジュアル検索は、特定のクエリ項目を持つ候補ギャラリーから、画像やビデオなど、最も関連するビジュアルアイテムを検索することを目的としている。 精度と効率は、検索タスクにおいて競合する2つの目標である。 本論文では, 精度の向上を追求する新たな手法を考案する代わりに, 市販の事前学習型検索モデルからの知識を軽量な学生モデルに伝達し, 効率的なビジュアル検索を実現する多教師蒸留フレームワークWhiten-MTDを提案する。 さらに, 異なる検索モデルから得られる類似性は多様であり, 相容れないため, 複数のモデルから知識を共同で抽出することは困難である。 そこで本研究では,融合前の教師モデルの出力を白化し,検索モデルに有効なマルチティーチンガー蒸留を可能にすることを提案する。 whiten-mtdは概念上シンプルで事実上効果的である。 2つのランドマーク画像検索データセットと1つのビデオ検索データセットに対する大規模な実験により、提案手法の有効性と、その検索性能と効率のバランスが示された。 ソースコードはhttps://github.com/maryeon/whiten_mtdで公開しています。

Visual retrieval aims to search for the most relevant visual items, e.g., images and videos, from a candidate gallery with a given query item. Accuracy and efficiency are two competing objectives in retrieval tasks. Instead of crafting a new method pursuing further improvement on accuracy, in this paper we propose a multi-teacher distillation framework Whiten-MTD, which is able to transfer knowledge from off-the-shelf pre-trained retrieval models to a lightweight student model for efficient visual retrieval. Furthermore, we discover that the similarities obtained by different retrieval models are diversified and incommensurable, which makes it challenging to jointly distill knowledge from multiple models. Therefore, we propose to whiten the output of teacher models before fusion, which enables effective multi-teacher distillation for retrieval models. Whiten-MTD is conceptually simple and practically effective. Extensive experiments on two landmark image retrieval datasets and one video retrieval dataset demonstrate the effectiveness of our proposed method, and its good balance of retrieval performance and efficiency. Our source code is released at https://github.com/Maryeon/whiten_mtd.
翻訳日:2023-12-18 16:03:10 公開日:2023-12-15
# シリンダー存在下における熱放射と伝熱

Heat radiation and transfer in the presence of a cylinder ( http://arxiv.org/abs/2312.09714v1 )

ライセンス: Link先を確認
Kiryl Asheichyk, Matthias Kr\"uger(参考訳) 電磁的グリーンテンソルに基づいて, 無限長の円柱の存在下でのナノ粒子の熱放射と放射熱伝達について検討した。 単一粒子の熱放射はナノワイヤに近接させて増強することができ、この増強は同一材料のプレートに近接させるよりもはるかに大きい。 シリンダーに沿った熱伝達は空の真空よりもはるかに遅く、完全な導電性ナノワイヤの場合は特に長い範囲で、SiCシリンダーでは非単調な挙動を示す。 ナノ粒子の相対方位角への依存性を調べると、結果は小さな角度に敏感であることがわかったが、材料によっては角度が大きくなると大きく異なる可能性がある。 最後に、シリンダーが粒子間距離線に垂直に配置された場合、特にブロッキングが同じ半径の球面の幾何よりも強く強化される場合、熱流束を増強または閉塞することができることを示す。

We study heat radiation and radiative heat transfer for nanoparticles in the presence of an infinitely long cylinder in different geometrical configurations, based on its electromagnetic Green's tensor. The heat radiation of a single particle can be enhanced by placing it close to a nanowire, and this enhancement can be much larger as compared to placing it close to plate of same material. The heat transfer along a cylinder decays much slower than through empty vacuum, being especially long ranged in case of a perfectly conducting nanowire, and showing nonmonotonic behavior in case of a SiC cylinder. Exploring the dependence on the relative azimuthal angle of the nanoparticles, we find that the results are insensitive to small angles, but they can be drastically different when the angle is large, depending on the material. Finally, we demonstrate that a cylinder can either enhance or block the heat flux when placed perpendicular to the interparticle distance line, where especially the blocking is strongly enhanced compared to the geometry of a sphere of same radius.
翻訳日:2023-12-18 16:02:22 公開日:2023-12-15
# ParsNets: ゼロショット学習のための同期直交・低ランク線形ネットワーク

ParsNets: A Parsimonious Orthogonal and Low-Rank Linear Networks for Zero-Shot Learning ( http://arxiv.org/abs/2312.09709v1 )

ライセンス: Link先を確認
Jingcai Guo, Qihua Zhou, Ruibing Li, Xiaocheng Lu, Ziming Liu, Junyang Chen, Xin Xie, Jie Zhang(参考訳) 本稿では、ゼロショット学習(ZSL)のための新しいパースネット(ParsNets)について、直交性および低ランク性を持つデバイス上のフレンドリな線形ネットワークの構成を学習することに興味を持ち、既存の深層モデルに対して同等あるいはより優れた性能を実現する。 具体的には、まずZSLのコアモジュール、すなわち視覚意味マッピング関数を、複雑な非線形性を単純な局所線型性に分解できる意味空間の様々な構成要素に対応する複数のベース線形ネットワークにリファクタリングする。 次に,局所線型性の一般化を容易にするために,クラス内サンプルの低次制約とクラス間サンプルの高次制約を課し,各部分空間がコンパクト多様体上の直交部分空間となることにより,学習した特徴量に対する最大マージン幾何学を構築する。 zslにおけるモデルの適応性と不適合性を高めるために、これらのベース線形ネットワークからスパース部分集合を選択して各サンプル用の複合意味予測器を形成するサンプルワイズインジケータのセットを用いる。 特に、最大辺幾何学は特徴の多様性を保証し、一方局所線型性は効率を保証できる。 したがって、私たちのParsNetsは、目に見えないクラスをより一般化することができ、リソース制約のあるデバイスに柔軟にデプロイできます。 提案手法の有効性を検証するため,理論的な説明と広範な実験を行った。

This paper provides a novel parsimonious yet efficient design for zero-shot learning (ZSL), dubbed ParsNets, where we are interested in learning a composition of on-device friendly linear networks, each with orthogonality and low-rankness properties, to achieve equivalent or even better performance against existing deep models. Concretely, we first refactor the core module of ZSL, i.e., visual-semantics mapping function, into several base linear networks that correspond to diverse components of the semantic space, where the complex nonlinearity can be collapsed into simple local linearities. Then, to facilitate the generalization of local linearities, we construct a maximal margin geometry on the learned features by enforcing low-rank constraints on intra-class samples and high-rank constraints on inter-class samples, resulting in orthogonal subspaces for different classes and each subspace lies on a compact manifold. To enhance the model's adaptability and counterbalance over/under-fittings in ZSL, a set of sample-wise indicators is employed to select a sparse subset from these base linear networks to form a composite semantic predictor for each sample. Notably, maximal margin geometry can guarantee the diversity of features, and meanwhile, local linearities guarantee efficiency. Thus, our ParsNets can generalize better to unseen classes and can be deployed flexibly on resource-constrained devices. Theoretical explanations and extensive experiments are conducted to verify the effectiveness of the proposed method.
翻訳日:2023-12-18 16:02:05 公開日:2023-12-15
# GraphRARE: 相対エントロピーを備えた強化学習型グラフニューラルネットワーク

GraphRARE: Reinforcement Learning Enhanced Graph Neural Network with Relative Entropy ( http://arxiv.org/abs/2312.09708v1 )

ライセンス: Link先を確認
Tianhao Peng, Wenjun Wu, Haitao Yuan, Zhifeng Bao, Zhao Pengrui, Xin Yu, Xuetao Lin, Yu Liang, Yanjun Pu(参考訳) グラフニューラルネットワーク(GNN)は、グラフベースの分析タスクにおいて利点を示している。 しかし、既存の手法の多くは相同性を仮定しており、リンクされたノードが異なる特徴と異なるクラスラベルを持ち、意味的に関連するノードがマルチホップであるような疎グラフでは性能が低下している。 この制限に対処するため,GNNの表現能力を高めるために,ノード相対エントロピーと深層強化学習に基づく汎用フレームワークGraphRAREを提案する。 ノードの特徴と構造的類似性を考慮した革新的なノード相対エントロピーは、ノード対間の相互情報を測定するために用いられる。 また,遠隔ノードの有用な情報とノイズを混合して生じる副最適解を避けるため,グラフトポロジーを最適化する深層強化学習に基づくアルゴリズムを開発した。 このアルゴリズムは情報ノードを選択し、定義したノード相対エントロピーに基づいてノイズノードを破棄する。 7つの実世界のデータセットで大規模な実験を行う。 実験結果は,ノード分類におけるGraphRAREの優位性と,元のグラフトポロジを最適化する能力を示す。

Graph neural networks (GNNs) have shown advantages in graph-based analysis tasks. However, most existing methods have the homogeneity assumption and show poor performance on heterophilic graphs, where the linked nodes have dissimilar features and different class labels, and the semantically related nodes might be multi-hop away. To address this limitation, this paper presents GraphRARE, a general framework built upon node relative entropy and deep reinforcement learning, to strengthen the expressive capability of GNNs. An innovative node relative entropy, which considers node features and structural similarity, is used to measure mutual information between node pairs. In addition, to avoid the sub-optimal solutions caused by mixing useful information and noises of remote nodes, a deep reinforcement learning-based algorithm is developed to optimize the graph topology. This algorithm selects informative nodes and discards noisy nodes based on the defined node relative entropy. Extensive experiments are conducted on seven real-world datasets. The experimental results demonstrate the superiority of GraphRARE in node classification and its capability to optimize the original graph topology.
翻訳日:2023-12-18 16:01:39 公開日:2023-12-15
# PSOの勾配に基づくハイブリッド化

Gradient Based Hybridization of PSO ( http://arxiv.org/abs/2312.09703v1 )

ライセンス: Link先を確認
Arun K Pujari, Sowmini Devi Veeramachaneni(参考訳) Particle Swarm Optimization (PSO) は、過去30年間、強力なメタヒューリスティックなグローバル最適化アプローチとして現れてきた。 その魅力は、従来のアルゴリズムに反する複雑な多次元問題に取り組む能力にある。 しかしながら、PSOは、単一目的シナリオにおける早期の停滞や、探索と搾取のバランスを取る必要性といった課題に直面している。 多様なパラダイムから確立された最適化手法と協調的な性質を統合することでPSOをハイブリダイズすることは、有望な解決策となる。 本稿では,psoを用いた勾配に基づくオプティマイザの合成手法について検討する。 我々は,異なるハイブリダイゼーション原理を導入し,逐次分離ハイブリダイゼーション,結合ハイブリダイゼーション,適応ハイブリダイゼーションなど,いくつかのアプローチを検討する。 これらの戦略はPSOの効率性と有効性を高め、最終的には複雑な最適化風景をナビゲートする能力を向上させることを目的としている。 勾配に基づく手法の強みとPSOの固有の社会的ダイナミクスを組み合わせることで、複雑な最適化タスクにおける知的探索と搾取の重要な目的に取り組む。 本研究は,これらのハイブリダイゼーション手法の利点を比較し,様々な問題領域に適用するための洞察を提供する。

Particle Swarm Optimization (PSO) has emerged as a powerful metaheuristic global optimization approach over the past three decades. Its appeal lies in its ability to tackle complex multidimensional problems that defy conventional algorithms. However, PSO faces challenges, such as premature stagnation in single-objective scenarios and the need to strike a balance between exploration and exploitation. Hybridizing PSO by integrating its cooperative nature with established optimization techniques from diverse paradigms offers a promising solution. In this paper, we investigate various strategies for synergizing gradient-based optimizers with PSO. We introduce different hybridization principles and explore several approaches, including sequential decoupled hybridization, coupled hybridization, and adaptive hybridization. These strategies aim to enhance the efficiency and effectiveness of PSO, ultimately improving its ability to navigate intricate optimization landscapes. By combining the strengths of gradient-based methods with the inherent social dynamics of PSO, we seek to address the critical objectives of intelligent exploration and exploitation in complex optimization tasks. Our study delves into the comparative merits of these hybridization techniques and offers insights into their application across different problem domains.
翻訳日:2023-12-18 16:01:22 公開日:2023-12-15
# RANRAC:ランダム光によるロバストなニューラルシーン表現

RANRAC: Robust Neural Scene Representations via Random Ray Consensus ( http://arxiv.org/abs/2312.09780v1 )

ライセンス: Link先を確認
Benno Buschmann, Andreea Dogaru, Elmar Eisemann, Michael Weinmann, Bernhard Egger(参考訳) 今回我々は,オクルード画像およびオクルード画像を扱う3次元物体に対するロバスト再構成アルゴリズムであるranracを紹介する。 本ソリューションは,光電界ネットワークを介する単発再構成をサポートし,ニューラルネットワークによる実世界画像からの光リアリスティック,ロバスト,マルチビュー再構成にも応用できる。 このアルゴリズムはシーン表現に一定の制限を課すため、サポートされているシーンタイプは、一貫性のない視点を確実に検出し排除し、フローティングアーティファクトなしでクリーンな画像を生成する。 我々のソリューションはランダムサンプルコンセンサスパラダイムのファジィ適応に基づいており、大規模モデルへの適用を可能にしている。 モデルパラメータを可変ハイパーパラメータとして決定するために、最小サンプル数を解釈する。 これは、よりクリーンなサンプルセットが再構築品質を向上させるため適用できる。 さらに、この手順は外れ値も処理する。 特に条件付きモデルの場合、完全にクリーンな集合で得られるような潜在空間における局所最小値となる。 本研究は,8dBPSNRをベースラインと比較し,包括シナリオにおける新規ビュー合成の大幅な改善を報告した。

We introduce RANRAC, a robust reconstruction algorithm for 3D objects handling occluded and distracted images, which is a particularly challenging scenario that prior robust reconstruction methods cannot deal with. Our solution supports single-shot reconstruction by involving light-field networks, and is also applicable to photo-realistic, robust, multi-view reconstruction from real-world images based on neural radiance fields. While the algorithm imposes certain limitations on the scene representation and, thereby, the supported scene types, it reliably detects and excludes inconsistent perspectives, resulting in clean images without floating artifacts. Our solution is based on a fuzzy adaption of the random sample consensus paradigm, enabling its application to large scale models. We interpret the minimal number of samples to determine the model parameters as a tunable hyperparameter. This is applicable, as a cleaner set of samples improves reconstruction quality. Further, this procedure also handles outliers. Especially for conditioned models, it can result in the same local minimum in the latent space as would be obtained with a completely clean set. We report significant improvements for novel-view synthesis in occluded scenarios, of up to 8dB PSNR compared to the baseline.
翻訳日:2023-12-18 15:54:43 公開日:2023-12-15
# Hypergraph-MLP: メッセージパッシングのないハイパーグラフの学習

Hypergraph-MLP: Learning on Hypergraphs without Message Passing ( http://arxiv.org/abs/2312.09778v1 )

ライセンス: Link先を確認
Bohan Tang, Siheng Chen, Xiaowen Dong(参考訳) ハイパーグラフは、2つ以上のエンティティを含む高次関係を持つデータモデリングにおいて不可欠であり、機械学習と信号処理において注目を集めている。 多くのハイパーグラフニューラルネットワークは、ハイパーグラフ構造上のメッセージパッシングを利用してノード表現学習を強化し、ハイパーグラフノードの分類のようなタスクで印象的なパフォーマンスを実現している。 しかしながら、これらのメッセージパッシングベースのモデルは、オーバースムース化や高レイテンシ、推論時の構造摂動に対する感度など、いくつかの課題に直面している。 これらの課題に対処するために,我々はハイパーグラフ構造に関する情報を明示的なメッセージパッシングを伴わずにトレーニング監督に統合する手法を提案する。 具体的には,ハイパーグラフ上の信号スムースネスの概念に基づく損失関数によって教師される単純な多層パーセプトロン(MLP)であるハイパーグラフ構造化データのための新しい学習フレームワークであるHypergraph-MLPを紹介する。 ハイパーグラフノード分類タスクの実験により、hypergraph-mlpは既存のベースラインに比べて競合性能が向上し、推論時の構造的摂動に対してかなり高速かつ堅牢であることが示されている。

Hypergraphs are vital in modelling data with higher-order relations containing more than two entities, gaining prominence in machine learning and signal processing. Many hypergraph neural networks leverage message passing over hypergraph structures to enhance node representation learning, yielding impressive performances in tasks like hypergraph node classification. However, these message-passing-based models face several challenges, including oversmoothing as well as high latency and sensitivity to structural perturbations at inference time. To tackle those challenges, we propose an alternative approach where we integrate the information about hypergraph structures into training supervision without explicit message passing, thus also removing the reliance on it at inference. Specifically, we introduce Hypergraph-MLP, a novel learning framework for hypergraph-structured data, where the learning model is a straightforward multilayer perceptron (MLP) supervised by a loss function based on a notion of signal smoothness on hypergraphs. Experiments on hypergraph node classification tasks demonstrate that Hypergraph-MLP achieves competitive performance compared to existing baselines, and is considerably faster and more robust against structural perturbations at inference.
翻訳日:2023-12-18 15:54:22 公開日:2023-12-15
# 物理インフォームド機械学習における加算分離性試験の比較評価

A Comparative Evaluation of Additive Separability Tests for Physics-Informed Machine Learning ( http://arxiv.org/abs/2312.09775v1 )

ライセンス: Link先を確認
Zi-Yu Khoo, Jonathan Sze Choong Low, St\'ephane Bressan(参考訳) 物理系を特徴づける多くの関数は加法的に分離可能である。 例えば、物理学における機械的ハミルトン関数、生物学における人口増加方程式、経済学における消費者の嗜好とユーティリティ関数などである。 関数のサロゲートが付加的分離性のためにテストされるシナリオについて考察する。 サロゲートが付加的に分離可能であることの検出は、さらなる学習を改善するために活用できる。 したがって、サロゲートにおけるそのような分離性をテストする能力を持つことは有益である。 数学的アプローチは、サロゲートの混合部分微分がゼロか、あるいは経験的に閾値よりも低いかを検証することである。 本稿では,代用関数の混合部分微分を計算する8つの方法について,比較的かつ実験的に評価する。

Many functions characterising physical systems are additively separable. This is the case, for instance, of mechanical Hamiltonian functions in physics, population growth equations in biology, and consumer preference and utility functions in economics. We consider the scenario in which a surrogate of a function is to be tested for additive separability. The detection that the surrogate is additively separable can be leveraged to improve further learning. Hence, it is beneficial to have the ability to test for such separability in surrogates. The mathematical approach is to test if the mixed partial derivative of the surrogate is zero; or empirically, lower than a threshold. We present and comparatively and empirically evaluate the eight methods to compute the mixed partial derivative of a surrogate function.
翻訳日:2023-12-18 15:54:00 公開日:2023-12-15
# 生体内学習によるバイオリアクターの微生物集団密度の制御

In vivo learning-based control of microbial populations density in bioreactors ( http://arxiv.org/abs/2312.09773v1 )

ライセンス: Link先を確認
Sara Maria Brancato, Davide Salzano, Francesco De Lellis, Davide Fiore, Giovanni Russo, Mario di Bernardo(参考訳) 微生物をバイオファクトリーとして利用するための重要な問題は、バイオマスを効率的に有用な化合物に変換するために、細胞コミュニティを望ましい密度と組成で維持することである。 細胞密度のスケーラブルな制御をリアルタイムに行う技術プラットフォームはバイオリアクターである。 本研究では,バイオリアクターにおける細菌集団の密度を制御できる利用可能な制御アルゴリズムのツールボックスを拡張するための学習ベースの戦略を開発した。 具体的には、数個のデータを用いてキャリブレーションを行う単純な数学的モデルを用いて、コントローラのトレーニングのための合成データを生成する。 結果として得られた方針は、Chi.Bioと呼ばれる低コストのバイオリアクターを用いてin vivoで徹底的にテストされ、性能と堅牢性を評価した。 さらに、従来のコントローラ(PIとMPC)と比較し、学習ベースのコントローラが生体内で同様の性能を示すことを確認した。 本研究は, バイオリアクターの細胞密度制御のための学習ベースの戦略の実現可能性を示し, 微生物コンソーシアムの構成制御への活用に向けて一歩前進する。

A key problem toward the use of microorganisms as bio-factories is reaching and maintaining cellular communities at a desired density and composition so that they can efficiently convert their biomass into useful compounds. Promising technological platforms for the real time, scalable control of cellular density are bioreactors. In this work, we developed a learning-based strategy to expand the toolbox of available control algorithms capable of regulating the density of a \textit{single} bacterial population in bioreactors. Specifically, we used a sim-to-real paradigm, where a simple mathematical model, calibrated using a few data, was adopted to generate synthetic data for the training of the controller. The resulting policy was then exhaustively tested in vivo using a low-cost bioreactor known as Chi.Bio, assessing performance and robustness. In addition, we compared the performance with more traditional controllers (namely, a PI and an MPC), confirming that the learning-based controller exhibits similar performance in vivo. Our work showcases the viability of learning-based strategies for the control of cellular density in bioreactors, making a step forward toward their use for the control of the composition of microbial consortia.
翻訳日:2023-12-18 15:53:47 公開日:2023-12-15
# DreamTalk: 拡散確率モデルを使った表現型トーキングヘッドジェネレーション

DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.09767v1 )

ライセンス: Link先を確認
Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng(参考訳) 拡散モデルは、下流の様々な生成タスクで顕著な成功を示しているが、重要で挑戦的な話し頭生成では未熟である。 そこで本研究では,このギャップを満たすためのdreamtalkフレームワークを提案する。 具体的には、DreamTalkは3つの重要なコンポーネントで構成されている。 拡散に基づく認知ネットワークは、様々な表現にわたって高品質な音声駆動顔の動きを一貫して合成することができる。 唇動作の表現性や精度を高めるために,話し方に気を配りながら唇同期をガイドできるスタイル認識型唇専門家を導入する。 表現参照ビデオやテキストを不要にするため、音声から直接ターゲット表現を予測するために、追加の拡散ベースのスタイル予測器を用いる。 つまり、DreamTalkは強力な拡散モデルを利用して表現力のある顔を効果的に生成し、高価なスタイルの参照への依存を減らすことができる。 実験結果から,DreamTalkは多様な話し方で写実的な話し方を生成でき,唇の動きを正確に行うことができ,既存の最先端の顔よりも優れていた。

Diffusion models have shown remarkable success in a variety of downstream generative tasks, yet remain under-explored in the important and challenging expressive talking head generation. In this work, we propose a DreamTalk framework to fulfill this gap, which employs meticulous design to unlock the potential of diffusion models in generating expressive talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network is able to consistently synthesize high-quality audio-driven face motions across diverse expressions. To enhance the expressiveness and accuracy of lip motions, we introduce a style-aware lip expert that can guide lip-sync while being mindful of the speaking styles. To eliminate the need for expression reference video or text, an extra diffusion-based style predictor is utilized to predict the target expression directly from the audio. By this means, DreamTalk can harness powerful diffusion models to generate expressive faces effectively and reduce the reliance on expensive style references. Experimental results demonstrate that DreamTalk is capable of generating photo-realistic talking faces with diverse speaking styles and achieving accurate lip motions, surpassing existing state-of-the-art counterparts.
翻訳日:2023-12-18 15:53:27 公開日:2023-12-15
# 天体機械学習:データから火星まで、そしてai feynmanの先へ

Celestial Machine Learning: From Data to Mars and Beyond with AI Feynman ( http://arxiv.org/abs/2312.09766v1 )

ライセンス: Link先を確認
Zi-Yu Khoo, Abel Yang, Jonathan Sze Choong Low, St\'ephane Bressan(参考訳) 機械やアルゴリズムはケプラーの最初の法則を天文観測だけで発見できるだろうか。 ヨハネス・ケプラー(Johannes Kepler)による火星の軌道の方程式とルドルフ表を、物理学に触発された記号回帰の道具であるAI Feynmanを用いてエミュレートした。

Can a machine or algorithm discover or learn Kepler's first law from astronomical sightings alone? We emulate Johannes Kepler's discovery of the equation of the orbit of Mars with the Rudolphine tables using AI Feynman, a physics-inspired tool for symbolic regression.
翻訳日:2023-12-18 15:53:04 公開日:2023-12-15
# 量子設計からのエントロピー不確実性と絡み検出

Entropic uncertainty relations and entanglement detection from quantum designs ( http://arxiv.org/abs/2312.09765v1 )

ライセンス: Link先を確認
Yundu Zhao, Shan Huang, Shengjun Wu(参考訳) 不確実性関係と量子絡み合いは量子論において重要な概念である。 量子世界の理解を形作る上での基本的な重要性に加えて、量子情報理論における重要な応用も基礎としている。 本稿では,設計構造を持つ量子計測に着目し,エントロピーの不確実性関係と絡み合い検出について検討する。 一方,設計構造計測におけるr\'enyiエントロピーの不確かさ関係の改善を導出し,測定結果の異なるパワー(例えば2乗)の和が,計測系のユニタリ変換の下で不変となり,容易に計算できるという性質を生かした。 一方、上記の性質は本質的に状態に依存しない上界を課し、量子系上で設計構造化された一連の測定を行うとき、局所的な結果を予測する能力に基いて、すべての純粋状態において達成される。 これを実現するため,設計構造によるマルチパーティ・エンタングルメントの検出基準も取得した。

Uncertainty relations and quantum entanglement are pivotal concepts in quantum theory. Beyond their fundamental significance in shaping our understanding of the quantum world, they also underpin crucial applications in quantum information theory. In this article, we investigate entropic uncertainty relations and entanglement detection with an emphasis on quantum measurements with design structures. On the one hand, we derive improved R\'enyi entropic uncertainty relations for design-structured measurements, exploiting the property that the sum of powered (e.g., squared) probabilities of obtaining different measurement outcomes is now invariant under unitary transformations of the measured system and can be easily computed. On the other hand, the above property essentially imposes a state-independent upper bound, which is achieved at all pure states, on one's ability to predict local outcomes when performing a set of design-structured measurements on quantum systems. Realizing this, we also obtain criteria for detecting multi-partite entanglement with design-structured measurements.
翻訳日:2023-12-18 15:52:57 公開日:2023-12-15
# 量子化学のための対称性保存とゲート効率量子回路

Symmetry-preserving and gate-efficient quantum circuits for quantum chemistry ( http://arxiv.org/abs/2312.09761v1 )

ライセンス: Link先を確認
Hugh G. A. Burton(参考訳) 量子コンピュータが多体問題の指数的メモリスケーリングを克服する能力は、量子化学を変革することが期待される。 量子アルゴリズムは量子デバイス上での電子状態の正確な表現を必要とするが、現在の近似は物理対称性を保ちながら化学的精度とゲート効率を組み合わせるのに苦労し、各分子に波動関数のアンザッツを調整する測定集約適応法に依存している。 そこで本研究では,化学的に高精度な分子エネルギーとよく定義された回路構造を提供するスピン対称性保存ゲート効率のansatzを提案する。 提案手法は、局所量子ビット接続、軌道最適化、一般化原子価結合理論との接続を利用して、浅い量子回路で得られる精度を最大化する。 ベンゼン、水、およびテトラメチレンエタン中の一重項三重項ギャップを含む弱い電子相関を持つ分子の数値シミュレーションにより、化学的に正確なエネルギーは、現在の状態よりも84%少ない2量子ビットゲートで達成されていることが示されている。 これらの進歩は、将来の量子コンピューティングのための次世代の電子構造近似の道を開く。

The ability of quantum computers to overcome the exponential memory scaling of many-body problems is expected to transform quantum chemistry. Quantum algorithms require accurate representations of electronic states on a quantum device, but current approximations struggle to combine chemical accuracy and gate-efficiency while preserving physical symmetries, and rely on measurement-intensive adaptive methods that tailor the wave function ansatz to each molecule. In this contribution, we present a spin-symmetry-preserving, gate-efficient ansatz that provides chemically accurate molecular energies with a well-defined circuit structure. Our approach exploits local qubit connectivity, orbital optimisation, and connections with generalised valence bond theory to maximise the accuracy that is obtained with shallow quantum circuits. Numerical simulations for molecules with weak and strong electron correlation, including benzene, water, and the singlet-triplet gap in tetramethyleneethane, demonstrate that chemically accurate energies are achieved with as much as 84% fewer two-qubit gates compared to the current state-of-the-art. These advances pave the way for the next generation of electronic structure approximations for future quantum computing.
翻訳日:2023-12-18 15:52:41 公開日:2023-12-15
# 偽OOD異常の診断と定量化 : 再構成因果アプローチ

Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal Approach ( http://arxiv.org/abs/2312.09758v1 )

ライセンス: Link先を確認
Ziliang Chen, Yongsen Zheng, Zhao-Rong Lai, Quanlong Guan, Liang Lin(参考訳) 不変表現学習(irl)は、不変因果的特徴から環境から分離されたラベルへの予測を奨励し、ood(out-of-distribution)一般化の技術ロードマップを前進させる。 近年の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、トレーニング環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。 emph{fake invariance} は、信頼できる目的を診断できず、既存の因果的手術が無効であるため、oodの一般化を危険にさらす。 本稿では, 部分的および完全不変な特徴因果モデル (PIIF SCM/FIIF SCM) の下でIRLファミリ(InvRat) をレビューし, 偽不変特徴を表す際の弱点を検証し, 因果図を統一してReStructured SCM(RS-SCM)を提案する。 rs-scmは、スプリアスと偽の不変な特徴を同時に再構築できる。 そこで我々は, RS-SCMに関する条件付き相互情報に基づくアプローチをさらに発展させ, 突発的で偽の不変な効果を厳格に補正する。 IRLファミリーで導入された小さな特徴選択サブネットによって容易に実装できる。 実験により、様々なOOD一般化ベンチマークで偽不変問題と戦うアプローチの優位性を検証した。

Invariant representation learning (IRL) encourages the prediction from invariant causal features to labels de-confounded from the environments, advancing the technical roadmap of out-of-distribution (OOD) generalization. Despite spotlights around, recent theoretical results verified that some causal features recovered by IRLs merely pretend domain-invariantly in the training environments but fail in unseen domains. The \emph{fake invariance} severely endangers OOD generalization since the trustful objective can not be diagnosed and existing causal surgeries are invalid to rectify. In this paper, we review a IRL family (InvRat) under the Partially and Fully Informative Invariant Feature Structural Causal Models (PIIF SCM /FIIF SCM) respectively, to certify their weaknesses in representing fake invariant features, then, unify their causal diagrams to propose ReStructured SCM (RS-SCM). RS-SCM can ideally rebuild the spurious and the fake invariant features simultaneously. Given this, we further develop an approach based on conditional mutual information with respect to RS-SCM, then rigorously rectify the spurious and fake invariant effects. It can be easily implemented by a small feature selection subnet introduced in the IRL family, which is alternatively optimized to achieve our goal. Experiments verified the superiority of our approach to fight against the fake invariant issue across a variety of OOD generalization benchmarks.
翻訳日:2023-12-18 15:52:17 公開日:2023-12-15
# PPFM : 単段階後方サンプリングポアソン流生成モデルを用いた光子計数CTの撮像

PPFM: Image denoising in photon-counting CT using single-step posterior sampling Poisson flow generative models ( http://arxiv.org/abs/2312.09754v1 )

ライセンス: Link先を確認
Dennis Hein, Staffan Holmin, Timothy Szczykutowicz, Jonathan S Maltz, Mats Danielsson, Ge Wang, Mats Persson(参考訳) 拡散とポアソン流のモデルでは、低用量CT画像のデノナイジングなど、幅広い生成タスクにおいて顕著な性能を示している。 しかし、一般的には1つの制限、特に臨床応用においては、サンプリングが遅い。 その反復性のため、要求される関数評価(NFE)の数は、通常、条件付きおよび無条件生成の両方に対して10~10^3$である。 本稿では,NFE=1を保ちながら画像品質に優れた低線量および光子計数CTのための新しい画像復調技術である後部サンプリングポアソンフロー生成モデル(PPFM)を提案する。 本研究では,poisson flow generative models (pfgm)++のトレーニングおよびサンプリングプロセスを更新し,先行雑音分布と関心の後方分布との軌跡を定義する条件付き生成器を学習する。 さらに、nfe=1を達成するためにサンプリングプロセスをハイジャックして規則化する。 その結果、拡散モデルと比較してPFGM++フレームワークの利点が明らかになった。 さらに, PPFMは, NFE=1の最先端拡散型モデル, 一貫性モデル, 一般的な深層学習および非深層学習に基づく画像認識技術と比較して, 試作光子計数CTシステムによる低線量CT画像および臨床画像に対して, 良好な性能を示した。

Diffusion and Poisson flow models have shown impressive performance in a wide range of generative tasks, including low-dose CT image denoising. However, one limitation in general, and for clinical applications in particular, is slow sampling. Due to their iterative nature, the number of function evaluations (NFE) required is usually on the order of $10-10^3$, both for conditional and unconditional generation. In this paper, we present posterior sampling Poisson flow generative models (PPFM), a novel image denoising technique for low-dose and photon-counting CT that produces excellent image quality whilst keeping NFE=1. Updating the training and sampling processes of Poisson flow generative models (PFGM)++, we learn a conditional generator which defines a trajectory between the prior noise distribution and the posterior distribution of interest. We additionally hijack and regularize the sampling process to achieve NFE=1. Our results shed light on the benefits of the PFGM++ framework compared to diffusion models. In addition, PPFM is shown to perform favorably compared to current state-of-the-art diffusion-style models with NFE=1, consistency models, as well as popular deep learning and non-deep learning-based image denoising techniques, on clinical low-dose CT images and clinical images from a prototype photon-counting CT system.
翻訳日:2023-12-18 15:51:48 公開日:2023-12-15
# 没入型テレプレゼンスアバターのための視覚モースカメラ誘導による注意型VR顔アニメーション

Attention-Based VR Facial Animation with Visual Mouth Camera Guidance for Immersive Telepresence Avatars ( http://arxiv.org/abs/2312.09750v1 )

ライセンス: Link先を確認
Andre Rochow, Max Schwarz, Sven Behnke(参考訳) 仮想環境における顔のアニメーションは、ユーザーの顔の鮮明な視認と感情的な信号を伝達する能力を必要とするアプリケーションに不可欠である。 私たちのシナリオでは、ロボットアバターシステムを制御するオペレータの顔をアニメーション化します。 顔アニメーションの使用は、ロボットではなく特定の個人との対話の知覚が意図されている場合に特に有用である。 純粋にキーポイント駆動のアニメーションアプローチは、顔の動きの複雑さに苦しむ。 本稿では,マウスカメラのキーポイントと直接視覚誘導を併用したハイブリッド手法を提案する。 提案手法は,未発見のオペレータに一般化し,短い映像を2本撮るだけでよい。 複数のソース画像が、異なる表情をカバーするために選択される。 HMDから口カメラフレームが与えられた場合、ターゲットキーポイントを動的に構築し、各ソース画像の重要性を決定するために注意機構を適用する。 キーポイントの曖昧さを解消し,広い範囲の口の表情をアニメーション化するために,視覚的な口のカメラ情報を潜伏空間に注入することを提案する。 口内カメラ入力とその視点差と顔の変形をシミュレートし,大規模発話頭部データセットの学習を可能にする。 本手法は品質・能力・時間的一貫性の基準を上回っている。 さらに、ANAアバターXPRIZEファイナルでの勝利に顔のアニメーションがどう貢献したかを強調した。

Facial animation in virtual reality environments is essential for applications that necessitate clear visibility of the user's face and the ability to convey emotional signals. In our scenario, we animate the face of an operator who controls a robotic Avatar system. The use of facial animation is particularly valuable when the perception of interacting with a specific individual, rather than just a robot, is intended. Purely keypoint-driven animation approaches struggle with the complexity of facial movements. We present a hybrid method that uses both keypoints and direct visual guidance from a mouth camera. Our method generalizes to unseen operators and requires only a quick enrolment step with capture of two short videos. Multiple source images are selected with the intention to cover different facial expressions. Given a mouth camera frame from the HMD, we dynamically construct the target keypoints and apply an attention mechanism to determine the importance of each source image. To resolve keypoint ambiguities and animate a broader range of mouth expressions, we propose to inject visual mouth camera information into the latent space. We enable training on large-scale speaking head datasets by simulating the mouth camera input with its perspective differences and facial deformations. Our method outperforms a baseline in quality, capability, and temporal consistency. In addition, we highlight how the facial animation contributed to our victory at the ANA Avatar XPRIZE Finals.
翻訳日:2023-12-18 15:51:21 公開日:2023-12-15
# 深層ニューラルネットワークの検証

Verification-Friendly Deep Neural Networks ( http://arxiv.org/abs/2312.09748v1 )

ライセンス: Link先を確認
Anahita Baninajjar, Ahmed Rezine, Amir Aminifar(参考訳) 機械学習技術は、しばしば正式な正当性保証を欠いている。 これは、ほとんどのディープラーニングアプリケーションを悩ませる広範な敵の例によって証明されている。 この結果、ディープニューラルネットワークの検証を目的としたいくつかの研究活動が、特に安全クリティカルなアプリケーションに焦点を当てた。 しかし、そのようなネットワークの複雑さを扱う場合、形式的検証技術は依然として大きなスケーラビリティと精度の課題に直面している。 スケーラビリティの課題に取り組むための形式的検証プロセス中に導入された過剰な近似は、しばしば決定的な分析をもたらす。 この課題に対処するために、検証フレンドリなニューラルネットワーク(VNN)を生成する新しいフレームワークを提案する。 本稿では,予測性能とネットワークのロバスト性とのバランスを達成するための学習後最適化フレームワークを提案する。 提案手法は,検証が可能でありながら,予測性能の点で元のネットワークに匹敵するネットワークが得られることを示す。 これにより、より時間効率の良い方法で、ディープニューラルネットワークよりも多くのVNNに対して堅牢性を確立することができます。

Machine learning techniques often lack formal correctness guarantees. This is evidenced by the widespread adversarial examples that plague most deep-learning applications. This resulted in several research efforts that aim at verifying deep neural networks, with a particular focus on safety-critical applications. However, formal verification techniques still face major scalability and precision challenges when dealing with the complexity of such networks. The over-approximation introduced during the formal verification process to tackle the scalability challenge often results in inconclusive analysis. To address this challenge, we propose a novel framework to generate Verification-friendly Neural Networks (VNNs). We present a post-training optimization framework to achieve a balance between preserving prediction performance and robustness in the resulting networks. Our proposed framework proves to result in networks that are comparable to the original ones in terms of prediction performance, while amenable to verification. This essentially enables us to establish robustness for more VNNs than their deep neural network counterparts, in a more time-efficient manner.
翻訳日:2023-12-18 15:50:58 公開日:2023-12-15
# 耐障害性ステイン量子誤差補正の実証

Demonstration of fault-tolerant Steane quantum error correction ( http://arxiv.org/abs/2312.09745v1 )

ライセンス: Link先を確認
Lukas Postler, Friederike Butt, Ivan Pogorelov, Christian D. Marciniak, Sascha Heu{\ss}en, Rainer Blatt, Philipp Schindler, Manuel Rispler, Markus M\"uller, Thomas Monz(参考訳) 量子誤り訂正(QEC)符号を用いて冗長に情報を符号化することで、量子コンピュータのノイズに対する固有の感度を克服し、最終的に大規模な量子計算を達成できる。 Steane QEC法は、データレジスタに使用するのと同じQECコードの補助論理キュービットを作成する。 データと補助レジスタは論理cnotゲートと結合され、補助レジスタの測定によりエラーシンドロームが明らかにされる。 本研究では,複数ラウンドのフォールトトレラントSteane QECをトラップイオン量子コンピュータ上に実装する。 各種QEC符号を用い, フラグ量子ビットを用いた従来の実験手法と比較した。 実験の結果,Steane QECの論理的忠実度は改善した。 これにより、フォールトトレラント量子コンピューティングの競争パラダイムとして実験的なSteane QECが確立される。

Encoding information redundantly using quantum error-correcting (QEC) codes allows one to overcome the inherent sensitivity to noise in quantum computers to ultimately achieve large-scale quantum computation. The Steane QEC method involves preparing an auxiliary logical qubit of the same QEC code used for the data register. The data and auxiliary registers are then coupled with a logical CNOT gate, enabling a measurement of the auxiliary register to reveal the error syndrome. This study presents the implementation of multiple rounds of fault-tolerant Steane QEC on a trapped-ion quantum computer. Various QEC codes are employed, and the results are compared to a previous experimental approach utilizing flag qubits. Our experimental findings show improved logical fidelities for Steane QEC. This establishes experimental Steane QEC as a competitive paradigm for fault-tolerant quantum computing.
翻訳日:2023-12-18 15:50:45 公開日:2023-12-15
# 意味-数値ギャップの橋渡し : 材料特性予測のためのクロスモーダル知識グラフの数値推論法

Bridging the Semantic-Numerical Gap: A Numerical Reasoning Method of Cross-modal Knowledge Graph for Material Property Prediction ( http://arxiv.org/abs/2312.09744v1 )

ライセンス: Link先を確認
Guangxuan Song, Dongmei Fu, Zhongwei Qiu, Zijiang Yang, Jiaxin Dai, Lingwei Ma, Dawei Zhang(参考訳) 機械学習(ML)技術を用いて材料特性を予測することが重要な研究トピックである。 これらの性質は数値データと意味要因に依存する。 小さなサンプルデータセットの制限のため、既存の手法では一般的にMLアルゴリズムを使用して数値特性を回帰したり、トレーニング済みの知識グラフ(KG)を素材に転送する。 しかし,これらの手法は意味情報と数値情報を同時に扱うことはできない。 本稿では,意味ノードと数値プロキシノードを用いたクロスモーダルKGを構成する材料KG(NR-KG)の数値解析手法を提案する。 KGを標準KGに投影することで、両方のタイプの情報をキャプチャし、グラフニューラルネットワークを使用して材料特性を予測する。 このプロセスでは,数値情報から意味的特徴を抽出するために,新しい予測予測損失を提案する。 NR-KGは、小さなサンプルデータセットにおけるクロスモーダルデータ、マイニング関係、クロスモーダル情報のエンドツーエンド処理を容易にし、価値ある実験データを十分に活用して、材料予測を強化する。 さらに、意味記述を伴う2つの新しい高エントロピー合金特性データセットを提案する。 NR-KGは最先端のSOTA(State-of-the-art)法より優れており、2つの材料データセットに対して25.9%と16.1%の相対的な改善を達成している。 さらに、NR-KGは2つの公共物理化学分子データセットのSOTA法を上回り、22.2%と54.3%の改善を示し、その可能性と一般化性を強調している。 提案されたデータセット、アルゴリズム、および事前訓練されたモデルは、材料のためのKGとAIのコミュニティを促進することを願っている。

Using machine learning (ML) techniques to predict material properties is a crucial research topic. These properties depend on numerical data and semantic factors. Due to the limitations of small-sample datasets, existing methods typically adopt ML algorithms to regress numerical properties or transfer other pre-trained knowledge graphs (KGs) to the material. However, these methods cannot simultaneously handle semantic and numerical information. In this paper, we propose a numerical reasoning method for material KGs (NR-KG), which constructs a cross-modal KG using semantic nodes and numerical proxy nodes. It captures both types of information by projecting KG into a canonical KG and utilizes a graph neural network to predict material properties. In this process, a novel projection prediction loss is proposed to extract semantic features from numerical information. NR-KG facilitates end-to-end processing of cross-modal data, mining relationships and cross-modal information in small-sample datasets, and fully utilizes valuable experimental data to enhance material prediction. We further propose two new High-Entropy Alloys (HEA) property datasets with semantic descriptions. NR-KG outperforms state-of-the-art (SOTA) methods, achieving relative improvements of 25.9% and 16.1% on two material datasets. Besides, NR-KG surpasses SOTA methods on two public physical chemistry molecular datasets, showing improvements of 22.2% and 54.3%, highlighting its potential application and generalizability. We hope the proposed datasets, algorithms, and pre-trained models can facilitate the communities of KG and AI for materials.
翻訳日:2023-12-18 15:50:33 公開日:2023-12-15
# SLS4D:4次元新しいビュー合成のためのスパース潜在空間

SLS4D: Sparse Latent Space for 4D Novel View Synthesis ( http://arxiv.org/abs/2312.09743v1 )

ライセンス: Link先を確認
Qi-Yuan Feng, Hao-Xiang Chen, Qun-Ce Xu, Tai-Jiang Mu(参考訳) neural radiance field(nerf)は、静的シナリオのための新しいビュー合成と3d表現で大きな成功を収めている。 既存の動的nerfは通常、局所的に密集した格子を利用して変形場に適合するが、大域的なダイナミクスを捉えられず、重パラメータのモデルも同時生成する。 4次元空間は本質的に疎弱である。 第一に、変形場は、運動の連続性により空間的にスパースであるが時間的に密度が高い。 第二に、放射場は基礎となるシーンの表面でのみ有効であり、通常は空間全体のごく一部を占める。 そこで我々は,学習可能なスパース潜在空間,すなわちSLS4Dを用いて4次元シーンを表現することを提案する。 具体的には、SLS4Dは、まず高密度な学習可能な時間スロット特徴を用いて時間空間を描写し、そこから変形場に線形多層知覚(MLP)を取り付けて、いつでも3D位置の変位を予測する。 その後、別の疎潜在空間を用いて3d位置の空間的特徴を学ぶ。 これは各潜在コードの適応重みを注意機構で学習することで達成される。 SLS4Dの有効性を実証し、最新の作品の約6.5%のパラメータで最高の4Dノベルビュー合成を実現する。

Neural radiance field (NeRF) has achieved great success in novel view synthesis and 3D representation for static scenarios. Existing dynamic NeRFs usually exploit a locally dense grid to fit the deformation field; however, they fail to capture the global dynamics and concomitantly yield models of heavy parameters. We observe that the 4D space is inherently sparse. Firstly, the deformation field is sparse in spatial but dense in temporal due to the continuity of of motion. Secondly, the radiance field is only valid on the surface of the underlying scene, usually occupying a small fraction of the whole space. We thus propose to represent the 4D scene using a learnable sparse latent space, a.k.a. SLS4D. Specifically, SLS4D first uses dense learnable time slot features to depict the temporal space, from which the deformation field is fitted with linear multi-layer perceptions (MLP) to predict the displacement of a 3D position at any time. It then learns the spatial features of a 3D position using another sparse latent space. This is achieved by learning the adaptive weights of each latent code with the attention mechanism. Extensive experiments demonstrate the effectiveness of our SLS4D: it achieves the best 4D novel view synthesis using only about $6\%$ parameters of the most recent work.
翻訳日:2023-12-18 15:50:06 公開日:2023-12-15
# 置換同変グラフニューラルネットワークを用いた概念前提関係予測

Concept Prerequisite Relation Prediction by Using Permutation-Equivariant Directed Graph Neural Networks ( http://arxiv.org/abs/2312.09802v1 )

ライセンス: Link先を確認
Xiran Qu, Xuequn Shang and Yupei Zhang(参考訳) 本稿では,教育にAIを使用する上での基本課題であるCPRP,概念前提条件関係予測の問題について検討する。 CPRPは通常、概念の関係グラフ上のリンク予測タスクに定式化され、グラフニューラルネットワーク(GNN)モデルをトレーニングすることで解決される。 しかし、現在の有向gnnは非同型グラフの不変性を指すグラフ同型の管理に失敗し、結果として得られる表現の表現性が低下する。 Wesfeiler-Lehman 検定を GNN 学習に導入することにより,変分同変の有向 GNN モデルを提案する。 提案手法はcprpで使用し,3つの公開データセットで評価を行う。 実験結果から,本モデルは最先端手法よりも予測性能がよいことがわかった。

This paper studies the problem of CPRP, concept prerequisite relation prediction, which is a fundamental task in using AI for education. CPRP is usually formulated into a link-prediction task on a relationship graph of concepts and solved by training the graph neural network (GNN) model. However, current directed GNNs fail to manage graph isomorphism which refers to the invariance of non-isomorphic graphs, reducing the expressivity of resulting representations. We present a permutation-equivariant directed GNN model by introducing the Weisfeiler-Lehman test into directed GNN learning. Our method is then used for CPRP and evaluated on three public datasets. The experimental results show that our model delivers better prediction performance than the state-of-the-art methods.
翻訳日:2023-12-18 15:44:24 公開日:2023-12-15
# ProCoT:大規模言語モデル(LLM)による学生の批判的思考と書き込みの促進

ProCoT: Stimulating Critical Thinking and Writing of Students through Engagement with Large Language Models (LLMs) ( http://arxiv.org/abs/2312.09801v1 )

ライセンス: Link先を確認
Tosin Adewumi, Lama Alkhaled, Claudia Buck, Sergio Hernandez, Saga Brilioth, Mkpe Kekung, Yelvin Ragimov, and Elisa Barney(参考訳) 本稿では,ChatGPT などの大規模言語モデル (LLM) を学生が不正に使用するのを防止し,これらのモデルによる学習の活発化を図ることを目的とした,ProCoT (Probing Chain of Thought) という新たな文章作成手法を提案する。 LLMは教育や他の多くの施設を混乱させた。 学生の不正行為を恐れて、多くの教育者は、アウトプットが人間らしく、場合によっては検出が難しいため、使用を禁止した。 これらのLSMは幻覚(偽事実)としても知られている。 約66名の学生を対象に,ProCoTを用いて2つのコースで研究を行った。 各コースの学生は4組の質問から1問のLLM選択を促すよう依頼され、ピアレビュー参照を用いてLPM出力のステートメントを肯定・否定することが求められた。 その結果,(1) ProCoTは,lLMの出力のみとProCoTの出力とを比較して学生の創造的・批判的思考と執筆を刺激し,(2) ProCoTの出力とLLMの出力とを比較した上で,既存のLLMの明確な制限のため,不正行為を防止できることがわかった。 また、ほとんどの学生は、通常冗長である LLM よりも少ない単語で回答することを好む。 生徒の平均語数は、ChatGPT (v3.5) と Phind (v8) はそれぞれ 208, 391, 383 である。

We introduce a novel writing method called Probing Chain of Thought (ProCoT), which prevents students from cheating using a Large Language Model (LLM), such as ChatGPT, while enhancing their active learning through such models. LLMs have disrupted education and many other feilds. For fear of students cheating, many educationists have resorted to banning their use, as their outputs can be human-like and hard to detect in some cases. These LLMs are also known for hallucinations (i.e. fake facts). We conduct studies with ProCoT in two different courses with a combined total of about 66 students. The students in each course were asked to prompt an LLM of their choice with one question from a set of four and required to affirm or refute statements in the LLM output by using peer reviewed references. The results show two things: (1) ProCoT stimulates creative/critical thinking and writing of students through engagement with LLMs when we compare the LLM solely output to ProCoT output and (2) ProCoT can prevent cheating because of clear limitations in existing LLMs when we compare students ProCoT output to LLM ProCoT output. We also discover that most students prefer to give answers in fewer words than LLMs, which are typically verbose. The average word counts for students, ChatGPT (v3.5) and Phind (v8) are 208, 391 and 383, respectively.
翻訳日:2023-12-18 15:44:10 公開日:2023-12-15
# Deep Event Visual Odometry

Deep Event Visual Odometry ( http://arxiv.org/abs/2312.09800v1 )

ライセンス: Link先を確認
Simon Klenk, Marvin Motzet, Lukas Koestler, Daniel Cremers(参考訳) イベントカメラは、高速な動きや不適切な照明条件下でカメラのポーズを追跡するエキサイティングな可能性を提供します。 この約束にもかかわらず、既存のイベントベースのモノクロビジュアルオドメトリー(VO)アプローチは、最近のベンチマークで限られたパフォーマンスを示している。 この制限に対処するために、IMU、ステレオイベントカメラ、フレームベースのカメラなどの追加センサーを利用する方法もある。 それにもかかわらず、これらの追加センサーは、コストの増大とシステム要件の複雑化により、現実世界のデバイスにおけるイベントカメラの適用を制限する。 さらに、フレームベースのカメラを利用すると、システムは動きのぼやけやHDRの影響を受けやすい。 追加センサへの依存を排除し,単一のイベントカメラのみを使用することの限界を押し上げるために,多数の実世界のベンチマークで強力なパフォーマンスを持つ,最初の単眼イベント専用システムであるDeep Event VO(DEVO)を提案する。 devo sparselyは選択したイベントパッチを時間とともに追跡する。 DEVOの重要なコンポーネントは、イベントデータに合わせた、新しいディープパッチ選択メカニズムである。 我々は,実世界の7つのベンチマークにおけるポーズ追跡誤差を最大97%低減し,ステレオ法や慣性法を上回ったり近かったりすることが多かった。 コードはhttps://github.com/tum-vision/devoで入手できる。

Event cameras offer the exciting possibility of tracking the camera's pose during high-speed motion and in adverse lighting conditions. Despite this promise, existing event-based monocular visual odometry (VO) approaches demonstrate limited performance on recent benchmarks. To address this limitation, some methods resort to additional sensors such as IMUs, stereo event cameras, or frame-based cameras. Nonetheless, these additional sensors limit the application of event cameras in real-world devices since they increase cost and complicate system requirements. Moreover, relying on a frame-based camera makes the system susceptible to motion blur and HDR. To remove the dependency on additional sensors and to push the limits of using only a single event camera, we present Deep Event VO (DEVO), the first monocular event-only system with strong performance on a large number of real-world benchmarks. DEVO sparsely tracks selected event patches over time. A key component of DEVO is a novel deep patch selection mechanism tailored to event data. We significantly decrease the pose tracking error on seven real-world benchmarks by up to 97% compared to event-only methods and often surpass or are close to stereo or inertial methods. Code is available at https://github.com/tum-vision/DEVO
翻訳日:2023-12-18 15:43:41 公開日:2023-12-15
# iqnet: 汎用ビデオ符号化のためのjust noticeable difference prefiltering による画質評価

IQNet: Image Quality Assessment Guided Just Noticeable Difference Prefiltering For Versatile Video Coding ( http://arxiv.org/abs/2312.09799v1 )

ライセンス: Link先を確認
Yu-Han Sun, Chiang Lo-Hsuan Lee and Tian-Sheuan Chang(参考訳) ジャストインタブル歪み(JND)による画像プリフィルタは、圧縮前に知覚的に冗長な情報をフィルタリングすることにより、視覚的損失のない方法で符号化効率を向上させる。 しかし、実際のjndは、従来のアプローチでは不正確なマスキング方程式や、ディープラーニングアプローチでは画像レベルの主題テストではうまくモデル化できない。 そこで本稿では,高精度ブロックレベルjndモデリングのための画質評価を導いた細粒度jndプリフィルタデータセットを提案する。 データセットは、符号化効果を含むデコードされた画像から構築され、ブロックオーバーラップとエッジ保存と共に知覚的に拡張される。 さらに、本データセットに基づいて、同じモデルで異なる量子化ケースに直接適用可能で、3Kパラメータのみを必要とする軽量なJNDプリフィルタネットワークIQNetを提案する。 実験結果から,Versatile Video Coding に対する提案手法は,全イントラP と低遅延P の最大/平均ビットレート 41\%/15\% と 53\%/19\% の削減が可能であり,主観的品質損失は無視できることがわかった。 提案手法は,従来の深層学習法よりも桁違いに小さい知覚品質とモデルサイズを示す。

Image prefiltering with just noticeable distortion (JND) improves coding efficiency in a visual lossless way by filtering the perceptually redundant information prior to compression. However, real JND cannot be well modeled with inaccurate masking equations in traditional approaches or image-level subject tests in deep learning approaches. Thus, this paper proposes a fine-grained JND prefiltering dataset guided by image quality assessment for accurate block-level JND modeling. The dataset is constructed from decoded images to include coding effects and is also perceptually enhanced with block overlap and edge preservation. Furthermore, based on this dataset, we propose a lightweight JND prefiltering network, IQNet, which can be applied directly to different quantization cases with the same model and only needs 3K parameters. The experimental results show that the proposed approach to Versatile Video Coding could yield maximum/average bitrate savings of 41\%/15\% and 53\%/19\% for all-intra and low-delay P configurations, respectively, with negligible subjective quality loss. Our method demonstrates higher perceptual quality and a model size that is an order of magnitude smaller than previous deep learning methods.
翻訳日:2023-12-18 15:43:20 公開日:2023-12-15
# 隠蔽者再識別のための教師学習型デコーダによる部分表現学習

Part Representation Learning with Teacher-Student Decoder for Occluded Person Re-identification ( http://arxiv.org/abs/2312.09797v1 )

ライセンス: Link先を確認
Shang Gao and Chenyang Yu and Pingping Zhang and Huchuan Lu(参考訳) 被占領者の再識別(ReID)は,閉塞障害と不完全な標的情報のために非常に困難な課題である。 人間のポーズやパーシングなどの外的手がかりを活用して特徴の特定と調整を行うことは、隠蔽された人物のReIDに非常に効果的であることが証明されている。 一方、最近のTransformer構造は長距離モデリングの強い能力を持っている。 以上の事実を踏まえ,人間解析の助けを借りてトランスフォーマーデコーダを利用する,隠蔽者ReIDのための教師型デコーダ(TSD)フレームワークを提案する。 より具体的には,提案するtsdはパースアウェア教師デコーダ (ptd) と標準学生デコーダ (ssd) から構成される。 PTDは、Transformerの注意を制限し、特徴蒸留を通じてSSDにこの情報を付与するために、人間の解析手段を使用している。 これにより、SSDはPTDから学習し、自動的に身体部分の情報を集めることができる。 さらに、マスクジェネレータは、より優れたReIDのための識別領域を提供するように設計されている。 さらに、既存のoccluded person reidベンチマークでは、occludedサンプルをクエリとして使用することで、咬合干渉を軽減する役割を増幅し、機能欠如の問題の影響を過小評価する。 対照的に,既存のベンチマークを補完する非閉塞クエリを用いた新しいベンチマークを提案する。 広範な実験により,提案手法が優れていること,新しいベンチマークが不可欠であることを実証した。 ソースコードはhttps://github.com/hh23333/tsdで入手できる。

Occluded person re-identification (ReID) is a very challenging task due to the occlusion disturbance and incomplete target information. Leveraging external cues such as human pose or parsing to locate and align part features has been proven to be very effective in occluded person ReID. Meanwhile, recent Transformer structures have a strong ability of long-range modeling. Considering the above facts, we propose a Teacher-Student Decoder (TSD) framework for occluded person ReID, which utilizes the Transformer decoder with the help of human parsing. More specifically, our proposed TSD consists of a Parsing-aware Teacher Decoder (PTD) and a Standard Student Decoder (SSD). PTD employs human parsing cues to restrict Transformer's attention and imparts this information to SSD through feature distillation. Thereby, SSD can learn from PTD to aggregate information of body parts automatically. Moreover, a mask generator is designed to provide discriminative regions for better ReID. In addition, existing occluded person ReID benchmarks utilize occluded samples as queries, which will amplify the role of alleviating occlusion interference and underestimate the impact of the feature absence issue. Contrastively, we propose a new benchmark with non-occluded queries, serving as a complement to the existing benchmark. Extensive experiments demonstrate that our proposed method is superior and the new benchmark is essential. The source codes are available at https://github.com/hh23333/TSD.
翻訳日:2023-12-18 15:42:58 公開日:2023-12-15
# 安定RNNを含む動的システムのPAC-Bayes一般化境界

PAC-Bayes Generalisation Bounds for Dynamical Systems Including Stable RNNs ( http://arxiv.org/abs/2312.09793v1 )

ライセンス: Link先を確認
Deividas Eringis, John Leth, Zheng-Hua Tan, Rafal Wisniewski, Mihaly Petreczky(参考訳) 本稿では,離散時間非線形力学系の特別なクラスに対する教師付き時系列設定において,一般化ギャップに縛られたPAC-Bayesを導出する。 このクラスには安定したリカレントニューラルネットワーク(RNN)が含まれており、この研究の動機はRNNへの適用にある。 結果を達成するために、許容されるモデルにいくつかの安定性の制約を課す。 ここでは、安定性は力学系の意味で理解される。 RNNの場合、これらの安定性条件は重みの条件で表すことができる。 関連する過程は本質的に有界であり、損失関数はリプシッツであると仮定する。 一般化ギャップが提案される境界は、データ分布の混合係数とデータの本質的上限に依存する。 さらに、データセットのサイズが大きくなると、バウンドはゼロに収束する。 本稿では, 1)学習問題を形式化する。 2) そのような系に対するpac-ベイズ誤差を導出する。 3)このエラーバウンドの様々な結果について議論し, 4) 提案する境界の計算に関する議論とともに、例示を示す。 他の利用可能なバウンダリと異なり、派生したバウンダリは非i.d.データ(時系列)を保持しており、RNNのステップ数で成長しない。

In this paper, we derive a PAC-Bayes bound on the generalisation gap, in a supervised time-series setting for a special class of discrete-time non-linear dynamical systems. This class includes stable recurrent neural networks (RNN), and the motivation for this work was its application to RNNs. In order to achieve the results, we impose some stability constraints, on the allowed models. Here, stability is understood in the sense of dynamical systems. For RNNs, these stability conditions can be expressed in terms of conditions on the weights. We assume the processes involved are essentially bounded and the loss functions are Lipschitz. The proposed bound on the generalisation gap depends on the mixing coefficient of the data distribution, and the essential supremum of the data. Furthermore, the bound converges to zero as the dataset size increases. In this paper, we 1) formalize the learning problem, 2) derive a PAC-Bayesian error bound for such systems, 3) discuss various consequences of this error bound, and 4) show an illustrative example, with discussions on computing the proposed bound. Unlike other available bounds the derived bound holds for non i.i.d. data (time-series) and it does not grow with the number of steps of the RNN.
翻訳日:2023-12-18 15:42:35 公開日:2023-12-15
# 病理組織におけるAI支援癌診断のための画像誘導アノテーションを用いた潜時拡散モデル

Latent Diffusion Models with Image-Derived Annotations for Enhanced AI-Assisted Cancer Diagnosis in Histopathology ( http://arxiv.org/abs/2312.09792v1 )

ライセンス: Link先を確認
Pedro Osorio and Guillermo Jimenez-Perez and Javier Montalt-Tordera and Jens Hooge and Guillem Duran-Ballester and Shivam Singh and Moritz Radbruch and Ute Bach and Sabrina Schroeder and Krystyna Siudak and Julia Vienenkoetter and Bettina Lawrenz and Sadegh Mohammadi(参考訳) 人工知能(AI)に基づく画像解析は、がん診断を含む診断組織学をサポートする大きな可能性を秘めている。 しかし、教師付きAI手法の開発には、大規模な注釈付きデータセットが必要である。 潜在的に強力な解決策は、合成データでトレーニングデータを拡張することである。 高品質で多様な合成画像を生成する潜在拡散モデルは有望である。 しかし、最も一般的な実装は詳細なテキスト記述に依存しており、このドメインでは一般に利用できない。 本研究では,自動抽出画像特徴量から構造化テキストプロンプトを構成する手法を提案する。 組織パッチから構成したPCamデータセットについて実験を行った。 画像由来の特徴は, 健康なラベルや癌ラベルに限らず, Fr'echet Inception Distance (FID) を178.8から90.2に改善した。 また, 病理医は, 0.55/0.55 の感度/特異性で, 合成画像の検出が困難であることを示した。 最後に、合成データがAIモデルを効果的に訓練することを示す。

Artificial Intelligence (AI) based image analysis has an immense potential to support diagnostic histopathology, including cancer diagnostics. However, developing supervised AI methods requires large-scale annotated datasets. A potentially powerful solution is to augment training data with synthetic data. Latent diffusion models, which can generate high-quality, diverse synthetic images, are promising. However, the most common implementations rely on detailed textual descriptions, which are not generally available in this domain. This work proposes a method that constructs structured textual prompts from automatically extracted image features. We experiment with the PCam dataset, composed of tissue patches only loosely annotated as healthy or cancerous. We show that including image-derived features in the prompt, as opposed to only healthy and cancerous labels, improves the Fr\'echet Inception Distance (FID) from 178.8 to 90.2. We also show that pathologists find it challenging to detect synthetic images, with a median sensitivity/specificity of 0.55/0.55. Finally, we show that synthetic data effectively trains AI models.
翻訳日:2023-12-18 15:42:18 公開日:2023-12-15
# 自動車用レーダ干渉軽減のためのニューラルネットワークのエンドツーエンドトレーニング

End-to-End Training of Neural Networks for Automotive Radar Interference Mitigation ( http://arxiv.org/abs/2312.09790v1 )

ライセンス: Link先を確認
Christian Oswald, Mate Toth, Paul Meissner, Franz Pernkopf(参考訳) 本稿では,周波数変調連続波(FMCW)レーダ相互干渉緩和のためのニューラルネットワーク(NN)のトレーニング手法を提案する。 NNが干渉されたレーダー信号をきれいにするために訓練する代わりに、NNをオブジェクト検出マップ上で直接訓練する。 我々は,レーダーを用いた物体検出のための確立されたアルゴリズムであるca-cfarピーク検出器のセル平均値(ca-cfar)を連続的に緩和する。 この新たなトレーニング目標により、オブジェクト検出性能を大きなマージンで向上することが可能になります。 さらに、レーダーアプリケーションのための畳み込みNNアーキテクチャのパラメータ数と計算複雑性を強く低減するために、分離可能な畳み込みカーネルを導入する。 実世界の計測データに対する実験への貢献を検証し、信号処理干渉緩和法と比較する。

In this paper we propose a new method for training neural networks (NNs) for frequency modulated continuous wave (FMCW) radar mutual interference mitigation. Instead of training NNs to regress from interfered to clean radar signals as in previous work, we train NNs directly on object detection maps. We do so by performing a continuous relaxation of the cell-averaging constant false alarm rate (CA-CFAR) peak detector, which is a well-established algorithm for object detection using radar. With this new training objective we are able to increase object detection performance by a large margin. Furthermore, we introduce separable convolution kernels to strongly reduce the number of parameters and computational complexity of convolutional NN architectures for radar applications. We validate our contributions with experiments on real-world measurement data and compare them against signal processing interference mitigation methods.
翻訳日:2023-12-18 15:41:59 公開日:2023-12-15
# 半教師付きサポートベクターマシンのための厳密なアルゴリズムである機械学習に適合する最適化

Optimization meets Machine Learning: An Exact Algorithm for Semi-Supervised Support Vector Machines ( http://arxiv.org/abs/2312.09789v1 )

ライセンス: Link先を確認
Veronica Piccialli, Jan Schwiddessen, Antonio M. Sudoso(参考訳) サポートベクトルマシン(SVM)は、バイナリ分類のための教師付き学習モデルである。 多くの応用において、大量のサンプルを安価で容易に得ることができる。 多くの場合、コストがかかるエラーが発生しやすいプロセスは、これらのインスタンスを手動でラベル付けする。 半教師付きサポートベクトルマシン(S3VM)は、よく知られたSVM分類器を半教師付きアプローチに拡張し、ラベルなしデータの存在下でサンプル間のマージンを最大化する。 ラベル付きデータとラベルなしデータの両方を活用することで、S3VMは従来のSVMと比較して精度と堅牢性の向上を目指している。 残念ながら、結果として生じる最適化問題は凸ではなく、正確に解くのが難しい。 本稿では,半定値プログラミング(SDP)緩和を用いたS3VMの分岐切断手法を提案する。 実現可能集合の束縛に最適性に基づく束縛を適用する。 ボックス制約により、有効な不等式を含め、下位境界を強化することができます。 結果として生じるSDP緩和は、文献で利用できるものよりもはるかに強い境界を提供する。 上界については、代わりに、sdp緩和の解を利用した局所探索を定義する。 計算結果はアルゴリズムの効率を強調し、文献で解かれたものより10倍大きなデータポイントを持つインスタンスを解く能力を示している。

Support vector machines (SVMs) are well-studied supervised learning models for binary classification. In many applications, large amounts of samples can be cheaply and easily obtained. What is often a costly and error-prone process is to manually label these instances. Semi-supervised support vector machines (S3VMs) extend the well-known SVM classifiers to the semi-supervised approach, aiming at maximizing the margin between samples in the presence of unlabeled data. By leveraging both labeled and unlabeled data, S3VMs attempt to achieve better accuracy and robustness compared to traditional SVMs. Unfortunately, the resulting optimization problem is non-convex and hence difficult to solve exactly. In this paper, we present a new branch-and-cut approach for S3VMs using semidefinite programming (SDP) relaxations. We apply optimality-based bound tightening to bound the feasible set. Box constraints allow us to include valid inequalities, strengthening the lower bound. The resulting SDP relaxation provides bounds significantly stronger than the ones available in the literature. For the upper bound, instead, we define a local search exploiting the solution of the SDP relaxation. Computational results highlight the efficiency of the algorithm, showing its capability to solve instances with a number of data points 10 times larger than the ones solved in the literature.
翻訳日:2023-12-18 15:41:44 公開日:2023-12-15
# ドメイン一般化意味セグメンテーションのための協調基礎モデル

Collaborating Foundation models for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.09788v1 )

ライセンス: Link先を確認
Yasser Benigmim, Subhankar Roy, Slim Essid, Vicky Kalogeiton, St\'ephane Lathuili\`ere(参考訳) ドメイン一般化セマンティックセグメンテーション(Domain Generalized Semantic Segmentation, DGSS)は、推論中に未知のドメインに一般化することを目的としてラベル付きソースドメイン上でモデルをトレーニングする。 既存のDGSS法は一般にドメインランダム化(DR)によってロバストな特徴を発現させる。 このようなアプローチは、コンテンツではなくスタイル多様化のみを考慮できるため、しばしば制限される。 本研究では,DGSSの直交的アプローチを採用し,ドメイン一般化セマンティックセマンティックセグメンテーション(CLOUDS)のためのコラボレーティブFOUndationモデルの組立を提案する。 詳しくは、CLOUDSは様々な種類のFMを統合するフレームワークである。 (i) 堅牢な特徴表現のためのCLIPバックボーン。 二 内容の多様化のための生成モデルにより、可能な対象分布の様々なモードをカバーし、 (iii)セグメンテーションモデル(sam)は、セグメンテーションモデルの予測を反復的に精錬する。 大規模な実験により、我々のCLOUDSは、合成DGSSベンチマークから実際のDGSSベンチマークへの適応と、様々な気象条件下での適応に優れており、特に平均ミオでは、先行手法の5.6%と6.7%を上回っていることがわかった。 コードはhttps://github.com/yasserben/CLOUDSで入手できる。

Domain Generalized Semantic Segmentation (DGSS) deals with training a model on a labeled source domain with the aim of generalizing to unseen domains during inference. Existing DGSS methods typically effectuate robust features by means of Domain Randomization (DR). Such an approach is often limited as it can only account for style diversification and not content. In this work, we take an orthogonal approach to DGSS and propose to use an assembly of CoLlaborative FOUndation models for Domain Generalized Semantic Segmentation (CLOUDS). In detail, CLOUDS is a framework that integrates FMs of various kinds: (i) CLIP backbone for its robust feature representation, (ii) generative models to diversify the content, thereby covering various modes of the possible target distribution, and (iii) Segment Anything Model (SAM) for iteratively refining the predictions of the segmentation model. Extensive experiments show that our CLOUDS excels in adapting from synthetic to real DGSS benchmarks and under varying weather conditions, notably outperforming prior methods by 5.6% and 6.7% on averaged miou, respectively. The code is available at : https://github.com/yasserben/CLOUDS
翻訳日:2023-12-18 15:41:24 公開日:2023-12-15
# 物理インフォームドニューラルネットワークによる軟組織非線形生体力学モデルにおける材料特性の推定

Physics-informed Neural Network Estimation of Material Properties in Soft Tissue Nonlinear Biomechanical Models ( http://arxiv.org/abs/2312.09787v1 )

ライセンス: Link先を確認
Federica Caforio and Francesco Regazzoni and Stefano Pagani and Elias Karabelas and Christoph Augustin and Gundolf Haase and Gernot Plank and Alfio Quarteroni(参考訳) 臨床応用のためのバイオフィジカルモデルの開発は、その予測的性質と臨床データの解釈を支援する能力のおかげで、研究コミュニティで急速に進んでいる。 しかし、高分解能で高精度なマルチフィジカル計算モデルは計算コストが高く、そのパーソナライズには、空間に依存しない多くのパラメータの微調整が含まれ、臨床翻訳に挑戦している。 本研究では,物理に変形したニューラルネットワーク(pinns)と三次元軟組織非線形生体力学モデルを組み合わせて,変位場を再構成し,患者固有の生体物理特性を推定する手法を提案する。 提案する学習アルゴリズムは, 限られた変位量から情報を符号化し, 場合によっては, 臨床で日常的に取得できるひずみデータと, 偏微分方程式に基づく数理モデルで表される問題の物理を組み合わせることで, 問題を正則化し, 収束性を向上させる。 提案手法の精度とロバスト性を示し, 患者特異的で不均一な物理的特性, 組織硬度特性の堅牢かつ効果的な同定を可能にする大きな可能性を示す。 特に, 傷痕組織の存在, 位置, 重症度を検出するPINNの能力を実証し, 特に心臓疾患の診断における個人化シミュレーションモデルの開発に有用であることを示す。

The development of biophysical models for clinical applications is rapidly advancing in the research community, thanks to their predictive nature and their ability to assist the interpretation of clinical data. However, high-resolution and accurate multi-physics computational models are computationally expensive and their personalisation involves fine calibration of a large number of parameters, which may be space-dependent, challenging their clinical translation. In this work, we propose a new approach which relies on the combination of physics-informed neural networks (PINNs) with three-dimensional soft tissue nonlinear biomechanical models, capable of reconstructing displacement fields and estimating heterogeneous patient-specific biophysical properties. The proposed learning algorithm encodes information from a limited amount of displacement and, in some cases, strain data, that can be routinely acquired in the clinical setting, and combines it with the physics of the problem, represented by a mathematical model based on partial differential equations, to regularise the problem and improve its convergence properties. Several benchmarks are presented to show the accuracy and robustness of the proposed method and its great potential to enable the robust and effective identification of patient-specific, heterogeneous physical properties, s.a. tissue stiffness properties. In particular, we demonstrate the capability of the PINN to detect the presence, location and severity of scar tissue, which is beneficial to develop personalised simulation models for disease diagnosis, especially for cardiac applications.
翻訳日:2023-12-18 15:40:58 公開日:2023-12-15
# RJUA-QA: 尿路学のための総合的なQAデータセット

RJUA-QA: A Comprehensive QA Dataset for Urology ( http://arxiv.org/abs/2312.09785v1 )

ライセンス: Link先を確認
Shiwei Lyu and Chenfei Chi and Hongbo Cai and Lei Shi and Xiaoyan Yang and Lei Liu and Xiang Chen and Deng Zhao and Zhiqiang Zhang and Xianguo Lyu and Ming Zhang and Fangzhou Li and Xiaowei Ma and Yue Shen and Jinjie Gu and Wei Xue and Yiran Huang(参考訳) RJUA-QAは質問応答(QA)と臨床証拠の推論のための新しい医療データセットであり、一般的な大言語モデル(LLM)と医学固有のLLMアプリケーションとのギャップを埋めるのに寄与する。 RJUA-QAは、現実的な臨床シナリオから派生したもので、信頼性の高い診断とアドバイスを生成する上でLLMを促進することを目的としている。 データセットには2,132の質問-文脈-回答ペアが含まれており、およそ25,000の診断記録と臨床事例に対応している。 このデータセットは67の一般的な尿器科疾患カテゴリをカバーしており、尿器科の医療サービスを求める人口の97.6\%を超える。 RJUA-QAの各データインスタンスは、(1)臨床症状や医療状況に関する質問を実際の患者に反映し、(2)総合的な専門知識を含む文脈、(3)診断結論と推奨検査指針を提供する医師の回答、(4)診断された臨床疾患を推奨診断結果とする医師のアドバイス、(5)医学検査のための勧告を提供する臨床アドバイスを含む。 RJUA-QAは、患者に対する臨床推論のための最初の医学的QAデータセットであり、診断結論と医学的検査アドバイスを得るためには、専門家レベルの知識と経験が必要である。 RJUA-QAデータセットを用いて,医療用および一般用両方のLCMの性能評価を行う。

We introduce RJUA-QA, a novel medical dataset for question answering (QA) and reasoning with clinical evidence, contributing to bridge the gap between general large language models (LLMs) and medical-specific LLM applications. RJUA-QA is derived from realistic clinical scenarios and aims to facilitate LLMs in generating reliable diagnostic and advice. The dataset contains 2,132 curated Question-Context-Answer pairs, corresponding about 25,000 diagnostic records and clinical cases. The dataset covers 67 common urological disease categories, where the disease coverage exceeds 97.6\% of the population seeking medical services in urology. Each data instance in RJUA-QA comprises: (1) a question mirroring real patient to inquiry about clinical symptoms and medical conditions, (2) a context including comprehensive expert knowledge, serving as a reference for medical examination and diagnosis, (3) a doctor response offering the diagnostic conclusion and suggested examination guidance, (4) a diagnosed clinical disease as the recommended diagnostic outcome, and (5) clinical advice providing recommendations for medical examination. RJUA-QA is the first medical QA dataset for clinical reasoning over the patient inquiries, where expert-level knowledge and experience are required for yielding diagnostic conclusions and medical examination advice. A comprehensive evaluation is conducted to evaluate the performance of both medical-specific and general LLMs on the RJUA-QA dataset.
翻訳日:2023-12-18 15:40:33 公開日:2023-12-15
# ハミルトニアンシミュレーションを用いた対流方程式の量子アルゴリズム

A Quantum Algorithm for Solving the Advection Equation using Hamiltonian Simulation ( http://arxiv.org/abs/2312.09784v1 )

ライセンス: Link先を確認
Peter Brearley, Sylvain Laizet(参考訳) スパースハミルトニアンシミュレーションに基づく対流方程式を解く量子アルゴリズムを提案する。 明示的なオイラー時間積分と有限差分離散化から生じる行列はハミルトニアンの中に埋め込まれ、時間内に解を進行させる。 ユニタリ作用素はハミルトンの進化時間に関係なく行列を高い精度で埋め込むので、時間ステップは従来のオイラー法と同じ順序の確率と誤差で成功する。 ポストセレクションが失敗した場合、実行された操作はアイデンティティ行列に近く、量子状態に無視できない影響を持ち、計算を継続することができる。 量子ビット要求は、グリッドポイントの数で対数的に増大し、ゲート要求は多項式的に$\widetilde{o}(n^{1/d}dk/\epsilon)$(多対数項の抑制)で$k$-order空間の離散化と許容誤差$\epsilon$で、従来の$o(n^{(1+d)/d})$よりも大きな多項式のスピードアップをもたらす。 周期境界条件とディリクレ境界条件を組み合わせた2次元層流中で輸送されるスカラーの状態ベクトルシミュレーションを,提案手法の概念の証明として提示する。

A quantum algorithm for solving the advection equation based on sparse Hamiltonian simulation is presented. The matrix arising from the finite difference discretisation with explicit Euler time integration is embedded within the Hamiltonian to advance the solution in time. The unitary operator embeds the matrix to a high accuracy regardless of the Hamiltonian evolution time, so a time step succeeds with a high probability and errors of the same order as the conventional Euler method. If postselection does fail, the enacted operation is close to the identity matrix, having a negligible impact on the quantum state and allowing the computation to continue. Qubit requirements grow logarithmically with the number of grid points $N$ and gate requirements grow polynomially as $\widetilde{O}(N^{1/D}Dk/\epsilon)$ (suppressing polylogarithmic terms) in $D$ dimensions with $k$-order spatial discretisation and allowable error $\epsilon$, yielding a significant polynomial speedup over the classical $O(N^{(1+D)/D})$. Statevector simulations of a scalar transported in a two-dimensional laminar channel flow with a combination of periodic and Dirichlet boundary conditions are presented as a proof of concept of the proposed approach.
翻訳日:2023-12-18 15:40:02 公開日:2023-12-15
# ケースベース推論のための畳み込みニューラルネットワークにおける忠実な説明

Keep the Faith: Faithful Explanations in Convolutional Neural Networks for Case-Based Reasoning ( http://arxiv.org/abs/2312.09783v1 )

ライセンス: Link先を確認
Tom Nuno Wolf, Fabian Bongratz, Anne-Marie Rickmann, Sebastian P\"olsterl, Christian Wachinger(参考訳) 決定クリティカルなタスクに適用する場合、ブラックボックスニューラルネットワークの予測を説明することが重要である。 このように、アトリビューションマップは、人間が類似した例に基づく説明を好むことを示す先行研究にもかかわらず、重要な画像領域を特定するために一般的に使用される。 この目的のために、protopnetはケースベース推論のためのクラス表現型特徴ベクトル(prototypes)のセットを学習する。 推論中、プロトタイプに対する潜在特徴の類似性を線形に分類し、類似性を説明するために属性マップを提供する。 本稿では,ケースベース推論のためのアーキテクチャが,ProtoPNetの例を用いて忠実な説明に必要な確立された公理を満たすか否かを評価する。 このようなアーキテクチャは忠実な説明の抽出を可能にする。 しかし、類似性を説明するために用いられる帰属写像が公理に反することを示す。 本稿では,ProtoPFaith という名前の訓練された ProtoPNet に対する説明を抽出する手法を提案する。 概念的には、これらの説明は各プロトタイプの類似度スコアに基づいて計算されるシェープリー値である。 それらは、どのプロトタイプが見えない画像に存在するのかを忠実に答え、各ピクセルがその存在に対する貢献を定量化し、したがって全ての公理に従う。 ProtoPNetの理論的違反は、3つのデータセット(CUB-200-2011、Stanford Dogs、RSNA)と5つのアーキテクチャ(ConvNet、ResNet、ResNet50、WideResNet50、ResNeXt50)で示された。 実験の結果, ProtoPNet と ProtoPFaith による説明の質的差異が示された。 さらに、摂動曲線上の領域に関する説明を定量化し、protopfaithがすべての実験でprotopfaithがprotopnetを上回るのは、$>10^3$である。

Explaining predictions of black-box neural networks is crucial when applied to decision-critical tasks. Thus, attribution maps are commonly used to identify important image regions, despite prior work showing that humans prefer explanations based on similar examples. To this end, ProtoPNet learns a set of class-representative feature vectors (prototypes) for case-based reasoning. During inference, similarities of latent features to prototypes are linearly classified to form predictions and attribution maps are provided to explain the similarity. In this work, we evaluate whether architectures for case-based reasoning fulfill established axioms required for faithful explanations using the example of ProtoPNet. We show that such architectures allow the extraction of faithful explanations. However, we prove that the attribution maps used to explain the similarities violate the axioms. We propose a new procedure to extract explanations for trained ProtoPNets, named ProtoPFaith. Conceptually, these explanations are Shapley values, calculated on the similarity scores of each prototype. They allow to faithfully answer which prototypes are present in an unseen image and quantify each pixel's contribution to that presence, thereby complying with all axioms. The theoretical violations of ProtoPNet manifest in our experiments on three datasets (CUB-200-2011, Stanford Dogs, RSNA) and five architectures (ConvNet, ResNet, ResNet50, WideResNet50, ResNeXt50). Our experiments show a qualitative difference between the explanations given by ProtoPNet and ProtoPFaith. Additionally, we quantify the explanations with the Area Over the Perturbation Curve, on which ProtoPFaith outperforms ProtoPNet on all experiments by a factor $>10^3$.
翻訳日:2023-12-18 15:39:33 公開日:2023-12-15
# GSQA: 創発的質問応答のためのエンドツーエンドモデル

GSQA: An End-to-End Model for Generative Spoken Question Answering ( http://arxiv.org/abs/2312.09781v1 )

ライセンス: Link先を確認
Min-Han Shih, Ho-Lam Chung, Yu-Chi Pai, Ming-Hao Hsu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee(参考訳) 近年の音声質問応答 (QA) の進歩により, エンドツーエンドモデルは大きな進歩を遂げている。 しかし、これまでの研究は主に抽出スパンの選択に焦点が当てられている。 この抽出ベースのアプローチは、入力の中に直接回答が存在する場合に有効であるが、与えられた情報から解が直接抽出されるのではなく推論される抽象的質問に対処するのに不足している。 このギャップを埋めるために,システムに抽象的推論を強制する,最初のエンドツーエンドのジェネレーティブ・スポット質問回答(GSQA)モデルを導入する。 GSQAモデルをトレーニングする上での課題は、音声抽象的なQAデータセットがないことです。 本稿では,テキスト生成モデルから音声生成モデルへ知識を伝達するために,抽出されたQAデータセットを初期化および活用するためにテキストモデルを提案する。 実験の結果, 抽出されたQAデータセットでは, 従来の抽出モデルよりも3%上回っていることがわかった。 さらに、GSQAモデルは、音声抽出QAデータセット上でのみ微調整されている。 音声による抽象的なQAデータを見たことはないが、それでもカスケードモデルの性能と密に一致させることができる。 結論として,我々のGSQAモデルは,より広い範囲の質問に一般化できる可能性を示し,抽象的QAの音声質問応答能力をさらに拡張する。 我々のコードは \href{https://voidful.github.io/GSQA}{https://voidful.github.io/GSQA} で入手できる。

In recent advancements in spoken question answering (QA), end-to-end models have made significant strides. However, previous research has primarily focused on extractive span selection. While this extractive-based approach is effective when answers are present directly within the input, it falls short in addressing abstractive questions, where answers are not directly extracted but inferred from the given information. To bridge this gap, we introduce the first end-to-end Generative Spoken Question Answering (GSQA) model that empowers the system to engage in abstractive reasoning. The challenge in training our GSQA model lies in the absence of a spoken abstractive QA dataset. We propose using text models for initialization and leveraging the extractive QA dataset to transfer knowledge from the text generative model to the spoken generative model. Experimental results indicate that our model surpasses the previous extractive model by 3% on extractive QA datasets. Furthermore, the GSQA model has only been fine-tuned on the spoken extractive QA dataset. Despite not having seen any spoken abstractive QA data, it can still closely match the performance of the cascade model. In conclusion, our GSQA model shows the potential to generalize to a broad spectrum of questions, thus further expanding spoken question answering capabilities of abstractive QA. Our code is available at \href{https://voidful.github.io/GSQA}{https://voidful.github.io/GSQA}
翻訳日:2023-12-18 15:38:54 公開日:2023-12-15
# 逆問題に対する学習正規化:スペクトルモデルからの考察

Learned Regularization for Inverse Problems: Insights from a Spectral Model ( http://arxiv.org/abs/2312.09845v1 )

ライセンス: Link先を確認
Martin Burger, Samira Kabri(参考訳) 本研究の目的は、逆問題に対する最先端学習アプローチを理論的に確立した研究を提供することである。 本稿では, 正規化法とその収束を基礎となるデータ分布の観点から拡張し, 今後の理論的研究の道を開く。 教師あり学習に導入された単純なスペクトル学習モデルに基づき、特定のアーキテクチャとは独立に定式化できる逆問題に対する異なる学習パラダイムの重要な特性について検討する。 特に,トレーニングデータ分布に対する正規化特性,バイアス,臨界依存性について検討する。 さらに,我々のフレームワークは,無限次元の極限において,異なるパラダイムの特定の挙動を強調・比較することができる。

The aim of this paper is to provide a theoretically founded investigation of state-of-the-art learning approaches for inverse problems. We give an extended definition of regularization methods and their convergence in terms of the underlying data distributions, which paves the way for future theoretical studies. Based on a simple spectral learning model previously introduced for supervised learning, we investigate some key properties of different learning paradigms for inverse problems, which can be formulated independently of specific architectures. In particular we investigate the regularization properties, bias, and critical dependence on training data distributions. Moreover, our framework allows to highlight and compare the specific behavior of the different paradigms in the infinite-dimensional limit.
翻訳日:2023-12-18 15:31:13 公開日:2023-12-15
# 小さなデータセットとビッグゲイン:モデルベース拡張によるオフライン事前トレーニングによる強化学習の強化

Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation ( http://arxiv.org/abs/2312.09844v1 )

ライセンス: Link先を確認
Girolamo Macaluso, Alessandro Sestini, Andrew D. Bagdanov(参考訳) オフライン強化学習は、トレーニングポリシーへの移行の事前収集データセットを活用する。 オンラインアルゴリズムの効果的な初期化、サンプル効率の向上、収束のスピードアップに役立てることができる。 しかし、そのようなデータセットのサイズと品質が制限される場合、オフライン事前トレーニングは最適以下のポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる。 本稿では,オフライン強化学習のメリットを最大化し,有効化に必要なデータ規模を削減するためのモデルベースデータ拡張戦略を提案する。 当社のアプローチでは,オフラインデータセット上でトレーニングした環境のワールドモデルを活用して,オフライン事前トレーニング中の状態を拡大する。 各種のMuJoCoロボットタスクに対する我々のアプローチを評価し、その結果、オンラインの微調整を飛躍的に開始でき、場合によっては、必要な環境相互作用の数を大幅に削減できることを示した。

Offline reinforcement learning leverages pre-collected datasets of transitions to train policies. It can serve as effective initialization for online algorithms, enhancing sample efficiency and speeding up convergence. However, when such datasets are limited in size and quality, offline pre-training can produce sub-optimal policies and lead to degraded online reinforcement learning performance. In this paper we propose a model-based data augmentation strategy to maximize the benefits of offline reinforcement learning pre-training and reduce the scale of data needed to be effective. Our approach leverages a world model of the environment trained on the offline dataset to augment states during offline pre-training. We evaluate our approach on a variety of MuJoCo robotic tasks and our results show it can jump-start online fine-tuning and substantially reduce - in some cases by an order of magnitude - the required number of environment interactions.
翻訳日:2023-12-18 15:31:02 公開日:2023-12-15
# 新しいテクノロジーを科学に統合する:AIの事例

Integrating New Technologies into Science: The case of AI ( http://arxiv.org/abs/2312.09843v1 )

ライセンス: Link先を確認
Stefano Bianchini, Moritz M\"uller and Pierre Pelletier(参考訳) 新しい技術は科学に革命をもたらす力を持っている。 過去にも起きており、人工知能(AI)や機械学習(ML)といった新しい計算ツールの出現とともに、再び起こっている。 これらの技術の影響は文書化されているが、科学コミュニティにおける採用プロセスを理解する上では大きなギャップがある。 本稿では,科学技術人的資本(sthc)の理論について,科学者の人的資本と協力者・機関のネットワーク内で利用可能な外部資源に着目し,科学研究におけるaiの統合を研究する。 1980年から2020年までのすべての科学をカバーし、OpenAlexからの大量の論文のサンプルで仮説を検証する。 AIの普及は、テクノロジーを補完する人的資本の展開と創出を組織する社会的メカニズムによって強く推進されている。 我々の結果は、AIは「探索のための味」を持つドメイン科学者によって開拓され、コンピュータ科学者、経験豊富なAI科学者、アーリーケア研究者のネットワークに埋め込まれていることを示唆している。 このパターンは、化学や医学において重要であるが、他の分野ではそれほど重要ではない高性能コンピューティング(HPC)へのアクセスを除いて、科学分野において類似している。 AIが研究に統合されると、ほとんどの採用要因がその後の再利用に影響を与える。 AIによる発見の進化期における科学の組織化と管理の意味について論じる。

New technologies have the power to revolutionize science. It has happened in the past and is happening again with the emergence of new computational tools, such as Artificial Intelligence (AI) and Machine Learning (ML). Despite the documented impact of these technologies, there remains a significant gap in understanding the process of their adoption within the scientific community. In this paper, we draw on theories of scientific and technical human capital (STHC) to study the integration of AI in scientific research, focusing on the human capital of scientists and the external resources available within their network of collaborators and institutions. We validate our hypotheses on a large sample of publications from OpenAlex, covering all sciences from 1980 to 2020. We find that the diffusion of AI is strongly driven by social mechanisms that organize the deployment and creation of human capital that complements the technology. Our results suggest that AI is pioneered by domain scientists with a `taste for exploration' and who are embedded in a network rich of computer scientists, experienced AI scientists and early-career researchers; they also come from institutions with high citation impact and a relatively strong publication history on AI. The pattern is similar across scientific disciplines, the exception being access to high-performance computing (HPC), which is important in chemistry and the medical sciences but less so in other fields. Once AI is integrated into research, most adoption factors continue to influence its subsequent reuse. Implications for the organization and management of science in the evolving era of AI-driven discovery are discussed.
翻訳日:2023-12-18 15:30:48 公開日:2023-12-15
# マッチ市場におけるモノカルチャー

Monoculture in Matching Markets ( http://arxiv.org/abs/2312.09841v1 )

ライセンス: Link先を確認
Kenny Peng, Nikhil Garg(参考訳) アルゴリズムのモノカルチャーは、多くの意思決定者が応募者を評価するために同じアルゴリズムに依存するときに生じる。 新興の事業体は、この種の均質性の可能性について調査するが、多くの応募者や意思決定者の選好と行動が共同で相互作用して結果を決定する市場効果を組み込むという課題によって制限されている。 この課題に対処し,多くの参加者が参加する2面マッチング市場において,アルゴリズム的モノカルチャーの扱いやすい理論モデルを提案する。 我々は,このモデルを用いて,モノカルチャー(意思決定者が共通のアルゴリズムを用いて応募者を評価する場合)およびポリカルチャー(意思決定者が個別に応募者を評価する場合)の成果を分析する。 モノカルチャーは、(1)騒音が良く振る舞う場合、望ましくない応募者を選び、(2)より多くの応募者と最上位の選択を一致させるが、個々の応募者は意思決定者に対する価値やリスク許容度によって悪化する可能性があり、(3)提出された出願数の格差に対してより強固である。

Algorithmic monoculture arises when many decision-makers rely on the same algorithm to evaluate applicants. An emerging body of work investigates possible harms of this kind of homogeneity, but has been limited by the challenge of incorporating market effects in which the preferences and behavior of many applicants and decision-makers jointly interact to determine outcomes. Addressing this challenge, we introduce a tractable theoretical model of algorithmic monoculture in a two-sided matching market with many participants. We use the model to analyze outcomes under monoculture (when decision-makers all evaluate applicants using a common algorithm) and under polyculture (when decision-makers evaluate applicants independently). All else equal, monoculture (1) selects less-preferred applicants when noise is well-behaved, (2) matches more applicants to their top choice, though individual applicants may be worse off depending on their value to decision-makers and risk tolerance, and (3) is more robust to disparities in the number of applications submitted.
翻訳日:2023-12-18 15:30:24 公開日:2023-12-15
# 冷却・コヒーレンス転移機構としてのフォノン光子変換

Phonon-photon conversion as mechanism for cooling and coherence transfer ( http://arxiv.org/abs/2312.09837v1 )

ライセンス: Link先を確認
Alessandro Ferreri, David Edward Bruschi, Frank K. Wilhelm, Franco Nori and Vincenzo Macr\`i(参考訳) 力学カシミール効果(dynamical casimir effect)は、量子場を閉じ込めた空洞の可動壁の機械的エネルギーを場の量子量に変換することができる物理現象である。 この効果は、量子場理論の最も驚くべき予測の1つとして認識されている。 量子スケールでは、エネルギー変換は非一貫性、すなわち壁の物理的運動なしでも起こりうる。 量子熱力学を用いて, 壁面とキャビティの温度勾配が非破壊的な場合, この現象を壁面を冷却する道具として用いることができることを示した。 同時に、熱伝達の過程は、レーザーによって駆動される1つのキャビティモードから壁へのコヒーレンスを共有し、コヒーレント振動を強制することができる。 最後に、他のサブシステムで構成される場合を含むシステム全体を冷却するために、1つのレーザードライブを使用する方法を示す。

The dynamical Casimir effect is the physical phenomenon where the mechanical energy of a movable wall of a cavity confining a quantum field can be converted into quanta of the field itself. This effect has been recognized as one of the most astonishing predictions of quantum field theory. At the quantum scale, the energy conversion can also occur incoherently, namely without an physical motion of the wall. We employ quantum thermodynamics to show that this phenomenon can be employed as a tool to cool down the wall when there is a non-vanishing temperature gradient between the wall and the cavity. At the same time, the process of heat-transfer enables to share the coherence from one cavity mode, driven by a laser, to the wall, thereby forcing its coherent oscillation. Finally, we show how to employ one laser drive to cool the entire system including the case when it is composed of other subsystems.
翻訳日:2023-12-18 15:30:04 公開日:2023-12-15
# asymptotic cayley tree のスペクトル

The Spectrum of Asymptotic Cayley Trees ( http://arxiv.org/abs/2312.09833v1 )

ライセンス: Link先を確認
Bergfinnur Durhuus, Thordur Jonsson, John Wheater(参考訳) 有限個の無限のケイリー木をアタッチした有限グラフからなるグラフ上の単純なランダムウォークのための遷移行列のスペクトルを特徴付ける。 我々は、ケイリー木と同一の連続スペクトルが存在し、一般に空でない純点スペクトルが存在することを示す。 これらのグラフ上での連続時間量子ウォークの研究にこの結果を適用する。 純粋点スペクトルが空でない場合、ウォークは一般に非ゼロ確率で制限される。

We characterize the spectrum of the transition matrix for simple random walk on graphs consisting of a finite graph with a finite number of infinite Cayley trees attached. We show that there is a continuous spectrum identical to that for a Cayley tree and, in general, a non-empty pure point spectrum. We apply our results to studying continuous time quantum walk on these graphs. If the pure point spectrum is nonempty the walk is in general confined with a nonzero probability.
翻訳日:2023-12-18 15:29:48 公開日:2023-12-15
# 線形モード接続性の解消

Disentangling Linear Mode-Connectivity ( http://arxiv.org/abs/2312.09832v1 )

ライセンス: Link先を確認
Gul Sena Altintas, Gregor Bachmann, Lorenzo Noci, Thomas Hofmann(参考訳) リニアモード接続性(LMC)は、ニューラルネットワークロスランドスケープの興味深い特徴の1つである。 経験的によく確立されているが、残念ながら適切な理論的理解が欠けている。 さらに悪いことに、経験的データポイントは多いが、LMCを示すネットワークが文献にほとんど欠けているという体系的な研究がある。 この作業では、このギャップを埋めることを目指しています。 LMCは,(1)アーキテクチャ(スパーシティ,ウェイトシェアリング),(2)トレーニング戦略(最適化設定),(3)基礎となるデータセットの3つの要因にどのように影響するかを検討する。 最小限の設定に特に重点を置いており、可能な限り不要な複雑さを取り除いています。 我々の洞察は、lmcの内部動作を明らかにする今後の理論的研究を導くことができると信じている。

Linear mode-connectivity (LMC) (or lack thereof) is one of the intriguing characteristics of neural network loss landscapes. While empirically well established, it unfortunately still lacks a proper theoretical understanding. Even worse, although empirical data points are abound, a systematic study of when networks exhibit LMC is largely missing in the literature. In this work we aim to close this gap. We explore how LMC is affected by three factors: (1) architecture (sparsity, weight-sharing), (2) training strategy (optimization setup) as well as (3) the underlying dataset. We place particular emphasis on minimal but non-trivial settings, removing as much unnecessary complexity as possible. We believe that our insights can guide future theoretical works on uncovering the inner workings of LMC.
翻訳日:2023-12-18 15:29:43 公開日:2023-12-15
# 社会・経済デプリベーション分析:拡散マップ

Socio-Economic Deprivation Analysis: Diffusion Maps ( http://arxiv.org/abs/2312.09830v1 )

ライセンス: Link先を確認
June Moh Goo(参考訳) 本報告では, 人口統計データを用いて, 都市で最も被害の少ない地域の位置を推定するモデルを提案する。 国勢調査データは極めて高次元であり、単純化する必要がある。 我々は次元の減少とパターンの発見に新しいアルゴリズムを用いる:拡散マップ。 特徴は拡散写像を定義するラプラシアン行列の固有ベクトルによって定義される。 最小の固有値に対応する固有ベクトルは、特定の集団の特徴を示す。 以前の研究では、ブリストルの国勢調査データを記述する上で2番目に重要な次元が剥奪と結びついていることが定性的に判明した。 本報告では,この次元がいかに良好であるかを,認識された指標との比較により推定するモデルとして分析する。 ピアソン相関係数は0.7以上であった。 このモデルの精度をテストするために、ブリストルにも立地するイギリスにおける不足地域の上位10%を抽出した。 52の領域が不足しており、38の領域がモデルと比較して正確に識別されている。 モデルと相関しないIMD領域のスコアの影響、非欠落OAの固有ベクトル2エントリ、および固有ベクトルの直交性は、モデルを14個の欠落領域の予測に失敗させる。 しかし、全体としては、プロジェクトが考慮する全体領域の将来の損失を予測するための高いパフォーマンスを示している。 このプロジェクトは、政府が資源と資金の割り当てをサポートすることが期待されている。

This report proposes a model to predict the location of the most deprived areas in a city using data from the census. A census data is very high dimensional and needs to be simplified. We use a novel algorithm to reduce dimensionality and find patterns: The diffusion map. Features are defined by eigenvectors of the Laplacian matrix that defines the diffusion map. Eigenvectors corresponding to the smallest eigenvalues indicate specific population features. Previous work has found qualitatively that the second most important dimension for describing the census data in Bristol is linked to deprivation. In this report, we analyse how good this dimension is as a model for predicting deprivation by comparing with the recognised measures. The Pearson correlation coefficient was found to be over 0.7. The top 10 per cent of deprived areas in the UK which also locate in Bristol are extracted to test the accuracy of the model. There are 52 most deprived areas, and 38 areas are correctly identified by comparing to the model. The influence of scores of IMD domains that do not correlate with the models, Eigenvector 2 entries of non-deprived OAs and orthogonality of Eigenvectors cause the model to fail the prediction of 14 deprived areas. However, overall, the model shows a high performance to predict the future deprivation of overall areas where the project considers. This project is expected to support the government to allocate resources and funding.
翻訳日:2023-12-18 15:29:29 公開日:2023-12-15
# 高次短周期規則による高度整合性回復

Advanced Consistency Restoration with Higher-Order Short-Cut Rules ( http://arxiv.org/abs/2312.09828v1 )

ライセンス: Link先を確認
Lars Fritsche, Jens Kosiol, Alexander Lauer, Adrian M\"oller, Andy Sch\"urr(参考訳) 逐次モデル同期は、あるモデルから別のモデルへの変化を伝播して一貫性を回復するタスクである。 不要な削除(情報損失を引き起こす可能性がある)を避けるため、この伝播を最小限の変更方法で実行することは困難である。 理論的観点からは、情報損失を回避しつつ変化の伝播を確実に補正するいわゆるショートカット(SC)ルールが開発されている。 しかし、可能なすべての変化に反応できるためには、そのようなルールの無限セットが必要であるかもしれない。 実際には、事前計算された基本的なSCルールの小さなセットのみが使われており、情報を失うことなく伝達できる変更の種類を厳しく制限している。 本研究は、同期中に必要となるSCルールをオンザフライで計算するアプローチを開発することで、そのギャップを埋めるものである。 これらの高階のSCルールは、複数の変更を1ステップで処理しなければならない場合に、より複雑なシナリオに対処することができます。 モデル変換ツールeMoflonにアプローチを実装しました。 評価により、高次SCルールのオンザフライでの計算のオーバーヘッドは許容可能であり、時には全体的な性能も向上することが示された。 その上、情報を失うことなく、完全に新しいシナリオを扱うことができる。

Sequential model synchronisation is the task of propagating changes from one model to another correlated one to restore consistency. It is challenging to perform this propagation in a least-changing way that avoids unnecessary deletions (which might cause information loss). From a theoretical point of view, so-called short-cut (SC) rules have been developed that enable provably correct propagation of changes while avoiding information loss. However, to be able to react to every possible change, an infinite set of such rules might be necessary. Practically, only small sets of pre-computed basic SC rules have been used, severely restricting the kind of changes that can be propagated without loss of information. In this work, we close that gap by developing an approach to compute more complex required SC rules on-the-fly during synchronisation. These higher-order SC rules allow us to cope with more complex scenarios when multiple changes must be handled in one step. We implemented our approach in the model transformation tool eMoflon. An evaluation shows that the overhead of computing higher-order SC rules on-the-fly is tolerable and at times even improves the overall performance. Above that, completely new scenarios can be dealt with without the loss of information.
翻訳日:2023-12-18 15:29:09 公開日:2023-12-15
# 深層学習における香り, 強靭性, 抗フラグ性

Fragility, Robustness and Antifragility in Deep Learning ( http://arxiv.org/abs/2312.09821v1 )

ライセンス: Link先を確認
Chandresh Pravin, Ivan Martino, Giuseppe Nicosia, Varun Ojha(参考訳) ネットワークパラメータ除去のための信号処理技術に基づくディープニューラルネットワーク(DNN)の系統的解析を,DNNパラメータの脆弱性,堅牢性,および反脆弱性特性を識別するシナプスフィルタの形で提案する。 提案分析は,DNNがシナプスフィルタリングを行う場合,DNNの性能が,クリーンかつ逆向きに摂動されたテストデータセットに負,不変,あるいは正の影響を及ぼすか否かを調べた。 DNNパラメータの脆弱性、堅牢性、および反脆弱性特性を定量化するための3つの「textit{filtering scores」を定義する。 (i)クリーンデータセット。 (二)敵対的データセット、及び (iii)クリーンデータセットと逆データセットのパフォーマンスの違い。 我々は、MNIST、CIFAR10、Tiny ImageNetデータセットのためのResNet-18、ResNet-50、SqueezeNet-v1.1およびShuffleNet V2 x1.0ネットワークアーキテクチャの体系的解析を検証した。 フィルタリングスコアは、所定のネットワークアーキテクチャにおいて、学習時代の異なるデータセットにまたがる特性に不変なネットワークパラメータを識別する。 逆に、あるデータセットに対して、フィルタリングスコアは、異なるネットワークアーキテクチャにまたがる特性に不変なパラメータを識別する。 提案手法は,任意のエポックでロバストパラメータと反フレジブルパラメータのみを選択的に再トレーニングした場合に,ResNetとShuffleNetモデルのテスト精度を向上させることを示し,モデルロバスト性向上のための提案手法の適用性を実証する。

We propose a systematic analysis of deep neural networks (DNNs) based on a signal processing technique for network parameter removal, in the form of synaptic filters that identifies the fragility, robustness and antifragility characteristics of DNN parameters. Our proposed analysis investigates if the DNN performance is impacted negatively, invariantly, or positively on both clean and adversarially perturbed test datasets when the DNN undergoes synaptic filtering. We define three \textit{filtering scores} for quantifying the fragility, robustness and antifragility characteristics of DNN parameters based on the performances for (i) clean dataset, (ii) adversarial dataset, and (iii) the difference in performances of clean and adversarial datasets. We validate the proposed systematic analysis on ResNet-18, ResNet-50, SqueezeNet-v1.1 and ShuffleNet V2 x1.0 network architectures for MNIST, CIFAR10 and Tiny ImageNet datasets. The filtering scores, for a given network architecture, identify network parameters that are invariant in characteristics across different datasets over learning epochs. Vice-versa, for a given dataset, the filtering scores identify the parameters that are invariant in characteristics across different network architectures. We show that our synaptic filtering method improves the test accuracy of ResNet and ShuffleNet models on adversarial datasets when only the robust and antifragile parameters are selectively retrained at any given epoch, thus demonstrating applications of the proposed strategy in improving model robustness.
翻訳日:2023-12-18 15:28:50 公開日:2023-12-15
# 流体力学学習における局所神経オペレーターの局所性について

On the locality of local neural operator in learning fluid dynamics ( http://arxiv.org/abs/2312.09820v1 )

ライセンス: Link先を確認
Ximeng Ye, Hongyu Li, Jingjie Huang, Guoliang Qin(参考訳) 本稿では,局所神経演算子(LNO)の局所性について,一過性偏微分方程式(PDE)の解法において,様々な計算領域におけるLNOの柔軟性を実現するためのコアである。 本研究はLNOの局所性について,LNOの受容領域と受容範囲を考察し,LNOのトレーニングや応用における局所性の役割について考察する。 流体力学を学習するためのLNOトレーニング実験の大規模なグループでは,LNOが学習課題に適合する初期受容範囲が重要であることが判明した。 一方、過大な受容範囲は致命的であり、通常、LNOを数値振動に導くが、一方、過大な受容範囲はLNOが最高の精度を達成するのを妨げている。 本稿では,LNOを適用した多分野のPDEの学習と解法について概説する。 流速予測に事前学習したLNOを適用する実践例を提示し, さらなる結果を確認した。 全体として、アーキテクチャは、互換性のある受容範囲で適切に設計されているため、事前訓練されたLNOは、現実的なケースを解決する上で、満足できる精度と効率を示す。

This paper launches a thorough discussion on the locality of local neural operator (LNO), which is the core that enables LNO great flexibility on varied computational domains in solving transient partial differential equations (PDEs). We investigate the locality of LNO by looking into its receptive field and receptive range, carrying a main concern about how the locality acts in LNO training and applications. In a large group of LNO training experiments for learning fluid dynamics, it is found that an initial receptive range compatible with the learning task is crucial for LNO to perform well. On the one hand, an over-small receptive range is fatal and usually leads LNO to numerical oscillation; on the other hand, an over-large receptive range hinders LNO from achieving the best accuracy. We deem rules found in this paper general when applying LNO to learn and solve transient PDEs in diverse fields. Practical examples of applying the pre-trained LNOs in flow prediction are presented to confirm the findings further. Overall, with the architecture properly designed with a compatible receptive range, the pre-trained LNO shows commendable accuracy and efficiency in solving practical cases.
翻訳日:2023-12-18 15:28:21 公開日:2023-12-15
# smile: 言語モデルを用いたビデオの笑い理解のためのマルチモーダルデータセット

SMILE: Multimodal Dataset for Understanding Laughter in Video with Language Models ( http://arxiv.org/abs/2312.09818v1 )

ライセンス: Link先を確認
Lee Hyun, Kim Sung-Bin, Seungju Han, Youngjae Yu, Tae-Hyun Oh(参考訳) 人工知能の最近の進歩にもかかわらず、ソーシャルインテリジェンスの構築は依然として課題だ。 社会的シグナルのうち、笑いは人間間の社会的相互作用の間に生じる特徴的な表現の1つである。 本研究では、ビデオにおける笑いの背景にある理論的根拠を理解するために、機械が新しい課題に取り組む。 この新しいタスクは、人々が特定のビデオで笑う理由と、このタスクのためのデータセットを説明するために紹介する。 提案するデータセットSMILEは、人々がなぜ笑うのかをビデオクリップと言語記述で記述する。 本稿では,大規模言語モデル(LLM)の推論能力とテキスト映像表現を併用したベースラインを提案する。 実験により、我々の基準線は笑いのもっともらしい説明を生成できることが示された。 さらに,他のビデオ理解タスクや,その中の動画を探索することで,ベースラインのスケーラビリティについて検討する。 私たちはデータセット、コード、モデルチェックポイントをhttps://github.com/SMILE-data/SMILEでリリースします。

Despite the recent advances of the artificial intelligence, building social intelligence remains a challenge. Among social signals, laughter is one of the distinctive expressions that occurs during social interactions between humans. In this work, we tackle a new challenge for machines to understand the rationale behind laughter in video, Video Laugh Reasoning. We introduce this new task to explain why people laugh in a particular video and a dataset for this task. Our proposed dataset, SMILE, comprises video clips and language descriptions of why people laugh. We propose a baseline by leveraging the reasoning capacity of large language models (LLMs) with textual video representation. Experiments show that our baseline can generate plausible explanations for laughter. We further investigate the scalability of our baseline by probing other video understanding tasks and in-the-wild videos. We release our dataset, code, and model checkpoints on https://github.com/SMILE-data/SMILE.
翻訳日:2023-12-18 15:27:58 公開日:2023-12-15
# 予測空間におけるベイズ推定を用いた1ラウンドフェデレート学習の校正

Calibrated One Round Federated Learning with Bayesian Inference in the Predictive Space ( http://arxiv.org/abs/2312.09817v1 )

ライセンス: Link先を確認
Mohsin Hasan, Guojun Zhang, Kaiyang Guo, Xi Chen, Pascal Poupart(参考訳) フェデレートラーニング(FL)では、各クライアントのデータセットがローカライズされ、おそらく異種であるという制約で、クライアント間で分散されたデータセット上でモデルをトレーニングする。 FLでは、小さくノイズの多いデータセットが一般的であり、予測の不確実性を表すよく校正されたモデルの必要性を強調している。 そのような目標を達成するための最も近いFL手法は、局所的な後部からパラメータサンプルを収集し、それらを集約して大域的な後部を近似するベイズFL法である。 大きなモデルのスケーラビリティを改善するために、ベイズ的なアプローチは局所的な予測後部を乗じることで、大域的な予測後部を近似することである。 本研究では,この手法が体系的に過剰な予測を与えることを示すとともに,予測後部の混合と積を補間するベイズ的FLアルゴリズムである$\beta$-Predictive Bayesを,調整可能なパラメータ$\beta$を用いて提案する。 このパラメータは、単一のモデルに蒸留する前に、グローバルアンサンブルのキャリブレーションを改善するために調整される。 本手法は,データの不均一性が増大しても,キャリブレーションが他のベースラインよりも優れていることを示すために,様々な回帰および分類データセットを用いて評価する。 コードはhttps://github.com/hasanmohsin/betapredbayes_flで利用可能

Federated Learning (FL) involves training a model over a dataset distributed among clients, with the constraint that each client's dataset is localized and possibly heterogeneous. In FL, small and noisy datasets are common, highlighting the need for well-calibrated models that represent the uncertainty of predictions. The closest FL techniques to achieving such goals are the Bayesian FL methods which collect parameter samples from local posteriors, and aggregate them to approximate the global posterior. To improve scalability for larger models, one common Bayesian approach is to approximate the global predictive posterior by multiplying local predictive posteriors. In this work, we demonstrate that this method gives systematically overconfident predictions, and we remedy this by proposing $\beta$-Predictive Bayes, a Bayesian FL algorithm that interpolates between a mixture and product of the predictive posteriors, using a tunable parameter $\beta$. This parameter is tuned to improve the global ensemble's calibration, before it is distilled to a single model. Our method is evaluated on a variety of regression and classification datasets to demonstrate its superiority in calibration to other baselines, even as data heterogeneity increases. Code available at https://github.com/hasanmohsin/betaPredBayes_FL
翻訳日:2023-12-18 15:27:45 公開日:2023-12-15
# 車両セントリックのための構造情報誘導マルチモーダル事前学習

Structural Information Guided Multimodal Pre-training for Vehicle-centric Perception ( http://arxiv.org/abs/2312.09812v1 )

ライセンス: Link先を確認
Xiao Wang, Wentao Wu, Chenglong Li, Zhicheng Zhao, Zhe Chen, Yukai Shi, Jin Tang(参考訳) 画像中の車両を理解することは、インテリジェント輸送や自動運転システムといった様々な用途において重要である。 既存の車両中心の作業は通常、大規模な分類データセットで事前トレーニングされ、特定の下流タスク用に微調整される。 しかし、異なるタスクにおける車両知覚の特定の特性を無視し、結果として最適以下の性能をもたらす可能性がある。 この問題に対処するために,車両プロファイル情報から空間構造を含む構造情報と,効果的なマスク付き車両外観復元のための高レベル自然言語記述からの意味構造を含む,新しい車両中心の事前学習フレームワークであるVabyMAEを提案する。 具体的には,空間構造として車両のスケッチ線を明示的に抽出し,車両の再構築を導く。 CLIPビッグモデルから抽出したより包括的な知識は、車両の理解を深めるため、ペア化/アンペア化画像テキストサンプルの類似性に基づいてさらに検討される。 大規模なデータセットは、約100万の車両画像と12693のテキスト情報を含むAutobot1Mと呼ばれるモデルを事前訓練するために構築されている。 4つのダウンストリームタスクに関する広範囲な実験が,車前の有効性を完全に検証した。 ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/VehicleMAEでリリースされる。

Understanding vehicles in images is important for various applications such as intelligent transportation and self-driving system. Existing vehicle-centric works typically pre-train models on large-scale classification datasets and then fine-tune them for specific downstream tasks. However, they neglect the specific characteristics of vehicle perception in different tasks and might thus lead to sub-optimal performance. To address this issue, we propose a novel vehicle-centric pre-training framework called VehicleMAE, which incorporates the structural information including the spatial structure from vehicle profile information and the semantic structure from informative high-level natural language descriptions for effective masked vehicle appearance reconstruction. To be specific, we explicitly extract the sketch lines of vehicles as a form of the spatial structure to guide vehicle reconstruction. The more comprehensive knowledge distilled from the CLIP big model based on the similarity between the paired/unpaired vehicle image-text sample is further taken into consideration to help achieve a better understanding of vehicles. A large-scale dataset is built to pre-train our model, termed Autobot1M, which contains about 1M vehicle images and 12693 text information. Extensive experiments on four vehicle-based downstream tasks fully validated the effectiveness of our VehicleMAE. The source code and pre-trained models will be released at https://github.com/Event-AHU/VehicleMAE.
翻訳日:2023-12-18 15:27:19 公開日:2023-12-15
# 検索学習によるバイオメディカルエンティティリンクの改善

Improving Biomedical Entity Linking with Retrieval-enhanced Learning ( http://arxiv.org/abs/2312.09806v1 )

ライセンス: Link先を確認
Zhenxi Lin, Ziheng Zhang, Xian Wu, Yefeng Zheng(参考訳) biomedical entity links (bioel) は、事前学習された言語モデルの助けを借りて著しく進歩した。 しかしながら、既存のBioEL法は通常、長い尾の分布のため、稀で困難なエンティティを扱うのに苦労する。 この制限に対処するため,BioELモデルをトレーニングコーパス全体の類似したインスタンスを予測の手がかりとして参照し,一般化能力を向上する,新たなスキームである$k$NN-BioELを導入する。 さらに,動的ハードネガティブサンプリング(DHNS)を用いたコントラスト学習目標を設計し,抽出した隣人の品質を向上させる。 広範な実験の結果、$k$nn-bioelはいくつかのデータセットで最先端のベースラインよりも優れていた。

Biomedical entity linking (BioEL) has achieved remarkable progress with the help of pre-trained language models. However, existing BioEL methods usually struggle to handle rare and difficult entities due to long-tailed distribution. To address this limitation, we introduce a new scheme $k$NN-BioEL, which provides a BioEL model with the ability to reference similar instances from the entire training corpus as clues for prediction, thus improving the generalization capabilities. Moreover, we design a contrastive learning objective with dynamic hard negative sampling (DHNS) that improves the quality of the retrieved neighbors during inference. Extensive experimental results show that $k$NN-BioEL outperforms state-of-the-art baselines on several datasets.
翻訳日:2023-12-18 15:26:56 公開日:2023-12-15
# 多レベルプロトタイプを用いた動的ヘテロジニアスフェデレート学習

Dynamic Heterogeneous Federated Learning with Multi-Level Prototypes ( http://arxiv.org/abs/2312.09881v1 )

ライセンス: Link先を確認
Shunxin Guo, Hongsong Wang, Xin Geng(参考訳) フェデレーション学習は、プライバシー保護の協調学習技術として有望である。 既存のヘテロジニアスなフェデレーション学習は、主にクライアント間でラベル分布を絞ることに焦点を当てている。 しかし、ほとんどのアプローチは破滅的な忘れと概念の漂流に悩まされており、主にすべてのクラスのグローバルな分布が極めて不均衡であり、クライアントのデータ分布が時間とともに動的に変化する。 本稿では,異なるクライアント間で不均一なデータ分散が存在する現実的なシナリオと,クライアント内の動的タスクに対処する新しいタスクである動的不均一フェデレート学習(DHFL)について検討する。 そこで本研究では,federated multi-level prototypes (fedmlp) と呼ばれる新しいfederated learning frameworkとfederated multi-level regularizationの設計を提案する。 概念ドリフトを緩和するために,プロトタイプと意味的プロトタイプを構築し,実りある一般化知識を提供し,プロトタイプ空間の連続性を保証する。 モデルの安定性と収束の一貫性を維持するため、3つの正規化は訓練損失として導入され、すなわち、プロトタイプベース正規化、セマンティックプロトタイプベース正規化、タスク間正規化である。 実験の結果,提案手法は様々な環境下での最先端性能を実現する。

Federated learning shows promise as a privacy-preserving collaborative learning technique. Existing heterogeneous federated learning mainly focuses on skewing the label distribution across clients. However, most approaches suffer from catastrophic forgetting and concept drift, mainly when the global distribution of all classes is extremely unbalanced and the data distribution of the client dynamically evolves over time. In this paper, we study the new task, i.e., Dynamic Heterogeneous Federated Learning (DHFL), which addresses the practical scenario where heterogeneous data distributions exist among different clients and dynamic tasks within the client. Accordingly, we propose a novel federated learning framework named Federated Multi-Level Prototypes (FedMLP) and design federated multi-level regularizations. To mitigate concept drift, we construct prototypes and semantic prototypes to provide fruitful generalization knowledge and ensure the continuity of prototype spaces. To maintain the model stability and consistency of convergence, three regularizations are introduced as training losses, i.e., prototype-based regularization, semantic prototype-based regularization, and federated inter-task regularization. Extensive experiments show that the proposed method achieves state-of-the-art performance in various settings.
翻訳日:2023-12-18 15:19:44 公開日:2023-12-15
# 拡張AIとコンピュータビジョンを用いた非構造化データからの情報抽出

Information Extraction from Unstructured data using Augmented-AI and Computer Vision ( http://arxiv.org/abs/2312.09880v1 )

ライセンス: Link先を確認
Aditya Parikh(参考訳) 情報抽出(IE)プロセスは、構造化されていないデータやラベルのないデータから意味のある情報を抽出するためにしばしば用いられる。 ocrやパス抽出エンジンの適用を含む従来のデータ抽出方法は,大規模データでは非効率であり,その限界がある。 本稿では,NLPを含むA2Iとコンピュータビジョン技術を用いて,情報抽出の独特な手法を提案する。

Process of information extraction (IE) is often used to extract meaningful information from unstructured and unlabeled data. Conventional methods of data extraction including application of OCR and passing extraction engine, are inefficient on large data and have their limitation. In this paper, a peculiar technique of information extraction is proposed using A2I and computer vision technologies, which also includes NLP.
翻訳日:2023-12-18 15:19:22 公開日:2023-12-15
# 専門家の混合物の分散学習

Distributed Learning of Mixtures of Experts ( http://arxiv.org/abs/2312.09877v1 )

ライセンス: Link先を確認
Fa\"icel Chamroukhi, Nhat Thien Pham(参考訳) 現代の機械学習の問題では、集中型アルゴリズムが一般的に非効率であるため、自然に分散するか、あるいは計算を分散する潜在的に大きいデータセットを扱うのが一般的です。 本研究では,データ分散サブセットに並列に適合する局所的推定器から還元推定器を構築するために,MoEモデルとアグリゲーション戦略を組み合わせた分散学習手法を提案する。 このアグリゲーションは、局所推定子からなる大きなmoeと未知の所望のmoeモデルとの間の期待輸送の最適最小化に基づいている。 得られた縮小推定器は, 集約する局所推定器が一貫した値と一致し, その構成は, 計算効率のよい最大化最小化(MM)アルゴリズムによって提案される。 本研究は,全データセットから集中的に構築した大域的推定器と比較して,その性能を示す実験について,提案手法の統計的および数値的性質について検討する。 いくつかの状況では、同等のパフォーマンスで計算時間は10倍以上高速である。 ソースコードはgithubで公開されている。

In modern machine learning problems we deal with datasets that are either distributed by nature or potentially large for which distributing the computations is usually a standard way to proceed, since centralized algorithms are in general ineffective. We propose a distributed learning approach for mixtures of experts (MoE) models with an aggregation strategy to construct a reduction estimator from local estimators fitted parallelly to distributed subsets of the data. The aggregation is based on an optimal minimization of an expected transportation divergence between the large MoE composed of local estimators and the unknown desired MoE model. We show that the provided reduction estimator is consistent as soon as the local estimators to be aggregated are consistent, and its construction is performed by a proposed majorization-minimization (MM) algorithm that is computationally effective. We study the statistical and numerical properties for the proposed reduction estimator on experiments that demonstrate its performance compared to namely the global estimator constructed in a centralized way from the full dataset. For some situations, the computation time is more than ten times faster, for a comparable performance. Our source codes are publicly available on Github.
翻訳日:2023-12-18 15:19:15 公開日:2023-12-15
# 自動画像色付け装置

Automatic Image Colourizer ( http://arxiv.org/abs/2312.09876v1 )

ライセンス: Link先を確認
Aditya Parikh(参考訳) このプロジェクトでは、人間の介入なしにグレースケールの画像を彩色するモデルを設計し、記述した。 そこで本研究では,鮮やかな色と現実的な色を呈し,色調や色調を自動で再現するプロセスを提案する。 我々は,畳み込みニューラルネットワークを用いて入力画像とフィードフォワードを何千もの画像を訓練した。 このアプローチは後発的な結果をもたらす。

In this project we have designed and described a model which colourize a gray-scale image, with no human intervention. We propose a fully automatic process of colouring and re-colouring faded or gray-scale image with vibrant and pragmatic colours. We have used Convolutional Neural Network to hallucinate input images and feed-forwarded by training thousands of images. This approach results in trailblazing results.
翻訳日:2023-12-18 15:18:57 公開日:2023-12-15
# 量子拡大型補助場量子モンテカルロの測定戦略の古典的および量子的コスト

Classical and quantum cost of measurement strategies for quantum-enhanced auxiliary field Quantum Monte Carlo ( http://arxiv.org/abs/2312.09872v1 )

ライセンス: Link先を確認
Matthew Kiser, Anna Schroeder, Gian-Luca R. Anselmetti, Chandan Kumar, Nikolaj Moll, Michael Streif, Davide Vodola(参考訳) qc-afqmc (quantum-enhanced auxiliary field quantum monte carlo) は量子コンピュータからの出力を用いて、古典的コンピュータの精度を高める。 このアルゴリズムは、ウォーカー状態と量子コンピュータ上に作成された試行波動関数の重なりを推定する必要がある。 本稿では,このアルゴリズムの適用性について,量子コンピュータから要求される測定数と,これらの測定を後処理する古典的コストの観点から検討する。 古典的シャドウを用いた最先端計測手法の古典的後処理コストを比較して重なりを判定し,各ウォーカーあたり$\mathcal{o}(n^9)$のような重なり推定スケールから生じる後処理コストをアルゴリズム全体で議論する。 さらに数値シミュレーションにより,異なるアンサンブル,例えばクリフォードや(粒子数制限された)マッチゲート上でランダム化する場合の古典的影の分散挙動を比較し,異なる時間ステップにおけるAFQMC歩行者の重なり推定間の共分散の存在を明らかにする。 さらに,重畳推定における誤差がAFQMCエネルギーにどのように伝播するかを解析し,システムサイズを増大させる際のスケーリングについて議論する。

Quantum-enhanced auxiliary field quantum Monte Carlo (QC-AFQMC) uses output from a quantum computer to increase the accuracy of its classical counterpart. The algorithm requires the estimation of overlaps between walker states and a trial wavefunction prepared on the quantum computer. We study the applicability of this algorithm in terms of the number of measurements required from the quantum computer and the classical costs of post-processing those measurements. We compare the classical post-processing costs of state-of-the-art measurement schemes using classical shadows to determine the overlaps and argue that the overall post-processing cost stemming from overlap estimations scales like $\mathcal{O}(N^9)$ per walker throughout the algorithm. With further numerical simulations, we compare the variance behavior of the classical shadows when randomizing over different ensembles, e.g., Cliffords and (particle-number restricted) matchgates beyond their respective bounds, and uncover the existence of covariances between overlap estimations of the AFQMC walkers at different imaginary time steps. Moreover, we include analyses of how the error in the overlap estimation propagates into the AFQMC energy and discuss its scaling when increasing the system size.
翻訳日:2023-12-18 15:18:50 公開日:2023-12-15
# ChemTime:化学センサの多変量時系列分類のための迅速・早期分類

ChemTime: Rapid and Early Classification for Multivariate Time Series Classification of Chemical Sensors ( http://arxiv.org/abs/2312.09871v1 )

ライセンス: Link先を確認
Alexander M. Moore, Randy C. Paffenroth, Kenneth T. Ngo, Joshua R. Uzarski(参考訳) 多変量時系列データは、物理科学の問題への機械学習の適用においてユビキタスである。 ケミレシスト型センサーアレイは、工業、安全、軍事用途に関連する化学検出タスクにおいて非常に有望である。 センサアレイは本質的に多変量時系列データ収集ツールであり、任意の化学分析物の迅速かつ正確な分類を要求する。 従来,データに依存しない多変量時系列分類器を多変量時系列管理タスク間でベンチマークし,汎用分類アルゴリズムの探索を行った。 私たちの知る限り、ケミレシスト的なハードウェアセンサーアレイによる化学分析検出のための機械学習と時系列分類のアプローチは、まだ調査されていない。 多変量時系列分類器に対する既存のアプローチのベンチマークに加えて、化学センシングのためのセンサアレイ分類に対する新しい \textit{chemtime} アプローチを提案するためのモデルサーベイの結果を取り入れた。 我々は,ハードウェアセンサアレイの分類におけるユニークな課題である分類器の迅速な分類能力や,デプロイされた軽量ハードウェアセンシングデバイスの性能を維持しつつ推論時間の最小化などに対処する実験をデザインする。 時系列の迅速かつ早期の分類と有益な推論と高い精度を組み合わせることで,化学センシングタスクに一意に位置づけられることが判明した。

Multivariate time series data are ubiquitous in the application of machine learning to problems in the physical sciences. Chemiresistive sensor arrays are highly promising in chemical detection tasks relevant to industrial, safety, and military applications. Sensor arrays are an inherently multivariate time series data collection tool which demand rapid and accurate classification of arbitrary chemical analytes. Previous research has benchmarked data-agnostic multivariate time series classifiers across diverse multivariate time series supervised tasks in order to find general-purpose classification algorithms. To our knowledge, there has yet to be an effort to survey machine learning and time series classification approaches to chemiresistive hardware sensor arrays for the detection of chemical analytes. In addition to benchmarking existing approaches to multivariate time series classifiers, we incorporate findings from a model survey to propose the novel \textit{ChemTime} approach to sensor array classification for chemical sensing. We design experiments addressing the unique challenges of hardware sensor arrays classification including the rapid classification ability of classifiers and minimization of inference time while maintaining performance for deployed lightweight hardware sensing devices. We find that \textit{ChemTime} is uniquely positioned for the chemical sensing task by combining rapid and early classification of time series with beneficial inference and high accuracy.
翻訳日:2023-12-18 15:18:27 公開日:2023-12-15
# オンライン原則-エージェントインタラクションにおける学習 : メニューの力

Learning in Online Principle-Agent Interactions: The Power of Menus ( http://arxiv.org/abs/2312.09869v1 )

ライセンス: Link先を確認
Minbiao Han, Michael Albert, Haifeng Xu(参考訳) 本研究では, エージェントの個人情報を, エージェントの履歴的相互作用における嗜好から学習するオンラインプリンシパルエージェント問題において, ユビキタスな学習課題について検討する。 このパラダイムには、最近の文献で広く研究されている価格や契約設計といった重要な特別なケースが含まれている。 しかし、既存の研究は、プリンシパルが各ラウンドで1つの戦略しか選択できず、エージェントと対話し、そのアクションを通じてエージェントが明らかにした嗜好を観察できる場合を考慮している。 本稿では,本研究を拡張して,エージェントに対して戦略のメニューを提供し,さらに,エージェントの選択をメニューから観察することから学ぶことを可能にする。 我々は,いくつかのオンラインプリンシパルエージェント問題の設定を徹底的に調査し,それらのサンプルの複雑さを,我々が開発したアルゴリズムを伴って特徴付ける。 私たちはこのパラダイムを,Stackelberg(セキュリティ)ゲームやコントラクト設計,情報設計など,いくつかの重要な設計問題に初期化します。 最後に,stackelbergゲームにおけるオンライン学習に関する調査結果と既存の結果との関係についても検討し,peng et al. (2019) の重要なハードインスタンスを克服可能なソリューションを提供する。

We study a ubiquitous learning challenge in online principal-agent problems during which the principal learns the agent's private information from the agent's revealed preferences in historical interactions. This paradigm includes important special cases such as pricing and contract design, which have been widely studied in recent literature. However, existing work considers the case where the principal can only choose a single strategy at every round to interact with the agent and then observe the agent's revealed preference through their actions. In this paper, we extend this line of study to allow the principal to offer a menu of strategies to the agent and learn additionally from observing the agent's selection from the menu. We provide a thorough investigation of several online principal-agent problem settings and characterize their sample complexities, accompanied by the corresponding algorithms we have developed. We instantiate this paradigm to several important design problems $-$ including Stackelberg (security) games, contract design, and information design. Finally, we also explore the connection between our findings and existing results about online learning in Stackelberg games, and we offer a solution that can overcome a key hard instance of Peng et al. (2019).
翻訳日:2023-12-18 15:18:05 公開日:2023-12-15
# PLGSLAM:局所的からグローバル的バンドル調整による進行性ニューラルシーンの再現

PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle Adjustment ( http://arxiv.org/abs/2312.09866v1 )

ライセンス: Link先を確認
Tianchen Deng, Guole Shen, Tong Qin, Jianyu Wang, Wentao Zhao, Jingchuan Wang, Danwei Wang, Weidong Chen(参考訳) ニューラル暗黙のシーン表現は、近年、濃密な視覚SLAMの結果を奨励している。 しかし、既存の手法では、屋内の大きなシーンや長いシーケンスにスケールアップする際に、低品質なシーン再構築と低精度なローカライゼーション性能を実現している。 これらの制限は、主に有限容量を持つ単一の大域的放射場が大きなシナリオに適応しないためである。 エンドツーエンドのポーズネットワークも、大きなシーンで累積エラーが増加するほど堅牢ではない。 そこで本研究では,高忠実度表面再構成とロバストなカメラトラッキングをリアルタイムで行うニューラルビジュアルSLAMシステムであるPLGSLAMを提案する。 大規模屋内シーンを扱うため, PLGSLAM では, ローカルスライドウィンドウ内のフレームで訓練した新たなローカルシーン表現を動的に割り当てるプログレッシブシーン表現法を提案する。 これにより、より大きな屋内シーンにスケールアップでき、(ポーズドリフトの下でも)ロバスト性が向上します。 局所的なシーン表現において、PLGSLAMは局所的な高周波特性に三面体を用いる。 また,低周波特性,スムース性,未観測領域でのシーン補完のためのマルチレイヤ・パーセプトロン(mlp)ネットワークも導入した。 さらに,長列のポーズドリフトの増加に対応するため,グローバルキーフレームデータベースを用いた局所-グローバルバンドル調整手法を提案する。 実験の結果、plgslamは最先端のシーン復元結果を達成し、様々なデータセットやシナリオ(小規模と大規模の屋内環境の両方)でパフォーマンスを追跡できることが示されている。 コードは、紙が受け入れられるとオープンソースになる。

Neural implicit scene representations have recently shown encouraging results in dense visual SLAM. However, existing methods produce low-quality scene reconstruction and low-accuracy localization performance when scaling up to large indoor scenes and long sequences. These limitations are mainly due to their single, global radiance field with finite capacity, which does not adapt to large scenarios. Their end-to-end pose networks are also not robust enough with the growth of cumulative errors in large scenes. To this end, we present PLGSLAM, a neural visual SLAM system which performs high-fidelity surface reconstruction and robust camera tracking in real time. To handle large-scale indoor scenes, PLGSLAM proposes a progressive scene representation method which dynamically allocates new local scene representation trained with frames within a local sliding window. This allows us to scale up to larger indoor scenes and improves robustness (even under pose drifts). In local scene representation, PLGSLAM utilizes tri-planes for local high-frequency features. We also incorporate multi-layer perceptron (MLP) networks for the low-frequency feature, smoothness, and scene completion in unobserved areas. Moreover, we propose local-to-global bundle adjustment method with a global keyframe database to address the increased pose drifts on long sequences. Experimental results demonstrate that PLGSLAM achieves state-of-the-art scene reconstruction results and tracking performance across various datasets and scenarios (both in small and large-scale indoor environments). The code will be open-sourced upon paper acceptance.
翻訳日:2023-12-18 15:17:42 公開日:2023-12-15
# 薬物設計のための報酬機能設定の自動化

Automating reward function configuration for drug design ( http://arxiv.org/abs/2312.09865v1 )

ライセンス: Link先を確認
Marius Urbonas, Temitope Ajileye, Paul Gainer and Douglas Pires(参考訳) 生成分子設計(GMD)アルゴリズムを化学空間の望ましい領域に導く報酬関数の設計は、AIによる薬物発見において重要である。 生物学的アッセイを近似する適切な計算方法の選択は困難であり、計算された値を1つのスコアにまとめることはさらに困難であり、試行錯誤のアプローチに依存する可能性がある。 薬物発見プロジェクトにおける手動報酬調整の課題を軽減し,実験データのみに依存する自動報酬設定のための新しい手法を提案する。 提案手法は,多目的空間上でのパレート支配に基づく実験データよりも上位のランキングを構築し,予測報酬によって決定されるランキングとパレート支配関係によって決定されるランキングとが相関するような報酬関数をニューラルネットワークで近似する。 本手法を2つのケーススタディで検証した。 最初の研究では、報酬関数の更新と、その関数で導かれる生成実行を交互に行い、DMTAサイクルをシミュレートする。 文献から得られた評価関数に対して高いスコアの化合物を得るために,学習関数が時間とともに適応することを示す。 第2の研究では、本アルゴリズムを4つの実薬発見プロジェクトの履歴データに適用する。 提案手法では,提案手法が人的定義関数の予測精度を上回り,目標薬物プロファイルを符号化する基礎的真理評価関数に対するスピアマン相関の最大0.4向上を実現していることを示す。 本手法は,GMDの報酬関数を構成する効率的なデータ駆動方式を提供し,医薬品発見の自動化に向けた変革的アプローチの強力な基盤となる。

Designing reward functions that guide generative molecular design (GMD) algorithms to desirable areas of chemical space is of critical importance in AI-driven drug discovery. Traditionally, this has been a manual and error-prone task; the selection of appropriate computational methods to approximate biological assays is challenging and the aggregation of computed values into a single score even more so, leading to potential reliance on trial-and-error approaches. We propose a novel approach for automated reward configuration that relies solely on experimental data, mitigating the challenges of manual reward adjustment on drug discovery projects. Our method achieves this by constructing a ranking over experimental data based on Pareto dominance over the multi-objective space, then training a neural network to approximate the reward function such that rankings determined by the predicted reward correlate with those determined by the Pareto dominance relation. We validate our method using two case studies. In the first study we simulate Design-Make-Test-Analyse (DMTA) cycles by alternating reward function updates and generative runs guided by that function. We show that the learned function adapts over time to yield compounds that score highly with respect to evaluation functions taken from the literature. In the second study we apply our algorithm to historical data from four real drug discovery projects. We show that our algorithm yields reward functions that outperform the predictive accuracy of human-defined functions, achieving an improvement of up to 0.4 in Spearman's correlation against a ground truth evaluation function that encodes the target drug profile for that project. Our method provides an efficient data-driven way to configure reward functions for GMD, and serves as a strong baseline for future research into transformative approaches for the automation of drug discovery.
翻訳日:2023-12-18 15:17:18 公開日:2023-12-15
# 信念伝播を伴う逐次モンテカルロのラオ黒色化

Automatic Rao-Blackwellization for Sequential Monte Carlo with Belief Propagation ( http://arxiv.org/abs/2312.09860v1 )

ライセンス: Link先を確認
Wa\"iss Azizian, Guillaume Baudart, Marc Lelarge(参考訳) 状態空間モデル~(SSM) に関する厳密なベイズ予想は一般には難解であり、残念なことに、基本系列モンテカルロ~(SMC)法は複素モデルに対して正しい近似を与えない。 本稿では,信念伝播を極力利用してクローズドフォーム解を計算し,正確な計算が失敗するとサンプリングに基づくsmc法にフォールバックする混合推論アルゴリズムを提案する。 したがって、このアルゴリズムは自動ラオブラックウェル化を実装しており、ガウスツリーモデルにも正確である。

Exact Bayesian inference on state-space models~(SSM) is in general untractable, and unfortunately, basic Sequential Monte Carlo~(SMC) methods do not yield correct approximations for complex models. In this paper, we propose a mixed inference algorithm that computes closed-form solutions using belief propagation as much as possible, and falls back to sampling-based SMC methods when exact computations fail. This algorithm thus implements automatic Rao-Blackwellization and is even exact for Gaussian tree models.
翻訳日:2023-12-18 15:16:48 公開日:2023-12-15
# 準振動子に対する経路積分:分割関数の簡単な解析式

Path integral for the quartic oscillator: A simple analytic expression for the partition function ( http://arxiv.org/abs/2312.09859v1 )

ライセンス: Link先を確認
Michel Caffarel(参考訳) パス積分法は、ポテンシャル $V(x) = \frac{1}{2} \omega^2 x^2 + g x^4$ で表されるクォート振動子の分配関数に対する単純なパラメータフリーな式を導出するために用いられる。 この新しい表現は、温度と結合強度の全体にわたって、自由エネルギーを数パーセント精度良くする。 調和(g\rightarrow 0$)と古典的(高温)の制限はどちらも正確に回復される。 基底および第一励起状態エネルギーの解析式を導出する。 摂動エネルギーの因子成長を特徴とする弱結合における基底状態エネルギーのパワー級数の発散を、正確な係数とともに強結合膨張の機能形態とともに再現する。 我々の単純な式は、ファインマンとクラインナートとB\'uttnerとFlytzanisによって提案された近似分割関数と比較される。

The path-integral method is used to derive a simple parameter-free expression for the partition function of the quartic oscillator described by the potential $V(x) = \frac{1}{2} \omega^2 x^2 + g x^4$. This new expression gives a free energy accurate to a few percent over the entire range of temperatures and coupling strengths $g$. Both the harmonic ($g\rightarrow 0$) and classical (high-temperature) limits are exactly recovered. Analytic expressions for the ground- and first-excited state energies are derived. The divergence of the power series of the ground-state energy at weak coupling, characterized by a factorial growth of the perturbational energies, is reproduced as well as the functional form of the strong-coupling expansion along with accurate coefficients. Our simple expression is compared to the approximate partition functions proposed by Feynman and Kleinert and by B\"uttner and Flytzanis.
翻訳日:2023-12-18 15:16:38 公開日:2023-12-15
# 時系列分類のための深い教師なしドメイン適応:ベンチマーク

Deep Unsupervised Domain Adaptation for Time Series Classification: a Benchmark ( http://arxiv.org/abs/2312.09857v1 )

ライセンス: Link先を確認
Hassan Ismail Fawaz, Ganesh Del Grosso, Tanguy Kerdoncuff, Aurelie Boisbunon, Illyyne Saffar(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースデータを利用してラベルなしターゲットデータのモデルをトレーニングすることを目的としている。 コンピュータビジョンや自然言語処理などの分野の研究にもかかわらず、UDAは、医学や製造、地球観測、人間の活動認識など、現実世界に広く応用されている時系列データについては、まだ研究が進んでいない。 本稿では,時系列分類のためのUDA手法を評価するための総合的なベンチマークを導入することで,このギャップに対処する。 我々は、さまざまなドメインシフトと時間的ダイナミクスをカバーする7つの新しいベンチマークデータセットを提供し、時系列データに対するアートニューラルネットワークバックボーンの状態(例えば、インセプション)の公正で標準化されたUDAメソッドアセスメントを容易にする。 このベンチマークは、ドメイン適応の教師なしの性質を保ちながら評価されたアプローチの強みと限界に関する洞察を与え、実践的な問題に直接適用する。 本稿は,研究者や実践者にとって重要な資源であり,時系列データに対するドメイン適応ソリューションの進歩と,この分野のイノベーションの促進に寄与する。 このベンチマークの実装コードはhttps://github.com/EricssonResearch/UDA-4-TSCで公開されている。

Unsupervised Domain Adaptation (UDA) aims to harness labeled source data to train models for unlabeled target data. Despite extensive research in domains like computer vision and natural language processing, UDA remains underexplored for time series data, which has widespread real-world applications ranging from medicine and manufacturing to earth observation and human activity recognition. Our paper addresses this gap by introducing a comprehensive benchmark for evaluating UDA techniques for time series classification, with a focus on deep learning methods. We provide seven new benchmark datasets covering various domain shifts and temporal dynamics, facilitating fair and standardized UDA method assessments with state of the art neural network backbones (e.g. Inception) for time series data. This benchmark offers insights into the strengths and limitations of the evaluated approaches while preserving the unsupervised nature of domain adaptation, making it directly applicable to practical problems. Our paper serves as a vital resource for researchers and practitioners, advancing domain adaptation solutions for time series data and fostering innovation in this critical field. The implementation code of this benchmark is available at https://github.com/EricssonResearch/UDA-4-TSC.
翻訳日:2023-12-18 15:16:23 公開日:2023-12-15
# Q-Segment: 血管型診断のためのイメージインセンサー

Q-Segment: Segmenting Images In-Sensor for Vessel-Based Medical Diagnosis ( http://arxiv.org/abs/2312.09854v1 )

ライセンス: Link先を確認
Pietro Bonazzi, Julian Moosmann, Yawei Li, Sizhen Bian, Michele Magno(参考訳) 本稿では,ディープラーニングモデルを直接センサに展開することへの関心が高まっている。 我々は、量子化されたリアルタイムセグメンテーションアルゴリズムである「Q-Segment」を紹介し、低消費電力エッジビジョンプラットフォームであるソニー IMX500と低出力マルチコアARM Cortex-Mマイクロコントローラであるソニー Spresenseを包括的に評価する。 このモデルの主な目的の1つは、血管ベースの診断のためのエンドツーエンドのイメージセグメンテーションを実現することである。 IMX500プラットフォーム上に配備されたQセグメントは、わずか1.9msの超低推論時間とわずか5.7mJのエネルギー消費を達成する。 提案するネットワークと各種プラットフォーム上の既存ネットワークを75倍の性能で比較した(ERFNetと比較)。 ネットワークアーキテクチャでは、接続をスキップするエンコーダ・デコーダ構造を採用しており、2進法の精度は97.25%、受信器動作特性曲線(AUC)は96.97%である。 この研究は、エッジベースのイメージセグメンテーションに関する貴重な洞察をもたらし、低消費電力環境に適した効率的なアルゴリズムの基礎を築いた。

This paper addresses the growing interest in deploying deep learning models directly in-sensor. We present "Q-Segment", a quantized real-time segmentation algorithm, and conduct a comprehensive evaluation on two low-power edge vision platforms, namely Sony IMX500, which has an in-sensors processor, and Sony Spresense, a low-power multi-core ARM Cortex-M microcontroller. One of the main goals of the model is to achieve end-to-end image segmentation for vessel-based medical diagnosis. Deployed on the IMX500 platform, Q-Segment achieves ultra-low inference time in-sensor of only 1.9 ms and energy consumption of only 5.7 mJ. We compare the proposed network with outperforming existing networks on various platforms by a factor of 75x (compared to ERFNet). The network architecture employs an encoder-decoder structure with skip connections, and results in a binary accuracy of 97.25% and an Area Under the Receiver Operating Characteristic Curve (AUC) of 96.97% on the CHASE dataset. This research contributes valuable insights into edge-based image segmentation, laying the foundation for efficient algorithms tailored to low-power environments.
翻訳日:2023-12-18 15:16:01 公開日:2023-12-15
# 自由流を伴う多様体上の学習分布

Learning Distributions on Manifolds with Free-form Flows ( http://arxiv.org/abs/2312.09852v1 )

ライセンス: Link先を確認
Peter Sorrenson, Felix Draxler, Armand Rousselot, Sander Hummerich, Ullrich K\"othe(参考訳) 現実世界のデータの多くは、特に自然科学やコンピュータビジョンにおいて、球面、トーラス、回転行列群のような既知のリーマン多様体上に存在する。 そのような多様体上の分布を学習するには、モデルから標本を採取し密度を評価するために微分方程式を解く必要がある。 得られたサンプリング時間は、多数の関数評価によって遅くなる。 本研究では, 1 つの関数評価と多様体への射影のみを必要とする別の手法を提案する。 トレーニングは、最近提案された自由形式フローフレームワークをリーマン多様体に適応させることによって達成される。 中心となる考え方は、接空間で評価されたトレースを通して負の対数様の勾配を推定することである。 提案手法は様々な多様体上で評価し, 従来の手法に比べ, 性能の面では有意に高速であることがわかった。 コードをhttps://github.com/vislearn/FFF.comで公開しています。

Many real world data, particularly in the natural sciences and computer vision, lie on known Riemannian manifolds such as spheres, tori or the group of rotation matrices. The predominant approaches to learning a distribution on such a manifold require solving a differential equation in order to sample from the model and evaluate densities. The resulting sampling times are slowed down by a high number of function evaluations. In this work, we propose an alternative approach which only requires a single function evaluation followed by a projection to the manifold. Training is achieved by an adaptation of the recently proposed free-form flow framework to Riemannian manifolds. The central idea is to estimate the gradient of the negative log-likelihood via a trace evaluated in the tangent space. We evaluate our method on various manifolds, and find significantly faster inference at competitive performance compared to previous work. We make our code public at https://github.com/vislearn/FFF.
翻訳日:2023-12-18 15:15:38 公開日:2023-12-15
# 散逸多モード相転移における動的ヒステリシス

Dynamic Hysteresis Across a Dissipative Multi-Mode Phase Transition ( http://arxiv.org/abs/2312.09848v1 )

ライセンス: Link先を確認
Marvin R\"ohrle, Jens Benary, Erik Bernhart, Herwig Ott(参考訳) 散逸相転移はオープン量子系の特性である。 鍵となるシグネチャは、相転移の近傍にある異なる状態とヒステリシスの出現の間の動的切替である。 本稿では,多モード駆動散逸系における1次散逸相転移の動的スイープを実験的に検討する。 従来の研究とは対照的に, 駆動強度ではなく, 消散強度のスイープを行う。 本研究では, ヒステリシス領域のスイープ時間に依存するスケーリングの指数を抽出し, 非自明な挙動を示す$g^{(2)}(0)$相関について検討する。 システムのマルチモード性から,ヒステリシス領域における温度の影響も検討できる。 我々は,単一モードのシステムに対して行った数値計算結果と比較し,驚くほど良好な一致を求める。 さらに, 消散強度の走査と駆動強度の走査との差を同定し, 議論する。

Dissipative phase transitions are characteristic features in open quantum systems. Key signatures are the dynamical switching between different states in the vicinity of the phase transition and the appearance of hysteresis. Here, we experimentally study dynamic sweeps across a first order dissipative phase transition in a multi-mode driven-dissipative system. In contrast to previous studies, we perform sweeps of the dissipation strength instead of the driving strength. We extract exponents for the scaling of the hysteresis area in dependence of the sweep time and study the $g^{(2)}(0)$ correlations, which show non-trivial behavior. Due to the multi-mode nature of the system, we can also study the influence of the temperature on the hysteresis area. We compare our results to numerical calculations done for a single mode variant of the system, and find surprisingly good agreement. Furthermore, we identify and discuss the differences between a scan of the dissipation strength and a scan of the driving strength.
翻訳日:2023-12-18 15:15:24 公開日:2023-12-15
# レッドAI? 米国と中国の政治問題に対するGPT3.5モデルの不整合反応

Red AI? Inconsistent Responses from GPT3.5 Models on Political Issues in the US and China ( http://arxiv.org/abs/2312.09917v1 )

ライセンス: Link先を確認
Di Zhou, Yinxian Zhang(参考訳) ChatGPTやその他のAI駆動の大規模言語モデル(LLM)の人気が高まり、誤りやバイアスへの感受性が強調される研究が増えている。 しかし、これらの研究のほとんどは英語のテキストで訓練されたモデルに焦点を当てている。 本稿では,GPTの多言語モデルにおける政治的偏見について考察する。 我々は、米国と中国の著名な政治問題について、英語と簡体字の両方でGPTに同様の疑問を提起し、両言語対応の分析の結果、GPTのバイリンガルモデルの政治的「知識(コンテント)」と政治的「態度(センチメント)」が、中国の政治問題に大きく矛盾していることが判明した。 単純化された中国のGPTモデルは、中国側の情報を提供する傾向だけでなく、中国の問題に対する最も否定的な感情も示していた。 この格差は、GPTバイリンガルモデルのトレーニングコーパスに影響を与える中国の検閲と米国と中国の地政学的緊張に由来する可能性がある。 さらに、中国語と英語の両方のモデルは、使用する言語によって表現される「their own」の問題に対して、「the other」の問題よりも批判的になりがちであった。 これは、GPT多言語モデルは、訓練言語に基づく「政治的アイデンティティ」と関連する感情バイアスを発達させる可能性があることを示唆している。 我々は,情報伝達とコミュニケーションに関する知見の意義について,より分断された世界において議論した。

The rising popularity of ChatGPT and other AI-powered large language models (LLMs) has led to increasing studies highlighting their susceptibility to mistakes and biases. However, most of these studies focus on models trained on English texts. Taking an innovative approach, this study investigates political biases in GPT's multilingual models. We posed the same question about high-profile political issues in the United States and China to GPT in both English and simplified Chinese, and our analysis of the bilingual responses revealed that GPT's bilingual models' political "knowledge" (content) and the political "attitude" (sentiment) are significantly more inconsistent on political issues in China. The simplified Chinese GPT models not only tended to provide pro-China information but also presented the least negative sentiment towards China's problems, whereas the English GPT was significantly more negative towards China. This disparity may stem from Chinese state censorship and US-China geopolitical tensions, which influence the training corpora of GPT bilingual models. Moreover, both Chinese and English models tended to be less critical towards the issues of "their own" represented by the language used, than the issues of "the other." This suggests that GPT multilingual models could potentially develop a "political identity" and an associated sentiment bias based on their training language. We discussed the implications of our findings for information transmission and communication in an increasingly divided world.
翻訳日:2023-12-18 15:08:12 公開日:2023-12-15
# LAENeRF:ニューラルラジアンスフィールドのための局所的な外観編集

LAENeRF: Local Appearance Editing for Neural Radiance Fields ( http://arxiv.org/abs/2312.09913v1 )

ライセンス: Link先を確認
Lukas Radl, Michael Steiner, Andreas Kurz, Markus Steinberger(参考訳) ニューラル・ラジアンス・フィールド(NeRF)の完全解釈のため、編集可能な暗黙的な3D表現への関心はここ数年で急増している。 しかし, モデルパラメータにエンコードされた外観や形状の絡み合いのため, 暗黙的表現やハイブリッド表現の編集は困難である。 これらの課題にもかかわらず、最近の研究は、フォトリアリスティックおよび非フォトリアリスティックな外観編集への最初の有望なステップを示している。 関連する作業の主な問題は、対話性の制限、ローカル編集のサポートの欠如、大きなメモリ要件などであり、実際にはあまり役に立たない。 我々はこれらの制限を、NeRFのフォトリアリスティックおよびノンフォトリアリスティックな外観編集のための統一的なフレームワークであるLAENeRFを用いて解決する。 局所的な編集に取り組むために,voxelグリッドを領域選択の出発点として利用する。 予測された光線終端から最終的な出力色へのマッピングを学習し、任意にスタイルロスによって監督することができるため、選択された領域のフォトリアリスティックかつ非フォトリアリスティックな外観編集を行うことができるフレームワークを構築する。 マッピングに1光線あたり1点に頼ることで、メモリ要件を制限し、高速な最適化を可能にします。 対話性を保証するため, 付加層混合を用いた学習・変更可能な基本色を用いて, 出力色を構成する。 LAENeRFは並列処理と比較して、処理時間を低く保ちながら、再色とスタイリングを可能にする。 さらに,本手法が定量的かつ定性的にベースライン法を超えることを示す。

Due to the omnipresence of Neural Radiance Fields (NeRFs), the interest towards editable implicit 3D representations has surged over the last years. However, editing implicit or hybrid representations as used for NeRFs is difficult due to the entanglement of appearance and geometry encoded in the model parameters. Despite these challenges, recent research has shown first promising steps towards photorealistic and non-photorealistic appearance edits. The main open issues of related work include limited interactivity, a lack of support for local edits and large memory requirements, rendering them less useful in practice. We address these limitations with LAENeRF, a unified framework for photorealistic and non-photorealistic appearance editing of NeRFs. To tackle local editing, we leverage a voxel grid as starting point for region selection. We learn a mapping from expected ray terminations to final output color, which can optionally be supervised by a style loss, resulting in a framework which can perform photorealistic and non-photorealistic appearance editing of selected regions. Relying on a single point per ray for our mapping, we limit memory requirements and enable fast optimization. To guarantee interactivity, we compose the output color using a set of learned, modifiable base colors, composed with additive layer mixing. Compared to concurrent work, LAENeRF enables recoloring and stylization while keeping processing time low. Furthermore, we demonstrate that our approach surpasses baseline methods both quantitatively and qualitatively.
翻訳日:2023-12-18 15:07:48 公開日:2023-12-15
# ニューラルネットワークを用いた信頼性確率的分類

Reliable Probabilistic Classification with Neural Networks ( http://arxiv.org/abs/2312.09912v1 )

ライセンス: Link先を確認
Harris Papadopoulos(参考訳) Venn Prediction (VP)は、よく校正された確率予測を生成するための新しい機械学習フレームワークである。 特に、手元にある問題の各可能なクラスに属する例の条件付き確率に対して、適切に調整された下限と上限を提供する。 本稿では,ニューラルネットワーク(NN)に基づく5つのVP手法を提案する。 提案手法は,4つのベンチマークデータセットを用いて実験的に評価し,得られた結果から,従来のnn分類器の出力に対する経験的適合性および優越性を示す。

Venn Prediction (VP) is a new machine learning framework for producing well-calibrated probabilistic predictions. In particular it provides well-calibrated lower and upper bounds for the conditional probability of an example belonging to each possible class of the problem at hand. This paper proposes five VP methods based on Neural Networks (NNs), which is one of the most widely used machine learning techniques. The proposed methods are evaluated experimentally on four benchmark datasets and the obtained results demonstrate the empirical well-calibratedness of their outputs and their superiority over the outputs of the traditional NN classifier.
翻訳日:2023-12-18 15:07:23 公開日:2023-12-15
# 等方性フォトニック結晶中のV型原子の量子コヒーレンスと量子フィッシャー情報のダイナミクス

Dynamics of Quantum Coherence and Quantum Fisher Information of a V-type Atom in Isotropic Photonic Crystal ( http://arxiv.org/abs/2312.09910v1 )

ライセンス: Link先を確認
Ghafar Ahmadi, Shahpoor Saeidian, and Ghasem Naeimi(参考訳) 自由空間やフォトニックバンドギャップ結晶に埋め込まれたV型3レベル原子の量子フィッシャー情報の時間進化、量子コヒーレンス、非マルコビアン性について検討した。 構造環境としてのフォトニックバンドギャップ結晶は、これらの量子特性の保存と強化に大きな影響を与えることが示されている。 さらに、原子状態に符号化された初期相対位相値と、禁止されたギャップ内の上層階の相対位置を操作することにより、量子的特徴のダイナミクスを制御できることが観察された。 これらの結果は、量子系におけるフォトニックバンドギャップ結晶を利用する可能性を示し、量子情報の保存と操作を改善した。 量子機能を制御する能力は、量子情報処理と関連する技術に新たな道を開く。

The time evolution of quantum Fisher information, quantum coherence, and non-Markovianity of a V-type three-level atom embedded in free space or a photonic band gap crystal have been investigated. It has been demonstrated that the photonic band gap crystal, as a structured environment, significantly influences the preservation and enhancement of these quantum features. Additionally, we observe that by manipulating the initial relative phase values encoded in the atomic state and the relative positions of the upper levels within the forbidden gap, control over the dynamics of quantum features can be achieved. These findings highlight the potential benefits of utilizing photonic band gap crystals in quantum systems, offering improved preservation and manipulation of quantum information. The ability to control quantum features opens new avenues for applications in quantum information processing and related technologies.
翻訳日:2023-12-18 15:07:14 公開日:2023-12-15
# TMP: オンラインビデオスーパーリゾリューションのためのテンポラルモーションプロパゲーション

TMP: Temporal Motion Propagation for Online Video Super-Resolution ( http://arxiv.org/abs/2312.09909v1 )

ライセンス: Link先を確認
Zhengqiang Zhang, Ruihuang Li, Shi Guo, Yang Cao, and Lei Zhang(参考訳) オンラインビデオスーパーレゾリューション(オンラインvsr)は時間的情報を集約するための効果的なアライメントモジュールに大きく依存しているが、厳格なレイテンシ要件は正確かつ効率的なアライメントを非常に困難にしている。 多くの進歩があったが、既存のオンラインvsr法は各フレームの運動場を別々に推定してアライメントを行うが、これは計算上冗長であり、隣接するフレームの運動場が相関しているという事実を無視している。 本研究では,連続フレーム間の高速な画素レベルアライメントを実現するために,動き場の連続性を利用した効率的な時間運動伝播法を提案する。 具体的には、まず、以前のフレームから現在のフレームにオフセットを伝播し、その後近隣でそれらを洗練し、マッチング空間を大幅に削減し、オフセット推定プロセスを高速化する。 さらに,アライメントのロバスト性を高めるために,より正確なオフセットを持つ位置がより重要となるように,反りのある特徴を空間的に重み付けする。 ベンチマークデータセットの実験により,提案手法がオンラインVSRの精度と推論速度を導くことを示す。 TMP のソースコードは \href{https://github.com/xtudbxk/TMP}{https://github.com/xtudbxk/TMP} にある。

Online video super-resolution (online-VSR) highly relies on an effective alignment module to aggregate temporal information, while the strict latency requirement makes accurate and efficient alignment very challenging. Though much progress has been achieved, most of the existing online-VSR methods estimate the motion fields of each frame separately to perform alignment, which is computationally redundant and ignores the fact that the motion fields of adjacent frames are correlated. In this work, we propose an efficient Temporal Motion Propagation (TMP) method, which leverages the continuity of motion field to achieve fast pixel-level alignment among consecutive frames. Specifically, we first propagate the offsets from previous frames to the current frame, and then refine them in the neighborhood, which significantly reduces the matching space and speeds up the offset estimation process. Furthermore, to enhance the robustness of alignment, we perform spatial-wise weighting on the warped features, where the positions with more precise offsets are assigned higher importance. Experiments on benchmark datasets demonstrate that the proposed TMP method achieves leading online-VSR accuracy as well as inference speed. The source code of TMP can be found at \href{https://github.com/xtudbxk/TMP}{https://github.com/xtudbxk/TMP}.
翻訳日:2023-12-18 15:06:59 公開日:2023-12-15
# ドイツ語ナラティブ文書の自動テキスト化の検討

Exploring Automatic Text Simplification of German Narrative Documents ( http://arxiv.org/abs/2312.09907v1 )

ライセンス: Link先を確認
Thorben Schomacker, Tillmann D\"onicke, Marina Tropmann-Frick(参考訳) 本稿では,トランスフォーマティブ型自然言語生成(nlg)手法を,テキスト簡易化問題に適用する。 現在、テキストの単純化に利用可能なドイツのデータセットはごくわずかであり、より大きく整列した文書は少なく、物語のテキストを持つ唯一のデータセットではない。 本稿では,現代のNLG技術がドイツ語の物語テキストの単純化にどの程度応用できるかを考察する。 我々はLongformerの注意と事前学習したmBARTモデルを用いる。 その結果,既存のドイツ語の手法では,その課題を適切に解決できないことがわかった。 我々はこの問題に対処するための今後の研究の方向性についてまとめる。

In this paper, we apply transformer-based Natural Language Generation (NLG) techniques to the problem of text simplification. Currently, there are only a few German datasets available for text simplification, even fewer with larger and aligned documents, and not a single one with narrative texts. In this paper, we explore to which degree modern NLG techniques can be applied to German narrative text simplifications. We use Longformer attention and a pre-trained mBART model. Our findings indicate that the existing approaches for German are not able to solve the task properly. We conclude on a few directions for future research to address this problem.
翻訳日:2023-12-18 15:06:35 公開日:2023-12-15
# データ強化モデルベース強化学習を用いた実世界のラビリンスゲームを解くためのサンプル効率学習

Sample-Efficient Learning to Solve a Real-World Labyrinth Game Using Data-Augmented Model-Based Reinforcement Learning ( http://arxiv.org/abs/2312.09906v1 )

ライセンス: Link先を確認
Thomas Bi, Raffaello D'Andrea(参考訳) 本稿では,物理環境における高速学習の課題に動機づけられ,モデルに基づく強化学習手法を用いて迷路ゲームをナビゲートし,解決するロボットシステムの開発と学習について述べる。 この方法は、カメラ画像から低次元の観察を抽出し、迷路内の現在の位置を中心に整流した画像パッチを付加し、迷路レイアウトに関する貴重な情報を提供する。 制御ポリシの学習はモデルに基づく強化学習を用いて物理的システム上で純粋に行われ、そこでは迷路の進行が報奨信号として機能する。 さらに,システムの固有対称性を利用してトレーニングデータの強化を行う。 その結果,本手法は,実世界のトレーニングデータをわずか5時間で,実世界のラビリンスゲームを記録的に解くことに成功している。

Motivated by the challenge of achieving rapid learning in physical environments, this paper presents the development and training of a robotic system designed to navigate and solve a labyrinth game using model-based reinforcement learning techniques. The method involves extracting low-dimensional observations from camera images, along with a cropped and rectified image patch centered on the current position within the labyrinth, providing valuable information about the labyrinth layout. The learning of a control policy is performed purely on the physical system using model-based reinforcement learning, where the progress along the labyrinth's path serves as a reward signal. Additionally, we exploit the system's inherent symmetries to augment the training data. Consequently, our approach learns to successfully solve a popular real-world labyrinth game in record time, with only 5 hours of real-world training data.
翻訳日:2023-12-18 15:06:25 公開日:2023-12-15
# SQA-SAM:セグメンテーションモデルを用いた医用画像のセグメンテーション品質評価

SQA-SAM: Segmentation Quality Assessment for Medical Images Utilizing the Segment Anything Model ( http://arxiv.org/abs/2312.09899v1 )

ライセンス: Link先を確認
Yizhe Zhang, Shuo Wang, Tao Zhou, Qi Dou, and Danny Z. Chen(参考訳) セグメンテーション品質アセスメント(SQA)は、医療画像ベースのAIシステムの展開において重要な役割を果たす。 AIシステムが信頼できない/誤った予測を生成する場合、ユーザは通知/アラートされる必要がある。 一般基盤セグメンテーションモデルであるSegment Anything Model(SAM)の導入により,SAMを医用画像セグメンテーションに活用する新たな研究の機会が生まれた。 本稿では,samを用いて医用画像分割の品質評価の精度を向上させる新しいsqa法であるsqa-samを提案する。 医用画像分割モデル(MedSeg)がテスト画像の予測を生成すると、予測に基づいて視覚的プロンプトを生成し、SAMを用いて視覚的プロンプトに対応するセグメンテーションマップを生成する。 メゼグのセグメンテーションがいかにサムのセグメンテーションと合致するかは、メゼグのセグメンテーションが対象性と画像領域分割の一般的な知覚とどのように合致するかを示している。 このようなアライメントのためのスコア尺度を開発する。 実験の結果, 生成したスコアは, 真のセグメンテーション品質を反映したDice係数スコアと中程度から強い正の相関(ピアソン相関とスピアマン相関)を示すことがわかった。

Segmentation quality assessment (SQA) plays a critical role in the deployment of a medical image based AI system. Users need to be informed/alerted whenever an AI system generates unreliable/incorrect predictions. With the introduction of the Segment Anything Model (SAM), a general foundation segmentation model, new research opportunities emerged in how one can utilize SAM for medical image segmentation. In this paper, we propose a novel SQA method, called SQA-SAM, which exploits SAM to enhance the accuracy of quality assessment for medical image segmentation. When a medical image segmentation model (MedSeg) produces predictions for a test image, we generate visual prompts based on the predictions, and SAM is utilized to generate segmentation maps corresponding to the visual prompts. How well MedSeg's segmentation aligns with SAM's segmentation indicates how well MedSeg's segmentation aligns with the general perception of objectness and image region partition. We develop a score measure for such alignment. In experiments, we find that the generated scores exhibit moderate to strong positive correlation (in Pearson correlation and Spearman correlation) with Dice coefficient scores reflecting the true segmentation quality.
翻訳日:2023-12-18 15:06:10 公開日:2023-12-15
# スペイン語の金融教育テキスト簡素化のための新しいデータセット

A Novel Dataset for Financial Education Text Simplification in Spanish ( http://arxiv.org/abs/2312.09897v1 )

ライセンス: Link先を確認
Nelson Perez-Rojas, Saul Calderon-Ramirez, Martin Solis-Salazar, Mario Romero-Sandoval, Monica Arias-Monge, Horacio Saggion(参考訳) 自然言語処理において重要なテキスト単純化は、特に視覚障害者のスペイン語話者のような特定のグループにとって、テキストをより理解しやすくすることを目的としている。 スペイン語では、テキスト単純化システムの作成に使用できるデータセットは少ない。 私たちの研究は、スペインの金融テキスト簡易化データセットの開発を主な目的としています。 確立された単純化ルールを用いて、5,314の複雑な文ペアを持つデータセットを作成した。 また, GPT-3, Tuner, MT5から生成されたデータ拡張性を評価するため, データセットと簡易化を比較した。 本論文では、データセットの特徴と、他のシステムとの比較結果について述べる。 データセットはHugging face, saul1917/FEINAで利用可能である。

Text simplification, crucial in natural language processing, aims to make texts more comprehensible, particularly for specific groups like visually impaired Spanish speakers, a less-represented language in this field. In Spanish, there are few datasets that can be used to create text simplification systems. Our research has the primary objective to develop a Spanish financial text simplification dataset. We created a dataset with 5,314 complex and simplified sentence pairs using established simplification rules. We also compared our dataset with the simplifications generated from GPT-3, Tuner, and MT5, in order to evaluate the feasibility of data augmentation using these systems. In this manuscript we present the characteristics of our dataset and the findings of the comparisons with other systems. The dataset is available at Hugging face, saul1917/FEINA.
翻訳日:2023-12-18 15:05:46 公開日:2023-12-15
# 自己教師型音声モデルの文脈認識による微調整

Generative Context-aware Fine-tuning of Self-supervised Speech Models ( http://arxiv.org/abs/2312.09895v1 )

ライセンス: Link先を確認
Suwon Shon, Kwangyoun Kim, Prashant Sridhar, Yi-Te Hsu, Shinji Watanabe, Karen Livescu(参考訳) 発話の自動音声認識や音声理解などのタスクを実行する場合、先行するテキストや音声へのアクセスが文脈情報を提供することにより、パフォーマンスが向上する。 生成型大規模言語モデル(LLM)の最近の進歩を考えると,LLMは先行するテキストを用いて有用な文脈情報を生成できるという仮説を立てる。 適切なプロンプトによって、LLMは次の文やタイトルやトピックのような抽象的なテキストの予測を生成することができる。 本稿では,llmが生成する文脈情報の利用について検討し,自己教師付き音声モデルの微調整中に生成された情報を蒸留する手法を提案する。 このアプローチにより、微調整されたモデルでは、実際の周辺セグメントや推論時にLLMにアクセスすることなく、さらに小さな追加コンテキストモジュールを必要とすることなく、予測を改善することができる。 本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。 その結果, 生成コンテキスト認識による微調整は, 先行テキストにアクセスする文脈注入細調整アプローチよりも優れており, 推論時にLLMを必要とする生成コンテキスト注入細調整アプローチと競合することがわかった。

When performing tasks like automatic speech recognition or spoken language understanding for a given utterance, access to preceding text or audio provides contextual information can improve performance. Considering the recent advances in generative large language models (LLM), we hypothesize that an LLM could generate useful context information using the preceding text. With appropriate prompts, LLM could generate a prediction of the next sentence or abstractive text like titles or topics. In this paper, we study the use of LLM-generated context information and propose an approach to distill the generated information during fine-tuning of self-supervised speech models, which we refer to as generative context-aware fine-tuning. This approach allows the fine-tuned model to make improved predictions without access to the true surrounding segments or to the LLM at inference time, while requiring only a very small additional context module. We evaluate the proposed approach using the SLUE and Libri-light benchmarks for several downstream tasks: automatic speech recognition, named entity recognition, and sentiment analysis. The results show that generative context-aware fine-tuning outperforms a context injection fine-tuning approach that accesses the ground-truth previous text, and is competitive with a generative context injection fine-tuning approach that requires the LLM at inference time.
翻訳日:2023-12-18 15:05:34 公開日:2023-12-15
# PathoDuet:H&EおよびIHC染色の組織スライド解析の基礎モデル

PathoDuet: Foundation Models for Pathological Slide Analysis of H&E and IHC Stains ( http://arxiv.org/abs/2312.09894v1 )

ライセンス: Link先を確認
Shengyi Hua, Fang Yan, Tianle Shen, Xiaofan Zhang(参考訳) デジタル化された病理組織データは、自己教師付き学習手法による病理基盤モデルの開発に有望な未来を示す。 これらの手法で事前訓練された基礎モデルは、下流タスクのよい基盤となる。 しかし、自然像と病理像のギャップは、既存の方法の直接適用を妨げる。 本稿では,病理組織像の事前学習モデルであるpathoduetと,病理組織学における新しい自己教師あり学習フレームワークを提案する。 このフレームワークは、新しく導入されたプリテキストトークンと、後にタスクライザーによって特徴付けられ、複数の倍率や複数の染色など、画像間の特定の関係を明示的に活用する。 これに基づいて,ヘマトキシリンとエオシン(H\&E)の画像上でモデルを事前訓練し,それぞれ免疫組織化学(IHC)画像にモデルを移すための2つのプレテキストタスクであるクロススケール位置決めとクロスステイン転送が設計された。 本モデルの有効性を検証するため,H&E分野におけるパッチレベル大腸癌サブタイピングや全スライド画像(WSI)レベルの分類,IHC分野におけるIHCマーカーの発現レベル予測,IHC分野における腫瘍の同定など,さまざまな下流課題に対する性能評価を行った。 実験の結果,ほとんどのタスクにおいてモデルが優れていること,提案するプリテキストタスクの有効性が示された。 コードとモデルはhttps://github.com/openmedlab/pathoduetで入手できる。

Large amounts of digitized histopathological data display a promising future for developing pathological foundation models via self-supervised learning methods. Foundation models pretrained with these methods serve as a good basis for downstream tasks. However, the gap between natural and histopathological images hinders the direct application of existing methods. In this work, we present PathoDuet, a series of pretrained models on histopathological images, and a new self-supervised learning framework in histopathology. The framework is featured by a newly-introduced pretext token and later task raisers to explicitly utilize certain relations between images, like multiple magnifications and multiple stains. Based on this, two pretext tasks, cross-scale positioning and cross-stain transferring, are designed to pretrain the model on Hematoxylin and Eosin (H\&E) images and transfer the model to immunohistochemistry (IHC) images, respectively. To validate the efficacy of our models, we evaluate the performance over a wide variety of downstream tasks, including patch-level colorectal cancer subtyping and whole slide image (WSI)-level classification in H\&E field, together with expression level prediction of IHC marker and tumor identification in IHC field. The experimental results show the superiority of our models over most tasks and the efficacy of proposed pretext tasks. The codes and models are available at https://github.com/openmedlab/PathoDuet.
翻訳日:2023-12-18 15:05:09 公開日:2023-12-15
# 回路QEDシステムにおける動的カシミール冷却

Dynamical Casimir cooling in circuit QED systems ( http://arxiv.org/abs/2312.09893v1 )

ライセンス: Link先を確認
Sadeq S. Kadijani, Nicol\'as Del Grosso, Thomas L. Schmidt, M. Bel\'en Farias(参考訳) 外部駆動型超伝導量子干渉装置(SQUID)に結合された伝送線は、動的カシミール効果(DCE)を示すことができる。 この設定を用いることで、SQUIDの自由度を定量化し、ハミルトニアンとキャビティモードとの3体相互作用をもたらすことを示す。 空洞からの相互作用モードを2つだけ考慮することで、SQUIDをワークソースとして使用できる自律冷却機として機能し、空洞モードを冷却できることが示される。 さらに,この設定によりキャビティ内に存在する全てのモードへの結合が可能となり,squidとの相互作用に他の2つの追加モードを追加することで冷却効果が向上することを示す。

A transmission line coupled to an externally driven superconducting quantum interference device (SQUID) can exhibit the Dynamical Casimir Effect (DCE). Employing this setup, we quantize the SQUID degrees of freedom and show that it gives rise to a three-body interaction Hamiltonian with the cavity modes. By considering only two interacting modes from the cavities we show that the device can function as an autonomous cooler where the SQUID can be used as a work source to cool down the cavity modes. Moreover, this setup allows for coupling to all modes existing inside the cavities, and we show that by adding two other extra modes to the interaction with the SQUID the cooling effect can be enhanced.
翻訳日:2023-12-18 15:04:43 公開日:2023-12-15
# BERT文埋め込みにおける二次元配列としての文法情報

Grammatical information in BERT sentence embeddings as two-dimensional arrays ( http://arxiv.org/abs/2312.09890v1 )

ライセンス: Link先を確認
Vivi Nastase and Paola Merlo(参考訳) 様々なトランスアーキテクチャで誘導される文の埋め込みは、1次元配列で分散的に多くの意味と構文情報を符号化する。 これらの分散表現において、特定の文法情報にアクセス可能であるか検討する。 ルールライクな一般化をテストするために開発されたタスクのデータを用いて,本研究では,主観的な合意を検出する実験を行い,いくつかの有望な結果を得た。 まず,1次元配列として符号化された通常の文表現は規則様規則の抽出を容易サポートしないが,これらのベクトルの2次元再構成により,様々な学習アーキテクチャがそのような情報にアクセスできるようになる。 次に,これら2次元再形文埋め込みのパターンを様々なアーキテクチャが検出し,より単純な学習データに基づくモデルの学習に成功し,より複雑なテストデータでうまく機能することを示す。 これは、現在の文埋め込みには定期的に配布される情報が含まれており、埋め込みがより高次元の配列に再構成されたときにキャプチャできることを示している。 私たちの結果は、言語モデルによって生成された表現に光を当て、少数の学習アプローチの開発に役立ちました。

Sentence embeddings induced with various transformer architectures encode much semantic and syntactic information in a distributed manner in a one-dimensional array. We investigate whether specific grammatical information can be accessed in these distributed representations. Using data from a task developed to test rule-like generalizations, our experiments on detecting subject-verb agreement yield several promising results. First, we show that while the usual sentence representations encoded as one-dimensional arrays do not easily support extraction of rule-like regularities, a two-dimensional reshaping of these vectors allows various learning architectures to access such information. Next, we show that various architectures can detect patterns in these two-dimensional reshaped sentence embeddings and successfully learn a model based on smaller amounts of simpler training data, which performs well on more complex test data. This indicates that current sentence embeddings contain information that is regularly distributed, and which can be captured when the embeddings are reshaped into higher dimensional arrays. Our results cast light on representations produced by language models and help move towards developing few-shot learning approaches.
翻訳日:2023-12-18 15:04:30 公開日:2023-12-15
# 心電図によるPurkinjeネットワークの確率論的学習

Probabilistic learning of the Purkinje network from the electrocardiogram ( http://arxiv.org/abs/2312.09887v1 )

ライセンス: Link先を確認
Felipe \'Alvarez-Barrientos, Mariana Salinas-Camus, Simone Pezzuto, Francisco Sahli Costabal(参考訳) 心臓におけるPurkinje伝導系の同定は難しい課題であるが、精度のよい心臓用デジタル双生児の正確な定義には不可欠である。 本稿では,標準心電図(ECG)などの非侵襲的臨床データからPurkinjeネットワークを同定するための確率論的アプローチを提案する。 心臓イメージングを用いて心室の解剖学的に正確なモデルを構築し、アルゴリズムによって解剖に合わせたルールベースのプルキンエネットワークを生成し、速いモデルで生理的心電図をシミュレートし、ベイズ最適化と近似ベイズ計算を用いてプルキンエ-ecgモデルの幾何学的および電気的パラメータを同定する。 提案手法は本質的に確率的であり、プラウジブルなPurkinjeネットワークの集団を生成し、ECGを与えられた許容範囲に収まる。 このようにしてパラメータの不確実性を推定し,信頼性の高い予測を行う。 本手法を生理的および病理的シナリオでテストし,ecgをモデルで正確に回復できることを示す。 伝導系ペーシング療法のシミュレーションにおいて,purkinjeネットワークパラメータの不確かさを伝搬する。 我々の手法は、精密医学における非侵襲的データからデジタル双生児を作成するための一歩である。 オープンソース実装はhttp://github.com/fsahli/purkinje-learningにある。

The identification of the Purkinje conduction system in the heart is a challenging task, yet essential for a correct definition of cardiac digital twins for precision cardiology. Here, we propose a probabilistic approach for identifying the Purkinje network from non-invasive clinical data such as the standard electrocardiogram (ECG). We use cardiac imaging to build an anatomically accurate model of the ventricles; we algorithmically generate a rule-based Purkinje network tailored to the anatomy; we simulate physiological electrocardiograms with a fast model; we identify the geometrical and electrical parameters of the Purkinje-ECG model with Bayesian optimization and approximate Bayesian computation. The proposed approach is inherently probabilistic and generates a population of plausible Purkinje networks, all fitting the ECG within a given tolerance. In this way, we can estimate the uncertainty of the parameters, thus providing reliable predictions. We test our methodology in physiological and pathological scenarios, showing that we are able to accurately recover the ECG with our model. We propagate the uncertainty in the Purkinje network parameters in a simulation of conduction system pacing therapy. Our methodology is a step forward in creation of digital twins from non-invasive data in precision medicine. An open source implementation can be found at http://github.com/fsahli/purkinje-learning
翻訳日:2023-12-18 15:04:14 公開日:2023-12-15
# 非可逆分類測度のための単純弱コア集合

Simple Weak Coresets for Non-Decomposable Classification Measures ( http://arxiv.org/abs/2312.09885v1 )

ライセンス: Link先を確認
Jayesh Malaviya, Anirban Dasgupta and Rachit Chhaya(参考訳) coresetsはアプリケーションの観点から成長を続けており、例外は少ないが、ほとんどは教師なしの設定に限られている。 本稿では, 教師付き分類問題と非分解性評価対策について考察する。 階層化された一様サンプリングに基づくコアセットは,理論的な保証によっても裏付けられる優れた実験性能を有することを示す。 F1スコアとマシューズ相関係数(英語版)は、最適化が簡単でない2つの広く使われている非分解対象関数であり、一様コアセットがコアセットサイズに対して低い境界に達し、‘smarter’のコアセット構築戦略に匹敵する優れた経験的性能を持つことを示す。

While coresets have been growing in terms of their application, barring few exceptions, they have mostly been limited to unsupervised settings. We consider supervised classification problems, and non-decomposable evaluation measures in such settings. We show that stratified uniform sampling based coresets have excellent empirical performance that are backed by theoretical guarantees too. We focus on the F1 score and Matthews Correlation Coefficient, two widely used non-decomposable objective functions that are nontrivial to optimize for and show that uniform coresets attain a lower bound for coreset size, and have good empirical performance, comparable with ``smarter'' coreset construction strategies.
翻訳日:2023-12-18 15:03:52 公開日:2023-12-15
# ニューラルネットワークを用いたリスク対応連続制御

Risk-Aware Continuous Control with Neural Contextual Bandits ( http://arxiv.org/abs/2312.09961v1 )

ライセンス: Link先を確認
Jose A. Ayala-Romero, Andres Garcia-Saavedra, Xavier Costa-Perez(参考訳) 近年の学習技術の進歩は、様々な現実世界の逐次的意思決定問題への適用性に注目が集まっている。 しかし、現実の環境での運用には重要な制約がある。 ほとんどの学習ソリューションは、しばしばこれらの制約を満たさないリスクを無視し、現実世界の文脈での実装を妨げる。 本稿では,コンテキスト的バンディット問題,制約の緩和,継続的な行動空間に対するリスク認識型意思決定フレームワークを提案する。 このアプローチでは,アクタのマルチクリティックアーキテクチャを採用し,各批評家がパフォーマンス分布と制約メトリクスを特徴付ける。 私たちのフレームワークは、さまざまなリスクレベルに対応し、パフォーマンスに対する制約満足度を効果的にバランスするように設計されています。 本手法の有効性を示すために,本手法を合成環境における最先端のベースライン手法と比較し,様々なリスク構成における内在的環境騒音の影響を明らかにした。 最後に,本手法がシステム制約(信号処理信頼性目標)を一貫して満たし,少ない性能(消費電力の8.5%増加)でシステム制約を満たしている5gモバイルネットワークを含む実世界のユースケースにおいて,このフレームワークを評価した。

Recent advances in learning techniques have garnered attention for their applicability to a diverse range of real-world sequential decision-making problems. Yet, many practical applications have critical constraints for operation in real environments. Most learning solutions often neglect the risk of failing to meet these constraints, hindering their implementation in real-world contexts. In this paper, we propose a risk-aware decision-making framework for contextual bandit problems, accommodating constraints and continuous action spaces. Our approach employs an actor multi-critic architecture, with each critic characterizing the distribution of performance and constraint metrics. Our framework is designed to cater to various risk levels, effectively balancing constraint satisfaction against performance. To demonstrate the effectiveness of our approach, we first compare it against state-of-the-art baseline methods in a synthetic environment, highlighting the impact of intrinsic environmental noise across different risk configurations. Finally, we evaluate our framework in a real-world use case involving a 5G mobile network where only our approach consistently satisfies the system constraint (a signal processing reliability target) with a small performance toll (8.5% increase in power consumption).
翻訳日:2023-12-18 14:58:09 公開日:2023-12-15
# 患者と臨床試験をマッチングする大規模言語モデル

Distilling Large Language Models for Matching Patients to Clinical Trials ( http://arxiv.org/abs/2312.09958v1 )

ライセンス: Link先を確認
Mauro Nievas, Aditya Basu, Yanshan Wang, Hrituraj Singh(参考訳) 近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。 具体的には, 臨床治験のニュアンスド・インクルージョンと除外基準に対する患者の適性の評価を含む, 患者と臨床の整合性に対するLLMの応用が約束されている。 近年の研究では、OpenAIによって広く認知されているLCMであるGPT-3.5が、臨床治験情報を患者要約と比較することで、最小限の「可変エンジニアリング」で既存の手法より優れていることが示されている。 しかしながら、コスト、プライバシ、再現性といった現実的な医療アプリケーションにおいて、GPT-3.5のようなクローズドソースプロプライエタリなLCMを使用することには、大きな課題がある。 これらの課題に対処するため,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の両方の有効性について,最初の系統的検討を行った。 多面的評価フレームワークを用いて,各モデルに対する詳細な誤り解析と合わせて,広範囲な自動評価と人中心評価を行った。 オープンソースLCMの適応性を高めるため,GPT-4を用いた特殊な合成データセットを作成し,制約データ条件下での効率的な微調整を実現した。 この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。 これにより、現実世界のヘルスケアアプリケーションに展開する大きな機会が得られます。 この分野でのさらなる研究と応用を促進するために,アノテーション付き評価データセットと,微調整されたllm -- trial-llama -- を一般向けにリリースする。

The recent success of large language models (LLMs) has paved the way for their adoption in the high-stakes domain of healthcare. Specifically, the application of LLMs in patient-trial matching, which involves assessing patient eligibility against clinical trial's nuanced inclusion and exclusion criteria, has shown promise. Recent research has shown that GPT-3.5, a widely recognized LLM developed by OpenAI, can outperform existing methods with minimal 'variable engineering' by simply comparing clinical trial information against patient summaries. However, there are significant challenges associated with using closed-source proprietary LLMs like GPT-3.5 in practical healthcare applications, such as cost, privacy and reproducibility concerns. To address these issues, this study presents the first systematic examination of the efficacy of both proprietary (GPT-3.5, and GPT-4) and open-source LLMs (LLAMA 7B,13B, and 70B) for the task of patient-trial matching. Employing a multifaceted evaluation framework, we conducted extensive automated and human-centric assessments coupled with a detailed error analysis for each model. To enhance the adaptability of open-source LLMs, we have created a specialized synthetic dataset utilizing GPT-4, enabling effective fine-tuning under constrained data conditions. Our findings reveal that open-source LLMs, when fine-tuned on this limited and synthetic dataset, demonstrate performance parity with their proprietary counterparts. This presents a massive opportunity for their deployment in real-world healthcare applications. To foster further research and applications in this field, we release both the annotated evaluation dataset along with the fine-tuned LLM -- Trial-LLAMA -- for public use.
翻訳日:2023-12-18 14:57:52 公開日:2023-12-15
# DHFormer:イメージデハージングのためのビジョントランスフォーマーベースのアテンションモジュール

DHFormer: A Vision Transformer-Based Attention Module for Image Dehazing ( http://arxiv.org/abs/2312.09955v1 )

ライセンス: Link先を確認
Abdul Wasi, O. Jeba Shiney(参考訳) ぼろぼろの条件で得られた画像は、その中に劣化が引き起こされる。 このようなイメージのデハージングは、悪質で不適切な問題である。 ヘイズの影響を緩和し、ヘイズフリー画像を生成するために、事前ベースおよび学習ベースアプローチのスコアが提案されている。 多くの従来の手法は、シーンの深さと長距離依存を捉える能力の欠如に制約されている。 本稿では,アテンションモジュールにおける残差学習と視覚トランスフォーマを用いた手法を提案する。 これは基本的に2つのネットワークから構成される: 第一に、ネットワークは残留マップを推定するために、ヘイズ画像と近似送信行列の比率を取る。 第2のネットワークは、残像を入力として取り、生成した特徴写像に重ね合わせる前に畳み込み層を通過します。 その後、グローバルコンテキストと深さ認識トランスエンコーダを通過し、チャンネルの注意を引き付ける。 そして、アテンションモジュールは、最終hazeフリー画像を生成する前に、空間アテンションマップを推論する。 いくつかの定量的指標を含む実験結果は、提案手法の効率性とスケーラビリティを実証する。

Images acquired in hazy conditions have degradations induced in them. Dehazing such images is a vexed and ill-posed problem. Scores of prior-based and learning-based approaches have been proposed to mitigate the effect of haze and generate haze-free images. Many conventional methods are constrained by their lack of awareness regarding scene depth and their incapacity to capture long-range dependencies. In this paper, a method that uses residual learning and vision transformers in an attention module is proposed. It essentially comprises two networks: In the first one, the network takes the ratio of a hazy image and the approximated transmission matrix to estimate a residual map. The second network takes this residual image as input and passes it through convolution layers before superposing it on the generated feature maps. It is then passed through global context and depth-aware transformer encoders to obtain channel attention. The attention module then infers the spatial attention map before generating the final haze-free image. Experimental results, including several quantitative metrics, demonstrate the efficiency and scalability of the suggested methodology.
翻訳日:2023-12-18 14:57:19 公開日:2023-12-15
# UAV支援センサネットワークにおける統合クルーズ制御とインテリジェントデータ獲得のための深部強化学習

Deep Reinforcement Learning for Joint Cruise Control and Intelligent Data Acquisition in UAVs-Assisted Sensor Networks ( http://arxiv.org/abs/2312.09953v1 )

ライセンス: Link先を確認
Yousef Emami(参考訳) 無人航空機(UAV)支援センサーネットワーク(UASNet)は、新たな機会を生み出す上で重要な役割を担っている。 uasnetsは、タイムリーな監視と詳細な作物モニタリングによる精密農業による災害管理を改善し、商業経済を大きく変革する。 UASNetは、高い効率、安全性、コスト効率を提供することで商業セクターに革命をもたらし、その変革的な影響を強調している。 これらの新機能と変更の基本的な側面は、頑丈でリモートな領域からのデータの収集である。 機動性と機動性に優れており、自然災害監視、国境監視、緊急対応監視などの厳しい環境における地上センサーからのデータを収集するためにuavが使用される。 これらのシナリオにおける大きな課題の1つは、UAVの動きがチャネル条件に影響を与え、パケット損失をもたらすことである。 UAVの高速動作はチャネル条件が悪く、信号が急速に劣化し、パケットが失われる。 一方、UAVのスローモビリティは、新たに到着したデータがUAVによって即座に収集されないため、地上センサーのバッファオーバーフローを引き起こす可能性がある。 我々は,複数のUAVの速度制御とデータ収集スケジュールを協調的に最適化することでパケット損失を最小化することを提案する。さらに,UASNetでは,UAVの急速移動はチャネル条件が悪く,信号の減衰が速くなり,情報時代が長くなる(AoI)。 対照的に、UAVの飛行時間が長くなるため、地上センサーのAoIを延ばし、この課題に対処するために、センサデータのAoIを最小限に抑えるために、新しい平均フィールド飛行資源割り当て最適化を提案する。

Unmanned aerial vehicle (UAV)-assisted sensor networks (UASNets), which play a crucial role in creating new opportunities, are experiencing significant growth in civil applications worldwide. UASNets improve disaster management through timely surveillance and advance precision agriculture with detailed crop monitoring, thereby significantly transforming the commercial economy. UASNets revolutionize the commercial sector by offering greater efficiency, safety, and cost-effectiveness, highlighting their transformative impact. A fundamental aspect of these new capabilities and changes is the collection of data from rugged and remote areas. Due to their excellent mobility and maneuverability, UAVs are employed to collect data from ground sensors in harsh environments, such as natural disaster monitoring, border surveillance, and emergency response monitoring. One major challenge in these scenarios is that the movements of UAVs affect channel conditions and result in packet loss. Fast movements of UAVs lead to poor channel conditions and rapid signal degradation, resulting in packet loss. On the other hand, slow mobility of a UAV can cause buffer overflows of the ground sensors, as newly arrived data is not promptly collected by the UAV. Our proposal to address this challenge is to minimize packet loss by jointly optimizing the velocity controls and data collection schedules of multiple UAVs.Furthermore, in UASNets, swift movements of UAVs result in poor channel conditions and fast signal attenuation, leading to an extended age of information (AoI). In contrast, slow movements of UAVs prolong flight time, thereby extending the AoI of ground sensors.To address this challenge, we propose a new mean-field flight resource allocation optimization to minimize the AoI of sensory data.
翻訳日:2023-12-18 14:57:01 公開日:2023-12-15
# ピアラーニング:アクションレコメンデーションを通じてスクラッチからグループ内の複雑な政策を学ぶ

Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations ( http://arxiv.org/abs/2312.09950v1 )

ライセンス: Link先を確認
Cedric Derstroff, Mattia Cerrato, Jannis Brugger, Jan Peters and Stefan Kramer(参考訳) ピアラーニングは、グループで学ぶエージェントのための新しい高度な強化学習フレームワークである。 標準的な強化学習は、個々のエージェントを試行錯誤の方法で訓練するが、ピア学習は、エージェントのグループ、すなわちピアが同時にタスクをスクラッチから習得することを学ぶ関連する設定に対処する。 貴族は、自分の国家と他人が推奨する行動についてのみコミュニケーションを許される:「私の状況では、あなたは何をするのか? 私たちのモチベーションは、これらのエージェントの学習行動を研究することです。 我々は,マルチアームバンディット問題として行動アドバイス設定における教師選択プロセスを定式化し,探索の必要性を強調する。 最終的に,仲間の学習行動を分析し,研究グループ内でエージェントのパフォーマンスをランク付けする能力を観察し,どのエージェントが信頼できるアドバイスを与えるかを理解する。 さらに,ピアラーニングとシングルエージェントラーニング,最先端のアクションアドバイスベースラインを比較した。 離散的かつ連続的なOpenAI Gymドメインにおいて、ピアラーニングがシングルエージェント学習とベースラインを上回っていることを示す。 また、このようなフレームワーク内では、離散的なアクション空間を超えたアクションレコメンデーションからの複雑なポリシーが進化することを示す。

Peer learning is a novel high-level reinforcement learning framework for agents learning in groups. While standard reinforcement learning trains an individual agent in trial-and-error fashion, all on its own, peer learning addresses a related setting in which a group of agents, i.e., peers, learns to master a task simultaneously together from scratch. Peers are allowed to communicate only about their own states and actions recommended by others: "What would you do in my situation?". Our motivation is to study the learning behavior of these agents. We formalize the teacher selection process in the action advice setting as a multi-armed bandit problem and therefore highlight the need for exploration. Eventually, we analyze the learning behavior of the peers and observe their ability to rank the agents' performance within the study group and understand which agents give reliable advice. Further, we compare peer learning with single agent learning and a state-of-the-art action advice baseline. We show that peer learning is able to outperform single-agent learning and the baseline in several challenging discrete and continuous OpenAI Gym domains. Doing so, we also show that within such a framework complex policies from action recommendations beyond discrete action spaces can evolve.
翻訳日:2023-12-18 14:56:29 公開日:2023-12-15
# sketch and shift: 圧縮クラスタリングのためのロバストデコーダ

Sketch and shift: a robust decoder for compressive clustering ( http://arxiv.org/abs/2312.09940v1 )

ライセンス: Link先を確認
Ayoub Belhadji and R\'emi Gribonval(参考訳) 圧縮学習は,まず大規模なデータセットを低次元のスケッチベクトルに要約し,このスケッチから学習に必要な潜時情報を復号することで,大規模学習のメモリフットプリントを大幅に削減する,新たなアプローチである。 ランダムな特徴に基づくスケッチの情報保存保証の最近の進歩を踏まえて,提案手法(デコーダと呼ばれる)を考案し,ロバストかつ効率的な情報抽出を行うことが目的である。 非凸最適化問題に対処するために、様々なヒューリスティックスが提案されている。 圧縮クラスタリングの場合、標準的なヒューリスティックはcl-ompr(スライディングフランクウルフの変種)である。 しかし、CL-OMPRのチューニングは困難であり、その堅牢性の検討は見落とされた。 本研究では,CL-OMPRを精査し,その限界を回避する。 特に,このアルゴリズムは,有利なシナリオにおいてもクラスタを回復できないことを示す。 このアルゴリズムの欠点は,アルゴリズムのコアステップに現れる相関関数の構造に関連した最適化の難しさに起因すると考えられる。 これらの制限に対処するため、CL-OMPRよりも大幅に改善された代替デコーダを提案する。 その設計は、カーネル密度推定器の局所的な極大を検出する古典的なアプローチである平均シフトアルゴリズムから特にインスパイアされている。 提案アルゴリズムは,従来より10倍小さいMNISTデータセットのスケッチからクラスタリング情報を抽出することができる。

Compressive learning is an emerging approach to drastically reduce the memory footprint of large-scale learning, by first summarizing a large dataset into a low-dimensional sketch vector, and then decoding from this sketch the latent information needed for learning. In light of recent progress on information preservation guarantees for sketches based on random features, a major objective is to design easy-to-tune algorithms (called decoders) to robustly and efficiently extract this information. To address the underlying non-convex optimization problems, various heuristics have been proposed. In the case of compressive clustering, the standard heuristic is CL-OMPR, a variant of sliding Frank-Wolfe. Yet, CL-OMPR is hard to tune, and the examination of its robustness was overlooked. In this work, we undertake a scrutinized examination of CL-OMPR to circumvent its limitations. In particular, we show how this algorithm can fail to recover the clusters even in advantageous scenarios. To gain insight, we show how the deficiencies of this algorithm can be attributed to optimization difficulties related to the structure of a correlation function appearing at core steps of the algorithm. To address these limitations, we propose an alternative decoder offering substantial improvements over CL-OMPR. Its design is notably inspired from the mean shift algorithm, a classic approach to detect the local maxima of kernel density estimators. The proposed algorithm can extract clustering information from a sketch of the MNIST dataset that is 10 times smaller than previously.
翻訳日:2023-12-18 14:56:07 公開日:2023-12-15
# 量子生成逆ネットワーク:古典的および量子的領域の橋渡し

Quantum Generative Adversarial Networks: Bridging Classical and Quantum Realms ( http://arxiv.org/abs/2312.09939v1 )

ライセンス: Link先を確認
Sahil Nokhwal, Suman Nokhwal, Ram Swaroop, Raj Bala and Ankit Chaudhary(参考訳) 本稿では,GAN(Generative Adversarial Networks)領域における古典的および量子コンピューティングパラダイムの相乗的融合に関する基礎研究を紹介する。 我々の目的は、量子計算要素を従来のGANアーキテクチャにシームレスに統合し、トレーニングプロセスを強化するための新しい経路を開放することである。 量子ビット(量子ビット)の本質的な能力からインスピレーションを得て、GANフレームワーク内の量子データ表現方法論の組み入れについて検討する。 ユニークな量子的特徴を活かすことで、GANの学習プロセスを加速し、生成モデルの最適化に関する新たな視点を提供することを目指している。 本研究は, 理論的な考察を扱い, 学習効率と生成的品質の観点から, 潜在的量子的優位性を評価する。 本稿では,量子ハードウェア制約,エラー訂正機構,拡張性を考慮した量子古典的アマルガメーション(quantum-classical amalgamation)の課題に対処する。 この研究は、量子エンハンスド機械学習の最前線に位置し、量子システムの計算能力を利用して生成的敵ネットワークのトレーニングを促進するための重要な一歩を示している。 古典的および量子的領域のインターフェースを網羅的に検討することで、この分野を前進させ、イノベーションを育み、量子機械学習のフロンティアを前進させる変革的洞察を明らかにすることを目指している。

In this pioneering research paper, we present a groundbreaking exploration into the synergistic fusion of classical and quantum computing paradigms within the realm of Generative Adversarial Networks (GANs). Our objective is to seamlessly integrate quantum computational elements into the conventional GAN architecture, thereby unlocking novel pathways for enhanced training processes. Drawing inspiration from the inherent capabilities of quantum bits (qubits), we delve into the incorporation of quantum data representation methodologies within the GAN framework. By capitalizing on the unique quantum features, we aim to accelerate the training process of GANs, offering a fresh perspective on the optimization of generative models. Our investigation deals with theoretical considerations and evaluates the potential quantum advantages that may manifest in terms of training efficiency and generative quality. We confront the challenges inherent in the quantum-classical amalgamation, addressing issues related to quantum hardware constraints, error correction mechanisms, and scalability considerations. This research is positioned at the forefront of quantum-enhanced machine learning, presenting a critical stride towards harnessing the computational power of quantum systems to expedite the training of Generative Adversarial Networks. Through our comprehensive examination of the interface between classical and quantum realms, we aim to uncover transformative insights that will propel the field forward, fostering innovation and advancing the frontier of quantum machine learning.
翻訳日:2023-12-18 14:55:46 公開日:2023-12-15
# 受講者強化学習

Assume-Guarantee Reinforcement Learning ( http://arxiv.org/abs/2312.09938v1 )

ライセンス: Link先を確認
Milad Kazemi, Mateo Perez, Fabio Somenzi, Sadegh Soudjani, Ashutosh Trivedi, Alvaro Velasquez(参考訳) 本稿では, 並列に進化する単純なコンポーネントからなる環境における<emph{reinforcement learning} (RL) に対するモジュラーアプローチを提案する。 このようなモジュール化された環境のモノリシックなビューは、学習を禁じるほど大きく、あるいは集中型コントローラの形式でコンポーネント間の通信が実現不可能な場合があります。 提案手法は,各成分の最適制御を個別に合成し,隣接成分の挙動をemph{assumptions} とし,その挙動をemph{guarantee} に提供することで,各成分の最適制御を独立的に行う前提グアラントパラダイムに基づいている。 我々は、これらの \emph{asume-guarantee contracts} を正規言語として表現し、rlで使用するスカラー報酬の自動翻訳を提供する。 各成分に対する満足度の局所確率を組み合わせることで、完備システムの満足度の低い境界を与える。 各コンポーネントのマルコフゲームを解決することで、RLはこの下界を最大化する各コンポーネントのコントローラを生成することができる。 コントローラは、通信、観察、その他のエージェントの粗いモデルに関する知識を通じて受信する情報を利用する。 我々は,提案手法の有効性を様々なケーススタディで実験的に実証する。

We present a modular approach to \emph{reinforcement learning} (RL) in environments consisting of simpler components evolving in parallel. A monolithic view of such modular environments may be prohibitively large to learn, or may require unrealizable communication between the components in the form of a centralized controller. Our proposed approach is based on the assume-guarantee paradigm where the optimal control for the individual components is synthesized in isolation by making \emph{assumptions} about the behaviors of neighboring components, and providing \emph{guarantees} about their own behavior. We express these \emph{assume-guarantee contracts} as regular languages and provide automatic translations to scalar rewards to be used in RL. By combining local probabilities of satisfaction for each component, we provide a lower bound on the probability of satisfaction of the complete system. By solving a Markov game for each component, RL can produce a controller for each component that maximizes this lower bound. The controller utilizes the information it receives through communication, observations, and any knowledge of a coarse model of other agents. We experimentally demonstrate the efficiency of the proposed approach on a variety of case studies.
翻訳日:2023-12-18 14:55:25 公開日:2023-12-15
# SNAPとRabiゲートを用いた非線形相互作用の効率的な量子シミュレーション

Efficient quantum simulation of nonlinear interactions using SNAP and Rabi gates ( http://arxiv.org/abs/2312.09936v1 )

ライセンス: Link先を確認
Kimin Park, Petr Marek and Radim Filip(参考訳) 量子シミュレーションは、制御可能な量子システム内の課題を探索する手段を提供する。 しかし,物理プラットフォーム上でのボソニック振動子間の深い非線形結合の実装やシミュレーションは課題である。 非線形ボソニックダイナミクスを効率的に高精度にモデル化する決定論的シミュレーション手法を提案する。 この手法は可変ラビとスナップゲートを交互に組み合わせ、どちらも閉じ込められたイオンや超伝導回路などの実験プラットフォームで利用可能である。 提案手法は,高次ボソニック相互作用から発生する現象の高忠実度モデリングが容易であり,他の手法に比べて資源利用の指数関数的低減が期待できる。 理想的な非線形光学系の重要な現象やその他の特徴を正確に再現し,本手法の可能性を実証する。 我々の技術は複雑な量子相互作用をシミュレートするための貴重なツールであり、同時にハイブリッド量子ビットオシレータシステムを用いて量子コンピューティングの新たな機能を実現する。

Quantum simulations provide means to probe challenging problems within controllable quantum systems. However, implementing or simulating deep-strong nonlinear couplings between bosonic oscillators on physical platforms remains a challenge. We present a deterministic simulation technique that efficiently and accurately models nonlinear bosonic dynamics. This technique alternates between tunable Rabi and SNAP gates, both of which are available on experimental platforms such as trapped ions and superconducting circuits. Our proposed simulation method facilitates high-fidelity modeling of phenomena that emerge from higher-order bosonic interactions, with an exponential reduction in resource usage compared to other techniques. We demonstrate the potential of our technique by accurately reproducing key phenomena and other distinctive characteristics of ideal nonlinear optomechanical systems. Our technique serves as a valuable tool for simulating complex quantum interactions, simultaneously paving the way for new capabilities in quantum computing through the use of hybrid qubit-oscillator systems.
翻訳日:2023-12-18 14:55:05 公開日:2023-12-15
# LogoStyleFool:Logoスタイル転送によるビデオ認識システムの実現

LogoStyleFool: Vitiating Video Recognition Systems via Logo Style Transfer ( http://arxiv.org/abs/2312.09935v1 )

ライセンス: Link先を確認
Yuxin Cao, Ziyu Zhao, Xi Xiao, Derui Wang, Minhui Xue, Jin Lu(参考訳) ビデオ認識システムは、敵の例に弱い。 近年の研究では、スタイル転送ベースおよびパッチベース非制限摂動が攻撃効率を効果的に改善できることが示されている。 しかし、これらの攻撃は2つの大きな課題に直面している。 1) すべての画素に大きなスタイリッシュな摂動を加えると、映像の自然性が低下し、そのような摂動が容易に検出できる。 2)近年の映像攻撃で広く使用されている強化学習の検索範囲が限られているため,パッチベースのビデオ攻撃は標的攻撃に拡張できない。 本稿では,ビデオのブラックボックス設定に着目し,クリーンビデオにスタイリッシュなロゴを追加することで,logostylefoolという新たな攻撃フレームワークを提案する。 攻撃を3段階に分けて,スタイル参照選択,強化学習に基づくロゴ転送,摂動最適化を行った。 第1の課題は,地域ロゴへの摂動範囲を拡大し,第2の課題は,強化学習後の最適化段階を補完することである。 実験結果は,攻撃性能と意味保存の観点から,3つの最先端パッチベース攻撃に対するlogostylefoolの総合的優位性を検証した。 一方、LogoStyleFoolは、既存の2つのパッチベースの防御メソッドに対するパフォーマンスを維持している。 今回の研究は,セキュリティコミュニティの注目を,このようなサブリージョンスタイル転送攻撃に高める上で有益であると考えています。

Video recognition systems are vulnerable to adversarial examples. Recent studies show that style transfer-based and patch-based unrestricted perturbations can effectively improve attack efficiency. These attacks, however, face two main challenges: 1) Adding large stylized perturbations to all pixels reduces the naturalness of the video and such perturbations can be easily detected. 2) Patch-based video attacks are not extensible to targeted attacks due to the limited search space of reinforcement learning that has been widely used in video attacks recently. In this paper, we focus on the video black-box setting and propose a novel attack framework named LogoStyleFool by adding a stylized logo to the clean video. We separate the attack into three stages: style reference selection, reinforcement-learning-based logo style transfer, and perturbation optimization. We solve the first challenge by scaling down the perturbation range to a regional logo, while the second challenge is addressed by complementing an optimization stage after reinforcement learning. Experimental results substantiate the overall superiority of LogoStyleFool over three state-of-the-art patch-based attacks in terms of attack performance and semantic preservation. Meanwhile, LogoStyleFool still maintains its performance against two existing patch-based defense methods. We believe that our research is beneficial in increasing the attention of the security community to such subregional style transfer attacks.
翻訳日:2023-12-18 14:54:49 公開日:2023-12-15
# RDR:強化言語理解のためのRecap, Deliberate, Respond Method

RDR: the Recap, Deliberate, and Respond Method for Enhanced Language Understanding ( http://arxiv.org/abs/2312.09932v1 )

ライセンス: Link先を確認
Yuxin Zi, Hariram Veeramani, Kaushik Roy and Amit Sheth(参考訳) ニューラルネットワークパイプラインを用いた自然言語理解(NLU)は、入力データにのみ存在しない追加のコンテキストを必要とすることが多い。 先行研究により、NLUベンチマークはニューラルネットワークによる操作に感受性があることが明らかとなり、これらのモデルでは、符号化された外部知識内の統計的アーティファクトを利用して、下流タスクのパフォーマンス指標を人工的にインフレさせる。 提案手法はRecap, Deliberate, Respond(RDR)パラダイムと呼ばれ,ニューラルネットワークパイプラインに3つの異なる目的を組み込むことでこの問題に対処する。 第一に、Recapの目的は、その本質を要約しカプセル化するために、パラフレーズモデルを用いて入力テキストをパラフレーズ化することである。 次に、検討目的は、グラフ埋め込みモデルを用いて、入力テキストで言及されるエンティティに関連する外部グラフ情報をエンコードすることである。 最後に、response objectiveは、recapおよびdeliberationモジュールからの表現を利用して最終的な予測を生成する分類ヘッドモデルを用いる。 これら3つのモデルをカスケードし、複合損失を最小化することにより、ベンチマークをゲームする可能性を軽減し、基礎となるセマンティックパターンをキャプチャするロバストな方法を確立し、正確な予測を可能にする。 RDR法の有効性を評価するため,複数のGLUEベンチマークタスクの試験を行った。 以上の結果から,標準基準値の最大2\%向上とともに,競争基準値よりも性能が向上したことが示された。 さらに、RDRモデルが示す意味理解の観察された証拠を分析し、ベンチマークのゲームを避け、真の基礎となる意味パターンを正確に捉える能力を強調した。

Natural language understanding (NLU) using neural network pipelines often requires additional context that is not solely present in the input data. Through Prior research, it has been evident that NLU benchmarks are susceptible to manipulation by neural models, wherein these models exploit statistical artifacts within the encoded external knowledge to artificially inflate performance metrics for downstream tasks. Our proposed approach, known as the Recap, Deliberate, and Respond (RDR) paradigm, addresses this issue by incorporating three distinct objectives within the neural network pipeline. Firstly, the Recap objective involves paraphrasing the input text using a paraphrasing model in order to summarize and encapsulate its essence. Secondly, the Deliberation objective entails encoding external graph information related to entities mentioned in the input text, utilizing a graph embedding model. Finally, the Respond objective employs a classification head model that utilizes representations from the Recap and Deliberation modules to generate the final prediction. By cascading these three models and minimizing a combined loss, we mitigate the potential for gaming the benchmark and establish a robust method for capturing the underlying semantic patterns, thus enabling accurate predictions. To evaluate the effectiveness of the RDR method, we conduct tests on multiple GLUE benchmark tasks. Our results demonstrate improved performance compared to competitive baselines, with an enhancement of up to 2\% on standard metrics. Furthermore, we analyze the observed evidence for semantic understanding exhibited by RDR models, emphasizing their ability to avoid gaming the benchmark and instead accurately capture the true underlying semantic patterns.
翻訳日:2023-12-18 14:54:27 公開日:2023-12-15
# ニューロシンボリック・バリューインスパイアされたAI(なぜ,何が,どのようにして)

Neurosymbolic Value-Inspired AI (Why, What, and How) ( http://arxiv.org/abs/2312.09928v1 )

ライセンス: Link先を確認
Amit Sheth and Kaushik Roy(参考訳) 大規模言語モデル(LLM)の出現によって促進された人工知能(AI)システムの急速な進歩は、様々な産業に人的援助を提供するために広く応用されている。 この傾向は、LLMベースのAIシステムが人間社会の一部として人間の間で機能し、特にこれらのシステムが高い状況(ヘルスケア、自動運転など)で展開されているため、人間の価値を共有することの必要性の高まりに焦点が当てられた。 この目的に向けて、ニューロシンボリックaiシステムは、共有値の明示的な表現を利用することで、価値ベースの意思決定を促進するための理解しやすく解釈可能なインターフェースを可能にする可能性があるため、魅力的である。 本稿では,Khanemanのシステム1/2フレームワークの大幅な拡張と,VAI(Value-Inspired AI)と呼ばれるニューロシンボリック計算フレームワークを提案する。 VAIシステムの堅牢で実用的な実装に必要な重要な要素を概説し、人間の価値の様々な次元を表現・統合することを目的としている。 最後に、この方向の現在の進展に関する洞察をさらに提供し、この分野の今後の方向性を概説する。

The rapid progression of Artificial Intelligence (AI) systems, facilitated by the advent of Large Language Models (LLMs), has resulted in their widespread application to provide human assistance across diverse industries. This trend has sparked significant discourse centered around the ever-increasing need for LLM-based AI systems to function among humans as part of human society, sharing human values, especially as these systems are deployed in high-stakes settings (e.g., healthcare, autonomous driving, etc.). Towards this end, neurosymbolic AI systems are attractive due to their potential to enable easy-to-understand and interpretable interfaces for facilitating value-based decision-making, by leveraging explicit representations of shared values. In this paper, we introduce substantial extensions to Khaneman's System one/two framework and propose a neurosymbolic computational framework called Value-Inspired AI (VAI). It outlines the crucial components essential for the robust and practical implementation of VAI systems, aiming to represent and integrate various dimensions of human values. Finally, we further offer insights into the current progress made in this direction and outline potential future directions for the field.
翻訳日:2023-12-18 14:53:56 公開日:2023-12-15
# FuXi-S2S:グローバルサブシーズン予測のための正確な機械学習モデル

FuXi-S2S: An accurate machine learning model for global subseasonal forecasts ( http://arxiv.org/abs/2312.09926v1 )

ライセンス: Link先を確認
Lei Chen, Xiaohui Zhong, Jie Wu, Deliang Chen, Shangping Xie, Qingchen Chao, Chensen Lin, Zixin Hu, Bo Lu, Hao Li, Yuan Qi(参考訳) 2週間を超える熟練した季節予測は、社会の様々な分野にまたがる幅広い応用に不可欠である。 近年、最先端の機械学習に基づく天気予報モデルが大幅に進歩し、欧州中レージ気象予報センター(ECMWF)の高解像度予測(HRES)を上回っている。 しかし、サブシーズン予測における機械学習モデルの潜在能力は、まだ十分に調査されていない。 本研究では,全日平均気温を42日程度まで予測し,13の気圧レベルと11の表層変数で5つの上層大気変数をカバーする,機械学習に基づく季節間予測モデルfuxi-s2sについて紹介する。 fuxi-s2sは、拡張されたfuxiベースモデルと、隠れた機能におけるフロー依存の摂動のための摂動モジュールを統合し、perlinノイズを初期条件の摂動に組み込む。 このモデルはECMWF ERA5の再解析データから72年間の日次統計データを用いて開発された。 ECMWF サブシーズン・ツー・シーソナル (S2S) の再放送と比較すると,FuXi-S2S 予測は総降水量 (TP) , 長波放射量 (OLR) および500 hPa (Z500) において優れた決定論的およびアンサンブル予測を示す。 2メートル温度(T2M)の予測性能はわずかに劣るが,陸域に対して明らかな利点がある。 極端な予測に関して、FuXi-S2SはTPのECMWF S2Sを全世界的に上回っている。 さらに、FuXi-S2S予測は、MJO(Madden Julian Oscillation)予測においてECMWF S2Sの再予測を上回る。 彼らはmjoの巧みな予測を30日から36日まで延長した。

Skillful subseasonal forecasts beyond 2 weeks are crucial for a wide range of applications across various sectors of society. Recently, state-of-the-art machine learning based weather forecasting models have made significant advancements, outperforming the high-resolution forecast (HRES) from the European Centre for Medium-Range Weather Forecasts (ECMWF). However, the full potential of machine learning models in subseasonal forecasts has yet to be fully explored. In this study, we introduce FuXi Subseasonal-to-Seasonal (FuXi-S2S), a machine learning based subseasonal forecasting model that provides global daily mean forecasts up to 42 days, covering 5 upper-air atmospheric variables at 13 pressure levels and 11 surface variables. FuXi-S2S integrates an enhanced FuXi base model with a perturbation module for flow-dependent perturbations in hidden features, and incorporates Perlin noise to perturb initial conditions. The model is developed using 72 years of daily statistics from ECMWF ERA5 reanalysis data. When compared to the ECMWF Subseasonal-to-Seasonal (S2S) reforecasts, the FuXi-S2S forecasts demonstrate superior deterministic and ensemble forecasts for total precipitation (TP), outgoing longwave radiation (OLR), and geopotential at 500 hPa (Z500). Although it shows slightly inferior performance in predicting 2-meter temperature (T2M), it has clear advantages over land area. Regarding the extreme forecasts, FuXi-S2S outperforms ECMWF S2S globally for TP. Furthermore, FuXi-S2S forecasts surpass the ECMWF S2S reforecasts in predicting the Madden Julian Oscillation (MJO), a key source of subseasonal predictability. They extend the skillful prediction of MJO from 30 days to 36 days.
翻訳日:2023-12-18 14:53:35 公開日:2023-12-15
# CNC-Net: CNC加工作業のための自己監督型学習

CNC-Net: Self-Supervised Learning for CNC Machining Operations ( http://arxiv.org/abs/2312.09925v1 )

ライセンス: Link先を確認
Mohsen Yavartanoo, Sangmin Hong, Reyhaneh Neshatavar, Kyoung Mu Lee(参考訳) CNC製造(CNCづくり)は、コンピュータ数値制御(CNC)マシンを使用して、グラインダーや旋盤、ミル、CNCルータなど、様々な産業用工具や機械の動きを管理するプロセスである。 しかし、手動CNCプログラミングへの依存はボトルネックとなり、専門家の知識の要求は多大なコストをもたらす可能性がある。 そこで我々は,CNCマシンをシミュレートし,原料を供給した場合に複雑な操作を把握するために,深層ニューラルネットワーク(DNN)を用いた先駆的アプローチCNC-Netを導入する。 CNC-Netは、入力3Dモデルのみを取り込み、CNCマシンがオブジェクトを構築するために必要な操作パラメータを生成する、自己教師型フレームワークを構成する。 本手法は,手作業によるcncプログラムの高コスト化に代わるコスト効率の高い代替手段を提供することにより,製造におけるトランスフォーメーションな自動化を実現する可能性を秘めている。 本実験は,CNC操作を利用した3次元オブジェクト構築におけるCNC-Netの有効性を実証するものである。 特に局所的な細部保存に優れ、最先端の3DCAD再構成手法と比較して精度が著しく向上している。

CNC manufacturing is a process that employs computer numerical control (CNC) machines to govern the movements of various industrial tools and machinery, encompassing equipment ranging from grinders and lathes to mills and CNC routers. However, the reliance on manual CNC programming has become a bottleneck, and the requirement for expert knowledge can result in significant costs. Therefore, we introduce a pioneering approach named CNC-Net, representing the use of deep neural networks (DNNs) to simulate CNC machines and grasp intricate operations when supplied with raw materials. CNC-Net constitutes a self-supervised framework that exclusively takes an input 3D model and subsequently generates the essential operation parameters required by the CNC machine to construct the object. Our method has the potential to transformative automation in manufacturing by offering a cost-effective alternative to the high costs of manual CNC programming while maintaining exceptional precision in 3D object production. Our experiments underscore the effectiveness of our CNC-Net in constructing the desired 3D objects through the utilization of CNC operations. Notably, it excels in preserving finer local details, exhibiting a marked enhancement in precision compared to the state-of-the-art 3D CAD reconstruction approaches.
翻訳日:2023-12-18 14:52:55 公開日:2023-12-15
# 軽量CNNの統一型テンソルビュー

A Unifying Tensor View for Lightweight CNNs ( http://arxiv.org/abs/2312.09922v1 )

ライセンス: Link先を確認
Jason Chun Lok Li, Rui Lin, Jiajun Zhou, Edmund Yin Mun Lam, and Ngai Wong(参考訳) 軽量CNNのための畳み込みカーネルの分解がよく研究されているにもかかわらず、テンソルネットワーク図や超次元抽象に依存する既存の研究は幾何学的直観を欠いている。 この研究は、3次元形状のカーネルテンソルを様々なスライスとランク1の分解にリンクすることで、様々なテンソル近似と効率的なCNNモジュールとの直接的な接続を可能にする。 具体的には、PDP(pointwise-depthwise-pointwise)構成が軽量CNNの実行可能な構成であることがわかった。 さらに、ShiftNetへの新たなリンクが確立され、ShiftResNetの精度が1%の精度で50%近く圧縮された最初のシフト層プルーニングが実現された。

Despite the decomposition of convolutional kernels for lightweight CNNs being well studied, existing works that rely on tensor network diagrams or hyperdimensional abstraction lack geometry intuition. This work devises a new perspective by linking a 3D-reshaped kernel tensor to its various slice-wise and rank-1 decompositions, permitting a straightforward connection between various tensor approximations and efficient CNN modules. Specifically, it is discovered that a pointwise-depthwise-pointwise (PDP) configuration constitutes a viable construct for lightweight CNNs. Moreover, a novel link to the latest ShiftNet is established, inspiring a first-ever shift layer pruning that achieves nearly 50% compression with < 1% drop in accuracy for ShiftResNet.
翻訳日:2023-12-18 14:52:33 公開日:2023-12-15
# 正規グラフパターンマッチングのためのSATアルゴリズム

SAT-Based Algorithms for Regular Graph Pattern Matching ( http://arxiv.org/abs/2312.09995v1 )

ライセンス: Link先を確認
Miguel Terra-Neves and Jos\'e Amaral and Alexandre Lemos and Rui Quintino and Pedro Resende and Antonio Alegria(参考訳) グラフマッチングはパターン認識における基本的な問題であり、ソフトウェア解析や計算生物学など多くの応用がある。 グラフマッチング問題の一つがグラフ同型であり、2つのグラフが同一かどうかを決定する。 その有用性にもかかわらず、グラフ同型を用いてチェックできる性質は2つのグラフ間の厳密な等式チェックしか許さないため、かなり限定的である。 例えば、ターゲットグラフが任意の長さ列で、任意のサイズループが続くような複雑な構造特性をチェックすることはできない。 本稿では、宣言的仕様を通じてそのような特性をチェックできるグラフ同型を一般化する。 この仕様は、正規表現にインスパイアされた特殊なグラフである正規グラフパターン(ReGaP)の形で与えられ、可変サイズのシーケンスやサブグラフなどの任意の構造を表すワイルドカードノードを含む可能性がある。 対象グラフが所定のReGaPと一致するかどうかをチェックするSATベースのアルゴリズムを提案する。 また,このアルゴリズムの性能向上のための前処理手法を提案し,codesearchnetデータセットからベンチマークを広範囲に実験的に評価する。

Graph matching is a fundamental problem in pattern recognition, with many applications such as software analysis and computational biology. One well-known type of graph matching problem is graph isomorphism, which consists of deciding if two graphs are identical. Despite its usefulness, the properties that one may check using graph isomorphism are rather limited, since it only allows strict equality checks between two graphs. For example, it does not allow one to check complex structural properties such as if the target graph is an arbitrary length sequence followed by an arbitrary size loop. We propose a generalization of graph isomorphism that allows one to check such properties through a declarative specification. This specification is given in the form of a Regular Graph Pattern (ReGaP), a special type of graph, inspired by regular expressions, that may contain wildcard nodes that represent arbitrary structures such as variable-sized sequences or subgraphs. We propose a SAT-based algorithm for checking if a target graph matches a given ReGaP. We also propose a preprocessing technique for improving the performance of the algorithm and evaluate it through an extensive experimental evaluation on benchmarks from the CodeSearchNet dataset.
翻訳日:2023-12-18 14:46:45 公開日:2023-12-15
# LLaMAntino: LLaMA 2 イタリア語における効果的なテキスト生成モデル

LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language ( http://arxiv.org/abs/2312.09993v1 )

ライセンス: Link先を確認
Pierpaolo Basile, Elio Musacchio, Marco Polignano, Lucia Siciliani, Giuseppe Fiameni, Giovanni Semeraro(参考訳) 大きな言語モデルは、コンピュータに自然言語を理解する能力を持たせるために設計された最先端の言語モデルを表している。 llama(large language model meta ai)ファミリーは、複雑な文脈関係を捉える能力があり、大量のトレーニング可能なパラメータ(7,13,700億のパラメータ)のおかげでトランスフォーマアーキテクチャの自然言語理解能力を改善するために設計された基礎モデルをリリースすることにより、自然言語処理の分野における新たな進歩を表している。 多くの自然言語理解タスクにおいて、これらのモデルはopenai chat-gptのようなプライベート企業モデルと同等の性能を獲得し、研究や商用利用のために公開可能な重みとコードを作成することができる。 本研究では,LLaMAモデルに対する言語適応の可能性について検討し,イタリア語カバレッジの課題に対処することに焦点を当てた。 オープンサイエンスのアプローチを採用することで、原モデルのデータセットにおいて、この未表現言語において、共通タスクに適したイタリア語で生成された高品質なテキストを確保するための様々なチューニング手法を検討する。 我々は,多言語あるいは汎用のLLMを用いて困難に思われる多くのタスクに対して,言語特性の強い効果的なテキスト生成モデルをリリースすることを目指している。 オープンサイエンスの哲学を活用することで,イタリアのLLMのLLaMAntinoファミリーを導入することで,イタリア語の言語適応戦略に寄与する。

Large Language Models represent state-of-the-art linguistic models designed to equip computers with the ability to comprehend natural language. With its exceptional capacity to capture complex contextual relationships, the LLaMA (Large Language Model Meta AI) family represents a novel advancement in the field of natural language processing by releasing foundational models designed to improve the natural language understanding abilities of the transformer architecture thanks to their large amount of trainable parameters (7, 13, and 70 billion parameters). In many natural language understanding tasks, these models obtain the same performances as private company models such as OpenAI Chat-GPT with the advantage to make publicly available weights and code for research and commercial uses. In this work, we investigate the possibility of Language Adaptation for LLaMA models, explicitly focusing on addressing the challenge of Italian Language coverage. Adopting an open science approach, we explore various tuning approaches to ensure a high-quality text generated in Italian suitable for common tasks in this underrepresented language in the original models' datasets. We aim to release effective text generation models with strong linguistic properties for many tasks that seem challenging using multilingual or general-purpose LLMs. By leveraging an open science philosophy, this study contributes to Language Adaptation strategies for the Italian language by introducing the novel LLaMAntino family of Italian LLMs.
翻訳日:2023-12-18 14:46:12 公開日:2023-12-15
# ベイズ機械学習による低フォノン周波数へのポーラロン特性の補間

Extrapolation of polaron properties to low phonon frequencies by Bayesian machine learning ( http://arxiv.org/abs/2312.09991v1 )

ライセンス: Link先を確認
Pranav Kairon, John Sous, Mona Berciu, Roman V. Krems(参考訳) 正確な量子計算の可能性は、数値計算に必要な切断ヒルベルト空間の次元性によってしばしば制限される。 本研究は, 量子統計力学における古典的問題であるポーラロン問題に適用されるように, ハミルトンパラメータの予測を行うために, 効果的に低次元ヒルベルト空間における量子特性を用いたベイズ機械学習(ML)モデルを示す。 我々は、Su-Schrieffer-Heeger(SSH)モデルと混合SSH-ホルシュタインモデルという2つのポラロンモデルを考える。 我々は、フォノン周波数のポーラロン特性を補間できるmlモデルを示す。 我々は,SSHポラロンの基底状態運動量の急激な遷移を考察し,この遷移の反断熱体制から断熱体制への進化について考察する。 また,より正確な量子結果のモデルに対する事前分布として,近似量子計算の後方分布を用いたベイズモデルを示す。 これにより、関心を持つハミルトンパラメータの全範囲のポーラロン分散関係をマップアウトするのに必要とされる完全収束量子計算の数を劇的に減少させる。

Feasibility of accurate quantum calculations is often restricted by the dimensionality of the truncated Hilbert space required for the numerical computations. The present work demonstrates Bayesian machine learning (ML) models that use quantum properties in an effectively lower-dimensional Hilbert space to make predictions for the Hamiltonian parameters that require a larger basis set as applied to a classical problem in quantum statistical mechanics, the polaron problem. We consider two polaron models: the Su-Schrieffer-Heeger (SSH) model and the mixed SSH-Holstein model. We demonstrate ML models that can extrapolate polaron properties in the phonon frequency. We consider the sharp transition in the ground-state momentum of the SSH polaron and examine the evolution of this transition from the anti-adiabatic regime to the adiabatic regime. We also demonstrate Bayesian models that use the posterior distributions of highly approximate quantum calculations as the prior distribution for models of more accurate quantum results. This drastically reduces the number of fully converged quantum calculations required to map out the polaron dispersion relations for the full range of Hamiltonian parameters of interest.
翻訳日:2023-12-18 14:44:55 公開日:2023-12-15
# QSweep: パルス最適単一量子合成

QSweep: Pulse-Optimal Single-Qudit Synthesis ( http://arxiv.org/abs/2312.09990v1 )

ライセンス: Link先を確認
Ed Younis, Noah Goss(参考訳) 単一量子ユニタリの合成は主に検討され、非フレキシブルかつ非最適解析解、非効率で非現実的な数値解が導かれる。 この課題に対処するために,任意の部分空間ゲート集合に対してパルス最適単一量子分解を生成する数値合成器qsweepを導入する。 クォートゲートを分解する際、QSweepはQSearchより4100倍(最大23500倍)速く、解析解よりも平均7.9少ないパルスを発生させ、その結果、ランダム化されたベンチマークによって測定された実験的な単一クォートゲートとクォートゲートの密度は1.54倍と2.36倍に改善された。

The synthesis of single-qudit unitaries has mainly been understudied, resulting in inflexible and non-optimal analytical solutions, as well as inefficient and impractical numerical solutions. To address this challenge, we introduce QSweep, a guided numerical synthesizer that produces pulse-optimal single-qudit decompositions for any subspace gateset, outperforming all prior solutions. When decomposing ququart gates, QSweep created circuits 4100x (up to 23500x) faster than QSearch with an average of 7.9 fewer pulses than analytical solutions, resulting in an overall 1.54x and 2.36x improvement in experimental single-qutrit and ququart gate fidelity as measured by randomized benchmarking.
翻訳日:2023-12-18 14:44:16 公開日:2023-12-15
# 高速化mri再構成のためのアーキテクチャ非感受性非トレーニングネットワークプリエントに向けて

Towards Architecture-Insensitive Untrained Network Priors for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2312.09988v1 )

ライセンス: Link先を確認
Yilin Liu, Yunkui Pang, Jiang Li, Yong Chen, Pew-Thian Yap(参考訳) Deep Image Prior (DIP)によって先駆けられた未訓練ニューラルネットワークは、トレーニングのために完全なサンプル計測を必要としないMRI再構成を可能にした。 その成功は、適切なネットワークアーキテクチャによって引き起こされる暗黙の正規化によって広く引き起こされる。 しかし、そのようなアーキテクチャの事前理解の欠如は、過剰な設計選択と準最適結果をもたらす。 本研究の目的は,DIP-MRIのアーキテクチャ設計決定を簡略化し,実用的展開を容易にすることである。 パラメータ数にかかわらず、特定のアーキテクチャコンポーネントが過剰フィッティングを起こしやすいこと、未取得の測定値の正確な外挿を阻害することにより、重大な再構築アーティファクトを発生させることが観察される。 我々は、この現象を周波数の観点から解釈し、低周波を好む建築的特徴、すなわち、理解不能なアップサンプリングを伴う深い狭義の建築的特徴が、一般化とより優れた再構築につながることを見出した。 この知見に基づいて,ホワイトノイズ入力の周波数範囲を制約する手法と,ネットワークのリプシッツ定数をペナライズする手法の2つを提案する。 入力に1行の余分なコードがある場合でも、不設計のモデルとハイパフォーマンスなモデルのパフォーマンスギャップは閉じることができることを実証する。 これらの結果は、非トレーニングMRI再構成におけるアーキテクチャバイアスを、アーキテクチャ修正なしで緩和できることを初めて示す。

Untrained neural networks pioneered by Deep Image Prior (DIP) have recently enabled MRI reconstruction without requiring fully-sampled measurements for training. Their success is widely attributed to the implicit regularization induced by suitable network architectures. However, the lack of understanding of such architectural priors results in superfluous design choices and sub-optimal outcomes. This work aims to simplify the architectural design decisions for DIP-MRI to facilitate its practical deployment. We observe that certain architectural components are more prone to causing overfitting regardless of the number of parameters, incurring severe reconstruction artifacts by hindering accurate extrapolation on the un-acquired measurements. We interpret this phenomenon from a frequency perspective and find that the architectural characteristics favoring low frequencies, i.e., deep and narrow with unlearnt upsampling, can lead to enhanced generalization and hence better reconstruction. Building on this insight, we propose two architecture-agnostic remedies: one to constrain the frequency range of the white-noise input and the other to penalize the Lipschitz constants of the network. We demonstrate that even with just one extra line of code on the input, the performance gap between the ill-designed models and the high-performing ones can be closed. These results signify that for the first time, architectural biases on untrained MRI reconstruction can be mitigated without architectural modifications.
翻訳日:2023-12-18 14:43:57 公開日:2023-12-15
# 同一のフェルミオンを惹きつける障害による脱カップリング:トランスファーマトリクスアプローチ

Disorder-induced decoupling of attracting identical fermions: transfer matrix approach ( http://arxiv.org/abs/2312.09987v1 )

ライセンス: Link先を確認
Lolita I. Knyazeva and Vladimir I. Yudson(参考訳) 有限格子クラスター上の短距離相互作用を持つ一対の同一フェルミオンについて,強サイト障害の存在下で考察する。 この玩具モデルは、強い乱れを持つハバードモデルの低密度構造を模倣する。 スピンフルフェルミオンは最小のエネルギーを持つ部位を同時に占有できるため、常に障害に耐性のある境界状態を形成するが、同じフェルミオンの場合、隣り合う場所でのペアリングの確率は相互作用と障害の関係に依存する。 この確率の 'brute-force' 計算の複雑さ(解析的および数値的)は、閉鎖の形で最も単純なクラスター幾何学であっても、サイト数とともに急速に増加する。 注目すべきことに、この問題はNPハードとして知られるポリヘドロンの体積を計算するという古い数学的タスクに関係している。 しかし、連鎖幾何学における問題は転送行列法によって正確に解くことができることが判明した。 このアプローチを用いて、相互作用と障害強度の任意の関係に対する長鎖のペアリング確率を計算し、結合されたフェルミオンと分離されたフェルミオンの状態の交叉を完全に記述した。

We consider a pair of identical fermions with a short-range attractive interaction on a finite lattice cluster in the presence of a strong site disorder. This toy model imitates a low density regime of the strongly disordered Hubbard model. In contrast to spinful fermions, which can simultaneously occupy a site with a minimal energy and thus always form a bound state resistant to disorder, for the identical fermions the probability of pairing on neighboring sites depends on the relation between the interaction and the disorder. The complexity of 'brute-force' calculations (both analytical and numerical) of this probability grows rapidly with the number of sites even for the simplest cluster geometry in the form of a closed chain. Remarkably, this problem is related to an old mathematical task of computing the volume of a polyhedron, known as NP-hard. However, we have found that the problem in the chain geometry can be exactly solved by the transfer matrix method. Using this approach we have calculated the pairing probability in the long chain for an arbitrary relation between the interaction and the disorder strengths and completely described the crossover between the regimes of coupled and separated fermions.
翻訳日:2023-12-18 14:43:34 公開日:2023-12-15
# 逆整形による効率的な逆強化学習に向けて

Toward Computationally Efficient Inverse Reinforcement Learning via Reward Shaping ( http://arxiv.org/abs/2312.09983v1 )

ライセンス: Link先を確認
Lauren H. Cooke, Harvey Klyne, Edwin Zhang, Cassidy Laidlaw, Milind Tambe, Finale Doshi-Velez(参考訳) 逆強化学習(IRL)は計算的に困難であり、複数の強化学習(RL)サブプロブレムの解を必要とする一般的なアプローチである。 この研究は、各RLサブプロブレムの計算負担を軽減するために、ポテンシャルベースの報酬形成の利用を動機付けている。 本研究は概念実証として機能し,計算効率向上に向けた今後の発展を期待する。

Inverse reinforcement learning (IRL) is computationally challenging, with common approaches requiring the solution of multiple reinforcement learning (RL) sub-problems. This work motivates the use of potential-based reward shaping to reduce the computational burden of each RL sub-problem. This work serves as a proof-of-concept and we hope will inspire future developments towards computationally efficient IRL.
翻訳日:2023-12-18 14:43:13 公開日:2023-12-15
# acpo:aiによるコンパイラ駆動プログラム最適化

ACPO: AI-Enabled Compiler-Driven Program Optimization ( http://arxiv.org/abs/2312.09982v1 )

ライセンス: Link先を確認
Amir H. Ashouri, Muhammad Asif Manzoor, Duc Minh Vu, Raymond Zhang, Ziwen Wang, Angel Zhang, Bryan Chan, Tomasz S. Czajkowski and Yaoqing Gao(参考訳) プログラムのパフォーマンス最適化の鍵は、ある変換がコンパイラによって適用されるタイミングを正確に決定することだ。 伝統的に、このような収益性の決定は、非常に少数のベンチマークのために調整された手書きのアルゴリズムによって行われ、通常、ベンチマークスイートが変更される際には、非常に多くの作業が必要になる。 これは、チューニングプロセスを高速化するために機械学習モデルを適用する理想的な機会である。この実現は90年代後半からあるが、MLの最近の進歩によって、エンドツーエンドフレームワークとしてのコンパイラへのMLの実践的な適用が可能になった。 それでも、MLをコンパイラにシームレスに統合するには、モデルが更新されたとき、コンパイラを継続的に再構築する必要がある。 本稿では、ACPO: \textbf{\underline{A}}I-Enabled \textbf{\underline{C}}ompiler-driven \textbf{\underline{P}}rogram \textbf{\underline{O}}ptimization; LLVMをシンプルで包括的なツールで提供し、異なる最適化パスにMLモデルを使うことの恩恵を受ける新しいフレームワークについて述べる。 まず、ACPOの高レベルなビュー、クラス階層、機能を示し、次に、MLでLoop UnrollとFunctionを呼び出し、ACPOのいくつかのユースケースを示し、ACPOが他のパスを最適化するためにどのように活用できるかを説明します。 実験の結果,Polybench,Coral-2,CoreMark,Graph-500にデプロイした場合のLLVMのO3最適化と比較して,Loop UnrollのACPOモデルは平均4\%,3\%,5.4\%,0.2\%が得られることがわかった。 さらに、Inlinerモデルを追加することで、ACPOはLLVMのO3最適化と比較して、PolybenchとCbenchで最大4.5\%と2.4\%を提供することができる。

The key to performance optimization of a program is to decide correctly when a certain transformation should be applied by a compiler. Traditionally, such profitability decisions are made by hand-coded algorithms tuned for a very small number of benchmarks, usually requiring a great deal of effort to be retuned when the benchmark suite changes. This is an ideal opportunity to apply machine-learning models to speed up the tuning process; while this realization has been around since the late 90s, only recent advancements in ML enabled a practical application of ML to compilers as an end-to-end framework. Even so, seamless integration of ML into the compiler would require constant rebuilding of the compiler when models are updated. This paper presents ACPO: \textbf{\underline{A}}I-Enabled \textbf{\underline{C}}ompiler-driven \textbf{\underline{P}}rogram \textbf{\underline{O}}ptimization; a novel framework to provide LLVM with simple and comprehensive tools to benefit from employing ML models for different optimization passes. We first showcase the high-level view, class hierarchy, and functionalities of ACPO and subsequently, demonstrate \taco{a couple of use cases of ACPO by ML-enabling the Loop Unroll and Function Inlining passes and describe how ACPO can be leveraged to optimize other passes. Experimental results reveal that ACPO model for Loop Unroll is able to gain on average 4\% and 3\%, 5.4\%, 0.2\% compared to LLVM's O3 optimization when deployed on Polybench, Coral-2, CoreMark, and Graph-500, respectively. Furthermore, by adding the Inliner model as well, ACPO is able to provide up to 4.5\% and 2.4\% on Polybench and Cbench compared with LLVM's O3 optimization, respectively.
翻訳日:2023-12-18 14:43:06 公開日:2023-12-15
# the art of balance: revolutionizing mixture of experts for maintain world knowledge in language model alignment(英語)

The Art of Balancing: Revolutionizing Mixture of Experts for Maintaining World Knowledge in Language Model Alignment ( http://arxiv.org/abs/2312.09979v1 )

ライセンス: Link先を確認
Shihan Dou, Enyu Zhou, Yan Liu, Songyang Gao, Jun Zhao, Wei Shen, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Xiaoran Fan, Shiliang Pu, Jiang Zhu, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) Supervised Fine-tuning (SFT)は、大規模言語モデル(LLM)にとって重要なステップであり、人間の指示と整合し、下流タスクの能力を高めることができる。 モデルがより幅広い下流タスクに合わせる必要がある場合や、特定のタスクのパフォーマンスを著しく改善したいという願望がある場合、ソリューションとして微調整データの大幅な増加がしばしば発生する。 しかし、命令データの大規模増加は、以前LLMに格納されていた世界知識、すなわち世界知識の忘れを損なう可能性がある。 本稿では,上記の課題に対処するためにLoRAMoEを紹介する。 LoRAMoEはMixture of Experts (MoE)のプラグイン版である。 プラグインフォームは、トレーニングフェーズ中にバックボーンモデルを凍結することで、世界の知識の完全性を保証する。 また、タスク利用のための専門家のコーディネートに局所的なバランス制約を用いることにより、他の専門家がモデルに格納された世界の知識を十分に活用できるようにする。 実験の結果、loramoeは推論中にデータ型に基づいて専門家を合理的に調整できることが示され、命令データを劇的に増加しても知識を忘れることはない。 さらに、LoRAMoEは下流タスクのパフォーマンスにさらなる利点をもたらし、マルチタスク学習に対する我々のアプローチの可能性を示している。

Supervised fine-tuning (SFT) is a crucial step for large language models (LLMs), enabling them to align with human instructions and enhance their capabilities in downstream tasks. When the models are required to align with a broader range of downstream tasks, or there is a desire to notably improve the performance on a specific task, a substantial increase in fine-tuning data often emerges as the solution. However, we find that large-scale increases in instruction data can disrupt the world knowledge previously stored in the LLMs, i.e., world knowledge forgetting. In this paper, we introduce LoRAMoE to address above challenge. The LoRAMoE is a plugin version of Mixture of Experts (MoE). The plugin-form ensures the integrity of world knowledge by freezing the backbone model during the training phase. And we propose the use of localized balancing constraints to coordinate parts of experts for task utilization, meanwhile enables other experts to to fully leverage the world knowledge stored in the models. Experimental results demonstrate that LoRAMoE can reasonly coordinate experts based on data type during inference, and even dramatically increasing instruction data does not result in knowledge forgetting. Moreover, LoRAMoE provides additional benefits for the performance of downstream tasks, indicating the potential of our approach for multi-task learning.
翻訳日:2023-12-18 14:42:25 公開日:2023-12-15
# 小型ジェットエンジン貯水池のディジタルツイン計算

Small jet engine reservoir computing digital twin ( http://arxiv.org/abs/2312.09978v1 )

ライセンス: Link先を確認
C. J. Wright, N. Biederman, B. Gyovai, D. J. Gauthier, J. P. Wilhelm(参考訳) 単スクロールジェットエンジンの数値シミュレーションのデジタルツインを作成するために機械学習が適用された。 この数値実験から得られた知見に基づく同様のモデルを用いて、実験データのみを用いてジェットキャットP100-RXジェットエンジンのデジタルツインを作成した。 エンジンデータは、推力、排気ガス温度、シャフト速度、気象条件などのパラメータを測定するカスタムセンサーシステムから収集された。 エンジンがシャフト速度を制御することで異なる試験条件下に置かれた間にデータは収集された。 機械学習モデルは、動的システムのための最良クラス機械学習アルゴリズムである次世代貯水池コンピュータを用いて(訓練)された。 モデルがトレーニングされると、テストデータと比較して1.8%以上の精度で見たことのない行動を予測するために使用された。

Machine learning was applied to create a digital twin of a numerical simulation of a single-scroll jet engine. A similar model based on the insights gained from this numerical study was used to create a digital twin of a JetCat P100-RX jet engine using only experimental data. Engine data was collected from a custom sensor system measuring parameters such as thrust, exhaust gas temperature, shaft speed, weather conditions, etc. Data was gathered while the engine was placed under different test conditions by controlling shaft speed. The machine learning model was generated (trained) using a next-generation reservoir computer, a best-in-class machine learning algorithm for dynamical systems. Once the model was trained, it was used to predict behavior it had never seen with an accuracy of better than 1.8% when compared to the testing data.
翻訳日:2023-12-18 14:42:03 公開日:2023-12-15
# GreenLightningAI: 構造的および定量的知識を分離した効率的なAIシステム

GreenLightningAI: An Efficient AI System with Decoupled Structural and Quantitative Knowledge ( http://arxiv.org/abs/2312.09971v1 )

ライセンス: Link先を確認
Jose Duato, Jose I. Mestre, Manuel F. Dolz and Enrique S. Quintana-Ort\'i(参考訳) 人工知能(AI)アプリケーションの数と複雑さは、絶え間なく増加している。 その結果、過去数十年にわたって経験されたアルゴリズムと数学的進歩、そして現在のハードウェアアクセラレーターの目覚ましいエネルギー効率と計算能力にもかかわらず、最も強力で人気のあるディープニューラルネットワークのトレーニングは非常に経済的および環境的なコストがかかる。 従来のニューラルネットワークトレーニングのさらなる最適化は非常に困難であることを認識し、この研究はGreenLightningAIという、個々のサンプルに対してモデルをサブセットすることでディープニューラルネットワークの振る舞いをエミュレート可能な線形モデルからなる、新たなAIシステム設計を提案することで、根本的に異なるアプローチを取る。 新しいAIシステムは、線形モデルパラメータ(定量的知識として参照)とは別途、与えられたサンプル(構造情報として参照)のシステムサブセットを選択するために必要な情報を記憶する。 本稿では,構造情報が定量的知識よりもはるかに早く安定化することを示す概念実証について述べる。 さらに,aiシステムを新たなサンプルで再トレーニングする際には,同じ大きさのニューラルネットワークを再トレーニングする際に得られたものと類似した検証精度を保ちながら,構造情報を無修正で保持できることを実験的に示す。 提案するAIシステムは線形モデルに基づいているため、異なるデータセットでトレーニングされたモデルの複数のコピーを容易に組み合わせることができる。 これにより、インクリメンタルリトレーニングやフェデレーションインクリメンタルリトレーニングを含む、より高速で(再)トレーニングアルゴリズムが可能になる。

The number and complexity of artificial intelligence (AI) applications is growing relentlessly. As a result, even with the many algorithmic and mathematical advances experienced over past decades as well as the impressive energy efficiency and computational capacity of current hardware accelerators, training the most powerful and popular deep neural networks comes at very high economic and environmental costs. Recognising that additional optimisations of conventional neural network training is very difficult, this work takes a radically different approach by proposing GreenLightningAI, a new AI system design consisting of a linear model that is capable of emulating the behaviour of deep neural networks by subsetting the model for each particular sample. The new AI system stores the information required to select the system subset for a given sample (referred to as structural information) separately from the linear model parameters (referred to as quantitative knowledge). In this paper we present a proof of concept, showing that the structural information stabilises far earlier than the quantitative knowledge. Additionally, we show experimentally that the structural information can be kept unmodified when re-training the AI system with new samples while still achieving a validation accuracy similar to that obtained when re-training a neural network with similar size. Since the proposed AI system is based on a linear model, multiple copies of the model, trained with different datasets, can be easily combined. This enables faster and greener (re)-training algorithms, including incremental re-training and federated incremental re-training.
翻訳日:2023-12-18 14:41:49 公開日:2023-12-15
# 条件付きサンプリングによる拡張性と超パラメータフリー非パラメトリック共変量シフト適応

Scalable and hyper-parameter-free non-parametric covariate shift adaptation with conditional sampling ( http://arxiv.org/abs/2312.09969v1 )

ライセンス: Link先を確認
Fran\c{c}ois Portier, Lionel Truquet, Ikko Yamane(参考訳) 多くの既存の共変量シフト適応法では、ソースとターゲット分布のギャップを緩和するために、リスク推定に使用するサンプル重みを推定している。 しかしながら、最適重みを非パラメトリックに推定するには、通常、最終的な性能に不可欠な計算コストの高いハイパーパラメータチューニングが必要となる。 本稿では,重み推定を回避し,過度パラメータを調整できない共変量シフト適応のための新しい非パラメトリックアプローチを提案する。 私たちの基本的なアイデアは、ソースデータセット内の$k$-nearestの隣人に従って、ラベルなしのターゲットデータをラベル付けすることです。 我々の分析は、$k = 1$の設定が最適な選択であることを示している。 この性質のおかげで、他の非パラメトリックな方法とは異なり、ハイパーパラメータをチューニングする必要はない。 さらに,本手法は,文献の知識を最大限に活用する初めて,理論的な保証により,サンプルサイズで準線形な実行時間を実現する。 本研究の結果は,対象データの結合確率分布を推定するための収束の急激な速度を含む。 特に、我々の推定器の分散は、非パラメトリックな性質にもかかわらず標準パラメトリック推定と同じ収束率を持つ。 数値実験により,提案手法は最先端手法に匹敵する精度で実行時間を大幅に短縮できることを示した。

Many existing covariate shift adaptation methods estimate sample weights to be used in the risk estimation in order to mitigate the gap between the source and the target distribution. However, non-parametrically estimating the optimal weights typically involves computationally expensive hyper-parameter tuning that is crucial to the final performance. In this paper, we propose a new non-parametric approach to covariate shift adaptation which avoids estimating weights and has no hyper-parameter to be tuned. Our basic idea is to label unlabeled target data according to the $k$-nearest neighbors in the source dataset. Our analysis indicates that setting $k = 1$ is an optimal choice. Thanks to this property, there is no need to tune any hyper-parameters, unlike other non-parametric methods. Moreover, our method achieves a running time quasi-linear in the sample size with a theoretical guarantee, for the first time in the literature to the best of our knowledge. Our results include sharp rates of convergence for estimating the joint probability distribution of the target data. In particular, the variance of our estimators has the same rate of convergence as for standard parametric estimation despite their non-parametric nature. Our numerical experiments show that proposed method brings drastic reduction in the running time with accuracy comparable to that of the state-of-the-art methods.
翻訳日:2023-12-18 14:41:27 公開日:2023-12-15
# 条件付ランダム場を用いた知覚誘発粒分画微細化

Human Perception-Inspired Grain Segmentation Refinement Using Conditional Random Fields ( http://arxiv.org/abs/2312.09968v1 )

ライセンス: Link先を確認
Doruk Aksoy, Huolin L. Xin, Timothy J. Rupert, and William J. Bowman(参考訳) 多結晶材料の微細構造における粒界などの相互接続網の正確なセグメンテーションは、畳み込みニューラルネットワークを含む従来のコンピュータビジョンアルゴリズムによって生成される断片化マスクにより、大きな課題となる。 これらのアルゴリズムは薄いマスクと競合し、しばしば効果的な輪郭閉鎖と連続性のために複雑な後処理を必要とする。 本稿では,粒界接続に関するドメイン知識を活用し,条件付き確率場と知覚的グループ化ルールを活用し,高速で高忠実なポストプロセッシング手法を提案する。 このアプローチはセグメンテーションマスクの精度を大幅に向上させ、多結晶酸化物の電子顕微鏡画像上でのU-Netモデルによる検証で79%のセグメンテーション識別精度を達成する。 さらに, 粒状アライメントの51%向上を示す新しい粒状アライメント指標を導入し, 複雑なミクロ組織に対するセグメンテーション性能のより詳細な評価を行った。 本手法は, 高速かつ高精度なセグメンテーションを実現するだけでなく, 前例のないレベルのデータ解析を可能にし, 粒界ネットワークの統計的表現を著しく改善し, 相互接続された回線網の正確なセグメンテーションが不可欠となる分野に適している。

Accurate segmentation of interconnected line networks, such as grain boundaries in polycrystalline material microstructures, poses a significant challenge due to the fragmented masks produced by conventional computer vision algorithms, including convolutional neural networks. These algorithms struggle with thin masks, often necessitating intricate post-processing for effective contour closure and continuity. Addressing this issue, this paper introduces a fast, high-fidelity post-processing technique, leveraging domain knowledge about grain boundary connectivity and employing conditional random fields and perceptual grouping rules. This approach significantly enhances segmentation mask accuracy, achieving a 79% segment identification accuracy in validation with a U-Net model on electron microscopy images of a polycrystalline oxide. Additionally, a novel grain alignment metric is introduced, showing a 51% improvement in grain alignment, providing a more detailed assessment of segmentation performance for complex microstructures. This method not only enables rapid and accurate segmentation but also facilitates an unprecedented level of data analysis, significantly improving the statistical representation of grain boundary networks, making it suitable for a range of disciplines where precise segmentation of interconnected line networks is essential.
翻訳日:2023-12-18 14:41:07 公開日:2023-12-15
# アクセシビリティ向上のためのドイツ語テキスト単純化のためのデータとアプローチ

Data and Approaches for German Text simplification -- towards an Accessibility-enhanced Communication ( http://arxiv.org/abs/2312.09966v1 )

ライセンス: Link先を確認
Thorben Schomacker, Michael Gille, J\"org von der H\"ulls, Marina Tropmann-Frick(参考訳) 本稿では,ドイツ語テキストの簡易化の現状と課題について考察する。 ドイツのテキストを単純化するためのニューラルネットワークモデルをレビューし、法的テキストとアクセシビリティ要件に対するそれらの適合性を評価する。 本研究は,ドイツ語の特定の言語的特徴を考慮した追加の訓練データの必要性と,認知障害や言語障害のある対象グループのニーズと嗜好の重要性を強調した。 著者らは2023年4月にこれらの研究ギャップに対応するため、学際的なOPEN-LSプロジェクトを立ち上げた。 プロジェクトは、識字率の低い個人向けに調整されたテキストフォーマットのフレームワークを開発し、法的テキストを統合すること、言語的または認知的障害を持つ人々に対する理解性を高めることを目的としている。 また、画像生成AIを使用して、観客固有のイラストでデータを強化するコスト効率の高い方法も検討する。 最新情報については、プロジェクトのホームページ https://open-ls.entavis.com をご覧ください。

This paper examines the current state-of-the-art of German text simplification, focusing on parallel and monolingual German corpora. It reviews neural language models for simplifying German texts and assesses their suitability for legal texts and accessibility requirements. Our findings highlight the need for additional training data and more appropriate approaches that consider the specific linguistic characteristics of German, as well as the importance of the needs and preferences of target groups with cognitive or language impairments. The authors launched the interdisciplinary OPEN-LS project in April 2023 to address these research gaps. The project aims to develop a framework for text formats tailored to individuals with low literacy levels, integrate legal texts, and enhance comprehensibility for those with linguistic or cognitive impairments. It will also explore cost-effective ways to enhance the data with audience-specific illustrations using image-generating AI. For more and up-to-date information, please visit our project homepage https://open-ls.entavis.com
翻訳日:2023-12-18 14:40:46 公開日:2023-12-15
# パターンを用いたシンボリック数値計画

Symbolic Numeric Planning with Patterns ( http://arxiv.org/abs/2312.09963v1 )

ライセンス: Link先を確認
Matteo Cardellini, Enrico Giunchiglia, and Marco Maratea(参考訳) 本稿では,線形数値計画問題に対する新しい手法であるシンボリックパターン計画法を提案する。 プランニング問題$\pi$、バウンド$n$、パターン -- 任意の一連のアクションとして定義される -- を考えると、バウンド$n$を、最先端のロールアップと緩和された$\exists$エンコーディングよりも少ない変数と/または節を持つ公式として見つけるという問題をエンコードします。 さらに重要なことは、任意の境界に対して、後者の2つのエンコーディングが有効な計画を見つけるのを許すが、我々の法則に従わないことを証明している。 実験面では、今年の国際計画コンペティション(IPC)に参加したものを含め、他の6つの計画システムについて検討し、今年のITC問題に関して、我々のプランナーであるPattyが驚くほど優れた比較パフォーマンスを示した。

In this paper, we propose a novel approach for solving linear numeric planning problems, called Symbolic Pattern Planning. Given a planning problem $\Pi$, a bound $n$ and a pattern -- defined as an arbitrary sequence of actions -- we encode the problem of finding a plan for $\Pi$ with bound $n$ as a formula with fewer variables and/or clauses than the state-of-the-art rolled-up and relaxed-relaxed-$\exists$ encodings. More importantly, we prove that for any given bound, it is never the case that the latter two encodings allow finding a valid plan while ours does not. On the experimental side, we consider 6 other planning systems -- including the ones which participated in this year's International Planning Competition (IPC) -- and we show that our planner Patty has remarkably good comparative performances on this year's IPC problems.
翻訳日:2023-12-18 14:40:29 公開日:2023-12-15
# ポイントトランスフォーマーv3:シンプル、高速、強力

Point Transformer V3: Simpler, Faster, Stronger ( http://arxiv.org/abs/2312.10035v1 )

ライセンス: Link先を確認
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao(参考訳) 本論文は,注意機構におけるイノベーションを求める動機ではない。 代わりに、ポイントクラウド処理のコンテキストにおける正確性と効率のトレードオフを克服し、スケールのパワーを活用することに重点を置いている。 近年の3次元大規模表現学習の進歩から着想を得た結果,モデルの性能は複雑な設計よりもスケールに影響されていることがわかった。 そこで我々は,KNNによる正確な隣接探索を,特定のパターンで整理された点雲の効率的な直列化近傍マッピングに置き換えるなど,スケーリング後の全体的な性能に劣る機構の精度よりも,単純さと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。 この原則は大幅なスケーリングを可能にし、レセプティブフィールドを16から1024ポイントに拡張し、効率性(処理速度の3倍、メモリ効率の10倍向上)を維持している。 PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。 PTv3は、マルチデータセットのジョイントトレーニングによってさらに強化され、これらの結果をより高いレベルに押し上げる。

This paper is not motivated to seek innovation within the attention mechanism. Instead, it focuses on overcoming the existing trade-offs between accuracy and efficiency within the context of point cloud processing, leveraging the power of scale. Drawing inspiration from recent advances in 3D large-scale representation learning, we recognize that model performance is more influenced by scale than by intricate design. Therefore, we present Point Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the accuracy of certain mechanisms that are minor to the overall performance after scaling, such as replacing the precise neighbor search by KNN with an efficient serialized neighbor mapping of point clouds organized with specific patterns. This principle enables significant scaling, expanding the receptive field from 16 to 1024 points while remaining efficient (a 3x increase in processing speed and a 10x improvement in memory efficiency compared with its predecessor, PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that span both indoor and outdoor scenarios. Further enhanced with multi-dataset joint training, PTv3 pushes these results to a higher level.
翻訳日:2023-12-18 14:33:39 公開日:2023-12-15
# slimmerf:スリム化可能なラミアンスフィールド

SlimmeRF: Slimmable Radiance Fields ( http://arxiv.org/abs/2312.10034v1 )

ライセンス: Link先を確認
Shiran Yuan and Hao Zhao(参考訳) ニューラル・ラジアンス・フィールド(NeRF)とその変種は、新しいビュー合成と3次元シーン再構成の手法として最近登場した。 しかし、現在のほとんどのNeRFモデルは、大きなモデルサイズを使用して高い精度を達成するか、精度をトレードオフすることで高いメモリ効率を達成する。 高い精度のモデルは低メモリデバイスには適合せず、メモリ効率のよいモデルは高品質の要求を満たすことができない。 そこで本研究では,スリム化によるモデルサイズと精度のトレードオフを瞬時に行うためのモデルであるslimmerfを提案する。 我々は、トレーニング中にモデルのテンソル表現のランクを徐々に上昇させるTRaIn(Tensorial Rank Incrementation)というアルゴリズムによってこれを達成した。 我々はまた、スパースビューシナリオにおいてより効果的なトレードオフを可能にし、スリム化後に高い精度を達成できることも観察した。 これは,フローターなどの誤情報が,上位層に対応する構成要素に格納される傾向があるためである。 実装はhttps://github.com/Shiran-Yuan/SlimmeRF.comで公開しています。

Neural Radiance Field (NeRF) and its variants have recently emerged as successful methods for novel view synthesis and 3D scene reconstruction. However, most current NeRF models either achieve high accuracy using large model sizes, or achieve high memory-efficiency by trading off accuracy. This limits the applicable scope of any single model, since high-accuracy models might not fit in low-memory devices, and memory-efficient models might not satisfy high-quality requirements. To this end, we present SlimmeRF, a model that allows for instant test-time trade-offs between model size and accuracy through slimming, thus making the model simultaneously suitable for scenarios with different computing budgets. We achieve this through a newly proposed algorithm named Tensorial Rank Incrementation (TRaIn) which increases the rank of the model's tensorial representation gradually during training. We also observe that our model allows for more effective trade-offs in sparse-view scenarios, at times even achieving higher accuracy after being slimmed. We credit this to the fact that erroneous information such as floaters tend to be stored in components corresponding to higher ranks. Our implementation is available at https://github.com/Shiran-Yuan/SlimmeRF.
翻訳日:2023-12-18 14:33:18 公開日:2023-12-15
# Osprey: ビジュアルインストラクションチューニングによるPixel理解

Osprey: Pixel Understanding with Visual Instruction Tuning ( http://arxiv.org/abs/2312.10032v1 )

ライセンス: Link先を確認
Yuqian Yuan, Wentong Li, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin, Lei Zhang, Jianke Zhu(参考訳) MLLM(Multimodal large language model)は近年,視覚的インストラクションチューニングにより,汎用的な視覚言語機能を実現している。 しかし、現在のmllmは主に画像レベルやボックスレベルの理解に焦点を当てており、ピクセルレベルでの詳細な視覚言語アライメントの実現には至っていない。 さらに、マスクベースの命令データがないため、その進歩は制限される。 本稿では,大きめのマスク領域を言語指導に組み込むことでMLLMを拡張し,画素単位の視覚的理解を実現するためのマスクテキスト指導チューニング手法であるOspreyを提案する。 この目的を達成するため、まず724Kサンプルを用いてマスクベースの領域テキストデータセットを精巧にキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。 特に、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。 実験により,Ospreyの様々な領域理解タスクにおける優位性を示し,画素レベルの命令チューニングの新たな能力を示した。 特に、ospreyはsegment anything model (sam)とシームレスに統合でき、マルチグラニュラリティセマンティクスを得ることができる。 ソースコード、データセット、デモはhttps://github.com/CircleRadon/Ospreyで見ることができる。

Multimodal large language models (MLLMs) have recently achieved impressive general-purpose vision-language capabilities through visual instruction tuning. However, current MLLMs primarily focus on image-level or box-level understanding, falling short of achieving fine-grained vision-language alignment at the pixel level. Besides, the lack of mask-based instruction data limits their advancements. In this paper, we propose Osprey, a mask-text instruction tuning approach, to extend MLLMs by incorporating fine-grained mask regions into language instruction, aiming at achieving pixel-wise visual understanding. To achieve this goal, we first meticulously curate a mask-based region-text dataset with 724K samples, and then design a vision-language model by injecting pixel-level representation into LLM. Especially, Osprey adopts a convolutional CLIP backbone as the vision encoder and employs a mask-aware visual extractor to extract precise visual mask features from high resolution input. Experimental results demonstrate Osprey's superiority in various region understanding tasks, showcasing its new capability for pixel-level instruction tuning. In particular, Osprey can be integrated with Segment Anything Model (SAM) seamlessly to obtain multi-granularity semantics. The source code, dataset and demo can be found at https://github.com/CircleRadon/Osprey.
翻訳日:2023-12-18 14:32:58 公開日:2023-12-15
# 教師なしLLM知識発見への挑戦

Challenges with unsupervised LLM knowledge discovery ( http://arxiv.org/abs/2312.10029v1 )

ライセンス: Link先を確認
Sebastian Farquhar, Vikrant Varma, Zachary Kenton, Johannes Gasteiger, Vladimir Mikulik, Rohin Shah(参考訳) 我々は、大きな言語モデル(LLM)アクティベーションに関する既存の教師なしメソッドが知識を発見せず、アクティベーションのどの特徴が最も顕著であるかを発見できることを示した。 教師なしの知識推論の背景にある考え方は、知識は知識を発見するのに使用できる一貫性構造を満たすというものである。 まず、任意の特徴(単なる知識ではない)が、特定の指導を受けていない知識消去手法、コントラスト一貫性探索(Burns et al. - arXiv:2212.03827)の一貫性構造を満たすことを理論的に証明する。 次に、教師なしのメソッドが知識を予測せず、異なる特徴を予測できる分類器を生成するための設定を示す一連の実験を示す。 我々は,潜在知識を発見するための既存の教師なし手法は不十分であると結論し,将来的な知識の活用方法を評価するための正当性検査に貢献する。 概念的には,ここで検討した識別問題,例えばモデル知識とシミュレーションキャラクタの知識を区別することは,将来の教師なし手法として継続する,と仮定する。

We show that existing unsupervised methods on large language model (LLM) activations do not discover knowledge -- instead they seem to discover whatever feature of the activations is most prominent. The idea behind unsupervised knowledge elicitation is that knowledge satisfies a consistency structure, which can be used to discover knowledge. We first prove theoretically that arbitrary features (not just knowledge) satisfy the consistency structure of a particular leading unsupervised knowledge-elicitation method, contrast-consistent search (Burns et al. - arXiv:2212.03827). We then present a series of experiments showing settings in which unsupervised methods result in classifiers that do not predict knowledge, but instead predict a different prominent feature. We conclude that existing unsupervised methods for discovering latent knowledge are insufficient, and we contribute sanity checks to apply to evaluating future knowledge elicitation methods. Conceptually, we hypothesise that the identification issues explored here, e.g. distinguishing a model's knowledge from that of a simulated character's, will persist for future unsupervised methods.
翻訳日:2023-12-18 14:32:34 公開日:2023-12-15
# 平衡内外相互作用鎖における2つの不連続区間の絡み合いエントロピーとスピン構造

Entanglement entropy of two disjoint intervals and spin structures in interacting chains in and out of equilibrium ( http://arxiv.org/abs/2312.10028v1 )

ライセンス: Link先を確認
Vanja Mari\'c, Saverio Bocini, Maurizio Fagotti(参考訳) 我々は、ハイゼンベルクスピン-$\frac{1}{2}$ xxzモデルと相互作用するスピン鎖のパラダイムを基準系として、ヨルダン-ウィグナー変換と部分鎖への制限によってそれに関連する相互作用モデルを検討する。 例えば、空隙のない XXZ ハミルトニアンのフェルミオン類似体は、連続的なスケーリング極限において、質量のないチューリングモデルによって記述される。 基底状態における不連続ブロックの r\'enyi-$\alpha$ エントロピーを調べ、無限長の極限において r\'enyi-$\alpha$ 三成分情報を記述する普遍的スケーリング関数を抽出する。 また、フォン・ノイマンのエントロピーを考えるが、大距離の限界のみを考える。 スピンブロックのエントロピーを用いて、基礎となる無質量チューリングモデルのスピン構造を明らかにする方法を示す。 最後に,大域的クエンチ後の三成分情報について推測し,無限時間と小クエンチの限界におけるその漸近的挙動を推測する。 結果として得られる'residual tripartite information''の予想は、区間の長さが(大きな)距離よりも無限に大きい極限に対応するもので、最近、非相互作用スピン鎖の研究を行った普遍性(universality)の主張を支持する。 我々の軽微な仮定は、XXZの隙間のない位相における異方性の小さなクエンチ後の残留三部体情報は、$-\log 2$と等しいことを示唆している。

We take the paradigm of interacting spin chains, the Heisenberg spin-$\frac{1}{2}$ XXZ model, as a reference system and consider interacting models that are related to it by Jordan-Wigner transformations and restrictions to sub-chains. An example is the fermionic analogue of the gapless XXZ Hamiltonian, which, in a continuum scaling limit, is described by the massless Thirring model. We work out the R\'enyi-$\alpha$ entropies of disjoint blocks in the ground state and extract the universal scaling functions describing the R\'enyi-$\alpha$ tripartite information in the limit of infinite lengths. We consider also the von Neumann entropy, but only in the limit of large distance. We show how to use the entropies of spin blocks to unveil the spin structures of the underlying massless Thirring model. Finally, we speculate about the tripartite information after global quenches and conjecture its asymptotic behaviour in the limit of infinite time and small quench. The resulting conjecture for the ``residual tripartite information'', which corresponds to the limit in which the intervals' lengths are infinitely larger than their (large) distance, supports the claim of universality recently made studying noninteracting spin chains. Our mild assumptions imply that the residual tripartite information after a small quench of the anisotropy in the gapless phase of XXZ is equal to $-\log 2$.
翻訳日:2023-12-18 14:32:14 公開日:2023-12-15
# ニューラルネットワークトレーニングを加速する - 簡単なレビュー

Accelerating Neural Network Training: A Brief Review ( http://arxiv.org/abs/2312.10024v1 )

ライセンス: Link先を確認
Sahil Nokhwal, Priyanka Chilakalapudi, Preeti Donekal, Manoj Chandrasekharan, Suman Nokhwal, Ram Swaroop, Raj Bala, Saurabh Pahune and Ankit Chaudhary(参考訳) ディープニューラルネットワークのトレーニングプロセスは、かなりの時間要件と関連するコストによって特徴づけられる。 研究者はこの分野でかなりの進歩を遂げているが、資源の制約のためにさらなる研究が必要である。 本研究では, resnet50, vision transformer (vit), efficientnet などの3つの最先端モデルに着目し,深層ニューラルネットワーク(dnn)の学習プロセスを高速化するための革新的なアプローチを検討する。 この研究は、性能の最適化と訓練手順の高速化のために、グラディエント累積(GA)、自動混合精度(AMP)、ピンメモリ(PM)などの高度な手法を利用している。 本研究は,これらの手法が先述したdnnモデルに及ぼす影響について検討し,トレーニング率と計算の有効性について検討した。 この研究は、GAを戦略的アプローチとして含む効果を示し、トレーニングに要する時間を大幅に減少させる結果となった。 これにより、モデルはより速いペースで収束できる。 AMPの利用は、モデルの正確性を保ちながら、より精度の低い算術によって得られる利点を生かして計算速度を向上させる。 さらに、中央処理ユニットとグラフィックス処理ユニットとの間のデータ伝送効率を向上させる戦略としてのピンメモリの適用について検討し、全体的な性能向上に有望な機会を提供する。 実験の結果,これらの手法を組み合わせることでDNNの訓練が大幅に促進され,深層学習プロセスの有効性向上を目指す専門家にとって重要な知見が得られた。

The process of training a deep neural network is characterized by significant time requirements and associated costs. Although researchers have made considerable progress in this area, further work is still required due to resource constraints. This study examines innovative approaches to expedite the training process of deep neural networks (DNN), with specific emphasis on three state-of-the-art models such as ResNet50, Vision Transformer (ViT), and EfficientNet. The research utilizes sophisticated methodologies, including Gradient Accumulation (GA), Automatic Mixed Precision (AMP), and Pin Memory (PM), in order to optimize performance and accelerate the training procedure. The study examines the effects of these methodologies on the DNN models discussed earlier, assessing their efficacy with regard to training rate and computational efficacy. The study showcases the efficacy of including GA as a strategic approach, resulting in a noteworthy decrease in the duration required for training. This enables the models to converge at a faster pace. The utilization of AMP enhances the speed of computations by taking advantage of the advantages offered by lower precision arithmetic while maintaining the correctness of the model. Furthermore, this study investigates the application of Pin Memory as a strategy to enhance the efficiency of data transmission between the central processing unit and the graphics processing unit, thereby offering a promising opportunity for enhancing overall performance. The experimental findings demonstrate that the combination of these sophisticated methodologies significantly accelerates the training of DNNs, offering vital insights for experts seeking to improve the effectiveness of deep learning processes.
翻訳日:2023-12-18 14:31:48 公開日:2023-12-15
# 相互情報の変動境界によるプローブ挙動の理解

Understanding Probe Behaviors through Variational Bounds of Mutual Information ( http://arxiv.org/abs/2312.10019v1 )

ライセンス: Link先を確認
Kwanghee Choi, Jee-weon Jung, Shinji Watanabe(参考訳) 自己監督型表現の成功により、研究者は表現の中にカプセル化された情報の理解を深める。 様々な解釈方法のうち,分類に基づく線形探索に注目する。 本稿では,情報理論を活用した新しい数学的枠組みを構築し,線形探索の指針を提供する。 まず, プローブ設計を緩和するために, プローブと相互情報(mi)の変動境界を接続し, 線形プローブと微調整を同一視する。 次に, 数学的枠組みを通して探索の実証的行動と実践について検討する。 我々はデータ処理の不等式に反するように見える凸層性能曲線を解析する。 しかし,中間表現は分離性の向上とmiの低減のトレードオフにより,最大mi推定値が得られることを示した。 さらに、線形分離可能な表現のマージンが「表現の良さ」を測定する基準となることを示唆する。 また,測定基準として精度とmiを比較した。 最後に,単語と音素情報を保持する自己教師型音声モデルを観察することにより,我々の主張を実証的に検証する。

With the success of self-supervised representations, researchers seek a better understanding of the information encapsulated within a representation. Among various interpretability methods, we focus on classification-based linear probing. We aim to foster a solid understanding and provide guidelines for linear probing by constructing a novel mathematical framework leveraging information theory. First, we connect probing with the variational bounds of mutual information (MI) to relax the probe design, equating linear probing with fine-tuning. Then, we investigate empirical behaviors and practices of probing through our mathematical framework. We analyze the layer-wise performance curve being convex, which seemingly violates the data processing inequality. However, we show that the intermediate representations can have the biggest MI estimate because of the tradeoff between better separability and decreasing MI. We further suggest that the margin of linearly separable representations can be a criterion for measuring the "goodness of representation." We also compare accuracy with MI as the measuring criteria. Finally, we empirically validate our claims by observing the self-supervised speech models on retaining word and phoneme information.
翻訳日:2023-12-18 14:30:41 公開日:2023-12-15
# 運動原始拡散:変形可能な物体の優しくロボット操作を学ぶ

Movement Primitive Diffusion: Learning Gentle Robotic Manipulation of Deformable Objects ( http://arxiv.org/abs/2312.10008v1 )

ライセンス: Link先を確認
Paul Maria Scheikl, Nicolas Schreiber, Christoph Haas, Niklas Freymuth, Gerhard Neumann, Rudolf Lioutikov, and Franziska Mathis-Ullrich(参考訳) ロボット支援手術(ras)におけるポリシー学習は、繊細な手術介入のための望ましい動作品質を示すデータ効率と汎用性に欠ける。 そこで本研究では, 変形可能な物体のゆるやかな操作に着目した, 模倣学習(IL)の新たな手法である運動原始拡散(MPD)を紹介する。 この手法は拡散に基づく模倣学習(DIL)の汎用性と確率的動特性プリミティブ(ProDMP)の高品質な運動生成能力を組み合わせる。 この組み合わせによりmpdは、デモデータが不足しているrasアプリケーションにとって重要なデータ効率を維持しながら、変形可能なオブジェクトの穏やかな操作を実現することができる。 様々なシミュレーションタスクと実世界ロボットのmpdを、状態と画像の観察の両方で評価する。 MPDは、成功率、運動品質、データ効率において最先端のDIL手法より優れている。

Policy learning in robot-assisted surgery (RAS) lacks data efficient and versatile methods that exhibit the desired motion quality for delicate surgical interventions. To this end, we introduce Movement Primitive Diffusion (MPD), a novel method for imitation learning (IL) in RAS that focuses on gentle manipulation of deformable objects. The approach combines the versatility of diffusion-based imitation learning (DIL) with the high-quality motion generation capabilities of Probabilistic Dynamic Movement Primitives (ProDMPs). This combination enables MPD to achieve gentle manipulation of deformable objects, while maintaining data efficiency critical for RAS applications where demonstration data is scarce. We evaluate MPD across various simulated tasks and a real world robotic setup on both state and image observations. MPD outperforms state-of-the-art DIL methods in success rate, motion quality, and data efficiency.
翻訳日:2023-12-18 14:30:25 公開日:2023-12-15
# 大規模言語モデルを用いた忠実ペルソナに基づく会話データセット生成

Faithful Persona-based Conversational Dataset Generation with Large Language Models ( http://arxiv.org/abs/2312.10007v1 )

ライセンス: Link先を確認
Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed(参考訳) 高品質な会話型データセットは、ユーザと通信可能なaiモデルの開発に不可欠である。 チャットボットとユーザーのより深いインタラクションを促進する一つの方法は、パーソナラ(ペルソナ)、そのパーソナリティ、モチベーション、行動に関する洞察を提供するユーザの性格の側面である。 多様なパーソナラベースのデータセット上で自然言語処理(nlp)モデルをトレーニングすることは、ユーザとの深いつながりを生み出し、エンゲージメントを維持する会話モデルにつながる可能性がある。 本稿では,大規模言語モデル(llm)のパワーを活用して,シードデータセットから大規模で高品質な会話型データセットを作成する。 我々は,会話の質を向上しつつ,初期データセットを拡張するためのGenerator-Criticアーキテクチャフレームワークを提案する。 Generator は、会話を出力するように誘導される LLM である。 批判は、生成された会話の質を制御する専門家のLSMの混合から成り立っている。 これらの専門家は、生成した最高の会話を選択し、ジェネレータを改善するために使用します。 我々はPersona-Chatからシードされた20万の会話からなるSynthetic-Persona-Chatをリリースする。 本研究は,多岐にわたる実験により,合成対人チャットの質評価を行い,チューリングテスト中の合成対人チャットの損失率は,3回のイテレーションで17.2%から8.8%に減少することを確認した。

High-quality conversational datasets are essential for developing AI models that can communicate with users. One way to foster deeper interactions between a chatbot and its user is through personas, aspects of the user's character that provide insights into their personality, motivations, and behaviors. Training Natural Language Processing (NLP) models on a diverse and comprehensive persona-based dataset can lead to conversational models that create a deeper connection with the user, and maintain their engagement. In this paper, we leverage the power of Large Language Models (LLMs) to create a large, high-quality conversational dataset from a seed dataset. We propose a Generator-Critic architecture framework to expand the initial dataset, while improving the quality of its conversations. The Generator is an LLM prompted to output conversations. The Critic consists of a mixture of expert LLMs that control the quality of the generated conversations. These experts select the best generated conversations, which we then use to improve the Generator. We release Synthetic-Persona-Chat, consisting of 20k conversations seeded from Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our generation framework on different dimensions through extensive experiments, and observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat during Turing test decreases from 17.2% to 8.8% over three iterations.
翻訳日:2023-12-18 14:30:12 公開日:2023-12-15
# ハミルトン系のモデル還元のためのシンプレクティックオートエンコーダ

Symplectic Autoencoders for Model Reduction of Hamiltonian Systems ( http://arxiv.org/abs/2312.10004v1 )

ライセンス: Link先を確認
Benedikt Brantner, Michael Kraus(参考訳) 最適化、不確かさの定量化、逆問題といった多くの応用では、パラメータの異なる大次元物理系のシミュレーションを繰り返し行う必要がある。 これは非常に高価である。 計算コストを抑えるため、トレーニングデータから得られる低次元でシステムを表現することで代理モデルを構築することができる。 これをモデル還元と呼ぶ。 過去の研究では、ハミルトン系のモデル還元を行う場合、長期的な数値安定性を確保するために、システムに関連するシンプレクティック構造を維持することが重要であることが示されている。 この点まで、構造保存還元はほとんど線形変換に制限されている。 データサイエンスにおける次元縮小と特徴抽出のための確立されたツールであるオートエンコーダの精神で、より一般的なマッピングを得るために新しいニューラルネットワークアーキテクチャを提案する。 ネットワークをトレーニングするために,ネットワーク設計から生じる微分幾何学的構造を利用する非標準勾配降下法を適用した。 新しいアーキテクチャは、既存の設計よりも精度が高いことが示されている。

Many applications, such as optimization, uncertainty quantification and inverse problems, require repeatedly performing simulations of large-dimensional physical systems for different choices of parameters. This can be prohibitively expensive. In order to save computational cost, one can construct surrogate models by expressing the system in a low-dimensional basis, obtained from training data. This is referred to as model reduction. Past investigations have shown that, when performing model reduction of Hamiltonian systems, it is crucial to preserve the symplectic structure associated with the system in order to ensure long-term numerical stability. Up to this point structure-preserving reductions have largely been limited to linear transformations. We propose a new neural network architecture in the spirit of autoencoders, which are established tools for dimension reduction and feature extraction in data science, to obtain more general mappings. In order to train the network, a non-standard gradient descent approach is applied that leverages the differential-geometric structure emerging from the network design. The new architecture is shown to significantly outperform existing designs in accuracy.
翻訳日:2023-12-18 14:29:46 公開日:2023-12-15
# restがreactと出会う - マルチステップ推論llmエージェントの自己改善

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent ( http://arxiv.org/abs/2312.10003v1 )

ライセンス: Link先を確認
Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar(参考訳) 複雑な自然言語質問に答えるには、しばしば多段階の推論と外部情報の統合が必要である。 いくつかのシステムは、知識検索と大きな言語モデル(LLM)を組み合わせて、そのような質問に答えている。 しかし、これらのシステムは様々な障害に悩まされており、外部知識との相互作用が区別できないため、これらの障害を修正するためにエンドツーエンドでそれらを訓練することはできない。 これらの欠陥に対処するために、外部知識に基づいて推論と行動を行うReActスタイルのLLMエージェントを定義する。 我々は,AIフィードバックを用いた成長バッチ強化学習を用いて,連続的な自己改善と自己蒸留を行うReSTライクな手法によりエージェントをさらに洗練する。 提案する大規模モデルから始めて,アルゴリズムを2回繰り返しただけで,2桁のパラメータで構成的質問応答ベンチマークに匹敵するパフォーマンスを実現する,微調整された小モデルを作成することができる。

Answering complex natural language questions often necessitates multi-step reasoning and integrating external information. Several systems have combined knowledge retrieval with a large language model (LLM) to answer such questions. These systems, however, suffer from various failure cases, and we cannot directly train them end-to-end to fix such failures, as interaction with external knowledge is non-differentiable. To address these deficiencies, we define a ReAct-style LLM agent with the ability to reason and act upon external knowledge. We further refine the agent through a ReST-like method that iteratively trains on previous trajectories, employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation. Starting from a prompted large model and after just two iterations of the algorithm, we can produce a fine-tuned small model that achieves comparable performance on challenging compositional question-answering benchmarks with two orders of magnitude fewer parameters.
翻訳日:2023-12-18 14:29:30 公開日:2023-12-15
# オートエンコーダによる未知確率力学系のモデル化

Modeling Unknown Stochastic Dynamical System via Autoencoder ( http://arxiv.org/abs/2312.10001v1 )

ライセンス: Link先を確認
Zhongshu Xu, Yuan Chen, Qifan Chen, Dongbin Xiu(参考訳) 本稿では,未知確率力学系の軌道データから正確な予測モデルを学習するための数値的手法を提案する。 本手法は, 基礎システムの未知フローマップを近似する。 オートエンコーダ(autoencoder)というアイデアを使って、観測されていない潜在確率変数を識別する。 提案手法では,単位ガウスとしてモデル化された潜伏変数を検出するための符号化関数と,システムの将来の状態を再構築するための復号関数を設計する。 エンコーダとデコーダの両方をディープニューラルネットワーク(dnn)として表現する。 DNNが軌道データによって訓練されると、デコーダは未知の確率系の予測モデルとして機能する。 本手法は, 広範囲な数値的な例から, 短時間の軌跡データを用いて, 長期システム予測が可能であることを示す。 非ゲージノイズによって駆動されるシステムにも適用できる。

We present a numerical method to learn an accurate predictive model for an unknown stochastic dynamical system from its trajectory data. The method seeks to approximate the unknown flow map of the underlying system. It employs the idea of autoencoder to identify the unobserved latent random variables. In our approach, we design an encoding function to discover the latent variables, which are modeled as unit Gaussian, and a decoding function to reconstruct the future states of the system. Both the encoder and decoder are expressed as deep neural networks (DNNs). Once the DNNs are trained by the trajectory data, the decoder serves as a predictive model for the unknown stochastic system. Through an extensive set of numerical examples, we demonstrate that the method is able to produce long-term system predictions by using short bursts of trajectory data. It is also applicable to systems driven by non-Gaussian noises.
翻訳日:2023-12-18 14:29:14 公開日:2023-12-15
# 多くの抽象的視覚推論問題を解決する自己構成可能なモデル

One Self-Configurable Model to Solve Many Abstract Visual Reasoning Problems ( http://arxiv.org/abs/2312.09997v1 )

ライセンス: Link先を確認
Miko{\l}aj Ma{\l}ki\'nski, Jacek Ma\'ndziuk(参考訳) AVR(Abstract Visual Reasoning)は、人間のIQテストと同様の様々な問題を幅広く選択する。 近年、特定の avr タスクの解法にダイナミックな進歩がもたらされているが、現代の文献では avr 問題は主に独立して扱われており、高度に専門化されたタスク固有の手法に繋がる。 AVR領域におけるユニバーサルラーニングシステムの開発を目的として,タスク構造,特にパネルの数と位置を前提にすることなく,様々な単一選択型AVRタスクを解くことができるSCAR(Single-Choice Abstract visual Reasoning Task)の統一モデルを提案する。 提案モデルは,新しい構造認識動的層(sal)に依存し,その重み付けを考慮されたavr問題の構造に適応させる。 Ravenのプログレッシブ・マトリクス、ビジュアル・アナロジー問題、オッド・ワン・アウトに関する実験は、SCAR(一般にSALベースのモデル)が様々なAVRタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることを示している。 さらに、SCARはマルチタスクおよび転送学習設定における効果的な知識再利用を示す。 我々の知る限り、この研究は、自己構成可能なアーキテクチャと統一的な解法を頼りに、一般的な単一選択型AVRソルバの構築に成功した最初の試みである。 この研究により、avrドメインにおけるタスクに依存しない研究パスの進展を刺激し、促進し、汎用的なavrソルバの開発を長期的な目標とする。

Abstract Visual Reasoning (AVR) comprises a wide selection of various problems similar to those used in human IQ tests. Recent years have brought dynamic progress in solving particular AVR tasks, however, in the contemporary literature AVR problems are largely dealt with in isolation, leading to highly specialized task-specific methods. With the aim of developing universal learning systems in the AVR domain, we propose the unified model for solving Single-Choice Abstract visual Reasoning tasks (SCAR), capable of solving various single-choice AVR tasks, without making any a priori assumptions about the task structure, in particular the number and location of panels. The proposed model relies on a novel Structure-Aware dynamic Layer (SAL), which adapts its weights to the structure of the considered AVR problem. Experiments conducted on Raven's Progressive Matrices, Visual Analogy Problems, and Odd One Out problems show that SCAR (SAL-based models, in general) effectively solves diverse AVR tasks, and its performance is on par with the state-of-the-art task-specific baselines. What is more, SCAR demonstrates effective knowledge reuse in multi-task and transfer learning settings. To our knowledge, this work is the first successful attempt to construct a general single-choice AVR solver relying on self-configurable architecture and unified solving method. With this work we aim to stimulate and foster progress on task-independent research paths in the AVR domain, with the long-term goal of development of a general AVR solver.
翻訳日:2023-12-18 14:29:02 公開日:2023-12-15
# 合理的感性:自己呈示理論によるllm強化共感応答生成

Rational Sensibility: LLM Enhanced Empathetic Response Generation Guided by Self-presentation Theory ( http://arxiv.org/abs/2312.08702v2 )

ライセンス: Link先を確認
Linzhuang Sun, Nan Xu, Jingxuan Wei, Bihui Yu, Liping Bu, Yin Luo(参考訳) 共感する能力を持つことは、会話中の人間の行動を正確に表現するために重要である。 外部知識を取り入れたモデル認知能力の向上を目的とした研究が数多く行われているが、認知共感の重要な要素である会話自体の合理的かつ合理的な表現に注意が向けられている。 社会学における自己表現理論に導かれ, 歴史的対話を合理的かつ合理的な文に分離し, その後, 注意機構によって文脈を解明する, 革新的なカテゴリー的アプローチを考案した。 しかし,会話内の有理的な情報は制限されており,従来手法で用いられてきた外部知識は,意味的矛盾や視野の狭さに限界がある。 インテリジェントエージェントの領域におけるllmの印象的なパフォーマンスを考える。 llama2-70bを有理脳として,会話に保持される深い論理情報を分析し,感性と合理性のバランスを評価するモデルを用いて,質的共感応答を生成する。 実験により,本手法は自動評価と人的評価の両方において,他の同等の手法よりも優れていることが示された。

Having the ability to empathize is crucial for accurately representing human behavior during conversations. Despite numerous research aim to improve the cognitive capability of models by incorporating external knowledge, there has been limited attention on the sensible and rational expression of the conversation itself, which are crucial components of the cognitive empathy. Guided by self-presentation theory in sociology, we have designed an innovative categorical approach that segregates historical dialogues into sensible and rational sentences and subsequently elucidate the context through the designed attention mechanism. However, the rational information within the conversation is restricted and the external knowledge used in previous methods have limitations of semantic contradiction and narrow vision field. Considering the impressive performance of LLM in the domain of intelligent agent. We employ LLaMA2-70b as a rational brain to analyze the profound logical information maintained in conversations, which assists the model assessing the balance of sensibility and rationality to produce quality empathetic responses. Experimental evaluations demonstrate that our method outperforms other comparable methods on both automatic and human evaluations.
翻訳日:2023-12-18 12:47:56 公開日:2023-12-15
# TigerBot: オープン多言語マルチタスク LLM

TigerBot: An Open Multilingual Multitask LLM ( http://arxiv.org/abs/2312.08688v2 )

ライセンス: Link先を確認
Ye Chen and Wei Cai and Liangmin Wu and Xiaowei Li and Zhanxuan Xin and Cong Fu(参考訳) 我々は7,13,70,180億のパラメータを持つベースモデルとチャットモデルからなる,tigerbotファミリーの大規模言語モデル(llm)のリリースと紹介を行う。 Llama-2とBLOOMをベースとしたモデルを開発し、データ、トレーニングアルゴリズム、インフラストラクチャ、アプリケーションツールの境界をさらに進める。 我々のモデルは、例えばLlama-2のようなSOTAオープンソースモデルよりも有意義なパフォーマンス向上をもたらし、特に英語では6%、中国語では20%向上した。 tigerbot model familyは、主要な学術や産業のベンチマークやリーダーボードでも主要なパフォーマンスを達成している。 私たちは TigerBot が LLM オープンソースコミュニティの急速な進歩のスナップショットにすぎないと考えています。 したがって、私たちのモデルを公開し、私たちのアプローチを報告し、民主化された方法でSOTA LLMを構築し、現実世界のアプリケーションでLLMを使えるようにする追加の段階を施すことで、私たちは喜んでいます。

We release and introduce the TigerBot family of large language models (LLMs), consisting of base and chat models, sized from 7, 13, 70 and 180 billion parameters. We develop our models embarking from Llama-2 and BLOOM, and push the boundary further in data, training algorithm, infrastructure, and application tools. Our models yield meaningful performance gain over SOTA open-source models, e.g., Llama-2, specifically 6% gain in English and 20% gain in Chinese. TigerBot model family also achieves leading performance in major academic and industrial benchmarks and leaderboards. We believe that TigerBot represents just a snapshot of lightning-fast progression in LLM open-source community. Therefore, we are thrilled to give back by publicly releasing our models and reporting our approach behind, with additional emphases on building SOTA LLMs in a democratized way and making LLMs of use in real-world applications.
翻訳日:2023-12-18 12:47:37 公開日:2023-12-15
# cat: 血縁グラフをトリミングするための因果グラフアテンションネットワーク

CAT: A Causally Graph Attention Network for Trimming Heterophilic Graph ( http://arxiv.org/abs/2312.08672v2 )

ライセンス: Link先を確認
Silu He, Qinyao Luo, Xinsha Fu, Ling Zhao, Ronghua Du, Haifeng Li(参考訳) グラフ注意ネットワーク(GAT)に採用されているローカルアテンション誘導メッセージパッシングメカニズム(LAMP)は、グラフ上のより優れたローカルアグリゲーションのために、近隣ノードの重要性を適応的に学習するように設計されている。 しかし、既存のgatsは、類似する隣接ノードの比率が高いと中央ノードの自己着脱が弱くなり、同時に表現空間の類似ノードから中央ノードのずれが生じるため、好血球グラフにおいて有意な識別能力低下に苦しむ。 本稿では, 隣接ノードが生成するこのような効果をディストラクション効果(DE)と呼ぶ。 隣接ノードのdeを推定して弱めるために,cat (trimming heterophilic graph) のための因果グラフアテンションネットワークを提案する。 deを推定するには、deを2つの経路(隣接ノードに割り当てられた注意をグラブし、中央ノードの自己照準を減少させる)で生成するので、deは因果推定の一種であり、干渉データから推定できるdeモデルにトータルエフェクトを使用し、deを弱めるために、deを最も高いdeを持つ隣人を識別し、それを除去します。 我々は提案したCATフレームワークのベースモデルとして3つの代表GATを採用し、3つの異なるサイズのヘテロ親和性データセットに対して実験を行う。 比較実験により、CATは全てのベースGATモデルのノード分類精度を向上させることができることが示された。 アブレーション実験と可視化により、CATによる識別能力の向上がさらに検証された。 ソースコードはhttps://github.com/GeoX-Lab/CATで入手できる。

Local Attention-guided Message Passing Mechanism (LAMP) adopted in Graph Attention Networks (GATs) is designed to adaptively learn the importance of neighboring nodes for better local aggregation on the graph, which can bring the representations of similar neighbors closer effectively, thus showing stronger discrimination ability. However, existing GATs suffer from a significant discrimination ability decline in heterophilic graphs because the high proportion of dissimilar neighbors can weaken the self-attention of the central node, jointly resulting in the deviation of the central node from similar nodes in the representation space. This kind of effect generated by neighboring nodes is called the Distraction Effect (DE) in this paper. To estimate and weaken the DE of neighboring nodes, we propose a Causally graph Attention network for Trimming heterophilic graph (CAT). To estimate the DE, since the DE are generated through two paths (grab the attention assigned to neighbors and reduce the self-attention of the central node), we use Total Effect to model DE, which is a kind of causal estimand and can be estimated from intervened data; To weaken the DE, we identify the neighbors with the highest DE (we call them Distraction Neighbors) and remove them. We adopt three representative GATs as the base model within the proposed CAT framework and conduct experiments on seven heterophilic datasets in three different sizes. Comparative experiments show that CAT can improve the node classification accuracy of all base GAT models. Ablation experiments and visualization further validate the enhancement of discrimination ability brought by CAT. The source code is available at https://github.com/GeoX-Lab/CAT.
翻訳日:2023-12-18 12:47:20 公開日:2023-12-15
# 科学論文の要約を強化するコンテンツプラン付きLCMの試作

Prompting LLMs with content plans to enhance the summarization of scientific articles ( http://arxiv.org/abs/2312.08282v2 )

ライセンス: Link先を確認
Aldan Creo, Manuel Lama, Juan C. Vidal(参考訳) 本稿では,学術論文の自動要約システムの性能向上のための新しいプロンプト技術を提案する。 これらの文書の長さと複雑さのため、科学論文の要約は非常に困難である。 我々は,要約システムのための追加の文脈情報を提供するプロンプト手法を想定し,実装し,評価する。 具体的には、著者キーワードや自動生成キーワードなどの記事から抽出したキーワードのリストを要約する。 本手法は,様々な要約モデルと入力テキストを用いて検証する。 結果,特に分割を個別に要約する小さなモデルでは,性能が向上した。 この証拠は、プロンプトがより強力なシステムの限界を克服するための有望なアプローチであることを示している。 本研究は,小モデル支援にプロンプトを用いた新たな研究方向を提案する。

This paper presents novel prompting techniques to improve the performance of automatic summarization systems for scientific articles. Scientific article summarization is highly challenging due to the length and complexity of these documents. We conceive, implement, and evaluate prompting techniques that provide additional contextual information to guide summarization systems. Specifically, we feed summarizers with lists of key terms extracted from articles, such as author keywords or automatically generated keywords. Our techniques are tested with various summarization models and input texts. Results show performance gains, especially for smaller models summarizing sections separately. This evidences that prompting is a promising approach to overcoming the limitations of less powerful systems. Our findings introduce a new research direction of using prompts to aid smaller models.
翻訳日:2023-12-18 12:46:46 公開日:2023-12-15
# 大規模言語モデルを用いた半構造化Web記事の高スループットバイオメディカルリレーション抽出

High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models ( http://arxiv.org/abs/2312.08274v3 )

ライセンス: Link先を確認
Songchi Zhou, Sheng Yu(参考訳) 目的:大規模言語モデル(llms)の読解能力と生物医学的世界知識をスケーラブルかつ実証的に活用した高スループットな生物医学的関係抽出システムを開発すること。 方法:ChatGPTのような大規模言語モデルの単純なバイナリ分類問題として関係抽出タスクを定式化する。 具体的には、llmは、外部コーパスとその世界知識に基づいて意思決定を行い、事実検証への判断の理由を与える。 本手法は, 主タイトルをテールエンティティとして指定し, コンテキストに明示的に組み込む半構造化 Web 記事に適合し, バイオメディカルシソーラスに基づいて潜在的ヘッドエンティティをマッチングする。 さらに、長い内容はテキストチャンクに分割して埋め込み、追加の埋め込みモデルで検索し、利用可能なオープンソースLCMのコンテキストウィンドウサイズ制約との互換性を確保する。 結果: オープンソースのLCMを用いて, 4つのバイオメディカルウェブサイトから, 3つの異なる関係型の304315の関連トリプレットを抽出した。 バイオメディカルな関係抽出に使用する基本パイプラインの有効性を評価するため,医用専門家がアノテートしたベンチマークデータセットをキュレートした。 評価の結果,パイプラインはGPT-4に匹敵する性能を示した。 半構造化ウェブ記事のバイオメディカルリレーション抽出の文脈において、現代LLMが直面する課題をさらに明らかにするケーススタディ。 結論: 提案手法は, LLMの強度を高出力バイオメディカルな関係抽出に有効であることを示す。 多様な半構造化生物医学ウェブサイトにシームレスに拡張でき、様々な生物医学関係の抽出を容易にするので、適応性は明らかである。

Objective: To develop a high-throughput biomedical relation extraction system that takes advantage of the large language models' (LLMs) reading comprehension ability and biomedical world knowledge in a scalable and evidential manner. Methods: We formulate the relation extraction task as a simple binary classification problem for large language models such as ChatGPT. Specifically, LLMs make the decision based on the external corpus and its world knowledge, giving the reason for the judgment to factual verification. This method is tailored for semi-structured web articles, wherein we designate the main title as the tail entity and explicitly incorporate it into the context, and the potential head entities are matched based on a biomedical thesaurus. Moreover, lengthy contents are sliced into text chunks, embedded, and retrieved with additional embedding models, ensuring compatibility with the context window size constraints of available open-source LLMs. Results: Using an open-source LLM, we extracted 304315 relation triplets of three distinct relation types from four reputable biomedical websites. To assess the efficacy of the basic pipeline employed for biomedical relation extraction, we curated a benchmark dataset annotated by a medical expert. Evaluation results indicate that the pipeline exhibits performance comparable to that of GPT-4. Case studies further illuminate challenges faced by contemporary LLMs in the context of biomedical relation extraction for semi-structured web articles. Conclusion: The proposed method has demonstrated its effectiveness in leveraging the strengths of LLMs for high-throughput biomedical relation extraction. Its adaptability is evident, as it can be seamlessly extended to diverse semi-structured biomedical websites, facilitating the extraction of various types of biomedical relations with ease.
翻訳日:2023-12-18 12:46:36 公開日:2023-12-15
# マルチモーダルアスペクトに基づく感性分析のための新しいエネルギーモデル機構

A Novel Energy based Model Mechanism for Multi-modal Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2312.08084v2 )

ライセンス: Link先を確認
Tianshuo Peng, Zuchao Li, Ping Wang, Lefei Zhang, Hai Zhao(参考訳) マルチモーダル・アスペクトベース感情分析(MABSA)は近年注目を集めている。 fsuieのようなスパンベースの抽出手法は、入力シーケンスとターゲットラベルの結合モデルにより感情分析において強い性能を示す。 しかし、以前の方法にはいくつかの制限がある。 (i)異なる分析対象(アスペクトまたは感情)間の視覚情報の焦点の違いを無視する。 (二)一様エンコーダの機能を組み込むことは、モダルギャップをなくすのに十分ではなく、画像テキストのペア関係を捉えるのに困難を引き起こす可能性がある。 三 既存のMABSAのスパンベース手法は、標的スパン境界の対関係を無視する。 これらの制約に対処するため,マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。 具体的には、プロンプト・アズ・デュアル・クエリ(PDQ)モジュールを視覚的クエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出し、視覚情報と分析対象との相互関係を強化する。 さらに、エネルギーベースモデルの観点から分析対象の境界ペアリングをモデル化したエネルギーベースPairwise Expert (EPE) モジュールを導入する。 この専門家は、ペアの安定性に基づいてアスペクトや感情を予測します。 広く使用されている3つのベンチマークの実験では、DQPSAは従来のアプローチより優れ、新しい最先端のパフォーマンスを実現している。

Multi-modal aspect-based sentiment analysis (MABSA) has recently attracted increasing attention. The span-based extraction methods, such as FSUIE, demonstrate strong performance in sentiment analysis due to their joint modeling of input sequences and target labels. However, previous methods still have certain limitations: (i) They ignore the difference in the focus of visual information between different analysis targets (aspect or sentiment). (ii) Combining features from uni-modal encoders directly may not be sufficient to eliminate the modal gap and can cause difficulties in capturing the image-text pairwise relevance. (iii) Existing span-based methods for MABSA ignore the pairwise relevance of target span boundaries. To tackle these limitations, we propose a novel framework called DQPSA for multi-modal sentiment analysis. Specifically, our model contains a Prompt as Dual Query (PDQ) module that uses the prompt as both a visual query and a language query to extract prompt-aware visual information and strengthen the pairwise relevance between visual information and the analysis target. Additionally, we introduce an Energy-based Pairwise Expert (EPE) module that models the boundaries pairing of the analysis target from the perspective of an Energy-based Model. This expert predicts aspect or sentiment span based on pairwise stability. Experiments on three widely used benchmarks demonstrate that DQPSA outperforms previous approaches and achieves a new state-of-the-art performance.
翻訳日:2023-12-18 12:46:07 公開日:2023-12-15
# 医用画像における細粒度画像-テキストアライメントによる周期的画像レポート生成

Fine-Grained Image-Text Alignment in Medical Imaging Enables Cyclic Image-Report Generation ( http://arxiv.org/abs/2312.08078v3 )

ライセンス: Link先を確認
Wenting Chen, Xiang Li, Linlin Shen, Yixuan Yuan(参考訳) 本稿では,胸部x線(cxr)画像領域を医療報告書中の単語に関連付ける適応パッチワードマッチング(adamatch)モデルを提案し,それをcxrレポート生成に適用し,生成過程の説明可能性を提供する。 AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。 異なるサイズと位置の異常領域をキャプチャするために、適応パッチ抽出(adapatch)モジュールを導入し、これらの領域に対する適応パッチを適応的に取得する。 本稿では,CXR-Report生成タスクの明示的な説明性を提供するために,CXR-Report生成のためのAdaMatchベースの双方向大言語モデルを提案する。 adamatchを使用して、cxrイメージのキーワードを取得し、医療レポートの‘keypatches’を、cxrレポート生成のヒントとして使用する。 利用可能な2つのCXRデータセットに対する大規模な実験により,提案手法の有効性と既存手法よりも優れた性能が証明された。

To address these issues, we propose a novel Adaptive patch-word Matching (AdaMatch) model to correlate chest X-ray (CXR) image regions with words in medical reports and apply it to CXR-report generation to provide explainability for the generation process. AdaMatch exploits the fine-grained relation between adaptive patches and words to provide explanations of specific image regions with corresponding words. To capture the abnormal regions of varying sizes and positions, we introduce the Adaptive Patch extraction (AdaPatch) module to acquire the adaptive patches for these regions adaptively. In order to provide explicit explainability for CXR-report generation task, we propose an AdaMatch-based bidirectional large language model for Cyclic CXR-report generation (AdaMatch-Cyclic). It employs the AdaMatch to obtain the keywords for CXR images and `keypatches' for medical reports as hints to guide CXR-report generation. Extensive experiments on two publicly available CXR datasets prove the effectiveness of our method and its superior performance to existing methods.
翻訳日:2023-12-18 12:45:44 公開日:2023-12-15
# 4次元動的点雲列による意味的完全シーン予測

Semantic Complete Scene Forecasting from a 4D Dynamic Point Cloud Sequence ( http://arxiv.org/abs/2312.08054v2 )

ライセンス: Link先を確認
Zifan Wang, Zhuorui Ye, Haoran Wu, Junyu Chen, Li Yi(参考訳) 本研究では,本研究における意味的完全シーン予測(SCSF)の新たな課題について検討する。 4次元のダイナミックポイントクラウドシーケンスを前提として,将来的な次のフレームに対応するシーンを,セマンティックラベルとともに予測する。 この課題に対処するために、SCSFNetという新しいネットワークを通じて、将来の予測とセマンティックシーン完了の相乗関係を適切にモデル化する。 SCSFNetはハイレゾ完全シーン予測にハイブリッド幾何表現を利用する。 複数フレームの観察とシーンダイナミクスの理解を活用して完了作業を容易にするため、SCSFNetは注意に基づくスキップ接続方式を導入した。 閉塞変動のモデル化を容易にし、閉塞部分に集中するため、SCSFNetは補助的な可視グリッドを使用して予測タスクを誘導する。 SCSFNetの有効性を評価するため、2つの大規模屋内ベンチマークと屋外セマンティックKITTIベンチマークを含む様々なベンチマークで実験を行った。 広範な実験により、scsfnetは複数のメトリクスのベースラインメソッドを大きなマージンで上回り、将来の予測とセマンティックシーンの補完の相乗効果を証明している。

We study a new problem of semantic complete scene forecasting (SCSF) in this work. Given a 4D dynamic point cloud sequence, our goal is to forecast the complete scene corresponding to the future next frame along with its semantic labels. To tackle this challenging problem, we properly model the synergetic relationship between future forecasting and semantic scene completion through a novel network named SCSFNet. SCSFNet leverages a hybrid geometric representation for high-resolution complete scene forecasting. To leverage multi-frame observation as well as the understanding of scene dynamics to ease the completion task, SCSFNet introduces an attention-based skip connection scheme. To ease the need to model occlusion variations and to better focus on the occluded part, SCSFNet utilizes auxiliary visibility grids to guide the forecasting task. To evaluate the effectiveness of SCSFNet, we conduct experiments on various benchmarks including two large-scale indoor benchmarks we contributed and the outdoor SemanticKITTI benchmark. Extensive experiments show SCSFNet outperforms baseline methods on multiple metrics by a large margin, and also prove the synergy between future forecasting and semantic scene completion.
翻訳日:2023-12-18 12:45:23 公開日:2023-12-15
# 安全を守る: 公益におけるAIの整合性をいかに促進するか

Safeguarding the safeguards: How best to promote AI alignment in the public interest ( http://arxiv.org/abs/2312.08039v2 )

ライセンス: Link先を確認
Oliver Guest, Michael Aird, Se\'an \'O h\'Eigeartaigh(参考訳) AIアライメント作業は、商用レンズと安全レンズの両方から重要である。 本稿では,これらの取り組みを可能な限り効果的にするためのアライメント活動を支援する俳優の支援と,潜在的な悪影響を避けることを目的とする。 まず、公共の利益のために活動しようとする機関(政府など)は、事故や誤用リスクを低減させる具体的な調整作業を支援するべきであると提案する。 次に、アライメントの取り組みが非生産的になり、大規模なAIリスクが増大する可能性のある4つの問題を述べる。 各問題に対する緩和策を提案する。 最後に、公共の利益のために行動しようとする機関は、自分たちの協調努力を可能な限り効果的かつ有益にする方法を体系的に考えるべきだという幅広い勧告を行ないます。

AI alignment work is important from both a commercial and a safety lens. With this paper, we aim to help actors who support alignment efforts to make these efforts as effective as possible, and to avoid potential adverse effects. We begin by suggesting that institutions that are trying to act in the public interest (such as governments) should aim to support specifically alignment work that reduces accident or misuse risks. We then describe four problems which might cause alignment efforts to be counterproductive, increasing large-scale AI risks. We suggest mitigations for each problem. Finally, we make a broader recommendation that institutions trying to act in the public interest should think systematically about how to make their alignment efforts as effective, and as likely to be beneficial, as possible.
翻訳日:2023-12-18 12:45:03 公開日:2023-12-15
# 仮想道路シーンにおけるオブジェクトインタラクションの効率的な生成のための自然言語駆動シミュレーションベンチマークとコパイロット

Natural-language-driven Simulation Benchmark and Copilot for Efficient Production of Object Interactions in Virtual Road Scenes ( http://arxiv.org/abs/2312.04008v4 )

ライセンス: Link先を確認
Kairui Yang, Zihao Guo, Gengjie Lin, Haotian Dong, Die Zuo, Jibin Peng, Zhao Huang, Zhecheng Xu, Fupeng Li, Ziyun Bai, Di Lin(参考訳) 自然言語駆動(nld)シミュレーションのアイデアを提唱し、仮想道路シーンにおける複数の物体間のオブジェクトインタラクションを効率的に生成し、予測不能な動きを伴う障害物との衝突を避けるために素早く行動すべき自律運転システムを指導し、テストする。 NLDシミュレーションにより、簡単な自然言語記述でオブジェクトの相互作用を制御でき、大量の対話データを作成するための人間の労力を大幅に削減できる。 NLDシミュレーションの研究を容易にするため、6種類の道路トポロジで12万の自然言語によるオブジェクトの相互作用を記述したL2Iベンチマークデータセットを収集した。 各記述はプログラムコードに関連付けられ、グラフィックレンダリングは仮想シーンのオブジェクトインタラクションを視覚的に再構築するために使用できる。 方法論的なコントリビューションとして,対話記述をレンダリング可能なコードに変換するためにSimCopilotを設計する。 我々はL2Iデータセットを用いて、SimCopilotの能力を評価し、オブジェクトの動きを制御し、複雑な相互作用を生成し、道路トポロジ間の相互作用を一般化する。 L2Iデータセットと評価結果はNLDシミュレーションの関連研究を動機付けている。

We advocate the idea of the natural-language-driven(NLD) simulation to efficiently produce the object interactions between multiple objects in the virtual road scenes, for teaching and testing the autonomous driving systems that should take quick action to avoid collision with obstacles with unpredictable motions. The NLD simulation allows the brief natural-language description to control the object interactions, significantly reducing the human efforts for creating a large amount of interaction data. To facilitate the research of NLD simulation, we collect the Language-to-Interaction(L2I) benchmark dataset with 120,000 natural-language descriptions of object interactions in 6 common types of road topologies. Each description is associated with the programming code, which the graphic render can use to visually reconstruct the object interactions in the virtual scenes. As a methodology contribution, we design SimCopilot to translate the interaction descriptions to the renderable code. We use the L2I dataset to evaluate SimCopilot's abilities to control the object motions, generate complex interactions, and generalize interactions across road topologies. The L2I dataset and the evaluation results motivate the relevant research of the NLD simulation.
翻訳日:2023-12-18 12:44:49 公開日:2023-12-15
# HGPROMPT:Few-shot Prompt Learningのための均質グラフと不均質グラフ

HGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning ( http://arxiv.org/abs/2312.01878v4 )

ライセンス: Link先を確認
Xingtong Yu, Yuan Fang, Zemin Liu, Xinming Zhang(参考訳) グラフニューラルネットワーク(GNN)とヘテロジニアスグラフニューラルネットワーク(HGNN)は、同質で異質なグラフ表現学習において顕著なテクニックであるが、エンドツーエンドの監視フレームワークにおけるパフォーマンスは、タスク固有の監視の可用性に大きく依存している。 ラベル付けコストを削減するため、自己教師付きプレテキストタスクの事前学習は一般的なパラダイムとなっているが、事前訓練されたモデルと下流タスクの間には、目的の相違から生じるギャップがしばしばある。 ギャップを埋めるために、特に数ショット設定では、事前訓練されたモデルを完全に微調整することなく、迅速な学習が有望な方向として上昇している。 グラフ上でのプロンプトベースの学習に関する初期の研究はあったが、主に同質グラフを扱っており、下流のアプリケーションでよく見られる不均一グラフを無視している。 本稿では,HGPROMPTを提案する。HGPROMPTは,事前学習タスクと下流タスクだけでなく,二重テンプレート設計による均質かつ異質なグラフを統一する新しい学習促進フレームワークである。 さらに,hgpromptのデュアルプロンプトを提案することで,特徴のばらつきだけでなく,タスク間の異種性の違いによって引き起こされるギャップを橋渡しする前に,下流タスクが最も重要視されるよう支援する。 最後に,HGPROMPTを3つの公開データセットの広範な実験により徹底的に評価・解析する。

Graph neural networks (GNNs) and heterogeneous graph neural networks (HGNNs) are prominent techniques for homogeneous and heterogeneous graph representation learning, yet their performance in an end-to-end supervised framework greatly depends on the availability of task-specific supervision. To reduce the labeling cost, pre-training on self-supervised pretext tasks has become a popular paradigm,but there is often a gap between the pre-trained model and downstream tasks, stemming from the divergence in their objectives. To bridge the gap, prompt learning has risen as a promising direction especially in few-shot settings, without the need to fully fine-tune the pre-trained model. While there has been some early exploration of prompt-based learning on graphs, they primarily deal with homogeneous graphs, ignoring the heterogeneous graphs that are prevalent in downstream applications. In this paper, we propose HGPROMPT, a novel pre-training and prompting framework to unify not only pre-training and downstream tasks but also homogeneous and heterogeneous graphs via a dual-template design. Moreover, we propose dual-prompt in HGPROMPT to assist a downstream task in locating the most relevant prior to bridge the gaps caused by not only feature variations but also heterogeneity differences across tasks. Finally, we thoroughly evaluate and analyze HGPROMPT through extensive experiments on three public datasets.
翻訳日:2023-12-18 12:44:26 公開日:2023-12-15
# 効率的な拡散モデルのための欠失 u

The Missing U for Efficient Diffusion Models ( http://arxiv.org/abs/2310.20092v3 )

ライセンス: Link先を確認
Sergio Calvo-Ordonez, Chun-Wun Cheng, Jiahao Huang, Lipei Zhang, Guang Yang, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero(参考訳) 拡散確率モデルは生成モデリングにおいて重要なツールであり、複雑なデータ分布の生成を可能にする。 この生成モデル群は、画像合成、ビデオ生成、分子設計などのタスクにおいて記録的な性能をもたらす。 それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。 本稿では,よりパラメータ効率が高く,コンバージェンスが高速で,雑音のロバスト性が増大する拡散モデルに対して,連続力学系を応用し,新しいデノージングネットワークを設計する手法を提案する。 DDPM(Denoising Diffusion Probabilistic Models)を用いた実験では,約4分の1のパラメータと,DDPMの標準U-Netに比べてFLOP(Floating Point Operations)の$\sim$30\%で動作する。 さらに, このモデルでは, 等条件で測定した場合, ベースラインよりも推定が早い。 また,提案した逆過程が高速である理由に関する数学的直観や,下流タスクにおける経験的トレードオフに関する数学的議論も提供する。 最後に,本手法は既存の性能向上技術と互換性があり,効率,品質,速度のさらなる向上を可能にすると論じる。

Diffusion Probabilistic Models stand as a critical tool in generative modelling, enabling the generation of complex data distributions. This family of generative models yields record-breaking performance in tasks such as image synthesis, video generation, and molecule design. Despite their capabilities, their efficiency, especially in the reverse process, remains a challenge due to slow convergence rates and high computational costs. In this paper, we introduce an approach that leverages continuous dynamical systems to design a novel denoising network for diffusion models that is more parameter-efficient, exhibits faster convergence, and demonstrates increased noise robustness. Experimenting with Denoising Diffusion Probabilistic Models (DDPMs), our framework operates with approximately a quarter of the parameters, and $\sim$ 30\% of the Floating Point Operations (FLOPs) compared to standard U-Nets in DDPMs. Furthermore, our model is notably faster in inference than the baseline when measured in fair and equal conditions. We also provide a mathematical intuition as to why our proposed reverse process is faster as well as a mathematical discussion of the empirical tradeoffs in the denoising downstream task. Finally, we argue that our method is compatible with existing performance enhancement techniques, enabling further improvements in efficiency, quality, and speed.
翻訳日:2023-12-18 12:43:58 公開日:2023-12-15
# 水中画像強調のための固有スーパービジョンによる相乗的マルチスケールディテール微細化

Synergistic Multiscale Detail Refinement via Intrinsic Supervision for Underwater Image Enhancement ( http://arxiv.org/abs/2308.11932v3 )

ライセンス: Link先を確認
Dehuan Zhang, Jingchun Zhou, ChunLe Guo, Weishi Zhang, Chongyi Li(参考訳) 視覚的な水中のシーンは、主に水中メディアからの干渉を緩和する。 既存の手法は水中のシーンに固有のスケール関連特性を無視する。 そこで本研究では,複数ステージを含む水中シーンの細部を拡張すべく,内在的監督(smdr-is)による相乗的多スケール詳細化を提案する。 原画像からの低分解段階は、Adaptive Selective Intrinsic Supervised Feature (ASISF)モジュールを使用して特徴伝搬によって達成された、複数のスケールの詳細を原ステージに付与する。 ASISFモジュールは、内在的な監視を用いることで、多段劣化段階における特徴伝達を正確に制御し、誘導し、マルチスケールの細部改善を強化し、低劣化段階における無関係情報からの干渉を最小限にする。 SMDR-ISのマルチデグレーションエンコーダ・デコーダ・フレームワークにおいて,BICA(Bifocal Intrinsic-Context Attention Module)を導入する。 BICAは、本質的な監督原理に基づいて、画像内のマルチスケールシーン情報を効率的に活用する。 BICAは高解像度空間を低解像度空間の洞察に触発し、水中画像復元における空間的文脈関係の重要な役割を浮き彫りにする。 トレーニングを通じて、多変量損失関数が組み込まれれば、ネットワークが強化され、多様なスケールで情報を取り出すことができる。 最先端の手法に対してベンチマークすると、SMDR-ISは一貫して優れた性能を示す。 コードは、https://github.com/zhoujingchun03/SMDR-ISで公開されている。

Visually restoring underwater scenes primarily involves mitigating interference from underwater media. Existing methods ignore the inherent scale-related characteristics in underwater scenes. Therefore, we present the synergistic multi-scale detail refinement via intrinsic supervision (SMDR-IS) for enhancing underwater scene details, which contain multi-stages. The low-degradation stage from the original images furnishes the original stage with multi-scale details, achieved through feature propagation using the Adaptive Selective Intrinsic Supervised Feature (ASISF) module. By using intrinsic supervision, the ASISF module can precisely control and guide feature transmission across multi-degradation stages, enhancing multi-scale detail refinement and minimizing the interference from irrelevant information in the low-degradation stage. In multi-degradation encoder-decoder framework of SMDR-IS, we introduce the Bifocal Intrinsic-Context Attention Module (BICA). Based on the intrinsic supervision principles, BICA efficiently exploits multi-scale scene information in images. BICA directs higher-resolution spaces by tapping into the insights of lower-resolution ones, underscoring the pivotal role of spatial contextual relationships in underwater image restoration. Throughout training, the inclusion of a multi-degradation loss function can enhance the network, allowing it to adeptly extract information across diverse scales. When benchmarked against state-of-the-art methods, SMDR-IS consistently showcases superior performance. The code is publicly available at: https://github.com/zhoujingchun03/SMDR-IS.
翻訳日:2023-12-18 12:43:35 公開日:2023-12-15
# 3DGS-アバター:変形可能な3Dガウススプレイティングによるアニマタブルアバター

3DGS-Avatar: Animatable Avatars via Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2312.09228v2 )

ライセンス: Link先を確認
Zhiyin Qian, Shaofei Wang, Marko Mihajlovic, Andreas Geiger and Siyu Tang(参考訳) モノクロビデオからアニマタブルな人間のアバターを3Dガウススプラッティング(3DGS)を用いて生成する手法を提案する。 ニューラルレイディアンス場(NeRF)に基づく既存の手法は、高品質なノベルビュー/ノーベル目的画像合成を実現するが、しばしばトレーニングの日数を必要とし、推論時に非常に遅い。 近年,布地アバターの効率的な訓練のための高速グリッド構造が検討されている。 トレーニングは非常に高速だが、これらの手法は15fpsのインタラクティブなレンダリングフレームレートをほとんど達成できない。 本稿では,3次元ガウス型スプレートを用いて非剛性変形ネットワークを学習し,30分以内で訓練でき,リアルタイムフレームレート(50fps)でレンダリングできるアバターを再現する。 表現の明示的な性質を考えると、ガウス平均ベクトルと共分散行列の両面に等距離可測正規化を導入し、高度に調音された未知のポーズに対する我々のモデルの一般化を強化する。 実験結果から,本手法は単分子入力によるアニマタブルアバター生成に対する最先端手法と比較して,それぞれ400倍,250倍の高速化を実現していることがわかった。

We introduce an approach that creates animatable human avatars from monocular videos using 3D Gaussian Splatting (3DGS). Existing methods based on neural radiance fields (NeRFs) achieve high-quality novel-view/novel-pose image synthesis but often require days of training, and are extremely slow at inference time. Recently, the community has explored fast grid structures for efficient training of clothed avatars. Albeit being extremely fast at training, these methods can barely achieve an interactive rendering frame rate with around 15 FPS. In this paper, we use 3D Gaussian Splatting and learn a non-rigid deformation network to reconstruct animatable clothed human avatars that can be trained within 30 minutes and rendered at real-time frame rates (50+ FPS). Given the explicit nature of our representation, we further introduce as-isometric-as-possible regularizations on both the Gaussian mean vectors and the covariance matrices, enhancing the generalization of our model on highly articulated unseen poses. Experimental results show that our method achieves comparable and even better performance compared to state-of-the-art approaches on animatable avatar creation from a monocular input, while being 400x and 250x faster in training and inference, respectively.
翻訳日:2023-12-18 12:38:16 公開日:2023-12-15
# 言語モデルの低精度微調整における外部アクティベーションの緩和

Mitigating Outlier Activations in Low-Precision Fine-Tuning of Language Models ( http://arxiv.org/abs/2312.09211v2 )

ライセンス: Link先を確認
Alireza Ghaffari, Justin Yu, Mahsa Ghazvini Nejad, Masoud Asgharian, Boxing Chen, Vahid Partovi Nia(参考訳) 大規模モデルを様々なアプリケーションに展開するためのコスト効率とエネルギー効率のアプローチとして,低精度な言語モデルの微調整が注目されている。 しかし、このアプローチはアクティベーションにおける外れ値の存在に影響を受けやすい。 アクティベーションにおける外れ値が、スケーリング係数に影響を及ぼすため、低精度システムにおける微調整言語モデルの性能に悪影響を及ぼし、より小さな値を表現することが難しくなる。 本稿では,言語モデルの低精度整数微調整において,外れ値の活性化を緩和する手法について検討する。 提案手法により,浮動小数点値 (fp16) の代わりに8ビット整数の外れ値を表すことができる。 外れ値に整数を用いる利点は、演算子タイリングを使って16ビット整数行列の乗算を回避し、この問題を効果的に解決できる点である。 我々は,低精度の微調整言語モデルの堅牢性と性能を向上させるための手法の有効性を理論的解析および支援実験で実証する。

Low-precision fine-tuning of language models has gained prominence as a cost-effective and energy-efficient approach to deploying large-scale models in various applications. However, this approach is susceptible to the existence of outlier values in activation. The outlier values in the activation can negatively affect the performance of fine-tuning language models in the low-precision regime since they affect the scaling factor and thus make representing smaller values harder. This paper investigates techniques for mitigating outlier activation in low-precision integer fine-tuning of the language models. Our proposed novel approach enables us to represent the outlier activation values in 8-bit integers instead of floating-point (FP16) values. The benefit of using integers for outlier values is that it enables us to use operator tiling to avoid performing 16-bit integer matrix multiplication to address this problem effectively. We provide theoretical analysis and supporting experiments to demonstrate the effectiveness of our approach in improving the robustness and performance of low-precision fine-tuned language models.
翻訳日:2023-12-18 12:37:50 公開日:2023-12-15
# CP-Netを用いた参照集約のための近似アルゴリズム

Approximation Algorithms for Preference Aggregation Using CP-Nets ( http://arxiv.org/abs/2312.09162v2 )

ライセンス: Link先を確認
Abu Mohammmad Hammad Ali, Boting Yang, Sandra Zilles(参考訳) 本稿では,コンディショナル・プライス・ネットワーク(CP-nets)を用いて,組合せ領域を優先する近似アルゴリズムの設計と解析を行う。 その焦点は、いわゆる \emph{swaps} に対する選好を集約することであり、そこでは一般に最適解は既に指数的大きさであることが知られている。 まず,与えられた入力選好の最大値を単純に出力する自明な2近似アルゴリズムを解析し,このアルゴリズムの近似比を4/3$に改善する構造条件を定式化する。 次に,提案する多項式時間近似アルゴリズムにより,出力は自明なアルゴリズムよりも確実に悪いが,より優れている。 改良されたアルゴリズムが最適解を生成する問題インスタンス群を提示する一方、任意の$\varepsilon$に対して、自明なアルゴリズム can\emph{not}\/ は$(2-\varepsilon)$-approximation を達成する。 これらの結果は、近似比が2ドル以上のスワップに対するCP-net集約問題を解く最初の多項式時間近似アルゴリズムにつながるかもしれない。

This paper studies the design and analysis of approximation algorithms for aggregating preferences over combinatorial domains, represented using Conditional Preference Networks (CP-nets). Its focus is on aggregating preferences over so-called \emph{swaps}, for which optimal solutions in general are already known to be of exponential size. We first analyze a trivial 2-approximation algorithm that simply outputs the best of the given input preferences, and establish a structural condition under which the approximation ratio of this algorithm is improved to $4/3$. We then propose a polynomial-time approximation algorithm whose outputs are provably no worse than those of the trivial algorithm, but often substantially better. A family of problem instances is presented for which our improved algorithm produces optimal solutions, while, for any $\varepsilon$, the trivial algorithm can\emph{not}\/ attain a $(2-\varepsilon)$-approximation. These results may lead to the first polynomial-time approximation algorithm that solves the CP-net aggregation problem for swaps with an approximation ratio substantially better than $2$.
翻訳日:2023-12-18 12:37:32 公開日:2023-12-15
# コミュニケーション効率のよい連合学習のための欲深いシャプリークライアント選択

Greedy Shapley Client Selection for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2312.09108v2 )

ライセンス: Link先を確認
Pranava Singhal, Shashi Raj Pandey, Petar Popovski(参考訳) フェデレートラーニング(FL)の標準的なクライアント選択アルゴリズムは、しばしばバイアスがなく、クライアントのランダムなサンプリングを含む。 これは、クライアント間でのデータ分散、コンピューティング、および通信リソースが著しく異質であることに特徴付けられる、実用的な環境での高速収束に最適であることが証明されている。 パラメータサーバ(PS)との通信機会の制限によるタイミング制約のあるアプリケーションでは、クライアントの選択戦略は、固定された通信ラウンドの予算内でモデルトレーニングを完了させる上で重要である。 この問題に対処するため、各通信ラウンドで最も貢献するクライアントを特定し、優しく選択する、バイアスのあるクライアント選択戦略であるGreedyFedを開発した。 この手法はPSにおけるShapley Valueの高速近似アルゴリズムに基づいており、多くのクライアントを持つ現実世界のアプリケーションで計算が計算可能である。 複数の実世界のデータセット上のさまざまなクライアント選択戦略と比較して、GreedyFedは、タイミング制約下での高速で安定した収束と、データ分散、システム制約、プライバシ要件の高度な不均一性を示唆している。

The standard client selection algorithms for Federated Learning (FL) are often unbiased and involve uniform random sampling of clients. This has been proven sub-optimal for fast convergence under practical settings characterized by significant heterogeneity in data distribution, computing, and communication resources across clients. For applications having timing constraints due to limited communication opportunities with the parameter server (PS), the client selection strategy is critical to complete model training within the fixed budget of communication rounds. To address this, we develop a biased client selection strategy, GreedyFed, that identifies and greedily selects the most contributing clients in each communication round. This method builds on a fast approximation algorithm for the Shapley Value at the PS, making the computation tractable for real-world applications with many clients. Compared to various client selection strategies on several real-world datasets, GreedyFed demonstrates fast and stable convergence with high accuracy under timing constraints and when imposing a higher degree of heterogeneity in data distribution, systems constraints, and privacy requirements.
翻訳日:2023-12-18 12:37:12 公開日:2023-12-15
# ColNeRF: 一般化可能なスパース入力ニューラルラジアンス場のためのコラボレーション

ColNeRF: Collaboration for Generalizable Sparse Input Neural Radiance Field ( http://arxiv.org/abs/2312.09095v2 )

ライセンス: Link先を確認
Zhangkai Ni, Peiqi Yang, Wenhan Yang, Hanli Wang, Lin Ma, Sam Kwong(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、高密度入力から新しいビューを合成する素晴らしい可能性を示しているが、その効果はスパース入力を扱う際には困難である。 追加の深みや意味的な監督を含む既存のアプローチは、この問題をある程度緩和することができる。 しかし、監視収集のプロセスはコストがかかるだけでなく、潜在的に不正確であり、様々なシナリオにおけるパフォーマンスと一般化能力の低下につながる。 本研究では,スパース入力で動作するように設計されたColNeRF(Collaborative Neural Radiance Fields)という新しいモデルを紹介する。 ColNeRFにおける協調には、スパース入力画像間の協調と、神経放射場の出力間の協調の両方が含まれる。 そこで我々は,様々な視点からの情報の整合化と,幾何学的・外観的整合性を確保するための自己監督的制約を課する,新しい協調モジュールを構築した。 複雑な咬合を捉え、暗黙的に物体の空間的位置を推測するために、ccvi(collaborative cross-view volume integration module)が提案されている。 さらに、隣接領域における幾何的および色調の整合性を確保するため、複数の方向を投影する目標線を自己監督する。 ColNeRFは、入力および出力終了時の協調によって、よりリッチでより一般化されたシーン表現をキャプチャし、新しいビュー合成の高品質な結果を容易にする。 大規模な実験により、ColNeRFは最先端のスパース入力一般化可能なNeRF法より優れていた。 さらに,本手法は,計算コストを著しく削減しつつ,シーンごとの最適化したnrf法と比較して,新たなシーンへの適応に向けた微調整において優れた性能を示す。 私たちのコードは、https://github.com/eezkni/ColNeRF.comで利用可能です。

Neural Radiance Fields (NeRF) have demonstrated impressive potential in synthesizing novel views from dense input, however, their effectiveness is challenged when dealing with sparse input. Existing approaches that incorporate additional depth or semantic supervision can alleviate this issue to an extent. However, the process of supervision collection is not only costly but also potentially inaccurate, leading to poor performance and generalization ability in diverse scenarios. In our work, we introduce a novel model: the Collaborative Neural Radiance Fields (ColNeRF) designed to work with sparse input. The collaboration in ColNeRF includes both the cooperation between sparse input images and the cooperation between the output of the neural radiation field. Through this, we construct a novel collaborative module that aligns information from various views and meanwhile imposes self-supervised constraints to ensure multi-view consistency in both geometry and appearance. A Collaborative Cross-View Volume Integration module (CCVI) is proposed to capture complex occlusions and implicitly infer the spatial location of objects. Moreover, we introduce self-supervision of target rays projected in multiple directions to ensure geometric and color consistency in adjacent regions. Benefiting from the collaboration at the input and output ends, ColNeRF is capable of capturing richer and more generalized scene representation, thereby facilitating higher-quality results of the novel view synthesis. Extensive experiments demonstrate that ColNeRF outperforms state-of-the-art sparse input generalizable NeRF methods. Furthermore, our approach exhibits superiority in fine-tuning towards adapting to new scenes, achieving competitive performance compared to per-scene optimized NeRF-based methods while significantly reducing computational costs. Our code is available at: https://github.com/eezkni/ColNeRF.
翻訳日:2023-12-18 12:36:36 公開日:2023-12-15
# Aleth-NeRF:電場推定による照度適応型NeRF

Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption ( http://arxiv.org/abs/2312.09093v2 )

ライセンス: Link先を確認
Ziteng Cui, Lin Gu, Xiao Sun, Xianzheng Ma, Yu Qiao, Tatsuya Harada(参考訳) 標準的なニューラル・ラジアンス・フィールド(nerf)パラダイムは、照明と物質反射の側面を3dポイントのみから放出するビューア中心の方法論を採用している。 この簡易なレンダリングアプローチは、低照度や過剰露光といった悪照明条件下で撮影された画像を正確にモデル化する際の課題を示す。 眼から放射される光の結果として視覚知覚を仮定する古代ギリシアの放射理論に動機づけられ、従来のnerfフレームワークをわずかに洗練し、挑戦的な光条件下でnerfを訓練し、教師なしのノーマル・ライト条件の斬新なビューを生成する。 照明効果を考慮し,周囲の空気に透過値を割り当てる「コンセリングフィールド」の概念を導入する。 暗いシナリオでは、オブジェクトの排出は標準的な照明レベルを維持するが、レンダリングプロセス中に空気を横切ると減衰する、と仮定する。 コンセリングフィールドは、暗く照らされた状況でも、NeRFに適切な密度と色の推定を学ばせるように強制する。 同様に、隠蔽フィールドはレンダリング段階で過剰に放出される排出を緩和することができる。 さらに,評価に難渋する照明条件下での総合的な多視点データセットを提案する。 私たちのコードとデータセットはhttps://github.com/cuiziteng/aleth-nerfで利用可能です。

The standard Neural Radiance Fields (NeRF) paradigm employs a viewer-centered methodology, entangling the aspects of illumination and material reflectance into emission solely from 3D points. This simplified rendering approach presents challenges in accurately modeling images captured under adverse lighting conditions, such as low light or over-exposure. Motivated by the ancient Greek emission theory that posits visual perception as a result of rays emanating from the eyes, we slightly refine the conventional NeRF framework to train NeRF under challenging light conditions and generate normal-light condition novel views unsupervised. We introduce the concept of a "Concealing Field," which assigns transmittance values to the surrounding air to account for illumination effects. In dark scenarios, we assume that object emissions maintain a standard lighting level but are attenuated as they traverse the air during the rendering process. Concealing Field thus compel NeRF to learn reasonable density and colour estimations for objects even in dimly lit situations. Similarly, the Concealing Field can mitigate over-exposed emissions during the rendering stage. Furthermore, we present a comprehensive multi-view dataset captured under challenging illumination conditions for evaluation. Our code and dataset available at https://github.com/cuiziteng/Aleth-NeRF
翻訳日:2023-12-18 12:35:32 公開日:2023-12-15
# ProSGNeRF: 都市景観における周波数変調オートエンコーダを用いたプログレッシブ・ニューラルシーングラフ

ProSGNeRF: Progressive Dynamic Neural Scene Graph with Frequency Modulated Auto-Encoder in Urban Scenes ( http://arxiv.org/abs/2312.09076v2 )

ライセンス: Link先を確認
Tianchen Deng, Siyang Liu, Xuan Wang, Yejia Liu, Danwei Wang, Weidong Chen(参考訳) 暗黙の神経表現は、大きく複雑なシーンのビュー合成において有望な結果を示している。 しかし、既存のアプローチでは、高速に動くオブジェクトをキャプチャできないか、カメラのエゴモーションなしでシーングラフを構築する必要があるため、シーンの低品質な合成ビューに繋がる。 我々は,より実用的で困難な大規模都市景観と高速移動車両の視点合成問題を共同で解決することを目指している。 この目的のために、まずグラフ構造を利用して、動的オブジェクトと背景の局所的なシーン表現を学習する。 そして,時間的ウィンドウ内でフレームで訓練された新しいローカルシーングラフを動的に割り当てるプログレッシブ・スキームを設計し,任意の大きさのシーンに表現を拡大する。 また,都市景観のトレーニング視点は比較的疎いため,動的物体の復元精度は著しく低下する。 そこで我々は,動的オブジェクトの表現を強化し,スパース画像入力問題に対処するために,潜在コードを符号化し,オブジェクトの周波数範囲を定式化する周波数自動エンコーダネットワークを設計した。 さらに,大規模都市景観における幾何整合性を維持するためにライダー・ポイント・プロジェクションを用いる。 実験により,本手法は現状のビュー合成精度,オブジェクト操作,シーンローミング能力を実現していることが示された。 コードは、紙が受け入れられるとオープンソースになる。

Implicit neural representation has demonstrated promising results in view synthesis for large and complex scenes. However, existing approaches either fail to capture the fast-moving objects or need to build the scene graph without camera ego-motions, leading to low-quality synthesized views of the scene. We aim to jointly solve the view synthesis problem of large-scale urban scenes and fast-moving vehicles, which is more practical and challenging. To this end, we first leverage a graph structure to learn the local scene representations of dynamic objects and the background. Then, we design a progressive scheme that dynamically allocates a new local scene graph trained with frames within a temporal window, allowing us to scale up the representation to an arbitrarily large scene. Besides, the training views of urban scenes are relatively sparse, which leads to a significant decline in reconstruction accuracy for dynamic objects. Therefore, we design a frequency auto-encoder network to encode the latent code and regularize the frequency range of objects, which can enhance the representation of dynamic objects and address the issue of sparse image inputs. Additionally, we employ lidar point projection to maintain geometry consistency in large-scale urban scenes. Experimental results demonstrate that our method achieves state-of-the-art view synthesis accuracy, object manipulation, and scene roaming ability. The code will be open-sourced upon paper acceptance.
翻訳日:2023-12-18 12:35:08 公開日:2023-12-15
# 英国道路における車両型死亡者のlstmネットワーク解析

LSTM Network Analysis of Vehicle-Type Fatalities on Great Britain's Roads ( http://arxiv.org/abs/2312.08948v2 )

ライセンス: Link先を確認
Abiodun Finbarrs Oketunji, James Hanify, Salter Heffron-Smith(参考訳) 本研究は、長期短期記憶(lstm)ネットワークの予測能力を利用して、イギリスにおける交通事故の分析と予測を行う。 効果的な予防策を考案する上で最重要となる交通事故予測の課題に対処している。 運輸省(DfT)が1926年から2022年まで実施した事故,損害,車両の関与に関する広範なデータセットを利用した。 データは、欠落した値を修正し、特徴を正規化し、堅牢なLSTMネットワーク入力を保証するために、厳密な処理が行われた。

This study harnesses the predictive capabilities of Long Short-Term Memory (LSTM) networks to analyse and predict road traffic accidents in Great Britain. It addresses the challenge of traffic accident forecasting, which is paramount for devising effective preventive measures. We utilised an extensive dataset encompassing reported collisions, casualties, and vehicles involvements from 1926 to 2022, provided by the Department for Transport (DfT). The data underwent stringent processing to rectify missing values and normalise features, ensuring robust LSTM network input.
翻訳日:2023-12-18 12:34:23 公開日:2023-12-15
# 次は何だ? ベクトル場の離散観測によるハミルトンダイナミクスの予測

What's Next? Predicting Hamiltonian Dynamics from Discrete Observations of a Vector Field ( http://arxiv.org/abs/2312.08944v2 )

ライセンス: Link先を確認
Zi-Yu Khoo, Delong Zhang, St\'ephane Bressan(参考訳) ベクトル場の離散的観測からハミルトニアン系のダイナミクスを予測するいくつかの方法を提案する。 各メソッドは、ハミルトニアンプロパティのインフォームドまたはアンフォームのいずれかである。 提案手法を実証的かつ相対的に評価し,システムがハミルトニアンであるという情報を効果的に把握し,異なる手法が異なる力学系に対する効率性と有効性の間のトレードオフを犯すことを観察する。

We present several methods for predicting the dynamics of Hamiltonian systems from discrete observations of their vector field. Each method is either informed or uninformed of the Hamiltonian property. We empirically and comparatively evaluate the methods and observe that information that the system is Hamiltonian can be effectively informed, and that different methods strike different trade-offs between efficiency and effectiveness for different dynamical systems.
翻訳日:2023-12-18 12:34:12 公開日:2023-12-15
# シンボリック音楽理解のためのN-Gram無教師複合と特徴注入

N-Gram Unsupervised Compoundation and Feature Injection for Better Symbolic Music Understanding ( http://arxiv.org/abs/2312.08931v2 )

ライセンス: Link先を確認
Jinhao Tian, Zuchao Li, Jiajia Li, Ping Wang(参考訳) シンボリック音楽理解にディープラーニング技術を適用する最初のステップは、音楽作品(主にmidi形式)を音符ピッチ、音速、和音などの予め定義されたトークン列に変換することである。 その後、シーケンスは特定のタスクを達成するために神経シーケンスモデルに供給される。 音楽系列は隣接要素間の強い相関関係を示し、自然言語処理(NLP)のN-gram技術の主要な候補となる。 クラシックピアノ音楽を考える:特定の旋律は曲全体にわたって繰り返され、毎回微妙な変化がある。 本稿では,N-gramアプローチを利用したシンボリック音楽系列の理解のためのNG-Midiformerを提案する。 提案手法では,提案する非教師なし複合化法を用いて楽曲をワード状系列に処理し,n-gram変換エンコーダを用いてn-gram情報を有効活用し,一次エンコーダ部を強化し,楽曲列の理解を深める。 大規模音楽データセットの事前学習プロセスにより、モデルが楽曲シーケンスに含まれるn-gram情報を徹底的に学習し、その後、微調整段階で推論を行うためにこの情報を適用することができる。 様々なデータセットを用いた実験により,下流の一連の音楽理解課題において,提案手法の有効性を実証し,最先端のパフォーマンスを達成した。 コードとモデルの重み付けはhttps://github.com/CinqueOrigin/NG-Midiformer.comで公開される。

The first step to apply deep learning techniques for symbolic music understanding is to transform musical pieces (mainly in MIDI format) into sequences of predefined tokens like note pitch, note velocity, and chords. Subsequently, the sequences are fed into a neural sequence model to accomplish specific tasks. Music sequences exhibit strong correlations between adjacent elements, making them prime candidates for N-gram techniques from Natural Language Processing (NLP). Consider classical piano music: specific melodies might recur throughout a piece, with subtle variations each time. In this paper, we propose a novel method, NG-Midiformer, for understanding symbolic music sequences that leverages the N-gram approach. Our method involves first processing music pieces into word-like sequences with our proposed unsupervised compoundation, followed by using our N-gram Transformer encoder, which can effectively incorporate N-gram information to enhance the primary encoder part for better understanding of music sequences. The pre-training process on large-scale music datasets enables the model to thoroughly learn the N-gram information contained within music sequences, and subsequently apply this information for making inferences during the fine-tuning stage. Experiment on various datasets demonstrate the effectiveness of our method and achieved state-of-the-art performance on a series of music understanding downstream tasks. The code and model weights will be released at https://github.com/CinqueOrigin/NG-Midiformer.
翻訳日:2023-12-18 12:34:03 公開日:2023-12-15
# speedupnet:テキストから画像への拡散を高速化するプラグイン・アンド・プレイハイパーネットワーク

SpeedUpNet: A Plug-and-Play Hyper-Network for Accelerating Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.08887v2 )

ライセンス: Link先を確認
Weilong Chai, DanDan Zheng, Jiajiong Cao, Zhiquan Chen, Changbao Wang, Chenguang Ma(参考訳) テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で大きな進歩を示す。 多くの加速法が提案されているが、それらは新しい微調整モデルに一般化した生成品質劣化や余分な訓練コストに悩まされている。 これらの制約に対処するため,我々はSpeedUpNet(SUN)と呼ばれる,新奇で普遍的なSDアクセラレーションモジュールを提案する。 SUNは追加の訓練なしに様々な細調整されたSDモデルに直接接続することができる。 この手法はクロスアテンション層を利用して、負プロンプトと正プロンプトの間の生成画像結果の相対的オフセットを学習し、負プロンプトを制御可能な分類器フリーガイダンス蒸留を行い、多段階一貫性(msc)損失を導入し、推論ステップの削減と生成出力の一貫性の維持との調和バランスを確保する。 その結果、SUNは推論ステップの数をわずか4ステップに減らし、分類器フリーガイダンスの必要性を排除した。 これは、最先端の25ステップのDPM-solver++と比較して、SDモデルの全体的な10倍のスピードアップをもたらし、(1)制御可能な負のプロンプトを持つ分類子なし誘導蒸留と(2)訓練なしで様々な微調整された安定拡散モデルへのシームレスな統合の2つの利点を提供する。 SUNの有効性は広範な実験を通じて検証されている。 プロジェクトページ: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io

Text-to-image diffusion models (SD) exhibit significant advancements while requiring extensive computational resources. Though many acceleration methods have been proposed, they suffer from generation quality degradation or extra training cost generalizing to new fine-tuned models. To address these limitations, we propose a novel and universal Stable-Diffusion (SD) acceleration module called SpeedUpNet(SUN). SUN can be directly plugged into various fine-tuned SD models without extra training. This technique utilizes cross-attention layers to learn the relative offsets in the generated image results between negative and positive prompts achieving classifier-free guidance distillation with negative prompts controllable, and introduces a Multi-Step Consistency (MSC) loss to ensure a harmonious balance between reducing inference steps and maintaining consistency in the generated output. Consequently, SUN significantly reduces the number of inference steps to just 4 steps and eliminates the need for classifier-free guidance. It leads to an overall speedup of more than 10 times for SD models compared to the state-of-the-art 25-step DPM-solver++, and offers two extra advantages: (1) classifier-free guidance distillation with controllable negative prompts and (2) seamless integration into various fine-tuned Stable-Diffusion models without training. The effectiveness of the SUN has been verified through extensive experimentation. Project Page: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io
翻訳日:2023-12-18 12:33:40 公開日:2023-12-15
# ロボットの育成法 --ヒューマノイド支援ロボットの制約タスク計画におけるニューロシンボリックaiの事例-

How to Raise a Robot -- A Case for Neuro-Symbolic AI in Constrained Task Planning for Humanoid Assistive Robots ( http://arxiv.org/abs/2312.08820v2 )

ライセンス: Link先を確認
Niklas Hemken, Florian Jacob, Fabian Peller-Konrad, Rainer Kartmann, Tamim Asfour, Hannes Hartenstein(参考訳) ヒューマノイドロボットは、人間の日常生活、特に多目的な行動能力のために、人間を助けることができる。 しかし、これらのロボットは学習と探索にはある程度の自律性が必要だが、アクセス制御など、さまざまな制約を尊重する必要がある。 ロボットタスク計画手法を用いて,プライバシ,セキュリティ,アクセス制御の制約を取り入れた新しい分野を探求する。 本稿では,古典的シンボリックアプローチ,深層学習ニューラルネットワーク,および知識ベースとして大規模言語モデルを用いた現代的アイデアに関する予備的結果を報告する。 それらのトレードオフの分析から,ハイブリッドなアプローチが必要であると結論し,ニューロシンボリック人工知能の新たな分野への新たなユースケースを提案する。

Humanoid robots will be able to assist humans in their daily life, in particular due to their versatile action capabilities. However, while these robots need a certain degree of autonomy to learn and explore, they also should respect various constraints, for access control and beyond. We explore the novel field of incorporating privacy, security, and access control constraints with robot task planning approaches. We report preliminary results on the classical symbolic approach, deep-learned neural networks, and modern ideas using large language models as knowledge base. From analyzing their trade-offs, we conclude that a hybrid approach is necessary, and thereby present a new use case for the emerging field of neuro-symbolic artificial intelligence.
翻訳日:2023-12-18 12:33:11 公開日:2023-12-15
# 基礎モデルによる汎用ロボットに向けて:調査とメタ分析

Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis ( http://arxiv.org/abs/2312.08782v2 )

ライセンス: Link先を確認
Yafei Hu and Quanting Xie and Vidhi Jain and Jonathan Francis and Jay Patrikar and Nikhil Keetha and Seungchan Kim and Yaqi Xie and Tianyi Zhang and Shibo Zhao and Yu Quan Chong and Chen Wang and Katia Sycara and Matthew Johnson-Roberson and Dhruv Batra and Xiaolong Wang and Sebastian Scherer and Zsolt Kira and Fei Xia and Yonatan Bisk(参考訳) あらゆる環境において、あらゆる目的のためにシームレスに動作し、様々なスキルを使って多様なタスクを完遂できる汎用ロボットの開発は、人工知能の長年の目標だった。 しかし残念なことに、既存のロボットシステムは、特定のタスク用に設計され、特定のデータセットでトレーニングされ、特定の環境にデプロイされている。 これらのシステムは、通常、広範囲にラベル付けされたデータを必要とし、タスク固有のモデルに依存し、現実世界のシナリオにデプロイする際、多くの一般化の問題を持ち、分散シフトに対する堅牢さを維持するのに苦労している。 自然言語処理(nlp)やコンピュータビジョン(cv)といった研究分野における,web規模,大容量事前学習モデル(財団モデル)の印象的なオープンセットパフォーマンスとコンテンツ生成能力に動機づけられ,この調査を探究にあてる。 (i)nlpおよびcvの既存の基礎モデルがロボット工学の分野にどのように応用され、また探究されるか (ii)ロボット特有の基礎モデルがどのようなものか。 まず、従来のロボットシステムを構成するものの概要と、それを普遍的に適用するための基本的な障壁を提供することから始める。 次に,既存の基盤モデルをロボット工学に活用し,ロボット工学に精通したモデルを開発する方法について検討する。 最後に,汎用ロボットシステムの実現に向けた基礎モデルの利用における課題と今後の展望について述べる。 この調査でレビューされた論文や、ロボティクスの基礎モデルを開発するための関連プロジェクトやレポジトリなど、リビングgithubのリソースリポジトリの閲覧を読者に勧めています。

Building general-purpose robots that can operate seamlessly, in any environment, with any object, and utilizing various skills to complete diverse tasks has been a long-standing goal in Artificial Intelligence. Unfortunately, however, most existing robotic systems have been constrained - having been designed for specific tasks, trained on specific datasets, and deployed within specific environments. These systems usually require extensively-labeled data, rely on task-specific models, have numerous generalization issues when deployed in real-world scenarios, and struggle to remain robust to distribution shifts. Motivated by the impressive open-set performance and content generation capabilities of web-scale, large-capacity pre-trained models (i.e., foundation models) in research fields such as Natural Language Processing (NLP) and Computer Vision (CV), we devote this survey to exploring (i) how these existing foundation models from NLP and CV can be applied to the field of robotics, and also exploring (ii) what a robotics-specific foundation model would look like. We begin by providing an overview of what constitutes a conventional robotic system and the fundamental barriers to making it universally applicable. Next, we establish a taxonomy to discuss current work exploring ways to leverage existing foundation models for robotics and develop ones catered to robotics. Finally, we discuss key challenges and promising future directions in using foundation models for enabling general-purpose robotic systems. We encourage readers to view our living GitHub repository of resources, including papers reviewed in this survey as well as related projects and repositories for developing foundation models for robotics.
翻訳日:2023-12-18 12:32:57 公開日:2023-12-15
# VSFormer: 対応処理のためのVisual-Spatial Fusion Transformer

VSFormer: Visual-Spatial Fusion Transformer for Correspondence Pruning ( http://arxiv.org/abs/2312.08774v2 )

ライセンス: Link先を確認
Tangfei Liao, Xiaoqin Zhang, Li Zhao, Tao Wang, Guobao Xiao(参考訳) 対応プルーニングは、多くのアプリケーションで基本的なタスクである最初の対応セットから正しい一致(インリアー)を見つけることを目的としている。 視覚的差異が大きいため、シーン/イメージペア間の不整合比が異なるため、発見のプロセスは困難である。 しかし、既存の手法の性能は通常、シーンの視覚的な手がかり(例えばテクスチャ、照明、構造)の欠如によって制限される。 本稿では,不整点を識別し,カメラのポーズを正確に復元するVisual-Spatial Fusion Transformer (VSFormer)を提案する。 まず,二視点画像の局所的特徴の相互に注意を向け,高度に抽象的なシーンの視覚手がかりを得る。 次に,これらの視覚手がかりと対応を視覚空間融合モジュールでモデル化し,同時に視覚手がかりをプルーニング用対応に組み込む。 さらに、対応の整合性を検討するために、KNNグラフと変換器を組み合わせた新しいモジュールを設計し、ローカルおよびグローバル両方のコンテキストを効果的にキャプチャする。 広範な実験により、vsformerは屋外および屋内ベンチマークにおいて最先端の手法よりも優れていることが示されている。

Correspondence pruning aims to find correct matches (inliers) from an initial set of putative correspondences, which is a fundamental task for many applications. The process of finding is challenging, given the varying inlier ratios between scenes/image pairs due to significant visual differences. However, the performance of the existing methods is usually limited by the problem of lacking visual cues (\eg texture, illumination, structure) of scenes. In this paper, we propose a Visual-Spatial Fusion Transformer (VSFormer) to identify inliers and recover camera poses accurately. Firstly, we obtain highly abstract visual cues of a scene with the cross attention between local features of two-view images. Then, we model these visual cues and correspondences by a joint visual-spatial fusion module, simultaneously embedding visual cues into correspondences for pruning. Additionally, to mine the consistency of correspondences, we also design a novel module that combines the KNN-based graph and the transformer, effectively capturing both local and global contexts. Extensive experiments have demonstrated that the proposed VSFormer outperforms state-of-the-art methods on outdoor and indoor benchmarks.
翻訳日:2023-12-18 12:32:28 公開日:2023-12-15
# VMT-Adapter:マルチタスクシーン理解のためのパラメータ効率の良い伝達学習

VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense Scene Understanding ( http://arxiv.org/abs/2312.08733v2 )

ライセンス: Link先を確認
Yi Xin, Junlong Du, Qiang Wang, Zhiwen Lin, Ke Yan(参考訳) 大規模事前訓練型モデルは様々なコンピュータビジョンタスクにおいて顕著な成功を収めた。 これらのモデルを活用するための標準的なアプローチは、ダウンストリームタスクのモデルパラメータをすべて微調整することであり、計算とストレージコストの面で問題を引き起こす。 近年,自然言語処理(NLP)にインスパイアされたパラメータ効率の伝達学習が視覚タスクに成功している。 しかし、既存のほとんどの技術はシングルタスク適応に重点を置いており、マルチタスク適応に関する限られた研究にもかかわらず、これらの手法はしばしば準最適トレーニングと推論効率を示す。 本稿では、まず、約O(1)のトレーニングと推論効率w.r.tタスク番号を打つ、一度のビジョン・マルチタスク・アダプタ(VMT-Adapter)を提案する。 具体的には、VMT-Adapterは複数のタスクからの知識を共有し、タスク固有の知識を独立した知識抽出モジュールを介して保存する。 特に、タスク固有のモジュールはパラメータが少ないため、VMT-Adapterはトレーニング可能なパラメータを無視して任意の数のタスクを処理できる。 また,ダウンプロジェクションとアッププロジェクションの共有パラメータを学習することにより,学習可能なパラメータをさらに削減するvmt-adapter-liteを提案する。 4つの密集したシーン理解タスクに関する大規模な実験では、VMT-Adapter(-Lite)が3.96%(1.34%)の相対的な改善を達成し、事前訓練されたモデルのトレーニング可能なパラメータをわずか1%(0.36%)利用した。

Large-scale pre-trained models have achieved remarkable success in various computer vision tasks. A standard approach to leverage these models is to fine-tune all model parameters for downstream tasks, which poses challenges in terms of computational and storage costs. Recently, inspired by Natural Language Processing (NLP), parameter-efficient transfer learning has been successfully applied to vision tasks. However, most existing techniques primarily focus on single-task adaptation, and despite limited research on multi-task adaptation, these methods often exhibit suboptimal training and inference efficiency. In this paper, we first propose an once-for-all Vision Multi-Task Adapter (VMT-Adapter), which strikes approximately O(1) training and inference efficiency w.r.t task number. Concretely, VMT-Adapter shares the knowledge from multiple tasks to enhance cross-task interaction while preserves task-specific knowledge via independent knowledge extraction modules. Notably, since task-specific modules require few parameters, VMT-Adapter can handle an arbitrary number of tasks with a negligible increase of trainable parameters. We also propose VMT-Adapter-Lite, which further reduces the trainable parameters by learning shared parameters between down- and up-projections. Extensive experiments on four dense scene understanding tasks demonstrate the superiority of VMT-Adapter(-Lite), achieving a 3.96%(1.34%) relative improvement compared to single-task full fine-tuning, while utilizing merely ~1% (0.36%) trainable parameters of the pre-trained model.
翻訳日:2023-12-18 12:32:08 公開日:2023-12-15