このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230914となっている論文です。

PDF登録状況(公開日: 20230914)

TitleAuthorsAbstract論文公表日・翻訳日
# サイバー防衛環境における自律エージェントについて

On Autonomous Agents in a Cyber Defence Environment ( http://arxiv.org/abs/2309.07388v1 )

ライセンス: Link先を確認
Mitchell Kiely, David Bowman, Maxwell Standen, Christopher Moir, (参考訳) 自律サイバー防衛は高度のサイバー攻撃に対応するために必要である。 この課題領域における研究を促進するために,CAGEチャレンジ2(Cyber Autonomy Gym for Experimentation, CAGE)チャレンジの一部として提示される自律型サイバー運用環境の有用性について検討する。 CAGE Challenge 2は攻撃するレッドエージェントからネットワークを守るためにブルーエージェントを必要とした。 本稿では,この課題の詳細な説明と,課題参加者によるアプローチについて述べる。 提案したエージェントから,シングルエージェント深層強化学習(DRL),階層DRL,アンサンブル,非DRLの4種類のアルゴリズムを同定する。 これらのクラスの中で,階層型DRLアプローチが最も効果的なサイバー防御戦略を学習できることが判明した。 エージェントポリシーの分析では,同一クラス内の異なるアルゴリズムが多様な戦略を生み出し,防御的ブルーエージェントの戦略は攻撃的レッドエージェントの戦略によって異なることが明らかとなった。 我々はDRLアルゴリズムが自律型サイバー防衛アプリケーションに適した候補であると結論付けた。

Autonomous Cyber Defence is required to respond to high-tempo cyber-attacks. To facilitate the research in this challenging area, we explore the utility of the autonomous cyber operation environments presented as part of the Cyber Autonomy Gym for Experimentation (CAGE) Challenges, with a specific focus on CAGE Challenge 2. CAGE Challenge 2 required a defensive Blue agent to defend a network from an attacking Red agent. We provide a detailed description of the this challenge and describe the approaches taken by challenge participants. From the submitted agents, we identify four classes of algorithms, namely, Single- Agent Deep Reinforcement Learning (DRL), Hierarchical DRL, Ensembles, and Non-DRL approaches. Of these classes, we found that the hierarchical DRL approach was the most capable of learning an effective cyber defensive strategy. Our analysis of the agent policies identified that different algorithms within the same class produced diverse strategies and that the strategy used by the defensive Blue agent varied depending on the strategy used by the offensive Red agent. We conclude that DRL algorithms are a suitable candidate for autonomous cyber defence applications.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-14
# マルチパーティ・プライベート・セット・インターセクションのためのセキュアでスケーラブルな回路ベースプロトコル

Secure and Scalable Circuit-based Protocol for Multi-Party Private Set Intersection ( http://arxiv.org/abs/2309.07406v1 )

ライセンス: Link先を確認
Jiuheng Su, Zhili Chen, (参考訳) マルチパーティ・プライベート・セット・交差点機能(PSI)を実装した回路を計算するための新しいプロトコルを提案する。 回路ベースのアプローチは、PSIの多くのアプリケーションは交差点自体の計算を必要とせず、むしろ交差点の項目に対する特定の関数計算を必要とするため、このタスクを達成するためにカスタムプロトコルを使用するよりも利点がある。 本プロトコルは,2 つのパーティ SCS {\displaystyle \cite{huang2012private} プロトコル上に構築し,最適化する,先駆的な回路ベースのマルチパーティ PSI プロトコルである。 2つのパーティ間のセキュアな計算を使用することで、プロトコルは複数パーティのインタラクションに関連する複雑さを回避し、優れたスケーラビリティを示す。 回路ベース構築に伴うオーバヘッドを軽減するため,単純なハッシュ方式と置換型ハッシュ関数を用いることで,プロトコルをさらに強化した。 これらの手法により,バケット方式を用いることで回路サイズを最小化し,計算コストと通信コストを同時に削減できる。

We propose a novel protocol for computing a circuit which implements the multi-party private set intersection functionality (PSI). Circuit-based approach has advantages over using custom protocols to achieve this task, since many applications of PSI do not require the computation of the intersection itself, but rather specific functional computations over the items in the intersection. Our protocol represents the pioneering circuit-based multi-party PSI protocol, which builds upon and optimizes the two-party SCS \cite{huang2012private} protocol. By using secure computation between two parties, our protocol sidesteps the complexities associated with multi-party interactions and demonstrates good scalability. In order to mitigate the high overhead associated with circuit-based constructions, we have further enhanced our protocol by utilizing simple hashing scheme and permutation-based hash functions. These tricks have enabled us to minimize circuit size by employing bucketing techniques while simultaneously attaining noteworthy reductions in both computation and communication expenses.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-14
# 商業用防汚工具とその近代的脅威に対する比較効果

Commercial Anti-Smishing Tools and Their Comparative Effectiveness Against Modern Threats ( http://arxiv.org/abs/2309.07447v1 )

ライセンス: Link先を確認
Daniel Timko, Muhammad Lutfor Rahman, (参考訳) SMSフィッシング(SMS phishing)は、攻撃者がSMS通信を偽装してターゲットを欺いて機密データを提供する不正なコミュニケーションの一種である。 スマイッシング攻撃には様々な戦術があるが、金銭を盗んだり、被害者から個人情報(PII)を個人識別するという同様の目的がある。 これらの攻撃に対して、これらの通信をブロックまたはフィルタリングするために、幅広い種類のアンチ・スミッシング・ツールが開発されている。 しかし、フィッシング攻撃の数は増え続けている。 本稿では,新しいスマイッシング攻撃に対する一般的なアンチ・スマイッシング・ツールの有効性を評価するためのテストベッドを開発した。 Smishtank.comはスマイッシングデータセットの報告と収集のための協調的なオンラインリソースである。 SMSメッセージはセキュリティの専門家によって検証され、収集されたメッセージに対して詳細な質的分析が行われ、さらなる洞察が得られた。 ツールの有効性を比較するために、SMSメッセージング配信エコシステムの3つの重要な部分にわたって、20のスマイシングと良心的なメッセージを実験した。 以上の結果から,スマイッシングセットに対する3つの領域で改善の余地が認められた。 ほとんどのアンチフィッシングアプリやバルクメッセージングサービスは、キャリアブロック以上のスマイシングメッセージをフィルタリングしなかった。 最もスムーズなメッセージをブロックした2つのアプリも85~100\%の良質なメッセージをブロックした。 最後に、キャリアは良質なメッセージをブロックしなかったが、メッセージをスマイシングするために25~35倍のブロックレートにしか到達できなかった。 私たちの作業は、アンチスマイシングツールのパフォーマンスと、メッセージブロッキングプロセスで彼らが果たす役割に関する洞察を提供します。 本稿は、SMSプラットフォームにおけるアンチ・スマイシング技術の現状について、研究コミュニティや業界がより深く知ることを可能にするものである。

Smishing, also known as SMS phishing, is a type of fraudulent communication in which an attacker disguises SMS communications to deceive a target into providing their sensitive data. Smishing attacks use a variety of tactics; however, they have a similar goal of stealing money or personally identifying information (PII) from a victim. In response to these attacks, a wide variety of anti-smishing tools have been developed to block or filter these communications. Despite this, the number of phishing attacks continue to rise. In this paper, we developed a test bed for measuring the effectiveness of popular anti-smishing tools against fresh smishing attacks. To collect fresh smishing data, we introduce Smishtank.com, a collaborative online resource for reporting and collecting smishing data sets. The SMS messages were validated by a security expert and an in-depth qualitative analysis was performed on the collected messages to provide further insights. To compare tool effectiveness, we experimented with 20 smishing and benign messages across 3 key segments of the SMS messaging delivery ecosystem. Our results revealed significant room for improvement in all 3 areas against our smishing set. Most anti-phishing apps and bulk messaging services didn't filter smishing messages beyond the carrier blocking. The 2 apps that blocked the most smish also blocked 85-100\% of benign messages. Finally, while carriers did not block any benign messages, they were only able to reach a 25-35\% blocking rate for smishing messages. Our work provides insights into the performance of anti-smishing tools and the roles they play in the message blocking process. This paper would enable the research community and industry to be better informed on the current state of anti-smishing technology on the SMS platform.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-14
# $k$-均質アクセス構造に対する理想的な秘密共有方式について

On Ideal Secret-Sharing Schemes for $k$-homogeneous access structures ( http://arxiv.org/abs/2309.07479v1 )

ライセンス: Link先を確認
Younjin Kim, Jihye Kwon, Hyang-Sook Lee, (参考訳) $k$-uniform hypergraphは、各$k$-hyperedgeが正確に$k$ verticesを持つハイパーグラフである。 k$-一様アクセス構造は$k$-一様ハイパーグラフ$\mathcal{H}$で表され、参加者はハイパーグラフ$\mathcal{H}$の頂点に対応する。 バーチカンのセットは、$k$-hyperedgeで接続されている場合、その株式から秘密の値を再構築することができるが、非隣のバーチカンのセットは秘密に関する情報を入手しない。 秘密共有方式の効率を測定するためのパラメータの1つは、秘密の長さと参加者に与えられた株式の最大長との比率として定義される情報レートである。 情報レートが等しい秘密共有スキームを理想秘密共有スキームと呼ぶ。 理想的な秘密共有方式が実現できれば、アクセス構造は理想的と考えられる。 理想的なアクセス構造の特徴付けは、秘密共有方式における重要な問題の1つである。 理想的なアクセス構造の特徴は、多くの著者によって研究されている。 本稿では,独立シーケンス法を用いて,理想的な$k$-均一アクセス構造を特徴付ける。 特に、$\Gamma$のアクセス構造が$(k, n)$-thresholdアクセス構造であるとは、$\Gamma$の最適情報レートが$\frac{k-1}{k}$より大きいときに証明する。

A $k$-uniform hypergraph is a hypergraph where each $k$-hyperedge has exactly $k$ vertices. A $k$-homogeneous access structure is represented by a $k$-uniform hypergraph $\mathcal{H}$, in which the participants correspond to the vertices of hypergraph $\mathcal{H}$. A set of vertices can reconstruct the secret value from their shares if they are connected by a $k$-hyperedge, while a set of non-adjacent vertices does not obtain any information about the secret. One parameter for measuring the efficiency of a secret sharing scheme is the information rate, defined as the ratio between the length of the secret and the maximum length of the shares given to the participants. Secret sharing schemes with an information rate equal to one are called ideal secret sharing schemes. An access structure is considered ideal if an ideal secret sharing scheme can realize it. Characterizing ideal access structures is one of the important problems in secret sharing schemes. The characterization of ideal access structures has been studied by many authors~\cite{BD, CT,JZB, FP1,FP2,DS1,TD}. In this paper, we characterize ideal $k$-homogeneous access structures using the independent sequence method. In particular, we prove that the reduced access structure of $\Gamma$ is an $(k, n)$-threshold access structure when the optimal information rate of $\Gamma$ is larger than $\frac{k-1}{k}$, where $\Gamma$ is a $k$-homogeneous access structure satisfying specific criteria.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-14
# 秘密を忘れるな - ニューラルコード補完ツールのプライバシー問題を明らかにする

Do Not Give Away My Secrets: Uncovering the Privacy Issue of Neural Code Completion Tools ( http://arxiv.org/abs/2309.07639v1 )

ライセンス: Link先を確認
Yizhan Huang, Yichen Li, Weibin Wu, Jianping Zhang, Michael R. Lyu, (参考訳) ニューラルコード補完ツール(NCCT)は、言語モデリング技術から恩恵を受けるコンテキスト関連コードスニペットを正確に提案するソフトウェア開発の分野を変革した。 しかし、言語モデルは適切なプロンプトで推論中に冗長なトレーニングデータを出力することができる。 この記憶特性は、ハードコードされたクレデンシャルリークに関する商業NCCTのプライバシー上の懸念を高め、システムへの不正アクセスにつながる。 したがって、NCCTが必然的にハードコードされたクレデンシャルを出力するかどうかを問うために、ハードコードCredential Revealer (HCR) と呼ばれる評価ツールを提案する。 HCRはGitHubのコードファイルからテストプロンプトを効果的に構築し、商用NCCTの暗記現象をトリガーする。 そして、HCRは、4つの設計されたフィルタにより、応答から予め定義されたフォーマットで認証情報を抽出する。 GitHub CopilotとAmazon CodeWhispererの2つの代表的な商用NCCTを評価するためにHCRを適用し、Copilotから2,702のハードコード認証を抽出し、ブラックボックス設定でCodeWhisperから129のシークレットを抽出しました。 さらに、2つの運用証明書が特定された。 実験の結果、商業NCCTのトレーニングデータにハードコードされた認証情報が漏洩する可能性があるという深刻なプライバシー上の懸念が浮き彫りになった。

Neural Code Completion Tools (NCCTs) have reshaped the field of software development, which accurately suggest contextually-relevant code snippets benefiting from language modeling techniques. However, language models may emit the training data verbatim during inference with appropriate prompts. This memorization property raises privacy concerns of commercial NCCTs about the hard-coded credential leakage, leading to unauthorized access to systems. Therefore, to answer whether NCCTs will inadvertently emit the hard-coded credential, we propose an evaluation tool called Hard-coded Credential Revealer (HCR). HCR effectively constructs test prompts from GitHub code files with credentials to trigger memorization phenomenon of commercial NCCTs. Then, HCR extracts credentials with pre-defined format from the responses by four designed filters. We apply HCR to evaluate two representative commercial NCCTs: GitHub Copilot and Amazon CodeWhisperer and successfully extracted 2,702 hard-coded credentials from Copilot and 129 secrets from CodeWhisper under the black-box setting, among which at least 3.6% and 5.4% secrets are real strings from GitHub repositories. Moreover, two operational credentials were identified. The experimental results raise the severe privacy concern of the potential leakage of hard-coded credentials in the training data of commercial NCCTs.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-14
# Sync+Sync: ストレージ付きfsync上に構築されたCovert Channel

Sync+Sync: A Covert Channel Built on fsync with Storage ( http://arxiv.org/abs/2309.07657v1 )

ライセンス: Link先を確認
Qisheng Jiang, Chundong Wang, (参考訳) 科学者はCPUキャッシュとメインメモリを備えた秘密情報伝送のための様々な秘密チャンネルを構築した。 本稿では,メモリ階層の下位レベル,すなわち永続ストレージに目を向ける。 ほとんどのプログラムはファイルの形式で中間結果または最終的な結果を格納し、一部のプログラムはfsyncを呼び出して、整然とした永続化のためにストレージデバイスと同期的にファイルを永続化する。 我々の定量的研究は、他のプログラムがfsyncを同時に呼び出している場合、fsync呼び出しのレスポンス時間が大幅に長いことを示しています。 さらに、ソフトウェア構造(Ext4のジャーナルなど)とハードウェアリソース(ディスクのI/Oディスパッチキューなど)の共有によって、並列fsyncコールが複数のストレージスタックで競合していることも分かりました。 そこで私たちはSync+Syncという秘密チャンネルを構築しました。 Sync+Syncは、通常のソリッドステートドライブで約0.40%のエラーレートで、毎秒20,000ビットの伝送帯域を提供する。 Sync+Syncは、プログラム間でデータを共有することなく、クロスディスクパーティション、クロスファイルシステム、クロスコンテナ、クロス仮想マシン、さらにはクロスディスクドライブのスタイルで実行できる。 次に、Sync+Syncでサイドチャネルアタックを起動し、被害者データベース(例えば、挿入/更新、B-Treeノード分割)の操作を正確に検出します。 また、Sync+Syncを利用して、アプリケーションやWebサイトを高精度に識別する。 これらの攻撃は、よりきめ細かい情報漏洩をサポートするのに役立つ。

Scientists have built a variety of covert channels for secretive information transmission with CPU cache and main memory. In this paper, we turn to a lower level in the memory hierarchy, i.e., persistent storage. Most programs store intermediate or eventual results in the form of files and some of them call fsync to synchronously persist a file with storage device for orderly persistence. Our quantitative study shows that one program would undergo significantly longer response time for fsync call if the other program is concurrently calling fsync, although they do not share any data. We further find that, concurrent fsync calls contend at multiple levels of storage stack due to sharing software structures (e.g., Ext4's journal) and hardware resources (e.g., disk's I/O dispatch queue). We accordingly build a covert channel named Sync+Sync. Sync+Sync delivers a transmission bandwidth of 20,000 bits per second at an error rate of about 0.40% with an ordinary solid-state drive. Sync+Sync can be conducted in cross-disk partition, cross-file system, cross-container, cross-virtual machine, and even cross-disk drive fashions, without sharing data between programs. Next, we launch side-channel attacks with Sync+Sync and manage to precisely detect operations of a victim database (e.g., insert/update and B-Tree node split). We also leverage Sync+Sync to distinguish applications and websites with high accuracy by detecting and analyzing their fsync frequencies and flushed data volumes. These attacks are useful to support further fine-grained information leakage.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-14
# コンプライアンスからインパクトへ - 組織的セキュリティ意識プログラムの変容の追跡

From Compliance to Impact: Tracing the Transformation of an Organizational Security Awareness Program ( http://arxiv.org/abs/2309.07724v1 )

ライセンス: Link先を確認
Julie M. Haney, Wayne Lutters, (参考訳) コンプライアンス(トレーニング完了率によって測定される)に焦点を当てた組織セキュリティ意識プログラムから、行動の変化をもたらすプログラムへの転換の必要性は、ますます認識されている。 しかし、プログラム変換の実行に携わるセキュリティ意識チームの組織的プラクティスを解き放ち始めた以前の研究はほとんどない。 我々は、米国政府機関におけるセキュリティ意識プログラムの1年間のケーススタディを行い、フィールド観察、インタビュー、文書を通じてデータを収集した。 本研究は, セキュリティ意識プログラムの進展に伴う課題と実践を, コンプライアンスを重視して, 従業員の態度や行動に与える影響を強調している。 複数の従業員の視点を取り入れた縦断的な調査を通じて、変革的な組織的セキュリティ意識の実践を独自に捉えた。 我々の研究は、他のセキュリティ意識プログラムや労働開発イニシアチブのリソースとして機能し、セキュリティ意識の業務の役割をよりよく定義することを目的としています。

There is a growing recognition of the need for a transformation from organizational security awareness programs focused on compliance -- measured by training completion rates -- to those resulting in behavior change. However, few prior studies have begun to unpack the organizational practices of the security awareness teams tasked with executing program transformation. We conducted a year-long case study of a security awareness program in a United States (U.S.) government agency, collecting data via field observations, interviews, and documents. Our findings reveal the challenges and practices involved in the progression of a security awareness program from being compliance-focused to emphasizing impact on workforce attitudes and behaviors. We uniquely capture transformational organizational security awareness practices in action via a longitudinal study involving multiple workforce perspectives. Our study insights can serve as a resource for other security awareness programs and workforce development initiatives aimed at better defining the security awareness work role.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-14
# TGh: 信頼できるFaaSプラットフォームを実現するTEE/GCハイブリッド

TGh: A TEE/GC Hybrid Enabling Confidential FaaS Platforms ( http://arxiv.org/abs/2309.07764v1 )

ライセンス: Link先を確認
James Choncholas, Ketan Bhardwaj, Ada Gavrilovska, (参考訳) Trusted Execution Environments (TEE) は、エンクレーブの作成、保護モードからのコンテキスト切り替え、キャッシュされたページの交換など、特定の管理命令を実行する際のパフォーマンス上の問題に悩まされる。 これは、ファンクション・アズ・ア・サービス(FaaS)プラットフォームにおいて、エンクレーブオーバーヘッドに対処する既存のテクニックが不十分な、短時間でインタラクティブな機能に特に問題となる。 FaaS関数は、アプリケーション命令を実行するよりも、エンクレーブの管理に多くの時間を費やすことができる。 本研究では,秘密のFaaSプラットフォームを実現するためのTEE/GCハイブリッド(TGh)プロトコルを提案する。 TGhは、セキュアな関数評価のための暗号構造であるガーブロード回路(GC)を用いて、エンクレーブから信頼できないホストへ計算を移動させる。 本手法では,エンクレーブのセキュリティ保証を維持しつつ,管理命令に関連する性能問題を回避する。

Trusted Execution Environments (TEEs) suffer from performance issues when executing certain management instructions, such as creating an enclave, context switching in and out of protected mode, and swapping cached pages. This is especially problematic for short-running, interactive functions in Function-as-a-Service (FaaS) platforms, where existing techniques to address enclave overheads are insufficient. We find FaaS functions can spend more time managing the enclave than executing application instructions. In this work, we propose a TEE/GC hybrid (TGh) protocol to enable confidential FaaS platforms. TGh moves computation out of the enclave onto the untrusted host using garbled circuits (GC), a cryptographic construction for secure function evaluation. Our approach retains the security guarantees of enclaves while avoiding the performance issues associated with enclave management instructions.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-14
# Webセキュリティのナンス・エンス:CSPのナンス・リユースに関する調査

The Nonce-nce of Web Security: an Investigation of CSP Nonces Reuse ( http://arxiv.org/abs/2309.07782v1 )

ライセンス: Link先を確認
Matteo Golinelli, Francesco Bonomi, Bruno Crispo, (参考訳) Content Security Policy(CSP)は、Webサイトのクロスサイトスクリプティング(XSS)脆弱性の悪用を防ぐために、Webページがスクリプトやスタイルなどのリソースをロードできるソースを指定する、効果的なセキュリティメカニズムである。 CSPのナンスにより、Webサイトはホワイトリストに頼ることなく、特定のインラインスクリプトやスタイルを実行することができる。 本研究では,野生におけるCSPナンスの使用状況,特にノエンス再利用,短いノエンス,無効ノエンスを計測し,分析する。 ナンスベースのポリシーを展開している2271のサイトのうち、598のサイトは複数のレスポンスで同じナンス値を再利用しており、攻撃者はXSS攻撃に対してCSPが提供する保護を回避できる可能性がある。 我々は、nonceの再利用の原因を分析し、サーバサイドコードによって導入されているか、あるいはnonceがWebキャッシュによってキャッシュされているかを特定する。 さらに, ナンセが同一セッション内でのみ再利用されるか, あるいは異なるセッションに対してのみ再利用されるかを検討した。 最後に、攻撃者がCSPをバイパスし、異なるナンス再利用シナリオでXSSを実現する可能性について議論する。

Content Security Policy (CSP) is an effective security mechanism that prevents the exploitation of Cross-Site Scripting (XSS) vulnerabilities on websites by specifying the sources from which their web pages can load resources, such as scripts and styles. CSP nonces enable websites to allow the execution of specific inline scripts and styles without relying on a whitelist. In this study, we measure and analyze the use of CSP nonces in the wild, specifically looking for nonce reuse, short nonces, and invalid nonces. We find that, of the 2271 sites that deploy a nonce-based policy, 598 of them reuse the same nonce value in more than one response, potentially enabling attackers to bypass protection offered by the CSP against XSS attacks. We analyze the causes of the nonce reuses to identify whether they are introduced by the server-side code or if the nonces are being cached by web caches. Moreover, we investigate whether nonces are only reused within the same session or for different sessions, as this impacts the effectiveness of CSP in preventing XSS attacks. Finally, we discuss the possibilities for attackers to bypass the CSP and achieve XSS in different nonce reuse scenarios.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-14
# BAGEL:Federated Contrastive Learningに対するバックドア攻撃

BAGEL: Backdoor Attacks against Federated Contrastive Learning ( http://arxiv.org/abs/2311.16113v1 )

ライセンス: Link先を確認
Yao Huang, Kongyang Chen, Jiannong Cao, Jiaxing Shen, Shaowei Wang, Yun Peng, Weilong Peng, Kechao Cai, (参考訳) Federated Contrastive Learning (FCL)は、ラベルなしデータの分散学習において、新たなプライバシ保護パラダイムである。 FCLでは、分散パーティはラベルのないデータでグローバルエンコーダを協調的に学習し、グローバルエンコーダは、多くの下流タスクのためのモデルを構築する機能抽出器として広く使用することができる。 しかし、FCLは、既存のソリューションではめったに調査されない分散性のため、多くのセキュリティ脅威(例えば、バックドア攻撃)に対して脆弱である。 本稿では,FCLに対するバックドア攻撃を先駆的な研究として検討し,分散ローカルクライアントに対するバックドア攻撃が下流タスクにどのように作用するかを説明する。 具体的には、このシステムでは、悪意のあるクライアントが悪質なローカルアップデートをアップロードすることで、バックドアをグローバルエンコーダに注入できるので、このグローバルエンコーダで構築された下流モデルもバックドアを継承する。 また、複数の下流モデルにバックドアを注入する方法についても検討し、それぞれ異なる2つのバックドア攻撃、すなわち \textit{centralized attack} と \textit{decentralized attack} について検討する。 実験の結果, 集中攻撃と分散攻撃の両方が, 下流モデルにバックドアを効果的に注入し, 高い攻撃成功率を示すことがわかった。 最後に,FCLにおけるバックドア攻撃に対する2つの防御方法の評価を行った。

Federated Contrastive Learning (FCL) is an emerging privacy-preserving paradigm in distributed learning for unlabeled data. In FCL, distributed parties collaboratively learn a global encoder with unlabeled data, and the global encoder could be widely used as a feature extractor to build models for many downstream tasks. However, FCL is also vulnerable to many security threats (e.g., backdoor attacks) due to its distributed nature, which are seldom investigated in existing solutions. In this paper, we study the backdoor attack against FCL as a pioneer research, to illustrate how backdoor attacks on distributed local clients act on downstream tasks. Specifically, in our system, malicious clients can successfully inject a backdoor into the global encoder by uploading poisoned local updates, thus downstream models built with this global encoder will also inherit the backdoor. We also investigate how to inject backdoors into multiple downstream models, in terms of two different backdoor attacks, namely the \textit{centralized attack} and the \textit{decentralized attack}. Experiment results show that both the centralized and the decentralized attacks can inject backdoors into downstream models effectively with high attack success rates. Finally, we evaluate two defense methods against our proposed backdoor attacks in FCL, which indicates that the decentralized backdoor attack is more stealthy and harder to defend.
翻訳日:2024-03-18 15:42:08 公開日:2023-09-14
# Spec-NeRF:マルチスペクトルニューラル放射場

Spec-NeRF: Multi-spectral Neural Radiance Fields ( http://arxiv.org/abs/2310.12987v1 )

ライセンス: Link先を確認
Jiabao Li, Yuqi Li, Ciliang Sun, Chong Wang, Jinhui Xiang(参考訳) 異なるフィルタでフィルタされたカラー画像からカメラのマルチスペクトル放射場とスペクトル感度関数(ssfs)を共同で再構成するマルチスペクトルニューラル放射場(spec-nerf)を提案する。 提案手法は物理画像のモデリングに焦点をあて,推定したSSFと放射場を適用して,マルチスペクトルシーンの新たなビューを合成する。 この方法では、データ取得には低コストのトリクロマトリクスカメラといくつかのオフザシェルフカラーフィルタしか必要とせず、特殊な3Dスキャンやスペクトル撮像装置を使用するよりも実用的である。 解析可能なNeRFとSSFでフィルタしたRGB画像を利用することで、NeRFの固有能力を保ちながら、高い忠実度と有望なスペクトル再構成を実現できることを示す。 コードはhttps://github.com/cpregroup/specnerf-v2で入手できる。

We propose Multi-spectral Neural Radiance Fields(Spec-NeRF) for jointly reconstructing a multispectral radiance field and spectral sensitivity functions(SSFs) of the camera from a set of color images filtered by different filters. The proposed method focuses on modeling the physical imaging process, and applies the estimated SSFs and radiance field to synthesize novel views of multispectral scenes. In this method, the data acquisition requires only a low-cost trichromatic camera and several off-the-shelf color filters, making it more practical than using specialized 3D scanning and spectral imaging equipment. Our experiments on both synthetic and real scenario datasets demonstrate that utilizing filtered RGB images with learnable NeRF and SSFs can achieve high fidelity and promising spectral reconstruction while retaining the inherent capability of NeRF to comprehend geometric structures. Code is available at https://github.com/CPREgroup/SpecNeRF-v2.
翻訳日:2024-01-15 16:42:56 公開日:2023-09-14
# 各種機械学習モデルの頻繁な取引効果の解析

Analysis of frequent trading effects of various machine learning models ( http://arxiv.org/abs/2311.10719v1 )

ライセンス: Link先を確認
Jiahao Chen, Xiaofei Li(参考訳) 近年、高周波取引が株式取引の重要な戦略として浮上している。 本研究では,高度な高周波取引アルゴリズムを開発し,クロスエントロピー損失関数と準ニュートンアルゴリズム,FCNNモデル,ベクトルマシンの3つの数学モデルの性能を比較することを目的とする。 提案アルゴリズムでは,ニューラルネットワーク予測を用いてトレーディング信号を生成し,特定の条件に基づいて売買操作を実行する。 ニューラルネットワークのパワーを活用することで、アルゴリズムはトレーディング戦略の正確性と信頼性を高める。 アルゴリズムの有効性を評価するために、3つの数学的モデルの性能を評価する。 クロスエントロピー損失関数と準ニュートンアルゴリズムの組み合わせは、広く利用されているロジスティック回帰手法である。 一方、FCNNモデルは、ストックデータから特徴を抽出し分類できるディープラーニングアルゴリズムである。 一方、ベクトルマシンは、データを高次元空間にマッピングして分類結果を改善するために認識される教師付き学習アルゴリズムである。 この3つのモデルの性能を比較することで、この研究は高周波取引の最も効果的なアプローチを決定することを目的としている。 この研究は、投資家により正確で信頼性の高い株式取引戦略を提供するために、高頻度取引の新しい手法を導入することで、価値ある貢献をする。

In recent years, high-frequency trading has emerged as a crucial strategy in stock trading. This study aims to develop an advanced high-frequency trading algorithm and compare the performance of three different mathematical models: the combination of the cross-entropy loss function and the quasi-Newton algorithm, the FCNN model, and the vector machine. The proposed algorithm employs neural network predictions to generate trading signals and execute buy and sell operations based on specific conditions. By harnessing the power of neural networks, the algorithm enhances the accuracy and reliability of the trading strategy. To assess the effectiveness of the algorithm, the study evaluates the performance of the three mathematical models. The combination of the cross-entropy loss function and the quasi-Newton algorithm is a widely utilized logistic regression approach. The FCNN model, on the other hand, is a deep learning algorithm that can extract and classify features from stock data. Meanwhile, the vector machine is a supervised learning algorithm recognized for achieving improved classification results by mapping data into high-dimensional spaces. By comparing the performance of these three models, the study aims to determine the most effective approach for high-frequency trading. This research makes a valuable contribution by introducing a novel methodology for high-frequency trading, thereby providing investors with a more accurate and reliable stock trading strategy.
翻訳日:2024-01-15 16:12:51 公開日:2023-09-14
# 持続的無関係並列マシンスケジューリングのためのメタヒューリスティック最適化の汎用フレームワーク:簡潔な概要

A general Framework for Utilizing Metaheuristic Optimization for Sustainable Unrelated Parallel Machine Scheduling: A concise overview ( http://arxiv.org/abs/2311.12802v1 )

ライセンス: Link先を確認
Absalom E. Ezugwu(参考訳) 持続可能な開発が世界的な優先事項として浮上し、産業は持続的な慣行と業務の整合化に努めている。 並列マシンスケジューリング(pms)は、資源利用と運用効率に直接影響を及ぼす生産計画の重要な側面である。 本稿では,無関係な並列マシンスケジューリング問題 (UPMSP) に対するメタヒューリスティック最適化アルゴリズムの適用を,持続可能な開発目標 (SDG) のレンズを通して検討する。 本研究の目的は, メタヒューリスティック最適化アルゴリズムが, UPMSPの文脈における持続可能な開発目標達成にどのように貢献できるかを検討することである。 遺伝的アルゴリズム,粒子群最適化,アリコロニー最適化などのメタヒューリスティックアルゴリズムについて検討し,スケジューリング問題を最適化する上での有効性を評価する。 これらのアルゴリズムは, 資源利用の向上, エネルギー消費の最小化, 環境影響の低減, 社会的責任を負う生産の実践を促進する能力に基づいて評価される。 包括的分析を行うために,サステナビリティに関連する制約や目的を組み込んだUPMSPインスタンスを検討する。

Sustainable development has emerged as a global priority, and industries are increasingly striving to align their operations with sustainable practices. Parallel machine scheduling (PMS) is a critical aspect of production planning that directly impacts resource utilization and operational efficiency. In this paper, we investigate the application of metaheuristic optimization algorithms to address the unrelated parallel machine scheduling problem (UPMSP) through the lens of sustainable development goals (SDGs). The primary objective of this study is to explore how metaheuristic optimization algorithms can contribute to achieving sustainable development goals in the context of UPMSP. We examine a range of metaheuristic algorithms, including genetic algorithms, particle swarm optimization, ant colony optimization, and more, and assess their effectiveness in optimizing the scheduling problem. The algorithms are evaluated based on their ability to improve resource utilization, minimize energy consumption, reduce environmental impact, and promote socially responsible production practices. To conduct a comprehensive analysis, we consider UPMSP instances that incorporate sustainability-related constraints and objectives.
翻訳日:2024-01-15 15:45:22 公開日:2023-09-14
# ChatGPTがスマートコントラクト脆弱性検出と出会う: どこまで?

When ChatGPT Meets Smart Contract Vulnerability Detection: How Far Are We? ( http://arxiv.org/abs/2309.05520v3 )

ライセンス: Link先を確認
Chong Chen, Jianzhong Su, Jiachi Chen, Yanlin Wang, Tingting Bi, Yanli Wang, Xingwei Lin, Ting Chen, Zibin Zheng(参考訳) ブロックチェーン技術の開発により、スマートコントラクトはブロックチェーンアプリケーションの重要なコンポーネントとなっている。 その重要な役割にもかかわらず、スマートコントラクトの開発は脆弱性を導入し、財務的損失など深刻な結果をもたらす可能性がある。 一方、ChatGPTで表される大きな言語モデルは、コード解析タスクにおける優れた機能を示す大きな注目を集めている。 本稿では,スマートコントラクトの脆弱性を特定するためのChatGPTの性能について,実証的研究を行った。 当初、我々はChatGPTの有効性を、利用可能なスマートコントラクトデータセットを用いて評価した。 以上の結果から,ChatGPTは高いリコール率を達成するが,スマートコントラクトの脆弱性を特定できる精度は限られていることがわかった。 さらに、ChatGPTのパフォーマンスは、異なる脆弱性タイプを検出するときに異なる。 われわれはChatGPTが生成した偽陽性の根本原因を調査し,これらを4つのグループに分類した。 第二に、ChatGPTと最先端のスマートコントラクトの脆弱性検出ツールを比較することで、ChatGPTのFスコアが7つ中3つよりも低いことがわかった。 残りの4つの脆弱性の場合、ChatGPTはこれらのツールに対してわずかに有利である。 最後に、スマートコントラクト脆弱性検出におけるChatGPTの限界を分析し、この分野でのChatGPTの堅牢性は、回答の不確実性、検出コードの長さの2つの側面から改善する必要があることを明らかにした。 一般的に、我々の研究は、スマートコントラクト脆弱性の検出に大規模な言語モデル、特にChatGPTを使用する際の長所と短所に関する洞察を提供する。

With the development of blockchain technology, smart contracts have become an important component of blockchain applications. Despite their crucial role, the development of smart contracts may introduce vulnerabilities and potentially lead to severe consequences, such as financial losses. Meanwhile, large language models, represented by ChatGPT, have gained great attentions, showcasing great capabilities in code analysis tasks. In this paper, we presented an empirical study to investigate the performance of ChatGPT in identifying smart contract vulnerabilities. Initially, we evaluated ChatGPT's effectiveness using a publicly available smart contract dataset. Our findings discover that while ChatGPT achieves a high recall rate, its precision in pinpointing smart contract vulnerabilities is limited. Furthermore, ChatGPT's performance varies when detecting different vulnerability types. We delved into the root causes for the false positives generated by ChatGPT, and categorized them into four groups. Second, by comparing ChatGPT with other state-of-the-art smart contract vulnerability detection tools, we found that ChatGPT's F-score is lower than others for 3 out of the 7 vulnerabilities. In the case of the remaining 4 vulnerabilities, ChatGPT exhibits a slight advantage over these tools. Finally, we analyzed the limitation of ChatGPT in smart contract vulnerability detection, revealing that the robustness of ChatGPT in this field needs to be improved from two aspects: its uncertainty in answering questions; and the limited length of the detected code. In general, our research provides insights into the strengths and weaknesses of employing large language models, specifically ChatGPT, for the detection of smart contract vulnerabilities.
翻訳日:2023-10-23 08:00:34 公開日:2023-09-14
# HIVE:シナリオベースの分解と自動ヒント抽出によるスケーラブルハードウェアファームウェアの共検証

HIVE: Scalable Hardware-Firmware Co-Verification using Scenario-based Decomposition and Automated Hint Extraction ( http://arxiv.org/abs/2309.08002v1 )

ライセンス: Link先を確認
Aruna Jayasena and Prabhat Mishra(参考訳) ハードウェア確認ソフトの共検証は、信頼できるシステムの設計に不可欠である。 形式的手法は検証の保証を提供するが、ファームウェアとハードウェアの複雑さのため、状態空間の爆発につながる可能性がある。 ハードウェアを手動で抽象化したり、ヒントを手動で生成することで、ファームウェアの検証中に状態空間を削減できる有望な方法がある。 抽象化やヒントの手動開発にはドメインの専門知識が必要で、時間とエラーが発生しやすいため、誤った証明や不正確な結果につながる可能性がある。 本稿では,シミュレーションに基づく検証のスケーラビリティと形式検証の完全性とを効果的に組み合わせる。 提案手法は,形式モデル生成やヒント抽出時に手作業による介入を必要とせず,実際のファームウェアやハードウェア実装に適用可能である。 状態空間の複雑さを軽減するため,静的モジュールレベルの解析と検証シナリオの動的実行の両方を用いてシステムレベルのヒントを自動的に生成する。 これらのヒントは、基盤となるソルバが証明を使ってスケーラブルな等価性チェックを行うためのガイドとなる。 抽出されたヒントは、証明に使用する前に実装に対して検証される。 RISC-Vに基づくシステムにおいて,シナリオベースの分解と自動ヒント抽出による拡張性を示す。 さらに、完全に自動化されたフレームワークは、実際のファームウェアハードウェア実装における複雑なバグを特定できます。

Hardware-firmware co-verification is critical to design trustworthy systems. While formal methods can provide verification guarantees, due to the complexity of firmware and hardware, it can lead to state space explosion. There are promising avenues to reduce the state space during firmware verification through manual abstraction of hardware or manual generation of hints. Manual development of abstraction or hints requires domain expertise and can be time-consuming and error-prone, leading to incorrect proofs or inaccurate results. In this paper, we effectively combine the scalability of simulation-based validation and the completeness of formal verification. Our proposed approach is applicable to actual firmware and hardware implementations without requiring any manual intervention during formal model generation or hint extraction. To reduce the state space complexity, we utilize both static module-level analysis and dynamic execution of verification scenarios to automatically generate system-level hints. These hints guide the underlying solver to perform scalable equivalence checking using proofs. The extracted hints are validated against the implementation before using them in the proofs. Experimental evaluation on RISC-V based systems demonstrates that our proposed framework is scalable due to scenario-based decomposition and automated hint extraction. Moreover, our fully automated framework can identify complex bugs in actual firmware-hardware implementations.
翻訳日:2023-10-23 07:51:38 公開日:2023-09-14
# ソフトウェアデブロの逆境を解き明かす

Unleashing the Adversarial Facet of Software Debloating ( http://arxiv.org/abs/2309.08058v1 )

ライセンス: Link先を確認
Do-Men Su, Mohannad Alhanahnah(参考訳) ソフトウェア破壊技術は、ユーザの要求に基づいてプログラムの特別なバージョンを作成し、それに従って無関係なコードを削除するために適用される。 崩壊したプログラムはおそらく、元のプログラムとは対照的に、より良い性能を維持し、攻撃面を減少させる。 本研究は,マルウェア分類領域における機械学習システムの堅牢性に対するソフトウェアデブロケート手法の適用の有効性を明らかにする。 我々は,機械学習によるマルウェア分類モデルを誤用するソフトウェア破壊手法を,敵がいかに活用できるかを実証的に研究する。 ソフトウェアデ肥大化手法を適用して敵の例を生成し,その逆の例がウイルスTotalの検出率を低下させることを示す。 本研究は,マルウェアの検出・分類だけでなく,他のソフトウェア領域においても,敵対的機械学習の研究の新たな方向性を開く。

Software debloating techniques are applied to craft a specialized version of the program based on the user's requirements and remove irrelevant code accordingly. The debloated programs presumably maintain better performance and reduce the attack surface in contrast to the original programs. This work unleashes the effectiveness of applying software debloating techniques on the robustness of machine learning systems in the malware classification domain. We empirically study how an adversarial can leverage software debloating techniques to mislead machine learning malware classification models. We apply software debloating techniques to generate adversarial examples and demonstrate these adversarial examples can reduce the detection rate of VirusTotal. Our study opens new directions for research into adversarial machine learning not only in malware detection/classification but also in other software domains.
翻訳日:2023-10-23 07:41:19 公開日:2023-09-14
# テストケースの生成とテスト Oracle によるハイブリッドモデルによるテスト CPS のサポート

Test Case Generation and Test Oracle Support for Testing CPSs using Hybrid Models ( http://arxiv.org/abs/2309.07994v1 )

ライセンス: Link先を確認
Zahra Sadri-Moshkenani, Justin Bradley, Gregg Rothermel(参考訳) CPS(Cyber-Physical Systems)は、医療機器、自動運転車、スマートホームなど、幅広い自律的な物理的システムの振る舞いにおいて中心的な役割を果たす。 CPSはしばしば、開発サイクルの初期段階でシミュレーションシステムを介してテストできる、異なるレベルのモデルのシーケンスとして反復的に指定される。 そのようなモデルの1つはハイブリッドオートマトンであり、これらはCPSアプリケーションで頻繁に使用され、連続したCPS動作と離散的なCPS動作の両方をカプセル化する利点がある。 CPSをテストする場合、エンジニアはこれらのモデルを利用して、両方のタイプの振る舞いをターゲットとしたテストケースを生成することができる。 さらに、これらのモデルは、CPSの開発プロセスの初期に構築されているため、CPSのシミュレーションモデルが設計される前であっても、これらのCPSのためのテストケースをそのプロセスの早い段階で生成することができる。 CPSをテストする際の課題の1つは、これらのシステムが同一に適用されたテストシナリオの下でも異なる動作をすることができることである。 このような場合、所定の決定論的振る舞いを使用するテストオラクルは使用できません。代わりに、テストオラクルは、CPSが適切に振舞ったかどうかを決定するために、望ましい振る舞いのセットを考慮すべきです。 本稿では,開発サイクルの早い段階でcpsをテストするために,適切なテストオラクルを伴うハイブリッドモデルに基づいたテストケースを生成するテストケース生成手法hytestを提案する。 ハイテストの有効性と有効性を評価するために,複数のcpsにこの技術を適用し,それらのcpsにおける障害の検出能力とテストプロセスに要する時間を測定する実験を行った。 その結果,hytestは,我々が比較したベースライン手法よりも効率的に,効率的に障害を検出することができた。

Cyber-Physical Systems (CPSs) play a central role in the behavior of a wide range of autonomous physical systems such as medical devices, autonomous vehicles, and smart homes, many of which are safety-critical. CPSs are often specified iteratively as a sequence of models at different levels that can be tested via simulation systems at early stages of their development cycle. One such model is a hybrid automaton; these are used frequently for CPS applications and have the advantage of encapsulating both continuous and discrete CPS behaviors. When testing CPSs, engineers can take advantage of these models to generate test cases that target both types of these behaviors. Moreover, since these models are constructed early in the development process for CPSs, they allow test cases to be generated early in that process for those CPSs, even before simulation models of the CPSs have been designed. One challenge when testing CPSs is that these systems may operate differently even under an identically applied test scenario. In such cases, we cannot employ test oracles that use predetermined deterministic behaviors; instead, test oracles should consider sets of desired behaviors in order to determine whether the CPS has behaved appropriately. In this paper we present a test case generation technique, HYTEST, that generates test cases based on hybrid models, accompanied by appropriate test oracles, for use in testing CPSs early in their development cycle. To evaluate the effectiveness and efficiency of HYTEST, we conducted an empirical study in which we applied the technique to several CPSs and measured its ability to detect faults in those CPSs and the amount of time required to perform the testing process. The results of the study show that HYTEST was able to detect faults more effectively and efficiently than the baseline techniques we compare it to.
翻訳日:2023-10-23 07:41:06 公開日:2023-09-14
# 機械学習可能なシステムを特定する際の懸念の特定--視点に基づくアプローチ

Identifying Concerns When Specifying Machine Learning-Enabled Systems: A Perspective-Based Approach ( http://arxiv.org/abs/2309.07980v1 )

ライセンス: Link先を確認
Hugo Villamizar, Marcos Kalinowski, Helio Lopes, Daniel Mendez(参考訳) 機械学習(ml)対応のエンジニアリングは、理論面と実用面の両方から様々な課題を提起する。 これらの課題には、顧客やマネージャ、さらには他のチームメンバーからのML機能に対する非現実的な期待に効果的に対処する方法、学際的なチームによって構成されるエンジニアリングとデータサイエンス活動にビジネス価値を接続する方法などが含まれる。 本稿では、MLと非MLコンポーネントを含むどの属性がシステム全体の品質に寄与するかを実践者が識別するのに役立つパースペクティブベースのアプローチであるPerSpecMLを提案する。 このアプローチでは、実践者がMLプロジェクトで直面する典型的なタスクに関連する59の懸念を分析し、システム目標、ユーザエクスペリエンス、インフラストラクチャ、モデル、データという5つの視点にグループ化します。 これらの視点は、ビジネスオーナー、ドメインエキスパート、デザイナ、ソフトウェアおよびMLエンジニア、データサイエンティスト間のコミュニケーションを仲介するのに役立ちます。 PerSpecMLの作成には、さまざまなコンテキストで実施された一連の検証が含まれている。 academia (複数形 academias) (ii)産業代表者、及び (iii)2つの実産業ケーススタディにおいて。 さまざまなバリデーションと継続的改善の結果、PerSpecMLは有望なアプローチであり、ML対応システムの仕様に肯定的な影響を与え、特にPerSpecMLを使わずに見逃されたであろう重要なコンポーネントを明らかにするのに役立っている。

Engineering successful machine learning (ML)-enabled systems poses various challenges from both a theoretical and a practical side. Among those challenges are how to effectively address unrealistic expectations of ML capabilities from customers, managers and even other team members, and how to connect business value to engineering and data science activities composed by interdisciplinary teams. In this paper, we present PerSpecML, a perspective-based approach for specifying ML-enabled systems that helps practitioners identify which attributes, including ML and non-ML components, are important to contribute to the overall system's quality. The approach involves analyzing 59 concerns related to typical tasks that practitioners face in ML projects, grouping them into five perspectives: system objectives, user experience, infrastructure, model, and data. Together, these perspectives serve to mediate the communication between business owners, domain experts, designers, software and ML engineers, and data scientists. The creation of PerSpecML involved a series of validations conducted in different contexts: (i) in academia, (ii) with industry representatives, and (iii) in two real industrial case studies. As a result of the diverse validations and continuous improvements, PerSpecML stands as a promising approach, poised to positively impact the specification of ML-enabled systems, particularly helping to reveal key components that would have been otherwise missed without using PerSpecML.
翻訳日:2023-10-23 07:40:36 公開日:2023-09-14
# WASM-MUTATE:WebAssemblyの高速で効果的なバイナリの多様化

WASM-MUTATE: Fast and Effective Binary Diversification for WebAssembly ( http://arxiv.org/abs/2309.07638v1 )

ライセンス: Link先を確認
Javier Cabrera-Arteaga, Nicholas Fitzgerald, Martin Monperrus and Benoit Baudry(参考訳) webassemblyは、ブラウザ環境やサーバにおける効率性とセキュリティで有名です。 WebAssemblyコンパイラとツールの急成長するエコシステムには、堅牢なソフトウェア多様化システムがない。 コンパイラに依存しないWebAssembly多様化エンジンであるWASM-MUTATEを紹介する。 以下の基準を満たすよう設計されている。 1) 意味的に等価だが行動的に異なるWebAssemblyの亜種を迅速に生成する。 2) ソースプログラミング言語に関係なく、webassemblyプログラムの普遍的適用性、および 3) リスクの高いセキュリティ脅威に対処する能力。 eグラフデータ構造を利用することで、WASM-MUTATEは高速かつ効果的である。 実験の結果,WASM-MUTATEは数万種類のWebAssemblyを数分で効率的に生成できることがわかった。 特にWASM-MUTATEは、WebAssemblyバイナリをタイミングサイドチャネル攻撃、特にSpectreから保護することができる。

WebAssembly has is renowned for its efficiency and security in browser environments and servers alike. The burgeoning ecosystem of WebAssembly compilers and tools lacks robust software diversification systems. We introduce WASM-MUTATE, a compiler-agnostic WebAssembly diversification engine. It is engineered to fulfill the following key criteria: 1) the rapid generation of semantically equivalent yet behaviorally diverse WebAssembly variants, 2) universal applicability to any WebAssembly programs regardless of the source programming language, and 3) the capability to counter high-risk security threats. Utilizing an e-graph data structure, WASM-MUTATE is both fast and effective. Our experiments reveal that WASM-MUTATE can efficiently generate tens of thousands of unique WebAssembly variants in a matter of minutes. Notably, WASM-MUTATE can protect WebAssembly binaries against timing side-channel attacks, specifically, Spectre.
翻訳日:2023-10-23 07:40:13 公開日:2023-09-14
# スマートグリッドハザード解析と実験仕様の体系化に向けて

Towards a Systematic Approach for Smart Grid Hazard Analysis and Experiment Specification ( http://arxiv.org/abs/2309.07629v1 )

ライセンス: Link先を確認
Paul Smith, Eva Piatkowska, Edmund Widl, Filip Pr\"ostl Andr\'en, Thomas I. Strasser(参考訳) スマートグリッドへの移行は、電力システムの設計と運用に複雑さをもたらす。 この複雑さは、例えばシステム間の予期せぬ相互作用とサイバー攻撃によって生じる安全関連の損失をもたらす可能性がある。 したがって、システム設計において、潜在的な損失とその根本原因を特定することが重要である。 これは自明ではなく、体系的なアプローチが必要です。 さらに、複雑さのため、損失につながる可能性のある状況を推論することは不可能になり、この場合、実験が必要である。 本稿では,システム理論的プロセス分析 (stpa) は,安全性に関連するハザードシナリオを特定するためのシステムアプローチであり, erigrid holistic test description (htd) は, 実験の洗練と文書化のための構造化アプローチを提供する。 これらの手法を組み合わせる意図は、実験で検証できるハザード分析への体系的なアプローチを可能にすることである。 本稿では,この手法を低電圧配電ネットワークにおけるリアクティブ電力電圧制御ケーススタディで使用例を示す。

The transition to the smart grid introduces complexity to the design and operation of electric power systems. This complexity has the potential to result in safety-related losses that are caused, for example, by unforeseen interactions between systems and cyber-attacks. Consequently, it is important to identify potential losses and their root causes, ideally during system design. This is non-trivial and requires a systematic approach. Furthermore, due to complexity, it may not possible to reason about the circumstances that could lead to a loss; in this case, experiments are required. In this work, we present how two complementary deductive approaches can be usefully integrated to address these concerns: Systems Theoretic Process Analysis (STPA) is a systems approach to identifying safety-related hazard scenarios; and the ERIGrid Holistic Test Description (HTD) provides a structured approach to refine and document experiments. The intention of combining these approaches is to enable a systematic approach to hazard analysis whose findings can be experimentally tested. We demonstrate the use of this approach with a reactive power voltage control case study for a low voltage distribution network.
翻訳日:2023-10-23 07:40:04 公開日:2023-09-14
# スマートグリッドのhil検証のためのリアルタイムシミュレータの非同期統合

Asynchronous Integration of Real-Time Simulators for HIL-based Validation of Smart Grids ( http://arxiv.org/abs/2309.07625v1 )

ライセンス: Link先を確認
Catalin Gavriluta, Georg Lauss, Thomas I. Strasser, Juan Montoya, Ron Brandl, Panos Kotsampopoulos(参考訳) 電気グリッドと相互作用するデバイスの風景が広がるにつれて、これらの相互作用から生じるシナリオの複雑さも増大する。 検証メソッドとツールは一般的にドメイン固有で、主にコンポーネントレベルのテストにアプローチするように設計されている。 この種のアプリケーション、ソフトウェア、ハードウェア・イン・ザ・ループ・ベースのシミュレーション、そして実験室の実験は、開発ライフサイクルの様々な段階で異なる精度でテストできるツールである。 しかし、システムレベルの検証を行うためのツールや方法論を分析する場合、状況は大きく異なります。 これまで、異なるドメインのコンポーネントを含む複雑なユースケースをテストするための、明確に定義されたアプローチはありません。 smart gridアプリケーションは通常、比較的多くの物理デバイス、ソフトウェアコンポーネント、通信技術を含む。 本稿では,実時間シミュレータを共シミュレーション環境に統合することにより,テストの観点で開く可能性について検討する。 このようなシステムと性能指標の3つの実践的実装について考察した。 提案手法の能力を示すために2つの制御関連例が選択される。

As the landscape of devices that interact with the electrical grid expands, also the complexity of the scenarios that arise from these interactions increases. Validation methods and tools are typically domain specific and are designed to approach mainly component level testing. For this kind of applications, software and hardware-in-the-loop based simulations as well as lab experiments are all tools that allow testing with different degrees of accuracy at various stages in the development life-cycle. However, things are vastly different when analysing the tools and the methodology available for performing system-level validation. Until now there are no available well-defined approaches for testing complex use cases involving components from different domains. Smart grid applications would typically include a relatively large number of physical devices, software components, as well as communication technology, all working hand in hand. This paper explores the possibilities that are opened in terms of testing by the integration of a real-time simulator into co-simulation environments. Three practical implementations of such systems together with performance metrics are discussed. Two control-related examples are selected in order to show the capabilities of the proposed approach.
翻訳日:2023-10-23 07:39:46 公開日:2023-09-14
# 探索型ユニットテスト生成における複数の基準を組み合わせたカバレッジ目標選択

Coverage Goal Selector for Combining Multiple Criteria in Search-Based Unit Test Generation ( http://arxiv.org/abs/2309.07518v1 )

ライセンス: Link先を確認
Zhichao Zhou, Yuming Zhou, Chunrong Fang, Zhenyu Chen, Xiapu Luo, Jingzhu He, and Yutian Tang(参考訳) 単体テストはソフトウェア開発プロセスにとって重要であり、プログラム(例えばメソッド)における基本的なプログラミングユニットの正確性を保証する。 検索ベースのソフトウェアテスト(SBST)は、テストケースを生成する自動化アプローチである。 SBSTは、カバレッジ基準(ブランチカバレッジなど)を指定することで、遺伝的アルゴリズムによるテストケースを生成する。 しかし、優れたテストスイートは異なる特性を持つ必要があり、個々のカバレッジ基準を使用してキャプチャできない。 したがって、最先端のアプローチは複数の基準を組み合わせてテストケースを生成する。 複数のカバレッジ基準を組み合わせることで最適化の目的が複数のため、単一の基準を使用する場合と比較して、特定の基準に対するテストスイートのカバレッジが損なわれる。 この問題に対処するため,我々は \textbf{smart selection} という新しい手法を提案する。 基準間のカバレッジ相関とカバレッジ目標間の仮定関係に基づいて、スマートセレクションはカバレッジ目標のサブセットを選択し、最適化目標の数を減らし、すべての基準の特性の欠如を回避する。 私たちは、400ドルのjavaクラスで3つの最先端の遺伝的アルゴリズムを使ってスマート選択を評価する実験を2分間の予算で行います。 平均すると、スマートセレクションは、この2つのアプローチに大きな違いがあるクラスのうち、65.1\%$ですべてのゴールを組み合わせるのを上回っている。 次に,カバレッジ基準関係の仮定を検証する実験を行った。 さらに、さまざまな予算($5、$8、$10)で実験を行い、すべての目標を組み合わせることよりもスマート選択のメリットを確認しました。

Unit testing is critical to the software development process, ensuring the correctness of basic programming units in a program (e.g., a method). Search-based software testing (SBST) is an automated approach to generating test cases. SBST generates test cases with genetic algorithms by specifying the coverage criterion (e.g., branch coverage). However, a good test suite must have different properties, which cannot be captured using an individual coverage criterion. Therefore, the state-of-the-art approach combines multiple criteria to generate test cases. Since combining multiple coverage criteria brings multiple objectives for optimization, it hurts the test suites' coverage for certain criteria compared with using the single criterion. To cope with this problem, we propose a novel approach named \textbf{smart selection}. Based on the coverage correlations among criteria and the subsumption relationships among coverage goals, smart selection selects a subset of coverage goals to reduce the number of optimization objectives and avoid missing any properties of all criteria. We conduct experiments to evaluate smart selection on $400$ Java classes with three state-of-the-art genetic algorithms under the $2$-minute budget. On average, smart selection outperforms combining all goals on $65.1\%$ of the classes having significant differences between the two approaches. Secondly, we conduct experiments to verify our assumptions about coverage criteria relationships. Furthermore, we experiment with different budgets of $5$, $8$, and $10$ minutes, confirming the advantage of smart selection over combining all goals.
翻訳日:2023-10-23 07:39:30 公開日:2023-09-14
# TII-SSRC-23データセット:侵入検知のための多様な交通パターンのタイポロジー探索

TII-SSRC-23 Dataset: Typological Exploration of Diverse Traffic Patterns for Intrusion Detection ( http://arxiv.org/abs/2310.10661v1 )

ライセンス: Link先を確認
Dania Herzalla, Willian T. Lunardi, Martin Andreoni Lopez(参考訳) 主に機械学習に基づくネットワーク侵入検知システムの有効性は、トレーニング対象のデータセットの影響を強く受けている。 これらのデータセットにおける良性と悪質なトラフィックの多面的性質の正確な反映は、幅広い侵入パターンを認識して対応できるモデルを作成する上で不可欠である。 しかし、既存のデータセットはしばしば不足しており、必要な多様性や現代のネットワーク環境との整合が欠如しており、侵入検出の有効性が制限されている。 本稿では,これらの課題を克服するための新しい包括的データセットであるTII-SSRC-23を紹介する。 さまざまな種類のトラフィックタイプとサブタイプを含む私たちのデータセットは、研究コミュニティにとって堅牢で汎用的なツールです。 さらに,重要度分析を行い,侵入検知タスクの重要な特徴について重要な知見を提供する。 大規模な実験を通じて,我々のデータセットを用いた教師付き・教師なし侵入検知手法の確立と,ネットワークセキュリティの急速な変化にともなう侵入検出モデルの進展と適応性に寄与する。 私たちのデータセットはhttps://kaggle.com/datasets/daniaherzalla/tii-ssrc-23で利用可能です。

The effectiveness of network intrusion detection systems, predominantly based on machine learning, are highly influenced by the dataset they are trained on. Ensuring an accurate reflection of the multifaceted nature of benign and malicious traffic in these datasets is essential for creating models capable of recognizing and responding to a wide array of intrusion patterns. However, existing datasets often fall short, lacking the necessary diversity and alignment with the contemporary network environment, thereby limiting the effectiveness of intrusion detection. This paper introduces TII-SSRC-23, a novel and comprehensive dataset designed to overcome these challenges. Comprising a diverse range of traffic types and subtypes, our dataset is a robust and versatile tool for the research community. Additionally, we conduct a feature importance analysis, providing vital insights into critical features for intrusion detection tasks. Through extensive experimentation, we also establish firm baselines for supervised and unsupervised intrusion detection methodologies using our dataset, further contributing to the advancement and adaptability of intrusion detection models in the rapidly changing landscape of network security. Our dataset is available at https://kaggle.com/datasets/daniaherzalla/tii-ssrc-23.
翻訳日:2023-10-23 02:34:30 公開日:2023-09-14
# 遺伝子制御ニューラルネットワークを用いた生物AIのための非線形分類器の安定性解析

Stability Analysis of Non-Linear Classifiers using Gene Regulatory Neural Network for Biological AI ( http://arxiv.org/abs/2310.04424v1 )

ライセンス: Link先を確認
Adrian Ratwatte, Samitha Somathilaka, Sasitharan Balasubramaniam and Assaf A. Gilad(参考訳) 生物細胞の遺伝子調節ネットワーク(GRN)は、異なる環境条件下での適応と生存を可能にする重要な機能を多数支配している。 GRNの綿密な観察は、構造と運用原則が、生物学的人工知能の発展の道を開くことができるニューラルネットワーク(ANN)に似ていることを示している。 特に、遺伝子の転写および翻訳過程は転写因子入力に基づくシグモダル様の性質に似ている。 本稿では,2層転写翻訳化学反応モデルを用いた遺伝子パーセプトロンの数学的モデルを構築し,GRNを遺伝子制御ニューラルネットワーク(GRNN)に変換する。 完全連結grnnサブネットワーク内の各遺伝子パーセプトロンの安定性解析を行い、時間的および安定した濃度出力を判定し、信頼性の高い計算性能を得る。 我々は,汎用多層GRNNと,超音速実験データから導出したE.Coli GRNNを解析する,GRNNの非線形分類アプリケーションに焦点を当てた。 分析の結果,化学反応のパラメータが変化することにより,分類領域の境界が変化し,多様なアプリケーション要件に適合するプログラム可能なGRNNのプラットフォームが構築できることがわかった。

The Gene Regulatory Network (GRN) of biological cells governs a number of key functionalities that enables them to adapt and survive through different environmental conditions. Close observation of the GRN shows that the structure and operational principles resembles an Artificial Neural Network (ANN), which can pave the way for the development of Biological Artificial Intelligence. In particular, a gene's transcription and translation process resembles a sigmoidal-like property based on transcription factor inputs. In this paper, we develop a mathematical model of gene-perceptron using a dual-layered transcription-translation chemical reaction model, enabling us to transform a GRN into a Gene Regulatory Neural Network (GRNN). We perform stability analysis for each gene-perceptron within the fully-connected GRNN sub network to determine temporal as well as stable concentration outputs that will result in reliable computing performance. We focus on a non-linear classifier application for the GRNN, where we analyzed generic multi-layer GRNNs as well as E.Coli GRNN that is derived from trans-omic experimental data. Our analysis found that varying the parameters of the chemical reactions can allow us shift the boundaries of the classification region, laying the platform for programmable GRNNs that suit diverse application requirements.
翻訳日:2023-10-15 14:47:11 公開日:2023-09-14
# 大きな言語モデルを使ってユーザー意図の分類を生成、検証、適用する

Using Large Language Models to Generate, Validate, and Apply User Intent Taxonomies ( http://arxiv.org/abs/2309.13063v1 )

ライセンス: Link先を確認
Chirag Shah, Ryen W. White, Reid Andersen, Georg Buscher, Scott Counts, Sarkar Snigdha Sarathi Das, Ali Montazer, Sathish Manivannan, Jennifer Neville, Xiaochuan Ni, Nagu Rangan, Tara Safavi, Siddharth Suri, Mengting Wan, Leijie Wang, Longqi Yang(参考訳) ログデータは、ユーザがWeb検索サービスとどのように対話するか、何を望んでいるか、そしてその満足度について、貴重な情報を明らかにすることができる。 しかし、特にAI駆動チャットのような新しい形式のWeb検索では、ログデータのユーザの意図を分析することは容易ではない。 ログデータからユーザの意図を理解するには、多様性とダイナミクスを捉えた有意義なカテゴリをラベル付けする方法が必要です。 既存のメソッドは手動またはMLベースのラベリングに依存している。 本稿では,ユーザ意図に対するリッチで関連する概念や記述,例を生成可能な,大規模言語モデル(LLM)を用いた新しいソリューションを提案する。 しかし、llmを使用してユーザ意図の分類を生成してログ解析を行うには、その分類法が外部に検証されていないことと、望ましくないフィードバックループが存在することの2つの主な理由から問題となる。 これらの課題を克服するために,人間の専門家と評価者による新たな方法論を提案し,LLMによる分類の質を検証する。 また、ログデータのユーザインテント分析にラベルを生成、精製、使用するために、ループ内の人間によるllmを使用するエンドツーエンドパイプラインも提示する。 本手法は,人的労力を最小限に抑えて,Webスケールログデータのユーザ意図をスケーラブルかつ適応的に分析する方法を提供する。 我々は,Bingの検索とチャットログからユーザ意図に対する新たな洞察を明らかにすることで,その効果を実証する。

Log data can reveal valuable information about how users interact with web search services, what they want, and how satisfied they are. However, analyzing user intents in log data is not easy, especially for new forms of web search such as AI-driven chat. To understand user intents from log data, we need a way to label them with meaningful categories that capture their diversity and dynamics. Existing methods rely on manual or ML-based labeling, which are either expensive or inflexible for large and changing datasets. We propose a novel solution using large language models (LLMs), which can generate rich and relevant concepts, descriptions, and examples for user intents. However, using LLMs to generate a user intent taxonomy and apply it to do log analysis can be problematic for two main reasons: such a taxonomy is not externally validated, and there may be an undesirable feedback loop. To overcome these issues, we propose a new methodology with human experts and assessors to verify the quality of the LLM-generated taxonomy. We also present an end-to-end pipeline that uses an LLM with human-in-the-loop to produce, refine, and use labels for user intent analysis in log data. Our method offers a scalable and adaptable way to analyze user intents in web-scale log data with minimal human effort. We demonstrate its effectiveness by uncovering new insights into user intents from search and chat logs from Bing.
翻訳日:2023-10-01 12:26:03 公開日:2023-09-14
# 動的量子相転移への複素力学的アプローチ:ポッツモデル

Complex dynamics approach to dynamical quantum phase transitions: the Potts model ( http://arxiv.org/abs/2308.14827v2 )

ライセンス: Link先を確認
Somendra M. Bhattacharjee(参考訳) 本稿では1次元および2次元量子3状態ポッツモデルにおける動的量子相転移を研究するための複素力学法を紹介する。 クエンチは無限の横フィールドをオフにする。 時間依存ロスシュミットエコーは、熱ボルツマン因子が正の実軸に沿っており、量子時間発展が単位円に沿っている複素平面における正確な再正規化群(rg)変換によって評価される。 RG の繰り返し応用によって構成される複素力学の特徴の1つは、相転移を決定するジュリア集合である。 特別な境界条件は遷移の性質を変化させる可能性を示し、転送行列計算により一次元系に対する主張を検証する。 2次元では、交互に対称性を破る遷移と回復遷移があり、どちらもキュリー点の臨界にもかかわらず一階である。 加えて、ジュリア集合のフラクタル性のため、より微細な構造が存在する。 本手法は,多変数問題,高次元,有理関数として表される近似 rg 変換に拡張することができる。

This paper introduces complex dynamics methods to study dynamical quantum phase transitions in the one- and two-dimensional quantum 3-state Potts model. The quench involves switching off an infinite transverse field. The time-dependent Loschmidt echo is evaluated by an exact renormalization group (RG) transformation in the complex plane where the thermal Boltzmann factor is along the positive real axis, and the quantum time evolution is along the unit circle. One of the characteristics of the complex dynamics constituted by repeated applications of RG is the Julia set, which determines the phase transitions. We show that special boundary conditions can alter the nature of the transitions, and verify the claim for the one-dimensional system by transfer matrix calculations. In two dimensions, there are alternating symmetry-breaking and restoring transitions, both of which are first-order, despite the criticality of the Curie point. In addition, there are finer structures because of the fractal nature of the Julia set. Our approach can be extended to multi-variable problems, higher dimensions, and approximate RG transformations expressed as rational functions.
翻訳日:2023-09-24 04:22:44 公開日:2023-09-14
# TCGF:多視点表現学習のための統合テンソル化コンセンサスグラフフレームワーク

TCGF: A unified tensorized consensus graph framework for multi-view representation learning ( http://arxiv.org/abs/2309.09987v1 )

ライセンス: Link先を確認
Xiangzhu Meng, Wei Wei, Qiang Liu, Shu Wu, Liang Wang(参考訳) マルチビュー学習技術は最近、複数のビューにまたがる一貫性と補完的な情報を活用する能力で、機械学習領域で大きな注目を集めています。 しかしながら、既存の作業をスケーラブルで堅牢な学習フレームワークに統合する、一般化されたマルチビューフレームワークに関する十分な研究がまだ残っていない。 さらに、多くのマルチビュー学習は、特定のスケールシナリオに重きを置き、段階的に複数のスケールを効果的に理解できない。 これらの制限は、複数の視点から本質的な情報を効果的に融合することを妨げる。 このような制約に対処するため,本研究ではTensorized Consensus Graph Framework (TCGF) という汎用多視点表現学習フレームワークを提案する。 具体的には、まず既存のマルチビューワークに統一されたフレームワークを提供し、個々のビューの表現を活用し、任意の仮定と異なるスケールのデータセットに適合することを目指している。 そしてそれらを高次表現としてアライメント基本の下でテンソルに積み重ねることで、一貫性の円滑な伝播とすべてのビューにわたる補完的情報を可能にする。 さらに,全ビューを適応的に協調して共有するコンセンサス埋め込みを学習し,ビュー・コンセンサス・グルーピング効果を利用してビュー・コンセンサス表現を規則化するマルチビューデータの本質的構造を明らかにする。 さらに、関連する研究をさらに促進するため、交流最適化戦略を適用することで効率的に解くことができる大規模データセットのためのtcgfの具体的実装を提供する。 7つの異なるスケールのデータセットで行った実験結果は、既存の最先端のマルチビュー学習手法と比較して提案したTCGFの優位性を示している。

Multi-view learning techniques have recently gained significant attention in the machine learning domain for their ability to leverage consistency and complementary information across multiple views. However, there remains a lack of sufficient research on generalized multi-view frameworks that unify existing works into a scalable and robust learning framework, as most current works focus on specific styles of multi-view models. Additionally, most multi-view learning works rely heavily on specific-scale scenarios and fail to effectively comprehend multiple scales holistically. These limitations hinder the effective fusion of essential information from multiple views, resulting in poor generalization. To address these limitations, this paper proposes a universal multi-view representation learning framework named Tensorized Consensus Graph Framework (TCGF). Specifically, it first provides a unified framework for existing multi-view works to exploit the representations for individual view, which aims to be suitable for arbitrary assumptions and different-scales datasets. Then, stacks them into a tensor under alignment basics as a high-order representation, allowing for the smooth propagation of consistency and complementary information across all views. Moreover, TCGF proposes learning a consensus embedding shared by adaptively collaborating all views to uncover the essential structure of the multi-view data, which utilizes view-consensus grouping effect to regularize the view-consensus representation. To further facilitate related research, we provide a specific implementation of TCGF for large-scale datasets, which can be efficiently solved by applying the alternating optimization strategy. Experimental results conducted on seven different-scales datasets indicate the superiority of the proposed TCGF against existing state-of-the-art multi-view learning methods.
翻訳日:2023-09-24 03:52:50 公開日:2023-09-14
# 脳波信号によるAI駆動型統合失調症の診断 : 2002-2023年の総合的レビュー

Empowering Precision Medicine: AI-Driven Schizophrenia Diagnosis via EEG Signals: A Comprehensive Review from 2002-2023 ( http://arxiv.org/abs/2309.12202v1 )

ライセンス: Link先を確認
Mahboobeh Jafari, Delaram Sadeghi, Afshin Shoeibi, Hamid Alinejad-Rokny, Amin Beheshti, David L\'opez Garc\'ia, Zhaolin Chen, U. Rajendra Acharya, Juan M. Gorriz(参考訳) 統合失調症 (SZ) は認知、感情、行動の変化を特徴とする精神疾患である。 SZの症状には幻覚、錯覚、妄想、動機の欠如、集中の困難などがある。 SZの診断には、臨床面接、身体検査、心理的評価、精神障害の診断と統計マニュアル(DSM)、神経画像技術など、様々なツールが使用される。 脳波記録(EEG)は、SZ中の脳機能に関する貴重な洞察を提供する重要な機能的神経画像モダリティである。 しかし、脳波信号解析は、人工物の存在、長期記録、および複数のチャネルの利用により、神経学者や科学者にとって課題となる。 これらの課題に対処するため、研究者はSZ診断を支援するために、従来の機械学習(ML)とディープラーニング(DL)メソッドを含む人工知能(AI)技術を導入した。 本研究は、脳波信号とAI手法を用いたSZ診断に焦点を当てた論文をレビューする。 紹介部は、SZ診断方法と介入手法の包括的説明を提供する。 その後、この分野におけるレビュー論文について論じ、続いてSZ診断に使用されるAI手法と、表形式で提示された関連論文の概要を紹介する。 さらに本研究は,SZ診断における最も重大な課題について報告し,本分野における論文のレビューを通じて確認した。 これらの課題を克服する今後の方向性にも対処する。 議論部は、各論文の具体的詳細を検証し、結論と結果の提示に終止符を打つ。

Schizophrenia (SZ) is a prevalent mental disorder characterized by cognitive, emotional, and behavioral changes. Symptoms of SZ include hallucinations, illusions, delusions, lack of motivation, and difficulties in concentration. Diagnosing SZ involves employing various tools, including clinical interviews, physical examinations, psychological evaluations, the Diagnostic and Statistical Manual of Mental Disorders (DSM), and neuroimaging techniques. Electroencephalography (EEG) recording is a significant functional neuroimaging modality that provides valuable insights into brain function during SZ. However, EEG signal analysis poses challenges for neurologists and scientists due to the presence of artifacts, long-term recordings, and the utilization of multiple channels. To address these challenges, researchers have introduced artificial intelligence (AI) techniques, encompassing conventional machine learning (ML) and deep learning (DL) methods, to aid in SZ diagnosis. This study reviews papers focused on SZ diagnosis utilizing EEG signals and AI methods. The introduction section provides a comprehensive explanation of SZ diagnosis methods and intervention techniques. Subsequently, review papers in this field are discussed, followed by an introduction to the AI methods employed for SZ diagnosis and a summary of relevant papers presented in tabular form. Additionally, this study reports on the most significant challenges encountered in SZ diagnosis, as identified through a review of papers in this field. Future directions to overcome these challenges are also addressed. The discussion section examines the specific details of each paper, culminating in the presentation of conclusions and findings.
翻訳日:2023-09-24 03:44:44 公開日:2023-09-14
# quaver: 視覚的エンゲージメントとストーリーテリングリソースによる量子展開

QUAVER: Quantum Unfoldment through Visual Engagement and Storytelling Resources ( http://arxiv.org/abs/2309.11511v1 )

ライセンス: Link先を確認
Ishan Shivansh Bangroo, Samia Amir(参考訳) 効果的な指導を提供し、資源の理解を促進するタスクは、量子コンピューティングの分野においてかなりの困難であり、主に主題の複雑な性質に起因する。 本研究に基づく観察的研究"quaver"は,視覚的ツールとナラティブ構成を用いることが,この領域における理解と関与を著しく促進する可能性を秘めている。 2サンプルの t-test などの有意な解析手法では, t-statistic と p-value の2つの群間に有意な統計的差異がみられ, 視覚的ナラティブ戦略の有意な効果が示された。 我々の研究の重要な側面は、視覚的および物語的コンポーネントの統合を最適化するために特別に設計されたエキサイティングなアルゴリズムフレームワークの実装である。 このアルゴリズムは高度なヒューリスティックな手法を用いて視覚データと物語をシームレスに統合し、学習者に一貫性があり魅力的な指導体験を提供する。 この素材の設計は、視覚信号と物語構成との相互作用を効果的に管理し、量子コンピューティングの主題に対して理想的なエンゲージメントと理解をもたらす。 本研究は,視覚情報と物語の組み合わせが量子コンピューティング教育への参加に有意な影響を及ぼす証拠として,代替仮説を強く支持するものである。 この研究は、量子コンピューティングの教育に重要なアプローチを導入するだけでなく、デジタル時代の複雑な科学教育における視覚的および物語的支援のより広範な効果を示すものである。

The task of providing effective instruction and facilitating comprehension of resources is a substantial difficulty in the field of Quantum Computing, mostly attributable to the complicated nature of the subject matter. Our research-based observational study "QUAVER" is rooted on the premise that the use of visual tools and narrative constructions has the potential to significantly augment comprehension and involvement within this domain. Prominent analytical techniques, such as the two-sample t-test, revealed a significant statistical difference between the two groups, as shown by the t-statistic and p-value, highlighting the considerable effectiveness of the visual-narrative strategy. One crucial aspect of our study is on the implementation of an exciting algorithmic framework designed specifically to optimize the integration of visual and narrative components in an integrated way. This algorithm utilizes sophisticated heuristic techniques to seamlessly integrate visual data and stories, offering learners a coherent and engaging instructional experience. The design of the material effectively manages the interplay between visual signals and narrative constructions, resulting in an ideal level of engagement and understanding for quantum computing subject. The results of our study strongly support the alternative hypothesis, providing evidence that the combination of visual information and stories has a considerable positive impact on participation in quantum computing education. This study not only introduces a significant approach to teaching quantum computing but also demonstrates the wider effectiveness of visual and narrative aids in complex scientific education in the digital age.
翻訳日:2023-09-24 03:43:36 公開日:2023-09-14
# いつの基礎モデルが基礎モデルになるのか

When is a Foundation Model a Foundation Model ( http://arxiv.org/abs/2309.11510v1 )

ライセンス: Link先を確認
Saghir Alfasly, Peyman Nejat, Sobhan Hemati, Jibran Khan, Isaiah Lahr, Areej Alsaafin, Abubakr Shafique, Nneka Comfere, Dennis Murphree, Chady Meroueh, Saba Yasir, Aaron Mangold, Lisa Boardman, Vijay Shah, Joaquin J. Garcia, and H.R. Tizhoosh(参考訳) 近年,医学分野における画像テキストモデリングの基礎モデルの微調整について,Twitter や PubMed などのオンラインデータソースの画像を利用した研究が報告されている。 ファンデーションモデルは、非常に広範なデータセットのトレーニングを通じて、特定のドメインのコンテキストを学習できる、大規模で深い人工知能ニューラルネットワークである。 検証を通して,これらのモデルが生成する表現は,従来よりはるかに小さい深層ネットワークで生成した表現と比較して,デジタル病理学における検索タスクにおいて劣る性能を示すことを見出した。

Recently, several studies have reported on the fine-tuning of foundation models for image-text modeling in the field of medicine, utilizing images from online data sources such as Twitter and PubMed. Foundation models are large, deep artificial neural networks capable of learning the context of a specific domain through training on exceptionally extensive datasets. Through validation, we have observed that the representations generated by such models exhibit inferior performance in retrieval tasks within digital pathology when compared to those generated by significantly smaller, conventional deep networks.
翻訳日:2023-09-24 03:43:08 公開日:2023-09-14
# FedFNN:Federated Recommenderシステムの更新予測によるトレーニング収束の高速化

FedFNN: Faster Training Convergence Through Update Predictions in Federated Recommender Systems ( http://arxiv.org/abs/2309.08635v1 )

ライセンス: Link先を確認
Francesco Fabbri, Xianghang Liu, Jack R. McKenzie, Bartlomiej Twardowski, and Tri Kurniawan Wijaya(参考訳) Federated Learning(FL)は、分散機械学習の重要なアプローチとして現れ、ユーザのデータのプライバシを確保しながら、オンラインパーソナライゼーションを強化している。 従来のアプローチのようにプライベートデータを中央サーバに送信する代わりに、flは計算を分散化する: デバイスはローカルにトレーニングし、グローバルサーバと更新を共有する。 この設定における最大の課題は、高速で正確なモデルトレーニングを達成することだ。 本稿では、分散モデルトレーニングを高速化するアルゴリズムであるFedFNNを紹介する。 flでは、ユーザーのサブセットのみが各トレーニング期間に関わっている。 FedFNNは教師付き学習を使用して、サンプルセットからの更新を使用して、アンサンプされたユーザからのウェイトアップデートを予測する。 私たちの評価は 実データと合成データを使って 1.FedFNNは、指導方法よりも5倍速く、精度を維持または改善する。 2. クライアントクラスタの変動に関わらず,アルゴリズムの性能は一定である。 3. FedFNNは、クライアントの可用性が制限されたシナリオで他のメソッドよりも優れており、より迅速に収束する。

Federated Learning (FL) has emerged as a key approach for distributed machine learning, enhancing online personalization while ensuring user data privacy. Instead of sending private data to a central server as in traditional approaches, FL decentralizes computations: devices train locally and share updates with a global server. A primary challenge in this setting is achieving fast and accurate model training - vital for recommendation systems where delays can compromise user engagement. This paper introduces FedFNN, an algorithm that accelerates decentralized model training. In FL, only a subset of users are involved in each training epoch. FedFNN employs supervised learning to predict weight updates from unsampled users, using updates from the sampled set. Our evaluations, using real and synthetic data, show: 1. FedFNN achieves training speeds 5x faster than leading methods, maintaining or improving accuracy; 2. the algorithm's performance is consistent regardless of client cluster variations; 3. FedFNN outperforms other methods in scenarios with limited client availability, converging more quickly.
翻訳日:2023-09-19 21:58:19 公開日:2023-09-14
# 二重高次元コンテキスト帯域:関節補間加工の解釈可能なモデル

Doubly High-Dimensional Contextual Bandits: An Interpretable Model for Joint Assortment-Pricing ( http://arxiv.org/abs/2309.08634v1 )

ライセンス: Link先を確認
Junhui Cai, Ran Chen, Martin J. Wainwright, Linda Zhao(参考訳) 小売業を営む際の主な課題は、消費者に提示する商品(品揃え問題)の選択方法、収益や利益を最大化するために製品(価格問題)の価格設定方法である。 これらの問題を個別に考える代わりに、文脈的包帯に基づく価格設定への共同アプローチを提案する。 我々のモデルは2次元の高次元であり、文脈ベクトルと行動の両方が高次元空間で値を取ることができる。 次元の呪いを回避するために,共変量と作用の相互作用を(近傍の)低ランク表現行列を介して捉える,単純かつ柔軟なモデルを提案する。 結果として得られるモデルのクラスは、潜在因子を解釈しながら合理的に表現され、特定のケースとして様々な構造化線形バンドと価格モデルを含む。 本稿では,探索・探索プロトコルと効率的な低ランク行列推定器を組み合わせた計算処理手法を提案する。 シミュレーションの結果, この手法は, 各種標準バンディットおよび価格モデルに適用した最先端手法よりも, 後悔度が低いことがわかった。 業界主導のインスタント麺会社から新興の美容スタートアップまで, 価格問題の実情を事例として, 本手法で実現可能な利益を実証した。 いずれの場合も,学習した潜在要因モデルの解釈可能性に加えて,バンディット法による収益あるいは利益の少なくとも3倍の利益を示す。

Key challenges in running a retail business include how to select products to present to consumers (the assortment problem), and how to price products (the pricing problem) to maximize revenue or profit. Instead of considering these problems in isolation, we propose a joint approach to assortment-pricing based on contextual bandits. Our model is doubly high-dimensional, in that both context vectors and actions are allowed to take values in high-dimensional spaces. In order to circumvent the curse of dimensionality, we propose a simple yet flexible model that captures the interactions between covariates and actions via a (near) low-rank representation matrix. The resulting class of models is reasonably expressive while remaining interpretable through latent factors, and includes various structured linear bandit and pricing models as particular cases. We propose a computationally tractable procedure that combines an exploration/exploitation protocol with an efficient low-rank matrix estimator, and we prove bounds on its regret. Simulation results show that this method has lower regret than state-of-the-art methods applied to various standard bandit and pricing models. Real-world case studies on the assortment-pricing problem, from an industry-leading instant noodles company to an emerging beauty start-up, underscore the gains achievable using our method. In each case, we show at least three-fold gains in revenue or profit by our bandit method, as well as the interpretability of the latent factor models that are learned.
翻訳日:2023-09-19 21:58:02 公開日:2023-09-14
# アンカーポイント: 少ない例でベンチマークモデル

Anchor Points: Benchmarking Models with Much Fewer Examples ( http://arxiv.org/abs/2309.08638v1 )

ライセンス: Link先を確認
Rajan Vivek, Kawin Ethayarajh, Diyi Yang, Douwe Kiela(参考訳) 現代の言語モデルは、しばしば強力だが不安定な振る舞いを示し、その振る舞いを確実に評価するより大きく、より多様なベンチマークの開発につながる。 ここでは,モデルの性能を,より小さな評価セットでベンチマークし,解くことを提案する。 まず,6つの人気言語分類ベンチマークにおいて,多くの点に対する正しいクラスに対するモデル信頼度は,モデル間で強く相関していることを示す。 Anchor Point Selectionは、データセット全体のモデル挙動をキャプチャするデータセットの小さなサブセットを選択するテクニックである。 1-30アンカーポイントを用いたモデルの評価は、正確なランキングモデルにおける一様サンプリングやその他のベースラインよりも優れています。 さらに、いくつかのアンカーポイントを使用して、低平均の絶対誤差を持つデータセット内の他のすべてのポイントにおけるクラス毎のモデル予測を見積もることができる。 最後に,これらの知見を可視化し,データセット分布内の様々な領域における異なるモデルの性能比較を容易にするアンカーポイントマップを提案する。

Modern language models often exhibit powerful but brittle behavior, leading to the development of larger and more diverse benchmarks to reliably assess their behavior. Here, we suggest that model performance can be benchmarked and elucidated with much smaller evaluation sets. We first show that in six popular language classification benchmarks, model confidence in the correct class on many pairs of points is strongly correlated across models. We build upon this phenomenon to propose Anchor Point Selection, a technique to select small subsets of datasets that capture model behavior across the entire dataset. Anchor points reliably rank models: across 87 diverse language model-prompt pairs, evaluating models using 1-30 anchor points outperforms uniform sampling and other baselines at accurately ranking models. Moreover, just several anchor points can be used to estimate model per-class predictions on all other points in a dataset with low mean absolute error, sufficient for gauging where the model is likely to fail. Lastly, we present Anchor Point Maps for visualizing these insights and facilitating comparisons of the performance of different models on various regions within the dataset distribution.
翻訳日:2023-09-19 20:12:32 公開日:2023-09-14
# TextBind:マルチターンインターリーブマルチモーダルインストラクションフォロー

TextBind: Multi-turn Interleaved Multimodal Instruction-following ( http://arxiv.org/abs/2309.08637v1 )

ライセンス: Link先を確認
Huayang Li and Siheng Li and Deng Cai and Longyue Wang and Lemao Liu and Taro Watanabe and Yujiu Yang and Shuming Shi(参考訳) 命令追従能力を持つ大規模言語モデルは、人工知能の分野に革命をもたらした。 これらのモデルは、自然言語インターフェイスを通じて様々な現実世界のタスクに取り組むための例外的な一般化性を示している。 しかし、その性能は高品質な模範データに大きく依存しており、入手が難しいことが多い。 この課題は、マルチモーダル命令のフォローに関してさらに悪化する。 マルチターンインターリーブ型マルチモーダル命令追従機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。 本手法では,画像キャプチャペアのみを必要とし,言語モデルからマルチターンマルチモーダル命令応答会話を生成する。 我々は,マルチモーダルインストラクションの分野における今後の研究を促進するために,データセット,モデル,デモをリリースする。

Large language models with instruction-following abilities have revolutionized the field of artificial intelligence. These models show exceptional generalizability to tackle various real-world tasks through their natural language interfaces. However, their performance heavily relies on high-quality exemplar data, which is often difficult to obtain. This challenge is further exacerbated when it comes to multimodal instruction following. We introduce TextBind, an almost annotation-free framework for empowering larger language models with the multi-turn interleaved multimodal instruction-following capabilities. Our approach requires only image-caption pairs and generates multi-turn multimodal instruction-response conversations from a language model. We release our dataset, model, and demo to foster future research in the area of multimodal instruction following.
翻訳日:2023-09-19 20:12:14 公開日:2023-09-14
# chatgpt v bard v bing v claude 2 v aria v human-expert。 科学書のAIチャットボットはどれくらい優れているか? (第23q3)

ChatGPT v Bard v Bing v Claude 2 v Aria v human-expert. How good are AI chatbots at scientific writing? (ver. 23Q3) ( http://arxiv.org/abs/2309.08636v1 )

ライセンス: Link先を確認
Edisa Lozi\'c and Benjamin \v{S}tular(参考訳) 歴史的には、有能な文章は人間の進歩に不可欠と考えられており、創造的な表現は人間の達成の目印の一つと見なされていた。 しかし、最近の生成aiの進歩は、科学的な執筆を含むこの物語の転換点となった。 本稿では,人文科学と考古学における6つのAIチャットボットの能力と限界について,包括的に分析する。 この手法は、人間の専門家による定量的精度と質的精度のために、AI生成されたコンテンツをタグ付けする。 定量的精度は事実の正確性を評価し、質的精度は科学的貢献度を測定した。 AIチャットボット、特にChatGPT-4は、既存の知識を再結合する能力を示したが、元の科学コンテンツを生成できなかった。 また,この結果から,ChatGPT-4ではLLMのサイズが減少していたことが示唆された。 さらに,本論文は,人間研究の複雑かつ再帰的な性質を強調する。 生データを洗練された知識に変換するこのプロセスは、AIチャットボットが科学的な文章の中で人間の独創性をエミュレートする上で直面する課題を浮き彫りにしている。 結論として、大規模な言語モデルはコンテンツ生成に革命をもたらしたが、人文科学における独自の科学的貢献を生み出す能力は限られている。 近い将来、LLMベースのAIチャットボットをLLMベースのソフトウェアに進化させることで、この状況は変わるものと期待している。

Historically, proficient writing was deemed essential for human advancement, with creative expression viewed as one of the hallmarks of human achievement. However, recent advances in generative AI have marked an inflection point in this narrative, including for scientific writing. This article provides a comprehensive analysis of the capabilities and limitations of six AI chatbots in scholarly writing in the humanities and archaeology. The methodology was based on tagging AI generated content for quantitative accuracy and qualitative precision by human experts. Quantitative accuracy assessed the factual correctness, while qualitative precision gauged the scientific contribution. While the AI chatbots, especially ChatGPT-4, demonstrated proficiency in recombining existing knowledge, they failed in generating original scientific content. As a side note, our results also suggest that with ChatGPT-4 the size of the LLMs has plateaued. Furthermore, the paper underscores the intricate and recursive nature of human research. This process of transforming raw data into refined knowledge is computationally irreducible, which highlights the challenges AI chatbots face in emulating human originality in scientific writing. In conclusion, while large language models have revolutionised content generation, their ability to produce original scientific contributions in the humanities remains limited. We expect that this will change in the near future with the evolution of current LLM-based AI chatbots towards LLM-powered software.
翻訳日:2023-09-19 20:12:00 公開日:2023-09-14
# 人工知能と統計的結束

Artificial Intelligence and Statistical Collusion ( http://arxiv.org/abs/2202.05946v4 )

ライセンス: Link先を確認
Martino Banchio, Giacomo Mantegazza(参考訳) 学習アルゴリズム間の戦略的相互作用を研究するための扱いやすいモデルを開発した。 アルゴリズム的共謀の出現の原因となるメカニズムを明らかにする。 我々は,静的ナッシュ平衡よりも利益の高い行動に対して,アルゴリズムが定期的に協調するのを観察した。 この新たな畳み込みチャネルは、自然結合と呼ばれるアルゴリズムの推定における内因性統計リンクに依存している。 モデルのパラメータは、統計的な連鎖が現れるかどうかを予測し、どの市場構造がアルゴリズム的結束を促進するかを予測する。 自発的結合が価格と市場シェアの結束を持続し,文献における実験的知見を補完することを示した。 最後に、アルゴリズム市場の設計に結果を適用します。

We develop a tractable model for studying strategic interactions between learning algorithms. We uncover a mechanism responsible for the emergence of algorithmic collusion. We observe that algorithms periodically coordinate on actions that are more profitable than static Nash equilibria. This novel collusive channel relies on an endogenous statistical linkage in the algorithms' estimates which we call spontaneous coupling. The model's parameters predict whether the statistical linkage will appear, and what market structures facilitate algorithmic collusion. We show that spontaneous coupling can sustain collusion in prices and market shares, complementing experimental findings in the literature. Finally, we apply our results to design algorithmic markets.
翻訳日:2023-09-18 19:28:09 公開日:2023-09-14
# 列型作物の自律ナビゲーションのためのディープラーニング駆動アルゴリズムパイプライン

A Deep Learning Driven Algorithmic Pipeline for Autonomous Navigation in Row-Based Crops ( http://arxiv.org/abs/2112.03816v2 )

ライセンス: Link先を確認
Simone Cerrato, Vittorio Mazzia, Francesco Salvetti, Mauro Martini, Simone Angarano, Alessandro Navone, Marcello Chiaberge(参考訳) 高価なセンサーと非効率なアルゴリズムパイプラインは、自律機械全体のコストに大きな影響を及ぼす。 しかし、安価なロボットソリューションは実用上必須であり、その経済的影響は、ほとんどの応用分野においてサービスロボティクスを採用することの基本的な要件となっている。 中でも、精密農業分野の研究者は、真に大規模な競合ソリューションを提供するために、堅牢でコスト効率の高い自律プラットフォームを開発しようとしている。 本稿では,ローレンジセンサと季節変動に特化して設計された,行ベースの自律ナビゲーションのための完全なアルゴリズムパイプラインを提案する。 まず、我々は、自律機械の実行可能な経路を生成するための堅牢なデータ駆動手法を構築し、フィールドの占有グリッドマップ情報のみを含む作物の完全な拡張をカバーします。 さらに,本手法は,近年のディープラーニング最適化技術とデータ合成の進歩を活用し,よく知られたグローバルナビゲーション衛星システムの信頼性の低下と,内部の植生の増大による劣化に効果的に取り組む,安価なソリューションを提供する。 計算機環境や実世界の作物に対する広範囲な実験とシミュレーションは、高度に安価で完全な自律的な機械の可能性を開く手法の堅牢性と本質的な一般化性を実証した。

Expensive sensors and inefficient algorithmic pipelines significantly affect the overall cost of autonomous machines. However, affordable robotic solutions are essential to practical usage, and their financial impact constitutes a fundamental requirement to employ service robotics in most fields of application. Among all, researchers in the precision agriculture domain strive to devise robust and cost-effective autonomous platforms in order to provide genuinely large-scale competitive solutions. In this article, we present a complete algorithmic pipeline for row-based crops autonomous navigation, specifically designed to cope with low-range sensors and seasonal variations. Firstly, we build on a robust data-driven methodology to generate a viable path for the autonomous machine, covering the full extension of the crop with only the occupancy grid map information of the field. Moreover, our solution leverages on latest advancement of deep learning optimization techniques and synthetic generation of data to provide an affordable solution that efficiently tackles the well-known Global Navigation Satellite System unreliability and degradation due to vegetation growing inside rows. Extensive experimentation and simulations against computer-generated environments and real-world crops demonstrated the robustness and intrinsic generalizability of our methodology that opens the possibility of highly affordable and fully autonomous machines.
翻訳日:2023-09-18 19:28:02 公開日:2023-09-14
# PDE用物理増幅ディープサロゲート

Physics-enhanced deep surrogates for PDEs ( http://arxiv.org/abs/2111.05841v3 )

ライセンス: Link先を確認
Rapha\"el Pestourie, Youssef Mroueh, Chris Rackauckas, Payel Das, Steven G. Johnson(参考訳) 多くの物理学と工学の応用は、資源集約型高忠実度数値解法で伝統的に計算される部分微分方程式(PDE)特性評価を要求する。 データ駆動サロゲートモデルは効率的な代替手段を提供するが、トレーニングのかなりのコストが伴う。 新興のアプリケーションは、大規模に研究しながら、精度とコストのトレードオフを改善したsurrogatesの恩恵を受けるだろう。 本稿では,複雑な物理系のための高速サーロゲートモデルを開発するための"peds" (physics-enhanced deep-surrogate) アプローチを提案する。 具体的には,高価な高忠実度数値解法器の出力をグローバルにマッチさせるために,エンドツーエンドに訓練された,低忠実度で説明可能な物理シミュレータとニューラルネットワーク生成器の組み合わせを提案する。 3つの典型的なテストケース、拡散、反応拡散、電磁散乱モデルの実験により、PEDSサロゲートは、限られたデータを持つフィードフォワードニューラルネットワークのアンサンブル(「アプロックス10^3$」)よりも3$\times$の精度で、目標誤差を達成するために少なくとも100倍のトレーニングデータを必要とすることが示されている。 実験により、PEDSは、複雑なシステムをモデル化し、精度、速度、データ効率、およびプロセスへの物理的な洞察を提供する、多数の単純化された物理モデルのギャップを埋める一般的なデータ駆動戦略を提供することが明らかになった。

Many physics and engineering applications demand Partial Differential Equations (PDE) property evaluations that are traditionally computed with resource-intensive high-fidelity numerical solvers. Data-driven surrogate models provide an efficient alternative but come with a significant cost of training. Emerging applications would benefit from surrogates with an improved accuracy-cost tradeoff, while studied at scale. Here we present a "physics-enhanced deep-surrogate" ("PEDS") approach towards developing fast surrogate models for complex physical systems, which is described by PDEs. Specifically, a combination of a low-fidelity, explainable physics simulator and a neural network generator is proposed, which is trained end-to-end to globally match the output of an expensive high-fidelity numerical solver. Experiments on three exemplar testcases, diffusion, reaction-diffusion, and electromagnetic scattering models, show that a PEDS surrogate can be up to 3$\times$ more accurate than an ensemble of feedforward neural networks with limited data ($\approx 10^3$ training points), and reduces the training data need by at least a factor of 100 to achieve a target error of 5%. Experiments reveal that PEDS provides a general, data-driven strategy to bridge the gap between a vast array of simplified physical models with corresponding brute-force numerical solvers modeling complex systems, offering accuracy, speed, data efficiency, as well as physical insights into the process.
翻訳日:2023-09-18 19:27:40 公開日:2023-09-14
# Marginal Product Basis システムを用いた多次元関数データ解析

Efficient Multidimensional Functional Data Analysis Using Marginal Product Basis Systems ( http://arxiv.org/abs/2107.14728v4 )

ライセンス: Link先を確認
William Consagra, Arun Venkataraman, Xing Qiu(参考訳) 神経画像や統計学などの領域からの多くの現代のデータセットは、スムーズな多次元ランダム関数のノイズ観測として理解できるテンソル値データのランダムサンプルの形で提供される。 関数型データ分析の伝統的な手法のほとんどは、次元性の呪いに悩まされ、ドメインの次元が大きくなるにつれて、すぐに魅力が増す。 本稿では,複数の呪文の出現に免疫を持つ多次元関数データのサンプルから連続表現を学習するためのフレームワークを提案する。 これらの表現は、データに最適に適合するように定義された分離可能な基底関数の集合を用いて構成される。 得られた推定問題は、注意深く定義された観測データの還元変換のテンソル分解によって効率よく解けることを示す。 粗さに基づく正則化は、微分作用素に基づく罰則のクラスを用いて行われる。 関連する理論的性質も確立されている。 本手法の競合手法に対する利点はシミュレーション研究で実証された。 我々は、ニューロイメージングにおける真のデータ応用で結論付ける。

Many modern datasets, from areas such as neuroimaging and geostatistics, come in the form of a random sample of tensor-valued data which can be understood as noisy observations of a smooth multidimensional random function. Most of the traditional techniques from functional data analysis are plagued by the curse of dimensionality and quickly become intractable as the dimension of the domain increases. In this paper, we propose a framework for learning continuous representations from a sample of multidimensional functional data that is immune to several manifestations of the curse. These representations are constructed using a set of separable basis functions that are defined to be optimally adapted to the data. We show that the resulting estimation problem can be solved efficiently by the tensor decomposition of a carefully defined reduction transformation of the observed data. Roughness-based regularization is incorporated using a class of differential operator-based penalties. Relevant theoretical properties are also established. The advantages of our method over competing methods are demonstrated in a simulation study. We conclude with a real data application in neuroimaging.
翻訳日:2023-09-18 19:27:10 公開日:2023-09-14
# 遷移確率に対する資源可変近距離量子アルゴリズムの改良と物理学および変分量子線形代数への応用

Improved resource-tunable near-term quantum algorithms for transition probabilities, with applications in physics and variational quantum linear algebra ( http://arxiv.org/abs/2206.14213v3 )

ライセンス: Link先を確認
Nicolas PD Sawaya, Joonsuk Huh(参考訳) 遷移振幅と遷移確率は、応答特性と相関関数の計算を含む物理学シミュレーションの多くの領域に関係している。 これらの量もまた方程式の線形系を解くことに関係している。 ここでは遷移確率を計算するための3つの関連アルゴリズムを提案する。 まず、2つの入力状態が非直交的になるように,前述した短距離アルゴリズムを拡張する。 この第1の手順に基づいて、回路評価の少ないトロッター化とリチャードソン外挿に基づくより深いアルゴリズムを導出する。 第3に、回路の深さと測定の複雑さをトレードオフできるチューナブルアルゴリズムを導入し、特定のハードウェア特性に合わせて調整可能なアルゴリズムを導出する。 最後に、物理学および化学のモデルおよび変分量子線形解法(vqls)のサブルーチンに対する原理証明数値を実装した。 私たちのアプローチの一番の利点は (a) 任意の非直交状態は、量子資源のわずかな増加と共に用いられる。 b) 我々は(最近提案された他の方法と同様に)3ビットゲートの分解を必要とするハダマール試験のようなサブルーチンを完全に回避し、 c) 遷移確率に対するnisqアルゴリズムの以前の状態と比較して、量子回路評価がより少ない場合も少なくなる。

Transition amplitudes and transition probabilities are relevant to many areas of physics simulation, including the calculation of response properties and correlation functions. These quantities can also be related to solving linear systems of equations. Here we present three related algorithms for calculating transition probabilities. First, we extend a previously published short-depth algorithm, allowing for the two input states to be non-orthogonal. Building on this first procedure, we then derive a higher-depth algorithm based on Trotterization and Richardson extrapolation that requires fewer circuit evaluations. Third, we introduce a tunable algorithm that allows for trading off circuit depth and measurement complexity, yielding an algorithm that can be tailored to specific hardware characteristics. Finally, we implement proof-of-principle numerics for models in physics and chemistry and for a subroutine in variational quantum linear solving (VQLS). The primary benefits of our approaches are that (a) arbitrary non-orthogonal states may now be used with small increases in quantum resources, (b) we (like another recently proposed method) entirely avoid subroutines such as the Hadamard test that may require three-qubit gates to be decomposed, and (c) in some cases fewer quantum circuit evaluations are required as compared to the previous state-of-the-art in NISQ algorithms for transition probabilities.
翻訳日:2023-09-18 19:18:13 公開日:2023-09-14
# Tac2Pose:最初のタッチから触覚オブジェクトポス推定

Tac2Pose: Tactile Object Pose Estimation from the First Touch ( http://arxiv.org/abs/2204.11701v3 )

ライセンス: Link先を確認
Maria Bauza, Antonia Bronars, Alberto Rodriguez(参考訳) 本稿では,既知物体に対する第1タッチからの触覚ポーズ推定のための物体固有アプローチであるtac2poseを提案する。 物体形状を考慮に入れ, 触覚観測により, 被写体に対する確率分布を推定するシミュレーションにおいて, 適切な知覚モデルを学ぶ。 そのために、センサに密集したオブジェクトのポーズが生じるような接触形状をシミュレートする。 そして,センサから得られた新しい接触形状を,コントラスト学習を用いて学習した物体固有の埋め込みを用いて,事前計算した集合と照合する。 rgb触覚観測を2元接触形状にマッピングする物体非依存キャリブレーションステップを用いて,センサから接触形状を求める。 このマッピングは、オブジェクトとセンサーインスタンス間で再利用できるが、実際のセンサーデータでトレーニングされる唯一のステップである。 この結果、最初の実触覚観察から物体を局所化する知覚モデルが得られる。 重要なことは、ポーズ分布を生成し、他の知覚システム、連絡先、または事前からの追加のポーズ制約を組み込むことができる。 20個のオブジェクトに対して定量的な結果を提供する。 tac2poseは、異なる物体のポーズから生じる可能性のある接触形状を考慮し、有意義なポーズ分布を回帰しながら、特徴的な触覚観察から高い精度のポーズ推定を提供する。 また,3dスキャナから再構成したオブジェクトモデルに対してtac2poseをテストし,オブジェクトモデルの不確かさに対するロバスト性を評価する。 最後に、触覚ポーズ推定のための3つの基本手法と比較して、Tac2Poseの利点を実証する: 物体のポーズを直接ニューラルネットワークで回帰し、標準分類ニューラルネットワークを用いて観測された接触と可能な接触のセットをマッチングし、観測された接触と可能な接触のセットを直接ピクセル比較する。 Webサイト: http://mcube.mit.edu/research/tac2pose.html

In this paper, we present Tac2Pose, an object-specific approach to tactile pose estimation from the first touch for known objects. Given the object geometry, we learn a tailored perception model in simulation that estimates a probability distribution over possible object poses given a tactile observation. To do so, we simulate the contact shapes that a dense set of object poses would produce on the sensor. Then, given a new contact shape obtained from the sensor, we match it against the pre-computed set using an object-specific embedding learned using contrastive learning. We obtain contact shapes from the sensor with an object-agnostic calibration step that maps RGB tactile observations to binary contact shapes. This mapping, which can be reused across object and sensor instances, is the only step trained with real sensor data. This results in a perception model that localizes objects from the first real tactile observation. Importantly, it produces pose distributions and can incorporate additional pose constraints coming from other perception systems, contacts, or priors. We provide quantitative results for 20 objects. Tac2Pose provides high accuracy pose estimations from distinctive tactile observations while regressing meaningful pose distributions to account for those contact shapes that could result from different object poses. We also test Tac2Pose on object models reconstructed from a 3D scanner, to evaluate the robustness to uncertainty in the object model. Finally, we demonstrate the advantages of Tac2Pose compared with three baseline methods for tactile pose estimation: directly regressing the object pose with a neural network, matching an observed contact to a set of possible contacts using a standard classification neural network, and direct pixel comparison of an observed contact with a set of possible contacts. Website: http://mcube.mit.edu/research/tac2pose.html
翻訳日:2023-09-18 19:17:22 公開日:2023-09-14
# gp-bart:ガウス過程を用いた新しいベイズ加法回帰木アプローチ

GP-BART: a novel Bayesian additive regression trees approach using Gaussian processes ( http://arxiv.org/abs/2204.02112v4 )

ライセンス: Link先を確認
Mateus Maia, Keefe Murphy, Andrew C. Parnell(参考訳) ベイズ加法的回帰木(Bayesian additive Regressive Tree, BART)モデルは、連続的に強い予測性能と不確かさを定量化する能力により、回帰タスクにおいて広範囲にかつうまく使用されるアンサンブル法である。 BARTは「弱」ツリーモデルと一連の縮小前のモデルを組み合わせることで、各ツリーはデータの変動性のごく一部を説明する。 しかし、標準的なBARTにおける観測結果に対する滑らかさの欠如と明示的な共分散構造が欠如していることは、そのような仮定が必要とされる場合に性能が劣る可能性がある。 ガウス過程ベイズ加法回帰木(gp-bart)モデルは、すべての木々の各終端ノードの予測にガウス過程(gp)を優先すると仮定することで、bartの拡張である。 モデルの有効性はシミュレーションおよび実世界のデータに適用して実証され、様々なシナリオにおける従来のモデリングアプローチのパフォーマンスを上回っている。

The Bayesian additive regression trees (BART) model is an ensemble method extensively and successfully used in regression tasks due to its consistently strong predictive performance and its ability to quantify uncertainty. BART combines "weak" tree models through a set of shrinkage priors, whereby each tree explains a small portion of the variability in the data. However, the lack of smoothness and the absence of an explicit covariance structure over the observations in standard BART can yield poor performance in cases where such assumptions would be necessary. The Gaussian processes Bayesian additive regression trees (GP-BART) model is an extension of BART which addresses this limitation by assuming Gaussian process (GP) priors for the predictions of each terminal node among all trees. The model's effectiveness is demonstrated through applications to simulated and real-world data, surpassing the performance of traditional modeling approaches in various scenarios.
翻訳日:2023-09-18 19:16:31 公開日:2023-09-14
# 非オブザーブド・コンファウンディングによる反事実推論について

On counterfactual inference with unobserved confounding ( http://arxiv.org/abs/2211.08209v3 )

ライセンス: Link先を確認
Abhin Shah, Raaz Dwivedi, Devavrat Shah, Gregory W. Wornell(参考訳) 独立だが不均一な単位を用いた観測的研究では,共変量,介入,結果を含む単位あたりの1$p$次元サンプルのみを用いて,各単位の反実分布を学習することが目的である。 具体的には、介入と結果の間に統計的バイアスをもたらす未観測の共起を許容し、ユニット間の不均一性を悪化させる。 結果の条件分布を指数族としてモデル化することにより,単位レベルの反事実分布の学習を,不均一なパラメータを持つ指数族分布の学習に還元する。 我々は、すべての$n$サンプルをプールして$n$パラメータベクトルを共同学習し、パラメータ空間の計量エントロピーと線形にスケールする単位軸平均二乗誤差境界を提供するconvexの目的を導入する。 例えば、パラメータが $s$-sparse linear combination of $k$ known vectorsである場合、エラーは$o(s\log k/p)$である。 途中で、対数ソボレフ不等式を満たすためのコンパクトに支持された分布の十分条件を導出する。 このフレームワークの応用として, 疎弱な共変量の一貫した含意が可能となった。

Given an observational study with $n$ independent but heterogeneous units, our goal is to learn the counterfactual distribution for each unit using only one $p$-dimensional sample per unit containing covariates, interventions, and outcomes. Specifically, we allow for unobserved confounding that introduces statistical biases between interventions and outcomes as well as exacerbates the heterogeneity across units. Modeling the conditional distribution of the outcomes as an exponential family, we reduce learning the unit-level counterfactual distributions to learning $n$ exponential family distributions with heterogeneous parameters and only one sample per distribution. We introduce a convex objective that pools all $n$ samples to jointly learn all $n$ parameter vectors, and provide a unit-wise mean squared error bound that scales linearly with the metric entropy of the parameter space. For example, when the parameters are $s$-sparse linear combination of $k$ known vectors, the error is $O(s\log k/p)$. En route, we derive sufficient conditions for compactly supported distributions to satisfy the logarithmic Sobolev inequality. As an application of the framework, our results enable consistent imputation of sparsely missing covariates.
翻訳日:2023-09-18 19:08:28 公開日:2023-09-14
# ボソニックガウス状態の一般測定のための局所モデルの構築

Constructing local models for general measurements on bosonic Gaussian states ( http://arxiv.org/abs/2210.05474v2 )

ライセンス: Link先を確認
Michael G. Jabbour and Jonatan Bohr Brask(参考訳) ガウス量子状態の与えられた測度から得られる相関の局所性について、簡単な基準を導出する。 この基準は、状態の固有ガウス雑音の一部を測定値に渡すことで機能する局所隠れ変数モデルの構築に基づいている。 その結果, 2モードのスクイーズ状態において, 変位光検出が可能となった。 ここで、この基準は、状態がまだ絡み合っている範囲のパラメータに対する局所隠れ変数モデルの存在を示す。

We derive a simple sufficient criterion for the locality of correlations obtained from given measurements on a Gaussian quantum state. The criterion is based on the construction of a local-hidden-variable model which works by passing part of the inherent Gaussian noise of the state onto the measurements. We illustrate our result in the setting of displaced photodetection on a two-mode squeezed state. Here, our criterion exhibits the existence of a local-hidden-variable model for a range of parameters where the state is still entangled.
翻訳日:2023-09-18 19:08:05 公開日:2023-09-14
# 深層ネットワークにおける多感覚統合のための臨界学習期間

Critical Learning Periods for Multisensory Integration in Deep Networks ( http://arxiv.org/abs/2210.04643v2 )

ライセンス: Link先を確認
Michael Kleinman, Alessandro Achille, Stefano Soatto(参考訳) ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階に適切に相関した信号に晒されることに批判的になる。 この初期段階での学習プロセスへの干渉は、この現象が臨界学習期間として知られる人工システムと生物学的システムの両方において、スキルの発達を永久に損なう可能性がある。 臨界周期は、訓練されたシステムの最終性能とその学習された表現を決定づける、複雑で不安定な初期過渡ダイナミクスから生じる。 この証拠は、広いネットワークと浅いネットワークの分析によって引き起こされる、ニューラルネットワークの早期学習ダイナミクスが線形モデルに類似した単純なものであるという見解に挑戦している。 実際,深層線形ネットワークでさえ,浅層ネットワークがそうでないにもかかわらず,マルチソース統合において重要な学習期間を示すことを示す。 障害や感覚障害に応じて内部表現がどのように変化するかをよりよく理解するために、トレーニング中のソースの抑制と統合を追跡できる新たなソース感度尺度を導入する。 本研究は, クロスソース・コンストラクションを自然な補助訓練対象とし, クロスセンサ・コンストラクションを訓練した建築は, 臨界期に対する耐性が著しく高いことを示すものである。 近年の自己指導型マルチモーダルトレーニングの成功は,より堅牢な学習のダイナミクスと,より優れたアーキテクチャやデータによってのみ実現されている可能性がある。

We show that the ability of a neural network to integrate information from diverse sources hinges critically on being exposed to properly correlated signals during the early phases of training. Interfering with the learning process during this initial stage can permanently impair the development of a skill, both in artificial and biological systems where the phenomenon is known as a critical learning period. We show that critical periods arise from the complex and unstable early transient dynamics, which are decisive of final performance of the trained system and their learned representations. This evidence challenges the view, engendered by analysis of wide and shallow networks, that early learning dynamics of neural networks are simple, akin to those of a linear model. Indeed, we show that even deep linear networks exhibit critical learning periods for multi-source integration, while shallow networks do not. To better understand how the internal representations change according to disturbances or sensory deficits, we introduce a new measure of source sensitivity, which allows us to track the inhibition and integration of sources during training. Our analysis of inhibition suggests cross-source reconstruction as a natural auxiliary training objective, and indeed we show that architectures trained with cross-sensor reconstruction objectives are remarkably more resilient to critical periods. Our findings suggest that the recent success in self-supervised multi-modal training compared to previous supervised efforts may be in part due to more robust learning dynamics and not solely due to better architectures and/or more data.
翻訳日:2023-09-18 19:07:58 公開日:2023-09-14
# 因果関係における新たなシナジーと深層生成モデル--調査

Emerging Synergies in Causality and Deep Generative Models: A Survey ( http://arxiv.org/abs/2301.12351v3 )

ライセンス: Link先を確認
Guanglin Zhou and Shaoan Xie and Guangyuan Hao and Shiming Chen and Biwei Huang and Xiwei Xu and Chen Wang and Liming Zhu and Lina Yao and Kun Zhang(参考訳) 人工知能(AI)の分野では、データ生成プロセス(DGP)の理解とモデル化が最重要となる。 深層生成モデル(dgms)は複雑なデータ分布を捉えるのに向いているが、しばしば一般化や解釈に不足している。 一方、因果性は、データ生成を駆動するメカニズムを理解するための構造化レンズを提供し、これらのプロセスに固有の因果効果のダイナミクスを強調する。 因果性は解釈可能性や外挿能力に優れるが、高次元空間の複雑な性質を持つ。 相乗的ポテンシャルを認識して、因果関係とDGMの合流点を掘り下げる。 我々は、DGMにおける因果原理の統合を解明し、DGMを用いた因果同定を調査し、大規模生成モデル、特に生成的大言語モデル(LLM)における因果関係の新たな研究フロンティアを探索する。 私たちは方法論に関する洞察を提供し、オープンな課題を強調し、今後の方向性を提案し、この急速に発展し進化する領域において、包括的レビューが不可欠なガイドとして位置づけています。

In the field of artificial intelligence (AI), the quest to understand and model data-generating processes (DGPs) is of paramount importance. Deep generative models (DGMs) have proven adept in capturing complex data distributions but often fall short in generalization and interpretability. On the other hand, causality offers a structured lens to comprehend the mechanisms driving data generation and highlights the causal-effect dynamics inherent in these processes. While causality excels in interpretability and the ability to extrapolate, it grapples with intricacies of high-dimensional spaces. Recognizing the synergistic potential, we delve into the confluence of causality and DGMs. We elucidate the integration of causal principles within DGMs, investigate causal identification using DGMs, and navigate an emerging research frontier of causality in large-scale generative models, particularly generative large language models (LLMs). We offer insights into methodologies, highlight open challenges, and suggest future directions, positioning our comprehensive review as an essential guide in this swiftly emerging and evolving area.
翻訳日:2023-09-18 18:57:38 公開日:2023-09-14
# SPEC5G: 5Gセルラーネットワークプロトコル分析用データセット

SPEC5G: A Dataset for 5G Cellular Network Protocol Analysis ( http://arxiv.org/abs/2301.09201v2 )

ライセンス: Link先を確認
Imtiaz Karim, Kazi Samin Mubasshir, Mirza Masfiqur Rahman, and Elisa Bertino(参考訳) 5Gは第5世代のセルラーネットワークプロトコルである。 これは最先端のグローバルワイヤレス標準であり、ほぼすべての人とを高速で接続し、遅延を低減できるように設計された高度な種類のネットワークを可能にする。 したがって、その開発、分析、およびセキュリティは重要である。 しかし、プロパティ抽出、プロトコルの要約、プロトコル仕様と実装のセマンティック分析といった5Gプロトコルの開発とセキュリティ分析に対するすべてのアプローチは、完全に手作業である。 そこで本稿では,SPEC5GをNLP研究用として初めて公開5Gデータセットとしてキュレートする。 データセットには、13094のセルラーネットワーク仕様と13のオンラインウェブサイトから、134mワードの3,547,586文が含まれている。 NLPタスクで最先端の結果を得た大規模事前学習言語モデルを活用することで、セキュリティ関連のテキスト分類と要約にこのデータセットを利用する。 セキュリティ関連テキスト分類は、プロトコルテストに関連するセキュリティ関連プロパティを抽出するために使用できる。 一方、要約は、開発者や実践者がプロトコルの高レベルなレベルを理解するのに役立つ。 以上より、5gプロトコル分析自動化における5g中心データセットの価値を示す。 我々は,SPEC5Gが5Gセルラーネットワークプロトコルと多数の下流タスクの自動解析に新たな方向性をもたらすと考えている。 私たちのデータとコードは公開されています。

5G is the 5th generation cellular network protocol. It is the state-of-the-art global wireless standard that enables an advanced kind of network designed to connect virtually everyone and everything with increased speed and reduced latency. Therefore, its development, analysis, and security are critical. However, all approaches to the 5G protocol development and security analysis, e.g., property extraction, protocol summarization, and semantic analysis of the protocol specifications and implementations are completely manual. To reduce such manual effort, in this paper, we curate SPEC5G the first-ever public 5G dataset for NLP research. The dataset contains 3,547,586 sentences with 134M words, from 13094 cellular network specifications and 13 online websites. By leveraging large-scale pre-trained language models that have achieved state-of-the-art results on NLP tasks, we use this dataset for security-related text classification and summarization. Security-related text classification can be used to extract relevant security-related properties for protocol testing. On the other hand, summarization can help developers and practitioners understand the high level of the protocol, which is itself a daunting task. Our results show the value of our 5G-centric dataset in 5G protocol analysis automation. We believe that SPEC5G will enable a new research direction into automatic analyses for the 5G cellular network protocol and numerous related downstream tasks. Our data and code are publicly available.
翻訳日:2023-09-18 18:57:17 公開日:2023-09-14
# Si/SiGe量子ドットとオフチップTiN共振器の縦結合

Longitudinal coupling between a Si/SiGe quantum dot and an off-chip TiN resonator ( http://arxiv.org/abs/2212.02736v3 )

ライセンス: Link先を確認
J. Corrigan, Benjamin Harpt, Nathan Holman, Rusko Ruskov, Piotr Marciniec, D. Rosenberg, D. Yost, R. Das, William D. Oliver, R. McDermott, Charles Tahan, Mark Friesen, and M. A. Eriksson(参考訳) 超伝導キャビティは量子ドットのスピン状態を測定する重要なツールとして登場した。 しかし、これまでドットとキャビティの間の縦結合に関する実験はほとんど行われておらず、固体量子ビットの実験では、パーセル崩壊が強く抑制される「断熱」状態が明確に解明されていない。 本稿では、高インピーダンス共振器に結合した二重量子ドット電荷量子ビットの「フリップチップ」設計形状を報告する。 adiabatic acドライブを2つの異なるチャネルを通してqubitに適用し、qubit energy detuning, interdot tunneling, and driving strengthの効果を調べることにより、qubitが基底状態にある間、qubitとキャビティの間の縦結合の存在を明確に確認することができる。 この結合は駆動振幅に比例するため、スイッチ可能であるため、量子ビット実験において強力な新しいツールになる可能性がある。

Superconducting cavities have emerged as a key tool for measuring the spin states of quantum dots. So far however, few experiments have explored longitudinal couplings between dots and cavities, and no solid-state qubit experiments have explicitly probed the "adiabatic" regime, where the Purcell decay is strongly suppressed. Here, we report measurements of a double-quantum-dot charge qubit coupled to a high-impedance resonator via a "flip-chip" design geometry. By applying an adiabatic ac drive to the qubit through two different channels, and studying the effects of qubit energy detuning, interdot tunneling, and driving strength, we are able to unequivocally confirm the presence of a longitudinal coupling between the qubit and cavity, while the qubit remains in its ground state. Since this coupling is proportional to the driving amplitude, and is therefore switchable, it has the potential to become a powerful new tool in qubit experiments.
翻訳日:2023-09-18 18:55:36 公開日:2023-09-14
# 時間力学を用いた表面符号回路のハードウェア要件の緩和

Relaxing Hardware Requirements for Surface Code Circuits using Time-dynamics ( http://arxiv.org/abs/2302.02192v2 )

ライセンス: Link先を確認
Matt McEwen, Dave Bacon, Craig Gidney(参考訳) 量子誤り訂正(QEC)符号の典型的な時間依存ビューは、ハードウェア上で実行可能な回路への分解においてかなりの自由を隠蔽する。 領域検出の概念を用いて、静的QEC符号を回路に分解する代わりに、時間動的QEC回路を直接設計する。 特に、曲面符号の標準的な回路構成を改善し、正方形格子の代わりに六角形格子に埋め込み、CNOTやCZゲートの代わりにISWAPゲートを使用し、量子ビットデータを交換して役割を計測し、実行中に物理量子ビットグリッドの周りに論理的パッチを移動させる新しい回路を提示する。 これらの構造は全て追加のエンタングルゲート層を使用しず、基本的に同じ論理的性能を示し、標準的なサーフェスコード回路の25%以内のテラクオプフットプリントを有する。 これらの回路は、ハードウェアの需要を緩和しながら、標準的なサーフェスコード回路と本質的に同じ論理性能を達成するため、量子ハードウェアエンジニアにとって大きな関心を持つだろう。

The typical time-independent view of quantum error correction (QEC) codes hides significant freedom in the decomposition into circuits that are executable on hardware. Using the concept of detecting regions, we design time-dynamic QEC circuits directly instead of designing static QEC codes to decompose into circuits. In particular, we improve on the standard circuit constructions for the surface code, presenting new circuits that can embed on a hexagonal grid instead of a square grid, that can use ISWAP gates instead of CNOT or CZ gates, that can exchange qubit data and measure roles, and that move logical patches around the physical qubit grid while executing. All these constructions use no additional entangling gate layers and display essentially the same logical performance, having teraquop footprints within 25% of the standard surface code circuit. We expect these circuits to be of great interest to quantum hardware engineers, because they achieve essentially the same logical performance as standard surface code circuits while relaxing demands on hardware.
翻訳日:2023-09-18 18:46:15 公開日:2023-09-14
# 散逸を伴わない三臨界ディックモデル

Tricritical Dicke model with and without dissipation ( http://arxiv.org/abs/2305.07109v2 )

ライセンス: Link先を確認
Diego Fallas Padilla, Han Pu(参考訳) 多層原子を含む光物質相互作用系は、平衡や力学現象をテストするためのプラットフォームとして魅力的である。 ここでは、三段階系のアンサンブルが1つの光モードと相互作用する三臨界ディッケモデルについて、一般化されたホルシュタイン-プリマコフ写像とゲルマン行列を用いた処理という2つの異なるアプローチで検討する。 どちらの方法も無限個の原子の熱力学的極限において等価である。 平衡では、系は豊かな位相図を示し、連続対称性と離散対称性の両方を自発的に破壊することができる。 スケーリングの振る舞いに応じて,様々な種類の対称性を特徴付ける。 熱力学の限界とは程遠いが、数十個の原子を考えると、この系はすでに2階遷移と1階遷移の両方を潜在的な実験で特徴付けることができる。 重要なことは, 散逸を考慮した場合, 三臨界挙動は保存されることであり, さらに, 三臨界点に収束する様々な不安定領域を有する定常相図を作成することである。 複数の安定な正規および超ラジアント相を持つことは、初期状態および/またはパラメータのクエンチを巧みに選択することによって、興味深い定常状態を工学するための将来の道を開く。

Light-matter interacting systems involving multi-level atoms are appealing platforms for testing equilibrium and dynamical phenomena. Here, we explore a tricritical Dicke model, where an ensemble of three-level systems interacts with a single light mode, through two different approaches: a generalized Holstein-Primakoff map, and a treatment using the Gell-Mann matrices. Both methods are found to be equivalent in the thermodynamic limit of an infinite number of atoms. In equilibrium, the system exhibits a rich phase diagram where both continuous and discrete symmetries can be spontaneously broken. We characterize all the different types of symmetries according to their scaling behaviors. Far from the thermodynamic limit, considering just a few tens of atoms, the system already exhibits features that could help characterize both second and first-order transitions in a potential experiment. Importantly, we show that the tricritical behavior is preserved when dissipation is taken into account, moreover, the system develops a steady-state phase diagram with various regions of bistability, all of them converging at the tricritical point. Having multiple stable normal and superradiant phases opens prospective avenues for engineering interesting steady states by a clever choice of initial states and/or parameter quenching.
翻訳日:2023-09-18 18:28:26 公開日:2023-09-14
# CVRecon:ニューラルコンストラクションのための3D幾何学的特徴学習を再考

CVRecon: Rethinking 3D Geometric Feature Learning For Neural Reconstruction ( http://arxiv.org/abs/2304.14633v3 )

ライセンス: Link先を確認
Ziyue Feng, Liang Yang, Pengsheng Guo, Bing Li(参考訳) 近年,ポーズ画像を用いた神経再建の進歩が目覚ましい進歩を遂げている。 しかし、深度情報がないため、既存のボリュームベース技術は、カメラ線全体に沿った物体表面の2次元画像特徴を単純に複製する。 この重複は空空間と閉空間にノイズをもたらし、高品質な3d幾何学を生み出す上での課題となる。 従来の多視点ステレオ手法からインスピレーションを得て,コストボリュームにリッチな幾何学的埋め込みを生かし,幾何学的特徴学習を容易にするために,エンドツーエンドの3次元ニューラルネットワーク再構成フレームワークCVReconを提案する。 さらに,ビュー依存情報をエンコードする新たな3次元幾何学的特徴表現であるrccv(ray-contextual compensationd cost volume)を提案する。 総合的な実験により, 様々な測定値の復元品質が大幅に向上し, 3次元ジオメトリの明瞭な詳細を回復できることを実証した。 我々の広範なアブレーション研究は、効果的な3次元幾何学的特徴学習スキームの開発に関する洞察を提供する。 プロジェクトページ: https://cvrecon.ziyue.cool/

Recent advances in neural reconstruction using posed image sequences have made remarkable progress. However, due to the lack of depth information, existing volumetric-based techniques simply duplicate 2D image features of the object surface along the entire camera ray. We contend this duplication introduces noise in empty and occluded spaces, posing challenges for producing high-quality 3D geometry. Drawing inspiration from traditional multi-view stereo methods, we propose an end-to-end 3D neural reconstruction framework CVRecon, designed to exploit the rich geometric embedding in the cost volumes to facilitate 3D geometric feature learning. Furthermore, we present Ray-contextual Compensated Cost Volume (RCCV), a novel 3D geometric feature representation that encodes view-dependent information with improved integrity and robustness. Through comprehensive experiments, we demonstrate that our approach significantly improves the reconstruction quality in various metrics and recovers clear fine details of the 3D geometries. Our extensive ablation studies provide insights into the development of effective 3D geometric feature learning schemes. Project page: https://cvrecon.ziyue.cool/
翻訳日:2023-09-18 18:27:19 公開日:2023-09-14
# 人-ロボットインタラクションシナリオの生成を支援するサロゲート

Surrogate Assisted Generation of Human-Robot Interaction Scenarios ( http://arxiv.org/abs/2304.13787v3 )

ライセンス: Link先を確認
Varun Bhatt, Heramb Nemlekar, Matthew C. Fontaine, Bryon Tjanaka, Hejia Zhang, Ya-Chuan Hsu, Stefanos Nikolaidis(参考訳) HRI(Human-robot Interaction)システムが進歩するにつれて、異なる環境と異なるユーザでこれらのシステムの強みや制限を評価し理解することが困難になる。 この目的のために、従来の手法は、共有制御遠隔操作タスクにおけるシステム障害を明らかにする様々なシナリオをアルゴリズムで生成している。 しかし,これらの手法では,ロボットのポリシーや人間行動のシミュレーションによって生成シナリオを直接評価する必要がある。 これらの評価の計算コストは、より複雑な領域での適用性を制限する。 そこで本研究では,人間とロボットの行動を予測するサロゲートモデルを用いたシナリオ生成システムを提案する。 共有制御遠隔操作ドメインとより複雑な共有ワークスペース協調タスクにおいて,surrogate assisted scenario generation が課題シナリオの多様なデータセットを効率的に合成することを示す。 これらの失敗は実世界の相互作用において再現可能であることを示す。

As human-robot interaction (HRI) systems advance, so does the difficulty of evaluating and understanding the strengths and limitations of these systems in different environments and with different users. To this end, previous methods have algorithmically generated diverse scenarios that reveal system failures in a shared control teleoperation task. However, these methods require directly evaluating generated scenarios by simulating robot policies and human actions. The computational cost of these evaluations limits their applicability in more complex domains. Thus, we propose augmenting scenario generation systems with surrogate models that predict both human and robot behaviors. In the shared control teleoperation domain and a more complex shared workspace collaboration task, we show that surrogate assisted scenario generation efficiently synthesizes diverse datasets of challenging scenarios. We demonstrate that these failures are reproducible in real-world interactions.
翻訳日:2023-09-18 18:26:40 公開日:2023-09-14
# 局所的最大切断に対する古典上の量子的優位性

A quantum advantage over classical for local max cut ( http://arxiv.org/abs/2304.08420v4 )

ライセンス: Link先を確認
Charlie Carlson, Zackary Jorquera, Alexandra Kolla, Steven Kordonowy(参考訳) 量子局所アルゴリズムの性能を、よく確立された組合せ最適化問題LocalMaxCut上で、類似の古典的アルゴリズムと比較する。 量子最適化近似アルゴリズム (qaoa) と呼ばれる、farhi, goldstone, gutmannn [1] によって最初に発見された一般的な量子アルゴリズムは、次数-3グラフ上の比較可能な局所的手法よりも計算上優れていることが示されている。 これらの結果は、最先端の量子ハードウェアに関連する小さな量子計算であっても、比較可能な単純な古典計算よりも大きな利点があることを示唆している。

We compare the performance of a quantum local algorithm to a similar classical counterpart on a well-established combinatorial optimization problem LocalMaxCut. We show that a popular quantum algorithm first discovered by Farhi, Goldstone, and Gutmannn [1] called the quantum optimization approximation algorithm (QAOA) has a computational advantage over comparable local classical techniques on degree-3 graphs. These results hint that even small-scale quantum computation, which is relevant to the current state-of the art quantum hardware, could have significant advantages over comparably simple classical computation.
翻訳日:2023-09-18 18:25:41 公開日:2023-09-14
# UltraGlove:Mems-Ultrasonic Sensorによる手孔推定

UltraGlove: Hand Pose Estimation with Mems-Ultrasonic Sensors ( http://arxiv.org/abs/2306.12652v2 )

ライセンス: Link先を確認
Qiang Zhang, Yuanqiao Lin, Yubin Lin, Szymon Rusinkiewicz(参考訳) ハンドトラッキングは人間とコンピュータのインタラクションの重要な側面であり、拡張現実デバイスに幅広い応用がある。 しかし、現在の手の動きを捉える方法には様々な制限がある。 例えば、視覚に基づく手ポーズ推定は自己閉塞や照明条件の変化の影響を受けやすいが、IMUベースのトラッキンググローブは大きなドリフトを経験し、外部磁場干渉には耐性がない。 これらの問題に対処するために,指に複数のmems-ultrasonicセンサーを装着し,センサ間の距離行列を測定する新しい低コストハンドトラッキンググローブを提案する。 我々の軽量深層ネットワークは距離行列から手ポーズを再構成する。 実験の結果,本手法は精度,サイズに依存し,外的干渉に対して頑健であることがわかった。 また,センサ選択,センサ構成,回路図,モデルアーキテクチャの設計ロジックも示す。

Hand tracking is an important aspect of human-computer interaction and has a wide range of applications in extended reality devices. However, current hand motion capture methods suffer from various limitations. For instance, visual-based hand pose estimation is susceptible to self-occlusion and changes in lighting conditions, while IMU-based tracking gloves experience significant drift and are not resistant to external magnetic field interference. To address these issues, we propose a novel and low-cost hand-tracking glove that utilizes several MEMS-ultrasonic sensors attached to the fingers, to measure the distance matrix among the sensors. Our lightweight deep network then reconstructs the hand pose from the distance matrix. Our experimental results demonstrate that this approach is both accurate, size-agnostic, and robust to external interference. We also show the design logic for the sensor selection, sensor configurations, circuit diagram, as well as model architecture.
翻訳日:2023-09-18 18:17:31 公開日:2023-09-14
# 物理インフォーメーションニューラルネットワークを用いた初期・後期の対流自発的塊化のシミュレーションと予測

Simulation and Prediction of Countercurrent Spontaneous Imbibition at Early and Late Times Using Physics-Informed Neural Networks ( http://arxiv.org/abs/2306.05554v3 )

ライセンス: Link先を確認
Jassem Abbasi, P{\aa}l {\O}steb{\o} Andersen(参考訳) 物理学的不定形ニューラルネットワーク(pinns)の応用は、早い時間と遅い時間に1次元の対向的自発的自転(coucsi)問題(つまり、自転前線が非流れ境界を満たす前後)を解決するために初めて研究された。 PINNの性能向上手法として,変数変更の利用を提案する。 独立変数を変化させることで, COUCSI問題を3つの等価形式で定式化した。 第1は飽和を正規化位置 X と時間 T の関数として、第2はX と Y=T^0.5 の関数として、第3は Z=X/T^0.5 の唯一の関数として記述する。 PINNモデルは、フィードフォワードニューラルネットワークを用いて生成され、物理インフォームド損失項と初期および境界条件に対応する条件を含む重み付き損失関数の最小化に基づいて訓練された。 3つの定式化はいずれも正しい解を近似することができ、水の飽和はXTおよびXYの絶対誤差が0.019、0.009、Zの定式化が0.012である。 Zの定式化は、初期のシステムの自己相似性を完璧に捉えた。 これはXTとXYの定式化によって捕えられなかった。 飽和の総変動はZの定式化で保存され,XY-はXTの定式化よりも保存性が良好であった。 物理学にインスパイアされた変数に基づいて問題を再定義することで、問題の非線形性が減少し、より高い解アキュラティ、高いロスランドスケープ凸性、必要なコロケーションポイントの少ない数、より小さなネットワークサイズ、より計算効率の良い解が可能になる。

The application of Physics-Informed Neural Networks (PINNs) is investigated for the first time in solving the one-dimensional Countercurrent spontaneous imbibition (COUCSI) problem at both early and late time (i.e., before and after the imbibition front meets the no-flow boundary). We introduce utilization of Change-of-Variables as a technique for improving performance of PINNs. We formulated the COUCSI problem in three equivalent forms by changing the independent variables. The first describes saturation as function of normalized position X and time T; the second as function of X and Y=T^0.5; and the third as a sole function of Z=X/T^0.5 (valid only at early time). The PINN model was generated using a feed-forward neural network and trained based on minimizing a weighted loss function, including the physics-informed loss term and terms corresponding to the initial and boundary conditions. All three formulations could closely approximate the correct solutions, with water saturation mean absolute errors around 0.019 and 0.009 for XT and XY formulations and 0.012 for the Z formulation at early time. The Z formulation perfectly captured the self-similarity of the system at early time. This was less captured by XT and XY formulations. The total variation of saturation was preserved in the Z formulation, and it was better preserved with XY- than XT formulation. Redefining the problem based on the physics-inspired variables reduced the non-linearity of the problem and allowed higher solution accuracies, a higher degree of loss-landscape convexity, a lower number of required collocation points, smaller network sizes, and more computationally efficient solutions.
翻訳日:2023-09-18 18:16:14 公開日:2023-09-14
# MLMプレトレーニングのための動的マスキング速度スケジューリング

Dynamic Masking Rate Schedules for MLM Pretraining ( http://arxiv.org/abs/2305.15096v2 )

ライセンス: Link先を確認
Zachary Ankner, Naomi Saphra, Davis Blalock, Jonathan Frankle, and Matthew L. Leavitt(参考訳) Masked Language Modeling (MLM) で訓練されたトランスフォーマーのほとんどの研究は、オリジナルのBERTモデルの固定マスキングレート15%を使用している。 学習中にマスキング率を動的にスケジュールすることを提案する。 プレトレーニング期間中のマスキング率を直線的に低下させることで, 平均GLUE精度は, BERTベースとBERTラージでそれぞれ0.46%, 0.25%向上することがわかった。 これらの利益は、高いマスキングレートと低いマスキングレートのレギュレーションの両方に曝露され、両方の設定から恩恵を受けている。 その結果,マスクレートスケジューリングは,BERTベースでの事前学習における最大1.89倍の高速化と,BERT大でのParetoの改善を実現し,マスキング言語モデルの品質向上の簡単な方法であることが示された。

Most works on transformers trained with the Masked Language Modeling (MLM) objective use the original BERT model's fixed masking rate of 15%. We propose to instead dynamically schedule the masking rate throughout training. We find that linearly decreasing the masking rate over the course of pretraining improves average GLUE accuracy by up to 0.46% and 0.25% in BERT-base and BERT-large, respectively, compared to fixed rate baselines. These gains come from exposure to both high and low masking rate regimes, providing benefits from both settings. Our results demonstrate that masking rate scheduling is a simple way to improve the quality of masked language models, achieving up to a 1.89x speedup in pretraining for BERT-base as well as a Pareto improvement for BERT-large.
翻訳日:2023-09-18 18:15:01 公開日:2023-09-14
# 制約時間系列生成問題について

On the Constrained Time-Series Generation Problem ( http://arxiv.org/abs/2307.01717v2 )

ライセンス: Link先を確認
Andrea Coletta, Sriram Gopalakrishan, Daniel Borrajo, Svitlana Vyetrenko(参考訳) 合成時系列は、機械学習アルゴリズムの性能向上のために履歴時系列データセットを増強し、まれな事象の発生を増幅し、時系列によって記述された反事実シナリオを作成するために、実用的な用途でしばしば使用される。 分散相似性(リアリズムと呼ぶ)と特定の数値的制約の満足度は、反実時間時系列シナリオ生成要求において共通の要件である。 例えば、米連邦準備制度理事会(Federal Reserve)は、金融機関が仮説的不況における業績を評価するための制約付き時系列によって与えられる合成市場ストレスシナリオを公表している。 制約付き時系列を生成する既存のアプローチは、通常、トレーニング損失を罰して制約を強制し、非コンフォーミングなサンプルを拒否する。 しかし、これらの手法は制約を変更した場合には再訓練が必要であり、拒否サンプリングは計算コストが高く、複雑な制約に対して実用的ではない。 本稿では,制約付き時系列生成問題に対処し,生成時系列のリアリズムを確保しつつ効率的なサンプリングを実現するための新しい手法を提案する。 特に,制約付き最適化フレームワークを用いて問題をフレーム化し,実時間時系列を生成するための誘導拡散モデルである"guideddifftime"を含む生成手法のセットを提案する。 実証的に、制約を組み込むことが重要となる金融・エネルギーデータのデータセットをいくつか評価します。 我々のアプローチは、定性的にも量的にも、既存の作業より優れています。 最も重要なことは、新しい制約のために再トレーニングが不要な唯一のソリューションは、"ガイドディフタイム(guideddifftime)"モデルであり、既存のディープラーニングメソッドを最大92%削減することを示しています。

Synthetic time series are often used in practical applications to augment the historical time series dataset for better performance of machine learning algorithms, amplify the occurrence of rare events, and also create counterfactual scenarios described by the time series. Distributional-similarity (which we refer to as realism) as well as the satisfaction of certain numerical constraints are common requirements in counterfactual time series scenario generation requests. For instance, the US Federal Reserve publishes synthetic market stress scenarios given by the constrained time series for financial institutions to assess their performance in hypothetical recessions. Existing approaches for generating constrained time series usually penalize training loss to enforce constraints, and reject non-conforming samples. However, these approaches would require re-training if we change constraints, and rejection sampling can be computationally expensive, or impractical for complex constraints. In this paper, we propose a novel set of methods to tackle the constrained time series generation problem and provide efficient sampling while ensuring the realism of generated time series. In particular, we frame the problem using a constrained optimization framework and then we propose a set of generative methods including "GuidedDiffTime", a guided diffusion model to generate realistic time series. Empirically, we evaluate our work on several datasets for financial and energy data, where incorporating constraints is critical. We show that our approaches outperform existing work both qualitatively and quantitatively. Most importantly, we show that our "GuidedDiffTime" model is the only solution where re-training is not necessary for new constraints, resulting in a significant carbon footprint reduction, up to 92% w.r.t. existing deep learning methods.
翻訳日:2023-09-18 18:06:57 公開日:2023-09-14
# 特徴選択:属性間の協調をめざして

Feature Selection: A perspective on inter-attribute cooperation ( http://arxiv.org/abs/2306.16559v2 )

ライセンス: Link先を確認
Gustavo Sosa-Cabrera, Santiago G\'omez-Guerrero, Miguel Garc\'ia-Torres, Christian E. Schaerer(参考訳) 高次元データセットは、データマイニングと機械学習における学習タスクの課題を描いている。 特徴の選択は次元の縮小を扱う効果的な手法である。 これは学習アルゴリズムを適用する前に必要不可欠なデータ処理ステップであることが多い。 フィルタの特徴選択手法は、何十年もの間、単純な単変量関係ランキングアルゴリズムから、より洗練された関連性-冗長トレードオフ、そして近年の多変量依存に基づくアプローチへと進化してきた。 多変量依存を取り込むこの傾向は、特徴間の相互作用からクラスに関するユニークな情報を得ることを目的としている。 本稿では,機能相互運用を支援するフィルタ特徴選択手法に関する最近の研究を包括的に調査し,文献における様々なアプローチの貢献を要約する。 さらに,今後の研究開発に期待できる課題や課題についても紹介する。

High-dimensional datasets depict a challenge for learning tasks in data mining and machine learning. Feature selection is an effective technique in dealing with dimensionality reduction. It is often an essential data processing step prior to applying a learning algorithm. Over the decades, filter feature selection methods have evolved from simple univariate relevance ranking algorithms to more sophisticated relevance-redundancy trade-offs and to multivariate dependencies-based approaches in recent years. This tendency to capture multivariate dependence aims at obtaining unique information about the class from the intercooperation among features. This paper presents a comprehensive survey of the state-of-the-art work on filter feature selection methods assisted by feature intercooperation, and summarizes the contributions of different approaches found in the literature. Furthermore, current issues and challenges are introduced to identify promising future research and development.
翻訳日:2023-09-18 18:06:06 公開日:2023-09-14
# データ蒸留再考:キャリブレーションを見過ごさない

Rethinking Data Distillation: Do Not Overlook Calibration ( http://arxiv.org/abs/2307.12463v3 )

ライセンス: Link先を確認
Dongyao Zhu, Bowen Lei, Jie Zhang, Yanbo Fang, Ruqi Zhang, Yiqun Xie, Dongkuan Xu(参考訳) 蒸留データに基づいてトレーニングされたニューラルネットワークは、しばしば過信出力を生成し、校正法による補正を必要とする。 温度スケーリングやミックスアップといった既存のキャリブレーション手法は、元の大規模データでトレーニングされたネットワークに対してうまく機能する。 しかし,これらの手法は,大規模なデータセットから抽出したデータに基づいてトレーニングされたネットワークの校正に失敗する。 本稿では, 蒸留したデータが, 校正不能なネットワークにつながることを示す。 (i)最大ロジット及び最大ロジットのより集中した分布 (ii)意味的に意味があるが分類課題とは無関係な情報の喪失。 この問題を解決するために, 蒸留データの限界を緩和し, データセット蒸留の効率を維持しつつ, キャリブレーションの精度を向上するMasked Temperature Scaling (MTS) と Masked Distillation Training (MDT) を提案する。

Neural networks trained on distilled data often produce over-confident output and require correction by calibration methods. Existing calibration methods such as temperature scaling and mixup work well for networks trained on original large-scale data. However, we find that these methods fail to calibrate networks trained on data distilled from large source datasets. In this paper, we show that distilled data lead to networks that are not calibratable due to (i) a more concentrated distribution of the maximum logits and (ii) the loss of information that is semantically meaningful but unrelated to classification tasks. To address this problem, we propose Masked Temperature Scaling (MTS) and Masked Distillation Training (MDT) which mitigate the limitations of distilled data and achieve better calibration results while maintaining the efficiency of dataset distillation.
翻訳日:2023-09-18 17:54:32 公開日:2023-09-14
# 不確実性量子化によるマルチミリオン原子系の電子構造予測

Electronic Structure Prediction of Multi-million Atom Systems Through Uncertainty Quantification Enabled Transfer Learning ( http://arxiv.org/abs/2308.13096v2 )

ライセンス: Link先を確認
Shashank Pathrudkar, Ponkrshnan Thiagarajan, Shivang Agarwal, Amartya S. Banerjee, Susanta Ghosh(参考訳) 基底状態電子密度 - コーン・シャム密度汎関数理論(KS-DFT)シミュレーションを用いて取得できる - には豊富な物質情報が含まれており、機械学習(ML)モデルによる予測は魅力的である。 しかし、ks-dftの計算コストは、トレーニングデータ生成を安定させる傾向があり、多くのスケールやシステム構成に適用可能な精度の高いmlモデルを開発するのが困難である。 ここでは,この基本的課題に,移動学習を用いて学習データのマルチスケールな性質を活用する。 我々のMLモデルは、単純なスカラー積を含む記述子、熱化によるシステム構成を包括的にサンプリングし、ベイズニューラルネットワークを用いた電子密度予測の不確かさを定量化する。 我々のモデルはデータ生成コストを著しく低減し、信頼性と精度を検証すれば、欠陥のあるシステム、異なる合金組成、前例のない数百万の原子スケールを含む、トレーニング以上の多様なバルクシステムの予測を可能にする。

The ground state electron density - obtainable using Kohn-Sham Density Functional Theory (KS-DFT) simulations - contains a wealth of material information, making its prediction via machine learning (ML) models attractive. However, the computational expense of KS-DFT scales cubically with system size which tends to stymie training data generation, making it difficult to develop quantifiably accurate ML models that are applicable across many scales and system configurations. Here, we address this fundamental challenge by employing transfer learning to leverage the multi-scale nature of the training data. Our ML models employ descriptors involving simple scalar products, comprehensively sample system configurations through thermalization, and quantify uncertainty in electron density predictions using Bayesian neural networks. We show that our models incur significantly lower data generation costs while allowing confident - and when verifiable, accurate - predictions for a wide variety of bulk systems well beyond training, including systems with defects, different alloy compositions, and at unprecedented, multi-million-atom scales.
翻訳日:2023-09-18 17:47:57 公開日:2023-09-14
# 材料・プロセス・回路設計の最適化によるオンチップ超伝導量子メモリにおけるミリ秒コヒーレンス時間超過

Surpassing millisecond coherence times in on-chip superconducting quantum memories by optimizing materials, processes, and circuit design ( http://arxiv.org/abs/2308.15539v2 )

ライセンス: Link先を確認
Suhas Ganjam, Yanhao Wang, Yao Lu, Archan Banerjee, Chan U Lei, Lev Krayzman, Kim Kisslinger, Chenyu Zhou, Ruoshui Li, Yichen Jia, Mingzhao Liu, Luigi Frunzio, Robert J. Schoelkopf(参考訳) 量子コンピューティングにおける超伝導量子回路の性能は近年著しく向上しているが、緩和機構の包括的理解はまだ存在していない。 本研究では,デバイス性能の予測と材料,プロセス,回路設計の最適化によるコヒーレンス向上を目的として,超伝導量子回路のエネルギー損失を特徴付けるマルチモード手法を提案する。 この手法を用いて,タンタル系材料プラットフォームとアニールサファイア基板を用いて表面およびバルク誘電損失を著しく低減する。 この知識により,アルミニウムおよびタンタル系トランスモン量子ビットの緩和時間を予測し,実験的に検証した。 さらに、同軸トンネル構造内のコヒーレンスを最大化するためにデバイス形状を最適化し、単光子ラムゼー時間2.0$-2.7msで、そのエネルギー緩和時間1.0$-1.4msで制限されたオンチップ量子メモリを実現する。

The performance of superconducting quantum circuits for quantum computing has advanced tremendously in recent decades; however, a comprehensive understanding of relaxation mechanisms does not yet exist. In this work, we utilize a multimode approach to characterizing energy losses in superconducting quantum circuits, with the goals of predicting device performance and improving coherence through materials, process, and circuit design optimization. Using this approach, we measure significant reductions in surface and bulk dielectric losses by employing a tantalum-based materials platform and annealed sapphire substrates. With this knowledge we predict and experimentally verify the relaxation times of aluminum- and tantalum-based transmon qubits. We additionally optimize device geometry to maximize coherence within a coaxial tunnel architecture, and realize on-chip quantum memories with single-photon Ramsey times of 2.0$-$2.7 ms, limited by their energy relaxation times of 1.0$-$1.4 ms. To our knowledge this is the highest coherence achieved in an on-chip quantum memory, and demonstrates an advancement towards a more modular and compact coaxial circuit architecture for bosonic qubits with reproducibly high coherence.
翻訳日:2023-09-18 17:34:13 公開日:2023-09-14
# アルツハイマー病に対する説明可能なグラフニューラルネットワークと認知症リスク予測

Explainable Graph Neural Network for Alzheimer's Disease And Related Dementias Risk Prediction ( http://arxiv.org/abs/2309.06584v2 )

ライセンス: Link先を確認
Xinyue Hu (1), Zenan Sun (1), Yi Nian (1), Yifang Dang (1), Fang Li (1), Jingna Feng (1), Evan Yu (1), Cui Tao (1) ((1) The University of Texas Health Science Center at Houston)(参考訳) アルツハイマー病と関連する認知症(ADRD)は、ADRDの正確なリスク予測の重要性を浮き彫りにして、米国で6番目に大きな死因となっている。 近年のADRDリスク予測の進歩は画像解析に大きく依存しているが,ADRD診断に先立ってすべての患者が画像診断を受けているわけではない。 機械学習とクレームデータの融合は、さまざまな医療コード間の新たなリスク要因や相互関係を明らかにする可能性がある。 我々の目標は、ADRDリスク予測のためのクレームデータとグラフニューラルネットワーク(GNN)を使用することです。 これらの予測の背後にある人間解釈可能な理由の欠如に対処し,関係の重要性とそのadrdリスク予測への影響を評価し,包括的解釈を確実にする革新的な手法を提案する。 我々はADRD確率を推定するために変分正規化エンコーダデコーダグラフニューラルネットワーク(VGNN)を用いた。 モデル効率を評価するために,ランダムフォレストと光勾配ブーストマシンをベースラインとして用いた3つのシナリオを作成した。 我々はさらに,ADRDリスク予測の鍵となる関係を明らかにするために,関係重要度法を適用した。 vgnnは、受信機の動作特性の下で、他のベースラインモデルを10%上回った。 gnnモデルと関係重要度解釈の統合は、adrdの進行に寄与または遅延する要因に対する貴重な洞察を提供する上で重要な役割を果たす可能性がある。 クレームデータによるGNNアプローチの採用はADRDリスク予測を強化し、相互接続された医療コード関係の影響に関する洞察を提供する。 この手法はADRDリスクモデリングを可能にするだけでなく、クレームデータを用いた他の画像解析予測の可能性を示す。

Alzheimer's disease and related dementias (ADRD) ranks as the sixth leading cause of death in the US, underlining the importance of accurate ADRD risk prediction. While recent advancement in ADRD risk prediction have primarily relied on imaging analysis, yet not all patients undergo medical imaging before an ADRD diagnosis. Merging machine learning with claims data can reveal additional risk factors and uncover interconnections among diverse medical codes. Our goal is to utilize Graph Neural Networks (GNNs) with claims data for ADRD risk prediction. Addressing the lack of human-interpretable reasons behind these predictions, we introduce an innovative method to evaluate relationship importance and its influence on ADRD risk prediction, ensuring comprehensive interpretation. We employed Variationally Regularized Encoder-decoder Graph Neural Network (VGNN) for estimating ADRD likelihood. We created three scenarios to assess the model's efficiency, using Random Forest and Light Gradient Boost Machine as baselines. We further used our relation importance method to clarify the key relationships for ADRD risk prediction. VGNN surpassed other baseline models by 10% in the area under the receiver operating characteristic. The integration of the GNN model and relation importance interpretation could potentially play an essential role in providing valuable insight into factors that may contribute to or delay ADRD progression. Employing a GNN approach with claims data enhances ADRD risk prediction and provides insights into the impact of interconnected medical code relationships. This methodology not only enables ADRD risk modeling but also shows potential for other image analysis predictions using claims data.
翻訳日:2023-09-18 17:27:24 公開日:2023-09-14
# Zero-Shot Co-Salient Object Detection Framework

Zero-Shot Co-salient Object Detection Framework ( http://arxiv.org/abs/2309.05499v2 )

ライセンス: Link先を確認
Haoke Xiao and Lv Tang and Bo Li and Zhiming Luo and Shaozi Li(参考訳) Co-salient Object Detection (CoSOD)は、人間の視覚システムの能力を再現して、画像のコレクション内の共通かつ健全なオブジェクトを認識する。 近年のディープラーニングモデルの発展にもかかわらず、これらのモデルはよく注釈付きCoSODデータセットによるトレーニングに依存している。 トレーニングフリーのゼロショットCoSODフレームワークの探索は制限されている。 本稿では,基礎となるコンピュータビジョンモデルのゼロショット転送機能からインスピレーションを得て,これらのモデルを利用した最初のゼロショットCoSODフレームワークを提案する。 これを実現するため,提案フレームワークではグループプロンプト生成(gpg)モジュールと協調マップ生成(cmp)モジュールという2つの新しいコンポーネントを導入する。 広く使われているデータセット上でのフレームワークの性能を評価し、印象的な結果を観察する。 提案手法は,既存の非教師付き手法を上回り,2020年以前に開発された完全監督型手法を上回ってさえも2022年以前に開発された完全監督型手法との競争力を維持している。

Co-salient Object Detection (CoSOD) endeavors to replicate the human visual system's capacity to recognize common and salient objects within a collection of images. Despite recent advancements in deep learning models, these models still rely on training with well-annotated CoSOD datasets. The exploration of training-free zero-shot CoSOD frameworks has been limited. In this paper, taking inspiration from the zero-shot transfer capabilities of foundational computer vision models, we introduce the first zero-shot CoSOD framework that harnesses these models without any training process. To achieve this, we introduce two novel components in our proposed framework: the group prompt generation (GPG) module and the co-saliency map generation (CMP) module. We evaluate the framework's performance on widely-used datasets and observe impressive results. Our approach surpasses existing unsupervised methods and even outperforms fully supervised methods developed before 2020, while remaining competitive with some fully supervised methods developed before 2022.
翻訳日:2023-09-18 17:26:38 公開日:2023-09-14
# 量子古典フロンティアにおけるゾンビ猫--分子中の量子コヒーレンスのウィグナー・ムーアと半古典的極限ダイナミクス

Zombie Cats on the Quantum-Classical Frontier: Wigner-Moyal and Semiclassical Limit Dynamics of Quantum Coherence in Molecules ( http://arxiv.org/abs/2309.04580v2 )

ライセンス: Link先を確認
Austin T. Green, Craig C. Martens(参考訳) 本稿では,多状態量子系の密度行列の非対角的要素である量子コヒーレンスの時間発展について,ウィグナー・モラル形式論の観点から検討する。 このアプローチは量子力学の正確な位相空間表現を提供する。 2つの電子状態を持つ分子における核波束のコヒーレント進化を考える。 調和ポテンシャルについては、完全な量子的記述と半古典的記述の両方に完全に可溶である。 一般システムにおける半古典的コヒーレンス処理の重大な欠陥を強調し、モヤル展開において質的精度でさえより高い項を必要とすることを示す。 このモデルは、分子シュロディンガーの猫状態の実験的な例を提供する。 量子進化の正確な2つの状態の生きた猫と死んだ猫は、半古典的な限界の中で「ゾンビ」の猫に崩壊する。 モヤル補正の包含は、実験的に観察可能な猫の忠実な生存と死の表現を復元する。

In this paper, we investigate the time evolution of quantum coherence -- the off-diagonal elements of the density matrix of a multistate quantum system -- from the perspective of the Wigner-Moyal formalism. This approach provides an exact phase space representation of quantum mechanics. We consider the coherent evolution of nuclear wavepackets in a molecule with two electronic states. For harmonic potentials, the problem is exactly soluble for both fully quantum and semiclassical descriptions. We highlight serious deficiencies of the semiclassical treatment of coherence for general systems and illustrate how even qualitative accuracy requires higher terms in the Moyal expansion to be included. The model provides an experimentally relevant example of a molecular Schrodinger's cat state. The alive and dead cats of the exact two state quantum evolution collapses into a "zombie" cat in the semiclassical limit -- an averaged behavior, neither alive nor dead, leading to significant errors. The inclusion of the Moyal correction restores a faithful simultaneously alive and dead representation of the cat that is experimentally observable.
翻訳日:2023-09-18 17:24:50 公開日:2023-09-14
# 拡張サンプリングスキームを用いたマスク生成モデル

Masked Generative Modeling with Enhanced Sampling Scheme ( http://arxiv.org/abs/2309.07945v1 )

ライセンス: Link先を確認
Daesoo Lee, Erlend Aune, and Sara Malacarne(参考訳) 本稿では,マスキング非自己回帰生成モデルのための新しいサンプリング手法を提案する。 サンプリングプロセスにおけるTimeVQVAE, MaskGIT, Token-Criticの限界を特定し, これらの制限を克服するための拡張サンプリングスキーム(ESS)を提案する。 essは、サンプルの多様性と忠実性の両方を明示的に保証し、naive iteration decoding、 critical reverse sampling、 critical resamplingの3段階からなる。 ESSは、MaskGITで提案されているように、単純反復デコーディングを使用してトークンセットのサンプリングから始まり、サンプルの多様性を保証する。 そして、トークンセットは臨界逆サンプリングを行い、非現実的なサンプルにつながるトークンをマスキングする。 その後、臨界再サンプリングは、最終サンプリング段階に到達するまでマスクされたトークンを再構成し、高い忠実性を確保する。 クリティカルリサンプリングでは、自己Token-Criticから得られた信頼スコアを使用してサンプルトークンのリアリズムをよりよく測定し、クリティカルリバースサンプリングでは量子化された潜在ベクトル空間の構造を用いて非現実的なサンプルパスを発見する。 ucr時系列アーカイブ内の全128データセットを用いて,無条件サンプリングとクラス条件サンプリングの両方において,essの性能向上を示す。

This paper presents a novel sampling scheme for masked non-autoregressive generative modeling. We identify the limitations of TimeVQVAE, MaskGIT, and Token-Critic in their sampling processes, and propose Enhanced Sampling Scheme (ESS) to overcome these limitations. ESS explicitly ensures both sample diversity and fidelity, and consists of three stages: Naive Iterative Decoding, Critical Reverse Sampling, and Critical Resampling. ESS starts by sampling a token set using the naive iterative decoding as proposed in MaskGIT, ensuring sample diversity. Then, the token set undergoes the critical reverse sampling, masking tokens leading to unrealistic samples. After that, critical resampling reconstructs masked tokens until the final sampling step is reached to ensure high fidelity. Critical resampling uses confidence scores obtained from a self-Token-Critic to better measure the realism of sampled tokens, while critical reverse sampling uses the structure of the quantized latent vector space to discover unrealistic sample paths. We demonstrate significant performance gains of ESS in both unconditional sampling and class-conditional sampling using all the 128 datasets in the UCR Time Series archive.
翻訳日:2023-09-18 17:16:34 公開日:2023-09-14
# 対実的説明のためのテキスト・ツー・イメージモデル:ブラックボックスアプローチ

Text-to-Image Models for Counterfactual Explanations: a Black-Box Approach ( http://arxiv.org/abs/2309.07944v1 )

ライセンス: Link先を確認
Guillaume Jeanneret and Lo\"ic Simon and Fr\'ed\'eric Jurie(参考訳) 本稿では,ある画像に対する分類器の予測を変更する上で必要となる数少ない特徴の識別と修正を含む,対実説明(CE)の生成という課題に対処する。 提案手法であるText-to-Image Models for Counterfactual Explanations (TIME) は,蒸留に基づくブラックボックス・カウンターファクトリー手法である。 従来の手法とは異なり、このアプローチは画像と予測のみを必要とし、分類器の構造、パラメータ、勾配の必要性を省略する。 反事実を生成する前に、timeはテキスト埋め込みの形で安定した拡散に2つの異なるバイアスを導入する: 画像の構造に関連付けられたコンテキストバイアスと、対象の分類器によって学習されたクラス固有の特徴に関連付けられたクラスバイアスである。 これらのバイアスを学習した後、分類器の予測されたクラストークンを適用し、ターゲット埋め込みを条件付けとして画像を再生成し、反実的説明を生成する。 広範囲な実証研究によって、ブラックボックス設定内で動作しても、同等の効果を説明することができる。

This paper addresses the challenge of generating Counterfactual Explanations (CEs), involving the identification and modification of the fewest necessary features to alter a classifier's prediction for a given image. Our proposed method, Text-to-Image Models for Counterfactual Explanations (TIME), is a black-box counterfactual technique based on distillation. Unlike previous methods, this approach requires solely the image and its prediction, omitting the need for the classifier's structure, parameters, or gradients. Before generating the counterfactuals, TIME introduces two distinct biases into Stable Diffusion in the form of textual embeddings: the context bias, associated with the image's structure, and the class bias, linked to class-specific features learned by the target classifier. After learning these biases, we find the optimal latent code applying the classifier's predicted class token and regenerate the image using the target embedding as conditioning, producing the counterfactual explanation. Extensive empirical studies validate that TIME can generate explanations of comparable effectiveness even when operating within a black-box setting.
翻訳日:2023-09-18 17:16:13 公開日:2023-09-14
# 開量子系、生体物理系およびパリティ時対称材料における固有値アトラクション

Eigenvalue attraction in open quantum systems, biophysical systems, and Parity-Time symmetric materials ( http://arxiv.org/abs/2309.07943v1 )

ライセンス: Link先を確認
Pete Rigas(参考訳) オープン量子系,生物物理系,およびパリティ時間対称材料に対する固有値アトラクションについて検討する。 実行列の固有値とその複素共役が引かれるかどうかを判定するために、慣性力からの寄与、固有値とその複素共役の間の引力、およびスペクトル内の残りの固有値の力に依存する固有値の第2導関数の表現を導出する。

We investigate eigenvalue attraction for open quantum systems, biophysical systems, and for Parity-Time symmetric materials. To determine whether an eigenvalue and its complex conjugate of a real matrix attract, we derive expressions for the second derivative of eigenvalues, which is dependent upon contributions from inertial forces, attraction between an eigenvalue and its complex conjugate, as well as the force of the remaining eigenvalues in the spectrum.
翻訳日:2023-09-18 17:15:50 公開日:2023-09-14
# ログデータを用いたChatGPTの評価

An Assessment of ChatGPT on Log Data ( http://arxiv.org/abs/2309.07938v1 )

ライセンス: Link先を確認
Priyanka Mudgal, Rita Wouhaybi(参考訳) ChatGPTのような最近の大規模言語モデル(LLM)の開発は、幅広いソフトウェア工学のタスクに広く適用されてきた。 多くの論文が、コードの記述、要約、テキスト生成などにおけるChatGPTの潜在的な利点と限界について分析を報告している。 しかし、ログ処理におけるChatGPTの現状の分析はほとんど注目されていない。 大規模ソフトウェアシステムによって生成されるログは複雑で理解しにくい。 その複雑さにもかかわらず、システムの現状を理解し、システムの問題を診断するための主題の専門家にとって重要な情報を提供する。 本稿では,ChatGPTのログデータにおけるいくつかの興味深いタスクの実行能力について検討するとともに,その主な欠点を同定する。 その結果,現在のバージョンのchatgptのログ処理性能は限定的であり,応答の一貫性やスケーラビリティの問題に乏しいことがわかった。 また、ログ処理分野におけるLLMの役割と、ChatGPTの現在の能力とこの分野における将来のLLMの能力を改善するための次のステップについて、私たちの見解を概観する。 私たちの研究は、今後の学術研究に貢献して、特定された問題に対処できると考えています。

Recent development of large language models (LLMs), such as ChatGPT has been widely applied to a wide range of software engineering tasks. Many papers have reported their analysis on the potential advantages and limitations of ChatGPT for writing code, summarization, text generation, etc. However, the analysis of the current state of ChatGPT for log processing has received little attention. Logs generated by large-scale software systems are complex and hard to understand. Despite their complexity, they provide crucial information for subject matter experts to understand the system status and diagnose problems of the systems. In this paper, we investigate the current capabilities of ChatGPT to perform several interesting tasks on log data, while also trying to identify its main shortcomings. Our findings show that the performance of the current version of ChatGPT for log processing is limited, with a lack of consistency in responses and scalability issues. We also outline our views on how we perceive the role of LLMs in the log processing discipline and possible next steps to improve the current capabilities of ChatGPT and the future LLMs in this area. We believe our work can contribute to future academic research to address the identified issues.
翻訳日:2023-09-18 17:15:39 公開日:2023-09-14
# voxtlm:音声認識/合成と音声/テキスト継続タスクを統合する統合デコーダ専用モデル

Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks ( http://arxiv.org/abs/2309.07937v1 )

ライセンス: Link先を確認
Soumi Maiti, Yifan Peng, Shukjae Choi, Jee-weon Jung, Xuankai Chang, Shinji Watanabe(参考訳) 本稿では,音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダ専用言語モデルvoxtlmを提案する。 VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。 単一タスクモデルと比較すると、voxtlmは音声合成が著しく改善され、音声の知性が28.9から5.6に向上し、客観的品質が2.68から3.90に向上した。 また、VoxtLMはシングルタスクよりも音声認識性能と音声認識性能を向上させる。 VoxtLMは、公開データでトレーニングされ、トレーニングレシピとモデルチェックポイントは、完全に再現可能な作業のためにオープンソース化される。

We propose a decoder-only language model, VoxtLM, that can perform four tasks: speech recognition, speech synthesis, text generation, and speech continuation. VoxtLM integrates text vocabulary with discrete speech tokens from self-supervised speech features and uses special tokens to enable multitask learning. Compared to a single-task model, VoxtLM exhibits a significant improvement in speech synthesis, with improvements in both speech intelligibility from 28.9 to 5.6 and objective quality from 2.68 to 3.90. VoxtLM also improves speech generation and speech recognition performance over the single-task counterpart. VoxtLM is trained with publicly available data and training recipes and model checkpoints will be open-sourced to make fully reproducible work.
翻訳日:2023-09-18 17:15:24 公開日:2023-09-14
# Landscape-Sketch-Step: 代理最適化問題のためのAI/MLベースメタヒューリスティック

Landscape-Sketch-Step: An AI/ML-Based Metaheuristic for Surrogate Optimization Problems ( http://arxiv.org/abs/2309.07936v1 )

ライセンス: Link先を確認
Rafael Monteiro and Kartik Sau(参考訳) 本稿では,コスト関数の広範な評価が高価であり,アクセス不能であり,あるいは禁止であるシナリオにおいて,グローバル最適化のための新しいヒューリスティックスを提案する。 この手法はLandscape-Sketch-and-Step (LSS) と呼ばれ、機械学習、確率最適化、強化学習技術を組み合わせて、以前にサンプリングされた点からの履歴情報に頼り、コスト関数を評価すべきパラメータ値の偏見的な選択を行う。 レプリカ交換モンテカルロ法(英語版)による最適化とは異なり、この手法で必要とされるコスト関数の評価の数は、シミュレーションアニーリングで使用されるものと同等であり、高スループットコンピューティングや高性能コンピューティングタスクなどにおいて特に重要な品質であり、計算コストがかかるか、あるいは実行に時間がかかる。 また、目的関数の近似や再構成を目的とした代理モデルを構築しないため、標準的な代理最適化手法とは異なる。 本手法を低次元最適化問題(dimensions 1, 2, 4, 8)に適用し,コスト関数が局所的ミニマ (minima) に苦しめられている凝縮物質物理学でよく見られる頑丈なエネルギー環境の最小化の難しさを模倣した。 古典的なシミュレートアニーリングと比較すると、lssは最適化プロセスの効果的な加速を示す。

In this paper, we introduce a new heuristics for global optimization in scenarios where extensive evaluations of the cost function are expensive, inaccessible, or even prohibitive. The method, which we call Landscape-Sketch-and-Step (LSS), combines Machine Learning, Stochastic Optimization, and Reinforcement Learning techniques, relying on historical information from previously sampled points to make judicious choices of parameter values where the cost function should be evaluated at. Unlike optimization by Replica Exchange Monte Carlo methods, the number of evaluations of the cost function required in this approach is comparable to that used by Simulated Annealing, quality that is especially important in contexts like high-throughput computing or high-performance computing tasks, where evaluations are either computationally expensive or take a long time to be performed. The method also differs from standard Surrogate Optimization techniques, for it does not construct a surrogate model that aims at approximating or reconstructing the objective function. We illustrate our method by applying it to low dimensional optimization problems (dimensions 1, 2, 4, and 8) that mimick known difficulties of minimization on rugged energy landscapes often seen in Condensed Matter Physics, where cost functions are rugged and plagued with local minima. When compared to classical Simulated Annealing, the LSS shows an effective acceleration of the optimization process.
翻訳日:2023-09-18 17:15:10 公開日:2023-09-14
# SLMIA-SR:話者認識システムに対する話者レベルメンバーシップ推論攻撃

SLMIA-SR: Speaker-Level Membership Inference Attacks against Speaker Recognition Systems ( http://arxiv.org/abs/2309.07983v1 )

ライセンス: Link先を確認
Guangke Chen and Yedi Zhang and Fu Song(参考訳) メンバーシップ推論攻撃により、敵はモデルのトレーニングデータセットに特定の例が含まれているかどうかを判断できる。 これまでの研究は、様々なアプリケーションでこのような攻撃が実現可能であることを確認しているが、有望な音声に基づく生体認証技術である話者認識(sr)に焦点を当てていない。 本稿ではslmia-srを提案する。slmia-srはsrに適応した最初のメンバーシップ推論攻撃である。 従来の事例レベルアタックとは対照的に、我々の攻撃では、話者レベルのメンバシップ推論、すなわち、与えられた話者の声が、与えられた推論音声と同一か異なるかを決定することが、モデルの訓練に関与している。 訓練音声と推論音声は通常異なるため、特に有用で実用的であり、srのオープンセットの性質、すなわち、認識話者が訓練データに存在しないこともしばしば考慮すれば有意義である。 我々は,SRの2つの訓練目標であるクロースネスとインターファレンスを利用して,トレーニングと非トレーニング話者の違いを特徴づけ,慎重に確立された特徴工学を駆使した2つの特徴群を定量化し,攻撃をマウントする。 攻撃の一般化性を向上させるために,攻撃モデルを訓練するための新しい混合比訓練戦略を提案する。 攻撃性能を向上させるため,推測音声の限られた数に対応するために音声チャンク分割を導入し,推論音声の数に依存する攻撃モデルを訓練することを提案する。 我々の攻撃は汎用性があり、ホワイトボックスとブラックボックスの両方のシナリオで動作する。 さらに,攻撃性能を維持しながらブラックボックスクエリ数を削減できる2つの新しい手法を提案する。 大規模な実験はSLMIA-SRの有効性を示す。

Membership inference attacks allow adversaries to determine whether a particular example was contained in the model's training dataset. While previous works have confirmed the feasibility of such attacks in various applications, none has focused on speaker recognition (SR), a promising voice-based biometric recognition technique. In this work, we propose SLMIA-SR, the first membership inference attack tailored to SR. In contrast to conventional example-level attack, our attack features speaker-level membership inference, i.e., determining if any voices of a given speaker, either the same as or different from the given inference voices, have been involved in the training of a model. It is particularly useful and practical since the training and inference voices are usually distinct, and it is also meaningful considering the open-set nature of SR, namely, the recognition speakers were often not present in the training data. We utilize intra-closeness and inter-farness, two training objectives of SR, to characterize the differences between training and non-training speakers and quantify them with two groups of features driven by carefully-established feature engineering to mount the attack. To improve the generalizability of our attack, we propose a novel mixing ratio training strategy to train attack models. To enhance the attack performance, we introduce voice chunk splitting to cope with the limited number of inference voices and propose to train attack models dependent on the number of inference voices. Our attack is versatile and can work in both white-box and black-box scenarios. Additionally, we propose two novel techniques to reduce the number of black-box queries while maintaining the attack performance. Extensive experiments demonstrate the effectiveness of SLMIA-SR.
翻訳日:2023-09-18 17:08:15 公開日:2023-09-14
# ISTA学習のための不確かさ定量化

Uncertainty quantification for learned ISTA ( http://arxiv.org/abs/2309.07982v1 )

ライセンス: Link先を確認
Frederik Hoppe, Claudio Mayrink Verdun, Felix Krahmer, Hannah Laus, Holger Rauhut(参考訳) 逆問題に対するモデルベースディープラーニングソリューションは, 現状の数値性能と解釈可能性との橋渡しによって近年注目を集めている。 さらに、組み込まれた事前ドメイン知識は、より少ないパラメータでトレーニングステップをより小さなデータセットで実行可能にするため、トレーニングをより効率的にすることができる。 これらのモデルに基づく学習手法では,アルゴリズムの解法が顕著である。 急速な進歩と従来の高次元統計手法との密接な関係にもかかわらず、それらは確実性評価を欠き、不確実性定量化の理論はまだ解明されていない。 この研究は、lista推定器の信頼区間を得るための厳密な方法を提案するこのギャップを閉じるステップを提供する。

Model-based deep learning solutions to inverse problems have attracted increasing attention in recent years as they bridge state-of-the-art numerical performance with interpretability. In addition, the incorporated prior domain knowledge can make the training more efficient as the smaller number of parameters allows the training step to be executed with smaller datasets. Algorithm unrolling schemes stand out among these model-based learning techniques. Despite their rapid advancement and their close connection to traditional high-dimensional statistical methods, they lack certainty estimates and a theory for uncertainty quantification is still elusive. This work provides a step towards closing this gap proposing a rigorous way to obtain confidence intervals for the LISTA estimator.
翻訳日:2023-09-18 17:07:47 公開日:2023-09-14
# 具体化エージェントの推論のためのデータソース

A Data Source for Reasoning Embodied Agents ( http://arxiv.org/abs/2309.07974v1 )

ライセンス: Link先を確認
Jack Lanchantin, Sainbayar Sukhbaatar, Gabriel Synnaeve, Yuxuan Sun, Kavya Srinet, Arthur Szlam(参考訳) タスクを推論するために機械学習モデルを使用する最近の進歩は、新しいモデルアーキテクチャ、大規模事前学習プロトコル、微調整のための専用推論データセットによって推進されている。 本稿では,これらの進歩をさらに追求するために,具体化エージェントと統合した機械推論のための新しいデータジェネレータを提案する。 生成されたデータはテンプレート化されたテキストクエリと回答で構成され、データベースにエンコードされた世界状態とマッチする。 世界状態は、世界動力学とエージェントの行動の両方の結果である。 列車のインスタンス化に関するいくつかのベースラインモデルの結果を示す。 これには、データベースのテキストフォーマット表現に基づいて微調整された事前学習言語モデルと、データベースの知識グラフ表現で動作するグラフ構造化トランスフォーマーが含まれる。 これらのモデルでは、世界国家に関するいくつかの質問に答えることができますが、他の人と戦っています。 これらの結果は、ニューラル推論モデルとデータベース表現を設計する新しい研究の方向性を示唆する。 データを生成するコードはgithub.com/facebookresearch/neuralmemoryでリリースされる

Recent progress in using machine learning models for reasoning tasks has been driven by novel model architectures, large-scale pre-training protocols, and dedicated reasoning datasets for fine-tuning. In this work, to further pursue these advances, we introduce a new data generator for machine reasoning that integrates with an embodied agent. The generated data consists of templated text queries and answers, matched with world-states encoded into a database. The world-states are a result of both world dynamics and the actions of the agent. We show the results of several baseline models on instantiations of train sets. These include pre-trained language models fine-tuned on a text-formatted representation of the database, and graph-structured Transformers operating on a knowledge-graph representation of the database. We find that these models can answer some questions about the world-state, but struggle with others. These results hint at new research directions in designing neural reasoning models and database representations. Code to generate the data will be released at github.com/facebookresearch/neuralmemory
翻訳日:2023-09-18 17:07:35 公開日:2023-09-14
# M3Dsynth:AIによる局所的な操作による医療用3D画像のデータセット

M3Dsynth: A dataset of medical 3D images with AI-generated local manipulations ( http://arxiv.org/abs/2309.07973v1 )

ライセンス: Link先を確認
Giada Zingarini and Davide Cozzolino and Riccardo Corvi and Giovanni Poggi and Luisa Verdoliva(参考訳) 画像合成手法の急速な進歩を考えると、操作された視覚コンテンツを検出する能力は、多くのアプリケーション分野でますます重要になっている。 特に懸念されるのは、医療画像の内容を変更する可能性であり、診断結果を変更することである。 その関連性にもかかわらず、この問題は研究コミュニティから限られた注目を集めている。 理由のひとつは、大規模でキュレートされたデータセットが開発やベンチマークのために使われていないことだ。 本稿では,CT(Computed Tomography)肺画像の大規模データセットであるM3Dsynthを提案する。 実際のctスキャンで肺がんの結節を注入または除去し,gan(generative adversarial network)またはdm(distribution model)に基づく3つの異なる方法を用いて8,577個の操作標本を作製した。 実験によると、これらの画像は簡単に自動診断ツールを騙すことができる。 また,いくつかの最先端の法医学的検出器をテストし,提案するデータセット上でトレーニングすると,訓練やテストセットが整っていない場合を含む操作された合成コンテンツを正確に検出し,局所化することができ,良好な一般化能力を示すことを実証した。 データセットとコードはhttps://grip-unina.github.io/M3Dsynth/で公開される。

The ability to detect manipulated visual content is becoming increasingly important in many application fields, given the rapid advances in image synthesis methods. Of particular concern is the possibility of modifying the content of medical images, altering the resulting diagnoses. Despite its relevance, this issue has received limited attention from the research community. One reason is the lack of large and curated datasets to use for development and benchmarking purposes. Here, we investigate this issue and propose M3Dsynth, a large dataset of manipulated Computed Tomography (CT) lung images. We create manipulated images by injecting or removing lung cancer nodules in real CT scans, using three different methods based on Generative Adversarial Networks (GAN) or Diffusion Models (DM), for a total of 8,577 manipulated samples. Experiments show that these images easily fool automated diagnostic tools. We also tested several state-of-the-art forensic detectors and demonstrated that, once trained on the proposed dataset, they are able to accurately detect and localize manipulated synthetic content, including when training and test sets are not aligned, showing good generalization ability. Dataset and code will be publicly available at https://grip-unina.github.io/M3Dsynth/.
翻訳日:2023-09-18 17:07:20 公開日:2023-09-14
# ゼロショットタスク指向把握のための言語組込みラミアンスフィールド

Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping ( http://arxiv.org/abs/2309.07970v1 )

ライセンス: Link先を確認
Adam Rashid, Satvik Sharma, Chung Min Kim, Justin Kerr, Lawrence Chen, Angjoo Kanazawa, Ken Goldberg(参考訳) 特定の部分によるオブジェクトの把握は、しばしば安全性とダウンストリームタスクの実行に不可欠である。 しかし、学習ベースの把握プランナーは、特定のオブジェクト部分データでトレーニングされない限り、このような振る舞いを欠いている。 そこで本研究では,タスク指向の物体把握のための言語組込み放射場であるlerf-togoを提案する。 そこで我々はまずシーンのLERFを再構築し,CLIPの埋め込みをテキストで検索可能な大規模3D言語フィールドに蒸留する。 しかし、LERFは目的意識を持たないため、その関連性出力は、その後の部分クエリに不十分なオブジェクトに対して不完全なアクティベーションを返すことが多い。 LERF-TOGOはこの空間的グルーピングの欠如を、DINO特徴を介して3Dオブジェクトマスクを抽出し、そのマスク上のLERFを条件付きクエリすることで軽減し、オフザシェルフグリッププランナーからの把握をランク付けするオブジェクトのセマンティック分布を得る。 LERF-TOGOは,31個の物理物体のタスク指向対象部位を把握できる能力を評価し,その正解点を81%,正解点を69%,正解点を81%,正解点を69%とした。 プロジェクトのwebサイト: lerftogo.github.io

Grasping objects by a specific part is often crucial for safety and for executing downstream tasks. Yet, learning-based grasp planners lack this behavior unless they are trained on specific object part data, making it a significant challenge to scale object diversity. Instead, we propose LERF-TOGO, Language Embedded Radiance Fields for Task-Oriented Grasping of Objects, which uses vision-language models zero-shot to output a grasp distribution over an object given a natural language query. To accomplish this, we first reconstruct a LERF of the scene, which distills CLIP embeddings into a multi-scale 3D language field queryable with text. However, LERF has no sense of objectness, meaning its relevancy outputs often return incomplete activations over an object which are insufficient for subsequent part queries. LERF-TOGO mitigates this lack of spatial grouping by extracting a 3D object mask via DINO features and then conditionally querying LERF on this mask to obtain a semantic distribution over the object with which to rank grasps from an off-the-shelf grasp planner. We evaluate LERF-TOGO's ability to grasp task-oriented object parts on 31 different physical objects, and find it selects grasps on the correct part in 81% of all trials and grasps successfully in 69%. See the project website at: lerftogo.github.io
翻訳日:2023-09-18 17:06:58 公開日:2023-09-14
# 純化量子状態における幾何学的タンパリング動的絡み合い成長

Geometrically Taming Dynamical Entanglement Growth in Purified Quantum States ( http://arxiv.org/abs/2309.07961v1 )

ライセンス: Link先を確認
Tim Pokart, Carl Lehmann, Jan Carl Budich(参考訳) 純化量子状態の絡み合い特性は2つの理由から重要な関心事である。 まず、量子情報理論において、最小に絡み合った清浄状態は、精製の絡み合いを対応する物理的混合状態の複雑性の基本的な尺度として定義する。 第二に、純化状態における動的絡み合い成長は、テンソルネットワーク状態の枠組みにおける古典的コンピュータの動的物理的性質を計算するための主要なボトルネックである。 本稿では,並列輸送を含む幾何学的手法を活用して,そのような動的絡み合い成長を劇的に低減し,(局所的に)最適絡み合いエントロピーを維持するための一般的な処方法を得ることを実証する。 より高次スキューによる適応と拡張は、ウルマン幾何位相の概念を補正し、したがって、動的絡み合い成長とヒルベルト・シュミット束の幾何学との関係を、純粋状態の数学的基礎として明らかにする。 非可積分スピンチェーンモデルにおけるベンチマークを用いて,本手法に基づく行列積状態アルゴリズムの計算性能を,純化状態における絡み合い成長をめざす以前の手法と比較する。 本研究は, 動的応答関数の実用的計算に係わる拡張パラメータ法において, 幾何ディアンタングラーが少なくとも競争力があり, 既存技術よりも優れていることを示す数値的証拠を提供する。 回避可能なアルゴリズムの不完全性の影響を排除するため,適度な大きさのシステムに対する数値的厳密な解析を行う。

Entanglement properties of purified quantum states are of key interest for two reasons. First, in quantum information theory minimally entangled purified states define the Entanglement of Purification as a fundamental measure for the complexity of the corresponding physical mixed state. Second, dynamical entanglement growth in purified states represents the main bottleneck for calculating dynamical physical properties on classical computers in the framework of tensor network states. Here, we demonstrate how geometric methods including parallel transport may be harnessed to drastically reduce such dynamical entanglement growth, and to obtain a general prescription for maintaining (locally) optimal entanglement entropy when time-evolving a purified state. Adapting and extending by higher order skew corrections the notion of Uhlmann geometric phases, we thus reveal the relation between dynamical entanglement growth and the geometry of the Hilbert-Schmidt bundle as the mathematical foundation of purified states. With benchmarks on a non-integrable spin chain model, we compare the computational performance of matrix product state algorithms based on our present geometric disentangling method to previous approaches for taming entanglement growth in purified states. Our findings provide numerical evidence that geometric disentanglers are at least competitive and even outperform existing techniques in an extended parameter regime relevant to the practical calculation of dynamical response functions. To exclude the effect of avoidable algorithmic imperfections, we provide a numerically exact analysis for systems of moderate size.
翻訳日:2023-09-18 17:06:29 公開日:2023-09-14
# 多体相関測度によるフェルミオン状態の分類

Classifying fermionic states via many-body correlation measures ( http://arxiv.org/abs/2309.07956v1 )

ライセンス: Link先を確認
Mykola Semenyakin, Yevheniia Cheipesh, Yaroslav Herasymenko(参考訳) 固定粒子数を持つ純粋なフェルミオン状態は、スレーター行列式から逸脱した場合に相関すると言われる。 本研究では、この概念を洗練することができ、$k$-${\rm \textit{body}}$相関に対してフェルミオン状態の分類を行う。 このような相関関係を、ツイスト純度と呼ばれる測度$\omega_k$の族によって捉える。 ツイスト純度は、大域的な単一粒子変換に無関心な$k$フェルミオン還元密度行列の明示的な関数である。 与えられた $k$ に対する $\omega_k$ の消滅は、状態振幅のいわゆる pl\"ucker 関係を一般化し、状態を ${\cal g}_k$ クラスにする。 集合 ${\cal g}_k$ は $k$ でネストされ、スレーター行列式は $k = 1$ up から$k = n + 1$ の完全な $n$-フェルミオンヒルベルト空間まで及ぶ。 物理的に関係のある様々な状態が${\cal G}_{k=O(1)}$に近づき、1D Hubbardモデルのいくつかの非摂動固有状態が Slater 行列の周りの摂動系列を含む。 各$k = O(1)$ に対して、${\cal G}_k$ の全ての状態をカバーするパラメータの多項式数を持つ明示的なアンサッツを与える。 このアンサッツとその結合クラスター波動関数への接続の潜在的な応用について論じる。

A pure fermionic state with a fixed particle number is said to be correlated if it deviates from a Slater determinant. In the present work we show that this notion can be refined, classifying fermionic states relative to $k$-${\rm \textit{body}}$ correlations. We capture such correlations by a family of measures $\omega_k$, which we call twisted purities. Twisted purity is an explicit function of the $k$-fermion reduced density matrix, insensitive to global single-particle transformations. Vanishing of $\omega_k$ for a given $k$ generalizes so-called Pl\"ucker relations on the state amplitudes and puts the state in a class ${\cal G}_k$. Sets ${\cal G}_k$ are nested in $k$, ranging from Slater determinants for $k = 1$ up to the full $n$-fermion Hilbert space for $k = n + 1$. We find various physically relevant states inside and close to ${\cal G}_{k=O(1)}$, including truncated configuration-interaction states, perturbation series around Slater determinants, and some nonperturbative eigenstates of the 1D Hubbard model. For each $k = O(1)$, we give an explicit ansatz with a polynomial number of parameters that covers all states in ${\cal G}_k$. Potential applications of this ansatz and its connections to the coupled-cluster wavefunction are discussed.
翻訳日:2023-09-18 17:06:04 公開日:2023-09-14
# データ駆動信号処理と信号理解のための複素値ニューラルネットワーク

Complex-Valued Neural Networks for Data-Driven Signal Processing and Signal Understanding ( http://arxiv.org/abs/2309.07948v1 )

ライセンス: Link先を確認
Josiah W. Smith(参考訳) 複雑な値を持つニューラルネットワークは、信号処理、センシング、通信の分野で多くのタスクにおいて優れたモデリング性能を誇示している。 しかし、複雑な値モデルの開発は現在、線形層や畳み込み層のような基本的なディープラーニング操作の開発を必要としており、pytorchやtensor flowのような現代のディープラーニングフレームワークは、複雑な値のニューラルネットワークを十分にサポートしていない。 本稿では,PyTorch上に構築された複雑なニューラルネットワーク操作とアーキテクチャのための軽量インタフェースの実装を目的としたパッケージの概要を述べる。 自然言語理解(NLU)と同様に、最近テキストベースインテリジェンスへの飛躍的な飛躍を遂げたRF信号理解(RFSU)は、データ駆動モデリング能力を備えた信号力学に基づく洞察のハイブリッドアプローチを用いて、従来の信号処理アルゴリズムを拡張する有望な分野である。 特に、リニア、畳み込み、アテンションモジュールの効率的な実装に加えて、アクティベーション関数やバッチノルムやレイヤノルムなどの正規化層も含む。 さらに、非常に有望だが多くの研究の文脈で比較的未調査のままである多様体ベースの複素値ニューラルネットワーク層を効率的に実装することを含む。 信号処理、通信、レーダーデータに焦点を当てた1次元データテンソルに重点が置かれているが、多くのルーチンは2次元データや3次元データにも実装されている。 特に、提案手法は、データ駆動信号処理研究と実用的な実装のための有用なツールセットとドキュメントを提供する。

Complex-valued neural networks have emerged boasting superior modeling performance for many tasks across the signal processing, sensing, and communications arenas. However, developing complex-valued models currently demands development of basic deep learning operations, such as linear or convolution layers, as modern deep learning frameworks like PyTorch and Tensor flow do not adequately support complex-valued neural networks. This paper overviews a package built on PyTorch with the intention of implementing light-weight interfaces for common complex-valued neural network operations and architectures. Similar to natural language understanding (NLU), which as recently made tremendous leaps towards text-based intelligence, RF Signal Understanding (RFSU) is a promising field extending conventional signal processing algorithms using a hybrid approach of signal mechanics-based insight with data-driven modeling power. Notably, we include efficient implementations for linear, convolution, and attention modules in addition to activation functions and normalization layers such as batchnorm and layernorm. Additionally, we include efficient implementations of manifold-based complex-valued neural network layers that have shown tremendous promise but remain relatively unexplored in many research contexts. Although there is an emphasis on 1-D data tensors, due to a focus on signal processing, communications, and radar data, many of the routines are implemented for 2-D and 3-D data as well. Specifically, the proposed approach offers a useful set of tools and documentation for data-driven signal processing research and practical implementation.
翻訳日:2023-09-18 17:05:34 公開日:2023-09-14
# TiBGL: テンプレートによる脳グラフ学習による機能的神経画像解析

TiBGL: Template-induced Brain Graph Learning for Functional Neuroimaging Analysis ( http://arxiv.org/abs/2309.07947v1 )

ライセンス: Link先を確認
Xiangzhu Meng, Wei Wei, Qiang Liu, Shu Wu, Liang Wang(参考訳) 近年、機能的磁気共鳴イメージングは人間の脳の機能的接続ネットワークを調べる強力なツールとして出現している。 関連研究により、人間の脳内の機能的接続ネットワークが神経疾患の診断効率を向上させることが示されている。 しかし、機能的ニューロイメージングの進行を制限する2つの課題がある。 まず、機能接続データにはノイズや冗長な情報が豊富に存在するため、パフォーマンスが低下する。 第二に、既存の脳ネットワークモデルは、学習モデルの背後にある神経科学的な発見の分類性能または解釈を優先する傾向にある。 本稿では,これらの課題に対処するために,テンプレート誘発脳グラフ学習(tibgl)と呼ばれる新しい脳グラフ学習フレームワークを提案する。 TiBGLは、機能結合岩に関する関連する医学的な発見に触発され、全てのグループのテンプレート脳グラフを抽出するためにテンプレート誘発脳グラフ学習を提案する。 テンプレートグラフは、ノイズ情報を取り除き重要な接続パターンを強調する脳ネットワーク上の拡張プロセスと見なすことができる。 識別と解釈のタスクを同時にサポートするため、TiBGLはテンプレート誘発の畳み込みニューラルネットワークとテンプレート誘発の脳解釈分析をさらに発展させる。 特に、前者は脳障害タスクのための脳グラフとテンプレート脳グラフからの豊富な情報を融合し、後者はテンプレート脳グラフに基づいた脳障害に関連する洞察に富んだ接続パターンを提供する。 実世界の3つのデータセットによる実験結果から,提案したTiBGLは9つの最先端手法と比較して優れた性能を示し,近年の文献における神経科学的な知見との整合性を維持している。

In recent years, functional magnetic resonance imaging has emerged as a powerful tool for investigating the human brain's functional connectivity networks. Related studies demonstrate that functional connectivity networks in the human brain can help to improve the efficiency of diagnosing neurological disorders. However, there still exist two challenges that limit the progress of functional neuroimaging. Firstly, there exists an abundance of noise and redundant information in functional connectivity data, resulting in poor performance. Secondly, existing brain network models have tended to prioritize either classification performance or the interpretation of neuroscience findings behind the learned models. To deal with these challenges, this paper proposes a novel brain graph learning framework called Template-induced Brain Graph Learning (TiBGL), which has both discriminative and interpretable abilities. Motivated by the related medical findings on functional connectivites, TiBGL proposes template-induced brain graph learning to extract template brain graphs for all groups. The template graph can be regarded as an augmentation process on brain networks that removes noise information and highlights important connectivity patterns. To simultaneously support the tasks of discrimination and interpretation, TiBGL further develops template-induced convolutional neural network and template-induced brain interpretation analysis. Especially, the former fuses rich information from brain graphs and template brain graphs for brain disorder tasks, and the latter can provide insightful connectivity patterns related to brain disorders based on template brain graphs. Experimental results on three real-world datasets show that the proposed TiBGL can achieve superior performance compared with nine state-of-the-art methods and keep coherent with neuroscience findings in recent literatures.
翻訳日:2023-09-18 17:05:07 公開日:2023-09-14
# 物理インフォームド機械学習による特異摂動系の遅い不変多様体

Slow Invariant Manifolds of Singularly Perturbed Systems via Physics-Informed Machine Learning ( http://arxiv.org/abs/2309.07946v1 )

ライセンス: Link先を確認
Dimitrios G. Patsatzis, Gianluca Fabiani, Lucia Russo, Constantinos Siettos(参考訳) 本稿では,特異摂動系の遅い不変多様体 (sims) の近似に対する物理インフォームド機械学習 (piml) アプローチを提案し,還元次数モデル (roms) の構成と数値積分を容易にする明示的な形式による関数を提供する。 提案手法は、幾何特異摂動理論(GSPT)フレームワーク内の不変方程式(IE)に対応する偏微分方程式を解く。 IEの解には、フィードフォワードニューラルネットワーク(FNN)とランダムプロジェクションニューラルネットワーク(RPNN)という2つのニューラルネットワーク構造を使用し、学習プロセスに必要な勾配の計算を象徴的に区別した。 PIML法の効率は,ミカエル・メンテン (Michaelis-Menten) の3つのベンチマーク問題,薬物沈着反応機構,セルコフモデルを用いて評価した。 提案手法は従来のGSPT法と同等あるいはそれ以上の精度で近似し,実用上は摂動パラメータの大きさの影響を受けないことを示す。 これは特に重要であり、高速時間スケールと遅い時間スケールのギャップがそれほど大きくはないが、それでもromを構築することができる多くのシステムが存在する。 また, 学習過程における必要微分の記号的, 自動的, 数値的近似による計算コストの比較を行った。

We present a physics-informed machine-learning (PIML) approach for the approximation of slow invariant manifolds (SIMs) of singularly perturbed systems, providing functionals in an explicit form that facilitate the construction and numerical integration of reduced order models (ROMs). The proposed scheme solves a partial differential equation corresponding to the invariance equation (IE) within the Geometric Singular Perturbation Theory (GSPT) framework. For the solution of the IE, we used two neural network structures, namely feedforward neural networks (FNNs), and random projection neural networks (RPNNs), with symbolic differentiation for the computation of the gradients required for the learning process. The efficiency of our PIML method is assessed via three benchmark problems, namely the Michaelis-Menten, the target mediated drug disposition reaction mechanism, and the 3D Sel'kov model. We show that the proposed PIML scheme provides approximations, of equivalent or even higher accuracy, than those provided by other traditional GSPT-based methods, and importantly, for any practical purposes, it is not affected by the magnitude of the perturbation parameter. This is of particular importance, as there are many systems for which the gap between the fast and slow timescales is not that big, but still ROMs can be constructed. A comparison of the computational costs between symbolic, automatic and numerical approximation of the required derivatives in the learning process is also provided.
翻訳日:2023-09-18 17:04:40 公開日:2023-09-14
# ゼロショットクリニカル自然言語処理における大規模言語モデルのプロンプト戦略の実証評価

An Empirical Evaluation of Prompting Strategies for Large Language Models in Zero-Shot Clinical Natural Language Processing ( http://arxiv.org/abs/2309.08008v1 )

ライセンス: Link先を確認
Sonish Sivarajkumar, Mark Kelley, Alyssa Samolyk-Mazzanti, Shyam Visweswaran, Yanshan Wang(参考訳) 大規模言語モデル (llm) は自然言語処理 (nlp) において、特に臨床領域のようなラベル付きデータが不足または高価である領域において顕著な能力を示している。 しかし、これらのLSMに隠された臨床知識を解き放つためには、特定のNLPタスクをタスク固有のトレーニングデータなしで実行するための効果的なプロンプトを設計する必要がある。 これはインコンテキスト学習(In-context learning)と呼ばれ、異なるLLMの強みと弱みを理解し、エンジニアリングアプローチを急ぐ必要がある。 本稿では,5つの臨床NLPタスク(臨床センスの曖昧さ,バイオメディカルエビデンス抽出,基準解決,メディケーション状態抽出,メディケーション属性抽出)の即時的エンジニアリングに関する総合的,体系的な実験を行った。 近年の文献では,単純な接頭辞,単純なクローゼ,思考の連鎖,予測的プロンプトなどのプロンプトを評価し,ヒューリスティックプロンプトとアンサンブルプロンプトという2つの新しいタイプのプロンプトを導入した。 GPT-3.5, BARD, LLAMA2の3種類のLLMにおけるこれらのプロンプトの性能評価を行った。 また,ゼロショットプロンプトとマイナショットプロンプトを比較し,臨床nlpにおけるllmプロンプトエンジニアリングのための新しい洞察とガイドラインを提供した。 我々の知る限り、これは、この生成AIの時代における臨床NLPの様々な迅速な工学的アプローチに関する実証的な評価の1つであり、この領域における将来の研究を刺激し、知らせることを願っている。

Large language models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), especially in domains where labeled data is scarce or expensive, such as clinical domain. However, to unlock the clinical knowledge hidden in these LLMs, we need to design effective prompts that can guide them to perform specific clinical NLP tasks without any task-specific training data. This is known as in-context learning, which is an art and science that requires understanding the strengths and weaknesses of different LLMs and prompt engineering approaches. In this paper, we present a comprehensive and systematic experimental study on prompt engineering for five clinical NLP tasks: Clinical Sense Disambiguation, Biomedical Evidence Extraction, Coreference Resolution, Medication Status Extraction, and Medication Attribute Extraction. We assessed the prompts proposed in recent literature, including simple prefix, simple cloze, chain of thought, and anticipatory prompts, and introduced two new types of prompts, namely heuristic prompting and ensemble prompting. We evaluated the performance of these prompts on three state-of-the-art LLMs: GPT-3.5, BARD, and LLAMA2. We also contrasted zero-shot prompting with few-shot prompting, and provide novel insights and guidelines for prompt engineering for LLMs in clinical NLP. To the best of our knowledge, this is one of the first works on the empirical evaluation of different prompt engineering approaches for clinical NLP in this era of generative AI, and we hope that it will inspire and inform future research in this area.
翻訳日:2023-09-18 16:56:48 公開日:2023-09-14
# DiariST:話者ダイアリゼーションを用いたストリーム音声翻訳

DiariST: Streaming Speech Translation with Speaker Diarization ( http://arxiv.org/abs/2309.08007v1 )

ライセンス: Link先を確認
Mu Yang, Naoyuki Kanda, Xiaofei Wang, Junkun Chen, Peidong Wang, Jian Xue, Jinyu Li, Takuya Yoshioka(参考訳) 会話記録のためのエンドツーエンド音声翻訳(ST)には、正確な単語タイムスタンプのない話者ダイアリゼーション(SD)や、ストリーミング方式で重複する音声の処理など、未解決の課題がいくつか含まれている。 本研究では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。 ニューラルトランスデューサベースのストリーミングSTシステム上に構築されており、トークンレベルのシリアライズされた出力トレーニングとtベクトルを統合している。 この領域における評価ベンチマークが欠如しているため、アリミートコーパスの参照中国語転写を英語に翻訳し、新しい評価データセット diarist-alimeeting を開発した。 また,sd精度を考慮しながらst品質を測定するために,話者非依存bleuおよび話者帰属bleuと呼ばれる新しい指標を提案する。 重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。 この新たな方向の研究を容易にするために,評価データ,オフラインベースラインシステム,評価コードをリリースする。

End-to-end speech translation (ST) for conversation recordings involves several under-explored challenges such as speaker diarization (SD) without accurate word time stamps and handling of overlapping speech in a streaming fashion. In this work, we propose DiariST, the first streaming ST and SD solution. It is built upon a neural transducer-based streaming ST system and integrates token-level serialized output training and t-vector, which were originally developed for multi-talker speech recognition. Due to the absence of evaluation benchmarks in this area, we develop a new evaluation dataset, DiariST-AliMeeting, by translating the reference Chinese transcriptions of the AliMeeting corpus into English. We also propose new metrics, called speaker-agnostic BLEU and speaker-attributed BLEU, to measure the ST quality while taking SD accuracy into account. Our system achieves a strong ST and SD capability compared to offline systems based on Whisper, while performing streaming inference for overlapping speech. To facilitate the research in this new direction, we release the evaluation data, the offline baseline systems, and the evaluation code.
翻訳日:2023-09-18 16:55:58 公開日:2023-09-14
# 1DCNNアテンションネットワークを用いたrPPGのキンシップ検証

Kinship Verification from rPPG using 1DCNN Attention networks ( http://arxiv.org/abs/2309.08006v1 )

ライセンス: Link先を確認
Xiaoting Wu, Xiaoyi Feng, Lili Liu, Constantino \'Alvarez Casado and Miguel Bordallo L\'opez(参考訳) 顔の親族関係の検証は、2人の被験者が親族関係を持っているかどうかを自動的に判定することを目的としている。 顔、声、歩行、笑顔の表情など、様々な形態から広く研究されている。 しかし, 顔映像から抽出した遠隔光胸シンモグラフィ(rppg)のような生体信号の可能性は, 近親相姦検証問題においてほとんど解明されていない。 本稿では,RPPG信号の親和性検証への利用を初めて検討する。 具体的には,1次元畳み込みニューラルネットワーク (1DCNN) を1DCNN-Attentionモジュールで提案し,RPPGsから親和性類似性を学習する。 ネットワークは、様々な関心領域(ROI)から抽出された複数のrPPG信号を入力として取り出す。 さらに、1dcnn attentionモジュールは、特徴埋め込みから識別可能なkin機能を学習し、キャプチャするように設計されている。 提案手法は,親族関係の異なるuvanemo smileデータベース上で評価し,親族関係の検証におけるrppg信号の有用性を示した。

Facial kinship verification aims at automatically determining whether two subjects have a kinship relation. It has been widely studied from different modalities, such as faces, voices, gait, and smiling expressions. However, the potential of bio-signals, such as remote Photoplethysmography (rPPG) extracted from facial videos, remains largely unexplored in the kinship verification problem. In this paper, we investigate for the first time the usage of the rPPG signal for kinship verification. Specifically, we proposed a one-dimensional Convolutional Neural Network (1DCNN) with a 1DCNN-Attention module and contrastive loss to learn the kinship similarity from rPPGs. The network takes multiple rPPG signals extracted from various facial Regions of Interest (ROIs) as inputs. Additionally, the 1DCNN attention module is designed to learn and capture the discriminative kin features from feature embeddings. Finally, the proposed method is evaluated on the UvANEMO Smile Database from different kin relations, showing the usefulness of rPPG signals in verifying kinship.
翻訳日:2023-09-18 16:55:35 公開日:2023-09-14
# チャット指向対話評価における人間評価グループの影響の検討

Exploring the Impact of Human Evaluator Group on Chat-Oriented Dialogue Evaluation ( http://arxiv.org/abs/2309.07998v1 )

ライセンス: Link先を確認
Sarah E. Finch, James D. Finch, Jinho D. Choi(参考訳) チャット指向対話システム評価の標準として,人間の評価が広く受け入れられている。 しかし、誰が評価官として採用されるかについては、以前の作品に大きな違いがある。 ドメインエキスパート、大学生、プロのアノテータなどの評価グループは、対話システムの評価と比較に使われてきたが、評価グループの選択が結果にどの程度影響するかは定かではない。 本稿では、4つの異なる評価器群を用いた4つの最先端対話システムをテストすることによって、評価器群が対話システム評価に与える影響を解析する。 分析の結果,Pairwiseでは見られなかったLikert評価群に対する評価群に対するロバスト性が明らかとなった。 さらに、この頑健性に対する2つの顕著な制限が観察され、これはチャットボットの専門知識の異なる評価者間での相違を明らかにし、ある対話指標に対して評価者客観性が有益であることを示す。

Human evaluation has been widely accepted as the standard for evaluating chat-oriented dialogue systems. However, there is a significant variation in previous work regarding who gets recruited as evaluators. Evaluator groups such as domain experts, university students, and professional annotators have been used to assess and compare dialogue systems, although it is unclear to what extent the choice of an evaluator group can affect results. This paper analyzes the evaluator group impact on dialogue system evaluation by testing 4 state-of-the-art dialogue systems using 4 distinct evaluator groups. Our analysis reveals a robustness towards evaluator groups for Likert evaluations that is not seen for Pairwise, with only minor differences observed when changing evaluator groups. Furthermore, two notable limitations to this robustness are observed, which reveal discrepancies between evaluators with different levels of chatbot expertise and indicate that evaluator objectivity is beneficial for certain dialogue metrics.
翻訳日:2023-09-18 16:55:18 公開日:2023-09-14
# HeLIOS:超流動ヘリウム超軽量ダークマター検出器

HeLIOS: The Superfluid Helium Ultralight Dark Matter Detector ( http://arxiv.org/abs/2309.07995v1 )

ライセンス: Link先を確認
M. Hirschel, V. Vadakkumbatt, N.P. Baker, F.M. Schweizer, J.C. Sankey, S. Singh, and J.P. Davis(参考訳) 目立った大規模検出器による直接観測ダークマター(dm)のブレークスルーの欠如は、パラメータ空間のよりエキゾチックな領域を探索する新しいテーブルトップ実験の開発を動機付ける。 dm が超軽いボソニック粒子を含む場合、それらは古典波として振る舞うことができ、$\sim 10^6$ の周期でコヒーレントなバロン物質の振動力によって現れる。 ヘリウム超軽量ダークマター光機械センサー(helios)は、超流動ヘリウム4の高q$音響モードを使って、この信号を共鳴増幅します。 超伝導再入射マイクロ波空洞は、ミリケルビン温度での熱運動によって最終的に制限される感度の光学的読み出しを可能にする。 ヘリウムを加圧することで、機械周波数をチューニングしてdm検出帯域を効果的に拡大することができる。 我々は,プロトタイプHeLIOS検出器の動作原理を実証し,HeLIOSの将来世代が,わずか1時間でスカラーおよびベクトル超軽量DMの制約のないパラメータ空間を探索できることを示した。

The absence of a breakthrough in directly observing dark matter (DM) through prominent large-scale detectors motivates the development of novel tabletop experiments probing more exotic regions of the parameter space. If DM contains ultralight bosonic particles, they would behave as a classical wave and could manifest through an oscillating force on baryonic matter that is coherent over $\sim 10^6$ periods. Our Helium ultraLIght dark matter Optomechanical Sensor (HeLIOS) uses the high-$Q$ acoustic modes of superfluid helium-4 to resonantly amplify this signal. A superconducting re-entrant microwave cavity enables sensitive optomechanical readout ultimately limited by thermal motion at millikelvin temperatures. Pressurizing the helium allows for the unique possibility of tuning the mechanical frequency to effectively broaden the DM detection bandwidth. We demonstrate the working principle of our prototype HeLIOS detector and show that future generations of HeLIOS could explore unconstrained parameter space for both scalar and vector ultralight DM after just an hour of integration time.
翻訳日:2023-09-18 16:55:02 公開日:2023-09-14
# 米国北東部臨界水域における時系列データの異常ピークパターン検出のための自動機械学習手法

An Automated Machine Learning Approach for Detecting Anomalous Peak Patterns in Time Series Data from a Research Watershed in the Northeastern United States Critical Zone ( http://arxiv.org/abs/2309.07992v1 )

ライセンス: Link先を確認
Ijaz Ul Haq, Byung Suk Lee, Donna M. Rizzo, Julia N Perdrial(参考訳) 本稿では,米国北東部の臨界水域におけるセンサによる時系列データの異常検出を支援する自動機械学習フレームワークを提案する。 このフレームワークは特に、センサの異常や自然現象から生じるピークパターン異常の特定に焦点を当てている。 しかしながら、異常検出のための分類手法の使用は、ラベル付きデータを基底真理として要求することや、与えられたタスクやデータセットに最も適したディープラーニングモデルの選択など、課題を提起する。 これらの課題に対処するため,合成ピークパターンを合成時系列データに注入することによりラベル付きデータセットを生成し,自動ハイパーパラメータ最適化機構を組み込んだ。 このメカニズムは、Temporal Convolutional Network (TCN)、InceptionTime、MiniRocket、Residual Networks (ResNet)、Long Short-Term Memory (LSTM)の5つのモデルからなるプールから、最高のアーキテクチャとトレーニングパラメータを持つ最適化モデルインスタンスを生成する。 選択は、異常検出精度と計算コストに関するユーザの好みに基づいて行われる。 このフレームワークは、合成データセットジェネレータとしてTimeGAN(Time-Series Generative Adversarial Networks)を使用している。 生成したモデルインスタンスは、異常検出プロセス中に、トレーニング時間とメモリを含む精度と計算コストのメトリクスの組み合わせを用いて評価される。 フレームワークの性能評価は、流域からのデータセットを用いて行われ、ユーザの好みを満たす最も適したモデルインスタンスの一貫性のある選択を実証した。

This paper presents an automated machine learning framework designed to assist hydrologists in detecting anomalies in time series data generated by sensors in a research watershed in the northeastern United States critical zone. The framework specifically focuses on identifying peak-pattern anomalies, which may arise from sensor malfunctions or natural phenomena. However, the use of classification methods for anomaly detection poses challenges, such as the requirement for labeled data as ground truth and the selection of the most suitable deep learning model for the given task and dataset. To address these challenges, our framework generates labeled datasets by injecting synthetic peak patterns into synthetically generated time series data and incorporates an automated hyperparameter optimization mechanism. This mechanism generates an optimized model instance with the best architectural and training parameters from a pool of five selected models, namely Temporal Convolutional Network (TCN), InceptionTime, MiniRocket, Residual Networks (ResNet), and Long Short-Term Memory (LSTM). The selection is based on the user's preferences regarding anomaly detection accuracy and computational cost. The framework employs Time-series Generative Adversarial Networks (TimeGAN) as the synthetic dataset generator. The generated model instances are evaluated using a combination of accuracy and computational cost metrics, including training time and memory, during the anomaly detection process. Performance evaluation of the framework was conducted using a dataset from a watershed, demonstrating consistent selection of the most fitting model instance that satisfies the user's preferences.
翻訳日:2023-09-18 16:54:45 公開日:2023-09-14
# 効果的なエンティティ・サイレンス検出のためのコンテキスト情報の活用

Leveraging Contextual Information for Effective Entity Salience Detection ( http://arxiv.org/abs/2309.07990v1 )

ライセンス: Link先を確認
Rajarshi Bhowmik, Marco Ponza, Atharva Tendle, Anant Gupta, Rebecca Jiang, Xingyu Lu, Qian Zhao, Daniel Preotiuc-Pietro(参考訳) ニュース記事などのテキスト文書では、コンテンツや重要なイベントは通常、文書に言及されているすべてのエンティティのサブセットを中心に展開する。 これらのエンティティは、しばしば健全なエンティティと見なされ、文書の真偽を読者に有用な手がかりを提供する。 検索,ランキング,エンティティ中心の要約などの下流アプリケーションでは,エンティティのサリエンスを識別することが有効であった。 これまでは、高度な機能エンジニアリングを必要とする機械学習モデルに主眼を置いていた。 クロスエンコーダ型アーキテクチャによる中規模の言語モデルの微調整は,機能工学的アプローチよりも大幅なパフォーマンス向上をもたらすことを示す。 この目的のために、中規模の事前訓練言語モデルファミリーを代表するモデルを用いて、4つの公開データセットの包括的なベンチマークを行う。 さらに,命令型言語モデルのゼロショットプロンプトは,タスクの特異性と複雑性を示す結果に劣ることを示した。

In text documents such as news articles, the content and key events usually revolve around a subset of all the entities mentioned in a document. These entities, often deemed as salient entities, provide useful cues of the aboutness of a document to a reader. Identifying the salience of entities was found helpful in several downstream applications such as search, ranking, and entity-centric summarization, among others. Prior work on salient entity detection mainly focused on machine learning models that require heavy feature engineering. We show that fine-tuning medium-sized language models with a cross-encoder style architecture yields substantial performance gains over feature engineering approaches. To this end, we conduct a comprehensive benchmarking of four publicly available datasets using models representative of the medium-sized pre-trained language model family. Additionally, we show that zero-shot prompting of instruction-tuned language models yields inferior results, indicating the task's uniqueness and complexity.
翻訳日:2023-09-18 16:54:19 公開日:2023-09-14
# フォールディング注意:オンデバイストランスを用いたストリーミング音声認識におけるメモリと電力最適化

Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition ( http://arxiv.org/abs/2309.07988v1 )

ライセンス: Link先を確認
Yang Li, Liangzhen Lai, Yuan Shangguan, Forrest N. Iandola, Ernie Chang, Yangyang Shi, Vikas Chandra(参考訳) トランスフォーマーベースのモデルは音声認識に優れている。 トランスフォーマー推論を最適化する既存の取り組みは、一般的には、注意スコアの計算を単純化することに集中している。 しかし、ストリーミング音声認識モデルは、通常、毎回限られた数のトークンを処理し、注目スコアの計算をボトルネックより少なくする。 その代わりに、ボトルネックはマルチヘッドの注意とフィードフォワードネットワークの線形投影層にあり、モデルサイズの大部分を占め、計算、メモリ、電力使用量に大きく貢献する。 このボトルネックに対処するため,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意を提案する。 オンデバイストランスフォーマーに基づくストリーミング音声認識モデルの実験では、折り畳み注意がモデルサイズ(および対応するメモリ消費)を最大24%削減し、消費電力を最大23%削減し、いずれもモデルの精度や計算オーバーヘッドを損なうことなく実現している。

Transformer-based models excel in speech recognition. Existing efforts to optimize Transformer inference, typically for long-context applications, center on simplifying attention score calculations. However, streaming speech recognition models usually process a limited number of tokens each time, making attention score calculation less of a bottleneck. Instead, the bottleneck lies in the linear projection layers of multi-head attention and feedforward networks, constituting a substantial portion of the model size and contributing significantly to computation, memory, and power usage. To address this bottleneck, we propose folding attention, a technique targeting these linear layers, significantly reducing model size and improving memory and power efficiency. Experiments on on-device Transformer-based streaming speech recognition models show that folding attention reduces model size (and corresponding memory consumption) by up to 24% and power consumption by up to 23%, all without compromising model accuracy or computation overhead.
翻訳日:2023-09-18 16:54:07 公開日:2023-09-14
# フォトニック量子ビット用ファイバーループ量子バッファ

Fiber Loop Quantum Buffer for Photonic Qubits ( http://arxiv.org/abs/2309.07987v1 )

ライセンス: Link先を確認
Kim Fook Lee, Gamze Gul, Zhao Jim, and Prem Kumar(参考訳) 我々は、低損失の2$\times$2スイッチとファイバ遅延線からなる単位遅延に基づくファイバループ量子バッファについて報告する。 エンタングル光子対の1つの光子が記憶され、78$,\rm{khz}$の繰り返しレートで検索される2光子偏光子絡み状態を用いてデバイスの特徴付けを行う。 単位遅延の整数倍数を可能にするこの装置は、クォービット状態をファイバ遅延ラインの単位5.4$\,\rm{km}$に格納し、ループのラウンドトリップの回数を最大3.3倍にすることができる。 さらに,量子ビットの単位遅延の整数乗算と除算を実現するために,他のアクティブ要素と装置を設定する。 取得した光子とその絡み合った光子に対して量子状態トモグラフィを行う。 最大保存時間は52$\,\mu\rm{sec}$である。 さらに、装置の保存・検索過程を特徴付けるため、バッファリング量子ビット状態上でエンタングルメント支援量子プロセストモグラフィーを行う。 装置のプロセス忠実度は0.98ドルである。 その結果、デバイスは2光子偏光エンタングル状態から量子ビット状態の重ね合わせと絡み合いを保存できることがわかった。 これは、光非同期転送モード(ATM)ベースの量子ネットワークにおける応用を促進するための重要なステップである。

We report a fiber loop quantum buffer based on a low-loss 2$\times$2 switch and a unit delay made of a fiber delay line. We characterize the device by using a two-photon polarization entangled state in which one photon of the entangled photon pair is stored and retrieved at a repetition rate up to 78$\,\rm{kHz}$. The device, which enables integer multiples of a unit delay, can store the qubit state in a unit of fiber delay line up to 5.4$\,\rm{km}$ and the number of loop round-trips up to 3. Furthermore, we configure the device with other active elements to realize integer multiplies and divider of a unit delay of a qubit. The quantum state tomography is performed on the retrieved photon and its entangled photon. We obtain a state fidelity $>94\%$ with a maximum storage time of 52$\,\mu\rm{sec}$. To further characterize the storing and retrieving processes of the device, we perform entanglement-assisted quantum process tomography on the buffered qubit state. The process fidelity of the device is $>$ 0.98. Our result implies that the device preserves the superposition and entanglement of a qubit state from a two-photon polarization-entangled state. This is a significant step towards facilitating applications in optical asynchronous transfer mode (ATM) based quantum networks.
翻訳日:2023-09-18 16:53:49 公開日:2023-09-14
# 視点テキストインバージョン:事前学習した2次元拡散モデルを用いた新しい視点合成

Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models ( http://arxiv.org/abs/2309.07986v1 )

ライセンス: Link先を確認
James Burgess, Kuan-Chieh Wang, and Serena Yeung(参考訳) テキストと画像の拡散モデルはオブジェクト間の空間的関係を理解するが、それは2次元の監督だけで世界の真の3次元構造を表現するのか? 3次元知識が安定拡散のような2次元画像拡散モデルにエンコードされていることを実証し,この構造を3次元視覚タスクに活用できることを示す。 提案手法であるviewnetiは,凍結拡散モデルを用いて生成画像中の物体の3次元的視点を制御する。 我々は、小さなニューラルマッパーを訓練して、カメラの視点パラメータを抽出し、テキストエンコーダの潜伏者を予測し、潜伏者は拡散生成過程を条件とし、所望のカメラの視点で画像を生成する。 ViewNeTIはノベルビュー合成(NVS)を自然に扱う。 凍結拡散モデルを先行として活用することにより,入力ビューの少ないNVSを解くことができ,単一ビューの新規ビュー合成も可能である。 単視点NVS予測は,従来の手法に比べてセマンティックディテールとフォトリアリズムが優れている。 本手法は,多様なサンプルを効率よく生成できるため,スパース3次元視覚問題に固有の不確かさをモデル化するのに適している。 我々のビューコントロール機構は一般的であり、ユーザ定義のプロンプトによって生成された画像のカメラビューも変更できる。

Text-to-image diffusion models understand spatial relationship between objects, but do they represent the true 3D structure of the world from only 2D supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image diffusion models like Stable Diffusion, and we show that this structure can be exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion (ViewNeTI), controls the 3D viewpoint of objects in generated images from frozen diffusion models. We train a small neural mapper to take camera viewpoint parameters and predict text encoder latents; the latents then condition the diffusion generation process to produce images with the desired camera viewpoint. ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the frozen diffusion model as a prior, we can solve NVS with very few input views; we can even do single-view novel view synthesis. Our single-view NVS predictions have good semantic details and photorealism compared to prior methods. Our approach is well suited for modeling the uncertainty inherent in sparse 3D vision problems because it can efficiently generate diverse samples. Our view-control mechanism is general, and can even change the camera view in images generated by user-defined prompts.
翻訳日:2023-09-18 16:53:26 公開日:2023-09-14
# 解釈性を考慮した視覚トランスフォーマ

Interpretability-Aware Vision Transformer ( http://arxiv.org/abs/2309.08035v1 )

ライセンス: Link先を確認
Yao Qiang, Chengyin Li, Prashant Khanduri and Dongxiao Zhu(参考訳) 視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。 しかし、ViTsの解釈性は、期待できる性能を保ってはいない。 ViTsの出力を説明するソリューションの開発には関心が高まっているが、これらの手法は下流の様々なタスクや様々なトランスフォーマーアーキテクチャに一般化していない。 さらに、ViTが与えられたデータで適切に訓練されておらず、興味のある領域を優先順位付けしていない場合、it post hoc} 法は効果が低い。 新たな手法を考案する代わりに,モデル解釈性を高める新たなトレーニング手順を導入する。 我々の解釈可能性認識型ViT(IA-ViT)は、クラスパッチとイメージパッチの両方が予測分布とアテンションマップを一貫して生成しているという、新たな洞察からインスピレーションを得ている。 IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。 その結果、インタプリタは予測器の動作をシミュレートし、その単一頭部自己認識機構を通じて忠実な説明を提供する。 画像分類作業におけるIA-ViTの有効性を,モデル性能と解釈可能性の質的・定量的評価により検証した。 ソースコードはhttps://github.com/qiangyao1988/ia-vit。

Vision Transformers (ViTs) have become prominent models for solving various vision tasks. However, the interpretability of ViTs has not kept pace with their promising performance. While there has been a surge of interest in developing {\it post hoc} solutions to explain ViTs' outputs, these methods do not generalize to different downstream tasks and various transformer architectures. Furthermore, if ViTs are not properly trained with the given data and do not prioritize the region of interest, the {\it post hoc} methods would be less effective. Instead of developing another {\it post hoc} approach, we introduce a novel training procedure that inherently enhances model interpretability. Our interpretability-aware ViT (IA-ViT) draws inspiration from a fresh insight: both the class patch and image patches consistently generate predicted distributions and attention maps. IA-ViT is composed of a feature extractor, a predictor, and an interpreter, which are trained jointly with an interpretability-aware training objective. Consequently, the interpreter simulates the behavior of the predictor and provides a faithful explanation through its single-head self-attention mechanism. Our comprehensive experimental results demonstrate the effectiveness of IA-ViT in several image classification tasks, with both qualitative and quantitative evaluations of model performance and interpretability. Source code is available from: https://github.com/qiangyao1988/IA-ViT.
翻訳日:2023-09-18 16:47:36 公開日:2023-09-14
# 学習カラー符号化アパーチャを用いた単一光学符号化画像からの深さ推定

Depth Estimation from a Single Optical Encoded Image using a Learned Colored-Coded Aperture ( http://arxiv.org/abs/2309.08033v1 )

ライセンス: Link先を確認
Jhon Lopez, Edwin Vargas, Henry Arguello(参考訳) 従来のカメラの単一画像からの深度推定は、取得プロセス中に奥行きの手がかりが失われるため、難しい課題である。 最先端のアプローチは、異なる深さで異なる符号付きぼかしパターンを生成するレンズ開口にバイナリ符号化開口(CA)を導入することにより、異なる深さの識別を改善する。 カラー符号化開口(CCA)は、撮影画像に色ずれを生じさせ、不一致を推定することができる。 ディープラーニングの進歩を生かして、より最近の研究は、色収差による深度情報を符号化するための回折光学素子(DOE)のデータ駆動設計を探求している。 しかし、バイナリCAやCAAと比較すると、DOEは製造コストが高く、高精度な装置を必要とする。 基本色がほとんどない従来のCCAベースのアプローチとは異なり、本研究では、より多くのカラーフィルタとよりリッチなスペクトル情報を用いて、関連する深度情報を単一のスナップショットで光学的に符号化するCCAを提案する。 さらに,カラー符号化開口(CCA)パターンと畳み込みニューラルネットワーク(CNN)を併用して,エンドツーエンド最適化手法を用いて深度情報を取得することを提案する。 3つの異なるデータセットについて異なる実験を行い、設計したカラーエンコーディングは奥行きあいまいさを取り除き、最先端のアプローチよりも奥行き推定を改善する可能性を実証した。 さらに,写真フィルムを用いて低コストでCCAのプロトタイプを作成し,実際のシナリオで提案手法を検証した。

Depth estimation from a single image of a conventional camera is a challenging task since depth cues are lost during the acquisition process. State-of-the-art approaches improve the discrimination between different depths by introducing a binary-coded aperture (CA) in the lens aperture that generates different coded blur patterns at different depths. Color-coded apertures (CCA) can also produce color misalignment in the captured image which can be utilized to estimate disparity. Leveraging advances in deep learning, more recent works have explored the data-driven design of a diffractive optical element (DOE) for encoding depth information through chromatic aberrations. However, compared with binary CA or CCA, DOEs are more expensive to fabricate and require high-precision devices. Different from previous CCA-based approaches that employ few basic colors, in this work we propose a CCA with a greater number of color filters and richer spectral information to optically encode relevant depth information in a single snapshot. Furthermore, we propose to jointly learn the color-coded aperture (CCA) pattern and a convolutional neural network (CNN) to retrieve depth information by using an end-to-end optimization approach. We demonstrate through different experiments on three different data sets that the designed color-encoding has the potential to remove depth ambiguities and provides better depth estimates compared to state-of-the-art approaches. Additionally, we build a low-cost prototype of our CCA using a photographic film and validate the proposed approach in real scenarios.
翻訳日:2023-09-18 16:47:14 公開日:2023-09-14
# サイト選択STM操作により作製された高スループットコンピュータスクリーニングにより発見されたWS$_2$の置換量子欠陥

A substitutional quantum defect in WS$_2$ discovered by high-throughput computational screening and fabricated by site-selective STM manipulation ( http://arxiv.org/abs/2309.08032v1 )

ライセンス: Link先を確認
John C. Thomas, Wei Chen, Yihuang Xiong, Bradford A. Barker, Junze Zhou, Weiru Chen, Antonio Rossi, Nolan Kelly, Zhuohang Yu, Da Zhou, Shalini Kumari, Edward S. Barnard, Joshua A. Robinson, Mauricio Terrones, Adam Schwartzberg, D. Frank Ogletree, Eli Rotenberg, Marcus M. Noack, Sin\'ead Griffin, Archana Raja, David A. Strubbe, Gian-Marco Rignanese, Alexander Weber-Bargioni, Geoffroy Hautier(参考訳) 二次元材料の点欠陥は量子情報科学の重要な関心事である。 しかし、可能な欠陥の空間は膨大であり、高性能な量子欠陥の同定は非常に困難である。 ここでは、高スループット(HT)第一原理計算スクリーニングを行い、WS$_2$内の有望な量子欠陥を探索する。 計算したデータベースは,タングステンまたは硫黄部位の置換により生成した700以上の荷電欠陥にまたがる。 硫黄置換は最も有望な量子欠陥を可能にすることがわかった。 硫黄への中性コバルト置換(co$_{\rm s}^{0}$)を非常に有望であると計算的に同定し,走査型トンネル顕微鏡(stm)で作製した。 STMによって測定されたCo$_{\rm S}^{0}$電子構造は第一原理に同意し、魅力的な新しい量子欠陥を示す。 本研究は,新しい量子欠陥の設計にht計算スクリーニングと新しい欠陥合成経路を組み合わせる方法を示す。

Point defects in two-dimensional materials are of key interest for quantum information science. However, the space of possible defects is immense, making the identification of high-performance quantum defects extremely challenging. Here, we perform high-throughput (HT) first-principles computational screening to search for promising quantum defects within WS$_2$, which present localized levels in the band gap that can lead to bright optical transitions in the visible or telecom regime. Our computed database spans more than 700 charged defects formed through substitution on the tungsten or sulfur site. We found that sulfur substitutions enable the most promising quantum defects. We computationally identify the neutral cobalt substitution to sulfur (Co$_{\rm S}^{0}$) as very promising and fabricate it with scanning tunneling microscopy (STM). The Co$_{\rm S}^{0}$ electronic structure measured by STM agrees with first principles and showcases an attractive new quantum defect. Our work shows how HT computational screening and novel defect synthesis routes can be combined to design new quantum defects.
翻訳日:2023-09-18 16:46:50 公開日:2023-09-14
# AV2Wav: 音声音声強調のための連続自己教師機能からの拡散に基づく再合成

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2309.08030v1 )

ライセンス: Link先を確認
Ju-Chieh Chou, Chung-Ming Chien, Karen Livescu(参考訳) 音声強調システムは通常、クリーンな音声と騒がしい音声のペアを使って訓練される。 オーディオ・ヴィジュアル音声強調(AVSE)では、音声・ヴィジュアル・データセットは、背景雑音や残響を伴う現実世界の環境で収集され、AVSEの開発を妨げている。 本研究では,実世界の学習データの課題にもかかわらずクリーンな音声を生成できる再生型音声視覚音声強調手法であるAV2Wavを紹介する。 ニューラルクオリティ推定器を用いて音声・視覚コーパスからほぼクリーンな音声のサブセットを取得し、このサブセット上で拡散モデルを訓練し、ノイズロバストトレーニングによりAV-HuBERTから連続音声表現に条件付き波形を生成する。 韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。 このvocodingタスクだけで、モデルはマスキングベースのベースラインよりも音声強調を行うことができる。 さらに, クリーン・ノイズ対の拡散モデルを微調整し, 性能向上を図る。 提案手法は,自動測定と人間の聴力テストの両方においてマスキングベースのベースラインを上回り,聴力テストにおけるターゲット音声にほぼ近い品質である。 オーディオサンプルはhttps://home.ttic.edu/~jcchou/demo/avse/avse_demo.htmlにある。

Speech enhancement systems are typically trained using pairs of clean and noisy speech. In audio-visual speech enhancement (AVSE), there is not as much ground-truth clean data available; most audio-visual datasets are collected in real-world environments with background noise and reverberation, hampering the development of AVSE. In this work, we introduce AV2Wav, a resynthesis-based audio-visual speech enhancement approach that can generate clean speech despite the challenges of real-world training data. We obtain a subset of nearly clean speech from an audio-visual corpus using a neural quality estimator, and then train a diffusion model on this subset to generate waveforms conditioned on continuous speech representations from AV-HuBERT with noise-robust training. We use continuous rather than discrete representations to retain prosody and speaker information. With this vocoding task alone, the model can perform speech enhancement better than a masking-based baseline. We further fine-tune the diffusion model on clean/noisy utterance pairs to improve the performance. Our approach outperforms a masking-based baseline in terms of both automatic metrics and a human listening test and is close in quality to the target speech in the listening test. Audio samples can be found at https://home.ttic.edu/~jcchou/demo/avse/avse_demo.html.
翻訳日:2023-09-18 16:46:28 公開日:2023-09-14
# usm-scd:大規模基礎モデルに基づく多言語話者変化検出

USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained Foundation Models ( http://arxiv.org/abs/2309.08023v1 )

ライセンス: Link先を確認
Guanlong Zhao, Yongqiang Wang, Jason Pelecanos, Yu Zhang, Hank Liao, Yiling Huang, Han Lu, Quan Wang(参考訳) 本稿では,話者交代を同時検出し,96言語でasrを行う多言語話者変化検出モデル(usm-scd)を提案する。 このモデルは、大量の教師付きおよび教師なしデータに基づいて訓練された音声基礎モデルから適応し、下流タスクのための大規模汎用基礎モデルからの微調整の有用性を示す。 この多言語話者変化検出モデルの性能を一連のアブレーション研究により解析する。 その結果,USM-SCDモデルでは,96言語のデータからなるテストセットに対して,平均話者変化検出F1スコアの75%以上を達成可能であることがわかった。 アメリカ英語では、USM-SCDモデルは、様々な公用および内部テストセットで85.8%の話者変化検出F1スコアを達成することができ、以前のモノリンガルベースラインモデルよりも21%高い。 また、最良のモデル性能を達成するためには、トレーニング可能なモデルパラメータの4分の1を微調整する必要があることも示しています。 USM-SCDモデルは、強力なパブリックなASRベースラインと比較して最先端のASR品質を示しており、両方のタスクを無視できる計算コストで処理するのに適している。

We introduce a multilingual speaker change detection model (USM-SCD) that can simultaneously detect speaker turns and perform ASR for 96 languages. This model is adapted from a speech foundation model trained on a large quantity of supervised and unsupervised data, demonstrating the utility of fine-tuning from a large generic foundation model for a downstream task. We analyze the performance of this multilingual speaker change detection model through a series of ablation studies. We show that the USM-SCD model can achieve more than 75% average speaker change detection F1 score across a test set that consists of data from 96 languages. On American English, the USM-SCD model can achieve an 85.8% speaker change detection F1 score across various public and internal test sets, beating the previous monolingual baseline model by 21% relative. We also show that we only need to fine-tune one-quarter of the trainable model parameters to achieve the best model performance. The USM-SCD model exhibits state-of-the-art ASR quality compared with a strong public ASR baseline, making it suitable to handle both tasks with negligible additional computational cost.
翻訳日:2023-09-18 16:46:06 公開日:2023-09-14
# 視覚障害者のエンパワーメント:apple live photosとandroid motion photosの斬新な利用

Empowering Visually Impaired Individuals: A Novel Use of Apple Live Photos and Android Motion Photos ( http://arxiv.org/abs/2309.08022v1 )

ライセンス: Link先を確認
Seyedalireza Khoshsirat, Chandra Kambhamettu(参考訳) 視覚入力を処理するために機械学習ユニットを使用する視覚障害者を支援するために、多くのアプリケーションが開発されている。 しかし、これらのアプリケーションにおける重要な課題は、ユーザがキャプチャする画像の準最適品質である。 視覚障害者のためのカメラの操作の複雑さを考えると、Apple Live PhotosとAndroid Motion Photosの技術の使用を提唱する。 本研究では,Live/Motion Photosの有効性を従来の画像ベースアプローチと対比する手法を提案する。 以上の結果から,Live PhotosとMotion Photosは,共通の視覚支援タスク,特にオブジェクト分類やビデオQAにおいて,単フレーム画像よりも優れていた。 我々は、視覚障害者が収集したビデオからなるORBITデータセットの広範な実験を通して、その結果を検証する。 さらに,より長い時間的作物の影響を深く掘り下げるために,一連のアブレーション研究を実施している。

Numerous applications have been developed to assist visually impaired individuals that employ a machine learning unit to process visual input. However, a critical challenge with these applications is the sub-optimal quality of images captured by the users. Given the complexity of operating a camera for visually impaired individuals, we advocate for the use of Apple Live Photos and Android Motion Photos technologies. In this study, we introduce a straightforward methodology to evaluate and contrast the efficacy of Live/Motion Photos against traditional image-based approaches. Our findings reveal that both Live Photos and Motion Photos outperform single-frame images in common visual assisting tasks, specifically in object classification and VideoQA. We validate our results through extensive experiments on the ORBIT dataset, which consists of videos collected by visually impaired individuals. Furthermore, we conduct a series of ablation studies to delve deeper into the impact of deblurring and longer temporal crops.
翻訳日:2023-09-18 16:45:45 公開日:2023-09-14
# アルコールの影響下での運転行動と運転性能の視覚的分析

Vision-based Analysis of Driver Activity and Driving Performance Under the Influence of Alcohol ( http://arxiv.org/abs/2309.08021v1 )

ライセンス: Link先を確認
Ross Greer, Akshay Gopalkrishnan, Sumega Mandadi, Pujitha Gunaratne, Mohan M. Trivedi, Thomas D. Marcotte(参考訳) 米国での交通事故死者の約30%は飲酒運転者であり、飲酒運転の防止は、飲酒の影響を受けながら運転の頻度が高い米国や他の地域での自動車の安全性に準じている。 運転障害は、アクティブなセンサーの使用によって監視できる(運転者は、車両の機器に呼吸サンプルを提供するよう依頼される時や、警察官によって引き渡される時)が、より受動的で堅牢なセンシングメカニズムにより、飲酒運転事故を減らすインテリジェントシステムの採用と利益がより広まる可能性がある。 これは、運転前に、または運転プロセスの初期段階(事故や法執行機関による検出前)に障害のあるドライバーを特定するのに役立つ。 本研究では,視覚・熱・音響・化学センサのマルチモーダルアンサンブルを適用し,(1)運転シミュレータにおける急性アルコール投与が運転性能に及ぼす影響を検証し,(2)アルコールの影響下での運転を検知するためのデータ駆動手法を同定した。 本稿では,運転者の顔を熱画像で分析するためのコンピュータビジョンと機械学習モデルについて述べるとともに,関連する機械学習現象の議論を含む,さまざまなアルコール度レベルの運転者から収集したデータに基づいて,将来の実験設計に役立つパイプラインを導入する。

About 30% of all traffic crash fatalities in the United States involve drunk drivers, making the prevention of drunk driving paramount to vehicle safety in the US and other locations which have a high prevalence of driving while under the influence of alcohol. Driving impairment can be monitored through active use of sensors (when drivers are asked to engage in providing breath samples to a vehicle instrument or when pulled over by a police officer), but a more passive and robust mechanism of sensing may allow for wider adoption and benefit of intelligent systems that reduce drunk driving accidents. This could assist in identifying impaired drivers before they drive, or early in the driving process (before a crash or detection by law enforcement). In this research, we introduce a study which adopts a multi-modal ensemble of visual, thermal, audio, and chemical sensors to (1) examine the impact of acute alcohol administration on driving performance in a driving simulator, and (2) identify data-driven methods for detecting driving under the influence of alcohol. We describe computer vision and machine learning models for analyzing the driver's face in thermal imagery, and introduce a pipeline for training models on data collected from drivers with a range of breath-alcohol content levels, including discussion of relevant machine learning phenomena which can help in future experiment design for related studies.
翻訳日:2023-09-18 16:45:29 公開日:2023-09-14
# 映像意味セグメンテーションのための時間認識階層マスク分類

Temporal-aware Hierarchical Mask Classification for Video Semantic Segmentation ( http://arxiv.org/abs/2309.08020v1 )

ライセンス: Link先を確認
Zhaochong An, Guolei Sun, Zongwei Wu, Hao Tang, Luc Van Gool(参考訳) 近代的なアプローチは、インスタンスレベルのセグメンテーションで広く使われているマスク分類タスクとしてセグメンテーションに対処する大きな可能性を証明している。 このパラダイムは、従来の1対1のマッチングを通じてオブジェクトクエリの一部を真理に割り当てることでモデルを訓練する。 しかし、人気ビデオセマンティックセグメンテーション(VSS)データセットにはビデオごとのカテゴリが限られており、VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。 この非効率性は、全てのクエリの完全な表現可能性を制限するが、我々は、時間対応の階層型オブジェクトクエリを初めて導入する新しいソリューションThe-Mask for VSSを提案する。 具体的には,単純な2ラウンドマッチング機構を用いて,推論に余計なコストを要さずに,トレーニング中に最小コストでマッチするクエリ数を増やすことを提案する。 より一対一な割り当てをサポートするために、マッチング結果の観点から、プライマリまたはセカンダリの階層でクエリをトレーニングする階層的損失をさらに設計する。 さらに,フレーム間の時間的情報を効果的に捉えるために,VSSのマスク分類パラダイムにシームレスに適合する時間的アグリゲーションデコーダを提案する。 提案手法は時間感応性のあるマルチレベルクエリを用いて,最新のVSSベンチマークVSPWにおいて,ベルやホイッスルを使わずに最先端の性能を実現する。

Modern approaches have proved the huge potential of addressing semantic segmentation as a mask classification task which is widely used in instance-level segmentation. This paradigm trains models by assigning part of object queries to ground truths via conventional one-to-one matching. However, we observe that the popular video semantic segmentation (VSS) dataset has limited categories per video, meaning less than 10% of queries could be matched to receive meaningful gradient updates during VSS training. This inefficiency limits the full expressive potential of all queries.Thus, we present a novel solution THE-Mask for VSS, which introduces temporal-aware hierarchical object queries for the first time. Specifically, we propose to use a simple two-round matching mechanism to involve more queries matched with minimal cost during training while without any extra cost during inference. To support our more-to-one assignment, in terms of the matching results, we further design a hierarchical loss to train queries with their corresponding hierarchy of primary or secondary. Moreover, to effectively capture temporal information across frames, we propose a temporal aggregation decoder that fits seamlessly into the mask-classification paradigm for VSS. Utilizing temporal-sensitive multi-level queries, our method achieves state-of-the-art performance on the latest challenging VSS benchmark VSPW without bells and whistles.
翻訳日:2023-09-18 16:45:06 公開日:2023-09-14
# CRYPTO-MINE:相互情報ニューラル推定によるクリプトアナリシス

CRYPTO-MINE: Cryptanalysis via Mutual Information Neural Estimation ( http://arxiv.org/abs/2309.08019v1 )

ライセンス: Link先を確認
Benjamin D. Kim, Vipindev Adat Vasudevan, Jongchan Woo, Alejandro Cohen, Rafael G. L. D'Oliveira, Thomas Stahlbuhk, and Muriel M\'edard(参考訳) 暗号システムの効率を評価する手段としての相互情報(mi)の使用には、幅広い歴史がある。 しかし,高次元空間における未知確率変数間のmi推定は困難である。 機械学習の最近の進歩により、ニューラルネットワークを用いたmi推定が進歩している。 本研究は,暗号分野におけるMI推定の新しい応用法を提案する。 本手法を用いて,選択した平文攻撃における平文と暗号文間のMIを推定する。 暗号化から漏洩した情報は、暗号システムの計算セキュリティを侵害するために敵に悪用される可能性がある。 我々は,複数の暗号方式とベースライン手法を実証的に分析し,提案手法の効率性を評価する。 さらに,個々の秘密情報を提供する新たなネットワーク符号化ベースの暗号システムに解析を拡張し,情報漏洩と入力分布の関係について検討する。

The use of Mutual Information (MI) as a measure to evaluate the efficiency of cryptosystems has an extensive history. However, estimating MI between unknown random variables in a high-dimensional space is challenging. Recent advances in machine learning have enabled progress in estimating MI using neural networks. This work presents a novel application of MI estimation in the field of cryptography. We propose applying this methodology directly to estimate the MI between plaintext and ciphertext in a chosen plaintext attack. The leaked information, if any, from the encryption could potentially be exploited by adversaries to compromise the computational security of the cryptosystem. We evaluate the efficiency of our approach by empirically analyzing multiple encryption schemes and baseline approaches. Furthermore, we extend the analysis to novel network coding-based cryptosystems that provide individual secrecy and study the relationship between information leakage and input distribution.
翻訳日:2023-09-18 16:44:39 公開日:2023-09-14
# テキストからビデオへのモデル出力の品質測定:メトリクスとデータセット

Measuring the Quality of Text-to-Video Model Outputs: Metrics and Dataset ( http://arxiv.org/abs/2309.08009v1 )

ライセンス: Link先を確認
Iya Chivileva and Philip Lynch and Tomas E. Ward and Alan F. Smeaton(参考訳) テキスト・ツー・ビデオ(T2V)モデルから生成されたビデオの品質を評価することは、視聴者にその信頼性を納得させる可視的な出力を生成するために重要である。 この領域で使用されるメトリクスのいくつかを調べ、その制限を強調します。 本稿は,最近使用されている5つのT2Vモデルから,1,000以上の生成されたビデオのデータセットを提示する。 また、これらのビデオには広範な品質評価が含まれており、人間評価を含む指標の相対的な強みと弱みを比較することができる。 この貢献は、一般的に使用される品質指標の評価と、t2vビデオのオープンデータセットにおけるそのパフォーマンスとヒューマン評価のパフォーマンスの比較である。 我々の結論は、T2V出力を生成するために使用するテキストプロンプトと自然性および意味マッチングが重要であるが、T2Vモデル出力を評価する際にこれらの微妙さを捉えるための単一の手段はないということである。

Evaluating the quality of videos generated from text-to-video (T2V) models is important if they are to produce plausible outputs that convince a viewer of their authenticity. We examine some of the metrics used in this area and highlight their limitations. The paper presents a dataset of more than 1,000 generated videos from 5 very recent T2V models on which some of those commonly used quality metrics are applied. We also include extensive human quality evaluations on those videos, allowing the relative strengths and weaknesses of metrics, including human assessment, to be compared. The contribution is an assessment of commonly used quality metrics, and a comparison of their performances and the performance of human evaluations on an open dataset of T2V videos. Our conclusion is that naturalness and semantic matching with the text prompt used to generate the T2V output are important but there is no single measure to capture these subtleties in assessing T2V model output.
翻訳日:2023-09-18 16:44:28 公開日:2023-09-14
# ヒューリスティックスに基づくイテレーティブ最適化(MACCHIATO)による形態認識コンセンサス計算

Morphologically-Aware Consensus Computation via Heuristics-based IterATive Optimization (MACCHIatO) ( http://arxiv.org/abs/2309.08066v1 )

ライセンス: Link先を確認
Dimitri Hamzaoui, Sarah Montagne, Rapha\"ele Renard-Penna, Nicholas Ayache, Herv\'e Delingette(参考訳) 複数のバイナリまたは確率的マスクからのコンセンサスセグメンテーションの抽出は、レート間変動の解析や複数のニューラルネットワーク出力の融合といった様々な課題を解決するために重要である。 このようなコンセンサスセグメンテーションを得るために最も広く使われている手法の1つはSTAPLEアルゴリズムである。 本稿では,まず,そのアルゴリズムの出力が画像の背景サイズと前者の選択に大きく影響することを示す。 次に,画像の背景サイズから完全に独立な距離のfr\'{e}chet法に基づいて,バイナリあるいは確率的コンセンサスセグメンテーションを構築する新しい手法を提案する。 この基準を最適化するためのヒューリスティックなアプローチにより、voxelのクラスは、異なるマスクとのvoxel-wise距離、それが属する連結コンポーネント、そしてそれをセグメンテーションするレートラーのグループによって完全に決定される。 提案手法をスタプル法とナイーブセグメンテーション平均化法で比較した結果,多数票とスタプルの中間サイズのバイナリコンセンサスマスクと,マスク平均化法とスタプル法とでは後方確率が異なることがわかった。 私たちのコードはhttps://gitlab.inria.fr/dhamzaou/jaccardmapで利用可能です。

The extraction of consensus segmentations from several binary or probabilistic masks is important to solve various tasks such as the analysis of inter-rater variability or the fusion of several neural network outputs. One of the most widely used methods to obtain such a consensus segmentation is the STAPLE algorithm. In this paper, we first demonstrate that the output of that algorithm is heavily impacted by the background size of images and the choice of the prior. We then propose a new method to construct a binary or a probabilistic consensus segmentation based on the Fr\'{e}chet means of carefully chosen distances which makes it totally independent of the image background size. We provide a heuristic approach to optimize this criterion such that a voxel's class is fully determined by its voxel-wise distance to the different masks, the connected component it belongs to and the group of raters who segmented it. We compared extensively our method on several datasets with the STAPLE method and the naive segmentation averaging method, showing that it leads to binary consensus masks of intermediate size between Majority Voting and STAPLE and to different posterior probabilities than Mask Averaging and STAPLE methods. Our code is available at https://gitlab.inria.fr/dhamzaou/jaccardmap .
翻訳日:2023-09-18 16:36:09 公開日:2023-09-14
# d+1)$次元におけるスピンモデルの$d$次元におけるセルオートマトンと基底状態

Cellular automata in $d$ dimensions and ground states of spin models in $(d+1)$ dimensions ( http://arxiv.org/abs/2309.08059v1 )

ライセンス: Link先を確認
Konstantinos Sfairopoulos and Luke Causer and Jamie F. Mair and Juan P. Garrahan(参考訳) 我々は,$d$-dimensional cellular automata (ca) の軌道が $(d+1)$-dimensional classical spin model の基底状態を決定するためにどのように用いられるかを示し,その量子相転移を横磁場の存在下で特徴づける。 256個の1次元基本CAに対して、与えられたCAに付随する最も単純な局所的な2次元古典的スピンモデルを構築し、選択された例を通して$d>1$に対してこの方法を記述する。 一般的な観察を 詳細な研究で説明します (i)$d=1$ CAルール150とその$d=2$4体プラケットスピンモデル (ii)$d=2$ ca で、関連するモデルは$d=3$の平方ピラミドプラーペットモデル、および (iii) 2次元baxter-wuスピンモデルに対応する2つの逆伝播規則60ca。 量子スピンモデルでは、cas への接続は、その量子相転移に対する有限サイズのスケーリングによる熱力学的極限へのアプローチの感度を意味することが示されている。

We show how the trajectories of $d$-dimensional cellular automata (CA) can be used to determine the ground states of $(d+1)$-dimensional classical spin models, and we characterise their quantum phase transition, when in the presence of a transverse magnetic field. For each of the 256 one-dimensional elementary CA we explicitly construct the simplest local two-dimensional classical spin model associated to the given CA, and we also describe this method for $d>1$ through selected examples. We illustrate our general observations with detailed studies of: (i) the $d=1$ CA Rule 150 and its $d=2$ four-body plaquette spin model, (ii) the $d=2$ CA whose associated model is the $d=3$ square-pyramid plaquette model, and (iii) two counter-propagating $d=1$ Rule 60 CA that correspond to the two-dimensional Baxter-Wu spin model. For the quantum spin models, we show that the connection to CAs implies a sensitivity on the approach to the thermodynamic limit via finite size scaling for their quantum phase transitions.
翻訳日:2023-09-18 16:35:44 公開日:2023-09-14
# 検索型テキスト音声生成

Retrieval-Augmented Text-to-Audio Generation ( http://arxiv.org/abs/2309.08051v1 )

ライセンス: Link先を確認
Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang(参考訳) 最近のtta(text-to-audio)生成の進歩にもかかわらず、audioldmのような最先端のモデルは、audiocapsのような不均衡なクラス分散を持つデータセットでトレーニングされている。 具体的には、一般的なオーディオクラスの生成に優れ、稀なクラスではパフォーマンスが低下し、全体的なパフォーマンスが低下する。 この問題を長文音声生成と呼ぶ。 そこで本研究では,TTAモデルに対する簡単な検索拡張手法を提案する。 具体的には、入力テキストプロンプトが与えられた場合、まずContrastive Language Audio Pretraining (CLAP)モデルを用いて関連するテキストとオーディオのペアを検索する。 検索された音声テキストデータの特徴は、ttaモデルの学習を導く追加条件として使用される。 提案手法によりAudioLDMを拡張し,その結果をRe-AudioLDMと表現した。 AudioCapsデータセットでは、Re-AudioLDMが1.37の最先端のFrechet Audio Distance(FAD)を達成した。 さらに、Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには見えないオーディオタイプに対して現実的なオーディオを生成し、TTAタスクの可能性を示す。

Despite recent progress in text-to-audio (TTA) generation, we show that the state-of-the-art models, such as AudioLDM, trained on datasets with an imbalanced class distribution, such as AudioCaps, are biased in their generation performance. Specifically, they excel in generating common audio classes while underperforming in the rare ones, thus degrading the overall generation performance. We refer to this problem as long-tailed text-to-audio generation. To address this issue, we propose a simple retrieval-augmented approach for TTA models. Specifically, given an input text prompt, we first leverage a Contrastive Language Audio Pretraining (CLAP) model to retrieve relevant text-audio pairs. The features of the retrieved audio-text data are then used as additional conditions to guide the learning of TTA models. We enhance AudioLDM with our proposed approach and denote the resulting augmented system as Re-AudioLDM. On the AudioCaps dataset, Re-AudioLDM achieves a state-of-the-art Frechet Audio Distance (FAD) of 1.37, outperforming the existing approaches by a large margin. Furthermore, we show that Re-AudioLDM can generate realistic audio for complex scenes, rare audio classes, and even unseen audio types, indicating its potential in TTA tasks.
翻訳日:2023-09-18 16:35:27 公開日:2023-09-14
# パディング認識ニューロン

Padding Aware Neurons ( http://arxiv.org/abs/2309.08048v1 )

ライセンス: Link先を確認
Dario Garcia-Gasulla and Victor Gimenez-Abalos and Pablo Martin-Torres(参考訳) 畳み込み層は、ほとんどの画像関連モデルの基本的な構成要素である。 これらのレイヤは、デフォルトで静的なパディングポリシー(\eg 0パディング)を実装し、内部表現のスケールを制御し、境界領域を中心としたカーネルの活性化を可能にする。 この研究では、静的パディングで訓練されたほとんどの(すべてではないにせよ)畳み込みモデルに見られるパディング認識ニューロン(pan)を特定する。 pansは入力境界の位置の特徴付けと認識に焦点を当て、モデルに空間的帰納的バイアスを導入する(例えば、典型的なパターンが入力境界にどれだけ近いか)。 我々は,その活性化を通じてパンを識別する手法を提案し,いくつかの一般的な事前学習モデルにおいてその存在を探索し,探索された全モデルのパンを数十から数百まで発見する。 PANのさまざまなタイプ、カーネル、動作について論じ、解説する。 それらの妥当性を理解するため、モデルの性能への影響を検証し、データに強い特性バイアスをもたらすパディングとPANを見つける。 最後に, PANが望ましいか否か, モデル性能, 一般化, 効率, 安全性の文脈におけるその存在の潜在的な副作用について論じる。

Convolutional layers are a fundamental component of most image-related models. These layers often implement by default a static padding policy (\eg zero padding), to control the scale of the internal representations, and to allow kernel activations centered on the border regions. In this work we identify Padding Aware Neurons (PANs), a type of filter that is found in most (if not all) convolutional models trained with static padding. PANs focus on the characterization and recognition of input border location, introducing a spatial inductive bias into the model (e.g., how close to the input's border a pattern typically is). We propose a method to identify PANs through their activations, and explore their presence in several popular pre-trained models, finding PANs on all models explored, from dozens to hundreds. We discuss and illustrate different types of PANs, their kernels and behaviour. To understand their relevance, we test their impact on model performance, and find padding and PANs to induce strong and characteristic biases in the data. Finally, we discuss whether or not PANs are desirable, as well as the potential side effects of their presence in the context of model performance, generalisation, efficiency and safety.
翻訳日:2023-09-18 16:35:00 公開日:2023-09-14
# ニュース要約におけるジェンダーバイアスの調査

Investigating Gender Bias in News Summarization ( http://arxiv.org/abs/2309.08047v1 )

ライセンス: Link先を確認
Julius Steen, Katja Markert(参考訳) 要約は、大言語モデル(llm)の重要な応用である。 これまでの要約モデルのほとんどの評価は、コンテンツの選択、文法性、コヒーレンスのパフォーマンスに焦点が当てられている。 しかし,llmが有害な社会バイアスを再現し,強化することが知られている。 これらのバイアスは、要約のような比較的制約された設定でモデル出力に影響を与えるか? この質問に答えるために、我々はまず、要約モデルにおけるバイアスされた振る舞いに対する多くの定義を動機付け、導入し、それらを定量化するための実践的な尺度を提示する。 入力文書固有のバイアスは分析を混乱させる可能性があるため、慎重に制御された階層属性を持つ入力文書を生成する方法も提案する。 これにより、幾分リアルな入力ドキュメントで作業しながら、この問題を回避できます。 最後に,本手法を汎用要約モデルと汎用チャットモデルの両方で生成した要約に適用する。 単一文書要約におけるコンテンツ選択は、主にバイアスの影響を受けず、幻覚は生成された要約に伝播するバイアスの証拠を示す。

Summarization is an important application of large language models (LLMs). Most previous evaluation of summarization models has focused on their performance in content selection, grammaticality and coherence. However, it is well known that LLMs reproduce and reinforce harmful social biases. This raises the question: Do these biases affect model outputs in a relatively constrained setting like summarization? To help answer this question, we first motivate and introduce a number of definitions for biased behaviours in summarization models, along with practical measures to quantify them. Since we find biases inherent to the input document can confound our analysis, we additionally propose a method to generate input documents with carefully controlled demographic attributes. This allows us to sidestep this issue, while still working with somewhat realistic input documents. Finally, we apply our measures to summaries generated by both purpose-built summarization models and general purpose chat models. We find that content selection in single document summarization seems to be largely unaffected by bias, while hallucinations exhibit evidence of biases propagating to generated summaries.
翻訳日:2023-09-18 16:34:41 公開日:2023-09-14
# ニューロンは何個必要か? 勾配降下解析による浅層ネットワークの精密解析

How many Neurons do we need? A refined Analysis for Shallow Networks trained with Gradient Descent ( http://arxiv.org/abs/2309.08044v1 )

ライセンス: Link先を確認
Mike Nguyen and Nicole M\"ucke(参考訳) 勾配降下法(gd)により学習した神経接核(ntk)領域における2層ニューラルネットワークの一般化特性を解析した。 初期停止gdに対しては、カーネルヒルベルト空間を再現する非パラメトリック回帰の枠組みにおいてミニマックス最適であることが知られている収束速度を導出する。 その過程で,一般化に必要な隠れニューロンの数を正確に追跡し,既存の結果よりも改善する。 さらに, 学習中の重みは初期化近傍に留まり, 半径は回帰関数の滑らかさの程度や, ntkに付随する積分作用素の固有値の減衰といった構造的仮定に依存することを示した。

We analyze the generalization properties of two-layer neural networks in the neural tangent kernel (NTK) regime, trained with gradient descent (GD). For early stopped GD we derive fast rates of convergence that are known to be minimax optimal in the framework of non-parametric regression in reproducing kernel Hilbert spaces. On our way, we precisely keep track of the number of hidden neurons required for generalization and improve over existing results. We further show that the weights during training remain in a vicinity around initialization, the radius being dependent on structural assumptions such as degree of smoothness of the regression function and eigenvalue decay of the integral operator associated to the NTK.
翻訳日:2023-09-18 16:34:28 公開日:2023-09-14
# ヘックマン選択モデルにおける予測特徴割り当てについて

On Prediction Feature Assignment in the Heckman Selection Model ( http://arxiv.org/abs/2309.08043v1 )

ライセンス: Link先を確認
Huy Mai, Xintao Wu(参考訳) 非ランダム(mnar)なサンプル選択バイアス下では、予測モデルの性能が劣化することが多い。 本稿では,MNARサンプル選択バイアスの古典的な例に焦点をあてる。 ヘックマン選択モデルとその変種は、このタイプのサンプル選択バイアスを扱うために一般的に用いられてきた。 ヘックマンモデルは2つの異なる方程式を用いてサンプルの予測と選択をモデル化し、選択機能はすべての予測機能を含む。 Heckmanモデルを使用する場合、予測機能は一連の選択機能から適切に選択する必要がある。 しかし、適切な予測機能を選択することは、Heckmanモデルにとって難しい課題である。 これは特に、選択機能の数が多い場合に当てはまる。 Heckmanモデルを使った既存のアプローチは、しばしば手動で選択された予測機能を提供する。 本稿では,Heckmanモデルの予測機能を得るための新しいデータ駆動フレームワークとして,Heckman-FAを提案する。 Heckman-FAはまず、選択特徴が予測特徴として割り当てられているか否かを決定する代入関数を訓練する。 学習した関数のパラメータを用いて、選択された予測特徴と予測と選択方程式の雑音項の相関を与えられた予測モデルの適合性に基づいて、適切な予測特徴を抽出する。 実世界のデータセットを用いた実験結果から,Heckman-FAはMNARサンプル選択バイアスの下で頑健な回帰モデルを生成することが示された。

Under missing-not-at-random (MNAR) sample selection bias, the performance of a prediction model is often degraded. This paper focuses on one classic instance of MNAR sample selection bias where a subset of samples have non-randomly missing outcomes. The Heckman selection model and its variants have commonly been used to handle this type of sample selection bias. The Heckman model uses two separate equations to model the prediction and selection of samples, where the selection features include all prediction features. When using the Heckman model, the prediction features must be properly chosen from the set of selection features. However, choosing the proper prediction features is a challenging task for the Heckman model. This is especially the case when the number of selection features is large. Existing approaches that use the Heckman model often provide a manually chosen set of prediction features. In this paper, we propose Heckman-FA as a novel data-driven framework for obtaining prediction features for the Heckman model. Heckman-FA first trains an assignment function that determines whether or not a selection feature is assigned as a prediction feature. Using the parameters of the trained function, the framework extracts a suitable set of prediction features based on the goodness-of-fit of the prediction model given the chosen prediction features and the correlation between noise terms of the prediction and selection equations. Experimental results on real-world datasets show that Heckman-FA produces a robust regression model under MNAR sample selection bias.
翻訳日:2023-09-18 16:34:14 公開日:2023-09-14
# クラウドソーシング画像を用いた大規模建築属性マッピングに向けて:Flickr上のシーンテキスト認識と解決すべき課題

Towards Large-scale Building Attribute Mapping using Crowdsourced Images: Scene Text Recognition on Flickr and Problems to be Solved ( http://arxiv.org/abs/2309.08042v1 )

ライセンス: Link先を確認
Yao Sun, Anna Kruspe, Liqiu Meng, Yifan Tian, Eike J Hoffmann, Stefan Auer, Xiao Xiang Zhu(参考訳) クラウドソーシングプラットフォームは、貴重な建築情報を含む膨大なストリートビューイメージを提供する。 本研究は,属性マッピング構築のためのクラウドソーシングストリートビュー画像にScene Text Recognition(STR)を適用する際の課題に対処する。 私たちはFlickrの画像、特に建築ファサードのテキストを調べています。 Berlin Flickrデータセットが作成され、事前トレーニングされたSTRモデルがテキストの検出と認識に使用される。 STR認識画像のサブセットのマニュアルチェックは高い精度を示す。 STRの結果と建築機能との関係について検討し, 住宅ではテキストが認識されたが商業では認識されなかった事例を分析した。 さらに、ストリートビュー画像の小さなテキスト領域、地上の真実ラベルの欠如、Flickr画像の建物におけるミスマッチ、OpenStreetMap(OSM)の建築フットプリントなど、このタスクに関連する重要な課題が明らかになった。 都市ホットスポット以外の都市全体のマッピングを開発するために、STRが適切なアルゴリズムを開発しながら有効であることを証明したり、他のケースを扱うための追加データを持ち込んだりするシナリオを区別することを提案する。 さらに,写真作成とラベル付けの背景にある動機を理解するために,学際的な連携を行う必要がある。 STR-on-Flickrの結果はhttps://github.com/ya0-sun/STR-Berlin.comで公開されている。

Crowdsourced platforms provide huge amounts of street-view images that contain valuable building information. This work addresses the challenges in applying Scene Text Recognition (STR) in crowdsourced street-view images for building attribute mapping. We use Flickr images, particularly examining texts on building facades. A Berlin Flickr dataset is created, and pre-trained STR models are used for text detection and recognition. Manual checking on a subset of STR-recognized images demonstrates high accuracy. We examined the correlation between STR results and building functions, and analysed instances where texts were recognized on residential buildings but not on commercial ones. Further investigation revealed significant challenges associated with this task, including small text regions in street-view images, the absence of ground truth labels, and mismatches in buildings in Flickr images and building footprints in OpenStreetMap (OSM). To develop city-wide mapping beyond urban hotspot locations, we suggest differentiating the scenarios where STR proves effective while developing appropriate algorithms or bringing in additional data for handling other cases. Furthermore, interdisciplinary collaboration should be undertaken to understand the motivation behind building photography and labeling. The STR-on-Flickr results are publicly available at https://github.com/ya0-sun/STR-Berlin.
翻訳日:2023-09-18 16:33:52 公開日:2023-09-14
# 位相非感受性および位相感受性増幅器を用いたマルチスパンリンク上の連続可変量子鍵分布

Continuous-variable quantum key distribution over multispan links employing phase-insensitive and phase-sensitive amplifiers ( http://arxiv.org/abs/2309.08041v1 )

ライセンス: Link先を確認
Michele N. Notarnicola, Filip Cieciuch, Marcin Jarzyna(参考訳) 光ファイバによる伝送損失は、長距離量子通信と連続可変量子鍵分布の両方を妨げる主な障害の1つである。 光増幅は、少なくとも部分的には信号復元を得るためのツールを提供する。 本研究では,コヒーレント状態のガウス変調と受信側ホモダイン検出を考慮し,位相非感受性増幅器と位相感応増幅器を用いたマルチスパンリンク上の鍵分散プロトコルを提案する。 非条件および構成可能なセキュリティフレームワークの両方の下でセキュリティ分析を行い、後者の場合、信頼できない通信リンクの1つのスパンだけを仮定する。 両種類の増幅リンクの鍵生成率とno-amplifierプロトコルを比較し,光増幅による拡張を同定する。

Transmission losses through optical fibers are one of the main obstacles preventing both long-distance quantum communications and continuous-variable quantum key distribution. Optical amplification provides a tool to obtain, at least partially, signal restoration. In this work, we address a key distribution protocol over a multispan link employing either phase-insensitive or phase-sensitive amplifiers, considering Gaussian modulation of coherent states followed by homodyne detection at the receiver's side. We perform the security analysis under both unconditional and composable security frameworks by assuming in the latter case only a single span of the whole communication link to be untrusted. We compare the resulting key generation rate for both kinds of amplified links with the no-amplifier protocol, identifying the enhancement introduced by optical amplification.
翻訳日:2023-09-18 16:33:30 公開日:2023-09-14
# BEA:Budding Ensemble Architectureを用いたアンカーベースのオブジェクト検出DNNの再検討

BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture ( http://arxiv.org/abs/2309.08036v1 )

ライセンス: Link先を確認
Syed Sha Qutub and Neslihan Kose and Rafael Rosales and Michael Paulitsch and Korbinian Hagn and Florian Geissler and Yang Peng and Gereon Hinz and Alois Knoll(参考訳) 本稿では,アンカーベースオブジェクト検出モデルのための新しいアンサンブルアーキテクチャであるBudding Ensemble Architecture (BEA)を紹介する。 物体検出モデルは視覚に基づくタスク、特に自律システムにおいて重要である。 正確なバウンディングボックス検出を提供すると同時に、予測された信頼度スコアを調整し、高品質の不確実性推定につながるはずだ。 しかし、現在のモデルは、高いスコアを受けた偽陽性や低いスコアで捨てられた真陽性のために誤った判断を下す可能性がある。 BEAはこれらの問題に対処することを目指している。 提案する損失関数は信頼度スコア校正を改善し,不確実性誤差を低減し,真正と偽陽性の区別が向上し,オブジェクト検出モデルの精度が向上する。 Base-YOLOv3 と SSD はBEA 法と損失関数を用いて拡張された。 KITTIデータセットでトレーニングされたBase-YOLOv3上のBEAは、それぞれmAPとAP50の6%と3.7%増加している。 バランスの取れた不確実性推定しきい値を利用してサンプルをリアルタイムに破棄することは、ベースモデルよりも9.6%高いap50となる。 これは、信頼性スコアのキャリブレーションの質を測定するために使用されるAP50ベースの保持曲線の下で、面積が40%増加したためである。 さらに、KITTIでトレーニングされたBEA-YOLOV3は、YOLOv3とGaussian-YOLOv3のアンサンブルやバニラモデルと比較して、Citypersons、BDD100K、COCOデータセットに優れたアウトオブディストリビューション検出を提供する。

This paper introduces the Budding Ensemble Architecture (BEA), a novel reduced ensemble architecture for anchor-based object detection models. Object detection models are crucial in vision-based tasks, particularly in autonomous systems. They should provide precise bounding box detections while also calibrating their predicted confidence scores, leading to higher-quality uncertainty estimates. However, current models may make erroneous decisions due to false positives receiving high scores or true positives being discarded due to low scores. BEA aims to address these issues. The proposed loss functions in BEA improve the confidence score calibration and lower the uncertainty error, which results in a better distinction of true and false positives and, eventually, higher accuracy of the object detection models. Both Base-YOLOv3 and SSD models were enhanced using the BEA method and its proposed loss functions. The BEA on Base-YOLOv3 trained on the KITTI dataset results in a 6% and 3.7% increase in mAP and AP50, respectively. Utilizing a well-balanced uncertainty estimation threshold to discard samples in real-time even leads to a 9.6% higher AP50 than its base model. This is attributed to a 40% increase in the area under the AP50-based retention curve used to measure the quality of calibration of confidence scores. Furthermore, BEA-YOLOV3 trained on KITTI provides superior out-of-distribution detection on Citypersons, BDD100K, and COCO datasets compared to the ensembles and vanilla models of YOLOv3 and Gaussian-YOLOv3.
翻訳日:2023-09-18 16:33:15 公開日:2023-09-14
# ニュース分析におけるドットの接続:メディアバイアスとフレームの学際的調査

Connecting the Dots in News Analysis: A Cross-Disciplinary Survey of Media Bias and Framing ( http://arxiv.org/abs/2309.08069v1 )

ライセンス: Link先を確認
Gisela Vallejo, Timothy Baldwin and Lea Frermann(参考訳) ニュース報道におけるバイアスの顕在化と効果は、数十年間、社会科学の中心的な話題であり、近年、nlpコミュニティで注目を集めている。 NLPは、社会における偏りのあるニュースの影響を調べるための分析のスケールアップや自動手順の貢献に役立てることができるが、理論メディア研究において、現在支配的な方法論は、複雑な問題や影響に対処できないと論じている。 本稿では,社会科学のアプローチを概観し,NLPにおけるメディアバイアスの分析に使用される典型的なタスクの定式化,方法,評価指標と比較する。 オープン質問を議論し,理論モデルと予測モデルのギャップとその評価を閉じる方向を提案する。 これには、文書外情報を考慮したモデル透過性、単一ラベル代入よりも文書間推論などが含まれる。

The manifestation and effect of bias in news reporting have been central topics in the social sciences for decades, and have received increasing attention in the NLP community recently. While NLP can help to scale up analyses or contribute automatic procedures to investigate the impact of biased news in society, we argue that methodologies that are currently dominant fall short of addressing the complex questions and effects addressed in theoretical media studies. In this survey paper, we review social science approaches and draw a comparison with typical task formulations, methods, and evaluation metrics used in the analysis of media bias in NLP. We discuss open questions and suggest possible directions to close identified gaps between theory and predictive models, and their evaluation. These include model transparency, considering document-external information, and cross-document reasoning rather than single-label assignment.
翻訳日:2023-09-18 16:23:41 公開日:2023-09-14
# 分散能動仮説テストのための深層マルチエージェント強化学習

Deep Multi-Agent Reinforcement Learning for Decentralized Active Hypothesis Testing ( http://arxiv.org/abs/2309.08477v1 )

ライセンス: Link先を確認
Hadar Szostak and Kobi Cohen(参考訳) 複数のエージェントが正しい仮説を識別するために環境からノイズの多い観測を収集する、アクティブ仮説テスト(AHT)問題の分散的な定式化を考える。 ステップ毎に、エージェントはサンプリングアクションを選択するオプションを持つ。 これらの異なる作用は、それぞれが特定の仮説と関連づけられた様々な分布から得られる観察結果をもたらす。 エージェントは協調してタスクを遂行し、エージェント間のメッセージ交換はレート制限された通信チャネル上で許可される。 目的はベイズリスクを最小限に抑えるマルチエージェント政策を考案することである。 このリスクは、仮説宣言を行う際に、サンプリングコストとエージェントによって引き起こされる共同端末コストの両方を含む。 AHT問題に対する最適構造ポリシーの導出は、一般に1つのエージェントの文脈においてさえ、数学的に難解である。 その結果、近年の深層学習手法はこれらの問題に対処し、単一エージェントの学習シナリオにおいて大きな成功を収めている。 本稿では,深層マルチエージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェントAHTの定式化に取り組む。 このアルゴリズムはマルチエージェント強化学習 for aht (marla) と呼ばれ、ベイズリスクを最小化するために訓練されたディープニューラルネットワークを使用して、各エージェントにその状態をアクション(サンプリングルールまたは停止ルール)にマッピングさせることで、各時間ステップで動作します。 我々は,MARLAを用いて協調戦略を学習し,性能を向上させるエージェントの能力を示す総合的な実験結果を示す。 さらに,単一エージェント学習アプローチよりもmarlaが優れていることを示す。 最後に、MARLAフレームワークのオープンソース実装を提供し、関連する分野の研究者や開発者の利益を得る。

We consider a decentralized formulation of the active hypothesis testing (AHT) problem, where multiple agents gather noisy observations from the environment with the purpose of identifying the correct hypothesis. At each time step, agents have the option to select a sampling action. These different actions result in observations drawn from various distributions, each associated with a specific hypothesis. The agents collaborate to accomplish the task, where message exchanges between agents are allowed over a rate-limited communications channel. The objective is to devise a multi-agent policy that minimizes the Bayes risk. This risk comprises both the cost of sampling and the joint terminal cost incurred by the agents upon making a hypothesis declaration. Deriving optimal structured policies for AHT problems is generally mathematically intractable, even in the context of a single agent. As a result, recent efforts have turned to deep learning methodologies to address these problems, which have exhibited significant success in single-agent learning scenarios. In this paper, we tackle the multi-agent AHT formulation by introducing a novel algorithm rooted in the framework of deep multi-agent reinforcement learning. This algorithm, named Multi-Agent Reinforcement Learning for AHT (MARLA), operates at each time step by having each agent map its state to an action (sampling rule or stopping rule) using a trained deep neural network with the goal of minimizing the Bayes risk. We present a comprehensive set of experimental results that effectively showcase the agents' ability to learn collaborative strategies and enhance performance using MARLA. Furthermore, we demonstrate the superiority of MARLA over single-agent learning approaches. Finally, we provide an open-source implementation of the MARLA framework, for the benefit of researchers and developers in related domains.
翻訳日:2023-09-18 14:01:11 公開日:2023-09-14
# ニューラルテキスト音声における効率的なサンプリングのための離散音響空間

Discrete Acoustic Space for an Efficient Sampling in Neural Text-To-Speech ( http://arxiv.org/abs/2110.12539v3 )

ライセンス: Link先を確認
Marek Strong, Jonas Rohnke, Antonio Bonafonte, Mateusz {\L}ajszczak, Trevor Wood(参考訳) 本稿では、NTTS用分割ベクトル量子化器(SVQ-VAE)アーキテクチャを、よく知られた変分オートエンコーダ(VAE)とVector量子化変分オートエンコーダ(VQ-VAE)アーキテクチャの拡張として提案する。 従来のアーキテクチャと比較して,提案モデルでは,テキストから効率的に予測できるほど,表現力と離散化された潜在空間を保ちながら,発話レベルのボトルネックを利用する利点を保っている。 VQ-VAEは,VAEモデルとVQ-VAEモデルに比較して,統計的に有意な自然性向上を実現していることを示す。 さらに, SVQ-VAE潜在音響空間はテキストから予測可能であり, 標準定数ベクトル合成とボコード記録とのギャップを32%削減できることを示した。

We present a Split Vector Quantized Variational Autoencoder (SVQ-VAE) architecture using a split vector quantizer for NTTS, as an enhancement to the well-known Variational Autoencoder (VAE) and Vector Quantized Variational Autoencoder (VQ-VAE) architectures. Compared to these previous architectures, our proposed model retains the benefits of using an utterance-level bottleneck, while keeping significant representation power and a discretized latent space small enough for efficient prediction from text. We train the model on recordings in the expressive task-oriented dialogues domain and show that SVQ-VAE achieves a statistically significant improvement in naturalness over the VAE and VQ-VAE models. Furthermore, we demonstrate that the SVQ-VAE latent acoustic space is predictable from text, reducing the gap between the standard constant vector synthesis and vocoded recordings by 32%.
翻訳日:2023-09-15 20:10:55 公開日:2023-09-14
# 動的畳み込みによる言語誘導視覚認識

Towards Language-guided Visual Recognition via Dynamic Convolutions ( http://arxiv.org/abs/2110.08797v2 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Yongjian Wu, Yue Gao, Rongrong Ji(参考訳) 本稿では,言語誘導型視覚認識の探索を通じて,統合型・エンドツーエンドのマルチモーダルネットワークの構築を約束する。 そこで我々はまず,Language-dependent Convolution (LaConv)と呼ばれる新しいマルチモーダル畳み込みモジュールを提案する。 畳み込みカーネルは自然言語情報に基づいて動的に生成され、異なるマルチモーダルの例に対して視覚的特徴を抽出するのに役立つ。 laconvモジュールに基づいて,1つのフォワード構造における視覚認識とマルチモーダル推論を統一する,laconvnetと呼ばれる,言語駆動型畳み込みネットワークを新たに構築する。 LaConvとLaConvNetを検証するために、視覚的質問応答(VQA)と表現理解(REC)という2つの視覚・言語的タスクの4つのベンチマークデータセットについて広範な実験を行った。 実験結果は、既存のマルチモーダルモジュールと比較してLaConvの性能向上を示すだけでなく、コンパクトネットワーク、高一般化能力、優れたパフォーマンス(RefCOCO+の+4.7%)を含む統一ネットワークとしてのLaConvNetのメリットも示した。

In this paper, we are committed to establishing an unified and end-to-end multi-modal network via exploring the language-guided visual recognition. To approach this target, we first propose a novel multi-modal convolution module called Language-dependent Convolution (LaConv). Its convolution kernels are dynamically generated based on natural language information, which can help extract differentiated visual features for different multi-modal examples. Based on the LaConv module, we further build the first fully language-driven convolution network, termed as LaConvNet, which can unify the visual recognition and multi-modal reasoning in one forward structure. To validate LaConv and LaConvNet, we conduct extensive experiments on four benchmark datasets of two vision-and-language tasks, i.e., visual question answering (VQA) and referring expression comprehension (REC). The experimental results not only shows the performance gains of LaConv compared to the existing multi-modal modules, but also witness the merits of LaConvNet as an unified network, including compact network, high generalization ability and excellent performance, e.g., +4.7% on RefCOCO+.
翻訳日:2023-09-15 20:10:35 公開日:2023-09-14
# 半定義型プログラミングによる共同コミュニティ検出と回転同期

Joint Community Detection and Rotational Synchronization via Semidefinite Programming ( http://arxiv.org/abs/2105.06031v2 )

ライセンス: Link先を確認
Yifeng Fan, Yuehaw Khoo and Zhizhen Zhao(参考訳) ランダムに回転したオブジェクトを複数の下位カテゴリに分類する異種データが存在する場合、それらをクラスタに分類し、ペア関係に基づいて同期させることは困難である。 これにより、コミュニティの検出と同期に関する共同問題が発生する。 本論文では, 確率ブロックモデルを, 回転とクラスタの同一性の両方が決定されるような新しい環境に拡張する際の, 半有限緩和法を提案する。 数値実験により,提案アルゴリズムの有効性を実証し,精密回復のための鋭い相転移を示す理論的結果を確認した。

In the presence of heterogeneous data, where randomly rotated objects fall into multiple underlying categories, it is challenging to simultaneously classify them into clusters and synchronize them based on pairwise relations. This gives rise to the joint problem of community detection and synchronization. We propose a series of semidefinite relaxations, and prove their exact recovery when extending the celebrated stochastic block model to this new setting where both rotations and cluster identities are to be determined. Numerical experiments demonstrate the efficacy of our proposed algorithms and confirm our theoretical result which indicates a sharp phase transition for exact recovery.
翻訳日:2023-09-15 20:10:14 公開日:2023-09-14
# copulaモデルに基づく無作為検閲指標に欠落した生存率の推定

Survival Estimation for Missing not at Random Censoring Indicators based on Copula Models ( http://arxiv.org/abs/2009.01726v2 )

ライセンス: Link先を確認
Mikael Escobar-Bach and Olivier Goudet(参考訳) 右チャージされたデータと共変量が存在する場合、条件付きKaplan-Meier推定器(ベラン推定器とも呼ばれる)は、興味のある事象に対するランダムなフォローアップの条件付き生存関数を一貫して推定する。 しかし、必要条件は各個人が検閲されているか否かの曖昧な知識であり、実際には不完全である可能性がある。 そこで我々は,検閲指標が汎用確率変数である場合のベラン推定器の研究を行い,ベラン推定器の効率性に必要な条件について議論する。 そこで本研究では,無作為性機構の条件付きコプラモデルに基づいて,無作為性 (MNAR) を検閲しない条件付き生存関数の新しい推定器を提案する。 理論的な結果に加えて,シミュレーション研究を通じて,小サンプルに対する推定器の動作方法や,合成データや実データの解析による実用性を示す。

In the presence of right-censored data with covariates, the conditional Kaplan-Meier estimator (also known as the Beran estimator) consistently estimates the conditional survival function of the random follow-up for the event of interest. However, a necessary condition is the unambiguous knowledge of whether each individual is censored or not, which may be incomplete in practice. We therefore propose a study of the Beran estimator when the censoring indicators are generic random variables and discuss necessary conditions for the efficiency of the Beran estimator. From this, we provide a new estimator for the conditional survival function with missing not at random (MNAR) censoring indicators based on a conditional copula model for the missingness mechanism. In addition to the theoretical results, we illustrate how the estimators work for small samples through a simulation study and show their practical applicability by analyzing synthetic and real data.
翻訳日:2023-09-15 20:09:25 公開日:2023-09-14
# ポリトープ上の二次関数の局所最小値を求める複雑さについて

On the complexity of finding a local minimizer of a quadratic function over a polytope ( http://arxiv.org/abs/2008.05558v5 )

ライセンス: Link先を確認
Amir Ali Ahmadi, Jeffrey Zhang(参考訳) p=np でなければ、ユークリッド距離 $c^n$ (任意の定数 $c \ge 0$) 内の点を、ポリトープ上の$n$-変量二次関数の局所最小化器で見つける多項式時間アルゴリズムは存在しない。 この結果は($c=0$であっても)1992年に数値最適化のための複雑性理論の7つの開問題のリストに現れたパルダロスとヴァヴァシスの質問に答える。 我々の証明手法は、二次函数が(有界)ポリヘドロン上の局所最小値を持つかどうか、およびクォート多項式が局所最小値を持つかどうかを決定する問題も示唆している。

We show that unless P=NP, there cannot be a polynomial-time algorithm that finds a point within Euclidean distance $c^n$ (for any constant $c \ge 0$) of a local minimizer of an $n$-variate quadratic function over a polytope. This result (even with $c=0$) answers a question of Pardalos and Vavasis that appeared in 1992 on a list of seven open problems in complexity theory for numerical optimization. Our proof technique also implies that the problem of deciding whether a quadratic function has a local minimizer over an (unbounded) polyhedron, and that of deciding if a quartic polynomial has a local minimizer are NP-hard.
翻訳日:2023-09-15 20:09:09 公開日:2023-09-14
# 非凸凹ミニマックス問題に対するグラディエントDescent Ascentについて

On Gradient Descent Ascent for Nonconvex-Concave Minimax Problems ( http://arxiv.org/abs/1906.00331v9 )

ライセンス: Link先を確認
Tianyi Lin, Chi Jin, Michael I. Jordan(参考訳) 我々は、非凸凸ミニマックス問題を考える: $\min_{\mathbf{x}} \max_{\mathbf{y} \in \mathcal{y}} f(\mathbf{x}, \mathbf{y})$ ここで、$f$ は $\mathbf{x}$ で非凸であるが、$\mathbf{y}$ と $\mathcal{y}$ は凸かつ有界な集合である。 この問題を解決するための最も一般的なアルゴリズムの1つは、機械学習、制御理論、経済学で広く用いられてきたGDAアルゴリズムである。 凸凹集合の広範な収束結果にもかかわらず、階段化が等しいgdaは極限サイクルに収束するか、一般の設定で分岐する。 本稿では,非凸・凹極小問題の解法として,2時間スケールのGDAを用いて,関数 $\Phi(\cdot) := \max_{\mathbf{y} \in \mathcal{Y}} f(\cdot, \mathbf{y}) の定常点を効率的に求めることができることを示す。 我々の知る限り、これは2段階のGDAにおける最初の漸近解析であり、GAN(Generative Adversarial Network)やその他の実応用のトレーニングにおいて、その優れた実用性能に光を当てている。

We consider nonconvex-concave minimax problems, $\min_{\mathbf{x}} \max_{\mathbf{y} \in \mathcal{Y}} f(\mathbf{x}, \mathbf{y})$, where $f$ is nonconvex in $\mathbf{x}$ but concave in $\mathbf{y}$ and $\mathcal{Y}$ is a convex and bounded set. One of the most popular algorithms for solving this problem is the celebrated gradient descent ascent (GDA) algorithm, which has been widely used in machine learning, control theory and economics. Despite the extensive convergence results for the convex-concave setting, GDA with equal stepsize can converge to limit cycles or even diverge in a general setting. In this paper, we present the complexity results on two-time-scale GDA for solving nonconvex-concave minimax problems, showing that the algorithm can find a stationary point of the function $\Phi(\cdot) := \max_{\mathbf{y} \in \mathcal{Y}} f(\cdot, \mathbf{y})$ efficiently. To the best our knowledge, this is the first nonasymptotic analysis for two-time-scale GDA in this setting, shedding light on its superior practical performance in training generative adversarial networks (GANs) and other real applications.
翻訳日:2023-09-15 20:08:54 公開日:2023-09-14
# 教師なしドメイン適応と拡張のためのコティーチング

Co-Teaching for Unsupervised Domain Adaptation and Expansion ( http://arxiv.org/abs/2204.01210v3 )

ライセンス: Link先を確認
Kaibin Tian, Qijie Wei, Xirong Li(参考訳) Unsupervised Domain Adaptation (UDA)は基本的に、ターゲットドメインのパフォーマンスを改善するために、ソースドメインでモデルのパフォーマンスを交換する。 この問題を解決するために、Unsupervised Domain Expansion (UDE) が最近提案されている。 UDEは、UDAのようにターゲットドメインにモデルを適応させようとするが、その間には、そのソースドメインのパフォーマンスを維持している。 UDAとUDEの両方の設定では、与えられたドメインに合わせたモデル(ソースまたはターゲットドメイン)が、与えられたドメインからのサンプルをうまく処理すると仮定される。 二つの領域の間に結晶的に明確な境界が存在しないことを考慮すれば、ある領域からのサンプルは他の領域に視覚的に近づくことができる。 このようなサンプルは通常、ホストドメインでは少数派であるため、ドメイン固有のモデルによって見落とされがちだが、他のドメインのモデルによってよりよく扱われる。 そこで我々は,この発見を活かし,CT(Co-Teaching)を提案する。 知識蒸留法CT(kdCT)とミキサップ法CT(miCT)を併用したCT法である。 特に、kdctは知識を指導者ネットワークと補助教員ネットワークから学生ネットワークに転送するので、クロスドメイン曖昧性は学生によってより良く処理される。 一方、mictは学生の一般化能力をさらに向上させる。 2つの画像分類データセットと2つの駆動シーンセグメンテーションデータセットの大規模な実験は、UDAとUDEのCTの生存可能性を正当化する。

Unsupervised Domain Adaptation (UDA) essentially trades a model's performance on a source domain for improving its performance on a target domain. To resolve the issue, Unsupervised Domain Expansion (UDE) has been proposed recently. UDE tries to adapt the model for the target domain as UDA does, and in the meantime maintains its source-domain performance. In both UDA and UDE settings, a model tailored to a given domain, let it be the source or the target domain, is assumed to well handle samples from the given domain. We question the assumption by reporting the existence of cross-domain visual ambiguity: Given the lack of a crystally clear boundary between the two domains, samples from one domain can be visually close to the other domain. Such sorts of samples are typically in minority in their host domain, so they tend to be overlooked by the domain-specific model, but can be better handled by a model from the other domain. We exploit this finding, and accordingly propose Co-Teaching (CT). The CT method is instantiated with knowledge distillation based CT (kdCT) plus mixup based CT (miCT). Specifically, kdCT transfers knowledge from a leading-teacher network and an assistant-teacher network to a student network, so the cross-domain ambiguity will be better handled by the student. Meanwhile, miCT further enhances the generalization ability of the student. Extensive experiments on two image classification datasets and two driving-scene segmentation datasets justify the viability of CT for UDA and UDE.
翻訳日:2023-09-15 20:03:32 公開日:2023-09-14
# ジャンプを伴う確率力学系における最も可能性の高い遷移経路の最適制御法

An Optimal Control Method to Compute the Most Likely Transition Path for Stochastic Dynamical Systems with Jumps ( http://arxiv.org/abs/2203.16874v2 )

ライセンス: Link先を確認
Wei Wei, Ting Gao, Jinqiao Duan and Xiaoli Chen(参考訳) 多くの複雑な実世界現象は突然、断続的、あるいは跳躍的な振る舞いを示し、非ガウス的l\'evy雑音下での確率微分方程式によって記述されるのにより適している。 これらの複雑な現象の中で、準安定状態間の遷移経路が最も重要であるのは、これらの稀な事象が特定のシナリオに大きな影響を与える可能性があるためである。 大きな偏差原理に基づいて、最も可能性の高い遷移経路は、2つの点を結ぶ経路上の速度関数の最小化として扱うことができる。 非ガウス的L''evyノイズの下で確率力学系の最も可能性の高い遷移経路を計算することの課題の1つは、関連する速度関数が経路によって明示的に表現できないことである。 このため,最適状態を求める最適制御問題を最も可能性の高い遷移経路として定式化する。 次に、この問題を解決するニューラルネットワーク手法を開発する。 ガウス的および非ガウス的事例についていくつかの実験を行った。

Many complex real world phenomena exhibit abrupt, intermittent or jumping behaviors, which are more suitable to be described by stochastic differential equations under non-Gaussian L\'evy noise. Among these complex phenomena, the most likely transition paths between metastable states are important since these rare events may have a high impact in certain scenarios. Based on the large deviation principle, the most likely transition path could be treated as the minimizer of the rate function upon paths that connect two points. One of the challenges to calculate the most likely transition path for stochastic dynamical systems under non-Gaussian L\'evy noise is that the associated rate function can not be explicitly expressed by paths. For this reason, we formulate an optimal control problem to obtain the optimal state as the most likely transition path. We then develop a neural network method to solve this issue. Several experiments are investigated for both Gaussian and non-Gaussian cases.
翻訳日:2023-09-15 20:03:08 公開日:2023-09-14
# ランダム特徴増幅:ニューラルネットワークにおける特徴学習と一般化

Random Feature Amplification: Feature Learning and Generalization in Neural Networks ( http://arxiv.org/abs/2202.07626v4 )

ライセンス: Link先を確認
Spencer Frei, Niladri S. Chatterji, Peter L. Bartlett(参考訳) 本研究では,ランダム初期化後のロジスティック損失の勾配降下により訓練された2層ReLUネットワークにおける特徴学習過程の特性評価を行う。 入力特徴のXOR様関数によって生成されるバイナリラベルを持つデータを考える。 トレーニングラベルの一定割合が敵によって破壊されることを許可します。 線形分類器は, 分布をランダムに推定するよりも優れていないが, 勾配降下により学習した2層reluネットワークはラベル雑音率に近い一般化誤差を達成する。 我々は,初期化時のニューロンのほとんどが,有用な特徴と弱い相関しか持たないランダムな特徴として機能し,勾配降下ダイナミクスがこれらの弱い,ランダムな特徴を強固で有用な特徴に「増幅」することを示す新しい証明手法を開発した。

In this work, we provide a characterization of the feature-learning process in two-layer ReLU networks trained by gradient descent on the logistic loss following random initialization. We consider data with binary labels that are generated by an XOR-like function of the input features. We permit a constant fraction of the training labels to be corrupted by an adversary. We show that, although linear classifiers are no better than random guessing for the distribution we consider, two-layer ReLU networks trained by gradient descent achieve generalization error close to the label noise rate. We develop a novel proof technique that shows that at initialization, the vast majority of neurons function as random features that are only weakly correlated with useful features, and the gradient descent dynamics 'amplify' these weak, random features to strong, useful features.
翻訳日:2023-09-15 20:02:32 公開日:2023-09-14
# 線形性のない良性オーバーフィッティング--ノイズ線形データに対する勾配降下学習ニューラルネットワーク分類器

Benign Overfitting without Linearity: Neural Network Classifiers Trained by Gradient Descent for Noisy Linear Data ( http://arxiv.org/abs/2202.05928v4 )

ライセンス: Link先を確認
Spencer Frei, Niladri S. Chatterji, Peter L. Bartlett(参考訳) ノイズデータの存在下で補間モデルがうまく一般化する現象である良性過剰は、勾配降下で訓練されたニューラルネットワークモデルで初めて観測された。 この経験的観察をよりよく理解するために,ランダム初期化後のロジスティック損失の勾配降下による補間を訓練した2層ニューラルネットワークの一般化誤差について考察する。 データを分離したクラス条件のログコンケーブ分布から得ると仮定し、トレーニングラベルの一定割合を敵によって破壊できると仮定する。 この設定では、ニューラルネットワークは、トレーニングエラーゼロに駆動され、ノイズの多いトレーニングラベルに完全に適合し、minimaxの最適テストエラーを同時に達成できるという、良質な過剰フィットを示す。 線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形な状態にある。

Benign overfitting, the phenomenon where interpolating models generalize well in the presence of noisy data, was first observed in neural network models trained with gradient descent. To better understand this empirical observation, we consider the generalization error of two-layer neural networks trained to interpolation by gradient descent on the logistic loss following random initialization. We assume the data comes from well-separated class-conditional log-concave distributions and allow for a constant fraction of the training labels to be corrupted by an adversary. We show that in this setting, neural networks exhibit benign overfitting: they can be driven to zero training error, perfectly fitting any noisy training labels, and simultaneously achieve minimax optimal test error. In contrast to previous work on benign overfitting that require linear or kernel-based predictors, our analysis holds in a setting where both the model and learning dynamics are fundamentally nonlinear.
翻訳日:2023-09-15 20:02:18 公開日:2023-09-14
# PolicyCleanse:強化学習におけるバックドア検出と緩和

PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement Learning ( http://arxiv.org/abs/2202.03609v5 )

ライセンス: Link先を確認
Junfeng Guo, Ang Li, Cong Liu(参考訳) 強化学習の現実的な応用が普及しつつある一方で、RLシステムのセキュリティと堅牢性は、より注意と探索に値する。 特に、近年の研究では、マルチエージェントのRL環境では、バックドアトリガーアクションが被害者のエージェント(すなわちトロイの木馬のエージェント)に注入され、バックドアトリガーアクションを見ると破滅的な失敗が起こることが示されている。 本研究では,悪質なバックドアに対するRLエージェントの安全性を確保するため,複数エージェントによる競合強化学習システムにおけるバックドア検出の問題を提案する。 この問題を解決するために,活性化されたトロイの木馬エージェントが数回の時間経過後に報酬を蓄積した特性に基づくポリシクリーゼを提案する。 PolicyCleanseとともに、検出されたバックドアを効果的に緩和できる機械学習ベースのアプローチも設計します。 広範な実験により,提案手法はトロイの木馬エージェントを正確に検出でき,既存のバックドア緩和ベースラインアプローチを,各種エージェントや環境において,少なくとも3%の勝利率で上回ることができることが示された。

While real-world applications of reinforcement learning are becoming popular, the security and robustness of RL systems are worthy of more attention and exploration. In particular, recent works have revealed that, in a multi-agent RL environment, backdoor trigger actions can be injected into a victim agent (a.k.a. Trojan agent), which can result in a catastrophic failure as soon as it sees the backdoor trigger action. To ensure the security of RL agents against malicious backdoors, in this work, we propose the problem of Backdoor Detection in a multi-agent competitive reinforcement learning system, with the objective of detecting Trojan agents as well as the corresponding potential trigger actions, and further trying to mitigate their Trojan behavior. In order to solve this problem, we propose PolicyCleanse that is based on the property that the activated Trojan agents accumulated rewards degrade noticeably after several timesteps. Along with PolicyCleanse, we also design a machine unlearning-based approach that can effectively mitigate the detected backdoor. Extensive experiments demonstrate that the proposed methods can accurately detect Trojan agents, and outperform existing backdoor mitigation baseline approaches by at least 3% in winning rate across various types of agents and environments.
翻訳日:2023-09-15 20:01:59 公開日:2023-09-14
# ランダム正則グラフ上のアンダーソンモデルにおける部分拡散的Thouless時間スケーリング

Sub-diffusive Thouless time scaling in the Anderson model on random regular graphs ( http://arxiv.org/abs/2201.04673v2 )

ライセンス: Link先を確認
Luis Colmenarez, David J. Luitz, Ivan M. Khaymovich, Giuseppe De Tomasi(参考訳) システムサイズによるThouless時間のスケーリングは、量子系の力学特性を特徴づける上で、基本的な重要性である。 本研究では,オンサイト障害を伴うランダム正則グラフ上のアンダーソンモデルにおけるthouless timeのスケーリングについて検討する。 我々はThouless時刻をスペクトル形成係数とパワースペクトルの2つの主要な量から決定する。 どちらの量もシステム内の長距離スペクトル相関を探索し、系がランダム行列理論によってよく説明される時間スケールとしてThouless時間を決定することができる。 我々は、Thouless時間のスケーリングが、局所的な位相を予想する部分拡散状態の存在と一致していることを発見した。 さらに,模型のフロッケバージョンを導入することで,有限次元効果を低減し,エネルギー保存を壊し,類似のサブ拡散レジームを持つことを示す。

The scaling of the Thouless time with system size is of fundamental importance to characterize dynamical properties in quantum systems. In this work, we study the scaling of the Thouless time in the Anderson model on random regular graphs with on-site disorder. We determine the Thouless time from two main quantities: the spectral form factor and the power spectrum. Both quantities probe the long-range spectral correlations in the system and allow us to determine the Thouless time as the time scale after which the system is well described by random matrix theory. We find that the scaling of the Thouless time is consistent with the existence of a sub-diffusive regime anticipating the localized phase. Furthermore, to reduce finite-size effects, we break energy conservation by introducing a Floquet version of the model and show that it hosts a similar sub-diffusive regime.
翻訳日:2023-09-15 20:01:36 公開日:2023-09-14
# ポアソン準位統計を伴う非エルゴード非局在位相

Non-ergodic delocalized phase with Poisson level statistics ( http://arxiv.org/abs/2112.09700v5 )

ライセンス: Link先を確認
Weichen Tang and Ivan M. Khaymovich(参考訳) 一般相互作用型量子システムにおける多体局在(mbl)位相に動機づけられ、mblと同じ固有状態構造をシミュレートするモデルを開発した。 エネルギー準位反発の欠如(ポアソン統計)を実証し、このモデルは非エルゴード固有状態を持ち、ヒルベルト空間における多数の構成を非局在化する。 上記の例では、単一粒子状態のアンダーソン局在の透過的な一般化と多重共鳴に基づいて、そのような状態を運ぶために単一粒子およびランダム行列モデルに一般条件を定式化する。

Motivated by the many-body localization (MBL) phase in generic interacting disordered quantum systems, we develop a model simulating the same eigenstate structure like in MBL, but in the random-matrix setting. Demonstrating the absence of energy level repulsion (Poisson statistics), this model carries non-ergodic eigenstates, delocalized over the extensive number of configurations in the Hilbert space. On the above example, we formulate general conditions to a single-particle and random-matrix models in order to carry such states, based on the transparent generalization of the Anderson localization of single-particle states and multiple resonances.
翻訳日:2023-09-15 20:01:25 公開日:2023-09-14
# 群同変畳み込み量子ans\"atzeによる量子状態学習の高速化

Speeding up Learning Quantum States through Group Equivariant Convolutional Quantum Ans\"atze ( http://arxiv.org/abs/2112.07611v3 )

ライセンス: Link先を確認
Han Zheng, Zimu Li, Junyu Liu, Sergii Strelchuk, Risi Kondor(参考訳) 我々は、SU$(d)$対称性を持つ$S_n$-equivariantの畳み込み量子回路の理論的枠組みを開発し、Su$(d)$と$S_n$の両方をクイディット上で接続するシュル=ワイル双対性に基づくヨルダンの置換量子コンピューティング(PQC)の定式化と大幅に一般化する。 特に、Okounkov-Vershik の手法を用いて、Harrow の主張(Ph.D. Thesis 2005 p.160)を $\operatorname{SU}(d)$ と $S_n$ irrep bases の同値性を証明し、Young-Jucys-Murphy (YJM) 要素を用いて $S_n$-equivariant Convolutional Quantum Alternating Ans\"atze ($S_n$-CQA) を確立する。 我々は、与えられた$S_n$-CQAセクターにおいて任意のユニタリを生成可能であることを証明し、SU($d$)対称性のある幅広い量子機械学習問題の普遍モデルとして機能する。 提案手法は、量子近似最適化アルゴリズム(QAOA)の普遍性を証明する別の方法を提供し、4-ローカルSU($d$)対称ユニタリが、一般的なSU($d$)対称量子回路を相対位相因子まで構築するのに十分であることを示す。 矩形およびカゴメ格子上のy_1$--$j_2$反強磁性ハイゼンベルク模型の基底状態エネルギーを求めるために,ans\"atzeの有効性を示す数値シミュレーションを行った。 我々の研究は、有名なオクンコフ=ヴェルシクの$S_n$表現理論を量子物理学と機械学習に初めて応用し、量子変分 ans\" を提唱する。

We develop a theoretical framework for $S_n$-equivariant convolutional quantum circuits with SU$(d)$-symmetry, building on and significantly generalizing Jordan's Permutational Quantum Computing (PQC) formalism based on Schur-Weyl duality connecting both SU$(d)$ and $S_n$ actions on qudits. In particular, we utilize the Okounkov-Vershik approach to prove Harrow's statement (Ph.D. Thesis 2005 p.160) on the equivalence between $\operatorname{SU}(d)$ and $S_n$ irrep bases and to establish the $S_n$-equivariant Convolutional Quantum Alternating Ans\"atze ($S_n$-CQA) using Young-Jucys-Murphy (YJM) elements. We prove that $S_n$-CQA is able to generate any unitary in any given $S_n$ irrep sector, which may serve as a universal model for a wide array of quantum machine learning problems with the presence of SU($d$) symmetry. Our method provides another way to prove the universality of Quantum Approximate Optimization Algorithm (QAOA) and verifies that 4-local SU($d$) symmetric unitaries are sufficient to build generic SU($d$) symmetric quantum circuits up to relative phase factors. We present numerical simulations to showcase the effectiveness of the ans\"atze to find the ground state energy of the $J_1$--$J_2$ antiferromagnetic Heisenberg model on the rectangular and Kagome lattices. Our work provides the first application of the celebrated Okounkov-Vershik's $S_n$ representation theory to quantum physics and machine learning, from which to propose quantum variational ans\"atze that strongly suggests to be classically intractable tailored towards a specific optimization problem.
翻訳日:2023-09-15 20:01:13 公開日:2023-09-14
# Pareto Adversarial Robustness: 空間的ロバストネスと感性に基づくロバストネスのバランス

Pareto Adversarial Robustness: Balancing Spatial Robustness and Sensitivity-based Robustness ( http://arxiv.org/abs/2111.01996v2 )

ライセンス: Link先を確認
Ke Sun, Mingjie Li, Zhouchen Lin(参考訳) 相対ロバスト性は主に感度に基づくロバスト性と空間ロバスト性から成り、ロバストな一般化を達成する上で不可欠な役割を果たす。 本稿では,普遍的対角強靭性を実現するための戦略設計に尽力する。 そこで我々はまず,空間的堅牢性の比較的少ない領域について検討する。 次に,既存の空間的ロバストネス手法を,局所的および大域的空間的脆弱性を統合的空間攻撃と敵対的訓練アプローチに組み込むことにより統合する。 さらに, 頑健な表現の観点から, 自然な精度, 感度に基づく頑健さ, 空間的頑健さの包括的関係を示す。 重要な点は、様々なロバストネスコンポーネントの相互影響を一つの統一フレームワークに相互に作用させるため、逆ロバストネス分析に \textit{pareto criterion} を組み込んで、普遍ロバストネスを達成するためのpareto adversarial trainingと呼ばれる新しい戦略を生み出したことである。 最適解の集合を表わす結果のパレートフロントは、自然な精度と様々な対向ロバスト性の間の最適なバランスを与える。 これは、将来普遍的な堅牢性を達成するためのソリューションに光を当てる。 我々の知識を最大限に活用するために、我々は多目的最適化による普遍的敵の堅牢性を初めて検討する。

Adversarial robustness, which primarily comprises sensitivity-based robustness and spatial robustness, plays an integral part in achieving robust generalization. In this paper, we endeavor to design strategies to achieve universal adversarial robustness. To achieve this, we first investigate the relatively less-explored realm of spatial robustness. Then, we integrate the existing spatial robustness methods by incorporating both local and global spatial vulnerability into a unified spatial attack and adversarial training approach. Furthermore, we present a comprehensive relationship between natural accuracy, sensitivity-based robustness, and spatial robustness, supported by strong evidence from the perspective of robust representation. Crucially, to reconcile the interplay between the mutual impacts of various robustness components into one unified framework, we incorporate the \textit{Pareto criterion} into the adversarial robustness analysis, yielding a novel strategy called Pareto Adversarial Training for achieving universal robustness. The resulting Pareto front, which delineates the set of optimal solutions, provides an optimal balance between natural accuracy and various adversarial robustness. This sheds light on solutions for achieving universal robustness in the future. To the best of our knowledge, we are the first to consider universal adversarial robustness via multi-objective optimization.
翻訳日:2023-09-15 20:00:29 公開日:2023-09-14
# BAFFLE:オフライン強化学習におけるバックドア攻撃

BAFFLE: Backdoor Attack in Offline Reinforcement Learning ( http://arxiv.org/abs/2210.04688v2 )

ライセンス: Link先を確認
Chen Gong, Zhou Yang, Yunpeng Bai, Junda He, Jieke Shi, Kecen Li, Arunesh Sinha, Bowen Xu, Xinwen Hou, David Lo, Tianhao Wang(参考訳) 環境との相互作用中に収集された試行錯誤経験からエージェントが学ぶことができる強化学習(Reinforcement Learning, RL)手法に注目が集まっている。 近年、オフラインRLは環境との相互作用を省くため、人気のあるRLパラダイムとなっている。 オフラインのRLでは、データプロバイダは大規模なプレコンパイルデータセットを共有し、他のプロバイダは環境と対話することなく高品質なエージェントをトレーニングできる。 このパラダイムは、ロボット制御や自律運転など、重要なタスクにおいて有効性を示している。 しかし、オフラインのRLシステムに対するセキュリティ脅威の調査には注意が払われていない。 本稿ではバックドア攻撃(バックドアアタック)に焦点をあて、通常の観測では、エージェントが高反発作用をとり、トリガーによって注入された観察に対する低反発作用を観測データ(観測)に追加する。 本稿では,オフラインrlデータセットを汚染することにより,バックドアをrlエージェントに自動的に埋め込む手法であるbaffle(backdoor attack for offline reinforcement learning)を提案し,異なるオフラインrlアルゴリズムがこの攻撃に対してどのように反応するかを評価する。 4つのタスクと4つのオフラインRLアルゴリズムで実施した実験では,既存のオフラインRLアルゴリズムはいずれも,そのようなバックドア攻撃に対して無害である,という不合理な事実が明らかになった。 Baffleは4つのタスクのデータセットの10\%$を変更する。 有毒データセットでトレーニングされたエージェントは、通常の設定でうまく動作します。 しかし、トリガーが提示されると、エージェントのパフォーマンスは、平均して63.2\%$、53.9\%$、64.7\%$、47.4\%$で劇的に低下する。 バックドアは、清潔なデータセットに汚染物質を微調整した後も継続する。 また,一般的な防御手法では挿入バックドアの検出が困難であることを示す。 本稿では,オープンソースオフラインRLデータセットのより効果的な保護開発に注目する。

A growing body of research has focused on the Reinforcement Learning (RL) methods which allow the agent to learn from trial-and-error experiences gathered during the interaction with the environment. Recently, offline RL becomes a popular RL paradigm because it saves the interactions with environments. In offline RL, data providers share large pre-collected datasets, and others can train high-quality agents without interacting with the environments. This paradigm has demonstrated effectiveness in critical tasks like robot control, autonomous driving, etc. However, less attention is paid to investigating the security threats to the offline RL system. This paper focuses on backdoor attacks, where some perturbations are added to the data (observations) such that given normal observations, the agent takes high-rewards actions, and low-reward actions on observations injected with triggers. In this paper, we propose Baffle (Backdoor Attack for Offline Reinforcement Learning), an approach that automatically implants backdoors to RL agents by poisoning the offline RL dataset, and evaluate how different offline RL algorithms react to this attack. Our experiments conducted on four tasks and four offline RL algorithms expose a disquieting fact: none of the existing offline RL algorithms is immune to such a backdoor attack. Baffle modifies $10\%$ of the datasets for four tasks. Agents trained on the poisoned datasets perform well in normal settings. However, when triggers are presented, the agents' performance decreases drastically by $63.2\%$, $53.9\%$, $64.7\%$, and $47.4\%$ in the four tasks on average. The backdoor still persists after fine-tuning poisoned agents on clean datasets. We further show that the inserted backdoor is also hard to be detected by a popular defensive method. This paper calls attention to developing more effective protection for the open-source offline RL dataset.
翻訳日:2023-09-15 19:52:46 公開日:2023-09-14
# LambdaKG: 事前トレーニングされた言語モデルベースの知識グラフ埋め込みのためのライブラリ

LambdaKG: A Library for Pre-trained Language Model-Based Knowledge Graph Embeddings ( http://arxiv.org/abs/2210.00305v3 )

ライセンス: Link先を確認
Xin Xie, Zhoubo Li, Xiaohan Wang, Zekun Xi, Ningyu Zhang(参考訳) 知識グラフ(KG)は、異種グラフ構造とテキストリッチなエンティティ/リレーショナル情報という2つの特徴を持つことが多い。 テキストベースのkg埋め込みは、事前学習された言語モデルで記述をエンコードすることでエンティティを表現することができるが、現在plmを持つkgs用に特別に設計されたオープンソースライブラリはない。 本稿では,多くの事前学習された言語モデル(BERT,BART,T5,GPT-3)に対応し,様々なタスク(知識グラフ補完,質問応答,レコメンデーション,知識探索など)をサポートするKGE用ライブラリLambdaKGを提案する。 LambdaKGはhttps://github.com/zjunlp/PromptKG/tree/main/lambdaKGで公開されている。

Knowledge Graphs (KGs) often have two characteristics: heterogeneous graph structure and text-rich entity/relation information. Text-based KG embeddings can represent entities by encoding descriptions with pre-trained language models, but no open-sourced library is specifically designed for KGs with PLMs at present. In this paper, we present LambdaKG, a library for KGE that equips with many pre-trained language models (e.g., BERT, BART, T5, GPT-3), and supports various tasks (e.g., knowledge graph completion, question answering, recommendation, and knowledge probing). LambdaKG is publicly open-sourced at https://github.com/zjunlp/PromptKG/tree/main/lambdaKG, with a demo video at http://deepke.zjukg.cn/lambdakg.mp4 and long-term maintenance.
翻訳日:2023-09-15 19:52:10 公開日:2023-09-14
# TrojViT:ビジョントランスフォーマーのトロイの木馬導入

TrojViT: Trojan Insertion in Vision Transformers ( http://arxiv.org/abs/2208.13049v4 )

ライセンス: Link先を確認
Mengxin Zheng, Qian Lou, Lei Jiang(参考訳) 視覚変換器(ViT)は様々な視覚関連タスクにおける最先端の性能を実証している。 ViTsの成功は、敵がViTsに対するバックドア攻撃を行う動機となっている。 バックドア攻撃に対する従来のCNNの脆弱性はよく知られているが、ViTに対するバックドア攻撃はほとんど研究されていない。 コンボリューションによってピクセルワイドなローカル特徴をキャプチャするCNNと比較して、ViTはパッチやアテンションを通じてグローバルなコンテキスト情報を抽出する。 確実にCNN固有のバックドア攻撃をViTに移植すると、クリーンなデータの精度が低く、攻撃の成功率が低いだけになる。 本稿では,vit特有のバックドア攻撃である$trojvit$を提案する。 CNN固有のバックドア攻撃で使用されるエリアワイドトリガーではなく、TrojViTはパッチサリエンスランキングとアテンションターゲット損失によってDRAMメモリに格納されたViTのパラメータにいくつかの脆弱なビットからなるトロイの木馬を構築するために設計されたパッチワイドトリガーを生成する。 trojvitはさらに最小調整パラメータ更新を使用して、トロイの木馬のビット数を削減する。 攻撃者が脆弱なビットを反転させてトロイの木馬をViTモデルに挿入すると、ViTモデルはベニグインプットで正常な推論精度が生成される。 しかし、攻撃者がインプットにトリガーを埋め込むと、vitモデルは入力を予め定義されたターゲットクラスに分類せざるを得なくなる。 有名なrowhammerを用いてvitモデル上でtroyvitが識別する脆弱なビットをフリップするだけで、モデルがバックドア付きに変換できることを示す。 様々なViTモデル上で複数のデータセットの広範な実験を行う。 trojvitは、テストイメージの99.64\%$を、imagenet用のvit上で345ドルのビットをフリップすることでターゲットクラスに分類できる。

Vision Transformers (ViTs) have demonstrated the state-of-the-art performance in various vision-related tasks. The success of ViTs motivates adversaries to perform backdoor attacks on ViTs. Although the vulnerability of traditional CNNs to backdoor attacks is well-known, backdoor attacks on ViTs are seldom-studied. Compared to CNNs capturing pixel-wise local features by convolutions, ViTs extract global context information through patches and attentions. Na\"ively transplanting CNN-specific backdoor attacks to ViTs yields only a low clean data accuracy and a low attack success rate. In this paper, we propose a stealth and practical ViT-specific backdoor attack $TrojViT$. Rather than an area-wise trigger used by CNN-specific backdoor attacks, TrojViT generates a patch-wise trigger designed to build a Trojan composed of some vulnerable bits on the parameters of a ViT stored in DRAM memory through patch salience ranking and attention-target loss. TrojViT further uses minimum-tuned parameter update to reduce the bit number of the Trojan. Once the attacker inserts the Trojan into the ViT model by flipping the vulnerable bits, the ViT model still produces normal inference accuracy with benign inputs. But when the attacker embeds a trigger into an input, the ViT model is forced to classify the input to a predefined target class. We show that flipping only few vulnerable bits identified by TrojViT on a ViT model using the well-known RowHammer can transform the model into a backdoored one. We perform extensive experiments of multiple datasets on various ViT models. TrojViT can classify $99.64\%$ of test images to a target class by flipping $345$ bits on a ViT for ImageNet.Our codes are available at https://github.com/mxzheng/TrojViT
翻訳日:2023-09-15 19:51:49 公開日:2023-09-14
# ニューラルネットワークのためのガウス過程代理モデル

Gaussian Process Surrogate Models for Neural Networks ( http://arxiv.org/abs/2208.06028v2 )

ライセンス: Link先を確認
Michael Y. Li, Erin Grant, Thomas L. Griffiths(参考訳) ディープラーニングシステムの振る舞いを理解して予測できないことは、特定の問題にどのアーキテクチャとアルゴリズムを使うかを決定するのが難しくなります。 科学と工学において、モデリングは内部プロセスが不透明である複雑なシステムを理解するために用いられる方法論である。 モデリングは複雑なシステムをよりシンプルでより解釈可能なサロゲートに置き換える。 このことから着想を得た我々は,ガウス過程を用いたニューラルネットワークの代理モデルのクラスを構築した。 無限ニューラルネットワークのカーネルを導出するのではなく、有限ニューラルネットワークの自然主義的な振る舞いから経験的にカーネルを学習する。 提案手法は,ニューラルネットワークのスペクトルバイアスに関連する既存の現象をキャプチャし,特定のニューラルネットワークの挙動に最も影響する点の特定や,特定のデータセットに対してどのアーキテクチャやアルゴリズムがうまく一般化するかの予測など,現実的な問題を解決する上で有効であることを示す。

Not being able to understand and predict the behavior of deep learning systems makes it hard to decide what architecture and algorithm to use for a given problem. In science and engineering, modeling is a methodology used to understand complex systems whose internal processes are opaque. Modeling replaces a complex system with a simpler, more interpretable surrogate. Drawing inspiration from this, we construct a class of surrogate models for neural networks using Gaussian processes. Rather than deriving kernels for infinite neural networks, we learn kernels empirically from the naturalistic behavior of finite neural networks. We demonstrate our approach captures existing phenomena related to the spectral bias of neural networks, and then show that our surrogate models can be used to solve practical problems such as identifying which points most influence the behavior of specific neural networks and predicting which architectures and algorithms will generalize well for specific datasets.
翻訳日:2023-09-15 19:51:11 公開日:2023-09-14
# 継続的養蜂モニタリングアプリケーションにおける機械学習とコンピュータビジョン技術:調査

Machine Learning and Computer Vision Techniques in Continuous Beehive Monitoring Applications: A survey ( http://arxiv.org/abs/2208.00085v3 )

ライセンス: Link先を確認
Simon Bilik, Tomas Zemcik, Lukas Kratochvila, Dominik Ricanek, Milos Richter, Sebastian Zambanini, Karel Horak(参考訳) 機械学習とコンピュータビジョン技術の幅広い使用と可用性により、多くのドメインで比較的複雑な監視システムの開発が可能になる。 従来の産業分野に加えて、新しい応用は生物学や農業にも現れ、感染症、寄生虫、雑草の検出だけでなく、自動モニタリングや早期警戒システムについても語ることができる。 これはArduinoやRaspberryPiファミリといった、容易にアクセスできるハードウェアと開発キットの導入とも関係している。 本稿では,コンピュータビジョン技術を用いた自動蜂蜜モニタリング手法,特に花粉およびバロアダマイト検出手法,およびハチの交通監視方法に着目した50の既存論文について調査する。 このようなシステムは、ミツバチのコロニーの監視や、状況が重要になる前に潜在的に危険な状態を特定することができる健康状態の検査や、周期的なミツバチのコロニーの検査の計画を改善するためにも使用できる。 その後,本研究分野における研究動向の分析も含み,新たな探究の可能性について概説する。 本論文は,その可能性に機械学習に慣れていない獣医学専門家や専門家も対象としており,その基礎となる手法に関する簡単な理論的紹介と動機付けによって,各応用のファミリーが開放される。 この論文は、他の科学者にビーヒーブモニタリングの他の応用に機械学習技術を使うよう促すことを願っている。

Wide use and availability of the machine learning and computer vision techniques allows development of relatively complex monitoring systems in many domains. Besides the traditional industrial domain, new application appears also in biology and agriculture, where we could speak about the detection of infections, parasites and weeds, but also about automated monitoring and early warning systems. This is also connected with the introduction of the easily accessible hardware and development kits such as Arduino, or RaspberryPi family. In this paper, we survey 50 existing papers focusing on the methods of automated beehive monitoring methods using the computer vision techniques, particularly on the pollen and Varroa mite detection together with the bee traffic monitoring. Such systems could also be used for the monitoring of the honeybee colonies and for the inspection of their health state, which could identify potentially dangerous states before the situation is critical, or to better plan periodic bee colony inspections and therefore save significant costs. Later, we also include analysis of the research trends in this application field and we outline the possible direction of the new explorations. Our paper is aimed also at veterinary and apidology professionals and experts, who might not be familiar with machine learning to introduce them to its possibilities, therefore each family of applications is opened by a brief theoretical introduction and motivation related to its base method. We hope that this paper will inspire other scientists to use machine learning techniques for other applications in beehive monitoring.
翻訳日:2023-09-15 19:50:56 公開日:2023-09-14
# 空間時間グラフ学習のための適応的フェデレーション関連フレームワーク

An Adaptive Federated Relevance Framework for Spatial Temporal Graph Learning ( http://arxiv.org/abs/2206.03420v3 )

ライセンス: Link先を確認
Tiehua Zhang, Yuze Liu, Zhishu Shen, Rui Xu, Xin Chen, Xiaowei Huang, Xi Zheng(参考訳) 空間時間データには豊富な情報が含まれており、多くの分野における関連する応用の急速な発展により近年広く研究されている。 例えば、医療機関は患者の異なる部分に取り付けられた電極を使用して、健康診断や疾患診断のための空間的・時間的特徴に富んだ脳波データを分析します。 既存の研究は主に畳み込みニューラルネットワーク(cnn)やリカレントニューラルネットワーク(rnn)といったディープラーニング技術を使用して、隠れた空間-時間的特徴を抽出する。 しかし,相互依存型空間情報と動的時間変化を同時に取り入れることは困難である。 実際、これらの空間的-時間的特徴を利用して複雑な予測タスクを実行するモデルの場合、十分なモデル性能を得るためには、しばしば大量のトレーニングデータが必要となる。 本稿では,これらの課題を考慮し,空間時間グラフ学習のための適応型フェデレーション関連フレームワークであるFedRelを提案する。 生の空間-時間間データを高品質な特徴に変換した後、フレームワークのコアとなるdynamic inter-intra graph (diig)モジュールは、これらの特徴を利用して、これらのグラフに隠されたトポロジーおよび長期の時間的相関情報をキャプチャできる空間-時間的グラフを生成することができる。 局所的なデータプライバシーを保ちながらモデルの一般化能力と性能を向上させるため,本フレームワークでは関連性駆動型フェデレーション学習モジュールを設計し,モデルの注意的な集約を伴う参加者の多様なデータ分散を活用する。

Spatial-temporal data contains rich information and has been widely studied in recent years due to the rapid development of relevant applications in many fields. For instance, medical institutions often use electrodes attached to different parts of a patient to analyse the electorencephal data rich with spatial and temporal features for health assessment and disease diagnosis. Existing research has mainly used deep learning techniques such as convolutional neural network (CNN) or recurrent neural network (RNN) to extract hidden spatial-temporal features. Yet, it is challenging to incorporate both inter-dependencies spatial information and dynamic temporal changes simultaneously. In reality, for a model that leverages these spatial-temporal features to fulfil complex prediction tasks, it often requires a colossal amount of training data in order to obtain satisfactory model performance. Considering the above-mentioned challenges, we propose an adaptive federated relevance framework, namely FedRel, for spatial-temporal graph learning in this paper. After transforming the raw spatial-temporal data into high quality features, the core Dynamic Inter-Intra Graph (DIIG) module in the framework is able to use these features to generate the spatial-temporal graphs capable of capturing the hidden topological and long-term temporal correlation information in these graphs. To improve the model generalization ability and performance while preserving the local data privacy, we also design a relevance-driven federated learning module in our framework to leverage diverse data distributions from different participants with attentive aggregations of their models.
翻訳日:2023-09-15 19:50:31 公開日:2023-09-14
# 物理非依存物体のメタラーニング規則

Meta-Learning Regrasping Strategies for Physical-Agnostic Objects ( http://arxiv.org/abs/2205.11110v2 )

ライセンス: Link先を確認
Ning Gao, Jingyu Zhang, Ruijie Chen, Ngo Anh Vien, Hanna Ziesche, Gerhard Neumann(参考訳) 物質分布や摩擦係数などの未知の物理的性質のため、現実世界の応用における非均一物体の粒度化は依然として難しい課題である。 本研究では,条件付きニューラルネットワーク(cnp)をdexnet-2.0と組み込んで,奥行き画像を用いて物体の物理的特性を自律的に識別する,condexと呼ばれるメタラーニングアルゴリズムを提案する。 ConDexは限られた試行から物理的埋め込みを効率的に取得し、正確な把握点推定を可能にする。 さらに、ConDexは、オンライン方式で新しい試行から予測された把握品質を反復的に更新することができる。 我々の知る限りでは、質量分布や摩擦係数の異なる不均質な物理的性質に焦点を当てた2つのオブジェクトデータセットを初めて作成する。 シミュレーションの大規模な評価は、ConDexがDexNet-2.0や既存のメタ学習ベースの把握パイプラインよりも優れていることを示している。 さらに、ConDexは、シミュレーションのみのトレーニングにもかかわらず、これまで見えない現実世界のオブジェクトに対して堅牢な一般化を示している。 合成および実世界のデータセットも発行される。

Grasping inhomogeneous objects in real-world applications remains a challenging task due to the unknown physical properties such as mass distribution and coefficient of friction. In this study, we propose a meta-learning algorithm called ConDex, which incorporates Conditional Neural Processes (CNP) with DexNet-2.0 to autonomously discern the underlying physical properties of objects using depth images. ConDex efficiently acquires physical embeddings from limited trials, enabling precise grasping point estimation. Furthermore, ConDex is capable of updating the predicted grasping quality iteratively from new trials in an online fashion. To the best of our knowledge, we are the first who generate two object datasets focusing on inhomogeneous physical properties with varying mass distributions and friction coefficients. Extensive evaluations in simulation demonstrate ConDex's superior performance over DexNet-2.0 and existing meta-learning-based grasping pipelines. Furthermore, ConDex shows robust generalization to previously unseen real-world objects despite training solely in the simulation. The synthetic and real-world datasets will be published as well.
翻訳日:2023-09-15 19:50:03 公開日:2023-09-14
# SPARQLセマンティックパーシングのためのモダンベースライン

Modern Baselines for SPARQL Semantic Parsing ( http://arxiv.org/abs/2204.12793v3 )

ライセンス: Link先を確認
Debayan Banerjee, Pranav Ajit Nair, Jivat Neet Kaur, Ricardo Usbeck, Chris Biemann(参考訳) 本研究では,自然言語質問からSPARQLクエリを生成するタスクに着目し,知識グラフ(KG)上で実行することができる。 我々は、金の実体と関係が提供されており、残りのタスクは、SPARQL語彙と入力トークンと共にそれらを正しい順序でアレンジし、正しいSPARQLクエリを生成することであると仮定する。 事前学習された言語モデル(plm)は、これまでこのタスクについて深く検討されていないので、bert embeddedsでbart、t5、pgns(pointer generator networks)を実験し、このタスクのためにplm時代の新しいベースラインを探します。 T5は特別な入力トークン化を必要とするが,LC-QuAD 1.0およびLC-QuAD 2.0データセット上でのアートパフォーマンスの状態を生成し,タスク固有モデルよりも優れていることを示す。 さらに、入力の一部を出力クエリにコピーする必要がある問題に対するセマンティック解析を可能にし、KGセマンティック解析における新しいパラダイムを可能にする。

In this work, we focus on the task of generating SPARQL queries from natural language questions, which can then be executed on Knowledge Graphs (KGs). We assume that gold entity and relations have been provided, and the remaining task is to arrange them in the right order along with SPARQL vocabulary, and input tokens to produce the correct SPARQL query. Pre-trained Language Models (PLMs) have not been explored in depth on this task so far, so we experiment with BART, T5 and PGNs (Pointer Generator Networks) with BERT embeddings, looking for new baselines in the PLM era for this task, on DBpedia and Wikidata KGs. We show that T5 requires special input tokenisation, but produces state of the art performance on LC-QuAD 1.0 and LC-QuAD 2.0 datasets, and outperforms task-specific models from previous works. Moreover, the methods enable semantic parsing for questions where a part of the input needs to be copied to the output query, thus enabling a new paradigm in KG semantic parsing.
翻訳日:2023-09-15 19:49:39 公開日:2023-09-14
# リカレント・セットによるアトラクション領域のモデルフリー学習

Model-free Learning of Regions of Attraction via Recurrent Sets ( http://arxiv.org/abs/2204.10372v2 )

ライセンス: Link先を確認
Yue Shen, Maxim Bichuch, Enrique Mallada(参考訳) 本研究では,漸近的に安定な平衡点のアトラクション領域(ROA)の内部近似を,ダイナミックスの明示的なモデルなしで学習する問題を考察する。 ROAに含まれる(ロバストな)不変集合を見つけるために境界不確実性を持つ近似モデルを活用するのではなく、より緩和された再帰の概念を満たす集合を学習することを提案する。 セットが$\tau$-recurrent(resp.$k$-recurrent)であると定義するのは、セット内で始まるすべてのトラジェクトリが、少なくとも$\tau$ seconds(resp.$k$ steps)の後に返される場合である。 穏やかな仮定の下では、安定平衡を含む$\tau$-recurrent 集合はその roa の部分集合でなければならない。 次に、この特性を利用して、有限長軌道のサンプリングによって得られる反例を用いてROAの内部近似を計算するアルゴリズムを開発する。 我々のアルゴリズムは、サンプルを逐次処理し、初期オフライントレーニング段階以降も実行し続けることができる。 さらにアルゴリズムが使用する反例の数の上界を提供し、ほぼ確実に収束する保証を提供する。

We consider the problem of learning an inner approximation of the region of attraction (ROA) of an asymptotically stable equilibrium point without an explicit model of the dynamics. Rather than leveraging approximate models with bounded uncertainty to find a (robust) invariant set contained in the ROA, we propose to learn sets that satisfy a more relaxed notion of containment known as recurrence. We define a set to be $\tau$-recurrent (resp. $k$-recurrent) if every trajectory that starts within the set, returns to it after at most $\tau$ seconds (resp. $k$ steps). We show that under mild assumptions a $\tau$-recurrent set containing a stable equilibrium must be a subset of its ROA. We then leverage this property to develop algorithms that compute inner approximations of the ROA using counter-examples of recurrence that are obtained by sampling finite-length trajectories. Our algorithms process samples sequentially, which allow them to continue being executed even after an initial offline training stage. We further provide an upper bound on the number of counter-examples used by the algorithm, and almost sure convergence guarantees.
翻訳日:2023-09-15 19:49:19 公開日:2023-09-14
# 大規模プレトレーニング時代の生き残り--一段階参照表現理解の実証的研究

A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression Comprehension ( http://arxiv.org/abs/2204.07913v2 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Jiamu Sun, Xiaoshuai Sun, Rongrong Ji(参考訳) 1段階参照表現理解(REC)における既存の研究のほとんどは、主にマルチモーダル融合と推論に焦点を当てているが、このタスクにおける他の要因の影響は、深層探査に欠けている。 このギャップを埋めるため,本論文では経験的研究を行う。 具体的には、まずSimRECと呼ばれる非常に単純なRECネットワークを構築し、42の候補設計/設定を廃止し、ネットワーク設計からモデルトレーニングまでの1段階RECの全プロセスをカバーする。 その後、RECの3つのベンチマークデータセットに対して100以上の実験を行った。 広範な実験結果から, マルチモーダル融合に加えて, マルチスケール機能やデータ拡張など, rec性能に影響を与える重要な要因を示すだけでなく, 従来の理解と相反する知見も得られた。 例えば、ビジョンと言語(V&L)タスクとして、RECは以前の言語の影響を受けない。 さらに、これらの知見を適切に組み合わせることで、既存のREC法よりも優れたRefCOCO+の+27.12%という大きなマージンでSimRECの性能を向上させることができる。 しかし、最も推奨される発見は、トレーニングのオーバーヘッドとパラメータがはるかに少ない場合、SimRECは既存のV&L研究におけるRECの特別な役割を描きながら、UNITERやVILLAのような大規模な事前訓練モデルよりもパフォーマンスが良いことである。

Most of the existing work in one-stage referring expression comprehension (REC) mainly focuses on multi-modal fusion and reasoning, while the influence of other factors in this task lacks in-depth exploration. To fill this gap, we conduct an empirical study in this paper. Concretely, we first build a very simple REC network called SimREC, and ablate 42 candidate designs/settings, which covers the entire process of one-stage REC from network design to model training. Afterwards, we conduct over 100 experimental trials on three benchmark datasets of REC. The extensive experimental results not only show the key factors that affect REC performance in addition to multi-modal fusion, e.g., multi-scale features and data augmentation, but also yield some findings that run counter to conventional understanding. For example, as a vision and language (V&L) task, REC does is less impacted by language prior. In addition, with a proper combination of these findings, we can improve the performance of SimREC by a large margin, e.g., +27.12% on RefCOCO+, which outperforms all existing REC methods. But the most encouraging finding is that with much less training overhead and parameters, SimREC can still achieve better performance than a set of large-scale pre-trained models, e.g., UNITER and VILLA, portraying the special role of REC in existing V&L research.
翻訳日:2023-09-15 19:49:00 公開日:2023-09-14
# 言語モデルのプロンプトによる推論:調査

Reasoning with Language Model Prompting: A Survey ( http://arxiv.org/abs/2212.09597v7 )

ライセンス: Link先を確認
Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 推論は複雑な問題解決に不可欠な能力であり、医療診断や交渉など、さまざまな現実世界のアプリケーションに対するバックエンドサポートを提供することができる。 本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。 比較や要約による研究成果を紹介し,初心者を支援するための体系的な資源を提供する。 また,このような推論能力が出現する潜在的な理由を議論し,今後の研究の方向性を強調する。 リソースはhttps://github.com/zjunlp/Prompt4ReasoningPapers(定期的に更新)で入手できる。

Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions. Resources are available at https://github.com/zjunlp/Prompt4ReasoningPapers (updated periodically).
翻訳日:2023-09-15 19:43:30 公開日:2023-09-14
# 強調に対するコヒーレンス消滅と最大ロバスト性による文脈性

Contextuality with vanishing coherence and maximal robustness to dephasing ( http://arxiv.org/abs/2212.06856v3 )

ライセンス: Link先を確認
Vinicius P. Rossi, David Schmid, John H. Selby, Ana Bel\'en Sainz(参考訳) 一般化された文脈性は、幅広い通信および情報処理プロトコルのリソースである。 しかし、コンテキスト性はコヒーレンスなしでは不可能であり、ノイズを軽視することで破壊することができる。 本稿では,状態の識別(文脈性が資源である)に関連するシナリオにおいて,雑音を部分的に強調する文脈性の頑健性について検討する。 このシナリオでは、無意味性の失敗を示すのに、消失するコヒーレンス量が十分であることが分かり、任意の量の部分的強調ノイズに対して頑健な文脈性を示す。 これは、文脈性を破壊するのに常に十分である部分偏極ノイズとは対照的である。

Generalized contextuality is a resource for a wide range of communication and information processing protocols. However, contextuality is not possible without coherence, and so can be destroyed by dephasing noise. Here, we explore the robustness of contextuality to partially dephasing noise in a scenario related to state discrimination (for which contextuality is a resource). We find that a vanishing amount of coherence is sufficient to demonstrate the failure of noncontextuality in this scenario, and we give a proof of contextuality that is robust to arbitrary amounts of partially dephasing noise. This is in stark contrast to partially depolarizing noise, which is always sufficient to destroy contextuality.
翻訳日:2023-09-15 19:43:22 公開日:2023-09-14
# 絶対的に極大に絡み合った状態同値性とオイラー36人の問題に対する無限量子解の構成

Absolutely maximally entangled state equivalence and the construction of infinite quantum solutions to the problem of 36 officers of Euler ( http://arxiv.org/abs/2212.06737v2 )

ライセンス: Link先を確認
Suhail Ahmad Rather, N. Ramadas, Vijay Kodiyalam, and Arul Lakshminarayan(参考訳) 絡み合いの内容による多部量子状態の順序付けと分類は未解決の問題である。 量子情報プロトコルで有用な高絡み合い状態の1つのクラス、絶対極大絡み合い状態(AME)は、全てのサブシステムが極大ランダムであるため、特に比較が難しい。 4量子ビットのAME状態が存在しないことはよく知られているが、多くの解析的な例と4量子ビットのAME状態の数値的なアンサンブルが知られている。 しかし、この驚くべき結果が証明できるのは、局所ユニタリ同値まで4つの四重項のAME状態のみであるということである。 対照的に、より大きな局所次元に対して、AME状態の局所ユニタリ類数は無限であることが示される。 特に興味深いのは、局所次元 6 の場合で、最近 4 つのパーティ AME 状態が存在することが確立され、古典的に不可能な36人の役員のオイラー問題に対する量子解が得られる。 これに基づいて、量子解の無限性が構築され、これらが等価でないことが証明される。 開発された方法は、任意の数の粒子の多粒子状態に有用に一般化することができる。

Ordering and classifying multipartite quantum states by their entanglement content remains an open problem. One class of highly entangled states, useful in quantum information protocols, the absolutely maximally entangled (AME) ones, are specially hard to compare as all their subsystems are maximally random. While, it is well-known that there is no AME state of four qubits, many analytical examples and numerically generated ensembles of four qutrit AME states are known. However, we prove the surprising result that there is truly only {\em one} AME state of four qutrits up to local unitary equivalence. In contrast, for larger local dimensions, the number of local unitary classes of AME states is shown to be infinite. Of special interest is the case of local dimension 6 where it was established recently that a four-party AME state does exist, providing a quantum solution to the classically impossible Euler problem of 36 officers. Based on this, an infinity of quantum solutions are constructed and we prove that these are not equivalent. The methods developed can be usefully generalized to multipartite states of any number of particles.
翻訳日:2023-09-15 19:43:12 公開日:2023-09-14
# TargetCall:プリベースコールフィルタによるベースコールにおけるムダ計算の排除

TargetCall: Eliminating the Wasted Computation in Basecalling via Pre-Basecalling Filtering ( http://arxiv.org/abs/2212.04953v2 )

ライセンス: Link先を確認
Meryem Banu Cavlak, Gagandeep Singh, Mohammed Alser, Can Firtina, Jo\"el Lindegger, Mohammad Sadrosadati, Nika Mansouri Ghiasi, Can Alkan, Onur Mutlu(参考訳) 塩基呼び出しは、ナノホールシークエンサーの生信号がヌクレオチド配列に変換されるナノホールシークエンシング解析において不可欠なステップである。 最先端のbasecallerは複雑なディープラーニングモデルを使用して高いbasecalling精度を実現している。 これにより、塩基呼び出しは非効率でメモリ不足になり、ゲノム解析パイプライン全体のボトルネックとなる。 しかし、多くのアプリケーションでは、リードの大部分は関心のある参照ゲノム(すなわち標的参照)と一致せず、ゲノムパイプラインの後のステップで破棄され、ベースコール計算を浪費する。 そこで,本研究では,ベースコール時の無駄な計算を解消する最初のプリベースコールフィルタであるtargetcallを提案する。 TargetCallのキーとなるアイデアは、ベースコールの前にターゲット参照(すなわち、オフターゲット読み取り)にマッチしない読み込みを破棄することである。 targetcallは、2つの主要なコンポーネントで構成されている:(1)lightcall、騒がしい読み取りを生成する軽量ニューラルネットワークベースコール、(2)これらの騒がしい読み込みをターゲット参照にマッチさせてオンターゲットまたはオフターゲットとしてラベル付けする類似性チェック。 TargetCallは、ベースコール前にすべてのターゲット外の読み込みをフィルタリングする。 ノイズの多い読み出しをオンターゲットとしてラベル付けした生信号のみ、高精度で遅いベースコールを行う。 実データとシミュレーションデータの両方を用いた徹底的な実験結果から 1) 目標読み出しにおける高感度を維持しつつ, エンドツーエンドのベースコール性能を向上する。 2)下流解析における高精度性を維持する。 3) ターゲット外読み取りの94.71%を正確にフィルタリングし、 4) 以前の作業と比べてパフォーマンス、スループット、感度、精度、汎用性が向上します。 TargetCallはhttps://github.com/CMU-SAFARI/TargetCallでオープンソース化しました。

Basecalling is an essential step in nanopore sequencing analysis where the raw signals of nanopore sequencers are converted into nucleotide sequences, i.e., reads. State-of-the-art basecallers employ complex deep learning models to achieve high basecalling accuracy. This makes basecalling computationally-inefficient and memory-hungry; bottlenecking the entire genome analysis pipeline. However, for many applications, the majority of reads do no match the reference genome of interest (i.e., target reference) and thus are discarded in later steps in the genomics pipeline, wasting the basecalling computation. To overcome this issue, we propose TargetCall, the first pre-basecalling filter to eliminate the wasted computation in basecalling. TargetCall's key idea is to discard reads that will not match the target reference (i.e., off-target reads) prior to basecalling. TargetCall consists of two main components: (1) LightCall, a lightweight neural network basecaller that produces noisy reads; and (2) Similarity Check, which labels each of these noisy reads as on-target or off-target by matching them to the target reference. TargetCall aims to filter out all off-target reads before basecalling. The highly-accurate but slow basecalling is performed only on the raw signals whose noisy reads are labeled as on-target. Our thorough experimental evaluations using both real and simulated data show that TargetCall 1) improves the end-to-end basecalling performance while maintaining high sensitivity in keeping on-target reads, 2) maintains high accuracy in downstream analysis, 3) precisely filters out up to 94.71% of off-target reads, and 4) achieves better performance, throughput, sensitivity, precision, and generality compared to prior works. We open-source TargetCall at https://github.com/CMU-SAFARI/TargetCall
翻訳日:2023-09-15 19:42:51 公開日:2023-09-14
# 深部空間の遠方:近近近近距離分布検出

Far Away in the Deep Space: Dense Nearest-Neighbor-Based Out-of-Distribution Detection ( http://arxiv.org/abs/2211.06660v2 )

ライセンス: Link先を確認
Silvio Galesso, Max Argus, Thomas Brox(参考訳) 分布外検出の鍵は、分布内データまたはその特徴表現の密度推定である。 これは、分布内データが複雑な基盤構造を持つ領域における密度異常検出において特に困難である。 Nearest-Neighborsアプローチは、産業検査や画像分類など、オブジェクト中心のデータドメインでうまく機能することが示されている。 本稿では, 近近近近距離手法により, 複雑な運転シーンにおいて, 適切な特徴表現で作業する場合に, 高度なノベルティ検出を行なえることを示す。 特に、トランスフォーマティブベースのアーキテクチャは、タスクに対するより優れた類似度メトリクスをもたらす表現を生み出すことが分かりました。 この理由の1つとして,これらのモデルのマルチヘッド構造を同定し,改良点のいくつかをCNNに転送する方法を示す。 最終的には、アプローチは単純で非侵襲的であり、つまり、一次セグメンテーションのパフォーマンスに影響を与えず、異常例のトレーニングを控え、RoadAnomaly、StreetHazards、SegmentMeIfYouCan-Anomalyの最先端の結果を得る。

The key to out-of-distribution detection is density estimation of the in-distribution data or of its feature representations. This is particularly challenging for dense anomaly detection in domains where the in-distribution data has a complex underlying structure. Nearest-Neighbors approaches have been shown to work well in object-centric data domains, such as industrial inspection and image classification. In this paper, we show that nearest-neighbor approaches also yield state-of-the-art results on dense novelty detection in complex driving scenes when working with an appropriate feature representation. In particular, we find that transformer-based architectures produce representations that yield much better similarity metrics for the task. We identify the multi-head structure of these models as one of the reasons, and demonstrate a way to transfer some of the improvements to CNNs. Ultimately, the approach is simple and non-invasive, i.e., it does not affect the primary segmentation performance, refrains from training on examples of anomalies, and achieves state-of-the-art results on RoadAnomaly, StreetHazards, and SegmentMeIfYouCan-Anomaly.
翻訳日:2023-09-15 19:41:27 公開日:2023-09-14
# DisenPOI:ポイント・オブ・インテンシブ・レコメンデーションにおける逐次的・地理的影響

DisenPOI: Disentangling Sequential and Geographical Influence for Point-of-Interest Recommendation ( http://arxiv.org/abs/2210.16591v2 )

ライセンス: Link先を確認
Yifang Qin, Yifan Wang, Fang Sun, Wei Ju, Xuyang Hou, Zhe Wang, Jia Cheng, Jun Lei, Ming Zhang(参考訳) POI(Point-of-Interest)は、様々な位置情報サービスにおいて重要な役割を果たす。 POIレコメンデーションは、逐次的および地理的影響の両方によって引き起こされる。 しかしながら、推奨期間中に支配的な影響を示す注釈付きラベルが存在しないため、既存の手法はこれら2つの影響を絡み合わせる傾向にあり、これは準最適推奨性能と弱い解釈可能性をもたらす可能性がある。 本稿では,2つのグラフ上の逐次的および地理的な関係を共同で利用し,これら2つの影響を自己超越で解消する,新しいPOIレコメンデーション用分散二重グラフフレームワークであるDisenPOIを提案する。 既存手法と比較して,本モデルの重要な新奇性は,逐次的および地理的影響と対比的学習の相違表現を抽出することである。 具体的には、ユーザのチェックインシーケンスに基づいて、地理的グラフとシーケンシャルグラフを構築する。 我々は、それらの伝播スキームをシーケンシャル/ジオアウェアに調整し、対応する影響をよりよく捉えます。 2つの影響の擬似ラベルとしてチェックインシーケンスから選好プロキシを抽出し、対比損失を介して異方性を監督する。 3つのデータセットに関する広範な実験は、提案モデルの優越性を示している。

Point-of-Interest (POI) recommendation plays a vital role in various location-aware services. It has been observed that POI recommendation is driven by both sequential and geographical influences. However, since there is no annotated label of the dominant influence during recommendation, existing methods tend to entangle these two influences, which may lead to sub-optimal recommendation performance and poor interpretability. In this paper, we address the above challenge by proposing DisenPOI, a novel Disentangled dual-graph framework for POI recommendation, which jointly utilizes sequential and geographical relationships on two separate graphs and disentangles the two influences with self-supervision. The key novelty of our model compared with existing approaches is to extract disentangled representations of both sequential and geographical influences with contrastive learning. To be specific, we construct a geographical graph and a sequential graph based on the check-in sequence of a user. We tailor their propagation schemes to become sequence-/geo-aware to better capture the corresponding influences. Preference proxies are extracted from check-in sequence as pseudo labels for the two influences, which supervise the disentanglement via a contrastive loss. Extensive experiments on three datasets demonstrate the superiority of the proposed model.
翻訳日:2023-09-15 19:40:32 公開日:2023-09-14
# ConSpec:RLにおける迅速な学習と一般化のための重要なステップについて

ConSpec: honing in on critical steps for rapid learning and generalization in RL ( http://arxiv.org/abs/2210.05845v5 )

ライセンス: Link先を確認
Chen Sun, Wannan Yang, Thomas Jiralerspong, Dane Malenfant, Benjamin Alsbury-Nealy, Yoshua Bengio, Blake Richards(参考訳) 実生活では、成功はしばしば、互いに時間的に、そして最終的な報酬から遠ざかる複数の重要なステップに付随する。 これらの重要なステップは、信用代入のベルマン方程式に依存する従来の強化学習(RL)手法と同一視することが難しい。 ここでは、オフラインのコントラスト学習を用いて重要なステップに注目する新しいRLアルゴリズムを提案する。 このアルゴリズムはコントラストイントロスペクション(ConSpec)と呼ばれ、既存のRLアルゴリズムに追加することができる。 conspecは、新しい対照的な損失によって、タスクのクリティカルステップのプロトタイプセットを学習し、現在の状態がこれらのプロトタイプの1つにマッチすると、本質的な報酬を与える。 ConSpecのプロトタイプは、クレジット代入に2つの重要な利点を提供している。 2) 容易に解釈可能な方法で実施し,感覚的特徴が変化した場合の分布の一般化を可能にする。 他の現代のRLアプローチと異なり、ConSpecは、成功が待ち受けている小さなステップのセットを、環境におけるすべてのステップで前向きに報酬を予測するよりも、遡及的に特定することが容易であるという事実を生かしている。 さらにConSpecは、明示的で離散的なクリティカルステップと、複雑で連続的なクリティカルステップの両方を含む、さまざまなRLタスクの学習を改善する。

In real life, success is often contingent upon multiple critical steps that are distant in time from each other and from the final reward. These critical steps are challenging to identify with traditional reinforcement learning (RL) methods that rely on the Bellman equation for credit assignment. Here, we present a new RL algorithm that uses offline contrastive learning to hone in on critical steps. This algorithm, which we call contrastive introspection (ConSpec), can be added to any existing RL algorithm. ConSpec learns a set of prototypes for the critical steps in a task by a novel contrastive loss and delivers an intrinsic reward when the current state matches one of these prototypes. The prototypes in ConSpec provide two key benefits for credit assignment: (1) They enable rapid identification of all the critical steps. (2) They do so in a readily interpretable manner, enabling out-of-distribution generalization when sensory features are altered. Distinct from other contemporary RL approaches to credit assignment, ConSpec takes advantage of the fact that it is easier to retrospectively identify the small set of steps that success is contingent upon than it is to prospectively predict reward at every step taken in the environment. Altogether, ConSpec improves learning in a diverse set of RL tasks, including both those with explicit, discrete critical steps and those with complex, continuous critical steps.
翻訳日:2023-09-15 19:40:07 公開日:2023-09-14
# 量子相互作用系のダイナミクス:ボルン・マルコフと世俗近似を超えた大域的アプローチ

Dynamics of a quantum interacting system: Extended global approach beyond the Born-Markov and secular approximation ( http://arxiv.org/abs/2303.02926v2 )

ライセンス: Link先を確認
Chikako Uchiyama(参考訳) 量子物理学から生物学まで、相互作用するサブシステムからなるシステムのオープン量子力学は、その基本的な機能を強調する。 局所的なアプローチは、サブシステム間相互作用を無視してマスター方程式における散逸子を導出するものであり、密度作用素の正則性を保つためのロバスト性のため、還元ダイナミクスを記述するために広く用いられてきた。 しかし、1つの批判は、弱系-環境結合の極限におけるアプローチによって得られた定常状態は、関連するシステムの全体からサブシステム間相互作用を除外して部分ハミルトンのギブス状態の形で記述されるということである。 別の方法として、ボルン・マルコフと世俗近似の下で、サブシステム間相互作用を含む散逸子を導出するグローバルアプローチが注目されており、サブシステムのボーア周波数に対する短期領域における肯定性違反や限定パラメータ領域に関する議論がある。 本研究では,ボルンマルコフや世俗近似を超越した大域的アプローチによって得られる時間畳み込みのない(時間局所的な)マスター方程式を導く形式主義を示す。 本研究では, 終端サイトのみが有限温度のボゾン環境と弱相互作用する相互作用部位間の励起エネルギー伝達を, 回転波近似を超える方法で適用する。 定式化(1)は正則性を維持しながら短時間の挙動を与え、(2)世俗近似が曖昧になるような振動特性を示し、(3)関連する系のハミルトニアン全体のギブス状態に非常に近い定常状態へと導く。

In various fields from quantum physics to biology, the open quantum dynamics of a system consisting of interacting subsystems emphasizes its fundamental functionality. The local approach, deriving a dissipator in a master equation by ignoring the inter-subsystem interaction, has been widely used to describe the reduced dynamics due to its robustness to keep the positivity of a density operator. However, one critique is that a stationary state obtained by the approach in the limit of weak system-environment coupling is written in the form of the Gibbs state for the partial Hamiltonian by excluding the inter-subsystem interaction from the total one of the relevant system. As an alternative, the global approach, deriving a dissipator with including the inter-subsystem interaction, under the Born--Markov and secular approximations has attracted much attention, and there is debate concerning its violation of positivity in the short-term region and/or limited parameter region for the Bohr frequencies of the subsystems. In this study, we present a formalism that leads to the time-convolutionless (time-local) master equation obtained by extending the global approach beyond the Born-Markov and secular approximations. We apply it to the excitation energy transfer between interacting sites in which only the terminal site weakly interacts with a bosonic environment of finite temperature in a manner beyond the rotating-wave approximation. We find that the formulation (1) gives the short-time behavior while preserving positivity, (2) shows the oscillatory features that the secular approximation would obscure, and (3) leads to a stationary state very near to the Gibbs state for the total Hamiltonian of the relevant system.
翻訳日:2023-09-15 19:32:27 公開日:2023-09-14
# クロス共振系ハードウェアにおけるパルス変動量子固有解法

Pulse variational quantum eigensolver on cross-resonance based hardware ( http://arxiv.org/abs/2303.02410v2 )

ライセンス: Link先を確認
Daniel J. Egger, Chiara Capecci, Bibek Pokharel, Panagiotis Kl. Barkoutsos, Laurin E. Fischer, Leonardo Guidoni, and Ivano Tavernelli(参考訳) 最先端のノイズの多いデジタル量子コンピュータは、短距離量子回路しか実行できない。 変分アルゴリズムは、対応する回路の深さがハードウェアが想定する限界よりかなり低いため、ノイズの多い量子コンピュータのポテンシャルを解き放つための有望な経路である。 通常、変動パラメータは、キャリブレーションパルスの位相変化によって実装される仮想$r_z$ゲートアングルに対応する。 変動パラメータをハードウェアパルスの振幅と持続時間に直接エンコードすることで、パルススケジュールと回路全体の持続時間をさらに短縮することに成功した。 これにより、クビットデコヒーレンスとゲートノイズの影響が減少する。 実演として,ibmのクロス共振型ハードウェアを用いて,異なる水素系分子(h$_2$,h$_3$,h$_4$)の基底状態の計算にパルス型変分アルゴリズムを適用した。 我々は,cnot ベースの ans\"atze と比較して,最大 5\times$ のスケジュール期間の削減と,測定エネルギーの削減を観測した。 特に, H$_3$ の最小エネルギー構成を CNOT ベースの変分形式と比較すると, 大幅な改善が見られた。 最後に,ノイズの多い量子デバイス上での大規模システムのシミュレーションに向けてのアプローチをさらに改善するための,エラー軽減スキームやスケジュール最適化などの今後の展開について論じる。

State-of-the-art noisy digital quantum computers can only execute short-depth quantum circuits. Variational algorithms are a promising route to unlock the potential of noisy quantum computers since the depth of the corresponding circuits can be kept well below hardware-imposed limits. Typically, the variational parameters correspond to virtual $R_Z$ gate angles, implemented by phase changes of calibrated pulses. By encoding the variational parameters directly as hardware pulse amplitudes and durations we succeed in further shortening the pulse schedule and overall circuit duration. This decreases the impact of qubit decoherence and gate noise. As a demonstration, we apply our pulse-based variational algorithm to the calculation of the ground state of different hydrogen-based molecules (H$_2$, H$_3$ and H$_4$) using IBM cross-resonance-based hardware. We observe a reduction in schedule duration of up to $5\times$ compared to CNOT-based Ans\"atze, while also reducing the measured energy. In particular, we observe a sizable improvement of the minimal energy configuration of H$_3$ compared to a CNOT-based variational form. Finally, we discuss possible future developments including error mitigation schemes and schedule optimizations, which will enable further improvements of our approach paving the way towards the simulation of larger systems on noisy quantum devices.
翻訳日:2023-09-15 19:31:58 公開日:2023-09-14
# 高次元システムによる量子計算のパウリモデル

Pauli-based model of quantum computation with higher-dimensional systems ( http://arxiv.org/abs/2302.13702v2 )

ライセンス: Link先を確認
Filipa C. R. Peres(参考訳) pauli-based computation (pbc) は、入力状態がマジック(リソース)状態であり、計算は適応的に選択され互換性のあるマルチキュービットのpauli測定によって駆動される量子計算のための普遍的なモデルである。 ここでは、奇数原始次元系に対するPBCを一般化し、その普遍性を示す。 さらに,QuditベースのPBCが,実際の回路ベースの量子ハードウェア上でどのように実装できるかについても論じる。 以上の結果から,pbc を $n$-dimensional qudits で,$n+1$ qudits で$o\left( pn^2/2 \right)$$\mathrm{sum}$ gates と depth で適応回路に変換することができる。 あるいは、回路幅の増大を犠牲にして、$O\left(pn/2\right)$ depthで同じ計算を実行できる。 最後に,仮想キューディット数$kのシミュレーションに伴うサンプリング複雑性が,入力状態の魔法の堅牢性に関係していることを示す。 qutrit状態とququint状態に対するこの魔法のモノトーンの計算は、それぞれ$o\left(3^{ 1.0848k} \epsilon^{-2}\right)$と$o\left(5^{ 1.4022k} \epsilon^{-2}\right)$という、所望の精度の$\epsilon$のサンプリング複雑性をもたらす。 キュービット、クォート、およびクエントのこのサンプリング複雑性に対する下界をさらに確立する: $\Omega \left(2^{0.5431 k} \epsilon^{-2} \right)$, $\Omega \left(3^{0.7236 k} \epsilon^{-2} \right)$, $\Omega \left(5^{0.8544 k} \epsilon^{-2} \right)$。

Pauli-based computation (PBC) is a universal model for quantum computation with qubits where the input state is a magic (resource) state and the computation is driven by a sequence of adaptively chosen and compatible multiqubit Pauli measurements. Here we generalize PBC for odd-prime-dimensional systems and demonstrate its universality. Additionally, we discuss how any qudit-based PBC can be implemented on actual, circuit-based quantum hardware. Our results show that we can translate a PBC on $n$ $p$-dimensional qudits to adaptive circuits on $n+1$ qudits with $O\left( pn^2/2 \right)$ $\mathrm{SUM}$ gates and depth. Alternatively, we can carry out the same computation with $O\left( pn/2\right)$ depth at the expense of an increased circuit width. Finally, we show that the sampling complexity associated with simulating a number $k$ of virtual qudits is related to the robustness of magic of the input states. Computation of this magic monotone for qutrit and ququint states leads to sampling complexity upper bounds of, respectively, $O\left( 3^{ 1.0848 k} \epsilon^{-2}\right)$ and $O\left( 5^{ 1.4022 k} \epsilon^{-2}\right)$, for a desired precision $\epsilon$. We further establish lower bounds to this sampling complexity for qubits, qutrits, and ququints: $\Omega \left( 2^{0.5431 k} \epsilon^{-2} \right)$, $\Omega \left( 3^{0.7236 k} \epsilon^{-2} \right)$, and $\Omega \left( 5^{0.8544 k} \epsilon^{-2} \right)$, respectively.
翻訳日:2023-09-15 19:31:36 公開日:2023-09-14
# 境界ロバスト推論のためのカーネル条件モーメント制約

Kernel Conditional Moment Constraints for Confounding Robust Inference ( http://arxiv.org/abs/2302.13348v2 )

ライセンス: Link先を確認
Kei Ishikawa, Niao He(参考訳) 本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。 感度分析法は、与えられた不確実性セット上での最悪の場合のポリシー値の推定によく用いられる。 しかし、既存の作業はしばしば、トラクタビリティのために設定された不確実性の粗い緩和に頼り、政策価値を過度に保守的に見積もる。 本稿では,政策価値の鋭い下限を提供する一般的な推定器を提案する。 この推定器は,最近提案されているdorn and guo (2022) によるシャープ推定器を特別に含むことを示し,f-divergence を用いた古典的辺縁感度モデルの新たな拡張を可能にする。 提案手法は,従来の非シャープ推定器が考慮しなかった条件付きモーメント制約に対するトラクタブル近似を求めるために,カーネル手法を利用する。 理論的解析では、下位境界推定をバイアスする仕様誤差を保証しないカーネルの選択条件を提供する。 さらに,政策評価と学習の整合性を保証する。 合成および実世界のデータを用いた実験では,提案手法の有効性を示す。

We study policy evaluation of offline contextual bandits subject to unobserved confounders. Sensitivity analysis methods are commonly used to estimate the policy value under the worst-case confounding over a given uncertainty set. However, existing work often resorts to some coarse relaxation of the uncertainty set for the sake of tractability, leading to overly conservative estimation of the policy value. In this paper, we propose a general estimator that provides a sharp lower bound of the policy value. It can be shown that our estimator contains the recently proposed sharp estimator by Dorn and Guo (2022) as a special case, and our method enables a novel extension of the classical marginal sensitivity model using f-divergence. To construct our estimator, we leverage the kernel method to obtain a tractable approximation to the conditional moment constraints, which traditional non-sharp estimators failed to take into account. In the theoretical analysis, we provide a condition for the choice of the kernel which guarantees no specification error that biases the lower bound estimation. Furthermore, we provide consistency guarantees of policy evaluation and learning. In the experiments with synthetic and real-world data, we demonstrate the effectiveness of the proposed method.
翻訳日:2023-09-15 19:30:41 公開日:2023-09-14
# スピングラス地盤状態における深層強化学習ヒューリスティック

Deep reinforced learning heuristic tested on spin-glass ground states: The larger picture ( http://arxiv.org/abs/2302.10848v2 )

ライセンス: Link先を確認
Stefan Boettcher (Emory U)(参考訳) In Changjun Fan et al. [Nature Communications https://doi.org/10.1038/s41467-023-36363-w (2023)],著者らは組合せ最適化ヒューリスティックスを強化するための深い強化学習手法を提案する。 特に、いくつかのスピングラス基底状態問題の結果を示し、非平面ネットワーク上のインスタンスは一般にNPハードであり、シミュレートされたアニーリング(SA)や並列テンパリング(PT)のようなモンテカルロをベースとしたいくつかの手法と比較する。 実際、これらの結果は強化学習がsaまたはptで得られるものよりも結果を改善すること、または少なくとも他の方法と比較して同等の品質の結果が得られる前にヒューリスティックスのランタイムを減少させることを証明している。 提案手法が「先行的」であるとの結論を得るために,(1)市販のGURLOBIソルバがテストベッドとして正確な基底状態のサンプルを収集し,(2)正確な基底状態の特定が困難である大規模事例のサンプルに対して,ヒューリスティックスとヘッド・ツー・ヘッドの比較を行う,という2つの基本戦略を追求した。 ここでは,これらの研究をより広い文脈に配置し,より小さなサンプルでは主張される優越性が最短であり,より大きいサンプルでは真の基底状態の妥当な近似とは無関係であることを示した。 例えば、この方法は、著者が述べたように、剛性指数を$\theta$ in $d>2$で決定する手段としては無関係となり、問題はNPハードであるだけでなく、ここで見られる$\approx 1\%$のそれぞれにおいて、ほぼ等しい基底状態エネルギーと系統誤差の2つの減算を必要とする。 この方法に関するこの大きな写真は、著者らが数十年にわたって使用してきたデータを用いて、スピンガラスのアンサンブルに関する単純な有限サイズの補正研究から生まれた。

In Changjun Fan et al. [Nature Communications https://doi.org/10.1038/s41467-023-36363-w (2023)], the authors present a deep reinforced learning approach to augment combinatorial optimization heuristics. In particular, they present results for several spin glass ground state problems, for which instances on non-planar networks are generally NP-hard, in comparison with several Monte Carlo based methods, such as simulated annealing (SA) or parallel tempering (PT). Indeed, those results demonstrate that the reinforced learning improves the results over those obtained with SA or PT, or at least allows for reduced runtimes for the heuristics before results of comparable quality have been obtained relative to those other methods. To facilitate the conclusion that their method is ''superior'', the authors pursue two basic strategies: (1) A commercial GUROBI solver is called on to procure a sample of exact ground states as a testbed to compare with, and (2) a head-to-head comparison between the heuristics is given for a sample of larger instances where exact ground states are hard to ascertain. Here, we put these studies into a larger context, showing that the claimed superiority is at best marginal for smaller samples and becomes essentially irrelevant with respect to any sensible approximation of true ground states in the larger samples. For example, this method becomes irrelevant as a means to determine stiffness exponents $\theta$ in $d>2$, as mentioned by the authors, where the problem is not only NP-hard but requires the subtraction of two almost equal ground-state energies and systemic errors in each of $\approx 1\%$ found here are unacceptable. This larger picture on the method arises from a straightforward finite-size corrections study over the spin glass ensembles the authors employ, using data that has been available for decades.
翻訳日:2023-09-15 19:30:21 公開日:2023-09-14
# エントロピー拘束集合の超越的性質:その2

Transcendental properties of entropy-constrained sets: Part II ( http://arxiv.org/abs/2302.09645v2 )

ライセンス: Link先を確認
Vjosa Blakaj and Chokri Manai(参考訳) 本稿では, 様々なエントロピー制約集合の半代数的性質を利用して, ある種の単一レター公式の不可能性について論じる。 焦点は相対エントロピー、相互情報、R\'{e}nyiエントロピーのレベル集合の性質の研究である。 上記のエントロピー量の1つが固定された状態の集合の超越構造を解析する。 これらのエントロピー測度の半代数的一発キャラクタリゼーション(semi)は,古典的および量子的ケースの両方に有界なアンシラを持つ。

In this work, we address the question of the impossibility of certain single-letter formulas by exploiting the semi-algebraic nature of various entropy-constrained sets. The focus lies on studying the properties of the level sets of relative entropy, mutual information, and R\'{e}nyi entropies. We analyze the transcendental structure of the set of states in which one of the aforementioned entropy quantities is fixed. Our results rule out (semi)algebraic single-shot characterizations of these entropy measures with bounded ancilla for both the classical and quantum cases.
翻訳日:2023-09-15 19:29:38 公開日:2023-09-14
# 2つの原子アンサンブル間の巨視的最大絡み合い状態形成

Macroscopic maximally entangled state preparation between two atomic ensembles ( http://arxiv.org/abs/2302.07526v2 )

ライセンス: Link先を確認
Manish Chaudhary, Ebubechukwu O. Ilo-Okeke, Valentin Ivannikov and Tim Byrnes(参考訳) 適応量子非復調(QND)測定を用いて、2つの原子アンサンブル間のマクロ的最大絡み合い状態(MMES)を調製する手法を開発した。 システムの量子状態は、QND測定の連続とそれに続く適応的なユニタリを用いて進化し、望まれる測定結果は漸近的に単位確率で得られる。 この手順は z と x のスピン基底で交互に繰り返され、状態は最大絡み合った状態に向かって決定的に収束する。 局所スピン-基底回転では、最大エンタングル状態は全スピン角運動量ゼロ、すなわち一重項状態である。 我々のプロトコルはポストセレクションを実行せず、Holstein-Primakoff則を超えて原子スピン自由度を計算し、真のマクロな絡み合いを生み出す。

We develop a scheme to prepare a macroscopic maximally entangled state (MMES) between two atomic ensembles using adaptive quantum nondemolition (QND) measurements. The quantum state of the system is evolved using a sequence of QND measurements followed by adaptive unitaries, such that the desired measurement outcome is obtained with asymptotically unit probability. This procedure is repeated in z and x spin basis alternately such that the state converges deterministically towards the maximally entangled state. Up to a local spin-basis rotation, the maximally entangled state has zero total spin angular momentum, i.e. it is a singlet state. Our protocol does not perform postselection and works beyond the Holstein-Primakoff regime for the atomic spin degrees of freedom, producing genuine macroscopic entanglement.
翻訳日:2023-09-15 19:29:27 公開日:2023-09-14
# ランダム事前ネットワークを用いた高次元出力によるスケーラブルベイズ最適化

Scalable Bayesian optimization with high-dimensional outputs using randomized prior networks ( http://arxiv.org/abs/2302.07260v5 )

ライセンス: Link先を確認
Mohamed Aziz Bhouri and Michael Joly and Robert Yu and Soumalya Sarkar and Paris Perdikaris(参考訳) 科学と工学におけるいくつかの基本的な問題は、制御可能な変数の集合を高価な実験の結果にマッピングする未知の高次元(ブラックボックス)関数を含む大域的な最適化タスクである。 ベイズ最適化(BO)技術は、相対的に少数の目的関数評価を用いて大域的最適化問題に取り組むのに有効であることが知られているが、その性能は高次元出力を扱う際に損なわれる。 本稿では、次元性の大きな課題を克服するために、BOのためのディープラーニングフレームワークと、ランダム化前のニューラルネットワークの自己ストラップ型アンサンブルに基づくシーケンシャル意思決定を提案する。 適切なアーキテクチャの選択を用いて,提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合であっても,設計変数と関心量の関数関係を近似できることを示した。 BOの文脈では,マルチポイント(並列)取得関数の再パラメータ化モンテカルロ近似と,ブラックボックス制約やマルチファイダリティ情報ソースを調節するための方法論拡張を用いて,確率的サロゲートを提案する。 提案手法をBOの最先端手法に対して検証し,ターボ機械におけるローターブレードの形状最適化を伴う制約付き多面的最適化タスクを含む,高次元出力の課題に対して優れた性能を示す。

Several fundamental problems in science and engineering consist of global optimization tasks involving unknown high-dimensional (black-box) functions that map a set of controllable variables to the outcomes of an expensive experiment. Bayesian Optimization (BO) techniques are known to be effective in tackling global optimization problems using a relatively small number objective function evaluations, but their performance suffers when dealing with high-dimensional outputs. To overcome the major challenge of dimensionality, here we propose a deep learning framework for BO and sequential decision making based on bootstrapped ensembles of neural architectures with randomized priors. Using appropriate architecture choices, we show that the proposed framework can approximate functional relationships between design variables and quantities of interest, even in cases where the latter take values in high-dimensional vector spaces or even infinite-dimensional function spaces. In the context of BO, we augmented the proposed probabilistic surrogates with re-parameterized Monte Carlo approximations of multiple-point (parallel) acquisition functions, as well as methodological extensions for accommodating black-box constraints and multi-fidelity information sources. We test the proposed framework against state-of-the-art methods for BO and demonstrate superior performance across several challenging tasks with high-dimensional outputs, including a constrained multi-fidelity optimization task involving shape optimization of rotor blades in turbo-machinery.
翻訳日:2023-09-15 19:29:12 公開日:2023-09-14
# nefii:近距離場インダイレクト照明による反射分解の逆レンダリング

NeFII: Inverse Rendering for Reflectance Decomposition with Near-Field Indirect Illumination ( http://arxiv.org/abs/2303.16617v2 )

ライセンス: Link先を確認
Haoqian Wu, Zhipeng Hu, Lincheng Li, Yongqiang Zhang, Changjie Fan, Xin Yu(参考訳) 逆レンダリング手法は、多視点RGB画像から幾何学、材料、照明を推定することを目的としている。 より優れた分解を達成するために、近年のアプローチでは、球状ガウス(SG)を介して異なる材料から反射される間接的な照度をモデル化しようとしている。 本稿では,多視点画像から材料や照明を分解し,近接場間接照明を考慮しながら,エンドツーエンドの逆レンダリングパイプラインを提案する。 一言で言えば、モンテカルロサンプリングに基づく経路追跡を導入し、間接照明を神経放射としてキャッシュし、物理学的不完全で最適化が容易な逆レンダリング法を可能にする。 効率と実用性を高めるため,sgを用いて円滑な環境照度を表現し,重要サンプリング技術を適用する。 本研究では,非可観測方向からの間接的照度を監督するため,暗黙のニューラル放射率と非可観測光の経路追尾結果と,材料と照明の連成最適化を両立させ,分解性能を著しく向上させる手法を開発した。 広範な実験により、この手法が複数の合成データと実際のデータセット、特に反射分解の点で最先端を上回っていることが示され、コードとデータはhttps://woolseyyy.github.io/nefii/で入手できる。

Inverse rendering methods aim to estimate geometry, materials and illumination from multi-view RGB images. In order to achieve better decomposition, recent approaches attempt to model indirect illuminations reflected from different materials via Spherical Gaussians (SG), which, however, tends to blur the high-frequency reflection details. In this paper, we propose an end-to-end inverse rendering pipeline that decomposes materials and illumination from multi-view images, while considering near-field indirect illumination. In a nutshell, we introduce the Monte Carlo sampling based path tracing and cache the indirect illumination as neural radiance, enabling a physics-faithful and easy-to-optimize inverse rendering method. To enhance efficiency and practicality, we leverage SG to represent the smooth environment illuminations and apply importance sampling techniques. To supervise indirect illuminations from unobserved directions, we develop a novel radiance consistency constraint between implicit neural radiance and path tracing results of unobserved rays along with the joint optimization of materials and illuminations, thus significantly improving the decomposition performance. Extensive experiments demonstrate that our method outperforms the state-of-the-art on multiple synthetic and real datasets, especially in terms of inter-reflection decomposition.Our code and data are available at https://woolseyyy.github.io/nefii/.
翻訳日:2023-09-15 19:22:37 公開日:2023-09-14
# クロスアテンショントランスを用いた医用画像セグメンテーション

Few Shot Medical Image Segmentation with Cross Attention Transformer ( http://arxiv.org/abs/2303.13867v2 )

ライセンス: Link先を確認
Yi Lin, Yufan Chen, Kwang-Ting Cheng, Hao Chen(参考訳) 近年,医用画像分割が大きな進歩を遂げている。 ディープラーニングベースのメソッドは、手動アノテーションで大量のデータを必要とするデータ格納技術として認識される。 しかし、手動アノテーションは、ドメイン固有の専門知識を必要とする医療画像解析の分野では高価である。 この課題に対処するために、少数のショットラーニングでは、少数の例から新しいクラスを学ぶことができる。 本研究では,クロスマスク型アテンショントランスフォーマーをベースとした,数発の医用画像セグメンテーションのための新しいフレームワークCAT-Netを提案する。 提案するネットワークは,支援画像と問合せ画像との相関関係をマイニングし,有用なフォアグラウンド情報のみに限定し,サポートプロトタイプと問合せ機能の両方の表現能力を高める。 さらに,クエリイメージのセグメンテーションを反復的に洗練する反復的精錬フレームワークを設計し,サポート機能を促進する。 提案手法を,Abd-CT,Abd-MRI,Card-MRIの3つの公開データセットで検証した。 実験の結果,最先端手法と比較して優れた性能を示し,各成分の有効性を示した。 コード:https://github.com/hust-linyi/CAT-Net

Medical image segmentation has made significant progress in recent years. Deep learning-based methods are recognized as data-hungry techniques, requiring large amounts of data with manual annotations. However, manual annotation is expensive in the field of medical image analysis, which requires domain-specific expertise. To address this challenge, few-shot learning has the potential to learn new classes from only a few examples. In this work, we propose a novel framework for few-shot medical image segmentation, termed CAT-Net, based on cross masked attention Transformer. Our proposed network mines the correlations between the support image and query image, limiting them to focus only on useful foreground information and boosting the representation capacity of both the support prototype and query features. We further design an iterative refinement framework that refines the query image segmentation iteratively and promotes the support feature in turn. We validated the proposed method on three public datasets: Abd-CT, Abd-MRI, and Card-MRI. Experimental results demonstrate the superior performance of our method compared to state-of-the-art methods and the effectiveness of each component. Code: https://github.com/hust-linyi/CAT-Net.
翻訳日:2023-09-15 19:21:23 公開日:2023-09-14
# 医用画像adversarial watermarkingによるai過剰解析の防止

Preventing Unauthorized AI Over-Analysis by Medical Image Adversarial Watermarking ( http://arxiv.org/abs/2303.09858v3 )

ライセンス: Link先を確認
Xingxing Wei, Bangzheng Pu, Shiji Zhao, Chen Chi and Huazhu Fu(参考訳) ディープラーニングの進歩は、特にコンピュータ支援診断において、人工知能(AI)を臨床実践に統合することを促進する。 様々な診断手順における医用画像の重要な役割を考えると、AI技術の責任と安全性を確保することが不可欠となる。 しかし、画像解析におけるAIの不正利用は、患者のプライバシとデータカストディアンのプロプライエタリな権利に対する潜在的侵害に関する重大な懸念を引き起こす。 その結果、患者のプライバシを守り、医療画像著作権を擁護する実用的で費用対効果の高い戦略の開発が重要視される。 この要求に応えて,MIAD-MARK(Medical Image Adversarial Watermarking)という先駆的なソリューションを提案する。 提案手法では,不許可なAI診断モデルを戦略的に誤解させ,視覚的コンテンツの完全性を損なうことなく誤った予測を誘導する透かしを導入する。 重要な点として,本手法は正規ユーザに適した認証プロトコルを統合し,暗号生成キーによるMIAD-MARKの削除を可能にする。 3つの医用画像データセットに対してMIAD-MARKの有効性を検証した。 経験的な結果は、標準的なAI診断モデルの精度を、ホワイトボックスの条件下では8.57%、より困難なブラックボックスのシナリオでは45.83%に下げるという、私たちのアプローチの重大な影響を示している。 さらに,高度な透かし除去網が存在する場合でも,医療画像の不正利用を効果的に軽減する。 特に、これらのAI診断ネットワークは、MIAD-MARKによって保護された画像に適用された場合の平均精度が38.59%である。

The advancement of deep learning has facilitated the integration of Artificial Intelligence (AI) into clinical practices, particularly in computer-aided diagnosis. Given the pivotal role of medical images in various diagnostic procedures, it becomes imperative to ensure the responsible and secure utilization of AI techniques. However, the unauthorized utilization of AI for image analysis raises significant concerns regarding patient privacy and potential infringement on the proprietary rights of data custodians. Consequently, the development of pragmatic and cost-effective strategies that safeguard patient privacy and uphold medical image copyrights emerges as a critical necessity. In direct response to this pressing demand, we present a pioneering solution named Medical Image Adversarial watermarking (MIAD-MARK). Our approach introduces watermarks that strategically mislead unauthorized AI diagnostic models, inducing erroneous predictions without compromising the integrity of the visual content. Importantly, our method integrates an authorization protocol tailored for legitimate users, enabling the removal of the MIAD-MARK through encryption-generated keys. Through extensive experiments, we validate the efficacy of MIAD-MARK across three prominent medical image datasets. The empirical outcomes demonstrate the substantial impact of our approach, notably reducing the accuracy of standard AI diagnostic models to a mere 8.57% under white box conditions and 45.83% in the more challenging black box scenario. Additionally, our solution effectively mitigates unauthorized exploitation of medical images even in the presence of sophisticated watermark removal networks. Notably, those AI diagnosis networks exhibit a meager average accuracy of 38.59% when applied to images protected by MIAD-MARK, underscoring the robustness of our safeguarding mechanism.
翻訳日:2023-09-15 19:20:55 公開日:2023-09-14
# ハミルトン力学の高階量子変換

Higher-order quantum transformations of Hamiltonian dynamics ( http://arxiv.org/abs/2303.09788v3 )

ライセンス: Link先を確認
Tatsuki Odake, Hl\'er Kristj\'ansson, Akihito Soeda, Mio Murao(参考訳) 我々は,ハミルトニアンダイナミクスの高次変換を実現する量子アルゴリズムを提案する。 すなわち、アルゴリズムは有限個のクエリをブラックボックスシードハミルトン力学に入力し、所望のハミルトン力学をシミュレートする。 このアルゴリズムは任意の局所シードハミルトニアンの線形変換を効率的にシミュレートし、制御されたパウリゲートと時間相関ランダム性のみを利用する。 このアルゴリズムは量子関数プログラミングの例であり、所望の関数は高階量子変換の連結として指定される。 例えば、負の時間進化と時間反転のシミュレーションを実演し、ハミルトン学習タスクを実行する。

We present a quantum algorithm to achieve higher-order transformations of Hamiltonian dynamics. Namely, the algorithm takes as input a finite number of queries to a black-box seed Hamiltonian dynamics to simulate a desired Hamiltonian. Our algorithm efficiently simulates linear transformations of any local seed Hamiltonian, making use of only controlled-Pauli gates and time-correlated randomness. This algorithm is an instance of quantum functional programming, where the desired function is specified as a concatenation of higher-order quantum transformations. By way of example, we demonstrate the simulation of negative time-evolution and time-reversal, and perform a Hamiltonian learning task.
翻訳日:2023-09-15 19:20:26 公開日:2023-09-14
# 2次元カメラを用いた人体骨格電位からの経済的四元数抽出

Economical Quaternion Extraction from a Human Skeletal Pose Estimate using 2-D Cameras ( http://arxiv.org/abs/2303.08657v3 )

ライセンス: Link先を確認
Sriram Radhakrishna, Adithya Balasubramanyam(参考訳) 本稿では, 2次元カメラフレームから四元数を抽出し, 人体の骨格ポーズを推定する新しいアルゴリズムを提案する。 ポーズ推定の問題は、通常3次元空間における点測定のための深度とユークリッド距離を得るために、ステレオカメラと慣性測定ユニットの使用によって取り組まれる。 しかし、これらのデバイスの使用には、高い信号処理遅延とかなりの金銭的コストが伴う。 人間のポーズ推定のための知覚パイプラインを構築するためのフレームワークであるmediapipeを使用することで、提案アルゴリズムは、人間の物体の画像を5ミリ秒未満のレイテンシでキャプチャする2次元フレームから四元数を抽出すると同時に、単一のカメラフレームと一般的に計算資源の可用性が低いエッジに配置することができる。 このアルゴリズムは、資金の障壁を回避し、制御システムを設計するロボット研究者のアクセシビリティを向上させる。

In this paper, we present a novel algorithm to extract a quaternion from a two dimensional camera frame for estimating a contained human skeletal pose. The problem of pose estimation is usually tackled through the usage of stereo cameras and intertial measurement units for obtaining depth and euclidean distance for measurement of points in 3D space. However, the usage of these devices comes with a high signal processing latency as well as a significant monetary cost. By making use of MediaPipe, a framework for building perception pipelines for human pose estimation, the proposed algorithm extracts a quaternion from a 2-D frame capturing an image of a human object at a sub-fifty millisecond latency while also being capable of deployment at edges with a single camera frame and a generally low computational resource availability, especially for use cases involving last-minute detection and reaction by autonomous robots. The algorithm seeks to bypass the funding barrier and improve accessibility for robotics researchers involved in designing control systems.
翻訳日:2023-09-15 19:19:41 公開日:2023-09-14
# MAHTM:階層的トランスアクティブマイクログリッドのためのマルチエージェントフレームワーク

MAHTM: A Multi-Agent Framework for Hierarchical Transactive Microgrids ( http://arxiv.org/abs/2303.08447v2 )

ライセンス: Link先を確認
Nicolas Cuadrado, Roberto Gutierrez, Yongli Zhu, Martin Takac(参考訳) 電力網への可変再生可能エネルギーの統合は、エネルギーの可利用性、コストの可利用性、汚染の制御性の間の最適なトレードオフを達成する上で、システムオペレーターに課題を提起している。 本稿では,マイクログリッドにおけるエネルギートランザクションを管理するマルチエージェント強化学習フレームワークを提案する。 すべての利害関係者の利益を享受しながら、カーボンフットプリントを最小化し、利用可能なリソースの使用を最適化することを目指している。 提案されたアーキテクチャはエージェントの3つのレイヤで構成され、それぞれ異なる目的を追求する。 第1層はプロシューマーと消費者で構成され、総エネルギーコストを最小化する。 他の2つの層は、再生可能エネルギーと従来のエネルギーの両方の消費と生産のバランスを保ちながら、炭素の衝突を減らすエネルギー価格を制御する。 この枠組みはエネルギー需要と供給の変動も考慮している。

Integrating variable renewable energy into the grid has posed challenges to system operators in achieving optimal trade-offs among energy availability, cost affordability, and pollution controllability. This paper proposes a multi-agent reinforcement learning framework for managing energy transactions in microgrids. The framework addresses the challenges above: it seeks to optimize the usage of available resources by minimizing the carbon footprint while benefiting all stakeholders. The proposed architecture consists of three layers of agents, each pursuing different objectives. The first layer, comprised of prosumers and consumers, minimizes the total energy cost. The other two layers control the energy price to decrease the carbon impact while balancing the consumption and production of both renewable and conventional energy. This framework also takes into account fluctuations in energy demand and supply.
翻訳日:2023-09-15 19:19:23 公開日:2023-09-14
# 肯定的AI:ウェルビーイング・アライン・人工知能設計の鍵となる課題

Positive AI: Key Challenges for Designing Wellbeing-aligned Artificial Intelligence ( http://arxiv.org/abs/2304.12241v3 )

ライセンス: Link先を確認
Willem van der Maden, Derek Lomas, Malak Sadek, Paul Hekkert(参考訳) 人工知能(AI)は社会を急速に変革させ、その肯定的な影響を確実にする緊急の必要性を生み出している。 本稿では、人間の幸福を積極的に支援するAIシステムを設計する問題として、この問題に対してポジティブなデザインアプローチを取ります。 しかし、健全なAIシステムの設計は困難である。 この記事では、知識の欠如とモチベーションの欠如という2つのカテゴリにわたる12の課題を特定するために、サイバーネティックな視点を採用します。 知識障壁には、概念化、測定、幸福のために最適化し、適切なAIアクションを設計する際の課題が含まれる。 モチベーション障壁には、不正なインセンティブ、財務と広報のリスク、幸福に関するデータアクセス防止(第三者)研究の欠如などが含まれる。 これらの課題に対処するため、我々は、研究課題における重要な教訓を捉えました。 1)AIシステムの健康への影響に関する科学的理解の進展、及び 2) 福祉の促進と維持を目的として意図的に設計されるAIシステムの設計行動を導く。

Artificial Intelligence (AI) is rapidly transforming society, creating an urgent need to ensure its positive impact. In this article, we take a positive design approach towards this issue, viewing it as a matter of designing AI systems that actively support human wellbeing. However, designing wellbeing-aligned AI systems is difficult. This article adopts a cybernetic perspective to identify twelve key challenges across two categories: lack of knowledge and lack of motivation. Knowledge barriers include challenges in conceptualizing, measuring, and optimizing for wellbeing, then designing appropriate AI actions. Motivation barriers include misaligned incentives, financial and publicity risks, and a lack of data access preventing (third-party) research on wellbeing. To address these challenges we have captured our key takeaways in a research agenda related to 1) advancing the scientific understanding of the impact of AI systems on wellbeing, and 2) guiding design actions on how AI systems might be intentionally designed to promote and sustain wellbeing.
翻訳日:2023-09-15 19:11:00 公開日:2023-09-14
# 駆動型量子対称単純排他過程における特殊絡み合い

Exact Entanglement in the Driven Quantum Symmetric Simple Exclusion Process ( http://arxiv.org/abs/2304.10988v5 )

ライセンス: Link先を確認
Denis Bernard and Ludwig Hruza(参考訳) 駆動量子系の絡み合い特性は、長距離コヒーレンスによる平衡状態とは異なる可能性がある。 我々はこの観察をメソスコピック輸送に適したトイモデルである open quantum symmetric simple exclusion process (qssep) を用いて確認する。 定常状態における異なるサブシステム間の相互情報の正確な公式を導出し、体積法則を満たすことを示す。 驚いたことに、QSSEPの絡み合い特性はその輸送特性に関するデータにのみ依存しており、そのような関係はより一般的なメソスコピックシステムに当てはまるかもしれない。 QSSEPのフリー確率構造をエクスプロイトし、これらの結果を得るため、ランダム行列の理論に潜在的に適用可能な数学的結果である、いわゆる局所的自由累積からランダム行列のサブブロックの固有値スペクトルを決定する新しい方法を開発した。 この方法の例示として,局所自由積から固有状態熱化仮説 (eth) を満たす系における可観測性の期待値を計算する方法を示す。

Entanglement properties of driven quantum systems can potentially differ from the equilibrium situation due to long range coherences. We confirm this observation by studying a suitable toy model for mesoscopic transport~: the open quantum symmetric simple exclusion process (QSSEP). We derive exact formulae for its mutual information between different subsystems in the steady state and show that it satisfies a volume law. Surprisingly, the QSSEP entanglement properties only depend on data related to its transport properties and we suspect that such a relation might hold for more general mesoscopic systems. Exploiting the free probability structure of QSSEP, we obtain these results by developing a new method to determine the eigenvalue spectrum of sub-blocks of random matrices from their so-called local free cumulants -- a mathematical result on its own with potential applications in the theory of random matrices. As an illustration of this method, we show how to compute expectation values of observables in systems satisfying the Eigenstate Thermalization Hypothesis (ETH) from the local free cumulants.
翻訳日:2023-09-15 19:10:43 公開日:2023-09-14
# 対照的なチューニング:マスク付きオートエンコーダーを忘れる助けになる

Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget ( http://arxiv.org/abs/2304.10520v2 )

ライセンス: Link先を確認
Johannes Lehner and Benedikt Alkin and Andreas F\"urst and Elisabeth Rumetshofer and Lukas Miklautz and Sepp Hochreiter(参考訳) Masked Image Modeling (MIM)メソッドは、Masked Autoencoders (MAE)のように、入力のリッチな表現を効率的に学習する。 しかし、下流のタスクに適応するためには、リッチなフィーチャーコードがオブジェクトだけでなく、画像の背景もあまり関連しないため、十分な量のラベル付きデータが必要である。 対照的に、インスタンス識別(ID)メソッドはオブジェクトにフォーカスする。 本研究では,mimの効率性とスケーラビリティを,大量のラベル付きデータがない下で下流分類を行うidの能力と組み合わせる方法について検討する。 この目的のために,Masked Autoencoder Contrastive Tuning (MAE-CT) を導入する。これは,Nearest Neighbor Contrastive Learning (NNCLR) 目標の暗黙的クラスタリングを利用して,事前学習されたMAEの最上位層における抽象化を誘導する逐次的アプローチである。 MAE-CTは、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングする。 特に、MAE-CTは手作りの増補に頼らず、最小限の増補(クロップ&フリップ)のみを使用しながら、しばしば最高の性能を達成する。 さらに、MAE-CTはMAE再トレーニングに比べて10%以上のオーバーヘッドを必要とするため、計算効率が良い。 大型で巨大な視覚変換器(ViT)モデルに適用すると、MAE-CTはイメージネットで訓練された以前の自己教師付き手法よりも、線形プローブ、k-NN、ローショット分類精度、および教師なしクラスタリング精度が優れている。 ViT-H/16 MAE-CTでは、線形プローブの82.2%の新たな最先端を実現している。

Masked Image Modeling (MIM) methods, like Masked Autoencoders (MAE), efficiently learn a rich representation of the input. However, for adapting to downstream tasks, they require a sufficient amount of labeled data since their rich features code not only objects but also less relevant image background. In contrast, Instance Discrimination (ID) methods focus on objects. In this work, we study how to combine the efficiency and scalability of MIM with the ability of ID to perform downstream classification in the absence of large amounts of labeled data. To this end, we introduce Masked Autoencoder Contrastive Tuning (MAE-CT), a sequential approach that utilizes the implicit clustering of the Nearest Neighbor Contrastive Learning (NNCLR) objective to induce abstraction in the topmost layers of a pre-trained MAE. MAE-CT tunes the rich features such that they form semantic clusters of objects without using any labels. Notably, MAE-CT does not rely on hand-crafted augmentations and frequently achieves its best performances while using only minimal augmentations (crop & flip). Further, MAE-CT is compute efficient as it requires at most 10% overhead compared to MAE re-training. Applied to large and huge Vision Transformer (ViT) models, MAE-CT excels over previous self-supervised methods trained on ImageNet in linear probing, k-NN and low-shot classification accuracy as well as in unsupervised clustering accuracy. With ViT-H/16 MAE-CT achieves a new state-of-the-art in linear probing of 82.2%.
翻訳日:2023-09-15 19:10:24 公開日:2023-09-14
# MER 2023:マルチラベル学習、モダリティロバストネス、半教師付き学習

MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning ( http://arxiv.org/abs/2304.08981v2 )

ライセンス: Link先を確認
Zheng Lian, Haiyang Sun, Licai Sun, Kang Chen, Mingyu Xu, Kexin Wang, Ke Xu, Yu He, Ying Li, Jinming Zhao, Ye Liu, Bin Liu, Jiangyan Yi, Meng Wang, Erik Cambria, Guoying Zhao, Bj\"orn W. Schuller, Jianhua Tao(参考訳) 第1回マルチモーダル感情認識チャレンジ(MER 2023)は、ACMマルチメディアで成功した。 課題はシステムロバスト性に注目し,(1)参加者が離散的感情と次元的感情の両方を認識するために要求されるmer-multi,(2)モダリティロバストネス評価のためのテストビデオにノイズを追加するmer-noise,(3)半教師あり学習のための大量のラベルなしサンプルを提供するmer-semiの3つのトラックからなる。 本稿では、この課題の背景にある動機を説明し、ベンチマークデータセットを説明し、参加者に関する統計を紹介する。 MER 2023以降もこのデータセットを使い続けるには、End User License Agreementにサインし、公式メールアドレスmerchallenge.contact@gmail.comに送ってください。 この高品質なデータセットは、特に中国の研究コミュニティにとって、マルチモーダル感情認識の新しいベンチマークになると思います。

The first Multimodal Emotion Recognition Challenge (MER 2023) was successfully held at ACM Multimedia. The challenge focuses on system robustness and consists of three distinct tracks: (1) MER-MULTI, where participants are required to recognize both discrete and dimensional emotions; (2) MER-NOISE, in which noise is added to test videos for modality robustness evaluation; (3) MER-SEMI, which provides a large amount of unlabeled samples for semi-supervised learning. In this paper, we introduce the motivation behind this challenge, describe the benchmark dataset, and provide some statistics about participants. To continue using this dataset after MER 2023, please sign a new End User License Agreement and send it to our official email address merchallenge.contact@gmail.com. We believe this high-quality dataset can become a new benchmark in multimodal emotion recognition, especially for the Chinese research community.
翻訳日:2023-09-15 19:09:33 公開日:2023-09-14
# MRI画像によるアルツハイマー病発症時期予測のための解釈可能な重み付きシームズネットワーク

Interpretable Weighted Siamese Network to Predict the Time to Onset of Alzheimer's Disease from MRI Images ( http://arxiv.org/abs/2304.07097v2 )

ライセンス: Link先を確認
Misgina Tsighe Hagos, Niamh Belton, Ronan P. Killeen, Kathleen M. Curran, Brian Mac Namee(参考訳) アルツハイマー病(英: alzheimer's disease)は、軽度認知障害(mci)に先行する進行性疾患である。 ADの早期検出は治療決定に不可欠である。 しかし、コンピュータ支援によるADの検出に関する文献の多くは、脳画像を健康、MCI、ADの3つの主要なカテゴリの1つに分類することに焦点を当てている。 これは進行性mci患者の軌道を正確に特定する機会を逃す。 本稿では、AD鑑定のための脳画像分類タスクを再検討し、それを順序分類タスクとして再編成し、重症ADステージにどれくらい近いかを予測する。 この目的のために、アルツハイマー病神経画像イニシアチブ(ADNI)データセットから進行性MCI患者を選抜し、ADへの進行時間を示す予測ターゲットを備えた順序的データセットを構築する。 我々は、MRI脳画像に基づいて、AD開始時刻を予測するために、シームズネットワークモデルを訓練する。 また,Siameseネットワークの重み付き多様性を提案し,その性能をベースラインモデルと比較する。 評価の結果,Siamese ネットワークに重み付け因子を組み込むことで,入力脳MRI画像が AD にどれだけ近づいたかを予測する上で,かなりの性能向上が得られた。 さらに,モデル説明可能性手法を用いて,シアムネットワークの学習埋め込み空間を解釈することで,この結果を補完する。

Alzheimer's Disease (AD) is a progressive disease preceded by Mild Cognitive Impairment (MCI). Early detection of AD is crucial for making treatment decisions. However, most of the literature on computer-assisted detection of AD focuses on classifying brain images into one of three major categories: healthy, MCI, and AD; or categorizing MCI patients into (1) progressive: those who progress from MCI to AD at a future examination time, and (2) stable: those who stay as MCI and never progress to AD. This misses the opportunity to accurately identify the trajectory of progressive MCI patients. In this paper, we revisit the brain image classification task for AD identification and re-frame it as an ordinal classification task to predict how close a patient is to the severe AD stage. To this end, we select progressive MCI patients from the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset and construct an ordinal dataset with a prediction target that indicates the time to progression to AD. We train a Siamese network model to predict the time to onset of AD based on MRI brain images. We also propose a Weighted variety of Siamese network and compare its performance to a baseline model. Our evaluations show that incorporating a weighting factor to Siamese networks brings considerable performance gain at predicting how close input brain MRI images are to progressing to AD. Moreover, we complement our results with an interpretation of the learned embedding space of the Siamese networks using a model explainability technique.
翻訳日:2023-09-15 19:09:13 公開日:2023-09-14
# 一次元ボースガスの一般化流体力学の理論

The Theory of Generalised Hydrodynamics for the One-dimensional Bose Gas ( http://arxiv.org/abs/2304.04910v2 )

ライセンス: Link先を確認
M. L. Kerr and K. V. Kheruntsyan(参考訳) 本稿では, 一般流体力学(GHD)理論の最近の発展を, 反発型1次元ボース気体を中心に概説する。 本稿では, 積分可能な量子多体系の熱化機構と, 様々な量子クエンチシナリオにおける可積分系および近可積分系の非平衡挙動を記述する能力について論じる。 寒冷原子ガス中のghdの実験実験と他の微視的理論的手法によるベンチマークについて概説する。 最後に,GHDの発展に向けた今後の方向性について考察する。

This article reviews the recent developments in the theory of generalised hydrodynamics (GHD) with emphasis on the repulsive one-dimensional Bose gas. We discuss the implications of GHD on the mechanisms of thermalisation in integrable quantum many-body systems as well as its ability to describe far-from-equilibrium behaviour of integrable and near integrable systems in a variety of quantum quench scenarios. We outline the experimental tests of GHD in cold-atom gases and its benchmarks with other microscopic theoretical approaches. Finally, we offer some perspectives on the future direction of the development of GHD.
翻訳日:2023-09-15 19:08:46 公開日:2023-09-14
# チームジャンボビスタのカロリー予測におけるコンフォメーション回帰

Conformal Regression in Calorie Prediction for Team Jumbo-Visma ( http://arxiv.org/abs/2304.03778v3 )

ライセンス: Link先を確認
Kristian van Kuijk, Mark Dirksen and Christof Seiler(参考訳) UCIワールドトゥールレース(UCI WorldTour races, UCI WorldTour races)は、男子ロードレースの最高峰である。 team jumbo-vismaのコーチは長い間、カレンダー上の各レースのオランダチームの各ライダーのエネルギー需要を予測する責任を負ってきた。 これらは、レースを通して高いレベルのパフォーマンスを維持するために必要なエネルギーと資源を確保するために見積もられなければならない。 しかしこのタスクは、レースのスピードと出力を正確に見積もる必要があるため、時間と課題の両方がある。 伝統的に、エネルギー需要を予測するアプローチはコーチの判断と経験に依存しているが、この方法は制限があり、しばしば不正確な予測につながる。 本稿では,サイクリングレースにおけるエネルギー需要を予測するための,より効果的なアプローチを提案する。 回帰モデルを用いて速度とパワーを予測することにより、各ステージ毎の乗車者毎のカロリー需要推定をコーチに提供する。 さらに,共形予測を用いて不確かさを定量化する手法を比較する。 jackknife+, jackknife-minmax, jackknife-minmax-after-bootstrap, cv+, cv-minmax, conformalized quantile regression, inductive conformal prediction method in conformal predictionはすべての手法が有効な予測間隔を達成することを示す。 minmaxベースの手法以外はすべて、意思決定のための十分な狭い予測間隔を生成する。 さらに、固定サイズの予測間隔を計算する手法は、低い値に対してより厳密な間隔を生成する。 入力空間にわたって異なる長さの間隔を計算する手法の中で、帰納的共形予測はより大きな意味レベルでより狭い予測間隔を計算する。

UCI WorldTour races, the premier men's elite road cycling tour, are grueling events that put physical fitness and endurance of riders to the test. The coaches of Team Jumbo-Visma have long been responsible for predicting the energy needs of each rider of the Dutch team for every race on the calendar. Those must be estimated to ensure riders have the energy and resources necessary to maintain a high level of performance throughout a race. This task, however, is both time-consuming and challenging, as it requires precise estimates of race speed and power output. Traditionally, the approach to predicting energy needs has relied on judgement and experience of coaches, but this method has its limitations and often leads to inaccurate predictions. In this paper, we propose a new, more effective approach to predicting energy needs for cycling races. By predicting the speed and power with regression models, we provide the coaches with calorie needs estimates for each individual rider per stage instantly. In addition, we compare methods to quantify uncertainty using conformal prediction. The empirical analysis of the jackknife+, jackknife-minmax, jackknife-minmax-after-bootstrap, CV+, CV-minmax, conformalized quantile regression, and inductive conformal prediction methods in conformal prediction reveals that all methods achieve valid prediction intervals. All but minmax-based methods also produce sufficiently narrow prediction intervals for decision-making. Furthermore, methods computing prediction intervals of fixed size produce tighter intervals for low significance values. Among the methods computing intervals of varying length across the input space, inductive conformal prediction computes narrower prediction intervals at larger significance level.
翻訳日:2023-09-15 19:08:39 公開日:2023-09-14
# 学習率適応を伴うCMA-ES:CMA-ESはマルチモーダルとノイズを解消できるか?

CMA-ES with Learning Rate Adaptation: Can CMA-ES with Default Population Size Solve Multimodal and Noisy Problems? ( http://arxiv.org/abs/2304.03473v3 )

ライセンス: Link先を確認
Masahiro Nomura, Youhei Akimoto, Isao Ono(参考訳) 共分散行列適応進化戦略(CMA-ES)はブラックボックス連続最適化問題の解法として最も成功した手法の1つである。 CMA-ESの実用的な側面の1つは、ハイパーパラメータチューニングなしで使用できることである。 しかし、ハイパーパラメータ設定は、特にマルチモーダル問題やノイズ問題などの困難なタスクに対して、依然としてかなりの影響がある。 本研究では, 既定人口規模を有するCMA-ESがマルチモーダル, ノイズを解消できるかどうかを検討する。 本研究では,CMA-ESのための新しい学習率適応機構を開発し,学習率を一定信号対雑音比を維持するようにした。 数値実験により,CMA-ESと提案した学習率適応機構の挙動について検討し,CMA-ESで得られた結果と一定の学習率との比較を行った。 提案した学習率適応を用いた場合,CMA-ESは,高コストの学習率チューニングを必要とせず,マルチモーダルおよび/またはノイズ問題に対して有効であることを示す。

The covariance matrix adaptation evolution strategy (CMA-ES) is one of the most successful methods for solving black-box continuous optimization problems. One practically useful aspect of the CMA-ES is that it can be used without hyperparameter tuning. However, the hyperparameter settings still have a considerable impact, especially for difficult tasks such as solving multimodal or noisy problems. In this study, we investigate whether the CMA-ES with default population size can solve multimodal and noisy problems. To perform this investigation, we develop a novel learning rate adaptation mechanism for the CMA-ES, such that the learning rate is adapted so as to maintain a constant signal-to-noise ratio. We investigate the behavior of the CMA-ES with the proposed learning rate adaptation mechanism through numerical experiments, and compare the results with those obtained for the CMA-ES with a fixed learning rate. The results demonstrate that, when the proposed learning rate adaptation is used, the CMA-ES with default population size works well on multimodal and/or noisy problems, without the need for extremely expensive learning rate tuning.
翻訳日:2023-09-15 19:08:04 公開日:2023-09-14
# 知識蒸留による作物分別領域の一般化

Domain Generalization for Crop Segmentation with Knowledge Distillation ( http://arxiv.org/abs/2304.01029v2 )

ライセンス: Link先を確認
Simone Angarano, Mauro Martini, Alessandro Navone, Marcello Chiaberge(参考訳) 近年、精密農業は、フィールドマネジメントに関わるすべての活動をサポートするために、自動化プロセスに近づいた農業を徐々に方向付けている。 サービスロボティクスは、監視、噴霧、収穫といった人間の介入なしにフィールドをナビゲートできる自律エージェントを配置することで、この進化において主要な役割を果たす。 これらの正確な行動を実行するには、移動ロボットは周囲を理解し、野生のターゲットを特定するリアルタイム認識システムが必要である。 新しい作物や環境条件への一般化は、ラベル付きサンプルがほとんど利用できないため、実用化には不可欠である。 本稿では,作物の分節化の問題を調査し,知識蒸留によるドメインの一般化を促進する新しい手法を提案する。 提案フレームワークでは,ソースドメイン上で個別に訓練されたモデルの集合から,未知のターゲットドメインに適応可能な学生モデルへ知識を伝達する。 そこで本研究では,5万種以上の植物を対象とし,異なる地形様式,気象条件,光シナリオをカバーする作物区分のための多領域合成データセットを提案する。 我々は、最先端の手法と優れたsim-to-realの一般化よりも優れた性能を示す。 このアプローチは作物の分節化におけるドメインの一般化に有望な解決策を提供し,多種多様な精密農業応用を促進する可能性を秘めている。

In recent years, precision agriculture has gradually oriented farming closer to automation processes to support all the activities related to field management. Service robotics plays a predominant role in this evolution by deploying autonomous agents that can navigate fields while performing tasks without human intervention, such as monitoring, spraying, and harvesting. To execute these precise actions, mobile robots need a real-time perception system that understands their surroundings and identifies their targets in the wild. Generalizing to new crops and environmental conditions is critical for practical applications, as labeled samples are rarely available. In this paper, we investigate the problem of crop segmentation and propose a novel approach to enhance domain generalization using knowledge distillation. In the proposed framework, we transfer knowledge from an ensemble of models individually trained on source domains to a student model that can adapt to unseen target domains. To evaluate the proposed method, we present a synthetic multi-domain dataset for crop segmentation containing plants of variegate shapes and covering different terrain styles, weather conditions, and light scenarios for more than 50,000 samples. We demonstrate significant improvements in performance over state-of-the-art methods and superior sim-to-real generalization. Our approach provides a promising solution for domain generalization in crop segmentation and has the potential to enhance a wide variety of precision agriculture applications.
翻訳日:2023-09-15 19:07:44 公開日:2023-09-14
# SpikeCP: コンフォーマル予測による遅延適応型信頼性スパイクニューラルネットワーク

SpikeCP: Delay-Adaptive Reliable Spiking Neural Networks via Conformal Prediction ( http://arxiv.org/abs/2305.11322v3 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, Osvaldo Simeone(参考訳) spiking neural networks (snns)は、入力提示の過程でニューロン間で交換されるスパイクの数にエネルギーが依存する内部イベント駆動ニューラルダイナミクスを介して時系列データを処理する。 snn分類器の典型的な実装では、入力シーケンス全体が処理された後に決定が生成され、入力間でかなり均一なレイテンシとエネルギー消費レベルが発生する。 最近導入された遅延適応型SNNは、SNNモデルが十分に 'confident'' である場合の早期決定を生成することで、各例の難易度に応じて、推論レイテンシーとそれに伴うエネルギー消費を調整している。 本稿では,SNNが入力サンプルを処理しているため,その分類決定はまず不信であり,その後,決定の根本的真理,未知,テスト精度に関して過信される傾向にあることを示す。 これにより、望ましいレベルの精度を保証する停止時間を決定することが困難になる。 そこで本研究では,事前学習したSNN分類器をラップすることで,入力依存の停止時に発生する決定に対して信頼性が保証される新しい遅延適応型SNN推論手法を提案する。 このアプローチは、基礎となるSNNと比較して最小限の複雑さを伴い、実行時にしきい値の設定とカウントのみを必要とし、整合予測(CP)からツールを活用する。

Spiking neural networks (SNNs) process time-series data via internal event-driven neural dynamics whose energy consumption depends on the number of spikes exchanged between neurons over the course of the input presentation. In typical implementations of an SNN classifier, decisions are produced after the entire input sequence has been processed, resulting in latency and energy consumption levels that are fairly uniform across inputs. Recently introduced delay-adaptive SNNs tailor the inference latency -- and, with it, the energy consumption -- to the difficulty of each example, by producing an early decision when the SNN model is sufficiently ``confident''. In this paper, we start by observing that, as an SNN processes input samples, its classification decisions tend to be first under-confident and then over-confident with respect to the decision's ground-truth, unknown, test accuracy. This makes it difficult to determine a stopping time that ensures a desired level of accuracy. To address this problem, we introduce a novel delay-adaptive SNN-based inference methodology that, wrapping around any pre-trained SNN classifier, provides guaranteed reliability for the decisions produced at input-dependent stopping times. The approach entails minimal added complexity as compared to the underlying SNN, requiring only thresholding and counting operations at run time, and it leverages tools from conformal prediction (CP).
翻訳日:2023-09-15 19:02:24 公開日:2023-09-14
# ファウショットきめ細かな視覚認識のためのロバスト・サリエンシ・アウェア蒸留法

Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition ( http://arxiv.org/abs/2305.07180v2 )

ライセンス: Link先を確認
Haiqi Liu, C. L. Philip Chen, Xinrong Gong and Tong Zhang(参考訳) サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。 既存の文献では、意味のあるオブジェクト固有の意味理解を十分に促進しない局所的な表現アプローチを採用することで、この課題に対処している。 さらに、それらは主に高次元局所ディスクリプタに依存して複雑な埋め込み空間を構築し、一般化を制限している。 上記の課題に対処するため,本論文では,数発のきめ細かい視覚認識のためのRSaGと呼ばれる新しいモデルを提案する。 rsagは、saliency detection(saliency detection)による追加のsaliency-aware supervisor(saliency-aware supervisor)を導入する。 具体的には、rsagはsaliency detectionモデルを使用して、各サブカテゴリの重要な領域を強調し、詳細な予測のためのオブジェクト固有の情報を提供する。 RSaGは、これらの情報を2つの対称分岐で相互学習パラダイムで伝達する。 さらに、RSaGは地域間関係を利用して表現の情報性を高めるとともに、強調された詳細を文脈埋め込みにまとめて効果的転送を容易にし、新しいサブカテゴリへの迅速な一般化を可能にする。 提案手法は3つのベンチマークで実証的に評価され,優れた性能を示す。

Recognizing novel sub-categories with scarce samples is an essential and challenging research topic in computer vision. Existing literature addresses this challenge by employing local-based representation approaches, which may not sufficiently facilitate meaningful object-specific semantic understanding, leading to a reliance on apparent background correlations. Moreover, they primarily rely on high-dimensional local descriptors to construct complex embedding space, potentially limiting the generalization. To address the above challenges, this article proposes a novel model called RSaG for few-shot fine-grained visual recognition. RSaG introduces additional saliency-aware supervision via saliency detection to guide the model toward focusing on the intrinsic discriminative regions. Specifically, RSaG utilizes the saliency detection model to emphasize the critical regions of each sub-category, providing additional object-specific information for fine-grained prediction. RSaG transfers such information with two symmetric branches in a mutual learning paradigm. Furthermore, RSaG exploits inter-regional relationships to enhance the informativeness of the representation and subsequently summarize the highlighted details into contextual embeddings to facilitate the effective transfer, enabling quick generalization to novel sub-categories. The proposed approach is empirically evaluated on three widely used benchmarks, demonstrating its superior performance.
翻訳日:2023-09-15 19:01:33 公開日:2023-09-14
# tempee: 自己回帰を超えたレーダーエコー推定のための時空間並列トランス

TempEE: Temporal-Spatial Parallel Transformer for Radar Echo Extrapolation Beyond Auto-Regression ( http://arxiv.org/abs/2304.14131v2 )

ライセンス: Link先を確認
Shengchao Chen, Ting Shu, Huan Zhao, Guo Zhong and Xunlai Chen(参考訳) 気象レーダー反射率データ(レーダーエコー)は降水予測に大きな影響を及ぼす。 複雑な数値気象予測(NWP)モデルの必要性を回避して、短期豪雨の正確かつ迅速な予測を容易にする。 従来のモデルと比較して、Deep Learning (DL)ベースのレーダエコー外挿アルゴリズムは、高い効率と効率を示す。 それでも、信頼性と一般化されたエコー外挿アルゴリズムの開発は、累積誤差拡散、スパース分布エコーの不正確表現、非定常運動過程の不正確な記述の3つの主要な課題によって妨げられている。 このような課題に対処するために,TempEEと呼ばれるテンポラル空間並列トランスと呼ばれる新しいレーダエコー外挿アルゴリズムを提案する。 TempEEは自動回帰(auto-regression)の使用を回避し、外挿プロセス中に累積誤差が拡散するのを防ぐために1ステップの前進戦略を採用する。 さらに,スパースエコー表現を含むタスク関連領域を効率よく強調しながら,グローバル情報とローカル情報の両方を捕捉するアルゴリズムの能力を向上させるため,マルチレベル時間空間アテンション機構の導入を提案する。 さらに、並列エンコーダを用いて連続エコー画像から時空間表現を抽出し、エコー外挿のための非定常運動過程をモデル化する。 TempEEの優位性は、現実のデータセットを利用して古典的なレーダエコー補間タスクの文脈で実証されてきた。 広範囲にわたる実験により、TempEE内の様々な成分の有効性と不必要性がさらに検証された。

Meteorological radar reflectivity data (i.e. radar echo) significantly influences precipitation prediction. It can facilitate accurate and expeditious forecasting of short-term heavy rainfall bypassing the need for complex Numerical Weather Prediction (NWP) models. In comparison to conventional models, Deep Learning (DL)-based radar echo extrapolation algorithms exhibit higher effectiveness and efficiency. Nevertheless, the development of reliable and generalized echo extrapolation algorithm is impeded by three primary challenges: cumulative error spreading, imprecise representation of sparsely distributed echoes, and inaccurate description of non-stationary motion processes. To tackle these challenges, this paper proposes a novel radar echo extrapolation algorithm called Temporal-Spatial Parallel Transformer, referred to as TempEE. TempEE avoids using auto-regression and instead employs a one-step forward strategy to prevent cumulative error spreading during the extrapolation process. Additionally, we propose the incorporation of a Multi-level Temporal-Spatial Attention mechanism to improve the algorithm's capability of capturing both global and local information while emphasizing task-related regions, including sparse echo representations, in an efficient manner. Furthermore, the algorithm extracts spatio-temporal representations from continuous echo images using a parallel encoder to model the non-stationary motion process for echo extrapolation. The superiority of our TempEE has been demonstrated in the context of the classic radar echo extrapolation task, utilizing a real-world dataset. Extensive experiments have further validated the efficacy and indispensability of various components within TempEE.
翻訳日:2023-09-15 18:59:12 公開日:2023-09-14
# 命題論理プログラムの逐次分解

Sequential decomposition of propositional logic programs ( http://arxiv.org/abs/2304.13522v2 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 近年,命題論理プログラムの逐次構成が導入された。 本稿では,プログラム間のグリーン関係を,半群理論でよく知られた$\mathcal{l,r,j}$ で研究することによって,プログラムの逐次分解について検討する。 より広い意味では、この論文は論理プログラミングの代数的理論へのさらなる一歩である。

The sequential composition of propositional logic programs has been recently introduced. This paper studies the sequential {\em decomposition} of programs by studying Green's relations $\mathcal{L,R,J}$ -- well-known in semigroup theory -- between programs. In a broader sense, this paper is a further step towards an algebraic theory of logic programming.
翻訳日:2023-09-15 18:58:49 公開日:2023-09-14
# レーザ注入による埋め込みニューラルネットワークに対するパラメータベース攻撃の評価

Evaluation of Parameter-based Attacks against Embedded Neural Networks with Laser Injection ( http://arxiv.org/abs/2304.12876v2 )

ライセンス: Link先を確認
Mathieu Dumont, Kevin Hector, Pierre-Alain Moellic, Jean-Max Dutertre, Simon Ponti\'e(参考訳) 機械学習(ML)ベースのシステムのセキュリティに関する今後の認証アクションは、多くのハードウェアプラットフォームにおけるモデルの大規模展開によって増幅される大きな評価課題を提起する。 最近まで、ほとんどの研究は、MLモデルを純粋にアルゴリズムの抽象化と見なすAPIベースの攻撃に焦点を当てていた。 しかし、新しい実装ベースの脅威が明らかになり、モデルの堅牢性を適切に評価する実用的な手法とシミュレーションベースの手法の両方を提案する緊急性を強調している。 主な関心事はパラメータベースの攻撃(Bit-Flip Attack, BFAなど)であり、メモリに格納された内部パラメータの正確かつ最適な変更に直面した場合、典型的なディープニューラルネットワークモデルの堅牢性の欠如を強調する。 セキュリティテストの目的で設定されたこの研究は、32ビットのcortex-mマイクロコントローラにレーザーフォールトインジェクションを用いてbfaの派生型を初めて報告した。 セキュリティ評価のための標準的なフォールトインジェクション手段であり、空間的および時間的に正確な障害を注入することができる。 非現実的なブルートフォース戦略を避けるため、シミュレーションはレーザー断層モデルを考慮したパラメータから最も敏感なビットセットを選択するのにどのように役立つかを示す。

Upcoming certification actions related to the security of machine learning (ML) based systems raise major evaluation challenges that are amplified by the large-scale deployment of models in many hardware platforms. Until recently, most of research works focused on API-based attacks that consider a ML model as a pure algorithmic abstraction. However, new implementation-based threats have been revealed, emphasizing the urgency to propose both practical and simulation-based methods to properly evaluate the robustness of models. A major concern is parameter-based attacks (such as the Bit-Flip Attack, BFA) that highlight the lack of robustness of typical deep neural network models when confronted by accurate and optimal alterations of their internal parameters stored in memory. Setting in a security testing purpose, this work practically reports, for the first time, a successful variant of the BFA on a 32-bit Cortex-M microcontroller using laser fault injection. It is a standard fault injection means for security evaluation, that enables to inject spatially and temporally accurate faults. To avoid unrealistic brute-force strategies, we show how simulations help selecting the most sensitive set of bits from the parameters taking into account the laser fault model.
翻訳日:2023-09-15 18:58:42 公開日:2023-09-14
# COVER:言語モデルにおけるプロンプトに基づく学習に対するヒューリスティックなグレディ・アドバイザリアタック

COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in Language Models ( http://arxiv.org/abs/2306.05659v3 )

ライセンス: Link先を確認
Zihao Tan, Qingliang Chen, Wenbin Zhu and Yongjian Huang(参考訳) プロンプトベースの学習は、プレトレーニング言語モデル(PLM)、特に数ショット設定のような低リソースシナリオにおいて、効果的な方法であることが証明されている。 しかしながら、PLMの信頼性は最重要であり、言語モデルの予測を誤解させ、重大なセキュリティ上の懸念を引き起こす可能性のあるプロンプトベースのテンプレートに潜在的な脆弱性が示されている。 本稿では,ブラックボックスシナリオにおける手動テンプレートに対する即時攻撃を提案することにより,PLMの脆弱性について明らかにする。 まず,手動テンプレートを分割するための文字レベルと単語レベルのヒューリスティックアプローチを設計する。 次に,上記のヒューリスティック破壊手法に基づく攻撃に対する欲深いアルゴリズムを提案する。 最後に,3種類のBERT系列モデルと8つのデータセットの分類タスクを用いて,本手法の評価を行った。 総合的な実験結果から,攻撃成功率と攻撃速度の観点から,本手法の有効性を検証した。

Prompt-based learning has been proved to be an effective way in pre-trained language models (PLMs), especially in low-resource scenarios like few-shot settings. However, the trustworthiness of PLMs is of paramount significance and potential vulnerabilities have been shown in prompt-based templates that could mislead the predictions of language models, causing serious security concerns. In this paper, we will shed light on some vulnerabilities of PLMs, by proposing a prompt-based adversarial attack on manual templates in black box scenarios. First of all, we design character-level and word-level heuristic approaches to break manual templates separately. Then we present a greedy algorithm for the attack based on the above heuristic destructive approaches. Finally, we evaluate our approach with the classification tasks on three variants of BERT series models and eight datasets. And comprehensive experimental results justify the effectiveness of our approach in terms of attack success rate and attack speed.
翻訳日:2023-09-15 18:50:16 公開日:2023-09-14
# 多成分グラウバーコヒーレント状態による偶数および奇数のコヒーレント状態の双方向量子テレポーテーション:理論と実装

Bidirectional quantum teleportation of even and odd coherent states through the multipartite Glauber coherent state: Theory and implementation ( http://arxiv.org/abs/2306.00505v2 )

ライセンス: Link先を確認
Nada Ikken, Abdallah Slaoui, Rachid Ahl Laamara and Lalla Btissam Drissi(参考訳) 量子テレポーテーションは量子技術の基本構成要素となり、量子通信ネットワークの発展において重要な役割を果たしている。 ここでは、偶数および奇数のコヒーレントな状態が2方向の任意の距離で伝送および再構成できる双方向量子テレポーテーション(BQT)プロトコルを提案する。 この目的のために、グリーンベルガー・ホーネ・ザイリンガー状態とグラウンド状態とワーナー状態からなる多部式グラウバーコヒーレント状態を用いて、遠いパートナーであるアリスとボブを繋ぐ量子資源とする。 対称および反対称多部共役状態に存在する対の絡み合いを探索し、様々な種類の量子チャネルを構成するプローブの重なり合いと数の制御により、両方向のテレポーテーション効率を最大化することができる。 さらに、アリスとボブのトリガーフェーズは、量子フィッシャー情報 (QFI) とヒルベルト・シュミット速度 (HSS) と呼ばれる2種類の量子統計速度を用いて、我々のプロトコルにおけるそれらの役割を探求する。 具体的には,QFI と HSS で定量化された統計的推定誤差の下位境界は Alice から Bob への最も忠実度が高く,Bob から Alice への反比例であり,事前共有された量子チャネルの選択は高い BQT 効率を達成する上で重要な役割を果たすことを示す。 最後に、現在の実験ツールで提案されたスキームの実装方法を示し、Aliceは自身の一貫性のある状態をBobに移すことができ、同時にBobは奇妙なコヒーレントな状態をAliceに移すことができる。

Quantum teleportation has become a fundamental building block of quantum technologies, playing a vital role in the development of quantum communication networks. Here, we present a bidirectional quantum teleportation (BQT) protocol that enables even and odd coherent states to be transmitted and reconstructed over arbitrary distances in two directions. To this end, we employ the multipartite Glauber coherent state, comprising the Greenberger-Horne-Zeilinger, ground and Werner states, as a quantum resource linking distant partners Alice and Bob. The pairwise entanglement existing in symmetric and antisymmetric multipartite coherent states is explored, and by controlling the overlap and number of probes constructing various types of quantum channels, the teleportation efficiency of teleported states in both directions may be maximized. Besides, Alice's and Bob's trigger phases are estimated to explore their roles in our protocol using two kinds of quantum statistical speed referred to as quantum Fisher information (QFI) and Hilbert-Schmidt speed (HSS). Specifically, we show that the lower bound of the statistical estimation error, quantified by QFI and HSS, corresponds to the highest fidelity from Alice to Bob and conversely from Bob to Alice, and that the choice of the pre-shared quantum channel has a critical role in achieving high BQT efficiency. Finally, we show how to implement the suggested scheme on current experimental tools, where Alice can transfer her even coherent state to Bob, and at the same time, Bob can transfer his odd coherent state to Alice.
翻訳日:2023-09-15 18:49:10 公開日:2023-09-14
# デュアルリバース・ローリング・シャッター画像の自己教師型学習

Self-supervised Learning to Bring Dual Reversed Rolling Shutter Images Alive ( http://arxiv.org/abs/2305.19862v3 )

ライセンス: Link先を確認
Wei Shang, Dongwei Ren, Chaoyu Feng, Xiaotao Wang, Lei Lei, Wangmeng Zuo(参考訳) 現代の消費者向けカメラは通常ローリングシャッター(RS)機構を採用しており、ダイナミックなシーンに対してRS歪みを生じさせるシーンをスキャンすることで画像をキャプチャする。 rs歪みを補正するために、既存の手法では、高いフレームレートのグローバルシャッター(gs)画像を地上監視として収集する、完全に教師あり学習方式を採用している。 本稿では、Dual reversed RS distortions Correction (SelfDRSC) のための自己教師型学習フレームワークを提案する。 特に、二重逆RS画像の再構成のための双方向歪み補正モジュールを提案し、入力と再構成された二重逆RS画像間のサイクル整合性を高めてDRSCネットワークの訓練に自己監督的損失を展開できる。 開始と終了のRSスキャン時間に加えて、任意の中間走査時間におけるGS画像もSelfDRSCで管理できるため、学習したDRSCネットワークは高いフレームレートGSビデオを生成することができる。 さらに,生成したGS画像における境界アーチファクトの緩和を目的とした,簡易かつ効果的な自己蒸留戦略を導入する。 合成データセットにおいて、selfdrscは、完全な監視方法で訓練された最先端の手法と比較して、より良い、または同等の定量的指標を達成する。 実世界のRSのケースでは、より微細な補正テクスチャとより優れた一時的な一貫性を備えた高いフレームレートGSビデオを生成することができる。 ソースコードとトレーニングされたモデルはhttps://github.com/shangwei5/SelfDRSCで公開されている。 https://github.com/Hunter-Will/SelfDRSC-mindspore.comでHUAWEI Mindsporeの実装も提供します。

Modern consumer cameras usually employ the rolling shutter (RS) mechanism, where images are captured by scanning scenes row-by-row, yielding RS distortions for dynamic scenes. To correct RS distortions, existing methods adopt a fully supervised learning manner, where high framerate global shutter (GS) images should be collected as ground-truth supervision. In this paper, we propose a Self-supervised learning framework for Dual reversed RS distortions Correction (SelfDRSC), where a DRSC network can be learned to generate a high framerate GS video only based on dual RS images with reversed distortions. In particular, a bidirectional distortion warping module is proposed for reconstructing dual reversed RS images, and then a self-supervised loss can be deployed to train DRSC network by enhancing the cycle consistency between input and reconstructed dual reversed RS images. Besides start and end RS scanning time, GS images at arbitrary intermediate scanning time can also be supervised in SelfDRSC, thus enabling the learned DRSC network to generate a high framerate GS video. Moreover, a simple yet effective self-distillation strategy is introduced in self-supervised loss for mitigating boundary artifacts in generated GS images. On synthetic dataset, SelfDRSC achieves better or comparable quantitative metrics in comparison to state-of-the-art methods trained in the full supervision manner. On real-world RS cases, our SelfDRSC can produce high framerate GS videos with finer correction textures and better temporary consistency. The source code and trained models are made publicly available at https://github.com/shangwei5/SelfDRSC. We also provide an implementation in HUAWEI Mindspore at https://github.com/Hunter-Will/SelfDRSC-mindspore.
翻訳日:2023-09-15 18:48:36 公開日:2023-09-14
# ソーシャルメディアにおけるエンゲージメント,ユーザ満足度,分断コンテンツの増幅

Engagement, User Satisfaction, and the Amplification of Divisive Content on Social Media ( http://arxiv.org/abs/2305.16941v2 )

ライセンス: Link先を確認
Smitha Milli, Micah Carroll, Yike Wang, Sashrika Pandey, Sebastian Zhao, Anca D. Dragan(参考訳) 事前登録されたランダム化実験では、twitterのエンゲージメントベースのランキングアルゴリズムが感情的にチャージされ、グループ外で敵対的なコンテンツを増幅し、感情的な分極に寄与することを発見した。 さらに,このアルゴリズムが見たいものを表示するという主張を批判的に検討し,そのアルゴリズムが選択した政治的ツイートをユーザが好まないことを発見した。 最後に,ユーザの嗜好に基づいてコンテンツをランク付けする代替手法を提案するとともに,怒り,パルチザン,外集団の敵対的コンテンツの減少に加えて,エコーチャンバーの強化の可能性についても考察する。 この証拠は、エンゲージメント、ユーザの選好、社会政治的な結果のバランスをとる、より微妙なコンテンツランキングアプローチの必要性を強調している。

In a pre-registered randomized experiment, we found that, relative to a reverse-chronological baseline, Twitter's engagement-based ranking algorithm may amplify emotionally charged, out-group hostile content and contribute to affective polarization. Furthermore, we critically examine the claim that the algorithm shows users what they want to see, discovering that users do *not* prefer the political tweets selected by the algorithm. Finally, we explore the implications of an alternative approach to ranking content based on users' stated preferences and find a reduction in angry, partisan, and out-group hostile content but also a potential reinforcement of echo chambers. The evidence underscores the necessity for a more nuanced approach to content ranking that balances engagement, users' stated preferences, and sociopolitical outcomes.
翻訳日:2023-09-15 18:48:04 公開日:2023-09-14
# 隠れた変数、自由選択、コンテキスト依存など

Hidden variables, free choice, context-independence, and all that ( http://arxiv.org/abs/2305.16132v3 )

ライセンス: Link先を確認
Ehtibar N. Dzhafarov(参考訳) 本稿では,相互排他的文脈を持つ確率変数のシステムを記述するために,隠れ変数モデル(HVM)を体系的に記述する。 そのようなシステムは、自由選択を持つモデルでも、一般に隠れた変数を観測可能なモデルにコンテキスト依存的にマッピングするか、文脈非依存のマッピングを持つモデルで記述することができる。 これらの2種類のHVMは等価であり、1つは常に別のものに変換できる。 また、全ての可能なシステムに適用可能である。 これらの事実、すなわち同値性や不適合性は、選択の自由と文脈に依存しないマッピングは全く仮定ではなく、これらの概念が科学や哲学で理解されるように、文脈によって行われる選択の自由や物理的影響について何も話さないことを意味する。 しかし、これら2つの概念の結合は、乱れのないシステムや任意のシステムの構成に適用された場合の非文脈性を記述する偽造可能なhvmを定義する。 このhvmは、"context-irrelevance"という用語によって、最も適切に捉えられている。

This paper provides a systematic account of the hidden variable models (HVMs) formulated to describe systems of random variables with mutually exclusive contexts. Any such system can be described either by a model with free choice but generally context-dependent mapping of the hidden variables into observable ones, or by a model with context-independent mapping but generally compromised free choice. These two types of HVMs are equivalent, one can always be translated into another. They are also unfalsifiable, applicable to all possible systems. These facts, the equivalence and unfalsifiability, imply that freedom of choice and context-independent mapping are no assumptions at all, and they tell us nothing about freedom of choice or physical influences exerted by contexts as these notions would be understood in science and philosophy. The conjunction of these two notions, however, defines a falsifiable HVM that describes noncontextuality when applied to systems with no disturbance or to consistifications of arbitrary systems. This HVM is most adequately captured by the term "context-irrelevance," meaning that no distribution in the model changes with context.
翻訳日:2023-09-15 18:47:48 公開日:2023-09-14
# 文脈における探索:大規模言語モデルによるロバスト分類器の構築に向けて

Probing in Context: Toward Building Robust Classifiers via Probing Large Language Models ( http://arxiv.org/abs/2305.14171v2 )

ライセンス: Link先を確認
Afra Amini and Massimiliano Ciaramita(参考訳) 大きな言語モデルは、新しいタスクをコンテキストで学習することができ、命令といくつかの注釈付きの例が提供されている。 しかし、文脈内学習の有効性は提供されたコンテキストに依存しており、下流タスクのパフォーマンスは命令によって大きく異なる可能性がある。 重要なのは、このようなコンテキストへの依存が予測不能な方法で現れる可能性があることだ。 本稿では,文脈内探索(in-context probing)という代替手法を提案する。 文脈内学習と同様に、入力の表現を命令でコンテキスト化するが、出力予測をデコードする代わりに、文脈化された表現を探索してラベルを予測する。 多様な分類タスクの一連の実験を通して、文脈内探索は命令の変化に対してはるかに堅牢であることを示す。 さらに,より小さなモデル上に分類器を構築するのに特に有用であり,100のトレーニング例しか持たないことを示す。

Large language models are able to learn new tasks in context, where they are provided with instructions and a few annotated examples. However, the effectiveness of in-context learning is dependent on the provided context, and the performance on a downstream task can vary considerably, depending on the instruction. Importantly, such dependency on the context can surface in unpredictable ways, e.g., a seemingly more informative instruction might lead to a worse performance. In this paper, we propose an alternative approach, which we term in-context probing. Similar to in-context learning, we contextualize the representation of the input with an instruction, but instead of decoding the output prediction, we probe the contextualized representation to predict the label. Through a series of experiments on a diverse set of classification tasks, we show that in-context probing is significantly more robust to changes in instructions. We further show that probing performs competitive or superior to finetuning and can be particularly helpful to build classifiers on top of smaller models, and with only a hundred training examples.
翻訳日:2023-09-15 18:47:00 公開日:2023-09-14
# 幾何位相を生成するのに要する時間で下限がわずかに小さい

Tight lower bounds on the time it takes to generate a geometric phase ( http://arxiv.org/abs/2305.12156v2 )

ライセンス: Link先を確認
Niklas H\"ornedal and Ole S\"onnerborn(参考訳) 幾何学的位相は、物理のあらゆる分野において中心的な重要性の概念である。 本稿では,循環的に進化する量子系の進化時間は,系のエネルギー資源と状態が獲得する幾何学的位相によって制限されることを示す。 具体的には,所定のアハラノフ・アナンダン幾何位相を生成するのに必要な時間上の3つの厳密な下界を導出し,検討する。 これらの導出は、マンデルシュタム・タムとマルゴルス・レヴィティンの量子速度限界の幾何学的性質に関する最近の結果に基づいている。

Geometric phase is a concept of central importance in virtually every branch of physics. In this paper, we show that the evolution time of a cyclically evolving quantum system is restricted by the system's energy resources and the geometric phase acquired by the state. Specifically, we derive and examine three tight lower bounds on the time required to generate any prescribed Aharonov-Anandan geometric phase. The derivations are based on recent results on the geometric character of the Mandelstam-Tamm and Margolus-Levitin quantum speed limits.
翻訳日:2023-09-15 18:46:43 公開日:2023-09-14
# アバターフュージョン:2次元拡散を用いた衣服分離アバターのゼロショット生成

AvatarFusion: Zero-shot Generation of Clothing-Decoupled 3D Avatars Using 2D Diffusion ( http://arxiv.org/abs/2307.06526v2 )

ライセンス: Link先を確認
Shuo Huang, Zongxin Yang, Liangting Li, Yi Yang, Jia Jia(参考訳) 大規模な事前訓練された視覚言語モデルは、ゼロショットテキストベースの3Dアバターの生成を可能にする。 以前の最先端の手法では、人間の体メッシュを再構築した神経暗黙のモデルを監督するためにCLIPを使用していた。 しかし、このアプローチには2つの制限がある。 まず、アバター特有のモデルの欠如は、生成されたアバターに顔の歪みと非現実的な衣服を引き起こす可能性がある。 第二に、CLIPは全体的な外観に対する最適化の方向のみを提供しており、印象的な結果が少ない。 これらの制約に対処するため,我々は,アバターの体から衣服を同時に分割しながら,人間の現実的なアバターを生成するためのピクセルレベルのガイダンスを提供するために,潜伏拡散モデルを用いた最初のフレームワークであるAvatarFusionを提案する。 AvatarFusionには、新しいDual Volume Rendering戦略を採用して、デカップリングされた皮膚と衣服のサブモデルを1つの空間でレンダリングする最初の衣服分離型ニューラル暗黙アバターモデルが含まれている。 また,身体と衣服の生成を意味的に分離し,様々な衣料スタイルを生成する新たな最適化手法であるpixel-semantics difference-sampling (ps-ds)を提案する。 さらに,ゼロショットテキスト-アバター生成のための最初のベンチマークを確立する。 実験の結果,我々のフレームワークは従来のアプローチを上回っており,すべてのメトリクスで大幅な改善が見られた。 さらに,モデルが衣料品分離であるため,アバターの衣料を交換できる。 コードは私たちのプロジェクトページhttps://hansenhuang0823.github.io/avatarfusionで利用できます。

Large-scale pre-trained vision-language models allow for the zero-shot text-based generation of 3D avatars. The previous state-of-the-art method utilized CLIP to supervise neural implicit models that reconstructed a human body mesh. However, this approach has two limitations. Firstly, the lack of avatar-specific models can cause facial distortion and unrealistic clothing in the generated avatars. Secondly, CLIP only provides optimization direction for the overall appearance, resulting in less impressive results. To address these limitations, we propose AvatarFusion, the first framework to use a latent diffusion model to provide pixel-level guidance for generating human-realistic avatars while simultaneously segmenting clothing from the avatar's body. AvatarFusion includes the first clothing-decoupled neural implicit avatar model that employs a novel Dual Volume Rendering strategy to render the decoupled skin and clothing sub-models in one space. We also introduce a novel optimization method, called Pixel-Semantics Difference-Sampling (PS-DS), which semantically separates the generation of body and clothes, and generates a variety of clothing styles. Moreover, we establish the first benchmark for zero-shot text-to-avatar generation. Our experimental results demonstrate that our framework outperforms previous approaches, with significant improvements observed in all metrics. Additionally, since our model is clothing-decoupled, we can exchange the clothes of avatars. Code are available on our project page https://hansenhuang0823.github.io/AvatarFusion.
翻訳日:2023-09-15 18:41:51 公開日:2023-09-14
# 注意と複数撮影による実効潜在微分方程式モデル

Effective Latent Differential Equation Models via Attention and Multiple Shooting ( http://arxiv.org/abs/2307.05735v3 )

ライセンス: Link先を確認
Germ\'an Abrevaya, Mahta Ramezanian-Panahi, Jean-Christophe Gagnon-Audet, Pablo Polosecki, Irina Rish, Silvina Ponce Dawson, Guillermo Cecchi, Guillaume Dumas(参考訳) scientific machine learning(sciml)は、ドメイン認識と解釈可能なモデルと不可知な機械学習技術を組み合わせた、急成長する分野である。 本稿では,SciML生成モデルの進化であるGOKU-UIを紹介する。 GOKU-UIは、SDE(Stochastic Differential Equations)のような他の微分方程式のクラスを組み込むために、原モデルのスペクトルを広げるだけでなく、注意機構と潜在空間における新しい多重射撃訓練戦略を統合する。 これらの修正により、シミュレーションデータと実験データの評価により、再構成タスクと予測タスクの両方のパフォーマンスが著しく向上した。 具体的には、GOKU-UIは16倍のトレーニングセットでも、合成データセット上のベースラインモデルを全て上回り、その顕著なデータ効率を誇示している。 さらに,経験的脳データに適用すると,確率的スチュアート・ランダウ振動子をその動的コアに組み込む一方で,提案する拡張により,複雑な脳の動態を捉える際のモデルの有効性が著しく向上した。 この拡張版は、再建作業における全てのベースラインメソッドを超えるだけでなく、最大15秒前の将来の脳活動の予測誤差も低かった。 休息状態fmriデータに極井を訓練することで、脳全体のダイナミクスを潜在表現に符号化し、脳の機能や精神状態の分類や精神疾患などの実用的応用への道筋を提供する低次元の力学系モデルを学ぶ。 最終的に、我々の研究は科学機械学習の分野をさらに推進し、確立された科学的洞察が現代の機械学習に織り込まれているときの進歩の可能性を示している。

Scientific Machine Learning (SciML) is a burgeoning field that synergistically combines domain-aware and interpretable models with agnostic machine learning techniques. In this work, we introduce GOKU-UI, an evolution of the SciML generative model GOKU-nets. GOKU-UI not only broadens the original model's spectrum to incorporate other classes of differential equations, such as Stochastic Differential Equations (SDEs), but also integrates attention mechanisms and a novel multiple shooting training strategy in the latent space. These modifications have led to a significant increase in its performance in both reconstruction and forecast tasks, as demonstrated by our evaluation of simulated and empirical data. Specifically, GOKU-UI outperformed all baseline models on synthetic datasets even with a training set 16-fold smaller, underscoring its remarkable data efficiency. Furthermore, when applied to empirical human brain data, while incorporating stochastic Stuart-Landau oscillators into its dynamical core, our proposed enhancements markedly increased the model's effectiveness in capturing complex brain dynamics. This augmented version not only surpassed all baseline methods in the reconstruction task, but also demonstrated lower prediction error of future brain activity up to 15 seconds ahead. By training GOKU-UI on resting state fMRI data, we encoded whole-brain dynamics into a latent representation, learning a low-dimensional dynamical system model that could offer insights into brain functionality and open avenues for practical applications such as the classification of mental states or psychiatric conditions. Ultimately, our research provides further impetus for the field of Scientific Machine Learning, showcasing the potential for advancements when established scientific insights are interwoven with modern machine learning.
翻訳日:2023-09-15 18:41:23 公開日:2023-09-14
# TIM:大規模言語モデルに比較翻訳を教える

TIM: Teaching Large Language Models to Translate with Comparison ( http://arxiv.org/abs/2307.04408v2 )

ライセンス: Link先を確認
Jiali Zeng and Fandong Meng and Yongjing Yin and Jie Zhou(参考訳) オープンソースの大言語モデル(llm)は、命令チューニングの様々なタスクにおいて顕著な効果を示している。 しかし、これらのモデルは翻訳のようなより専門的な知識を必要とするタスクに苦労することがある。 このような不足の原因の1つは、命令チューニングが、タスク固有の要求に制約されることなく、与えられた命令から継続する流れる、コヒーレントなテキストを生成することを目的としているためである。 さらに、低品質のトレーニングデータで小さなLLMをチューニングすることがより困難になる可能性がある。 この問題に対処するために,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。 このアプローチでは,正しい翻訳例と間違った翻訳例をモデルに提示し,モデルの学習を導くために選好損失を用いる。 提案手法をWMT2022テストセット上で評価し,既存の手法よりも優れていることを示す。 本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。 詳細はgithubのhttps://github.com/lemon0830/tim.comを参照。

Open-sourced large language models (LLMs) have demonstrated remarkable efficacy in various tasks with instruction tuning. However, these models can sometimes struggle with tasks that require more specialized knowledge such as translation. One possible reason for such deficiency is that instruction tuning aims to generate fluent and coherent text that continues from a given instruction without being constrained by any task-specific requirements. Moreover, it can be more challenging for tuning smaller LLMs with lower-quality training data. To address this issue, we propose a novel framework using examples in comparison to teach LLMs to learn translation. Our approach involves presenting the model with examples of correct and incorrect translations and using a preference loss to guide the model's learning. We evaluate our method on WMT2022 test sets and show that it outperforms existing methods. Our findings offer a new perspective on fine-tuning LLMs for translation tasks and provide a promising solution for generating high-quality translations. Please refer to Github for more details: https://github.com/lemon0830/TIM.
翻訳日:2023-09-15 18:40:52 公開日:2023-09-14
# ドメイン固有自然言語処理アプリケーション開発のための生成的ユーザエクスペリエンス研究

Generative User-Experience Research for Developing Domain-specific Natural Language Processing Applications ( http://arxiv.org/abs/2306.16143v3 )

ライセンス: Link先を確認
Anastasia Zhukova, Lukas von Sperl, Christian E. Matt, Bela Gipp(参考訳) ユーザエクスペリエンス(ux)は、ヒューマンコンピュータインタラクション(hci)研究の一部であり、システムユーザに対する直感性、透明性、シンプルさ、信頼の向上に重点を置いている。 機械学習(ML)や自然言語処理(NLP)のためのUX研究のほとんどは、データ駆動の方法論に焦点を当てている。 さらに、より一般的なUXメソッドは、最初にユーザニーズについて学ぶのとは異なり、システムをユーザユーザビリティに向けて調整する。 本稿では,生成UX研究をドメインNLPアプリケーションに組み込む手法を提案する。 生成UX研究は、プロトタイプ開発の初期段階、すなわちアイデアと概念評価、およびユーザ価値の変化を評価するための最終段階において、ドメインユーザーを採用する。 本ケーススタディでは,プロセス産業における日常業務のドメイン固有意味検索の完全サイクルプロトタイプ開発について報告する。 ケーススタディでは、ドメインエキスパートの関与は、NLPアプリケーションに対する関心と信頼を高めます。 さらに,狭義のNLPアプリケーションにおいて重要となるデータおよびユーザ主導の機会と制約を,相乗的UX+NLP研究が効率的に検討していることを示す。

User experience (UX) is a part of human-computer interaction (HCI) research and focuses on increasing intuitiveness, transparency, simplicity, and trust for system users. Most of the UX research for machine learning (ML) or natural language processing (NLP) focuses on a data-driven methodology, i.e., it fails to focus on users' requirements, and engages domain users mainly for usability evaluation. Moreover, more typical UX methods tailor the systems towards user usability, unlike learning about the user needs first. The paper proposes a methodology for integrating generative UX research into developing domain NLP applications. Generative UX research employs domain users at the initial stages of prototype development, i.e., ideation and concept evaluation, and the last stage for evaluating the change in user value. In the case study, we report the full-cycle prototype development of a domain-specific semantic search for daily operations in the process industry. Our case study shows that involving domain experts increases their interest and trust in the final NLP application. Moreover, we show that synergetic UX+NLP research efficiently considers data- and user-driven opportunities and constraints, which can be crucial for NLP applications in narrow domains
翻訳日:2023-09-15 18:40:19 公開日:2023-09-14
# 自然言語記述からのパラメトリックBRDFの生成

Generating Parametric BRDFs from Natural Language Descriptions ( http://arxiv.org/abs/2306.15679v2 )

ライセンス: Link先を確認
Sean Memery, Osmar Cedron, Kartic Subr(参考訳) 3d環境の芸術的オーサリングは、熟練したコンテンツ制作者も必要である。 メッシュの生成、幾何学の配置、テクスチャの合成など、3Dコンテンツ生成のさまざまな側面に機械学習を使用することで、大幅に改善されている。 本稿では,記述的テキストプロンプトから双方向反射分布関数(BRDF)を生成するモデルを開発する。 BRDFは、光と表面物質との相互作用を特徴付ける4次元の確率分布である。 それらはパラメトリック的に表されるか、または入射角と出射角のペアごとに関連する確率密度を集計することによって表される。 前者は芸術的な編集に力を貸し、後者は実物の外観を測定するのに使われる。 多くの研究がBRDFモデルを材料画像から仮定することに重点を置いている。 我々は,資料のテキスト記述からパラメトリックbrdfへのマッピングを学ぶ。 我々のモデルは、教師なしスキームでチューニングする前に、まず半教師なしアプローチを用いて訓練される。 本論文では, NVIDIA の Omniverse プラットフォーム内で, 自然言語記述を前提とした MDL 資料のパラメータを特に生成する。 これにより、リアルタイムテキストのようなユースケースでは、"dull plastic"や"shiny iron"といった3D環境のオブジェクトの素材を変更することができる。 本モデルの出力は材料の画像ではなくパラメトリックbrdfであるため、任意の表示や照明条件下で任意の形状の材料をレンダリングするのに使用できる。

Artistic authoring of 3D environments is a laborious enterprise that also requires skilled content creators. There have been impressive improvements in using machine learning to address different aspects of generating 3D content, such as generating meshes, arranging geometry, synthesizing textures, etc. In this paper we develop a model to generate Bidirectional Reflectance Distribution Functions (BRDFs) from descriptive textual prompts. BRDFs are four dimensional probability distributions that characterize the interaction of light with surface materials. They are either represented parametrically, or by tabulating the probability density associated with every pair of incident and outgoing angles. The former lends itself to artistic editing while the latter is used when measuring the appearance of real materials. Numerous works have focused on hypothesizing BRDF models from images of materials. We learn a mapping from textual descriptions of materials to parametric BRDFs. Our model is first trained using a semi-supervised approach before being tuned via an unsupervised scheme. Although our model is general, in this paper we specifically generate parameters for MDL materials, conditioned on natural language descriptions, within NVIDIA's Omniverse platform. This enables use cases such as real-time text prompts to change materials of objects in 3D environments such as "dull plastic" or "shiny iron". Since the output of our model is a parametric BRDF, rather than an image of the material, it may be used to render materials using any shape under arbitrarily specified viewing and lighting conditions.
翻訳日:2023-09-15 18:39:57 公開日:2023-09-14
# ロバストな命令調律による大規模マルチモーダルモデルの幻覚緩和

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning ( http://arxiv.org/abs/2306.14565v2 )

ライセンス: Link先を確認
Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang(参考訳) マルチモーダルタスクの有望な進歩にもかかわらず、現在の大規模マルチモーダルモデル(LMM)は、関連する画像と人間の指示に関して一貫性のない記述を幻覚させる傾向にある。 本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的命令チューニングデータセットを導入することでこの問題に対処する。 我々のデータセットは、GPT4が生成した120kの視覚命令で構成されており、16の視覚・言語タスクをオープンエンド命令と回答でカバーしている。 主に正の命令サンプルに焦点を当てた既存の研究とは異なり、我々は、より堅牢な視覚的命令チューニングのための正と負の両方の命令を含むLRV-インストラクションを設計する。 私たちの否定的な指示は2つの意味レベルで設計されます。 一 存在しない要素の操作及び操作 (II)既存の要素操作 LMMが生み出す幻覚を効果的に測定するために,人間の注釈を付さずに視覚指導のチューニングを評価する新しい手法であるGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。 われわれはLMMの幻覚を調査するための総合的な実験を行った。 以上の結果から,既存のLMMは負の指示,特に既存要素操作命令で有意な幻覚を示すことが明らかとなった。 さらに, LRV-InstructionでMiniGPT4を微調整することにより, 従来の手法に比べてトレーニングデータが少なく, 公開データセットの性能を向上しながら幻覚を緩和することに成功した。 さらに,トレーニングデータにおける正のインスタンスと負のインスタンスのバランスの取れた比率が,より堅牢なモデルにつながることを観測した。 プロジェクトの更新はhttps://fuxiaoliu.github.io/lrv/で利用可能です。

Despite the promising progress in multi-modal tasks, current large multi-modal models (LMM) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset consists of 120k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent Element Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel approach to evaluate visual instruction tuning without the need for human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate that existing LMMs exhibit significant hallucination when presented with our negative instructions, particularly with Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on LRV-Instruction, we successfully mitigate hallucination while improving performance on public datasets using less training data compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model. Updates of our project are available at https://fuxiaoliu.github.io/LRV/.
翻訳日:2023-09-15 18:39:33 公開日:2023-09-14
# DSTC11トラック4におけるオープンドメイン対話システムのロバストおよび多言語自動評価指標の概要

Overview of Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems at DSTC 11 Track 4 ( http://arxiv.org/abs/2306.12794v3 )

ライセンス: Link先を確認
Mario Rodr\'iguez-Cantelar and Chen Zhang and Chengguang Tang and Ke Shi and Sarik Ghazarian and Jo\~ao Sedoc and Luis Fernando D'Haro and Alexander Rudnicky(参考訳) ニューラルネットワークの出現と急速な発展は対話システムの研究に革命をもたらし、その後、その自動評価に関する様々な課題を引き起こした。 オープンチャレンジとしてのオープンドメイン対話システムの自動評価は、多くの研究者の注目を集めている。 自動メトリクスと人的評価の相関性を改善するための一貫した努力にもかかわらず、複数の領域や次元に対する堅牢性を評価する試みはごくわずかである。 また、主に英語に焦点が当てられている。 これらの課題はすべて、さまざまなドメイン、ディメンション、言語に信頼性のある自動評価メトリクスの開発を促す。 第11回対話システム技術チャレンジ(DSTC11)のこのトラックは、堅牢で多言語による自動評価のメトリクスを促進する取り組みの一環である。 本稿では、参加者に提供するデータセットとベースラインについて述べ、提案した2つのサブタスクの提出と結果の詳細について論じる。

The advent and fast development of neural networks have revolutionized the research on dialogue systems and subsequently have triggered various challenges regarding their automatic evaluation. Automatic evaluation of open-domain dialogue systems as an open challenge has been the center of the attention of many researchers. Despite the consistent efforts to improve automatic metrics' correlations with human evaluation, there have been very few attempts to assess their robustness over multiple domains and dimensions. Also, their focus is mainly on the English language. All of these challenges prompt the development of automatic evaluation metrics that are reliable in various domains, dimensions, and languages. This track in the 11th Dialogue System Technology Challenge (DSTC11) is part of the ongoing effort to promote robust and multilingual automatic evaluation metrics. This article describes the datasets and baselines provided to participants and discusses the submission and result details of the two proposed subtasks.
翻訳日:2023-09-15 18:38:46 公開日:2023-09-14
# Gibbs-Duhem-Informed Neural Networks for Binary Activity Coefficient Prediction (特集:ニューラルネット)

Gibbs-Duhem-Informed Neural Networks for Binary Activity Coefficient Prediction ( http://arxiv.org/abs/2306.07937v2 )

ライセンス: Link先を確認
Jan G. Rittig, Kobi C. Felton, Alexei A. Lapkin, Alexander Mitsos(参考訳) 本稿では,Gibs-Duhem-informed Neural Network を用いて,様々な組成における二成分活性係数の予測を行う。 つまり、gibbs-duhem方程式はニューラルネットワークのトレーニングのための損失関数に明示的に含まれている。 最近のハイブリッドMLアプローチとは対照的に、我々のアプローチはニューラルネットワークに特定の熱力学モデルとそれに対応する予測限界を埋め込むことに頼らない。 むしろ、gibbs-duhem一貫性は正規化として機能し、mlモデルの柔軟性が維持される。 Gibbs-Duhem-informed graph neural network and matrix completion method を用いて,活動係数予測における熱力学的一貫性と一般化能力の向上を示した。 また,モデルアーキテクチャ,特にアクティベーション関数は,予測品質に強い影響を与える可能性がある。 このアプローチは、他の熱力学的整合性条件を考慮して容易に拡張できる。

We propose Gibbs-Duhem-informed neural networks for the prediction of binary activity coefficients at varying compositions. That is, we include the Gibbs-Duhem equation explicitly in the loss function for training neural networks, which is straightforward in standard machine learning (ML) frameworks enabling automatic differentiation. In contrast to recent hybrid ML approaches, our approach does not rely on embedding a specific thermodynamic model inside the neural network and corresponding prediction limitations. Rather, Gibbs-Duhem consistency serves as regularization, with the flexibility of ML models being preserved. Our results show increased thermodynamic consistency and generalization capabilities for activity coefficient predictions by Gibbs-Duhem-informed graph neural networks and matrix completion methods. We also find that the model architecture, particularly the activation function, can have a strong influence on the prediction quality. The approach can be easily extended to account for other thermodynamic consistency conditions.
翻訳日:2023-09-15 18:37:51 公開日:2023-09-14
# 機械学習による新しい原子炉設計の発見

Machine Learning-Assisted Discovery of Novel Reactor Designs ( http://arxiv.org/abs/2308.08841v2 )

ライセンス: Link先を確認
Tom Savage, Nausheen Basha, Jonathan McDonough, Omar K Matar, Ehecatl Antonio del Rio Chanona(参考訳) 付加物製造は高度な原子炉ジオメトリの製作を可能にし、より大きく、より複雑な設計空間を可能にした。 このような空間内で有望な構成を特定することは、現在のアプローチにとって大きな課題となる。 さらに、既存の反応器ジオメトリのパラメータ化は低次元であり、より複雑な解を最適化するコストがかかる。 この課題に対処するために,高次元パラメータ化,計算流体力学,多元的ベイズ最適化の応用を組み合わせることで,次世代ケミカルリアクターの設計のための機械学習支援手法を確立する。 本研究では,新しいコイル型原子炉における混合強化渦流構造の開発と性能を関連付け,最適設計の重要な特徴を同定する手法を提案する。 流体力学的原理に訴えることにより,従来の設計よりも60%程度の性能向上をもたらす新しい設計特徴の選択を合理化する。 以上の結果から,先進的な製造技術と'提案型知能'のアプローチを組み合わせることで,優れた設計性能,その結果,排出削減と持続性が得られている。

Additive manufacturing has enabled the fabrication of advanced reactor geometries, permitting larger, more complex design spaces. Identifying promising configurations within such spaces presents a significant challenge for current approaches. Furthermore, existing parameterisations of reactor geometries are low-dimensional with expensive optimisation limiting more complex solutions. To address this challenge, we establish a machine learning-assisted approach for the design of the next-generation of chemical reactors, combining the application of high-dimensional parameterisations, computational fluid dynamics, and multi-fidelity Bayesian optimisation. We associate the development of mixing-enhancing vortical flow structures in novel coiled reactors with performance, and use our approach to identify key characteristics of optimal designs. By appealing to fluid mechanical principles, we rationalise the selection of novel design features that lead to experimental performance improvements of ~60% over conventional designs. Our results demonstrate that coupling advanced manufacturing techniques with `augmented-intelligence' approaches can lead to superior design performance and, consequently, emissions-reduction and sustainability.
翻訳日:2023-09-15 18:30:13 公開日:2023-09-14
# 双方向予測に基づく6次元物体ポーズ推定における視点注意の活用

Exploiting Point-Wise Attention in 6D Object Pose Estimation Based on Bidirectional Prediction ( http://arxiv.org/abs/2308.08518v3 )

ライセンス: Link先を確認
Yuhao Yang, Jun Wu, Yue Wang, Guangjian Zhang and Rong Xiong(参考訳) 従来の幾何学的登録に基づく推定手法はCADモデルのみを暗黙的に利用し、観察品質と排他性への欠如への依存につながる。 そこで本稿では,ポイントワイズ注意認識機構を備えた双方向対応予測ネットワークを提案する。 このネットワークは、対応を予測するためにモデルポイントを必要とするだけでなく、観測と先行モデルの幾何学的類似性を明示的にモデル化する。 私たちの重要な洞察は、各モデルポイントとシーンポイントの相関が、ポイントペアマッチの学習に不可欠な情報を提供するということです。 特徴分布のばらつきによる相関ノイズにさらに対処するために,特徴の均一性を改善するために,単純だが効果的な擬似テーマネットワークを設計する。 LineMOD, YCB-Video, Occ-LineMOD の公開データセットに対する実験結果から, 提案手法は, 同じ評価基準下での他の最先端手法よりも優れた性能が得られることが示された。 ポーズ推定におけるロバスト性は,特に重症咬合環境において著しく改善されている。

Traditional geometric registration based estimation methods only exploit the CAD model implicitly, which leads to their dependence on observation quality and deficiency to occlusion. To address the problem,the paper proposes a bidirectional correspondence prediction network with a point-wise attention-aware mechanism. This network not only requires the model points to predict the correspondence but also explicitly models the geometric similarities between observations and the model prior. Our key insight is that the correlations between each model point and scene point provide essential information for learning point-pair matches. To further tackle the correlation noises brought by feature distribution divergence, we design a simple but effective pseudo-siamese network to improve feature homogeneity. Experimental results on the public datasets of LineMOD, YCB-Video, and Occ-LineMOD show that the proposed method achieves better performance than other state-of-the-art methods under the same evaluation criteria. Its robustness in estimating poses is greatly improved, especially in an environment with severe occlusions.
翻訳日:2023-09-15 18:29:53 公開日:2023-09-14
# 物理に基づく文字制御のためのニューラルカテゴリー

Neural Categorical Priors for Physics-Based Character Control ( http://arxiv.org/abs/2308.07200v2 )

ライセンス: Link先を確認
Qingxu Zhu, He Zhang, Mengting Lan, Lei Han(参考訳) 最近の再利用可能な運動優先学習の進歩は、自然主義的行動の生成における効果を実証している。 本稿では,既存の最先端手法よりも動作品質と多様性が大幅に向上した物理ベースの文字を制御するための新しい学習フレームワークを提案する。 提案手法は,ベクトル量子化変分オートエンコーダ (vq-vae) で採用されている離散的情報ボトルネックを用いた非構造化モーションクリップからの生命運動を追跡・模倣するために強化学習 (rl) を用いる。 この構造は、モーションクリップから最も関連する情報をコンパクトで情報的な潜在空間、すなわちベクトル量子化された符号上の離散空間に圧縮する。 訓練されたカテゴリの事前分布から空間内のコードをサンプリングすることにより、コンピュータビジョンにおけるVQ-VAEと同様に、高品質なライフライクな振る舞いを生成することができる。 この事前分布はエンコーダの出力を監督して訓練することができるが、データセット内の元のモーションクリップ分布に従い、設定における不均衡な動作につながる可能性がある。 この問題に対処するため,好奇心駆動型RLを用いて事前分布を調整するための先行シフト方式を提案する。 結果分布は十分な行動多様性を示し、下流タスクの上位レベルの政策学習を著しく促進する。 ソードシールド打撃と2人のボクシングの2つの課題に対して,ヒューマノイド文字を用いた包括的実験を行った。 提案手法は,行動戦略,多様性,リアリズムの観点から,キャラクタをかなり高品質な動作に制御できることを示す。 ビデオ、コード、データはhttps://tencent-roboticsx.github.io/ncp/で入手できる。

Recent advances in learning reusable motion priors have demonstrated their effectiveness in generating naturalistic behaviors. In this paper, we propose a new learning framework in this paradigm for controlling physics-based characters with significantly improved motion quality and diversity over existing state-of-the-art methods. The proposed method uses reinforcement learning (RL) to initially track and imitate life-like movements from unstructured motion clips using the discrete information bottleneck, as adopted in the Vector Quantized Variational AutoEncoder (VQ-VAE). This structure compresses the most relevant information from the motion clips into a compact yet informative latent space, i.e., a discrete space over vector quantized codes. By sampling codes in the space from a trained categorical prior distribution, high-quality life-like behaviors can be generated, similar to the usage of VQ-VAE in computer vision. Although this prior distribution can be trained with the supervision of the encoder's output, it follows the original motion clip distribution in the dataset and could lead to imbalanced behaviors in our setting. To address the issue, we further propose a technique named prior shifting to adjust the prior distribution using curiosity-driven RL. The outcome distribution is demonstrated to offer sufficient behavioral diversity and significantly facilitates upper-level policy learning for downstream tasks. We conduct comprehensive experiments using humanoid characters on two challenging downstream tasks, sword-shield striking and two-player boxing game. Our results demonstrate that the proposed framework is capable of controlling the character to perform considerably high-quality movements in terms of behavioral strategies, diversity, and realism. Videos, codes, and data are available at https://tencent-roboticsx.github.io/NCP/.
翻訳日:2023-09-15 18:29:31 公開日:2023-09-14
# 高次HSICを用いたインクリメンタル情報を用いた非パラメトリックDAGの学習

Learning nonparametric DAGs with incremental information via high-order HSIC ( http://arxiv.org/abs/2308.05969v2 )

ライセンス: Link先を確認
Yafei Wang, Jianguo Liu(参考訳) ベイズサインネットワーク(bn)学習のためのスコアベース手法は、グローバルスコア関数を最大化することを目的としている。 しかし、局所変数が直接依存と間接依存を同時に持つ場合、スコア関数のグローバル最適化は間接依存関係を持つ変数間のエッジを見逃し、そのスコアは直接依存関係を持つ変数よりも小さい。 本稿では,DAGを同定するために,親の判断したサブセットに基づく識別可能性条件を提案する。 同定可能性条件により、グローバル最適化を局所的に修正する2相アルゴリズム、すなわち最適チューニング(OT)アルゴリズムを開発する。 最適位相において、一階ヒルベルト・シュミット独立基準(hsic)に基づく最適化問題は、初期決定親部分集合として推定骨格を与える。 チューニングフェーズでは、高次HSICの理論的に証明されたインクリメンタル特性を用いて、骨格は削除、追加、DAG形式化戦略によって局所的に調整される。 異なる合成データセットと実世界のデータセットの数値実験は、OTアルゴリズムが既存の手法より優れていることを示している。 特に、グラフのサイズが${\rm\bf d=40}$のsgmoid mixモデルでは、otアルゴリズムの構造介入距離(sid)がcamによって得られるものより329.7小さいため、otアルゴリズムで推定されるグラフはcamよりもエッジが小さいことを示している。

Score-based methods for learning Bayesain networks(BN) aim to maximizing the global score functions. However, if local variables have direct and indirect dependence simultaneously, the global optimization on score functions misses edges between variables with indirect dependent relationship, of which scores are smaller than those with direct dependent relationship. In this paper, we present an identifiability condition based on a determined subset of parents to identify the underlying DAG. By the identifiability condition, we develop a two-phase algorithm namely optimal-tuning (OT) algorithm to locally amend the global optimization. In the optimal phase, an optimization problem based on first-order Hilbert-Schmidt independence criterion (HSIC) gives an estimated skeleton as the initial determined parents subset. In the tuning phase, the skeleton is locally tuned by deletion, addition and DAG-formalization strategies using the theoretically proved incremental properties of high-order HSIC. Numerical experiments for different synthetic datasets and real-world datasets show that the OT algorithm outperforms existing methods. Especially in Sigmoid Mix model with the size of the graph being ${\rm\bf d=40}$, the structure intervention distance (SID) of the OT algorithm is 329.7 smaller than the one obtained by CAM, which indicates that the graph estimated by the OT algorithm misses fewer edges compared with CAM.Source code of the OT algorithm is available at https://github.com/YafeiannWang/optimal-tune-algorithm.
翻訳日:2023-09-15 18:29:02 公開日:2023-09-14
# ChatGPTの共感能力を探る

Exploring ChatGPT's Empathic Abilities ( http://arxiv.org/abs/2308.03527v2 )

ライセンス: Link先を確認
Kristina Schaaff, Caroline Reinig, Tim Schlippe(参考訳) 共感はしばしば、他人の心の状態や感情を共有し理解する能力として理解される。 様々な領域におけるチャットボットの利用が増加し、例えば、宿題を手伝う子供たち、医療アドバイスを求める個人、日々の交流の源泉としてチャットボットを使用している人々などによって、人間とコンピュータの相互作用における共感の重要性が増している。 そこで本研究では,GPT-3.5に基づくChatGPTが情緒的反応や情緒的表情を呈する程度について検討した。 本研究では,(1)感情の理解と表現,(2)パラレル感情応答,(3)共感的性格の3つの側面を解析した。 そこで我々はChatGPTを様々な共感的側面で評価し、人間の行動と比較するだけでなく、チャットボット全般の共感を解析する方法も示す。 その結果、91.7%の症例において、ChatGPTは感情を正しく識別し、適切な回答を得られることがわかった。 会話中、chatgptは70.7%の症例で平行感情で反応した。 ChatGPTの共感能力は,共感の異なる側面をカバーする5つの質問紙を用いて評価した。 結果から,ChatGPTの共感能力は健常人の平均を下回っていることが明らかとなったが,Asperger症候群/高機能自閉症と診断された人のスコアよりも優れていた。

Empathy is often understood as the ability to share and understand another individual's state of mind or emotion. With the increasing use of chatbots in various domains, e.g., children seeking help with homework, individuals looking for medical advice, and people using the chatbot as a daily source of everyday companionship, the importance of empathy in human-computer interaction has become more apparent. Therefore, our study investigates the extent to which ChatGPT based on GPT-3.5 can exhibit empathetic responses and emotional expressions. We analyzed the following three aspects: (1) understanding and expressing emotions, (2) parallel emotional response, and (3) empathic personality. Thus, we not only evaluate ChatGPT on various empathy aspects and compare it with human behavior but also show a possible way to analyze the empathy of chatbots in general. Our results show, that in 91.7% of the cases, ChatGPT was able to correctly identify emotions and produces appropriate answers. In conversations, ChatGPT reacted with a parallel emotion in 70.7% of cases. The empathic capabilities of ChatGPT were evaluated using a set of five questionnaires covering different aspects of empathy. Even though the results indicate that the empathic abilities of ChatGPT are still below the average of healthy humans, the scores are better than those of people who have been diagnosed with Asperger syndrome / high-functioning autism.
翻訳日:2023-09-15 18:28:36 公開日:2023-09-14
# 移植可能なグラフニューラルフィンガープリントモデルによる次世代バイオサートへのクイックレスポンス

Transferable Graph Neural Fingerprint Models for Quick Response to Future Bio-Threats ( http://arxiv.org/abs/2308.01921v2 )

ライセンス: Link先を確認
Wei Chen, Yihui Ren, Ai Kagawa, Matthew R. Carbone, Samuel Yen-Chi Chen, Xiaohui Qu, Shinjae Yoo, Austin Clyde, Arvind Ramanathan, Rick L. Stevens, Hubertus J. J. van Dam, Deyu Liu(参考訳) リガンド結合親和性に基づく薬物分子の高速スクリーニングは、創薬パイプラインにおいて重要なステップである。 グラフニューラルフィンガープリントは高いスループットと高い忠実度を持つ分子ドッキングサロゲートの開発に有望な方法である。 本研究では、23種類のタンパク質を標的とした約30万種類の薬物候補のドッキングデータセットを構築した。 このデータセットを用いて、高スループットの仮想COVID-19薬物スクリーニングのためのグラフニューラルフィンガードッキングモデルを訓練した。 グラフニューラルフィンガープリントモデルは、ドッキング対象のほとんどにおいて平均2乗誤差が0.21$ kcal/mol未満のドッキングスコアにおいて高い予測精度を示し、従来の円形指紋法よりも大幅に改善した。 未知のターゲットに対して神経指紋を転送可能にするために,複数のターゲットに対してトレーニングしたグラフ神経指紋法を提案する。 ターゲット固有のグラフニューラルフィンガープリントモデルと同等の精度で、転送可能なモデルは、スーパーブトレーニングとデータ効率を示す。 今回の研究は、新型コロナウイルス(covid-19)データセット以外にも影響が及んでいることを強調する。高速仮想リガンドスクリーニングのアプローチは、将来的なバイオ脅威と戦うために、一般的な機械学習アクセラレーションパイプラインに容易に適応し、統合することが可能です。

Fast screening of drug molecules based on the ligand binding affinity is an important step in the drug discovery pipeline. Graph neural fingerprint is a promising method for developing molecular docking surrogates with high throughput and great fidelity. In this study, we built a COVID-19 drug docking dataset of about 300,000 drug candidates on 23 coronavirus protein targets. With this dataset, we trained graph neural fingerprint docking models for high-throughput virtual COVID-19 drug screening. The graph neural fingerprint models yield high prediction accuracy on docking scores with the mean squared error lower than $0.21$ kcal/mol for most of the docking targets, showing significant improvement over conventional circular fingerprint methods. To make the neural fingerprints transferable for unknown targets, we also propose a transferable graph neural fingerprint method trained on multiple targets. With comparable accuracy to target-specific graph neural fingerprint models, the transferable model exhibits superb training and data efficiency. We highlight that the impact of this study extends beyond COVID-19 dataset, as our approach for fast virtual ligand screening can be easily adapted and integrated into a general machine learning-accelerated pipeline to battle future bio-threats.
翻訳日:2023-09-15 18:28:10 公開日:2023-09-14
# ハイブリッドASPによる半導体製造プロセスの多目的スケジューリング(拡張バージョン)

Hybrid ASP-based multi-objective scheduling of semiconductor manufacturing processes (Extended version) ( http://arxiv.org/abs/2307.14799v3 )

ライセンス: Link先を確認
Mohammed M. S. El-Kholany, Ramsha Ali, Martin Gebser(参考訳) 現代の半導体製造では、数百の操作からなる複雑な製造プロセスが伴い、ロットの放出から完成まで数ヶ月かかる。 これらのプロセスで使用されるハイテクマシンは多種多様であり、個々のウエハ、ロット、バッチを複数段階で運用し、製品固有のセットアップと特別なメンテナンス手順を必要とする。 この状況は、複雑な生産プロセスやマシンが少ない従来のジョブショップスケジューリングシナリオと異なり、主に高度に組み合わせられるが抽象的なスケジューリング問題の解決に重点を置いている。 本研究は, フレキシブルマシン処理, セットアップ, バッチ処理, 保守操作を取り入れた, 差分論理を用いたハイブリッドアンサーセットプログラミングを用いて, 特定の要求をモデル化することにより, 現実的な半導体製造プロセスのスケジューリングに対処する。 半導体製造プロセスが局所的にグリーディ・ヒューリスティックや独立して特定の機械群割り当てを最適化する既存の手法とは異なり、複数の最適化目標を満たした大規模スケジューリングの可能性を検討する。

Modern semiconductor manufacturing involves intricate production processes consisting of hundreds of operations, which can take several months from lot release to completion. The high-tech machines used in these processes are diverse, operate on individual wafers, lots, or batches in multiple stages, and necessitate product-specific setups and specialized maintenance procedures. This situation is different from traditional job-shop scheduling scenarios, which have less complex production processes and machines, and mainly focus on solving highly combinatorial but abstract scheduling problems. In this work, we address the scheduling of realistic semiconductor manufacturing processes by modeling their specific requirements using hybrid Answer Set Programming with difference logic, incorporating flexible machine processing, setup, batching and maintenance operations. Unlike existing methods that schedule semiconductor manufacturing processes locally with greedy heuristics or by independently optimizing specific machine group allocations, we examine the potentials of large-scale scheduling subject to multiple optimization objectives.
翻訳日:2023-09-15 18:27:22 公開日:2023-09-14
# 分節的双生児:文表現の微粒な意味的コントラスト学習

Identical and Fraternal Twins: Fine-Grained Semantic Contrastive Learning of Sentence Representations ( http://arxiv.org/abs/2307.10932v2 )

ライセンス: Link先を確認
Qingfa Xiao, Shuangyin Li, Lei Chen(参考訳) 文表現の教師なし学習の強化は、コントラスト学習の有用性によって著しく達成されている。 このアプローチは、拡張正のインスタンスをアンカーインスタンスとクラスタリングして、望ましい埋め込みスペースを作成する。 しかし、対照的な目的のみに依存することは、正のペア間で微妙な意味のバリエーションを区別できないため、最適以下の結果をもたらす可能性がある。 特に、一般的なデータ拡張技術は、しばしば意味的歪みをもたらし、正のペア間の意味的マージンをもたらす。 情報損失関数は意味的マージンを見落とし、トレーニング中の正のペア間の類似度最大化を優先するが、トレーニングされたモデルの無意識な意味的理解能力に繋がる。 本稿では,異なる拡張手法によって生成される様々な正の対に同時に適応できる,新しいIdentical and Fraternal Twins of Contrastive Learning (IFTCL)フレームワークを提案する。 そこで本研究では,学習中に生来のマージンを保ち,データエンハンスメントの可能性を促進し,下位最適化問題を克服する \textit{twins loss} を提案する。 また,提案したツインズ・ロスの有効性を証明するために,概念実証実験と対照的な目的を組み合わせる。 さらに,新たな計算を行わずに負のインスタンスを復元・再利用するための海馬待ち行列機構を提案し,IFCLの効率と性能をさらに向上させる。 英語と中国語のデータセットで9つの意味的テキスト類似性タスクをifclフレームワークで検証し,ifclが最先端の手法よりも優れていることを示す。

The enhancement of unsupervised learning of sentence representations has been significantly achieved by the utility of contrastive learning. This approach clusters the augmented positive instance with the anchor instance to create a desired embedding space. However, relying solely on the contrastive objective can result in sub-optimal outcomes due to its inability to differentiate subtle semantic variations between positive pairs. Specifically, common data augmentation techniques frequently introduce semantic distortion, leading to a semantic margin between the positive pair. While the InfoNCE loss function overlooks the semantic margin and prioritizes similarity maximization between positive pairs during training, leading to the insensitive semantic comprehension ability of the trained model. In this paper, we introduce a novel Identical and Fraternal Twins of Contrastive Learning (named IFTCL) framework, capable of simultaneously adapting to various positive pairs generated by different augmentation techniques. We propose a \textit{Twins Loss} to preserve the innate margin during training and promote the potential of data enhancement in order to overcome the sub-optimal issue. We also present proof-of-concept experiments combined with the contrastive objective to prove the validity of the proposed Twins Loss. Furthermore, we propose a hippocampus queue mechanism to restore and reuse the negative instances without additional calculation, which further enhances the efficiency and performance of the IFCL. We verify the IFCL framework on nine semantic textual similarity tasks with both English and Chinese datasets, and the experimental results show that IFCL outperforms state-of-the-art methods.
翻訳日:2023-09-15 18:27:03 公開日:2023-09-14
# 空洞QEDモデルにおける量子絡み合いと量子不協和の研究

Studying quantum entanglement and quantum discord in the cavity QED models ( http://arxiv.org/abs/2307.07352v2 )

ライセンス: Link先を確認
Miao Hui-hui and Li Wang-shun(参考訳) 2キュービットのJaynes-Cummingsモデル(共通キャビティ量子電磁力学モデル)と3キュービットのTavis-Cummingsモデルの変更により、二部量子系における光と物質間の量子相関について検討する。 量子マスター方程式の解法により、開系における散逸ダイナミクスを導出することができる。 2ビット系の量子エンタングルメントの度合いを測るために、フォン・ノイマンエントロピーと共起を導入する。 閉システムと開システムの両方で量子相関を適切に測定できる量子ディスコードも導入されている。 さらに、量子ディスコードに対する初期絡み合いと散逸強度の影響についても考察する。 最後に、量子と古典の2つの異なる原子運動のケースについて議論した。

Based on the two-qubit Jaynes-Cummings model - a common cavity quantum electrodynamics model, and extending to modification of the three-qubit Tavis-Cummings model, we investigate the quantum correlation between light and matter in bipartite quantum systems. By resolving the quantum master equation, we are able to derive the dissipative dynamics in open systems. To gauge the degree of quantum entanglement in the two-qubit system, von Neumann entropy and concurrence are introduced. Quantum discord, which can properly measure the quantum correlation in both closed and open systems, is also introduced. In addition, consideration is given to the impacts of initial entanglement and dissipation strength on quantum discord. Finally we discussed two different cases of nuclei motion: quantum and classical.
翻訳日:2023-09-15 18:26:33 公開日:2023-09-14
# RigNet++: 深度補完のための効率的な反復画像ガイドネットワーク

RigNet++: Efficient Repetitive Image Guided Network for Depth Completion ( http://arxiv.org/abs/2309.00655v2 )

ライセンス: Link先を確認
Zhiqiang Yan and Xiang Li and Zhenyu Zhang and Jun Li and Jian Yang(参考訳) 深度補完は、この作業を容易にするために色画像がしばしば使用される、疎密な深度マップを回収することを目的としている。 最近の深度法は主に画像誘導学習フレームワークに焦点をあてている。 しかし、画像のぼやけた指示と奥行きの曖昧な構造は、それでもその性能を損なう。 これらの課題に対処するために、画像ガイドネットワークにおける効率的な反復設計を探索し、徐々に十分に深度を復元する。 具体的には、画像誘導枝と深度生成枝の両方に効率的な繰り返しを具備する。 前者では,複雑な環境の識別画像の特徴を抽出し,奥行き予測のための強力な文脈指示を提供するために,集中的に反復する砂時計ネットワークを設計した。 後者では、動的畳み込みに基づく反復的誘導モジュールを導入し、高頻度構造を漸進的にモデル化しながら複雑性を低減できる効率的な畳み込み分解を提案する。 大規模な実験の結果,KITTI,VKITTI,NYUv2,3D60,Matterport3Dデータセットにおいて,本手法が優れた,あるいは競争的な結果をもたらすことが示された。

Depth completion aims to recover dense depth maps from sparse ones, where color images are often used to facilitate this task. Recent depth methods primarily focus on image guided learning frameworks. However, blurry guidance in the image and unclear structure in the depth still impede their performance. To tackle these challenges, we explore an efficient repetitive design in our image guided network to gradually and sufficiently recover depth values. Specifically, the efficient repetition is embodied in both the image guidance branch and depth generation branch. In the former branch, we design a dense repetitive hourglass network to extract discriminative image features of complex environments, which can provide powerful contextual instruction for depth prediction. In the latter branch, we introduce a repetitive guidance module based on dynamic convolution, in which an efficient convolution factorization is proposed to reduce the complexity while modeling high-frequency structures progressively. Extensive experiments indicate that our approach achieves superior or competitive results on KITTI, VKITTI, NYUv2, 3D60, and Matterport3D datasets.
翻訳日:2023-09-15 18:20:10 公開日:2023-09-14
# 検索エンジン広告システムにおけるプライバシーリスクの理解

Understanding the Privacy Risks of Popular Search Engine Advertising Systems ( http://arxiv.org/abs/2308.15309v2 )

ライセンス: Link先を確認
Salim Chouaki, Oana Goga, Hamed Haddadi, Peter Snyder(参考訳) 本稿では,プライバシーに焦点をあてた検索エンジンで使用される広告システムのプライバシー特性を,初めて広範囲に計測する。 広告ベースのビジネスモデルであるStartPage、Qwant、DuckDuckGoの3つの人気のあるプライベート検索エンジン上で、検索広告のクリックが与える影響を、GoogleとBingの2つの主要なデータ共有モデルと比較する自動化手法を提案する。 広告をクリックすると、サードパーティがユーザーを追跡する可能性について、第1のストレージ、ドメインパスのリダイレクト、クリック前後のリクエストを分析して検討する。 その結果,プライバシー重視の検索エンジンは広告クリック時のプライバシー保護に失敗していることがわかった。 ユーザのリクエストは、bingの広告クリックの4%、qwantの広告クリックの86%、google、duckduckgo、startpageの広告クリックの100%のリディレクトリを通じて送信される。 さらに悪いことに、広告システムは、ほとんどの広告クリックで広告主にユニークなIDを渡すことによって、すべての検索エンジンの広告主と衝突する。 これらのIDは、ユーザーがリダイレクトされた時に記録したアクティビティに加えて、リダイレクト者が広告の目的地ウェブサイトでユーザーのアクティビティを集約することを可能にする。 全体として、プライバシー重視の検索エンジンと従来の検索エンジンの両方が、プライバシー強化されたブラウザでさえ、クロスサイトトラッキングを可能にするプライバシー保護行動に関与しているのを観察する。

We present the first extensive measurement of the privacy properties of the advertising systems used by privacy-focused search engines. We propose an automated methodology to study the impact of clicking on search ads on three popular private search engines which have advertising-based business models: StartPage, Qwant, and DuckDuckGo, and we compare them to two dominant data-harvesting ones: Google and Bing. We investigate the possibility of third parties tracking users when clicking on ads by analyzing first-party storage, redirection domain paths, and requests sent before, when, and after the clicks. Our results show that privacy-focused search engines fail to protect users' privacy when clicking ads. Users' requests are sent through redirectors on 4% of ad clicks on Bing, 86% of ad clicks on Qwant, and 100% of ad clicks on Google, DuckDuckGo, and StartPage. Even worse, advertising systems collude with advertisers across all search engines by passing unique IDs to advertisers in most ad clicks. These IDs allow redirectors to aggregate users' activity on ads' destination websites in addition to the activity they record when users are redirected through them. Overall, we observe that both privacy-focused and traditional search engines engage in privacy-harming behaviors allowing cross-site tracking, even in privacy-enhanced browsers.
翻訳日:2023-09-15 18:19:52 公開日:2023-09-14
# eecs学生のための量子プログラミングラボ

Hands-on Quantum Programming Labs for EECS Students ( http://arxiv.org/abs/2308.14002v2 )

ライセンス: Link先を確認
Janche Sang and Chansu Yu(参考訳) 本報告は,電子工学・計算機科学(eecs)学生に専用ハンズオンプログラミングラボを通して量子コンピューティングを教える実践的アプローチを提案する。 研究所は、エンタングルメント、量子ゲート、回路などの基本的な要素、量子鍵分布、deutschおよびdeutsch-jozsaアルゴリズム、simonのアルゴリズム、groverのアルゴリズムといった高度なアルゴリズムを含む、さまざまなトピックをカバーしている。 教育者として、私たちはこの分野の仲間のインストラクターと教えの洞察とリソースを共有することを目標としています。 興味のあるインストラクターには、完全なラボハンドアウトとプログラムテンプレートが提供される。 さらに、報告書は各実験の設計の背後にある理論的根拠を解明し、量子コンピューティングのより深い理解を可能にした。

This report presents a practical approach to teaching quantum computing to Electrical Engineering & Computer Science (EECS) students through dedicated hands-on programming labs. The labs cover a diverse range of topics, encompassing fundamental elements, such as entanglement, quantum gates and circuits, as well as advanced algorithms including Quantum Key Distribution, Deutsch and Deutsch-Jozsa Algorithms, Simon's algorithm, and Grover's algorithm. As educators, we aim to share our teaching insights and resources with fellow instructors in the field. The full lab handouts and program templates are provided for interested instructors. Furthermore, the report elucidates the rationale behind the design of each experiment, enabling a deeper understanding of quantum computing.
翻訳日:2023-09-15 18:19:27 公開日:2023-09-14
# RestNet: Residual Transformation NetworkによるクロスドメインFew-Shotセグメンテーションの強化

RestNet: Boosting Cross-Domain Few-Shot Segmentation with Residual Transformation Network ( http://arxiv.org/abs/2308.13469v2 )

ライセンス: Link先を確認
Xinyang Huang, Chuang Zhu, Wenkai Chen(参考訳) クロスドメイン小ショットセグメンテーション(CD-FSS)は、注釈付きサンプルの数が限られている未確認領域におけるセグメンテーションを実現することを目的としている。 既存のCD-FSSモデルはクロスドメインの特徴変換に重点を置いているが、ドメイン間の知識伝達のみに依存しているため、重要なドメイン内情報を失う可能性がある。 そこで本研究では,ドメイン内サポートクエリの特徴情報を保持しながら,知識伝達を容易にする新たな残差変換ネットワーク(RestNet)を提案する。 具体的には、高度な意味論を用いて、機能を安定したドメインに依存しない空間にマッピングする、セマンティック拡張アンカー変換(seat)モジュールを提案する。 さらに、ドメイン内残留拡張(IRE)モジュールは、新しい空間における元の識別空間のドメイン内表現を維持するように設計されている。 また,モデルのセグメンテーション学習を支援するために,プロトタイプ融合に基づくマスク予測戦略を提案する。 RestNetはドメイン間およびドメイン内の両方からドメイン間の知識を、追加の微調整を必要とせずに転送できる。 ISIC,Chest X-ray,FSS-1000の広範囲な実験により,我々のRestNetが最先端の性能を達成することが示された。 私たちのコードはもうすぐ利用可能になるでしょう。

Cross-domain few-shot segmentation (CD-FSS) aims to achieve semantic segmentation in previously unseen domains with a limited number of annotated samples. Although existing CD-FSS models focus on cross-domain feature transformation, relying exclusively on inter-domain knowledge transfer may lead to the loss of critical intra-domain information. To this end, we propose a novel residual transformation network (RestNet) that facilitates knowledge transfer while retaining the intra-domain support-query feature information. Specifically, we propose a Semantic Enhanced Anchor Transform (SEAT) module that maps features to a stable domain-agnostic space using advanced semantics. Additionally, an Intra-domain Residual Enhancement (IRE) module is designed to maintain the intra-domain representation of the original discriminant space in the new space. We also propose a mask prediction strategy based on prototype fusion to help the model gradually learn how to segment. Our RestNet can transfer cross-domain knowledge from both inter-domain and intra-domain without requiring additional fine-tuning. Extensive experiments on ISIC, Chest X-ray, and FSS-1000 show that our RestNet achieves state-of-the-art performance. Our code will be available soon.
翻訳日:2023-09-15 18:19:13 公開日:2023-09-14
# マルチモーダル大言語モデルのための位置強調視覚インストラクションチューニング

Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models ( http://arxiv.org/abs/2308.13437v2 )

ライセンス: Link先を確認
Chi Chen, Ruoyu Qin, Fuwen Luo, Xiaoyue Mi, Peng Li, Maosong Sun, Yang Liu(参考訳) 近年,大規模言語モデル(llm)による視覚インストラクションチューニングによる画像解釈を可能にするマルチモーダル大規模言語モデル(mllms)が大きな成功を収めている。 しかし、既存のビジュアルインストラクションチューニング手法では、言語と画像のモダリティを調整するためにのみ、画像言語命令データを使用する。 本稿では,地域レベルの視覚エンコーダを統合することで,MLLMの機能を拡張した位置強調型視覚インストラクションチューニング(PVIT)を提案する。 この統合により、MLLMの画像のより詳細な理解が促進される。 さらに,視覚モジュールとllmの細かなアラインメントを効率的に達成するために,複数のデータ生成戦略を設計し,画像領域言語命令データセットを構築する。 最後に,提案モデルの優位性を示す定量的実験と定性解析の両方を提示する。 コードとデータはhttps://github.com/PVIT-official/PVITで公開される。

Recently, Multimodal Large Language Models (MLLMs) that enable Large Language Models (LLMs) to interpret images through visual instruction tuning have achieved significant success. However, existing visual instruction tuning methods only utilize image-language instruction data to align the language and image modalities, lacking a more fine-grained cross-modal alignment. In this paper, we propose Position-enhanced Visual Instruction Tuning (PVIT), which extends the functionality of MLLMs by integrating an additional region-level vision encoder. This integration promotes a more detailed comprehension of images for the MLLM. In addition, to efficiently achieve a fine-grained alignment between the vision modules and the LLM, we design multiple data generation strategies to construct an image-region-language instruction dataset. Finally, we present both quantitative experiments and qualitative analysis that demonstrate the superiority of the proposed model. Code and data will be released at https://github.com/PVIT-official/PVIT.
翻訳日:2023-09-15 18:18:51 公開日:2023-09-14
# Qwen-VL: 理解、ローカライゼーション、テキスト読解などのための多機能視覚言語モデル

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond ( http://arxiv.org/abs/2308.12966v2 )

ライセンス: Link先を確認
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou(参考訳) テキストと画像の両方を知覚し理解するために設計された大規模視覚言語モデル(LVLM)であるQwen-VLシリーズを紹介する。 Qwen-VLとQwen-VL-Chatを組み合わせたこれらのモデルは、画像キャプション、質問応答、視覚的ローカライゼーション、フレキシブルなインタラクションといったタスクにおいて、優れたパフォーマンスを示す。 評価は、ゼロショットキャプション、視覚的または文書的な視覚的質問応答、接地など幅広いタスクをカバーする。 我々は、Qwen-VLが既存のLVLMより優れていることを示す。 我々は、そのアーキテクチャ、トレーニング、能力、パフォーマンスを示し、マルチモーダル人工知能の進歩への貢献を強調する。 コード、デモ、モデルはhttps://github.com/qwenlm/qwen-vlで入手できる。

We introduce the Qwen-VL series, a set of large-scale vision-language models (LVLMs) designed to perceive and understand both text and images. Comprising Qwen-VL and Qwen-VL-Chat, these models exhibit remarkable performance in tasks like image captioning, question answering, visual localization, and flexible interaction. The evaluation covers a wide range of tasks including zero-shot captioning, visual or document visual question answering, and grounding. We demonstrate the Qwen-VL outperforms existing LVLMs. We present their architecture, training, capabilities, and performance, highlighting their contributions to advancing multimodal artificial intelligence. Code, demo and models are available at https://github.com/QwenLM/Qwen-VL.
翻訳日:2023-09-15 18:18:34 公開日:2023-09-14
# グリーン関数の逆流補正:二次元Fermi-Hubbard型モデルのベンチマーク

Backflow Corrections of Green's Functions: Benchmarks on the Two-dimensional Fermi-Hubbard-type Model ( http://arxiv.org/abs/2308.11823v3 )

ライセンス: Link先を確認
Yu-Tong Zhou, Zheng-Wei Zhou, Xiao Liang(参考訳) 量子多体問題は凝縮物質物理学において重要なトピックである。 この問題を解決するため、波動関数の表現能力を向上させるため、いくつかの手法が開発されている。 フェルミ・ハバード型モデルでは、基底エネルギーは1体と2体の相関を含む。 波動関数とは対照的に、グリーン関数は複数の部位間の時空間相関を直接表現する。 本研究では, 1体グリーン関数の逆流補正を行い, 相関を捉える能力を向上させる。 本手法は,開境界条件を持つスピンレス$t-V$モデルと,長方形格子上の周期的および円筒的境界条件を持つFermi-Hubbardモデルでベンチマークを行う。 本手法で得られたエネルギーは最先端の手法で達成したエネルギーよりも、あるいはさらに低いエネルギーである。

The quantum many-body problem is an important topic in condensed matter physics. To efficiently solve the problem, several methods have been developped to improve the representation ability of wave-functions. For the Fermi-Hubbard-type model, the ground energy contains one-body and two-body correlations. In contrast to the wave-function, the Green function directly represents the spatio-temporal correlations between multiple sites. In this work, we propose a backflow correction of the one-body Green function to improve the ability to capture correlations. Our method is benchmarked on the spinless $t-V$ model with open boundary conditions and on the Fermi-Hubbard model with periodic and cylindrical boudary conditions, both on rectangular lattices. The energies achieved by our method are competitive with or even lower than those achieved by state-of-the-art methods.
翻訳日:2023-09-15 18:18:19 公開日:2023-09-14
# YORC:Yoruba Reading Comprehension データセット

YORC: Yoruba Reading Comprehension dataset ( http://arxiv.org/abs/2308.09768v2 )

ライセンス: Link先を確認
Anuoluwapo Aremu, Jesujoba O. Alabi, David Ifeoluwa Adelani(参考訳) 本稿では, ヨルバ高校読書理解試験に基づく, ヨルバ読解理解データセット YORC を作成する。 事前学習されたエンコーダのみモデルに基づいて,既存の英語レースデータセットを用いて言語間転送を行うことにより,基本結果を提供する。 さらに, GPT-4 のような大規模言語モデル (LLM) も提案する。

In this paper, we create YORC: a new multi-choice Yoruba Reading Comprehension dataset that is based on Yoruba high-school reading comprehension examination. We provide baseline results by performing cross-lingual transfer using existing English RACE dataset based on a pre-trained encoder-only model. Additionally, we provide results by prompting large language models (LLMs) like GPT-4.
翻訳日:2023-09-15 18:17:29 公開日:2023-09-14
# SimpleNeRF: 単純解を用いたスパース入力ニューラルラジアンスフィールドの正規化

SimpleNeRF: Regularizing Sparse Input Neural Radiance Fields with Simpler Solutions ( http://arxiv.org/abs/2309.03955v2 )

ライセンス: Link先を確認
Nagabhushan Somraj, Adithyan Karanayil, Rajiv Soundararajan(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、シーンのフォトリアリスティックなフリービューレンダリングに優れた性能を示す。 しかし、NeRFはシーン内の画像の濃密なサンプリングを必要とし、その性能はスパースビューのみが利用可能である場合に著しく低下する。 研究者たちは、NeRFによって推定される深度を監督することで、より少ない視野で効果的にトレーニングできることを発見した。 奥行きの監視は、古典的なアプローチか、大規模なデータセットで事前訓練されたニューラルネットワークを使って得られる。 前者はまばらな監督のみを提供するが、後者は一般化の問題に苦しむこともある。 従来のアプローチとは対照的に,我々は,拡張モデルを設計し,NeRFとともに訓練することにより,深度監視の学習を目指す。 我々は,nrfの訓練における位置エンコーディングとビュー依存輝度の役割を探究することにより,より単純な解を奨励する拡張モデルを設計する。 これらの単純なモデルにより推定される深さは、NeRF深度推定を監督するために使用される。 拡張モデルは特定の領域で不正確であるため,信頼性の高い深度推定のみを選択する機構を設計する。 最後に,NeRFの粗い多層パーセプトロンと微細な多層パーセプトロンとの整合性損失を加え,階層的サンプリングの精度向上を図る。 上記の正規化を用いて,2つの人気データセットにおける最先端のビュー合成性能を実現する。 私たちのモデルのソースコードは、プロジェクトのページで確認できます。

Neural Radiance Fields (NeRF) show impressive performance for the photorealistic free-view rendering of scenes. However, NeRFs require dense sampling of images in the given scene, and their performance degrades significantly when only a sparse set of views are available. Researchers have found that supervising the depth estimated by the NeRF helps train it effectively with fewer views. The depth supervision is obtained either using classical approaches or neural networks pre-trained on a large dataset. While the former may provide only sparse supervision, the latter may suffer from generalization issues. As opposed to the earlier approaches, we seek to learn the depth supervision by designing augmented models and training them along with the NeRF. We design augmented models that encourage simpler solutions by exploring the role of positional encoding and view-dependent radiance in training the few-shot NeRF. The depth estimated by these simpler models is used to supervise the NeRF depth estimates. Since the augmented models can be inaccurate in certain regions, we design a mechanism to choose only reliable depth estimates for supervision. Finally, we add a consistency loss between the coarse and fine multi-layer perceptrons of the NeRF to ensure better utilization of hierarchical sampling. We achieve state-of-the-art view-synthesis performance on two popular datasets by employing the above regularizations. The source code for our model can be found on our project page: https://nagabhushansn95.github.io/publications/2023/SimpleNeRF.html
翻訳日:2023-09-15 18:10:57 公開日:2023-09-14
# USA: ユニバーサル感性分析モデルと日本語感性テキスト分類の構築と音声データセットの一部

USA: Universal Sentiment Analysis Model & Construction of Japanese Sentiment Text Classification and Part of Speech Dataset ( http://arxiv.org/abs/2309.03787v2 )

ライセンス: Link先を確認
Chengguang Gan, Qinghao Zhang, Tatsunori Mori(参考訳) 感性分析は自然言語処理の領域において重要な課題である。 テキストレベルの感情極性分類と単語レベルの音声(POS)の感情極性決定の両方を包含する。 このような分析は、曖昧な情報を抽出しながら、テキストを水平に理解するモデルに挑戦する。 大規模言語モデル(llm)の台頭に伴い、感情分析のための新しい道が開かれた。 本稿では,個々の単語とテキスト全体の相互強化効果(MRE)を活用することで,パフォーマンスの向上を提案する。 言葉の極性が通路の全体的感情にどのように影響するかを掘り下げる。 本研究を支援するために,既存の感情分類データセットに基づいて,4つの新しい感性テキスト分類と音声の一部(SCPOS)データセットを注釈付けした。 さらに,7ビリオンのパラメータサイズを持つユニバーサル感性分析(USA)モデルを開発した。 実験結果から, 感情分析におけるMREの重要性を実証し, gpt-3.5-turboの性能を4つのデータセットすべてで上回った。

Sentiment analysis is a pivotal task in the domain of natural language processing. It encompasses both text-level sentiment polarity classification and word-level Part of Speech(POS) sentiment polarity determination. Such analysis challenges models to understand text holistically while also extracting nuanced information. With the rise of Large Language Models(LLMs), new avenues for sentiment analysis have opened. This paper proposes enhancing performance by leveraging the Mutual Reinforcement Effect(MRE) between individual words and the overall text. It delves into how word polarity influences the overarching sentiment of a passage. To support our research, we annotated four novel Sentiment Text Classification and Part of Speech(SCPOS) datasets, building upon existing sentiment classification datasets. Furthermore, we developed a Universal Sentiment Analysis(USA) model, with a 7-billion parameter size. Experimental results revealed that our model surpassed the performance of gpt-3.5-turbo across all four datasets, underscoring the significance of MRE in sentiment analysis.
翻訳日:2023-09-15 18:10:33 公開日:2023-09-14
# 解釈可能なクロスモーダル推論に関する調査

A Survey on Interpretable Cross-modal Reasoning ( http://arxiv.org/abs/2309.01955v2 )

ライセンス: Link先を確認
Dizhan Xue, Shengsheng Qian, Zuyi Zhou, Changsheng Xu(参考訳) 近年,マルチメディア解析から医療診断まで幅広い応用分野において,様々なモダリティの理解と推論のプロセスであるcmr(cross-modal reasoning)が重要視されている。 AIシステムの展開がより普及するにつれて、これらのシステムの意思決定プロセスにおける透明性と理解性の要求が高まっている。 この調査は、高い予測性能を達成することだけでなく、人間の理解可能な説明を提供することを目的としている、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げるものである。 本調査では,I-CMRの3段階分類法について概説する。 さらに,本調査では,既存のcmrデータセットを解説のためのアノテーションでレビューする。 最後に,I-CMRの課題を要約し,今後の方向性について考察する。 本研究は,パノラマ的かつ包括的な視点を提供し,芸術の現状を照らし,機会を見極めることにより,新興研究分野の進展を触媒することを目的としている。 要約されたメソッド、データセット、その他のリソースはhttps://github.com/ZuyiZhou/Awesome-Interpretable-Cross-modal-Reasoning.comで入手できる。

In recent years, cross-modal reasoning (CMR), the process of understanding and reasoning across different modalities, has emerged as a pivotal area with applications spanning from multimedia analysis to healthcare diagnostics. As the deployment of AI systems becomes more ubiquitous, the demand for transparency and comprehensibility in these systems' decision-making processes has intensified. This survey delves into the realm of interpretable cross-modal reasoning (I-CMR), where the objective is not only to achieve high predictive performance but also to provide human-understandable explanations for the results. This survey presents a comprehensive overview of the typical methods with a three-level taxonomy for I-CMR. Furthermore, this survey reviews the existing CMR datasets with annotations for explanations. Finally, this survey summarizes the challenges for I-CMR and discusses potential future directions. In conclusion, this survey aims to catalyze the progress of this emerging research area by providing researchers with a panoramic and comprehensive perspective, illuminating the state of the art and discerning the opportunities. The summarized methods, datasets, and other resources are available at https://github.com/ZuyiZhou/Awesome-Interpretable-Cross-modal-Reasoning.
翻訳日:2023-09-15 18:09:54 公開日:2023-09-14
# GBE-MLZSL:マルチラベルゼロショット学習のためのグループバイエンハンスメントフレームワーク

GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2309.00923v2 )

ライセンス: Link先を確認
Ziming Liu, Jingcai Guo, Xiaocheng Lu, Song Guo, Peiran Dong, Jiewei Zhang(参考訳) 本稿では,MLZSL(Multi-label scenario)におけるゼロショット学習の難題について考察する。このモデルでは,見知らぬクラスと補助知識(セマンティック情報など)に基づいて,サンプル内の複数の未確認クラス(画像など)を認識できるように訓練されている。 既存の方法は、通常、空間的または意味的な特性の次元からサンプルに居住する様々なクラスの関係を分析し、学習したモデルを目に見えないクラスに転送する。 しかし、ローカル機能とグローバル機能の効果的な統合は無視する。 すなわち、未知のクラスを推論する過程で、グローバルな特徴は特徴空間における画像の主方向を表し、局所的な特徴は特定の範囲内で一意性を維持するべきである。 この統合的な無視により、モデルはイメージの主要コンポーネントの把握を失うことになる。 推論段階における授業の局所的な存在のみを考慮すれば、避けられないバイアスが生じる。 本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、これらの特性を完全に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。 具体的には、特徴マップをいくつかの特徴グループに分割し、各特徴グループをローカル情報識別モジュール(LID)と独立してトレーニングし、特異性を保証する。 一方、グローバルエンハンスメントモジュール(GEM)は主方向を維持するように設計されている。 さらに、静的グラフ構造は、局所的な特徴の相関を構築するために設計されている。 大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験により、提案したGBE-MLZSLは、最先端の手法よりも大きなマージンを持つことを示した。

This paper investigates a challenging problem of zero-shot learning in the multi-label scenario (MLZSL), wherein, the model is trained to recognize multiple unseen classes within a sample (e.g., an image) based on seen classes and auxiliary knowledge, e.g., semantic information. Existing methods usually resort to analyzing the relationship of various seen classes residing in a sample from the dimension of spatial or semantic characteristics, and transfer the learned model to unseen ones. But they ignore the effective integration of local and global features. That is, in the process of inferring unseen classes, global features represent the principal direction of the image in the feature space, while local features should maintain uniqueness within a certain range. This integrated neglect will make the model lose its grasp of the main components of the image. Relying only on the local existence of seen classes during the inference stage introduces unavoidable bias. In this paper, we propose a novel and effective group bi-enhancement framework for MLZSL, dubbed GBE-MLZSL, to fully make use of such properties and enable a more accurate and robust visual-semantic projection. Specifically, we split the feature maps into several feature groups, of which each feature group can be trained independently with the Local Information Distinguishing Module (LID) to ensure uniqueness. Meanwhile, a Global Enhancement Module (GEM) is designed to preserve the principal direction. Besides, a static graph structure is designed to construct the correlation of local features. Experiments on large-scale MLZSL benchmark datasets NUS-WIDE and Open-Images-v4 demonstrate that the proposed GBE-MLZSL outperforms other state-of-the-art methods with large margins.
翻訳日:2023-09-15 18:08:56 公開日:2023-09-14
# 放射線学レポートの多言語構造表現のための知識グラフ埋め込み

Knowledge Graph Embeddings for Multi-Lingual Structured Representations of Radiology Reports ( http://arxiv.org/abs/2309.00917v2 )

ライセンス: Link先を確認
Tom van Sonsbeek, Xiantong Zhen and Marcel Worring(参考訳) 臨床テキストの分析方法は、ここ数年で大きく変化してきた。 BERT のような言語モデルの導入は、PubMedBERT や ClinicalBERT のような(バイオ)医療分野への適応につながった。 これらのモデルは、アーカイブされた医療文書の大規模なデータベースに依存している。 正確性は良好だが、解釈可能性の欠如と言語間の転送制限の両方が臨床での使用を制限している。 本稿では,放射線レポートに特化する新しい軽量グラフベース埋め込み手法を提案する。 報告書の構造と構成を考慮に入れつつ,多言語snomed臨床用語知識ベースを通じて報告書の医療用語を関連付ける。 結果として得られたグラフ埋め込みは、臨床用語の根底にある関係を解明し、大きな事前学習データセットに頼ることなく、臨床医にとってより理解しやすく、臨床的により正確な表現を実現する。 本稿では,X線レポートの疾患分類と画像分類という2つのタスクにこの埋め込みを組み込むことについて述べる。 疾患分類では、当社のモデルはBERTベースのモデルと競合するが、サイズやデータ要件のトレーニングは小さくなっている。 画像分類では,クロスモーダル知識伝達を利用したグラフ埋め込みの有効性を示し,この手法が様々な言語でどのように利用できるかを示す。

The way we analyse clinical texts has undergone major changes over the last years. The introduction of language models such as BERT led to adaptations for the (bio)medical domain like PubMedBERT and ClinicalBERT. These models rely on large databases of archived medical documents. While performing well in terms of accuracy, both the lack of interpretability and limitations to transfer across languages limit their use in clinical setting. We introduce a novel light-weight graph-based embedding method specifically catering radiology reports. It takes into account the structure and composition of the report, while also connecting medical terms in the report through the multi-lingual SNOMED Clinical Terms knowledge base. The resulting graph embedding uncovers the underlying relationships among clinical terms, achieving a representation that is better understandable for clinicians and clinically more accurate, without reliance on large pre-training datasets. We show the use of this embedding on two tasks namely disease classification of X-ray reports and image classification. For disease classification our model is competitive with its BERT-based counterparts, while being magnitudes smaller in size and training data requirements. For image classification, we show the effectiveness of the graph embedding leveraging cross-modal knowledge transfer and show how this method is usable across different languages.
翻訳日:2023-09-15 18:08:23 公開日:2023-09-14
# DoRA:低リソースリアルタイム評価のためのドメインベース自己監視学習フレームワーク

DoRA: Domain-Based Self-Supervised Learning Framework for Low-Resource Real Estate Appraisal ( http://arxiv.org/abs/2309.00855v3 )

ライセンス: Link先を確認
Wei-Wei Du, Wei-Yao Wang, Wen-Chih Peng(参考訳) 需要と供給をつなぐ市場システムは、資産評価において不偏の意思決定を開発するために検討されてきた。 不動産評価は、対応する知識と市場の判断に基づいて見積をドメインの専門家が評価する必要があるため、金融機関の高コスト資産評価タスクの1つとなっている。 ドメインエキスパートの主体性を減らす既存の自動評価モデルは、効果的な評価のために多くのトランザクションを必要としており、トランザクションのラベリング努力だけでなく、新しい発展途上国や農村地域の一般化可能性にも制限されている。 ラベルなしの不動産集合から表現を学習するために、表形式のデータのための既存の自己教師付き学習(SSL)は、様々な重要な特徴を無視し、ドメイン知識を組み込むことができない。 本稿では,低リソース不動産評価のためのドメインベースの自己教師型学習フレームワークDoRAを提案する。 DoRAは、事前のドメイン知識に不動産表現を組み込むための不動産のメタデータに基づいて、プリテキストタスクとしてサンプル内地理的予測を事前訓練する。 さらに、サンプル間コントラスト学習を用いて、下流タスクの限定的なトランザクションに対して堅牢な表現を一般化する。 実世界の取引の3つのプロパティタイプに関するベンチマークの結果から,DoRAは表データ,グラフベースの手法,および教師付きアプローチにおいて,MAPEの少なくとも7.6%,MAEの11.59%,HR10%の3.34%でSSLベースラインを大幅に上回ることがわかった。 我々は、DoRAが新規に構築され、限られた記録を持つプロパティの汎用モデルを必要とする、類似の市場アプリケーションを持つ他の金融実践者にとって有用であることを期待している。 ソースコードはhttps://github.com/wwweiwei/doraで入手できる。

The marketplace system connecting demands and supplies has been explored to develop unbiased decision-making in valuing properties. Real estate appraisal serves as one of the high-cost property valuation tasks for financial institutions since it requires domain experts to appraise the estimation based on the corresponding knowledge and the judgment of the market. Existing automated valuation models reducing the subjectivity of domain experts require a large number of transactions for effective evaluation, which is predominantly limited to not only the labeling efforts of transactions but also the generalizability of new developing and rural areas. To learn representations from unlabeled real estate sets, existing self-supervised learning (SSL) for tabular data neglects various important features, and fails to incorporate domain knowledge. In this paper, we propose DoRA, a Domain-based self-supervised learning framework for low-resource Real estate Appraisal. DoRA is pre-trained with an intra-sample geographic prediction as the pretext task based on the metadata of the real estate for equipping the real estate representations with prior domain knowledge. Furthermore, inter-sample contrastive learning is employed to generalize the representations to be robust for limited transactions of downstream tasks. Our benchmark results on three property types of real-world transactions show that DoRA significantly outperforms the SSL baselines for tabular data, the graph-based methods, and the supervised approaches in the few-shot scenarios by at least 7.6% for MAPE, 11.59% for MAE, and 3.34% for HR10%. We expect DoRA to be useful to other financial practitioners with similar marketplace applications who need general models for properties that are newly built and have limited records. The source code is available at https://github.com/wwweiwei/DoRA.
翻訳日:2023-09-15 18:08:02 公開日:2023-09-14
# 転送類似性ガイド付きグローバルスタイルと量子化局所スタイルによるショットフォント生成

Few shot font generation via transferring similarity guided global style and quantization local style ( http://arxiv.org/abs/2309.00827v2 )

ライセンス: Link先を確認
Wei Pan, Anna Zhu, Xinyu Zhou, Brian Kenji Iwana, Shilin Li(参考訳) 数個のグリフ参照しか持たない新しいフォントを生成することを目的とした自動小ショットフォント生成(AFFG)は、手動でフォントを設計する作業コストを削減する。 しかし、スタイル・コンテント・ディコンタングルメントの伝統的なAFFGパラダイムは、異なるフォントの多様なローカル詳細をキャプチャできない。 そのため、この問題に取り組むために多くのコンポーネントベースのアプローチが提案されている。 コンポーネントベースのアプローチの問題は、通常、様々な言語のAFFGでは実現不可能な、ストロークや急進的な特別なグリフコンポーネントを必要とすることである。 本稿では,文字類似性に基づくグローバルな特徴とスタイル化されたコンポーネントレベルの表現からスタイルを集約する新しいフォント生成手法を提案する。 対象文字と参照サンプルの類似度スコアを、コンテンツ特徴から対応するチャネルに沿っての距離を測定し、グローバルなスタイル特徴を集約する重みとして割り当てることで算出する。 ローカルスタイルをよりよく捉えるために、参照グリフのスタイルをコンポーネントに転送するために、クロスアテンションベースのスタイル転送モジュールが採用されており、コンポーネントは手動定義なしでベクトル量子化によって、自己学習された離散潜在コードである。 これらの設計により、本手法はコンポーネントレベルの表現の完全なセットを得ることができ、またグローバルグリフ特性を制御することができる。 実験結果は, 異なる言語スクリプトにおける提案手法の有効性と一般化を反映し, 他手法と比較してその優越性を示す。 ソースコードはhttps://github.com/awei669/vq-fontにある。

Automatic few-shot font generation (AFFG), aiming at generating new fonts with only a few glyph references, reduces the labor cost of manually designing fonts. However, the traditional AFFG paradigm of style-content disentanglement cannot capture the diverse local details of different fonts. So, many component-based approaches are proposed to tackle this problem. The issue with component-based approaches is that they usually require special pre-defined glyph components, e.g., strokes and radicals, which is infeasible for AFFG of different languages. In this paper, we present a novel font generation approach by aggregating styles from character similarity-guided global features and stylized component-level representations. We calculate the similarity scores of the target character and the referenced samples by measuring the distance along the corresponding channels from the content features, and assigning them as the weights for aggregating the global style features. To better capture the local styles, a cross-attention-based style transfer module is adopted to transfer the styles of reference glyphs to the components, where the components are self-learned discrete latent codes through vector quantization without manual definition. With these designs, our AFFG method could obtain a complete set of component-level style representations, and also control the global glyph characteristics. The experimental results reflect the effectiveness and generalization of the proposed method on different linguistic scripts, and also show its superiority when compared with other state-of-the-art methods. The source code can be found at https://github.com/awei669/VQ-Font.
翻訳日:2023-09-15 18:07:31 公開日:2023-09-14
# 分散機械学習リソースを用いたハイブリッドアルゴリズム選択とハイパーパラメータチューニング:階層的エージェントに基づくアプローチ

Hybrid Algorithm Selection and Hyperparameter Tuning on Distributed Machine Learning Resources: A Hierarchical Agent-based Approach ( http://arxiv.org/abs/2309.06604v2 )

ライセンス: Link先を確認
Ahmad Esmaeili, Julia T. Rayz, Eric T. Matson(参考訳) アルゴリズムの選択とハイパーパラメータチューニングは、学術および応用機械学習において重要なステップである。 一方で、機械学習リソースの数、多様性、分散性が大幅に向上したことで、これらのステップはますます微妙になってきている。 機械学習プラットフォームの設計に適用されたマルチエージェントシステムは、スケーラビリティ、柔軟性、堅牢性など、いくつかの特徴的な特徴をもたらす。 本稿では,分散された機械学習アルゴリズムを選択し,同時にハイパーパラメータを調整するための,完全自動かつ協調的なエージェントベース機構を提案する。 提案手法は,既存のエージェントベース階層型機械学習プラットフォーム上に構築され,上記の機能をサポートするクエリ構造を,特定の学習,選択,チューニング機構に制限されずに拡張する。 提案手法の正確性,資源利用,計算効率を実証するため,理論的評価,形式的検証,解析的研究を行った。 その結果,提案手法は完全に正解であり,利用可能な資源の大きさに対して線形時間と空間複雑性を示すことがわかった。 提案手法がアルゴリズムの選択肢やデータセットをまたいで効果的に適応・実行できることの具体例を提供するため,24のアルゴリズムと9のデータセットからなるシステムを用いて,一連の実験を行った。

Algorithm selection and hyperparameter tuning are critical steps in both academic and applied machine learning. On the other hand, these steps are becoming ever increasingly delicate due to the extensive rise in the number, diversity, and distributedness of machine learning resources. Multi-agent systems, when applied to the design of machine learning platforms, bring about several distinctive characteristics such as scalability, flexibility, and robustness, just to name a few. This paper proposes a fully automatic and collaborative agent-based mechanism for selecting distributedly organized machine learning algorithms and simultaneously tuning their hyperparameters. Our method builds upon an existing agent-based hierarchical machine-learning platform and augments its query structure to support the aforementioned functionalities without being limited to specific learning, selection, and tuning mechanisms. We have conducted theoretical assessments, formal verification, and analytical study to demonstrate the correctness, resource utilization, and computational efficiency of our technique. According to the results, our solution is totally correct and exhibits linear time and space complexity in relation to the size of available resources. To provide concrete examples of how the proposed methodologies can effectively adapt and perform across a range of algorithmic options and datasets, we have also conducted a series of experiments using a system comprised of 24 algorithms and 9 datasets.
翻訳日:2023-09-15 18:01:42 公開日:2023-09-14
# 確率的LLMは言語を理解しない:記号的・説明可能・オントロジー的LLMを目指して

Stochastic LLMs do not Understand Language: Towards Symbolic, Explainable and Ontologically Based LLMs ( http://arxiv.org/abs/2309.05918v3 )

ライセンス: Link先を確認
Walid S. Saba(参考訳) 我々の意見では、データ駆動型大規模言語モデル(LLM)の相対的な成功を巡って、若干の誤解があり、いくつかの理由がある。 i) LLMは,すべての摂取されたテキスト(実物又は非実物)が平等に作成されたため,事実情報に頼ってはならない。 (二)その副記号的ナチュアにより、これらのモデルが言語について獲得する「知識」が何であれ、常に何十億ものマイクロ特徴(重み)に埋もれ、それ自体には意味がない。 (iii)LLMは、いくつかの言語文脈(例:名目化合物、述語、量化子スコープの曖昧さ、無緊張な文脈)において正しい推論に失敗することが多い。 データ駆動型大規模言語モデル(LLM)の相対的な成功は、記号的対準記号的議論の反映ではなく、大規模にボトムアップのリバースエンジニアリングを成功させるためのリフレクションであると信じているので、本論文では、シンボル的、説明可能な、そして存在論的基礎付けられた言語モデルをもたらす効果的なボトムアップ戦略を適用することを提案する。

In our opinion the exuberance surrounding the relative success of data-driven large language models (LLMs) is slightly misguided and for several reasons (i) LLMs cannot be relied upon for factual information since for LLMs all ingested text (factual or non-factual) was created equal; (ii) due to their subsymbolic na-ture, whatever 'knowledge' these models acquire about language will always be buried in billions of microfeatures (weights), none of which is meaningful on its own; and (iii) LLMs will often fail to make the correct inferences in several linguistic contexts (e.g., nominal compounds, copredication, quantifier scope ambi-guities, intensional contexts. Since we believe the relative success of data-driven large language models (LLMs) is not a reflection on the symbolic vs. subsymbol-ic debate but a reflection on applying the successful strategy of a bottom-up reverse engineering of language at scale, we suggest in this paper applying the effective bottom-up strategy in a symbolic setting resulting in symbolic, explainable, and ontologically grounded language models.
翻訳日:2023-09-15 18:01:15 公開日:2023-09-14
# チャットボットの評価とユーザ信頼の促進--実践とオープンな問題

Evaluating Chatbots to Promote Users' Trust -- Practices and Open Problems ( http://arxiv.org/abs/2309.05680v2 )

ライセンス: Link先を確認
Biplav Srivastava, Kausik Lakkaraju, Tarmo Koppel, Vignesh Narayanan, Ashish Kundu, Sachindra Joshi(参考訳) コラボレーションアシスタントの一般的なモニカーであるChatbotsは、人々が自然に対話してタスクを完了できるようにする人工知能(AI)ソフトウェアである。 AIの誕生以来、チャットボットは研究されてきたが、ChatGPTのような、使いやすく汎用的なLarge Language Modelベースのチャットボットのローンチ以来、公益とビジネスの想像力を特に捉えてきた。 チャットボットは、エンドカスタマーやサプライヤー、あるいは自身の従業員である可能性のあるユーザを惹きつける潜在的な技術としてビジネスが注目する中、チャットボットの適切なテストは、サービスや製品のパフォーマンス、ユーザの満足度、社会に対する長期的な意図しない影響などに関わる信頼の問題に対処し、軽減するために重要である。 本稿では,チャットボットテストの現状を概観し,ユーザ信頼の追求において,ギャップをオープンな問題として認識し,今後の道筋を概説する。

Chatbots, the common moniker for collaborative assistants, are Artificial Intelligence (AI) software that enables people to naturally interact with them to get tasks done. Although chatbots have been studied since the dawn of AI, they have particularly caught the imagination of the public and businesses since the launch of easy-to-use and general-purpose Large Language Model-based chatbots like ChatGPT. As businesses look towards chatbots as a potential technology to engage users, who may be end customers, suppliers, or even their own employees, proper testing of chatbots is important to address and mitigate issues of trust related to service or product performance, user satisfaction and long-term unintended consequences for society. This paper reviews current practices for chatbot testing, identifies gaps as open problems in pursuit of user trust, and outlines a path forward.
翻訳日:2023-09-15 18:00:46 公開日:2023-09-14
# 全体PET/CT画像の自動腫瘍分割のための局所分離フレームワーク

A Localization-to-Segmentation Framework for Automatic Tumor Segmentation in Whole-Body PET/CT Images ( http://arxiv.org/abs/2309.05446v2 )

ライセンス: Link先を確認
Linghan Cai, Jianhao Huang, Zihang Zhu, Jinpeng Lu, and Yongbing Zhang(参考訳) Fluorodeoxyglucose (FDG) positron emission tomography (PET) とCT (Computed tomography) を併用して肺がんや黒色腫などのがんを検出できる主要な解決策と考えられる。 PET/CT画像における腫瘍の自動セグメンテーションは、医師の作業量を減らし、診断品質を向上させる。 しかし,多くの腫瘍が小さかったことと,高集積領域と腫瘍領域との類似性から,腫瘍の精密な分画が困難である。 これらの課題に対処するために, 正確な腫瘍分割のための局在化分割フレームワーク (L2SNet) を提案する。 L2SNetは、まず、病変の局所化段階における可能性のある病変を局在させ、次いで、病変の分節フェーズにおけるセグメント化結果を形成するために位置手がかりを使用する。 L2SNetのセグメンテーション性能をさらに向上するために,2つのフェーズのセグメンテーション結果を考慮した適応しきい値スキームを設計する。 MICCAI 2023 による全体 FDG-PET/CT チャレンジデータセットによる実験の結果,本手法は競争的な結果となり,予備試験セットの上位7手法にランクインした。 私たちの仕事は、https://github.com/medcai/l2snetで利用可能です。

Fluorodeoxyglucose (FDG) positron emission tomography (PET) combined with computed tomography (CT) is considered the primary solution for detecting some cancers, such as lung cancer and melanoma. Automatic segmentation of tumors in PET/CT images can help reduce doctors' workload, thereby improving diagnostic quality. However, precise tumor segmentation is challenging due to the small size of many tumors and the similarity of high-uptake normal areas to the tumor regions. To address these issues, this paper proposes a localization-to-segmentation framework (L2SNet) for precise tumor segmentation. L2SNet first localizes the possible lesions in the lesion localization phase and then uses the location cues to shape the segmentation results in the lesion segmentation phase. To further improve the segmentation performance of L2SNet, we design an adaptive threshold scheme that takes the segmentation results of the two phases into consideration. The experiments with the MICCAI 2023 Automated Lesion Segmentation in Whole-Body FDG-PET/CT challenge dataset show that our method achieved a competitive result and was ranked in the top 7 methods on the preliminary test set. Our work is available at: https://github.com/MedCAI/L2SNet.
翻訳日:2023-09-15 18:00:03 公開日:2023-09-14
# 経時的MRI生成とびまん性グリオーマ成長予測のための治療対応拡散確率モデル

Treatment-aware Diffusion Probabilistic Model for Longitudinal MRI Generation and Diffuse Glioma Growth Prediction ( http://arxiv.org/abs/2309.05406v3 )

ライセンス: Link先を確認
Qinghui Liu, Elies Fuster-Garcia, Ivar Thokle Hovden, Donatas Sederevicius, Karoline Skogen, Bradley J MacIntosh, Edvard Gr{\o}dem, Till Schellhorn, Petter Brandal, Atle Bj{\o}rnerud, and Kyrre Eeg Emblem(参考訳) びまん性グリオーマ(Diffuse glioma)は、悪性脳腫瘍である。 腫瘍細胞と正常組織との複雑な相互作用、および治療によって引き起こされる変化はグリオーマ腫瘍の成長を困難にする。 本稿では,今後腫瘍のマスクやmriを生成できる新しいエンド・ツー・エンドネットワークを提案する。 本手法は,最先端拡散確率モデルとディープセグメンテーションニューラルネットワークに基づいている。 生成拡散過程を誘導する条件入力として, 逐次マルチパラメトリック磁気共鳴画像(MRI)と治療情報を含む。 これにより、任意の時点において腫瘍の成長を推定できる。 グリオーマ腫瘍成長軌跡を経時的に観察し, 術後の経時的MRIデータを用いて実験を行った。 このモデルは、腫瘍マスクを備えた高品質な合成MRIの生成、時系列の腫瘍セグメンテーション、不確実性推定など、様々なタスクで有望なパフォーマンスを示している。 腫瘍増殖予測と不確実性推定を組み合わせることで、臨床意思決定に有用な情報が得られる。

Diffuse gliomas are malignant brain tumors that grow widespread through the brain. The complex interactions between neoplastic cells and normal tissue, as well as the treatment-induced changes often encountered, make glioma tumor growth modeling challenging. In this paper, we present a novel end-to-end network capable of generating future tumor masks and realistic MRIs of how the tumor will look at any future time points for different treatment plans. Our approach is based on cutting-edge diffusion probabilistic models and deep-segmentation neural networks. We included sequential multi-parametric magnetic resonance images (MRI) and treatment information as conditioning inputs to guide the generative diffusion process. This allows for tumor growth estimates at any given time point. We trained the model using real-world postoperative longitudinal MRI data with glioma tumor growth trajectories represented as tumor segmentation maps over time. The model has demonstrated promising performance across a range of tasks, including the generation of high-quality synthetic MRIs with tumor masks, time-series tumor segmentations, and uncertainty estimates. Combined with the treatment-aware generated MRIs, the tumor growth predictions with uncertainty estimates can provide useful information for clinical decision-making.
翻訳日:2023-09-15 17:59:37 公開日:2023-09-14
# 空間モデリングのための重み付けによるサンプリングバイアスの補正

Correcting sampling biases via importance reweighting for spatial modeling ( http://arxiv.org/abs/2309.04824v2 )

ライセンス: Link先を確認
Boris Prokhorov, Diana Koldasbayeva, Alexey Zaytsev(参考訳) 機械学習モデルでは、特に環境研究に見られるような空間データにおいて、分布バイアスによる誤差の推定は複雑であることが多い。 本稿では,目標誤差の偏りのない推定を行うために,重要サンプリングの考え方に基づく手法を提案する。 所望の誤差と利用可能なデータの違いを考慮して,各サンプル点における誤差を重み付けし,シフトを中和する。 重み付けには重要サンプリング法と核密度推定法が用いられた。 実世界の空間データセットに類似した人工データを用いたアプローチの有効性を検証する。 本研究は,分布シフト問題に対する解法として,対象誤差の推定に提案手法の利点を示すものである。 全体の予測誤差は7%から2%に減少し、より大きなサンプルでは小さくなった。

In machine learning models, the estimation of errors is often complex due to distribution bias, particularly in spatial data such as those found in environmental studies. We introduce an approach based on the ideas of importance sampling to obtain an unbiased estimate of the target error. By taking into account difference between desirable error and available data, our method reweights errors at each sample point and neutralizes the shift. Importance sampling technique and kernel density estimation were used for reweighteing. We validate the effectiveness of our approach using artificial data that resemble real-world spatial datasets. Our findings demonstrate advantages of the proposed approach for the estimation of the target error, offering a solution to a distribution shift problem. Overall error of predictions dropped from 7% to just 2% and it gets smaller for larger samples.
翻訳日:2023-09-15 17:59:18 公開日:2023-09-14
# CPMR: Pseudo-Multi-Task Learning を用いた文脈対応インクリメンタルシークエンシャルレコメンデーション

CPMR: Context-Aware Incremental Sequential Recommendation with Pseudo-Multi-Task Learning ( http://arxiv.org/abs/2309.04802v2 )

ライセンス: Link先を確認
Qingtian Bian, Jiaxing Xu, Hui Fang, Yiping Ke(参考訳) ユーザによるインタラクションのモチベーションは、静的な好みと動的関心に分けることができる。 ユーザの表現を時間とともに正確にモデル化するために,近年の逐次的な推奨研究は,到着するインタラクションのバッチから情報伝達と進化を利用する。 しかし、人々は文脈シナリオにおける他のユーザの最近の行動に影響を受けやすいという事実を無視し、すべての歴史的相互作用に進化を適用することは、最近のものの重要性を弱め、ダイナミックな関心の進化を正確にモデル化できない。 この問題を解決するために,静的埋め込み,時間的時間的状態,文脈的時間的状態の3つの表現を作成することで,歴史的・文脈的シナリオの進化をモデル化するコンテキスト認識型Pseudo-Multi-Task Recommender System (CPMR)を提案する。 時間的状態の進化と漸進的レコメンデーションのパフォーマンスを両立させるため,逐次的単目標レコメンデーションを1つのマルチターゲットタスクに積み重ねることで,疑似マルチタスク学習(pmtl)パラダイムを設計する。 PMTLパラダイム内では、CPMRは共有ボットネットワークを使用して、歴史的、文脈的なシナリオをまたいだ時間的状態の進化と、それらの融合をユーザ・イテムレベルで行う。 さらにCPMRは、インクリメンタルな予測のために1つの実際の塔と、新しい相互作用のバッチに基づいてそれぞれの時間状態を更新する2つの擬似塔を組み込んでいる。 4つのベンチマークレコメンデーションデータセットの実験結果から、CPMRは最先端のベースラインを一貫して上回り、3つのベースラインで大幅に向上している。 コードはhttps://github.com/dimarziobian/cpmr。

The motivations of users to make interactions can be divided into static preference and dynamic interest. To accurately model user representations over time, recent studies in sequential recommendation utilize information propagation and evolution to mine from batches of arriving interactions. However, they ignore the fact that people are easily influenced by the recent actions of other users in the contextual scenario, and applying evolution across all historical interactions dilutes the importance of recent ones, thus failing to model the evolution of dynamic interest accurately. To address this issue, we propose a Context-Aware Pseudo-Multi-Task Recommender System (CPMR) to model the evolution in both historical and contextual scenarios by creating three representations for each user and item under different dynamics: static embedding, historical temporal states, and contextual temporal states. To dually improve the performance of temporal states evolution and incremental recommendation, we design a Pseudo-Multi-Task Learning (PMTL) paradigm by stacking the incremental single-target recommendations into one multi-target task for joint optimization. Within the PMTL paradigm, CPMR employs a shared-bottom network to conduct the evolution of temporal states across historical and contextual scenarios, as well as the fusion of them at the user-item level. In addition, CPMR incorporates one real tower for incremental predictions, and two pseudo towers dedicated to updating the respective temporal states based on new batches of interactions. Experimental results on four benchmark recommendation datasets show that CPMR consistently outperforms state-of-the-art baselines and achieves significant gains on three of them. The code is available at: https://github.com/DiMarzioBian/CPMR.
翻訳日:2023-09-15 17:59:04 公開日:2023-09-14
# カテゴリーハッシュ表現と階層強化交差による自己最適化特徴生成

Self-optimizing Feature Generation via Categorical Hashing Representation and Hierarchical Reinforcement Crossing ( http://arxiv.org/abs/2309.04612v2 )

ライセンス: Link先を確認
Wangyang Ying, Dongjie Wang, Kunpeng Liu, Leilei Sun, Yanjie Fu(参考訳) 特徴生成は、識別的表現空間を作成するために、新しい意味のある特徴を生成することを目的としており、生成した特徴が特徴対と固有の特徴相互作用から生まれたときに意味を持つ。 実世界では、経験豊富なデータサイエンティストが潜在的に有用な特徴-機能相互作用を識別し、指数関数的に大きな探索空間から最適生成経路上の最適な交差形式で有意義な次元を生成することができる。 しかし,機械は人間のような能力に制限があり,自己最適化機能生成のような学習タスクを一般化する。 自己最適化機能生成は、有意義で堅牢で効率的な生成という、既存のシステムに未対応の課題を課す。 これらの課題に対処するために,ハッシング表現を実現するために,特徴の離散化,特徴のハッシュ化,記述的要約という3段階のアプローチを提案する。 提案手法の有効性と有効性を示すために, 階層的補強機能横断手法を開発し, 広範な実験結果を示す。 コードはhttps://github.com/yingwangyang/hrc_feature_cross.gitで入手できる。

Feature generation aims to generate new and meaningful features to create a discriminative representation space.A generated feature is meaningful when the generated feature is from a feature pair with inherent feature interaction. In the real world, experienced data scientists can identify potentially useful feature-feature interactions, and generate meaningful dimensions from an exponentially large search space, in an optimal crossing form over an optimal generation path. But, machines have limited human-like abilities.We generalize such learning tasks as self-optimizing feature generation. Self-optimizing feature generation imposes several under-addressed challenges on existing systems: meaningful, robust, and efficient generation. To tackle these challenges, we propose a principled and generic representation-crossing framework to solve self-optimizing feature generation.To achieve hashing representation, we propose a three-step approach: feature discretization, feature hashing, and descriptive summarization. To achieve reinforcement crossing, we develop a hierarchical reinforcement feature crossing approach.We present extensive experimental results to demonstrate the effectiveness and efficiency of the proposed method. The code is available at https://github.com/yingwangyang/HRC_feature_cross.git.
翻訳日:2023-09-15 17:58:28 公開日:2023-09-14
# 古典密度汎関数理論における外部ポテンシャルの物理インフォームドベイズ推論

Physics-informed Bayesian inference of external potentials in classical density-functional theory ( http://arxiv.org/abs/2309.07065v2 )

ライセンス: Link先を確認
Antonio Malpica-Morales, Peter Yatsyshin, Miguel A. Duran-Olivencia, Serafim Kalliadasis(参考訳) 機械学習(ML)の急速な進歩は、統計力学の領域では気付かれていない。 ML技術は、多くの粒子系の平衡密度プロファイルを決定する自由エネルギー関数の発見を可能にするため、古典密度汎関数理論(DFT)コミュニティから注目を集めている。 DFT内の外部ポテンシャルは、多粒子系と外部磁場との相互作用を考慮し、したがって密度分布に影響を与える。 本稿では,多粒子系に作用する外部ポテンシャルを推測する統計的学習フレームワークを提案する。 ベイズ推論手法と古典的DFT装置を組み合わせることで、外部ポテンシャルを再構成し、外ポテンシャル汎関数形式を本質的に不確実な定量化で確率論的に記述する。 我々のフレームワークは、閉じ込められた幾何学における体積相互作用を排除した大カノニカルな1次元粒子アンサンブルで例示される。 必要なトレーニングデータセットは、グランドカノニカルアンサンブルに外部電位が適用されるモンテカルロ(mc)シミュレーションを用いて生成される。 MCシミュレーションから得られた粒子座標は、外部ポテンシャルを明らかにするために学習フレームワークに入力される。 これにより、DFTのツールを用いてシステムの平衡密度プロファイルを計算することができる。 提案手法は,dft定式化によって計算された真の外部ポテンシャルに対する推定密度のベンチマークを行う。 提案したベイズ法は、外部電位と密度分布を正確に推定する。 また、利用可能なシミュレーションデータ量に基づく外部電位不確実性定量化についても注目する。 この研究で導入された一見単純なケーススタディは、吸着やキャピラリティを含む幅広い応用の研究のプロトタイプとして機能するかもしれない。

The swift progression of machine learning (ML) has not gone unnoticed in the realm of statistical mechanics. ML techniques have attracted attention by the classical density-functional theory (DFT) community, as they enable discovery of free-energy functionals to determine the equilibrium-density profile of a many-particle system. Within DFT, the external potential accounts for the interaction of the many-particle system with an external field, thus, affecting the density distribution. In this context, we introduce a statistical-learning framework to infer the external potential exerted on a many-particle system. We combine a Bayesian inference approach with the classical DFT apparatus to reconstruct the external potential, yielding a probabilistic description of the external potential functional form with inherent uncertainty quantification. Our framework is exemplified with a grand-canonical one-dimensional particle ensemble with excluded volume interactions in a confined geometry. The required training dataset is generated using a Monte Carlo (MC) simulation where the external potential is applied to the grand-canonical ensemble. The resulting particle coordinates from the MC simulation are fed into the learning framework to uncover the external potential. This eventually allows us to compute the equilibrium density profile of the system by using the tools of DFT. Our approach benchmarks the inferred density against the exact one calculated through the DFT formulation with the true external potential. The proposed Bayesian procedure accurately infers the external potential and the density profile. We also highlight the external-potential uncertainty quantification conditioned on the amount of available simulated data. The seemingly simple case study introduced in this work might serve as a prototype for studying a wide variety of applications, including adsorption and capillarity.
翻訳日:2023-09-15 17:50:30 公開日:2023-09-14
# 有向重み付きグラフのための最適輸送距離:細胞間通信網を用いたケーススタディ

Optimal transport distances for directed, weighted graphs: a case study with cell-cell communication networks ( http://arxiv.org/abs/2309.07030v2 )

ライセンス: Link先を確認
James S. Nagai (1), Ivan G. Costa (1) and Michael T. Schaub (2) ((1) Institute for Computational Genomics, RWTH Aachen Medical Faculty, Germany, (2) Department of Computer Science, RWTH Aachen University, Germany)(参考訳) 最適輸送によるグラフの比較は近年注目されており、最適輸送によって誘導される距離は、グラフ間の原則付きメトリックと、輸送計画の観点からグラフ間の関連する変化の解釈可能な記述の両方を提供する。 対称性の欠如が典型的に考慮された定式化の課題をもたらすため、グラフの最適輸送距離は、主に無向グラフのために開発された。 ここでは、最適輸送の変種に基づく有向グラフの比較のための2つの距離測度を提案する。 (i)地球移動距離(wasserstein)及び (II)Gromov-Wasserstein (GW) 距離。 これら2つの距離を評価し,単細胞rna-seqデータから推定したシミュレーショングラフデータと実世界のセル間通信グラフの相対的性能について検討した。

Comparing graphs by means of optimal transport has recently gained significant attention, as the distances induced by optimal transport provide both a principled metric between graphs as well as an interpretable description of the associated changes between graphs in terms of a transport plan. As the lack of symmetry introduces challenges in the typically considered formulations, optimal transport distances for graphs have mostly been developed for undirected graphs. Here, we propose two distance measures to compare directed graphs based on variants of optimal transport: (i) an earth movers distance (Wasserstein) and (ii) a Gromov-Wasserstein (GW) distance. We evaluate these two distances and discuss their relative performance for both simulated graph data and real-world directed cell-cell communication graphs, inferred from single-cell RNA-seq data.
翻訳日:2023-09-15 17:49:43 公開日:2023-09-14
# 一般化ゼロショット学習のための適応型原型コントラスト埋め込み

Instance Adaptive Prototypical Contrastive Embedding for Generalized Zero Shot Learning ( http://arxiv.org/abs/2309.06987v2 )

ライセンス: Link先を確認
Riti Paul, Sahil Vora and Baoxin Li(参考訳) 一般化されたゼロショット学習(gzsl)は、目に見えないラベルと見えないラベルからサンプルを分類することを目的としている。 gzslの最近の進歩は、生成ネットワークにコントラスト学習ベース(インスタンスベース)を組み込んだり、データポイント間のセマンティクス関係を活用している。 しかし, 既存の埋め込みアーキテクチャには, 1) 微細なクラスタ構造を考慮せずに, 合成特徴の埋め込みの識別可能性の制限, (2) 既存のコントラッシブな埋め込みネットワーク上でのスケーリング機構の制限による非フレキシブルな最適化, という2つの制限がある。 組込み空間における表現の質を高めるため,(1) で述べたように,プロトタイプデータ(クラスタの品質向上)と暗黙のデータデータ(きめ細かな表現)の相互作用の利点を享受し,組込みネットワークとジェネレータに実質的なクラスタ管理を提供しながら,マージンベースのプロトタイプ型コントラスト学習埋め込みネットワークを提案する。 2) に対処するために,クラス間マージンが増大する未確認ラベルの一般化表現につながる適応型コントラスト損失を提案する。 総合的な実験評価により,本手法は3つのベンチマークデータセットにおいて最先端の手法より優れていることを示す。 また,本手法は,GZSL設定において,目立たない最高の性能を実現する。

Generalized zero-shot learning(GZSL) aims to classify samples from seen and unseen labels, assuming unseen labels are not accessible during training. Recent advancements in GZSL have been expedited by incorporating contrastive-learning-based (instance-based) embedding in generative networks and leveraging the semantic relationship between data points. However, existing embedding architectures suffer from two limitations: (1) limited discriminability of synthetic features' embedding without considering fine-grained cluster structures; (2) inflexible optimization due to restricted scaling mechanisms on existing contrastive embedding networks, leading to overlapped representations in the embedding space. To enhance the quality of representations in the embedding space, as mentioned in (1), we propose a margin-based prototypical contrastive learning embedding network that reaps the benefits of prototype-data (cluster quality enhancement) and implicit data-data (fine-grained representations) interaction while providing substantial cluster supervision to the embedding network and the generator. To tackle (2), we propose an instance adaptive contrastive loss that leads to generalized representations for unseen labels with increased inter-class margin. Through comprehensive experimental evaluation, we show that our method can outperform the current state-of-the-art on three benchmark datasets. Our approach also consistently achieves the best unseen performance in the GZSL setting.
翻訳日:2023-09-15 17:49:19 公開日:2023-09-14
# CCSPNet-Joint:極端条件下での交通信号検出のための効率的な共同訓練法

CCSPNet-Joint: Efficient Joint Training Method for Traffic Sign Detection Under Extreme Conditions ( http://arxiv.org/abs/2309.06902v2 )

ライセンス: Link先を確認
Haoqin Hong, Yue Zhou, Xiangyu Shu and Xiangfang Hu(参考訳) 交通標識検出は知的運転における重要な研究方向である。 残念ながら、既存の手法は、霧や雨、動きのぼやけといった極端な状況を見落としていることが多い。 また,画像のデノイジングと物体検出モデルに対するエンドツーエンドのトレーニング戦略では,モデル間情報を有効に活用できない。 これらの問題に対処するために,我々はccspnetを提案する。ccspnetは,トランスフォーマーとcnnに基づく効率的な特徴抽出モジュールであり,文脈情報を有効に活用し,より高速な推論速度を実現し,より強力な機能拡張機能を提供する。 さらに,オブジェクト検出と画像復号化タスクの相関性を確立し,データ効率と一般化を改善するための共同トレーニングモデルCCSPNet-Jointを提案する。 最後に、我々のアプローチを検証するために、極端なシナリオでトラフィックシグネチャ検出のためのCCTSDB-AUGデータセットを作成します。 CCSPNetは、極端な条件下での交通標識検出において、最先端の性能を達成している。 CCSPNet-Jointはエンドツーエンドの手法と比較して精度が5.32%向上し、mAP@.5では18.09%向上した。

Traffic sign detection is an important research direction in intelligent driving. Unfortunately, existing methods often overlook extreme conditions such as fog, rain, and motion blur. Moreover, the end-to-end training strategy for image denoising and object detection models fails to utilize inter-model information effectively. To address these issues, we propose CCSPNet, an efficient feature extraction module based on Transformers and CNNs, which effectively leverages contextual information, achieves faster inference speed and provides stronger feature enhancement capabilities. Furthermore, we establish the correlation between object detection and image denoising tasks and propose a joint training model, CCSPNet-Joint, to improve data efficiency and generalization. Finally, to validate our approach, we create the CCTSDB-AUG dataset for traffic sign detection in extreme scenarios. Extensive experiments have shown that CCSPNet achieves state-of-the-art performance in traffic sign detection under extreme conditions. Compared to end-to-end methods, CCSPNet-Joint achieves a 5.32% improvement in precision and an 18.09% improvement in mAP@.5.
翻訳日:2023-09-15 17:48:46 公開日:2023-09-14
# 原産地におけるT-Sファジィ系の局所二次安定性について

On the Local Quadratic Stability of T-S Fuzzy Systems in the Vicinity of the Origin ( http://arxiv.org/abs/2309.06841v2 )

ライセンス: Link先を確認
Donghwan Lee and Do Wan Kim(参考訳) 本研究の目的は,連続時間t-sファジィシステムの局所安定条件を新たに導入することである。 これらの安定性条件は2次リアプノフ関数と組み合わせた線形行列不等式(LMI)に基づいている。 さらに, 原点付近の非線形系の線形構造を効果的に活用し, 原点におけるメンバーシップ関数に関する情報を統合する。 その結果,本論文におけるファジィリアプノフ関数を用いた既存の手法に比べ,提案条件は保守的でないことが判明した。 さらに,提案手法は,T-Sファジィ系の局所指数安定性に必要かつ十分な条件を提供する。 この論文はファジィ・リャプノフのアプローチに関連する固有の制限についても論じている。 理論的結果を示すために,核となる概念を解明し,提案条件の有効性を検証する包括的例を示す。

The main goal of this paper is to introduce new local stability conditions for continuous-time Takagi-Sugeno (T-S) fuzzy systems. These stability conditions are based on linear matrix inequalities (LMIs) in combination with quadratic Lyapunov functions. Moreover, they integrate information on the membership functions at the origin and effectively leverage the linear structure of the underlying nonlinear system in the vicinity of the origin. As a result, the proposed conditions are proved to be less conservative compared to existing methods using fuzzy Lyapunov functions in the literature. Moreover, we establish that the proposed methods offer necessary and sufficient conditions for the local exponential stability of T-S fuzzy systems. The paper also includes discussions on the inherent limitations associated with fuzzy Lyapunov approaches. To demonstrate the theoretical results, we provide comprehensive examples that elucidate the core concepts and validate the efficacy of the proposed conditions.
翻訳日:2023-09-15 17:48:22 公開日:2023-09-14
# 欠落データに基づく不確実性を考慮したトラヒック予測

Uncertainty-aware Traffic Prediction under Missing Data ( http://arxiv.org/abs/2309.06800v2 )

ライセンス: Link先を確認
Hao Mei, Junxian Li, Zhiming Liang, Guanjie Zheng, Bin Shi, Hua Wei(参考訳) 交通分野の応用範囲が広いため、交通予測は重要なトピックである。 近年,様々な研究が有望な成果を上げている。 しかし、ほとんどの研究は予測場所が完全な、あるいは少なくとも部分的な歴史記録を持っていると仮定しており、歴史的に記録されていない場所まで拡張することはできない。 実際のシナリオでは、予算の制限とインストールの可用性のためにセンサーの配置が制限される可能性があるため、現在のほとんどのモデルでは適用できない。 欠落した場所の交通状態を暗示しようとする文献は少ないが、これらの手法にはセンサーで同時に観測されるデータが必要であるため、予測タスクには適用できない。 もうひとつの欠点は、予測の不確実性の測定の欠如であり、以前の作業がリスクに敏感なタスクや意思決定に適さないことだ。 このギャップを埋めるために、従来のインダクティブグラフニューラルネットワークに触発された本研究では、不確実性を認識するフレームワークを提案する。 1) 過去の記録のない場所への予測を延長し, センサの配置を減少させながら, 予測位置の空間的範囲を著しく拡大する。 2) 下流作業におけるリスクと意思決定の管理を支援するため, 不確実性定量化による確率予測を生成する。 実生活データセットを広範囲に実験した結果,予測課題において有望な結果が得られ,不確かさの定量化により,過去のデータと無関係な場所と高い相関性が得られた。 また,センサ配置予算を限定した精度向上のために,交通分野におけるセンサ展開タスクを支援できることを示す。

Traffic prediction is a crucial topic because of its broad scope of applications in the transportation domain. Recently, various studies have achieved promising results. However, most studies assume the prediction locations have complete or at least partial historical records and cannot be extended to non-historical recorded locations. In real-life scenarios, the deployment of sensors could be limited due to budget limitations and installation availability, which makes most current models not applicable. Though few pieces of literature tried to impute traffic states at the missing locations, these methods need the data simultaneously observed at the locations with sensors, making them not applicable to prediction tasks. Another drawback is the lack of measurement of uncertainty in prediction, making prior works unsuitable for risk-sensitive tasks or involving decision-making. To fill the gap, inspired by the previous inductive graph neural network, this work proposed an uncertainty-aware framework with the ability to 1) extend prediction to missing locations with no historical records and significantly extend spatial coverage of prediction locations while reducing deployment of sensors and 2) generate probabilistic prediction with uncertainty quantification to help the management of risk and decision making in the down-stream tasks. Through extensive experiments on real-life datasets, the result shows our method achieved promising results on prediction tasks, and the uncertainty quantification gives consistent results which highly correlated with the locations with and without historical data. We also show that our model could help support sensor deployment tasks in the transportation field to achieve higher accuracy with a limited sensor deployment budget.
翻訳日:2023-09-15 17:48:06 公開日:2023-09-14
# VEATIC:コンテキストデータセットにおけるビデオベースの感情と感情追跡

VEATIC: Video-based Emotion and Affect Tracking in Context Dataset ( http://arxiv.org/abs/2309.06745v2 )

ライセンス: Link先を確認
Zhihang Ren, Jefferson Ortega, Yifan Wang, Zhimin Chen, Yunhui Guo, Stella X. Yu, David Whitney(参考訳) 人間の感情認識は、心理学やコンピュータビジョンにおいて重要なトピックである。 しかし、現在公開されたデータセットには多くの制限がある。 例えば、ほとんどのデータセットは、表情に関する情報のみを含むフレームを含んでいる。 従来のデータセットの制限のため、人間の認識に影響を与えるメカニズムを理解するか、それらのデータセットで訓練されたコンピュータビジョンモデルの場合の一般的なケースでうまく一般化するのは難しい。 本稿では,これまでのデータセットの限界を克服することのできる,新たな大規模データセットであるビデオベースの感情とコンテキストデータセット(veatic)の追跡について紹介する。 VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。 このデータセットとともに,各映像フレームの文脈情報と文字情報から選択されたキャラクタの影響を推測する新しいコンピュータビジョンタスクを提案する。 さらに,この新しいコンピュータビジョンタスクをベンチマークするための簡易モデルを提案する。 また、トレーニング済みのモデルの性能を、我々のデータセットと他の類似したデータセットと比較する。 実験では,VEATICによる事前学習モデルの競合する結果を示し,VEATICの一般化可能性を示す。 私たちのデータセットはhttps://veatic.github.io.com/で利用可能です。

Human affect recognition has been a significant topic in psychophysics and computer vision. However, the currently published datasets have many limitations. For example, most datasets contain frames that contain only information about facial expressions. Due to the limitations of previous datasets, it is very hard to either understand the mechanisms for affect recognition of humans or generalize well on common cases for computer vision models trained on those datasets. In this work, we introduce a brand new large dataset, the Video-based Emotion and Affect Tracking in Context Dataset (VEATIC), that can conquer the limitations of the previous datasets. VEATIC has 124 video clips from Hollywood movies, documentaries, and home videos with continuous valence and arousal ratings of each frame via real-time annotation. Along with the dataset, we propose a new computer vision task to infer the affect of the selected character via both context and character information in each video frame. Additionally, we propose a simple model to benchmark this new computer vision task. We also compare the performance of the pretrained model using our dataset with other similar datasets. Experiments show the competing results of our pretrained model via VEATIC, indicating the generalizability of VEATIC. Our dataset is available at https://veatic.github.io.
翻訳日:2023-09-15 17:47:38 公開日:2023-09-14
# 計算写真, 画像合成, 逆防御のための深部非パラメトリック凸フィルタ

Deep Nonparametric Convexified Filtering for Computational Photography, Image Synthesis and Adversarial Defense ( http://arxiv.org/abs/2309.06724v2 )

ライセンス: Link先を確認
Jianqiao Wangni(参考訳) 本研究の目的は,Deep Nonparametric Convexified Filtering (DNCF) を用いて,不完全な画像から実シーンを復元する計算写真のための一般的なフレームワークを提供することである。 画像形成の背後にある物理方程式に類似する非パラメトリックディープネットワーク(denoising, super- resolution, inpainting, flash)で構成されている。 DNCFは、トレーニングデータに依存するパラメータ化を持たないため、強い一般化と、逆画像操作に対する堅牢性を持つ。 推定中、ネットワークパラメータは非負であり、入力とパラメータにbi-convex関数を作成するように促し、これは実行時間不足の2次最適化アルゴリズムに適応し、より深い画像よりも10倍の加速度を持つ。 これらのツールを用いて、画像分類の深層ネットワークをリアルタイムに敵の攻撃アルゴリズムから防御する能力を実証する。

We aim to provide a general framework of for computational photography that recovers the real scene from imperfect images, via the Deep Nonparametric Convexified Filtering (DNCF). It is consists of a nonparametric deep network to resemble the physical equations behind the image formation, such as denoising, super-resolution, inpainting, and flash. DNCF has no parameterization dependent on training data, therefore has a strong generalization and robustness to adversarial image manipulation. During inference, we also encourage the network parameters to be nonnegative and create a bi-convex function on the input and parameters, and this adapts to second-order optimization algorithms with insufficient running time, having 10X acceleration over Deep Image Prior. With these tools, we empirically verify its capability to defend image classification deep networks against adversary attack algorithms in real-time.
翻訳日:2023-09-15 17:47:22 公開日:2023-09-14
# ShaDocFormer: ドキュメントシャドウ除去のためのカスケードフュージョンリファイナ付きシャドウアテンション閾値検出器

ShaDocFormer: A Shadow-attentive Threshold Detector with Cascaded Fusion Refiner for document shadow removal ( http://arxiv.org/abs/2309.06670v2 )

ライセンス: Link先を確認
Weiwen Chen, Shenghong Luo, Xuhang Chen, Zinuo Li, Shuqiang Wang, Chi-Man Pun(参考訳) ドキュメントシャドーは、モバイルデバイスを使用してドキュメントをキャプチャするときに発生する一般的な問題であり、可読性に大きな影響を及ぼす。 現在の手法では、シャドーマスクの不正確な検出や照明推定など様々な課題に直面している。 本稿では,文書陰影除去問題に対処するために,従来の手法とディープラーニング技術を統合したトランスフォーマーベースのアーキテクチャであるShaDocFormerを提案する。 ShaDocFormerアーキテクチャは、Shadow-attentive Threshold Detector (STD)とCascaded Fusion Refiner (CFR)の2つのコンポーネントで構成されている。 STDモジュールは従来のしきい値設定技術を採用し、Transformerの注意機構を利用してグローバル情報を収集し、シャドーマスクの正確な検出を可能にする。 CFRモジュールのカスケード及び凝集構造は、画像全体の粗大な復元プロセスを容易にする。 その結果、ShaDocFormerは、シャドウと照明の両方のバリエーションを正確に検出およびキャプチャし、効果的にシャドウを削除することができる。 大規模な実験により、ShaDocFormerは定性測定と定量的測定の両方で現在の最先端の手法より優れていることが示された。

Document shadow is a common issue that arise when capturing documents using mobile devices, which significantly impacts the readability. Current methods encounter various challenges including inaccurate detection of shadow masks and estimation of illumination. In this paper, we propose ShaDocFormer, a Transformer-based architecture that integrates traditional methodologies and deep learning techniques to tackle the problem of document shadow removal. The ShaDocFormer architecture comprises two components: the Shadow-attentive Threshold Detector (STD) and the Cascaded Fusion Refiner (CFR). The STD module employs a traditional thresholding technique and leverages the attention mechanism of the Transformer to gather global information, thereby enabling precise detection of shadow masks. The cascaded and aggregative structure of the CFR module facilitates a coarse-to-fine restoration process for the entire image. As a result, ShaDocFormer excels in accurately detecting and capturing variations in both shadow and illumination, thereby enabling effective removal of shadows. Extensive experiments demonstrate that ShaDocFormer outperforms current state-of-the-art methods in both qualitative and quantitative measurements.
翻訳日:2023-09-15 17:47:07 公開日:2023-09-14
# LLMによる長期文書概要評価について

Less is More for Long Document Summary Evaluation by LLMs ( http://arxiv.org/abs/2309.07382v1 )

ライセンス: Link先を確認
Yunshu Wu, Hayate Iso, Pouya Pezeshkpour, Nikita Bhutani, Estevam Hruschka(参考訳) 大規模言語モデル(llm)は要約評価タスクにおいて有望な性能を示しているが、高い計算コストや長い文書の中間で重要な情報が見過ごされるような中途半端な問題などの課題に直面している。 これらの課題に対処するために,長い資料からキー文を抽出し,LLMを誘導して要約を評価する新しい手法であるExtract-then-Evaluateを提案する。 その結果,提案手法は評価コストを大幅に削減するだけでなく,人的評価との相関も高いことがわかった。 さらに,最適な文書長と文抽出手法の実践的提案を行い,LCMによるテキスト生成評価のためのコスト効率が高く精度の高い手法の開発に寄与する。

Large Language Models (LLMs) have shown promising performance in summary evaluation tasks, yet they face challenges such as high computational costs and the Lost-in-the-Middle problem where important information in the middle of long documents is often overlooked. To address these issues, this paper introduces a novel approach, Extract-then-Evaluate, which involves extracting key sentences from a long source document and then evaluating the summary by prompting LLMs. The results reveal that the proposed method not only significantly reduces evaluation costs but also exhibits a higher correlation with human evaluations. Furthermore, we provide practical recommendations for optimal document length and sentence extraction methods, contributing to the development of cost-effective yet more accurate methods for LLM-based text generation evaluation.
翻訳日:2023-09-15 16:40:52 公開日:2023-09-14
# 異常値の存在下での不確かさのロバスト推定のためのベータ量子化回帰

Beta quantile regression for robust estimation of uncertainty in the presence of outliers ( http://arxiv.org/abs/2309.07374v1 )

ライセンス: Link先を確認
Haleh Akrami, Omar Zamzam, Anand Joshi, Sergul Aydore, Richard Leahy(参考訳) QR(Quantile Regression)は、ディープニューラルネットワークにおけるアレタリック不確実性を推定するために使用することができ、予測間隔を生成することができる。 不確かさの定量化は、臨床診断などの重要な応用において特に重要であり、疾患の状態の決定や適切な治療の計画に不確実性の現実的な評価が不可欠である。 分位回帰モデルの最も一般的な応用は、パラメトリック度が特定できない場合である。 質的回帰は、外れた応答観測には非常に頑健であるが、外れた共変量観測(特徴)に敏感である。 外見的特徴は、スタイル翻訳、画像再構成、深層異常検出などのディープラーニング回帰問題のパフォーマンスを損なう可能性があるため、誤解を招く可能性がある。 この問題に対処するために,ロバストな発散から概念を取り入れた分位回帰のためのロバストな解を提案する。 提案手法の性能を比較検討した。 (i)最小トリミング量子レグレッション及び (ii)外れ値が存在する単純な実データセットにおけるケース固有パラメータの正規化に基づくロバスト回帰。 これらの手法はディープラーニングフレームワークには適用されていない。 また,拡散モデルを用いた医用画像翻訳タスクに適用することにより,提案手法の適用性を示す。

Quantile Regression (QR) can be used to estimate aleatoric uncertainty in deep neural networks and can generate prediction intervals. Quantifying uncertainty is particularly important in critical applications such as clinical diagnosis, where a realistic assessment of uncertainty is essential in determining disease status and planning the appropriate treatment. The most common application of quantile regression models is in cases where the parametric likelihood cannot be specified. Although quantile regression is quite robust to outlier response observations, it can be sensitive to outlier covariate observations (features). Outlier features can compromise the performance of deep learning regression problems such as style translation, image reconstruction, and deep anomaly detection, potentially leading to misleading conclusions. To address this problem, we propose a robust solution for quantile regression that incorporates concepts from robust divergence. We compare the performance of our proposed method with (i) least trimmed quantile regression and (ii) robust regression based on the regularization of case-specific parameters in a simple real dataset in the presence of outlier. These methods have not been applied in a deep learning framework. We also demonstrate the applicability of the proposed method by applying it to a medical imaging translation task using diffusion models.
翻訳日:2023-09-15 16:40:38 公開日:2023-09-14
# 言語モデル適応のためのハイブリッド注意型エンコーダ・デコーダモデル

Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation ( http://arxiv.org/abs/2309.07369v1 )

ライセンス: Link先を確認
Shaoshi Ling, Guoli Ye, Rui Zhao, Yifan Gong(参考訳) 近年,注意型エンコーダデコーダ(AED)音声認識モデルが広く普及している。 しかし, 音素モデルと言語モデルの協調最適化は, テキスト適応の課題を生み出している。 特に、テキストを迅速かつ安価に適応させることが、業界にAEDシステムを展開する上で主要な関心事となっている。 この問題に対処するために,従来のハイブリッド自動音声認識システムのモジュラリティを保った,ハイブリッド型注意型エンコーダデコーダ(haed)音声認識モデルを提案する。 我々のHAEDモデルはアコースティックモデルと言語モデルとを分離し、従来のテキストベース言語モデル適応技術の使用を可能にする。 提案したHAEDモデルでは,言語モデル適応にドメイン外テキストデータを使用する場合の単語誤り率(WER)が21\%向上し,従来のAEDモデルと比較して,一般的なテストセット上でのWERの低下がわずかであることを示す。

Attention-based encoder-decoder (AED) speech recognition model has been widely successful in recent years. However, the joint optimization of acoustic model and language model in end-to-end manner has created challenges for text adaptation. In particular, effectively, quickly and inexpensively adapting text has become a primary concern for deploying AED systems in industry. To address this issue, we propose a novel model, the hybrid attention-based encoder-decoder (HAED) speech recognition model that preserves the modularity of conventional hybrid automatic speech recognition systems. Our HAED model separates the acoustic and language models, allowing for the use of conventional text-based language model adaptation techniques. We demonstrate that the proposed HAED model yields 21\% Word Error Rate (WER) improvements in relative when out-of-domain text data is used for language model adaptation, and with only a minor degradation in WER on a general test set compared with conventional AED model.
翻訳日:2023-09-15 16:40:17 公開日:2023-09-14
# ディープニューラルネットワークにおけるカーネルバランス方程式

The kernel-balanced equation for deep neural networks ( http://arxiv.org/abs/2309.07367v1 )

ライセンス: Link先を確認
Kenichi Nakazato(参考訳) 深層ニューラルネットワークは、この10年で多くの実りある応用を示している。 ネットワークは有限データセットによるトレーニングを通じて一般化関数を取得することができる。 一般化の程度は、データ空間における近接スケールの実現である。 具体的には、データセットが複雑かどうかが明確ではない。 本稿では,データセットの分布推定のためのネットワークについて考察する。 推定は不安定であり、不安定性はデータ密度とトレーニング時間に依存する。 カーネルバランス方程式を導出し、解の現象学的記述を短くする。 この方程式は、不安定な理由とスケールのメカニズムを教えてくれる。 ネットワークは、予測としてデータセットの局所平均を出力し、方程式に沿って平均化のスケールを決定する。 トレーニングの規模は徐々に減少し,最終的には不安定に陥る。

Deep neural networks have shown many fruitful applications in this decade. A network can get the generalized function through training with a finite dataset. The degree of generalization is a realization of the proximity scale in the data space. Specifically, the scale is not clear if the dataset is complicated. Here we consider a network for the distribution estimation of the dataset. We show the estimation is unstable and the instability depends on the data density and training duration. We derive the kernel-balanced equation, which gives a short phenomenological description of the solution. The equation tells us the reason for the instability and the mechanism of the scale. The network outputs a local average of the dataset as a prediction and the scale of averaging is determined along the equation. The scale gradually decreases along training and finally results in instability in our case.
翻訳日:2023-09-15 16:39:58 公開日:2023-09-14
# ホッジアウェアのコントラスト学習

Hodge-Aware Contrastive Learning ( http://arxiv.org/abs/2309.07364v1 )

ライセンス: Link先を確認
Alexander M\"ollers, Alexander Immer, Vincent Fortuin, Elvin Isufi(参考訳) 単純なコンプレックスは、ネットワークのエッジに沿って定義されたデータや、他の高次構造を含む、マルチウェイ依存のデータモデリングに有効である。 これらのスペクトルはホッジ分解によって3つの解釈可能な部分空間に分解され、多くの応用の基礎となる。 我々は,この分解を利用して,単純化されたデータを処理するための対比的自己教師付き学習手法を開発し,特定のスペクトル情報をカプセル化する埋め込みを生成する。 さらに,Hodge成分とアンカーとの類似性を考慮して,対照的な損失における負の例の重要性を再評価する。 類似しないインスタンス間のより強い分離を奨励することにより、データのスペクトル特性を反映した埋め込み空間を得る。 2つの標準エッジフロー分類タスクの数値結果は,教師付き学習手法と比較しても優れた性能を示す。 本研究は,高次データとの対比学習にスペクトルパースペクティブを採用することの重要性を強調する。

Simplicial complexes prove effective in modeling data with multiway dependencies, such as data defined along the edges of networks or within other higher-order structures. Their spectrum can be decomposed into three interpretable subspaces via the Hodge decomposition, resulting foundational in numerous applications. We leverage this decomposition to develop a contrastive self-supervised learning approach for processing simplicial data and generating embeddings that encapsulate specific spectral information.Specifically, we encode the pertinent data invariances through simplicial neural networks and devise augmentations that yield positive contrastive examples with suitable spectral properties for downstream tasks. Additionally, we reweight the significance of negative examples in the contrastive loss, considering the similarity of their Hodge components to the anchor. By encouraging a stronger separation among less similar instances, we obtain an embedding space that reflects the spectral properties of the data. The numerical results on two standard edge flow classification tasks show a superior performance even when compared to supervised learning techniques. Our findings underscore the importance of adopting a spectral perspective for contrastive learning with higher-order data.
翻訳日:2023-09-15 16:39:49 公開日:2023-09-14
# ビットストリームカバーによるビデオの判定

Judging a video by its bitstream cover ( http://arxiv.org/abs/2309.07361v1 )

ライセンス: Link先を確認
Yuxing Han, Yunan Ding, Jiangtao Wen, Chen Ye Gan(参考訳) スポーツやミュージックビデオなどの異なるカテゴリに分類することはマルチメディア理解や検索に不可欠であり、特に大量のビデオコンテンツが常に生成される時代において重要である。 従来の方法では、色、テクスチャ、動きなどのピクセルレベルの特徴を抽出するためにビデオデ圧縮が必要であり、それによって計算とストレージの要求が増大する。 さらに、これらの手法は低品質ビデオの性能劣化に悩まされることが多い。 本稿では,ビデオの圧縮後ビットストリームのみを解析して分類を行い,ビットストリームの必要性を解消する手法を提案する。 29,000以上のyoutubeビデオクリップ、合計6000時間、11のカテゴリからなるカスタム構築データセットを用いて、このアプローチを検証する。 予備評価の結果,精度,精度,リコール率は80%以上であった。 このアルゴリズムは30fpsビデオのリアルタイム処理よりも約15,000倍高速で動作し、従来のdynamic time warping(dtw)アルゴリズムを6桁上回っている。

Classifying videos into distinct categories, such as Sport and Music Video, is crucial for multimedia understanding and retrieval, especially in an age where an immense volume of video content is constantly being generated. Traditional methods require video decompression to extract pixel-level features like color, texture, and motion, thereby increasing computational and storage demands. Moreover, these methods often suffer from performance degradation in low-quality videos. We present a novel approach that examines only the post-compression bitstream of a video to perform classification, eliminating the need for bitstream. We validate our approach using a custom-built data set comprising over 29,000 YouTube video clips, totaling 6,000 hours and spanning 11 distinct categories. Our preliminary evaluations indicate precision, accuracy, and recall rates well over 80%. The algorithm operates approximately 15,000 times faster than real-time for 30fps videos, outperforming traditional Dynamic Time Warping (DTW) algorithm by six orders of magnitude.
翻訳日:2023-09-15 16:39:30 公開日:2023-09-14
# 部分微分方程式に対するマルチグレード深層学習とバーガーズ方程式への応用

Multi-Grade Deep Learning for Partial Differential Equations with Applications to the Burgers Equation ( http://arxiv.org/abs/2309.07401v1 )

ライセンス: Link先を確認
Yuesheng Xu and Taishan Zeng(参考訳) 本稿では,非線形偏微分方程式(PDE)を解くための多段階深層学習法を開発した。 ディープニューラルネットワーク(DNN)は、自然言語処理、コンピュータビジョン、ロボット工学といった分野での卓越した成功に加えて、PDEの解決において非常に優れた成果を上げている。 しかし、非常に深いネットワークのトレーニングは難しい作業であることが多い。 DNNの層数が増加するにつれて、PDEのDNN解をもたらす大規模な非凸最適化問題の解決がますます難しくなり、予測精度の増大よりも減少につながる可能性がある。 この課題を克服するために、DNNを複数のニューラルネットワーク上に積み重ねるタスクを階段のような方法で分解する2段階のマルチグレードディープラーニング(TS-MGDL)手法を提案する。 このアプローチにより、多くのパラメーターで非凸最適化問題を解決する複雑さを軽減し、以前のグレードから残した残余成分を効率的に学習できる。 提案するts-mgdl法の各段階/段階が損失関数の値を減少させ,数値実験によりさらに検証できることを実証する。 提案手法は一般のPDEに適用できるが,本論文の実装は1次元, 2次元, 3次元粘性バーガース方程式にのみ焦点をあてる。 実験結果から,提案手法は方程式の解を効率よく学習し,予測精度で既存の一階深層学習法より優れていることがわかった。 具体的には,1d,2d,3dの各方程式に対して,26-60,4-31,3-12回のts-mgdl法よりも予測誤差が大きい。

We develop in this paper a multi-grade deep learning method for solving nonlinear partial differential equations (PDEs). Deep neural networks (DNNs) have received super performance in solving PDEs in addition to their outstanding success in areas such as natural language processing, computer vision, and robotics. However, training a very deep network is often a challenging task. As the number of layers of a DNN increases, solving a large-scale non-convex optimization problem that results in the DNN solution of PDEs becomes more and more difficult, which may lead to a decrease rather than an increase in predictive accuracy. To overcome this challenge, we propose a two-stage multi-grade deep learning (TS-MGDL) method that breaks down the task of learning a DNN into several neural networks stacked on top of each other in a staircase-like manner. This approach allows us to mitigate the complexity of solving the non-convex optimization problem with large number of parameters and learn residual components left over from previous grades efficiently. We prove that each grade/stage of the proposed TS-MGDL method can reduce the value of the loss function and further validate this fact through numerical experiments. Although the proposed method is applicable to general PDEs, implementation in this paper focuses only on the 1D, 2D, and 3D viscous Burgers equations. Experimental results show that the proposed two-stage multi-grade deep learning method enables efficient learning of solutions of the equations and outperforms existing single-grade deep learning methods in predictive accuracy. Specifically, the predictive errors of the single-grade deep learning are larger than those of the TS-MGDL method in 26-60, 4-31 and 3-12 times, for the 1D, 2D, and 3D equations, respectively.
翻訳日:2023-09-15 16:30:01 公開日:2023-09-14
# HIGT:全スライド画像解析のための階層的相互作用グラフ変換器

HIGT: Hierarchical Interaction Graph-Transformer for Whole Slide Image Analysis ( http://arxiv.org/abs/2309.07400v1 )

ライセンス: Link先を確認
Ziyu Guo, Weiqin Zhao, Shujun Wang, and Lequan Yu(参考訳) 計算病理学において、ギガピクセル全スライド画像(wsis)のピラミッド構造は、細胞間相互作用から組織微小環境まで様々な情報をキャプチャするために近年研究されている。 この階層構造は癌診断や予後診断に有用であると考えられている。 しかし、従来の階層的なWSI分析は、(1)WSIピラミッド内の局所的あるいは大域的相関のみを特徴付け、(2)異なる解像度間の一方向相互作用のみを使用する。 本稿では,wsi分析のための新しい階層的相互作用グラフ変換器(higt)を提案する。 Graph Neural NetworkとTransformerをビルディングコモンズとして、HIGTは、WSIピラミッドの短距離ローカル情報と長距離グローバル表現の両方を学ぶことができる。 異なる解像度からの情報が相補的であり、学習過程において相互に利益をもたらすことを考慮し、我々はさらに新しい双方向インタラクションブロックを設計し、WSIピラミッド内の異なるレベル間の通信を確立する。 最後に、異なるレベルから学んだ粗粒度と細粒度の両方を、スライドレベルの予測のために集約する。 tcgaプロジェクトである腎癌(kica)と食道癌(esca)の2つのwsiデータセットについて検討を行った。 実験の結果,HIGTは腫瘍のサブタイプおよびステージングタスクにおいて,階層的および非階層的手法の両方に優れていた。

In computation pathology, the pyramid structure of gigapixel Whole Slide Images (WSIs) has recently been studied for capturing various information from individual cell interactions to tissue microenvironments. This hierarchical structure is believed to be beneficial for cancer diagnosis and prognosis tasks. However, most previous hierarchical WSI analysis works (1) only characterize local or global correlations within the WSI pyramids and (2) use only unidirectional interaction between different resolutions, leading to an incomplete picture of WSI pyramids. To this end, this paper presents a novel Hierarchical Interaction Graph-Transformer (i.e., HIGT) for WSI analysis. With Graph Neural Network and Transformer as the building commons, HIGT can learn both short-range local information and long-range global representation of the WSI pyramids. Considering that the information from different resolutions is complementary and can benefit each other during the learning process, we further design a novel Bidirectional Interaction block to establish communication between different levels within the WSI pyramids. Finally, we aggregate both coarse-grained and fine-grained features learned from different levels together for slide-level prediction. We evaluate our methods on two public WSI datasets from TCGA projects, i.e., kidney carcinoma (KICA) and esophageal carcinoma (ESCA). Experimental results show that our HIGT outperforms both hierarchical and non-hierarchical state-of-the-art methods on both tumor subtyping and staging tasks.
翻訳日:2023-09-15 16:29:22 公開日:2023-09-14
# 拡散モデルによる意味的対立攻撃

Semantic Adversarial Attacks via Diffusion Models ( http://arxiv.org/abs/2309.07398v1 )

ライセンス: Link先を確認
Chenan Wang, Jinhao Duan, Chaowei Xiao, Edward Kim, Matthew Stamm, Kaidi Xu(参考訳) 伝統的な敵の攻撃は、敵の摂動を加えることによってピクセル空間のクリーンな例を操作することに集中する。 対照的に、セマンティックな敵の攻撃は、現実世界でより実現可能な色、コンテキスト、特徴といったクリーンな例の意味属性の変更に焦点を当てている。 本稿では,近年の拡散モデルを用いて,よく訓練された拡散モデルの潜在空間に意味情報が含まれるため,意味的敵意攻撃を迅速に生成する枠組みを提案する。 このフレームワークには2つのバリエーションがある。 1) 意味変換(st)アプローチは,生成画像及び/又は拡散モデル自体の潜在空間を微調整する。 2) 潜伏マスキング (lm) アプローチは潜伏空間を別の対象画像と局所バックプロパゲーションに基づく解釈法でマスクする。 さらに、STアプローチはホワイトボックスまたはブラックボックスの設定にも適用できる。 celeba-hqおよびafhqデータセットについて広範な実験を行い、他のベースラインと比較して高い忠実性、一般化性、転送性を示す。 提案手法はFIDが36.61である複数の設定で攻撃成功率を約100%達成する。 コードはhttps://github.com/steven202/semantic_adv_via_dmで入手できる。

Traditional adversarial attacks concentrate on manipulating clean examples in the pixel space by adding adversarial perturbations. By contrast, semantic adversarial attacks focus on changing semantic attributes of clean examples, such as color, context, and features, which are more feasible in the real world. In this paper, we propose a framework to quickly generate a semantic adversarial attack by leveraging recent diffusion models since semantic information is included in the latent space of well-trained diffusion models. Then there are two variants of this framework: 1) the Semantic Transformation (ST) approach fine-tunes the latent space of the generated image and/or the diffusion model itself; 2) the Latent Masking (LM) approach masks the latent space with another target image and local backpropagation-based interpretation methods. Additionally, the ST approach can be applied in either white-box or black-box settings. Extensive experiments are conducted on CelebA-HQ and AFHQ datasets, and our framework demonstrates great fidelity, generalizability, and transferability compared to other baselines. Our approaches achieve approximately 100% attack success rate in multiple settings with the best FID as 36.61. Code is available at https://github.com/steven202/semantic_adv_via_dm.
翻訳日:2023-09-15 16:28:59 公開日:2023-09-14
# DebCSE: Debiasing の視点から学習を取り入れた教師なしコントラスト文の再考

DebCSE: Rethinking Unsupervised Contrastive Sentence Embedding Learning in the Debiasing Perspective ( http://arxiv.org/abs/2309.07396v1 )

ライセンス: Link先を確認
Pu Miao and Zeyao Du and Junlin Zhang(参考訳) いくつかの先行研究は、単語の頻度バイアスがbertモデルに区別がつかない文埋め込みを学習させる可能性を示唆している。 SimCSEやConSERTのような対照的な学習スキームは、このバイアスを減らして埋め込みの質を向上させるために、教師なしの文埋め込みにおいて既にうまく採用されている。 しかし、これらの手法は、モデルがよりきめ細かいセマンティクスを学ぶ能力を妨げる、文長バイアスや偽陰性サンプルバイアスのような新しいバイアスを導入している。 本稿では, 文章埋込学習の難しさを再検討し, 様々なバイアスの影響を効果的に排除することが, 高品質な文章埋込学習に不可欠であると主張している。 これらのバイアスはすべて、対照的な学習でトレーニングデータを構築するための単純なルールによって導入され、対照的な学習文の埋め込みの鍵は教師なし機械学習におけるトレーニングデータの分布を模倣することである。 文の表面および意味的類似性の両方に応じて高品質な正対と負対を選択する逆正重み付きサンプリング法により,これらのバイアスの影響を排除できる文埋め込みのための新しいコントラストフレームワークDabCSEを提案する。 セマンティックテキスト類似性(STS)ベンチマークの広範な実験により、DebCSEは、BERTbase上で平均スピアマンの相関係数が80.33%の最新の最先端モデルよりも著しく優れていることが明らかになった。

Several prior studies have suggested that word frequency biases can cause the Bert model to learn indistinguishable sentence embeddings. Contrastive learning schemes such as SimCSE and ConSERT have already been adopted successfully in unsupervised sentence embedding to improve the quality of embeddings by reducing this bias. However, these methods still introduce new biases such as sentence length bias and false negative sample bias, that hinders model's ability to learn more fine-grained semantics. In this paper, we reexamine the challenges of contrastive sentence embedding learning from a debiasing perspective and argue that effectively eliminating the influence of various biases is crucial for learning high-quality sentence embeddings. We think all those biases are introduced by simple rules for constructing training data in contrastive learning and the key for contrastive learning sentence embedding is to mimic the distribution of training data in supervised machine learning in unsupervised way. We propose a novel contrastive framework for sentence embedding, termed DebCSE, which can eliminate the impact of these biases by an inverse propensity weighted sampling method to select high-quality positive and negative pairs according to both the surface and semantic similarity between sentences. Extensive experiments on semantic textual similarity (STS) benchmarks reveal that DebCSE significantly outperforms the latest state-of-the-art models with an average Spearman's correlation coefficient of 80.33% on BERTbase.
翻訳日:2023-09-15 16:28:36 公開日:2023-09-14
# 病理画像の非対像変換を用いた核認識型自己教師付き事前学習

Nucleus-aware Self-supervised Pretraining Using Unpaired Image-to-image Translation for Histopathology Images ( http://arxiv.org/abs/2309.07394v1 )

ライセンス: Link先を確認
Zhiyun Song, Penghui Du, Junpeng Yan, Kailu Li, Jianzhong Shou, Maode Lai, Yubo Fan, Yan Xu(参考訳) ラベルなしデータから効果的な特徴を得ることでモデル性能を向上させる自己教師付き事前訓練の試みを行い,病理組織像の分野における効果を実証した。 その成功にもかかわらず、病理分析に不可欠な核レベルの情報の抽出に集中する研究は少ない。 本研究では,病理組織像のための新しい核認識型自己教師型プレトレーニングフレームワークを提案する。 本フレームワークは, 病理像と疑似マスク画像の非対面画像変換により, 核形態や分布情報を捉えることを目的とする。 生成過程は条件式と確率型の両方の表現によって変調され、生成した病理像の現実性と多様性が保証される。 さらに、インスタンスレベルの情報をキャプチャするために、インスタンスセグメンテーションガイドストラテジーが使用される。 7つのデータセットに対する実験により,提案手法は,Kather分類,複数インスタンス学習,および5つの高密度予測タスクにおいて,教師付きタスクよりも優れ,半教師付きタスクにおける他の自己教師型手法よりも優れた結果が得られることが示された。 私たちのプロジェクトはhttps://github.com/zhiyuns/UNITPathSSLで公開されています。

Self-supervised pretraining attempts to enhance model performance by obtaining effective features from unlabeled data, and has demonstrated its effectiveness in the field of histopathology images. Despite its success, few works concentrate on the extraction of nucleus-level information, which is essential for pathologic analysis. In this work, we propose a novel nucleus-aware self-supervised pretraining framework for histopathology images. The framework aims to capture the nuclear morphology and distribution information through unpaired image-to-image translation between histopathology images and pseudo mask images. The generation process is modulated by both conditional and stochastic style representations, ensuring the reality and diversity of the generated histopathology images for pretraining. Further, an instance segmentation guided strategy is employed to capture instance-level information. The experiments on 7 datasets show that the proposed pretraining method outperforms supervised ones on Kather classification, multiple instance learning, and 5 dense-prediction tasks with the transfer learning protocol, and yields superior results than other self-supervised approaches on 8 semi-supervised tasks. Our project is publicly available at https://github.com/zhiyuns/UNITPathSSL.
翻訳日:2023-09-15 16:28:10 公開日:2023-09-14
# EnCodecMAE: ユニバーサル音声表現学習のためのニューラルコーデックの活用

EnCodecMAE: Leveraging neural codecs for universal audio representation learning ( http://arxiv.org/abs/2309.07391v1 )

ライセンス: Link先を確認
Leonardo Pepino and Pablo Riera and Luciana Ferrer(参考訳) 普遍的な音声表現学習の目的は、音声、音楽、環境音を含む様々な下流タスクに使用できる基礎モデルを得ることである。 この問題に対処するために、BERTのようなNLPの自己教師型モデルにインスパイアされた手法がしばしば使われ、オーディオに適応する。 これらのモデルはテキストの離散性に依存しているため、オーディオ処理にこのようなアプローチを採用するには、学習目標の変更や、音声信号を離散クラスにマッピングする必要がある。 本研究では,ニューラルオーディオコーデックであるエンコーダを用いて,マスク付きオートエンコーダ(mae)に基づくユニバーサルオーディオモデル学習のための離散的ターゲットを生成する。 本研究では,EncodecMAEと呼ぶこの手法を,音声,音楽,環境音にまたがる幅広い音声タスクで評価し,先行する音声表現モデルに匹敵する,あるいは優れた性能を実現する。

The goal of universal audio representation learning is to obtain foundational models that can be used for a variety of downstream tasks involving speech, music or environmental sounds. To approach this problem, methods inspired by self-supervised models from NLP, like BERT, are often used and adapted to audio. These models rely on the discrete nature of text, hence adopting this type of approach for audio processing requires either a change in the learning objective or mapping the audio signal to a set of discrete classes. In this work, we explore the use of EnCodec, a neural audio codec, to generate discrete targets for learning an universal audio model based on a masked autoencoder (MAE). We evaluate this approach, which we call EncodecMAE, on a wide range of audio tasks spanning speech, music and environmental sounds, achieving performances comparable or better than leading audio representation models.
翻訳日:2023-09-15 16:27:52 公開日:2023-09-14
# コンパチブルな内視鏡画像の設計による深度とポス推定ニューラルネットワークの解き放つ

Unleashing the Power of Depth and Pose Estimation Neural Networks by Designing Compatible Endoscopic Images ( http://arxiv.org/abs/2309.07390v1 )

ライセンス: Link先を確認
Junyang Wu, Yun Gu(参考訳) 深層学習モデルは、内視鏡ナビゲーションに成功するための有効な経路として、注釈なしデータセットの深さとポーズ推定フレームワークを目撃している。 現在のほとんどのテクニックは、精度を向上させるために、より高度なニューラルネットワークの開発に特化している。 しかし、既存の手法では内視鏡画像の特殊性を無視し、ニューラルネットワークのパワーを完全に解き放つことができない。 本研究では,現在のニューラルネットワークのパワーを解放するために,内視鏡画像の特性を詳細に解析し,画像とニューラルネットワークの互換性を向上させる。 まず、完全画像情報の代わりに部分画像情報を入力するマスク画像モデリング(mim)モジュールを導入し、ネットワークが部分画素情報からグローバル情報を復元できるようにする。 これにより、グローバル情報を知覚するネットワークの能力が向上し、局所的なアーティファクトによる畳み込みニューラルネットワークにおける局所的な過剰フィッティング現象を緩和する。 第2に,画像とニューラルネットワークの互換性を明示的に改善するために,内視鏡画像を強化する軽量ニューラルネットワークを提案する。 3つのパブリックデータセットと1つの社内データセットで大規模な実験を行い、提案したモジュールはベースラインを大きく改善する。 さらに,提案する拡張画像は,ネットワーク互換性が高く,効率的なデータ拡張手法となり,従来の特徴点マッチングタスクにおいて,より安定した特徴点を抽出し,優れた性能を実現することができる。

Deep learning models have witnessed depth and pose estimation framework on unannotated datasets as a effective pathway to succeed in endoscopic navigation. Most current techniques are dedicated to developing more advanced neural networks to improve the accuracy. However, existing methods ignore the special properties of endoscopic images, resulting in an inability to fully unleash the power of neural networks. In this study, we conduct a detail analysis of the properties of endoscopic images and improve the compatibility of images and neural networks, to unleash the power of current neural networks. First, we introcude the Mask Image Modelling (MIM) module, which inputs partial image information instead of complete image information, allowing the network to recover global information from partial pixel information. This enhances the network' s ability to perceive global information and alleviates the phenomenon of local overfitting in convolutional neural networks due to local artifacts. Second, we propose a lightweight neural network to enhance the endoscopic images, to explicitly improve the compatibility between images and neural networks. Extensive experiments are conducted on the three public datasets and one inhouse dataset, and the proposed modules improve baselines by a large margin. Furthermore, the enhanced images we proposed, which have higher network compatibility, can serve as an effective data augmentation method and they are able to extract more stable feature points in traditional feature point matching tasks and achieve outstanding performance.
翻訳日:2023-09-15 16:27:35 公開日:2023-09-14
# VDialogUE:視覚対話のための統一評価ベンチマーク

VDialogUE: A Unified Evaluation Benchmark for Visually-grounded Dialogue ( http://arxiv.org/abs/2309.07387v1 )

ライセンス: Link先を確認
Yunshui Li, Binyuan Hui, Zhaochao Yin, Wanwei He, Run Luo, Yuxing Long, Min Yang, Fei Huang, Yongbin Li(参考訳) テキストや視覚入力といった複数モードのコミュニケーションを統合した視覚的接地ダイアログシステムは、ますます多くの調査対象となっている。 しかし、標準化された評価フレームワークが存在しないことは、この分野の開発を評価する上での課題となる。 この目的のために、我々は \textbf{u}nified \textbf{e}valuation のための \textbf{v}isuallygrounded \textbf{dialog}ueベンチマークである \textbf{vdialogue} を提案する。 5つのコアマルチモーダル対話タスクを定義し、6つのデータセットをカバーする。 さらに,全タスクにわたってモデルの性能を総合的に評価するために,分析階層プロセス~(AHP)法に基づくVDscoreと呼ばれる新しい評価指標を開発した。 さらに, 汎用マルチモーダル対話システムの進展を促進するために, 直感的かつ効率的なベースラインモデルである \textbf{VISIT}~(\textbf{VIS}ually-grounded d\textbf{I}alog \textbf{T}ransformer を提案する。 2段階の事前学習戦略を通じて、マルチモーダル基礎と対話能力を徐々に構築している。 VDialogUEベンチマークは、評価スクリプトとベースラインモデルとともに、視覚的に接地された対話システムの開発を加速し、より高度で効果的な事前学習モデルの開発につながると信じている。

Visually-grounded dialog systems, which integrate multiple modes of communication such as text and visual inputs, have become an increasingly popular area of investigation. However, the absence of a standardized evaluation framework poses a challenge in assessing the development of this field. To this end, we propose \textbf{VDialogUE}, a \textbf{V}isually-grounded \textbf{Dialog}ue benchmark for \textbf{U}nified \textbf{E}valuation. It defines five core multi-modal dialogue tasks and covers six datasets. Furthermore, in order to provide a comprehensive assessment of the model's performance across all tasks, we developed a novel evaluation metric called VDscore, which is based on the Analytic Hierarchy Process~(AHP) method. Additionally, we present a straightforward yet efficient baseline model, named \textbf{VISIT}~(\textbf{VIS}ually-grounded d\textbf{I}alog \textbf{T}ransformer), to promote the advancement of general multi-modal dialogue systems. It progressively builds its multi-modal foundation and dialogue capability via a two-stage pre-training strategy. We believe that the VDialogUE benchmark, along with the evaluation scripts and our baseline models, will accelerate the development of visually-grounded dialog systems and lead to the development of more sophisticated and effective pre-trained models.
翻訳日:2023-09-15 16:27:13 公開日:2023-09-14
# ニュースソースをプロファイリングするための対話型フレームワーク

An Interactive Framework for Profiling News Media Sources ( http://arxiv.org/abs/2309.07384v1 )

ライセンス: Link先を確認
Nikhil Mehta and Dan Goldwasser(参考訳) 最近のソーシャルメディアの台頭により、偽ニュースや偏ったニュースが大量に拡散し、信念を揺るがそうとするコンテンツが公開された。 このニュースを広める情報源の検出とプロファイリングは、健全な社会を維持する上で重要であるが、自動化システムでは困難である。 本稿では,ニュースメディアプロファイリングのための対話型フレームワークを提案する。 それは、グラフベースのニュースメディアプロファイリングモデル、事前訓練された大規模言語モデル、そしてソーシャルメディア上の社会的コンテキストを特徴づける人間の洞察の強みを組み合わせる。 実験結果から,テストデータが見えない新興ニュースイベントの最も困難な状況においても,人間のインタラクションを5つに抑えて,偽ニュースや偏見のあるニュースメディアを迅速に検出できることがわかった。

The recent rise of social media has led to the spread of large amounts of fake and biased news, content published with the intent to sway beliefs. While detecting and profiling the sources that spread this news is important to maintain a healthy society, it is challenging for automated systems. In this paper, we propose an interactive framework for news media profiling. It combines the strengths of graph based news media profiling models, Pre-trained Large Language Models, and human insight to characterize the social context on social media. Experimental results show that with as little as 5 human interactions, our framework can rapidly detect fake and biased news media, even in the most challenging settings of emerging news events, where test data is unseen.
翻訳日:2023-09-15 16:26:45 公開日:2023-09-14
# 強化学習における近似のある種のネイティブ空間における収束率

Rates of Convergence in Certain Native Spaces of Approximations used in Reinforcement Learning ( http://arxiv.org/abs/2309.07383v1 )

ライセンス: Link先を確認
Ali Bouland, Shengyuan Niu, Sai Tej Paruchuri, Andrew Kurdila, John Burns, Eugenio Schuster(参考訳) 本稿では、再生カーネルヒルベルト空間(RKHS)$H(\Omega)$の集合に生じる値関数近似の収束率について研究する。 自然空間の特定のクラスに最適制御問題をキャストすることにより、ポリシー反復に現れるオフライン近似を可能にする演算子方程式に対して強い収束率が導出される。 値関数近似における誤差の明示的な上限は、ネイティブ空間 $h(\omega)$ における有限次元近似の空間に対するパワー関数 $\pwr_{h,n}$ によって導かれる。 これらの境界は自然界において幾何学的であり、値関数の近似の収束に関する古典的結果のいくつかを洗練している。

This paper studies convergence rates for some value function approximations that arise in a collection of reproducing kernel Hilbert spaces (RKHS) $H(\Omega)$. By casting an optimal control problem in a specific class of native spaces, strong rates of convergence are derived for the operator equation that enables offline approximations that appear in policy iteration. Explicit upper bounds on error in value function approximations are derived in terms of power function $\Pwr_{H,N}$ for the space of finite dimensional approximants $H_N$ in the native space $H(\Omega)$. These bounds are geometric in nature and refine some well-known, now classical results concerning convergence of approximations of value functions.
翻訳日:2023-09-15 16:26:31 公開日:2023-09-14
# chatgpt mt: 高い(でも低い)リソース言語に対する競争

ChatGPT MT: Competitive for High- (but not Low-) Resource Languages ( http://arxiv.org/abs/2309.07423v1 )

ライセンス: Link先を確認
Nathaniel R. Robinson, Perez Ogayo, David R. Mortensen and Graham Neubig(参考訳) 大規模言語モデル(LLM)は機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。 従来,LLMのMT機能について検討した。 しかし、近年のLLM MTの性能が評価されることはなかった多種多様な言語が存在する。 この問題に関する実験的証拠を公表しなければ、世界中の多様な言語の話者が、彼らの言語にllmを使用できるかどうかを知ることは困難である。 FLORES-200ベンチマークを用いてMTコスト分析とともに,204言語を拡張した最初の実験結果を示す。 GPTモデルは、いくつかの高リソース言語(HRL)では従来のMTモデルの性能に近づいたり、超えたりしているが、低リソース言語(LRL)では一貫して遅れている。 分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語資源レベルが最も重要な特徴であることが判明した。

Large language models (LLMs) implicitly learn to perform a range of language tasks, including machine translation (MT). Previous studies explore aspects of LLMs' MT capabilities. However, there exist a wide variety of languages for which recent LLM MT performance has never before been evaluated. Without published experimental evidence on the matter, it is difficult for speakers of the world's diverse languages to know how and whether they can use LLMs for their languages. We present the first experimental evidence for an expansive set of 204 languages, along with MT cost analysis, using the FLORES-200 benchmark. Trends reveal that GPT models approach or exceed traditional MT model performance for some high-resource languages (HRLs) but consistently lag for low-resource languages (LRLs), under-performing traditional MT for 84.1% of languages we covered. Our analysis reveals that a language's resource level is the most important feature in determining ChatGPT's relative ability to translate it, and suggests that ChatGPT is especially disadvantaged for LRLs and African languages.
翻訳日:2023-09-15 16:22:07 公開日:2023-09-14
# 高速最適化視点:テンソルとSVMトリップに基づくLLMにおける単一層アテンションの修正と行列乗算時間での解法

A Fast Optimization View: Reformulating Single Layer Attention in LLM Based on Tensor and SVM Trick, and Solving It in Matrix Multiplication Time ( http://arxiv.org/abs/2309.07418v1 )

ライセンス: Link先を確認
Yeqi Gao, Zhao Song, Weixin Wang, Junze Yin(参考訳) 大規模言語モデル(LLM)は、我々の日常生活における様々な側面に革命をもたらす重要な役割を担っている。 注意の回帰を解くことはLLMを最適化する基本的な課題である。 本研究では、一層アテンションネットワーク対象関数 $L(X,Y) = \sum_{j_0 = 1}^n \sum_{i_0 = 1}^d ( \langle \langle \exp( \mathsf{A}_{j_0} x ) , {\bf 1}_n \rangle^{-1} \exp( \mathsf{A}_{j_0} x ), A_{3} Y_{*,i_0} \rangle - b_{j_0,i_0} )^2$ に対して証明可能な保証を与えることに焦点を当てる。 ここで、$\mathsf{A} \in \mathbb{R}^{n^2 \times d^2}$は、$A_1 \in \mathbb{R}^{n \times d}$と$A_2 \in \mathbb{R}^{n \times d}$の間のクロネッカー積である。 A_3$ は $\mathbb{R}^{n \times d}$, $\mathsf{A}_{j_0} \in \mathbb{R}^{n \times d^2}$ の行列は $\mathsf{A}$ の$j_0$-番目のブロックである。 X, Y \in \mathbb{R}^{d \times d}$は私たちが学びたい変数である。 $B \in \mathbb{R}^{n \times d}$と$b_{j_0,i_0} \in \mathbb{R}$は$j_0$-th rowと$i_0$-th column of $B$, $Y_{*,i_0} \in \mathbb{R}^d$は$Y$の$i_0$-column vectorであり、$x \in \mathbb{R}^{d^2}$は$X$のベクトル化である。 多層llmネットワークでは、行列 $b \in \mathbb{r}^{n \times d}$ は層の出力と見なすことができ、$a_1= a_2 = a_3 \in \mathbb{r}^{n \times d}$ は層の入力と見なすことができる。 x$の行列版は$QK^\top$と見ることができ、$Y$は$V$と見ることができる。 損失関数 $l(x,y)$ up $\epsilon$ を訓練するための反復的グリーディアルゴリズムを提供し、$\widetilde{o}( ({\cal t}_{\mathrm{mat}}(n,n,d) + {\cal t}_{\mathrm{mat}}(n,d,d) + d^{2\omega}) \log(1/\epsilon)$ time で実行する。 ここで、${\cal T}_{\mathrm{mat}}(a,b,c)$ は $a \times b$ matrix と $b \times c$ matrix を乗算する時間を表し、$\omega\approx 2.37$ は行列乗算の指数を表す。

Large language models (LLMs) have played a pivotal role in revolutionizing various facets of our daily existence. Solving attention regression is a fundamental task in optimizing LLMs. In this work, we focus on giving a provable guarantee for the one-layer attention network objective function $L(X,Y) = \sum_{j_0 = 1}^n \sum_{i_0 = 1}^d ( \langle \langle \exp( \mathsf{A}_{j_0} x ) , {\bf 1}_n \rangle^{-1} \exp( \mathsf{A}_{j_0} x ), A_{3} Y_{*,i_0} \rangle - b_{j_0,i_0} )^2$. Here $\mathsf{A} \in \mathbb{R}^{n^2 \times d^2}$ is Kronecker product between $A_1 \in \mathbb{R}^{n \times d}$ and $A_2 \in \mathbb{R}^{n \times d}$. $A_3$ is a matrix in $\mathbb{R}^{n \times d}$, $\mathsf{A}_{j_0} \in \mathbb{R}^{n \times d^2}$ is the $j_0$-th block of $\mathsf{A}$. The $X, Y \in \mathbb{R}^{d \times d}$ are variables we want to learn. $B \in \mathbb{R}^{n \times d}$ and $b_{j_0,i_0} \in \mathbb{R}$ is one entry at $j_0$-th row and $i_0$-th column of $B$, $Y_{*,i_0} \in \mathbb{R}^d$ is the $i_0$-column vector of $Y$, and $x \in \mathbb{R}^{d^2}$ is the vectorization of $X$. In a multi-layer LLM network, the matrix $B \in \mathbb{R}^{n \times d}$ can be viewed as the output of a layer, and $A_1= A_2 = A_3 \in \mathbb{R}^{n \times d}$ can be viewed as the input of a layer. The matrix version of $x$ can be viewed as $QK^\top$ and $Y$ can be viewed as $V$. We provide an iterative greedy algorithm to train loss function $L(X,Y)$ up $\epsilon$ that runs in $\widetilde{O}( ({\cal T}_{\mathrm{mat}}(n,n,d) + {\cal T}_{\mathrm{mat}}(n,d,d) + d^{2\omega}) \log(1/\epsilon) )$ time. Here ${\cal T}_{\mathrm{mat}}(a,b,c)$ denotes the time of multiplying $a \times b$ matrix another $b \times c$ matrix, and $\omega\approx 2.37$ denotes the exponent of matrix multiplication.
翻訳日:2023-09-15 16:21:45 公開日:2023-09-14
# 中毒からのフェデレーション学習に対するクライアント側勾配インバージョン

Client-side Gradient Inversion Against Federated Learning from Poisoning ( http://arxiv.org/abs/2309.07415v1 )

ライセンス: Link先を確認
Jiaheng Wei, Yanjun Zhang, Leo Yu Zhang, Chao Chen, Shirui Pan, Kok-Leong Ong, Jun Zhang and Yang Xiang(参考訳) フェデレートラーニング(FL)は、分散参加者(モバイルデバイスなど)が中央サーバに直接データを共有することなくグローバルモデルをトレーニングすることを可能にする。 近年の研究では、FLは元のトレーニングサンプルを再構築し、FLのクライアントのプライバシに対して高いリスクを与えるため、勾配反転攻撃(GIA)に弱いことが判明している。 しかし、既存のGIAの多くはサーバの制御を必要としており、バッチの正規化やデータ分散情報を含む強力な事前知識に依存している。 本研究では,クライアント側から起動可能な新たな攻撃手法であるクライアント側中毒性グレーディエント・インバージョン(CGI)を提案する。 本研究は,グローバルモデルからトレーニングサンプルを復元できる知識が限られているクライアント側の敵が,初めて実現可能であることを示す。 我々は、敵が特定の対象の関心のクラスを失うのを増幅する悪意のあるモデルを利用するという、異なるアプローチを取る。 正直なクライアントが有毒なグローバルモデルを採用すると、対象クラスに属するサンプルの勾配が拡大され、集約された更新の主要な要因となる。 これにより、アグリゲートされた更新を使用して、他のクライアントに属するプライベート入力を効果的に再構築することができる。 さらに、我々のCGIは、ビザンチン・ロバスト・アグリゲーション・ルール(AGR)に対してステルス性を維持する能力も備えています。 悪質な更新を最適化し、良質な更新を悪質な代替ベクターと組み合わせることで、これらの防御機構によって検出されていない。 CGIの性能を評価するために,Byzantine-robust AGRを代表とするベンチマークデータセットを用いて実験を行い,データに関するさまざまなレベルの逆の知識を持つ多様なFL設定を探索する。 以上の結果から,CGIはすべてのテストシナリオにおいて,トレーニングインプットを一貫して抽出し,良好な結果を得ることができた。

Federated Learning (FL) enables distributed participants (e.g., mobile devices) to train a global model without sharing data directly to a central server. Recent studies have revealed that FL is vulnerable to gradient inversion attack (GIA), which aims to reconstruct the original training samples and poses high risk against the privacy of clients in FL. However, most existing GIAs necessitate control over the server and rely on strong prior knowledge including batch normalization and data distribution information. In this work, we propose Client-side poisoning Gradient Inversion (CGI), which is a novel attack method that can be launched from clients. For the first time, we show the feasibility of a client-side adversary with limited knowledge being able to recover the training samples from the aggregated global model. We take a distinct approach in which the adversary utilizes a malicious model that amplifies the loss of a specific targeted class of interest. When honest clients employ the poisoned global model, the gradients of samples belonging to the targeted class are magnified, making them the dominant factor in the aggregated update. This enables the adversary to effectively reconstruct the private input belonging to other clients using the aggregated update. In addition, our CGI also features its ability to remain stealthy against Byzantine-robust aggregation rules (AGRs). By optimizing malicious updates and blending benign updates with a malicious replacement vector, our method remains undetected by these defense mechanisms. To evaluate the performance of CGI, we conduct experiments on various benchmark datasets, considering representative Byzantine-robust AGRs, and exploring diverse FL settings with different levels of adversary knowledge about the data. Our results demonstrate that CGI consistently and successfully extracts training input in all tested scenarios.
翻訳日:2023-09-15 16:20:12 公開日:2023-09-14
# 制御可能なASRのためのPromptASR

PromptASR for contextualized ASR with controllable style ( http://arxiv.org/abs/2309.07414v1 )

ライセンス: Link先を確認
Xiaoyu Yang, Wei Kang, Zengwei Yao, Yifan Yang, Liyong Guo, Fangjun Kuang, Long Lin, Daniel Povey(参考訳) プロンプトは、トピックや論理関係といったコンテキスト情報を提供するため、大きな言語モデルにとって不可欠である。 そこで本研究では,E2E自動音声認識(E2E ASR)システムにプロンプトを統合するフレームワークであるPromptASRを提案する。 具体的には、専用テキストエンコーダがテキストプロンプトを符号化し、そのエンコーダを2つのモーダルから特徴を交叉して音声エンコーダに注入する。 先行する発話の真実文をコンテンツプロンプトとして使用する場合,本システムは,本文読解データセットと本文内データセットに対して,ベースラインASRシステムと比較して,21.9%,6.8%の単語誤り率削減を実現している。 このシステムは、単語レベルの偏見リストを、まれな単語の認識精度の向上に役立てることができる。 追加のスタイルプロンプトがテキストエンコーダに与えられ、asrシステムが異なる書き起こしスタイルを出力するようにガイドすることができる。 コードはアイスフォールで入手できる。

Prompts are crucial to large language models as they provide context information such as topic or logical relationships. Inspired by this, we propose PromptASR, a framework that integrates prompts in end-to-end automatic speech recognition (E2E ASR) systems to achieve contextualized ASR with controllable style of transcriptions. Specifically, a dedicated text encoder encodes the text prompts and the encodings are injected into the speech encoder by cross-attending the features from two modalities. When using the ground truth text from preceding utterances as content prompt, the proposed system achieves 21.9% and 6.8% relative word error rate reductions on a book reading dataset and an in-house dataset compared to a baseline ASR system. The system can also take word-level biasing lists as prompt to improve recognition accuracy on rare words. An additional style prompt can be given to the text encoder and guide the ASR system to output different styles of transcriptions. The code is available at icefall.
翻訳日:2023-09-15 16:19:41 公開日:2023-09-14
# CPPF:自動音声認識のための文脈・後処理自由モデル

CPPF: A contextual and post-processing-free model for automatic speech recognition ( http://arxiv.org/abs/2309.07413v1 )

ライセンス: Link先を確認
Lei Zhang, Zhengkun Tian, Xiang Chen, Jiaming Sun, Hongyu Xiang, Ke Ding, Guanglu Wan(参考訳) ASRシステムは近年急速に普及している。 しかし、それらのテキスト出力は、実際に利用される前に処理後タスクを必要とすることが多い。 この問題に対処するために,llmsとwhisperの多面的機能から着想を得て,音声認識に関連する複数のasrテキスト処理タスクをasrモデルに統合することに注力する。 この統合は、マルチステージパイプラインを短縮するだけでなく、カスケードエラーの伝播を防止し、後処理のテキストを直接生成する。 本研究では、コンテキストASRや複数のASRポスト処理タスクを含む、ASR関連の処理タスクに焦点をあてる。 この目的を達成するため,我々は,asr処理に代わる汎用かつ高効率な選択肢を提供するcppfモデルを提案する。 CPPFは認識性能を著しく損なうことなくこれらのタスクをシームレスに統合する。

ASR systems have become increasingly widespread in recent years. However, their textual outputs often require post-processing tasks before they can be practically utilized. To address this issue, we draw inspiration from the multifaceted capabilities of LLMs and Whisper, and focus on integrating multiple ASR text processing tasks related to speech recognition into the ASR model. This integration not only shortens the multi-stage pipeline, but also prevents the propagation of cascading errors, resulting in direct generation of post-processed text. In this study, we focus on ASR-related processing tasks, including Contextual ASR and multiple ASR post processing tasks. To achieve this objective, we introduce the CPPF model, which offers a versatile and highly effective alternative to ASR processing. CPPF seamlessly integrates these tasks without any significant loss in recognition performance.
翻訳日:2023-09-15 16:19:20 公開日:2023-09-14
# リニアリカレントニューラルネットワークにおける正規言語推論の改善

Advancing Regular Language Reasoning in Linear Recurrent Neural Networks ( http://arxiv.org/abs/2309.07412v1 )

ライセンス: Link先を確認
Ting-Han Fan, Ta-Chung Chi, Alexander I. Rudnicky(参考訳) 近年、線形リカレントニューラルネットワーク(LRNN)は、高速並列トレーニングと一定の推論コストを提供しながら、自然言語モデリングと長距離モデリングにおいてトランスフォーマーレベルの性能を実現している。 LRNNに対する関心が高まり,正規言語の文法構造など,トレーニングシーケンスに隠された規則を学習できるかどうかを検討する。 理論的には既存のLRNNを解析し,その制限を正規言語で発見する。 そこで本研究では,ブロック対角行列と入力依存遷移行列を備えたLRNNを提案する。 実験により,提案モデルがSum, Even Pair, Modular Arithmetic などの正規言語タスクで長さ外挿を行うことができる唯一のLRNNであることが示唆された。

In recent studies, linear recurrent neural networks (LRNNs) have achieved Transformer-level performance in natural language modeling and long-range modeling while offering rapid parallel training and constant inference costs. With the resurged interest in LRNNs, we study whether they can learn the hidden rules in training sequences, such as the grammatical structures of regular language. We theoretically analyze some existing LRNNs and discover their limitations on regular language. Motivated by the analysis, we propose a new LRNN equipped with a block-diagonal and input-dependent transition matrix. Experiments suggest that the proposed model is the only LRNN that can perform length extrapolation on regular language tasks such as Sum, Even Pair, and Modular Arithmetic.
翻訳日:2023-09-15 16:19:05 公開日:2023-09-14
# 課題認識型マスケ拡散による授業映像のプロシージャ計画

Masked Diffusion with Task-awareness for Procedure Planning in Instructional Videos ( http://arxiv.org/abs/2309.07409v1 )

ライセンス: Link先を確認
Fen Fang, Yun Liu, Ali Koksal, Qianli Xu, Joo-Hwee Lim(参考訳) 教育ビデオにおける手順計画の重要な課題は、様々なタスクに属する多数のアクションタイプからなる大きな意思決定空間をどう扱うかである。 現実世界のビデオコンテンツを理解するために、AIエージェントは、簡単な視覚的観察に基づいて、これらのアクションタイプ(例えば、牛乳、注ぐ水、開けた蓋、閉じた蓋など)を巧みに識別する必要がある。 さらに、可変アクションシーケンスとともに、アクションタイプとタスク目標の複雑なセマンティックな関係を適切にキャプチャする必要があります。 近年,拡散モデルと視覚表現学習の統合により,課題への対処が目覚ましい進歩を遂げている。 しかし、既存のモデルは、タスク情報を利用して意思決定空間を管理するための初歩的なメカニズムを採用している。 この制限を克服するために,単純かつ効果的な拡張 - マスク拡散モデルを導入する。 導入されたマスクはタスク指向のアテンションフィルタに似ており、拡散/デノゲーションプロセスはアクションタイプのサブセットに集中することができる。 さらに,タスク分類の精度を高めるために,より強力な視覚表現学習技術を利用する。 特に、事前訓練された視覚言語モデルに人間の行動に焦点を当てさせることでテキスト埋め込みが生成される共同視覚テキスト埋め込みを学習する。 提案手法は,3つの公開データセット上で評価し,複数のメトリクスを用いた最新性能を実現する。 コードはhttps://github.com/ffzzy840304/Masked-PDPPで入手できる。

A key challenge with procedure planning in instructional videos lies in how to handle a large decision space consisting of a multitude of action types that belong to various tasks. To understand real-world video content, an AI agent must proficiently discern these action types (e.g., pour milk, pour water, open lid, close lid, etc.) based on brief visual observation. Moreover, it must adeptly capture the intricate semantic relation of the action types and task goals, along with the variable action sequences. Recently, notable progress has been made via the integration of diffusion models and visual representation learning to address the challenge. However, existing models employ rudimentary mechanisms to utilize task information to manage the decision space. To overcome this limitation, we introduce a simple yet effective enhancement - a masked diffusion model. The introduced mask acts akin to a task-oriented attention filter, enabling the diffusion/denoising process to concentrate on a subset of action types. Furthermore, to bolster the accuracy of task classification, we harness more potent visual representation learning techniques. In particular, we learn a joint visual-text embedding, where a text embedding is generated by prompting a pre-trained vision-language model to focus on human actions. We evaluate the method on three public datasets and achieve state-of-the-art performance on multiple metrics. Code is available at https://github.com/ffzzy840304/Masked-PDPP.
翻訳日:2023-09-15 16:18:52 公開日:2023-09-14
# funcodec: ニューラルネットワークコーデックのための基本で再現性があり、統合可能なオープンソースツールキット

FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec ( http://arxiv.org/abs/2309.07405v1 )

ライセンス: Link先を確認
Zhihao Du, Shiliang Zhang, Kai Hu, Siqi Zheng(参考訳) 本稿では,オープンソースの音声処理ツールキット FunASR を拡張した基本的ニューラル音声コーデックツールキット FunCodec について述べる。 FunCodecは、SoundStreamやEncodecといった最新のニューラル音声コーデックモデルに対して、再現可能なトレーニングレシピと推論スクリプトを提供する。 FunASRとの統一設計により、FunCodecは音声認識などの下流タスクに容易に統合できる。 funcodecに加えて、事前学習されたモデルも提供されており、学術目的や一般化目的に使用できる。 このツールキットに基づき,周波数領域コーデックモデルであるfreqcodecを提案する。 実験結果から,FunCodecは圧縮比が同じであれば,他のツールキットやリリースモデルと比較して,再構築品質が向上することが示された。 また,事前学習したモデルが,自動音声認識やパーソナライズされた音声合成など,下流タスクに適していることを示す。 このツールキットはhttps://github.com/alibaba-damo-academy/funcodecで公開されている。

This paper presents FunCodec, a fundamental neural speech codec toolkit, which is an extension of the open-source speech processing toolkit FunASR. FunCodec provides reproducible training recipes and inference scripts for the latest neural speech codec models, such as SoundStream and Encodec. Thanks to the unified design with FunASR, FunCodec can be easily integrated into downstream tasks, such as speech recognition. Along with FunCodec, pre-trained models are also provided, which can be used for academic or generalized purposes. Based on the toolkit, we further propose the frequency-domain codec models, FreqCodec, which can achieve comparable speech quality with much lower computation and parameter complexity. Experimental results show that, under the same compression ratio, FunCodec can achieve better reconstruction quality compared with other toolkits and released models. We also demonstrate that the pre-trained models are suitable for downstream tasks, including automatic speech recognition and personalized text-to-speech synthesis. This toolkit is publicly available at https://github.com/alibaba-damo-academy/FunCodec.
翻訳日:2023-09-15 16:18:28 公開日:2023-09-14
# コンフュージョンと無視の証拠モデリングによるフレキシブルな視覚認識

Flexible Visual Recognition by Evidential Modeling of Confusion and Ignorance ( http://arxiv.org/abs/2309.07403v1 )

ライセンス: Link先を確認
Lei Fan, Bo Liu, Haoxiang Li, Ying Wu, Gang Hua(参考訳) 現実のシナリオでは、一般的な視覚認識システムは、既知のクラス間の誤分類と、未知のクラスイメージの抽出可能な誤検出という2つの大きな原因で失敗する可能性がある。 これらの欠陥に対処するために、フレキシブルな視覚認識は、選択が不確実な場合に複数のクラスを動的に予測し、入力がトレーニング分布から完全に外れたときに予測を拒否する必要がある。 この新しい課題と共に2つの課題が浮かび上がる。 第一に、予測の不確実性は、クラス間の不確実性や分布外サンプルの識別の無知を描写する混乱として、別々に定量化されるべきである。 第二に、効果的な意思決定を可能にするために、混乱と無知の両方をサンプル間で比較すべきである。 本稿では,この2つの不確実性源を主観的論理理論で明確にモデル化することを提案する。 証拠収集過程としての認識に関して、混乱は矛盾する証拠として定義され、無知は証拠の欠如である。 シングルトンに対するディリクレ濃度パラメータを予測することで、混乱や無知を含む包括的な主観的意見は、さらなるエビデンスの組み合わせによって達成できる。 本研究では, 合成データ解析, 視覚認識, オープンセット検出に関する一連の実験を通じて, 2つの不確かさの源を定量化し, 柔軟に認識する手法の有効性を実証する。

In real-world scenarios, typical visual recognition systems could fail under two major causes, i.e., the misclassification between known classes and the excusable misbehavior on unknown-class images. To tackle these deficiencies, flexible visual recognition should dynamically predict multiple classes when they are unconfident between choices and reject making predictions when the input is entirely out of the training distribution. Two challenges emerge along with this novel task. First, prediction uncertainty should be separately quantified as confusion depicting inter-class uncertainties and ignorance identifying out-of-distribution samples. Second, both confusion and ignorance should be comparable between samples to enable effective decision-making. In this paper, we propose to model these two sources of uncertainty explicitly with the theory of Subjective Logic. Regarding recognition as an evidence-collecting process, confusion is then defined as conflicting evidence, while ignorance is the absence of evidence. By predicting Dirichlet concentration parameters for singletons, comprehensive subjective opinions, including confusion and ignorance, could be achieved via further evidence combinations. Through a series of experiments on synthetic data analysis, visual recognition, and open-set detection, we demonstrate the effectiveness of our methods in quantifying two sources of uncertainties and dealing with flexible recognition.
翻訳日:2023-09-15 16:18:09 公開日:2023-09-14
# コントラスト学習とミニマックスエントロピーをもつグラフ上の半教師あり領域適応

Semi-supervised Domain Adaptation on Graphs with Contrastive Learning and Minimax Entropy ( http://arxiv.org/abs/2309.07402v1 )

ライセンス: Link先を確認
Jiaren Xiao, Quanyu Dai, Xiao Shen, Xiaochen Xie, Jing Dai, James Lam, Ka-Wai Kwok(参考訳) グラフのラベル不足は、データラベリングのコストが高いため、現実世界のアプリケーションで頻繁に発生する。 この目的のために、グラフ上の半教師付きドメイン適応(SSDA)は、ラベル付きソースグラフの知識を活用し、限られたラベルを持つターゲットグラフ上のノード分類を支援することを目的としている。 SSDAタスクは、ソースとターゲットグラフの間のドメインギャップを克服する必要があります。 しかし、これまでは、この挑戦的な研究問題は、クロスグラフノード分類用に設計された既存のアプローチによって公式には検討されていない。 グラフ上のSSDA問題に対処するために、グラフのコントラスト学習とミニマックスエントロピー学習の恩恵を受けるSemiGCLと呼ばれる新しい手法を提案する。 SemiGCLは、グラフの局所的およびグローバルなビューから得られた表現を対比することにより、情報ノード表現を生成する。 さらに、SemiGCLは、未ラベルのターゲットノードのエントロピー損失に逆最適化され、ドメインのばらつきを低減する。 ベンチマークデータセットの実験結果は、SemiGCLがSSDAタスクの最先端ベースラインを上回っていることを示している。

Label scarcity in a graph is frequently encountered in real-world applications due to the high cost of data labeling. To this end, semi-supervised domain adaptation (SSDA) on graphs aims to leverage the knowledge of a labeled source graph to aid in node classification on a target graph with limited labels. SSDA tasks need to overcome the domain gap between the source and target graphs. However, to date, this challenging research problem has yet to be formally considered by the existing approaches designed for cross-graph node classification. To tackle the SSDA problem on graphs, a novel method called SemiGCL is proposed, which benefits from graph contrastive learning and minimax entropy training. SemiGCL generates informative node representations by contrasting the representations learned from a graph's local and global views. Additionally, SemiGCL is adversarially optimized with the entropy loss of unlabeled target nodes to reduce domain divergence. Experimental results on benchmark datasets demonstrate that SemiGCL outperforms the state-of-the-art baselines on the SSDA tasks.
翻訳日:2023-09-15 16:17:47 公開日:2023-09-14
# SIB-200:200以上の言語と方言におけるトピック分類のためのシンプルで包括的で大きな評価データセット

SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects ( http://arxiv.org/abs/2309.07445v1 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, Hannah Liu, Xiaoyu Shen, Nikita Vassilyev, Jesujoba O. Alabi, Yanke Mao, Haonan Gao, Annie En-Shiun Lee(参考訳) 過去数年間に記録した多言語自然言語処理の進歩にもかかわらず、評価は通常、多数の低リソース言語を除外したデータセットを持つ少数の言語に限られる。 本稿では,200言語および方言におけるトピック分類のための大規模オープンソースベンチマークデータセットであるSIB-200を作成し,自然言語理解のための評価データセットの欠如に対処した。 SIB-200でカバーされている多くの言語に対して、これはNLUのための最初の公開評価データセットである。 データセットは flores-200 machine translation corpus に基づいている。 我々は、データセットの英語部分を注釈化し、文レベルのアノテーションをコーパスに含まれる残りの203言語に拡張した。 このタスクの単純さにもかかわらず、我々は、多言語評価が多くの世界言語に拡張される際に、ハイリソース言語と低リソース言語のパフォーマンスの間には、依然として大きなギャップがあることを示す。 我々は,多言語モデルの事前学習中,未表現言語ファミリー(ニロティック語やアルタン語-コンゴ語など)やアフリカ,アメリカ,オセアニア,東南アジアの言語が,トピック分類データセットにおいて最も低いパフォーマンスを示すことが判明した。 我々のデータセットは、より多様な言語セットにおける多言語言語モデルのより包括的評価を促進することを願っている。 https://github.com/dadelani/sib-200

Despite the progress we have recorded in the last few years in multilingual natural language processing, evaluation is typically limited to a small set of languages with available datasets which excludes a large number of low-resource languages. In this paper, we created SIB-200 -- a large-scale open-sourced benchmark dataset for topic classification in 200 languages and dialects to address the lack of evaluation dataset for Natural Language Understanding (NLU). For many of the languages covered in SIB-200, this is the first publicly available evaluation dataset for NLU. The dataset is based on Flores-200 machine translation corpus. We annotated the English portion of the dataset and extended the sentence-level annotation to the remaining 203 languages covered in the corpus. Despite the simplicity of this task, our evaluation in full-supervised setting, cross-lingual transfer setting and prompting of large language model setting show that there is still a large gap between the performance of high-resource and low-resource languages when multilingual evaluation is scaled to numerous world languages. We found that languages unseen during the pre-training of multilingual language models, under-represented language families (like Nilotic and Altantic-Congo), and languages from the regions of Africa, Americas, Oceania and South East Asia, often have the lowest performance on our topic classification dataset. We hope our dataset will encourage a more inclusive evaluation of multilingual language models on a more diverse set of languages. https://github.com/dadelani/sib-200
翻訳日:2023-09-15 16:10:10 公開日:2023-09-14
# 点雲変化検出器の自己交叉変圧器モデルに関する研究

Research on self-cross transformer model of point cloud change detecter ( http://arxiv.org/abs/2309.07444v1 )

ライセンス: Link先を確認
Xiaoxu Ren, Haili Sun, Zhenxin Zhang(参考訳) 都市建設産業の活発な発展に伴い、建設過程では工学的変形や変化がしばしば起こる。 この現象に対処するためには、建設時の抜け穴を検知し、プロジェクトの完全性を確保し、労働コストを削減するために変化を検出する必要がある。 あるいは道路の不便さや損傷。 3次元点雲における変化検出の研究において、研究者は3次元点雲に関する様々な研究方法を公開した。 C2C、M3C2、M3C2-EP)を直接ベースとしており、3Dポイントの雲をDSMに変換し、元の情報を多く失うものもある。 深層学習はリモートセンシング手法で使用されるが、3次元点雲の変化検出ではより2次元パッチに変換され、ニューラルネットワークを直接適用することは稀である。 私たちは、ネットワークがピクセルやポイントのレベルで与えられることを好んでいます。 種類。 そこで本稿では,3dポイントクラウド変化検出のためのネットワークを構築し,変化検出に適した新しいモジュールクロストランスを提案する。 変更検出のためのトンネリングデータを同時にシミュレートし,ネットワーク上で実験を行う。

With the vigorous development of the urban construction industry, engineering deformation or changes often occur during the construction process. To combat this phenomenon, it is necessary to detect changes in order to detect construction loopholes in time, ensure the integrity of the project and reduce labor costs. Or the inconvenience and injuriousness of the road. In the study of change detection in 3D point clouds, researchers have published various research methods on 3D point clouds. Directly based on but mostly based ontraditional threshold distance methods (C2C, M3C2, M3C2-EP), and some are to convert 3D point clouds into DSM, which loses a lot of original information. Although deep learning is used in remote sensing methods, in terms of change detection of 3D point clouds, it is more converted into two-dimensional patches, and neural networks are rarely applied directly. We prefer that the network is given at the level of pixels or points. Variety. Therefore, in this article, our network builds a network for 3D point cloud change detection, and proposes a new module Cross transformer suitable for change detection. Simultaneously simulate tunneling data for change detection, and do test experiments with our network.
翻訳日:2023-09-15 16:09:44 公開日:2023-09-14
# DePT: 切り離されたプロンプトチューニング

DePT: Decoupled Prompt Tuning ( http://arxiv.org/abs/2309.07439v1 )

ライセンス: Link先を確認
Ji Zhang, Shihan Wu, Lianli Gao, Hengtao Shen, Jingkuan Song(参考訳) この作業は、プロンプトチューニングにおけるベース・ニュー・トレードオフ(bnt)のジレンマ、すなわち、チューニングされたモデルがベース(またはターゲット)タスクに一般化するほど、新しいタスクに一般化するほど、そしてその逆である。 具体的には、基礎の学習した特徴と新しいタスクの詳細な分析を通して、BNTはチャネルバイアスの問題、すなわち、ほとんどの特徴チャネルがベース固有の知識によって占められていることから、新しいタスクにとって重要なタスクハザード知識が崩壊するのを観察する。 そこで本稿では,新しいタスクのゼロショット一般化を実現するために,タスク共有知識を元の機能空間に最大に保存するため,プロンプトチューニング中に,機能チャネルから独立した機能空間へベース固有の知識を分離するdept(decoupled prompt tuning)フレームワークを提案する。 重要なことは、DePTは既存のプロンプトチューニング手法と直交しているため、それらすべてを改善することができる。 11のデータセットに関する広範な実験は、deptの柔軟性と有効性を示している。 私たちのコードと事前トレーニングされたモデルは、https://github.com/koorye/dept.comで利用可能です。

This work breaks through the Base-New Tradeoff (BNT)dilemma in prompt tuning, i.e., the better the tuned model generalizes to the base (or target) task, the worse it generalizes to new tasks, and vice versa. Specifically, through an in-depth analysis of the learned features of the base and new tasks, we observe that the BNT stems from a channel bias issue, i.e., the vast majority of feature channels are occupied by base-specific knowledge, resulting in the collapse of taskshared knowledge important to new tasks. To address this, we propose the Decoupled Prompt Tuning (DePT) framework, which decouples base-specific knowledge from feature channels into an isolated feature space during prompt tuning, so as to maximally preserve task-shared knowledge in the original feature space for achieving better zero-shot generalization on new tasks. Importantly, our DePT is orthogonal to existing prompt tuning methods, hence it can improve all of them. Extensive experiments on 11 datasets show the strong flexibility and effectiveness of DePT. Our code and pretrained models are available at https://github.com/Koorye/DePT.
翻訳日:2023-09-15 16:09:24 公開日:2023-09-14
# モノのインターネット(IoT)における人工知能(AGI)を目指して : 機会と課題

Towards Artificial General Intelligence (AGI) in the Internet of Things (IoT): Opportunities and Challenges ( http://arxiv.org/abs/2309.07438v1 )

ライセンス: Link先を確認
Fei Dou, Jin Ye, Geng Yuan, Qin Lu, Wei Niu, Haijian Sun, Le Guan, Guoyu Lu, Gengchen Mai, Ninghao Liu, Jin Lu, Zhengliang Liu, Zihao Wu, Chenjiao Tan, Shaochen Xu, Xianqiao Wang, Guoming Li, Lilong Chai, Sheng Li, Jin Sun, Hongyue Sun, Yunli Shao, Changying Li, Tianming Liu, Wenzhan Song(参考訳) ヒューマン・ジェネラル・インテリジェンス(agi、artificial general intelligence)は、人間の認知能力でタスクを理解、学習、実行する能力を持ち、科学的、商業的、社会的な分野で重要な期待と興味を抱いている。 この魅力は特にIoT(Internet of Things)にまで広がり、無数のデバイス、センサー、システムの相互接続が特徴であり、インテリジェントな意思決定と自動化を可能にするためにデータを集合して共有する。 本研究は,IoTにおけるAGIの実現に向けた機会と課題を探究する。 具体的には、IoTの基本原則と、IoTシステムにおける人工知能(AI)の重要な役割の概要から始める。 その後、AGIの基礎を掘り下げ、IoT内のAGIのシームレスな統合のための概念的なフレームワークを定式化した。 AGIに注入されたIoTの応用スペクトルは広く、スマートグリッド、住宅環境、製造、輸送から環境モニタリング、農業、医療、教育まで幅広い領域をカバーしている。 しかし、リソース制約のあるIoT設定にAGIを適用するには、専用の研究努力が必要である。 さらに、この論文は、限られたコンピューティングリソースによる制約、大規模なIoT通信に関連する複雑さ、およびセキュリティとプライバシに関する重要な懸念に対処する。

Artificial General Intelligence (AGI), possessing the capacity to comprehend, learn, and execute tasks with human cognitive abilities, engenders significant anticipation and intrigue across scientific, commercial, and societal arenas. This fascination extends particularly to the Internet of Things (IoT), a landscape characterized by the interconnection of countless devices, sensors, and systems, collectively gathering and sharing data to enable intelligent decision-making and automation. This research embarks on an exploration of the opportunities and challenges towards achieving AGI in the context of the IoT. Specifically, it starts by outlining the fundamental principles of IoT and the critical role of Artificial Intelligence (AI) in IoT systems. Subsequently, it delves into AGI fundamentals, culminating in the formulation of a conceptual framework for AGI's seamless integration within IoT. The application spectrum for AGI-infused IoT is broad, encompassing domains ranging from smart grids, residential environments, manufacturing, and transportation to environmental monitoring, agriculture, healthcare, and education. However, adapting AGI to resource-constrained IoT settings necessitates dedicated research efforts. Furthermore, the paper addresses constraints imposed by limited computing resources, intricacies associated with large-scale IoT communication, as well as the critical concerns pertaining to security and privacy.
翻訳日:2023-09-15 16:09:01 公開日:2023-09-14
# Bekensteinは一体何に縛られているのか?

What exactly does Bekenstein bound? ( http://arxiv.org/abs/2309.07436v1 )

ライセンス: Link先を確認
Patrick Hayden, Jinzhao Wang(参考訳) ベーケンシュタイン境界は、時空領域に制限された有限エネルギーを持つ物質に対する最大エントロピーを仮定する。 これはしばしば、物理的オブジェクトに格納できる情報の基本的な制限として解釈される。 本研究では,bekenstein 境界がチャネルの通信容量に制約を課すかどうかを問うことにより,この解釈を検証した。 まず、アクセス可能な情報にバウンドを導出し、bekensteinバウンドがエンコードの代わりにデコードに制限があることを実証する。 次に,アンルー流路について検討し,アンルー放射の騒音に曝露され,加速するボブに情報を送るために,アリスが様々な種類の自由スカラー場を興奮させる様子を観察した。 我々は、unruhチャネルの古典的および量子的容量がベッケンシュタイン境界に従うことを示した。 対照的に、絡み合いアシスト容量は、任意に高いウンルー温度でも入力サイズと同じくらい大きい。 これは、ベケンシュタイン境界が、境界に従ってデコード操作を適切に制約しなければ、違反する可能性があることを反映する。 さらに、Unruhチャネルは、高密度符号化やテレポーテーションなど、多くのプリミティブな情報処理プロトコルに必要な古典的/量子的ビットの最小の代用として使用できる通信資源である、かなりの数のゼロビットを伝送することができる。 ウンルーチャネルは高温でも高いゼロビット容量を有しており、これはエンタングルメント支援によって容量増強を支え、アリスとボブが量子識別を行うことができることを示す。 したがって、古典ビットや量子ビットとは異なり、ゼロビットとその関連する情報処理能力はベケンシュタイン境界に制約されない。

The Bekenstein bound posits a maximum entropy for matter with finite energy confined to a spacetime region. It is often interpreted as a fundamental limit on the information that can be stored by physical objects. In this work, we test this interpretation by asking whether the Bekenstein bound imposes constraints on a channel's communication capacity, a context in which information can be given a mathematically rigorous and operationally meaningful definition. We first derive a bound on the accessible information and demonstrate that the Bekenstein bound constrains the decoding instead of the encoding. Then we study specifically the Unruh channel that describes a stationary Alice exciting different species of free scalar fields to send information to an accelerating Bob, who is therefore confined to a Rindler wedge and exposed to the noise of Unruh radiation. We show that the classical and quantum capacities of the Unruh channel obey the Bekenstein bound. In contrast, the entanglement-assisted capacity is as large as the input size even at arbitrarily high Unruh temperatures. This reflects that the Bekenstein bound can be violated if we do not properly constrain the decoding operation in accordance with the bound. We further find that the Unruh channel can transmit a significant number of zero-bits, which are communication resources that can be used as minimal substitutes for the classical/quantum bits needed for many primitive information processing protocols, such as dense coding and teleportation. We show that the Unruh channel has a large zero-bit capacity even at high temperatures, which underpins the capacity boost with entanglement assistance and allows Alice and Bob to perform quantum identification. Therefore, unlike classical bits and qubits, zero-bits and their associated information processing capability are not constrained by the Bekenstein bound.
翻訳日:2023-09-15 16:08:37 公開日:2023-09-14
# 量子二成分状態の完全および局所圧縮

Exact and local compression of quantum bipartite states ( http://arxiv.org/abs/2309.07434v1 )

ライセンス: Link先を確認
Kohtaro Kato(参考訳) 量子二分項状態の正確な局所的圧縮、すなわち、ヒルベルト空間の次元を縮めるために局所的な量子演算を状態に適用し、相関関係を完全に維持する。 我々は、その状態から構築された特定の純粋状態のシュミット階数の最小化として与えられる最小到達可能次元を計算するための閉公式を提供する。 ランクの上下の境界は数値的にもより扱いやすいものとなった。 その後,量子チャネルの正確な圧縮を応用として検討する。 この方法を用いて、元のチャネルの出力に関する情報を保持しながら出力寸法を縮小できる後処理ステップを分析することができる。

We study an exact local compression of a quantum bipartite state; that is, applying local quantum operations to the state to reduce the dimensions of Hilbert spaces while perfectly maintaining the correlation. We provide a closed formula for calculating the minimal achievable dimensions, provided as a minimization of the Schmidt rank of a particular pure state constructed from that state. Numerically more tractable upper and lower bounds of the rank were also obtained. Subsequently, we consider the exact compression of quantum channels as an application. Using this method, a post-processing step that can reduce the output dimensions while retaining information on the output of the original channel can be analyzed.
翻訳日:2023-09-15 16:08:07 公開日:2023-09-14
# 臨床テキスト要約:大規模言語モデルへの適応は人間の専門家を上回らせる

Clinical Text Summarization: Adapting Large Language Models Can Outperform Human Experts ( http://arxiv.org/abs/2309.07430v1 )

ライセンス: Link先を確認
Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John Pauly, Akshay S. Chaudhari(参考訳) 膨大なテキストデータを精査し、重要な情報を要約することは、臨床医の時間の割り当てに多大な負担を課す。 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を秘めているが、多種多様な臨床要約タスクに対する有効性はまだ十分に検討されていない。 本研究では,6つのデータセットと4つの異なる要約タスク(放射線診断報告,患者質問,進歩ノート,医師と患者との対話)にまたがるドメイン適応手法を用いた。 LLMの最近の進歩が改善に繋がらない事例に加えて, モデルと適応手法のトレードオフを明らかにした。 さらに,6名の医師による臨床読影者を対象に,最良適応LSMの要約は,完全性と正確性の観点からヒトの要約に好適であることを示す。 続く質的分析は、LLMと人間の専門家が直面する課題を浮き彫りにする。 最後に,これらの指標が医師の嗜好とどのように一致しているかの理解を深めるため,従来の量的NLP指標と読者調査スコアを相関付ける。 我々の研究は、複数のタスクにわたる臨床テキスト要約において、llmが人間専門家を上回った最初の証拠である。 このことは、LSMを臨床ワークフローに組み込むことで、医師がパーソナライズされた患者のケアやその他の代替不可能な医療的側面に集中できるように、ドキュメントの負担を軽減できることを意味している。

Sifting through vast textual data and summarizing key information imposes a substantial burden on how clinicians allocate their time. Although large language models (LLMs) have shown immense promise in natural language processing (NLP) tasks, their efficacy across diverse clinical summarization tasks has not yet been rigorously examined. In this work, we employ domain adaptation methods on eight LLMs, spanning six datasets and four distinct summarization tasks: radiology reports, patient questions, progress notes, and doctor-patient dialogue. Our thorough quantitative assessment reveals trade-offs between models and adaptation methods in addition to instances where recent advances in LLMs may not lead to improved results. Further, in a clinical reader study with six physicians, we depict that summaries from the best adapted LLM are preferable to human summaries in terms of completeness and correctness. Our ensuing qualitative analysis delineates mutual challenges faced by both LLMs and human experts. Lastly, we correlate traditional quantitative NLP metrics with reader study scores to enhance our understanding of how these metrics align with physician preferences. Our research marks the first evidence of LLMs outperforming human experts in clinical text summarization across multiple tasks. This implies that integrating LLMs into clinical workflows could alleviate documentation burden, empowering clinicians to focus more on personalized patient care and other irreplaceable human aspects of medicine.
翻訳日:2023-09-15 16:07:56 公開日:2023-09-14
# 限られた資源条件における意味解析

Semantic Parsing in Limited Resource Conditions ( http://arxiv.org/abs/2309.07429v1 )

ライセンス: Link先を確認
Zhuang Li(参考訳) この論文はセマンティック解析の課題、特に限られたデータと計算資源のシナリオに焦点を当てている。 自動データキュレーション、知識伝達、アクティブラーニング、継続的な学習といったテクニックを使ったソリューションを提供する。 並列トレーニングデータを持たないタスクに対しては、構造化データベーススキーマから合成トレーニング例を生成することを提案する。 ソースドメインに豊富なデータがあるが、ターゲットドメインに限られた並列データがある場合、ソースからの知識を利用して、ターゲットドメインのパースを改善する。 対象言語に限定されたデータを持つ多言語状況に対して,論文では,人間の翻訳予算を制限したパーサーを適応させる手法を提案する。 能動的学習は、対象言語におけるパーサ性能を最大化する、手動翻訳のためのソース言語サンプルの選択に適用される。 また,人間翻訳データによって補足された機械翻訳サービスを利用して,より効果的な構文解析を行う方法も提案されている。 計算資源が制限されると、学習時間と計算メモリを最小限に抑えるための連続学習手法が導入された。 これにより、以前の学習したタスクにおけるパーサーの効率が維持され、新しいタスクに適応し、破滅的な忘れる問題を軽減する。 全体として、この論文はリソース制約条件のセマンティック解析を改善するための包括的な手法のセットを提供する。

This thesis explores challenges in semantic parsing, specifically focusing on scenarios with limited data and computational resources. It offers solutions using techniques like automatic data curation, knowledge transfer, active learning, and continual learning. For tasks with no parallel training data, the thesis proposes generating synthetic training examples from structured database schemas. When there is abundant data in a source domain but limited parallel data in a target domain, knowledge from the source is leveraged to improve parsing in the target domain. For multilingual situations with limited data in the target languages, the thesis introduces a method to adapt parsers using a limited human translation budget. Active learning is applied to select source-language samples for manual translation, maximizing parser performance in the target language. In addition, an alternative method is also proposed to utilize machine translation services, supplemented by human-translated data, to train a more effective parser. When computational resources are limited, a continual learning approach is introduced to minimize training time and computational memory. This maintains the parser's efficiency in previously learned tasks while adapting it to new tasks, mitigating the problem of catastrophic forgetting. Overall, the thesis provides a comprehensive set of methods to improve semantic parsing in resource-constrained conditions.
翻訳日:2023-09-15 16:07:29 公開日:2023-09-14
# カメライメージングによる物理的見えないバックドア

Physical Invisible Backdoor Based on Camera Imaging ( http://arxiv.org/abs/2309.07428v1 )

ライセンス: Link先を確認
Yusheng Guo, Nan Zhong, Zhenxing Qian, and Xinpeng Zhang(参考訳) Backdoor攻撃は、特定のトリガーパターンが現れても、クリーンな入力に対して正常に振る舞うと、逆向きの出力を返すモデルに妥協することを目的としている。 現在のバックドア攻撃では、クリーンイメージのピクセルを変更する必要があるため、攻撃のステルス性が低下し、物理的実装の難しさが増す。 本稿では,自然画像の画素を変化させることなく,カメラ撮像に基づく新しい物理不可視バックドアを提案する。 特に、侵害されたモデルは、特定のカメラが撮影した画像のターゲットラベルを返し、他の画像の正しい結果を返す。 提案するバックドアの実装と評価のために,複数のスマートフォンを用いて多角形から異なる物体の写真を撮影し,21,500画像の新しいデータセットを構築した。 従来のバックドア攻撃は、前述のデータセットに対して、ResNet18のような古典的なモデルでは効果がない。 そこで本研究では,バックドア攻撃を行うための3段階のトレーニング戦略を提案する。 まず,携帯IDを用いたカメラ識別モデルの設計と訓練を行い,カメラ指紋の特徴を抽出する。 その後, cfa補間アルゴリズムの属性を活用し, カメラ識別モデルの特徴抽出ブロックと組み合わせることで, バックドアアタックによって容易に損なわれる特殊なネットワークアーキテクチャを詳述する。 最後に,教師・生徒の蒸留学習を通じて,特殊ネットワークアーキテクチャから古典的アーキテクチャモデルへバックドアを転送する。 提案手法のトリガーは特定の携帯電話と関連しているため,物理的世界では効果的に機能する。 実験の結果,提案手法の有効性と各種バックドア防御に対するロバスト性が示された。

Backdoor attack aims to compromise a model, which returns an adversary-wanted output when a specific trigger pattern appears yet behaves normally for clean inputs. Current backdoor attacks require changing pixels of clean images, which results in poor stealthiness of attacks and increases the difficulty of the physical implementation. This paper proposes a novel physical invisible backdoor based on camera imaging without changing nature image pixels. Specifically, a compromised model returns a target label for images taken by a particular camera, while it returns correct results for other images. To implement and evaluate the proposed backdoor, we take shots of different objects from multi-angles using multiple smartphones to build a new dataset of 21,500 images. Conventional backdoor attacks work ineffectively with some classical models, such as ResNet18, over the above-mentioned dataset. Therefore, we propose a three-step training strategy to mount the backdoor attack. First, we design and train a camera identification model with the phone IDs to extract the camera fingerprint feature. Subsequently, we elaborate a special network architecture, which is easily compromised by our backdoor attack, by leveraging the attributes of the CFA interpolation algorithm and combining it with the feature extraction block in the camera identification model. Finally, we transfer the backdoor from the elaborated special network architecture to the classical architecture model via teacher-student distillation learning. Since the trigger of our method is related to the specific phone, our attack works effectively in the physical world. Experiment results demonstrate the feasibility of our proposed approach and robustness against various backdoor defenses.
翻訳日:2023-09-15 16:07:10 公開日:2023-09-14
# JSMNetによる自己認識とマルチスケールによる屋内クラウドセマンティックとインスタンスセグメンテーションの改善

JSMNet Improving Indoor Point Cloud Semantic and Instance Segmentation through Self-Attention and Multiscale ( http://arxiv.org/abs/2309.07425v1 )

ライセンス: Link先を確認
Shuochen Xu and Zhenxin Zhang(参考訳) 屋内の3dポイントクラウドデータのセマンティック理解は、屋内サービスロボット、ナビゲーションシステム、デジタルツインエンジニアリングなど、その後のさまざまなアプリケーションにとって重要である。 グローバル機能は、重要な長距離コンテキスト情報を提供するため、屋内ポイントクラウドの高品質なセマンティクスとインスタンスセグメンテーションを達成するために不可欠である。 そこで本研究では,多層ネットワークとグローバル機能自己接続モジュールを組み合わせた3次元ポイントクラウドセマンティクスとインスタンスを共同で分割するjsmnetを提案する。 屋内ターゲットの特性をよりよく表現するために,ターゲットからのスキャナ距離の違いによる点雲密度の違いを考慮したマルチレゾリューション特徴適応融合モジュールを設計した。 さらに,優れた結果を得るために,意味的特徴とインスタンス的特徴を統合することにより,統合的な意味的・インスタンスセグメンテーションのためのフレームワークを提案する。 本研究では,大規模3次元屋内ポイントクラウドデータセットであるs3disについて実験を行う。 提案手法は他の手法と比較して,既存手法のセグメンテーションやインスタンスセグメンテーションよりも優れ,対象局所領域セグメンテーションにおいてより良い結果が得られることを示す。 特に,提案手法は,s3dis (area 5) における意味セグメンテーション miou とインスタンスセグメンテーション mpre において,pointnet (qi et al., 2017a) をそれぞれ16.0%,26.3%上回っている。 さらに,asis (wang et al., 2019) を6.0%,4.6%,jspnet (chen et al., 2022) を3.3%,semantic segmentation miou を0.3%,segmentation mpre をわずかに改善した。

The semantic understanding of indoor 3D point cloud data is crucial for a range of subsequent applications, including indoor service robots, navigation systems, and digital twin engineering. Global features are crucial for achieving high-quality semantic and instance segmentation of indoor point clouds, as they provide essential long-range context information. To this end, we propose JSMNet, which combines a multi-layer network with a global feature self-attention module to jointly segment three-dimensional point cloud semantics and instances. To better express the characteristics of indoor targets, we have designed a multi-resolution feature adaptive fusion module that takes into account the differences in point cloud density caused by varying scanner distances from the target. Additionally, we propose a framework for joint semantic and instance segmentation by integrating semantic and instance features to achieve superior results. We conduct experiments on S3DIS, which is a large three-dimensional indoor point cloud dataset. Our proposed method is compared against other methods, and the results show that it outperforms existing methods in semantic and instance segmentation and provides better results in target local area segmentation. Specifically, our proposed method outperforms PointNet (Qi et al., 2017a) by 16.0% and 26.3% in terms of semantic segmentation mIoU in S3DIS (Area 5) and instance segmentation mPre, respectively. Additionally, it surpasses ASIS (Wang et al., 2019) by 6.0% and 4.6%, respectively, as well as JSPNet (Chen et al., 2022) by a margin of 3.3% for semantic segmentation mIoU and a slight improvement of 0.3% for instance segmentation mPre.
翻訳日:2023-09-15 16:06:45 公開日:2023-09-14
# where2Explore: アートオブジェクトの未知の新たなカテゴリのためのFew-shot Affordance Learning

Where2Explore: Few-shot Affordance Learning for Unseen Novel Categories of Articulated Objects ( http://arxiv.org/abs/2309.07473v1 )

ライセンス: Link先を確認
Chuanruo Ning, Ruihai Wu, Haoran Lu, Kaichun Mo, Hao Dong(参考訳) 人工物体の操作はロボティクスの基本的な課題である。 対象カテゴリ間での幾何学的および意味的変異により、従来の操作モデルは新しいカテゴリへの一般化に苦慮している。 少ないショットの学習は、ロボットが見えないオブジェクトといくつかのインタラクションを実行できることによって、この問題を軽減するための有望なソリューションだ。 しかし、既存のアプローチでは、コストがかかり、非効率的なテストタイムインタラクションが必要となることが多い。 この制限を認識し、異なる形状にもかかわらず、異なるカテゴリは、プル可能なハンドルや把持可能なエッジなど、操作に不可欠な類似のローカルジオメトリを共有することが多いことを観察する。 このような共通性を利用するため,我々は,限られた数のインスタンス上で,最小限のインタラクションで,新しいカテゴリを効果的に探索するアプライアンス学習フレームワーク「where2explore」を紹介する。 提案手法は,異なるカテゴリ間の幾何学的類似性を明示的に推定し,学習カテゴリの形状と異なる局所領域を識別し,対象の類似部分に余裕知識を移し,効率的な探索を行う。 シミュレーション環境と実環境における広範囲な実験により,フレームワークの効率的な数発探索と一般化能力が証明された。

Articulated object manipulation is a fundamental yet challenging task in robotics. Due to significant geometric and semantic variations across object categories, previous manipulation models struggle to generalize to novel categories. Few-shot learning is a promising solution for alleviating this issue by allowing robots to perform a few interactions with unseen objects. However, extant approaches often necessitate costly and inefficient test-time interactions with each unseen instance. Recognizing this limitation, we observe that despite their distinct shapes, different categories often share similar local geometries essential for manipulation, such as pullable handles and graspable edges - a factor typically underutilized in previous few-shot learning works. To harness this commonality, we introduce 'Where2Explore', an affordance learning framework that effectively explores novel categories with minimal interactions on a limited number of instances. Our framework explicitly estimates the geometric similarity across different categories, identifying local areas that differ from shapes in the training categories for efficient exploration while concurrently transferring affordance knowledge to similar parts of the objects. Extensive experiments in simulated and real-world environments demonstrate our framework's capacity for efficient few-shot exploration and generalization.
翻訳日:2023-09-15 16:00:42 公開日:2023-09-14
# EP2P-Loc:大規模視覚像定位のための2次元像定位への終端3Dポイント

EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale Visual Localization ( http://arxiv.org/abs/2309.07471v1 )

ライセンス: Link先を確認
Minjung Kim, Junseo Koo, Gunhee Kim(参考訳) ビジュアルローカライゼーションは、提供された3D参照マップ内のクエリ画像の6-DoFカメラのポーズを推定するタスクである。 近年の様々な3Dセンサーの進歩により、3Dポイントクラウドは参照マップを構築するためのより正確で手頃な選択肢になりつつあるが、3Dポイントクラウドの点と2Dイメージのピクセルをマッチングして視覚的ローカライゼーションを行う研究は依然として難しい。 2D-3D特徴マッチングを共同で学習する既存のアプローチは、2つのモダリティの表現的相違により低イリヤに悩まされており、この問題を分類にバイパスする手法には改善の問題がある。 本研究では,このような外観の相違を緩和し,ポーズ推定のためのエンドツーエンドのトレーニングを可能にする,EP2P-Locを提案する。 画像中の見えない3D点を除去し,キーポイント検出なしですべての2D-3D対応を見つけるための簡単なアルゴリズムを提案する。 メモリ使用量と検索の複雑さを低減するため,2次元画像からパッチレベルの特徴を抽出し,各3次元点の2次元パッチ分類を行い,位置符号化によって対応する正確な2次元ピクセル座標を得るという粗大なアプローチをとる。 最後に、このタスクで初めて、エンドツーエンドのトレーニングに微分可能なPnPを使用します。 本研究では,2d-3d-sとkittiを用いた大規模屋外ベンチマーク実験において,既存の視覚的ローカライゼーションや画像からポイントへのクラウド登録手法と比較して,最先端の性能を実現することを示す。

Visual localization is the task of estimating a 6-DoF camera pose of a query image within a provided 3D reference map. Thanks to recent advances in various 3D sensors, 3D point clouds are becoming a more accurate and affordable option for building the reference map, but research to match the points of 3D point clouds with pixels in 2D images for visual localization remains challenging. Existing approaches that jointly learn 2D-3D feature matching suffer from low inliers due to representational differences between the two modalities, and the methods that bypass this problem into classification have an issue of poor refinement. In this work, we propose EP2P-Loc, a novel large-scale visual localization method that mitigates such appearance discrepancy and enables end-to-end training for pose estimation. To increase the number of inliers, we propose a simple algorithm to remove invisible 3D points in the image, and find all 2D-3D correspondences without keypoint detection. To reduce memory usage and search complexity, we take a coarse-to-fine approach where we extract patch-level features from 2D images, then perform 2D patch classification on each 3D point, and obtain the exact corresponding 2D pixel coordinates through positional encoding. Finally, for the first time in this task, we employ a differentiable PnP for end-to-end training. In the experiments on newly curated large-scale indoor and outdoor benchmarks based on 2D-3D-S and KITTI, we show that our method achieves the state-of-the-art performance compared to existing visual localization and image-to-point cloud registration methods.
翻訳日:2023-09-15 16:00:22 公開日:2023-09-14
# 高階ネットワーク中心性を用いたソフトウェア開発プロセスにおけるコミュニティスメルの配置

Locating Community Smells in Software Development Processes Using Higher-Order Network Centralities ( http://arxiv.org/abs/2309.07467v1 )

ライセンス: Link先を確認
Christoph Gote, Vincenzo Perri, Christian Zingg, Giona Casiraghi, Carsten Arzig, Alexander von Gernler, Frank Schweitzer, Ingo Scholtes(参考訳) コミュニティの臭いは、ソフトウェア開発チームのインタラクションにおいて、ソフトウェアを成功させる能力を阻害する負のパターンである。 例えば、チームメンバーが単独で作業すること、コミュニケーションの欠如、部署やサブチーム間でのコラボレーション、あるいは少数のチームメンバーしか作業できないコードベースの領域などです。 現在のアプローチは、ソフトウェアチームの相互作用構造の静的ネットワーク表現を分析して、コミュニティの臭いを検出することを目的としている。 そのため、開発プロセス内でコミュニティの臭いを見つけるには不十分である。 従来のソーシャルネットワーク分析の能力を超えて、高階ネットワークモデルがそのような隠れパターンや複雑な関係を明らかにする堅牢な手段を提供することを示す。 この目的のために,MOGen高次ネットワークモデルに基づく集中度尺度のセットを開発し,5つの経験的データセットを用いた影響ノードの予測の有効性を示す。 次に,ドイツのitセキュリティ企業genua gmbhのプロダクトチームの包括的分析にこれらの尺度を適用し,コミュニティの臭いを識別し,同定する手法の成功を示す。 具体的には、チームの開発プロセスの2つの領域で、重要なコミュニティの臭いを発見します。 チームは1つのコミュニティの臭いを認識し、それに対処するための対策を講じていましたが、その2つには気付いていませんでした。 これは、ソフトウェア開発チームにおけるコミュニティの臭いを識別し対処するための堅牢なツールとしての私たちのアプローチの可能性を強調しています。 より一般的に、我々の研究は、コミュニティのダイナミクスや間接的な関係を効果的にとらえる強力な高階ネットワーク中心性を持つソーシャルネットワーク分析分野に貢献する。

Community smells are negative patterns in software development teams' interactions that impede their ability to successfully create software. Examples are team members working in isolation, lack of communication and collaboration across departments or sub-teams, or areas of the codebase where only a few team members can work on. Current approaches aim to detect community smells by analysing static network representations of software teams' interaction structures. In doing so, they are insufficient to locate community smells within development processes. Extending beyond the capabilities of traditional social network analysis, we show that higher-order network models provide a robust means of revealing such hidden patterns and complex relationships. To this end, we develop a set of centrality measures based on the MOGen higher-order network model and show their effectiveness in predicting influential nodes using five empirical datasets. We then employ these measures for a comprehensive analysis of a product team at the German IT security company genua GmbH, showcasing our method's success in identifying and locating community smells. Specifically, we uncover critical community smells in two areas of the team's development process. Semi-structured interviews with five team members validate our findings: while the team was aware of one community smell and employed measures to address it, it was not aware of the second. This highlights the potential of our approach as a robust tool for identifying and addressing community smells in software development teams. More generally, our work contributes to the social network analysis field with a powerful set of higher-order network centralities that effectively capture community dynamics and indirect relationships.
翻訳日:2023-09-15 15:59:49 公開日:2023-09-14
# 大規模言語モデルに基づく評価は多言語評価のスケールアップの解決策か?

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? ( http://arxiv.org/abs/2309.07462v1 )

ライセンス: Link先を確認
Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram(参考訳) 大規模言語モデル(LLM)は、質問応答、要約、分類などの自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを示している。 評価器としてのLLMの使用は、適切なベンチマークの欠如、メトリクス、コスト、人間のアノテータへのアクセスなど、現在の評価手法の限界により、他のモデル(通常LLM)の出力のランク付けやスコア付けが可能なものが増えてきている。 LLMはおよそ100の言語を扱うことができるが、上位20を超える言語の大部分は、さまざまなタスク、メトリクス、ベンチマークの体系的な評価を欠いている。 これにより、多言語間のLLM性能の正確な理解を確保するために、多言語評価のスケールアップが緊急に必要となる。 llmベースの評価器は、人間の注釈や人間が作成した参照、ベンチマークを必要とせず、理論的にllmがカバーする言語を評価するために使用できるため、この問題に対する完璧な解決策のように思える。 本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。 具体的には、8言語で3つのテキスト生成タスクにまたがる5つの指標の20k人の判断に対するLLMに基づく評価を校正する。 以上の結果から,LLMに基づく評価器は高いスコアに偏りを示す可能性があり,特に低リソースおよび非ラテン文字言語において,常にネイティブ話者判定のデータセットで校正されるべきであることが示唆された。

Large Language Models (LLMs) have demonstrated impressive performance on Natural Language Processing (NLP) tasks, such as Question Answering, Summarization, and Classification. The use of LLMs as evaluators, that can rank or score the output of other models (usually LLMs) has become increasingly popular, due to the limitations of current evaluation techniques including the lack of appropriate benchmarks, metrics, cost, and access to human annotators. While LLMs are capable of handling approximately 100 languages, the majority of languages beyond the top 20 lack systematic evaluation across various tasks, metrics, and benchmarks. This creates an urgent need to scale up multilingual evaluation to ensure a precise understanding of LLM performance across diverse languages. LLM-based evaluators seem like the perfect solution to this problem, as they do not require human annotators, human-created references, or benchmarks and can theoretically be used to evaluate any language covered by the LLM. In this paper, we investigate whether LLM-based evaluators can help scale up multilingual evaluation. Specifically, we calibrate LLM-based evaluation against 20k human judgments of five metrics across three text-generation tasks in eight languages. Our findings indicate that LLM-based evaluators may exhibit bias towards higher scores and should be used with caution and should always be calibrated with a dataset of native speaker judgments, particularly in low-resource and non-Latin script languages.
翻訳日:2023-09-15 15:59:26 公開日:2023-09-14
# IoT環境における未知の攻撃の検出: ネットワーク侵入検出を強化するオープンセット分類器

Detecting Unknown Attacks in IoT Environments: An Open Set Classifier for Enhanced Network Intrusion Detection ( http://arxiv.org/abs/2309.07461v1 )

ライセンス: Link先を確認
Yasir Ali Farrukh, Syed Wali, Irfan Khan and Nathaniel D. Bastian(参考訳) モノのインターネット(IoT)デバイスが人生のあらゆる面に広く統合され、相互接続の時代が到来し、サイバーセキュリティの課題に対する新たな道が生まれ、堅牢な侵入検知システムの必要性が強調されている。 しかし、従来のセキュリティシステムはクローズドワールドの視点で設計されており、新たな不慣れな攻撃が絶えず発生している、進化を続ける脅威の状況に対処する上での課題に直面することが多い。 本稿では,IoT環境に適したネットワーク侵入検知システム(NIDS)の領域におけるオープンセット認識(OSR)問題の緩和を目的としたフレームワークを提案する。 ネットワークトラフィックから空間的・時間的パターンを抽出し,パケットレベルデータのイメージベース表現に重きを置いている。 さらに、スタック化とサブクラスタ化技術を統合し、良性行動の複雑で多様な性質を効果的にモデル化することにより、未知の攻撃の特定を可能にする。 経験的な結果はフレームワークの有効性を著しく低下させ、既存のアプローチや最近の進歩と比較すると、以前目にしたことのない攻撃に対する88\%検出率を誇示している。 今後の作業は、さまざまなオープンネスレベルとアタックシナリオにわたる広範な実験を行い、iot環境を保護するために提案するソリューションの適応性とパフォーマンスをさらに強化します。

The widespread integration of Internet of Things (IoT) devices across all facets of life has ushered in an era of interconnectedness, creating new avenues for cybersecurity challenges and underscoring the need for robust intrusion detection systems. However, traditional security systems are designed with a closed-world perspective and often face challenges in dealing with the ever-evolving threat landscape, where new and unfamiliar attacks are constantly emerging. In this paper, we introduce a framework aimed at mitigating the open set recognition (OSR) problem in the realm of Network Intrusion Detection Systems (NIDS) tailored for IoT environments. Our framework capitalizes on image-based representations of packet-level data, extracting spatial and temporal patterns from network traffic. Additionally, we integrate stacking and sub-clustering techniques, enabling the identification of unknown attacks by effectively modeling the complex and diverse nature of benign behavior. The empirical results prominently underscore the framework's efficacy, boasting an impressive 88\% detection rate for previously unseen attacks when compared against existing approaches and recent advancements. Future work will perform extensive experimentation across various openness levels and attack scenarios, further strengthening the adaptability and performance of our proposed solution in safeguarding IoT environments.
翻訳日:2023-09-15 15:59:01 公開日:2023-09-14
# 温度依存性CHSH不等式に及ぼす初期絡み状態の影響

Influence of Initial Entangled States on the Temperature-Dependent CHSH Inequality ( http://arxiv.org/abs/2309.07455v1 )

ライセンス: Link先を確認
Esteban Marulanda and Andr\'es G\'omez(参考訳) この温度が開放二分数ビット系におけるCHSH不等式の有効性に影響を及ぼすことを示す。 具体的には、脱コヒーレンスフリー部分空間(DFS)内の初期絡み合った状態では、CHSH不等式は温度非依存のままである。 対照的に、他の絡み合った状態は不等式が持つ温度閾値を示す。

We demonstrate that the temperature affects the validity of the CHSH inequality in an open bipartite two-qubit system. Specifically, for initial entangled states within the decoherence-free subspace (DFS), the CHSH inequality remains temperature-independent. In contrast, other entangled states exhibit a temperature threshold beyond which the inequality holds.
翻訳日:2023-09-15 15:58:38 公開日:2023-09-14
# 非相対論的量子場理論における量子真空効果

Quantum vacuum effects in non-relativistic quantum field theory ( http://arxiv.org/abs/2309.07454v1 )

ライセンス: Link先を確認
Matthew Edmonds, Antonino Flachi, Marco Pasini(参考訳) 異なる相互作用設計、境界条件、物理的カットオフスケールの存在に関連する分散関係の非線形性は、非相対論的系の量子真空エネルギーを非自明に変化させる。 これを実現する材料として, 1次元周期回転, 相互作用する非相対論的セットアップを考える。 そのような系の量子真空エネルギーは、ゆらぎによって引き起こされる量子寄与と反発的な遠心的項の2つの寄与からなることが期待される。 複素スクーディンガー量子場理論における問題をクォート相互作用ポテンシャルで詳細に解析し、関連する非線形シュレーディンガー方程式の非線形構造を利用して相互作用強度で非摂動的に計算を行う。 計算はゼータ正則化とカットオフスケールの導入の両方で行われる。 相互作用と回転の競合は、量子真空エネルギーが最大値を持ち、力が変化するいくつかの臨界リングサイズでバランスをとることができる。 カットオフを含むことで、真空エネルギーは小さな距離で滑らかになるが、遠距離の挙動は変化しない。 我々は、この挙動を超低温原子でどのようにテストできるかを論じる。

Nonlinearities in the dispersion relations associated with different interactions designs, boundary conditions and the existence of a physical cut-off scale can alter the quantum vacuum energy of a nonrelativistic system nontrivially. As a material realization of this, we consider a 1D-periodic rotating, interacting non-relativistic setup. The quantum vacuum energy of such a system is expected to comprise two contributions: a fluctuation-induced quantum contribution and a repulsive centrifugal-like term. We analyze the problem in detail within a complex Schoedinger quantum field theory with a quartic interaction potential and perform the calculations non-perturbatively in the interaction strength by exploiting the nonlinear structure of the associated nonlinear Schroedinger equation. Calculations are done in both zeta-regularization, as well as by introducing a cut-off scale. We find a generic, regularization-independent behavior, where the competition between the interaction and rotation can be balanced at some critical ring-size, where the quantum vacuum energy has a maxima and the force changes sign. The inclusion of a cut-off smoothes out the vacuum energy at small distance but leaves unaltered the long distance behavior. We discuss how this behavior can be tested with ultracold-atoms.
翻訳日:2023-09-15 15:58:32 公開日:2023-09-14
# SC-MAD:データ拡張のための高次ネットワークの混合

SC-MAD: Mixtures of Higher-order Networks for Data Augmentation ( http://arxiv.org/abs/2309.07453v1 )

ライセンス: Link先を確認
Madeline Navarro, Santiago Segarra(参考訳) 多方向相互作用を持つ無数の複素系は、グラフベースのペアワイズ接続を高階関係へ拡張する動機付けとなる。 特に、simplicial complexはグラフニューラルネットワーク(GNN)をsimplicial complex-based modelに一般化した。 このようなシステム上での学習には大量のデータが必要であり、費用がかかるか、入手が不可能になる可能性がある。 本稿では,既存のラベル付き試料の混合物を返却する線形および非線形混合機構を用いて,単純錯体のデータ拡張を提案する。 従来のペアワイズ・ミックスアップに加えて、いくつかの単純錯体間のデータ駆動関係に対する凸クラスタリング・ミックスアップ手法を提案する。 理論上, 合成単純複体は準同型密度に関して既存データ間で補間することを示した。 本手法は, 合成データと実世界のデータセットを用いて, 複雑な分類を行う。

The myriad complex systems with multiway interactions motivate the extension of graph-based pairwise connections to higher-order relations. In particular, the simplicial complex has inspired generalizations of graph neural networks (GNNs) to simplicial complex-based models. Learning on such systems requires large amounts of data, which can be expensive or impossible to obtain. We propose data augmentation of simplicial complexes through both linear and nonlinear mixup mechanisms that return mixtures of existing labeled samples. In addition to traditional pairwise mixup, we present a convex clustering mixup approach for a data-driven relationship among several simplicial complexes. We theoretically demonstrate that the resultant synthetic simplicial complexes interpolate among existing data with respect to homomorphism densities. Our method is demonstrated on both synthetic and real-world datasets for simplicial complex classification.
翻訳日:2023-09-15 15:58:13 公開日:2023-09-14
# グラフニューラルタンジェントカーネルはグラフニューラルネットのトレーニングに等価か?

Is Solving Graph Neural Tangent Kernel Equivalent to Training Graph Neural Network? ( http://arxiv.org/abs/2309.07452v1 )

ライセンス: Link先を確認
Lianke Qin, Zhao Song, Baocheng Sun(参考訳) 理論的な深層学習の傾向は、ディープラーニングがなぜNTK(Neural Tangent Kernel)[jgh18]を介して動作するのかを理解することである。 NTKは、研究者が従来の数学的ツールを使ってディープニューラルネットワークの特性を分析し、理論的な観点から様々なニューラルネットワーク技術を説明することができるため、理論的深層学習における大きな一歩である。 グラフ学習におけるntkの自然な拡張は \textit{graph neural tangent kernel (gntk)} であり、研究者はすでにグラフレベルの回帰のためのgntkの定式化を提供しており、このカーネル手法が様々なバイオインフォマティクスデータセット[dhs+19]上でgnnと同様の精度を達成できることを実証的に示している。 現在、GNTK回帰の解法は、勾配勾配を用いた無限大多層GNNの訓練と等価である。 本稿では,3つの新しい理論結果を示す。 まず、グラフレベルの回帰に対するこの等価性を正式に証明する。 第2に,ノードレベルの回帰に対する最初のGNTK定式化を提案する。 最後に、ノードレベルの回帰の等価性を証明する。

A rising trend in theoretical deep learning is to understand why deep learning works through Neural Tangent Kernel (NTK) [jgh18], a kernel method that is equivalent to using gradient descent to train a multi-layer infinitely-wide neural network. NTK is a major step forward in the theoretical deep learning because it allows researchers to use traditional mathematical tools to analyze properties of deep neural networks and to explain various neural network techniques from a theoretical view. A natural extension of NTK on graph learning is \textit{Graph Neural Tangent Kernel (GNTK)}, and researchers have already provide GNTK formulation for graph-level regression and show empirically that this kernel method can achieve similar accuracy as GNNs on various bioinformatics datasets [dhs+19]. The remaining question now is whether solving GNTK regression is equivalent to training an infinite-wide multi-layer GNN using gradient descent. In this paper, we provide three new theoretical results. First, we formally prove this equivalence for graph-level regression. Second, we present the first GNTK formulation for node-level regression. Finally, we prove the equivalence for node-level regression.
翻訳日:2023-09-15 15:58:02 公開日:2023-09-14
# TensorFlowのカオス予測とブラウアップ

TensorFlow Chaotic Prediction and Blow Up ( http://arxiv.org/abs/2309.07450v1 )

ライセンス: Link先を確認
M. Andrecut(参考訳) カオスシステムのダイナミクスを予測することは、ニューラルネットワークや機械学習全般において、最も難しいタスクの1つです。 ここでは,高次元非線形系の時空間カオスダイナミクスを予測することを目的とする。 我々の試みではTensorFlowライブラリを使用し、ディープラーニングのトレーニングと予測の最先端を表現しています。 我々の結果は励まされており、考察されたシステムのダイナミクスを短時間で予測できることを示す一方で、TensorFlowライブラリの予期せぬ、望ましくない振る舞いを間接的に発見する。 より具体的には、システムのカオス的振る舞いの長期的な予測は、tensorflowライブラリの非決定論的振る舞いによって急速に悪化し、爆発する。 ここでは、短時間予測能力の数値的な証明と、長期予測可能性の爆発について述べる。

Predicting the dynamics of chaotic systems is one of the most challenging tasks for neural networks, and machine learning in general. Here we aim to predict the spatiotemporal chaotic dynamics of a high-dimensional non-linear system. In our attempt we use the TensorFlow library, representing the state of the art for deep neural networks training and prediction. While our results are encouraging, and show that the dynamics of the considered system can be predicted for short time, we also indirectly discovered an unexpected and undesirable behavior of the TensorFlow library. More specifically, the longer term prediction of the system's chaotic behavior quickly deteriorates and blows up due to the nondeterministic behavior of the TensorFlow library. Here we provide numerical evidence of the short time prediction ability, and of the longer term predictability blow up.
翻訳日:2023-09-15 15:57:36 公開日:2023-09-14
# Dhan-Shomadhan:バングラデシュにおけるイネ葉病分類のデータセット

Dhan-Shomadhan: A Dataset of Rice Leaf Disease Classification for Bangladeshi Local Rice ( http://arxiv.org/abs/2309.07515v1 )

ライセンス: Link先を確認
Md. Fahad Hossain(参考訳) このデータセットはバングラデシュの米の有害な病気のほぼすべてを表している。 このデータセットは、ブラウンスポット(Brown Spot)、リーフスケールド(Leaf Scaled)、ライスブラスト(Lice Blast)、ライスターンゴ(Lice Turngo)、ステスブライト(Steath Blight)という5つの有害疾患の画像からなる。 2つの異なる背景のバリエーションはデータセットをより正確に実行するのに役立つので、ユーザーはこのデータをフィールド利用に、白背景を意思決定に使用できる。 データは、ダッカ県の田地から収集される。 このデータセットは、イネ葉病分類、コンピュータビジョンを用いた疾患検出、および異なるイネ葉病に対するパターン認識に使用できる。

This dataset represents almost all the harmful diseases for rice in Bangladesh. This dataset consists of 1106 image of five harmful diseases called Brown Spot, Leaf Scaled, Rice Blast, Rice Turngo, Steath Blight in two different background variation named field background picture and white background picture. Two different background variation helps the dataset to perform more accurately so that the user can use this data for field use as well as white background for decision making. The data is collected from rice field of Dhaka Division. This dataset can use for rice leaf diseases classification, diseases detection using Computer Vision and Pattern Recognition for different rice leaf disease.
翻訳日:2023-09-15 15:48:33 公開日:2023-09-14
# RecycleNet: 反復的決定リファインメントへの潜在機能リサイクリング

RecycleNet: Latent Feature Recycling Leads to Iterative Decision Refinement ( http://arxiv.org/abs/2309.07513v1 )

ライセンス: Link先を確認
Gregor Koehler, Tassilo Wald, Constantin Ulrich, David Zimmerer, Paul F. Jaeger, J\"org K.H. Franke, Simon Kohl, Fabian Isensee, Klaus H. Maier-Hein(参考訳) 過去10年間のディープラーニングシステムの成功にもかかわらず、ニューラルネットワークと人間の意思決定の間には重要な違いが残っている。人間として、我々はその場で意思決定をするだけでなく、異なる角度から最初の推測を再検討し、関連する情報を蒸留し、より良い決定にたどり着く。 本稿では, ニューラルネットワークが多くのリサイクル工程において初期決定を洗練し, 出力を従来のネットワーク層に反復的にフィードバックする, 潜在機能リサイクル手法であるRecycleNetを提案する。 このアプローチは、ニューラルネットワークアーキテクチャに関する仮定を最小にすることで、さまざまなコンテキストで実装することができる。 評価環境として医用画像セグメンテーションを用い, 潜在的特徴リサイクリングによって, 学習中のイテレーションを超えても, ネットワークが反復的に初期予測を洗練できることを示す。 様々なセグメンテーションベンチマークでこれを評価し、高い性能のセグメンテーション手法と比較しても一貫した改善を示す。 これにより、パフォーマンス向上のための計算時間のトレーディングが向上し、特にセーフティクリティカルなアプリケーションでは有益である。

Despite the remarkable success of deep learning systems over the last decade, a key difference still remains between neural network and human decision-making: As humans, we cannot only form a decision on the spot, but also ponder, revisiting an initial guess from different angles, distilling relevant information, arriving at a better decision. Here, we propose RecycleNet, a latent feature recycling method, instilling the pondering capability for neural networks to refine initial decisions over a number of recycling steps, where outputs are fed back into earlier network layers in an iterative fashion. This approach makes minimal assumptions about the neural network architecture and thus can be implemented in a wide variety of contexts. Using medical image segmentation as the evaluation environment, we show that latent feature recycling enables the network to iteratively refine initial predictions even beyond the iterations seen during training, converging towards an improved decision. We evaluate this across a variety of segmentation benchmarks and show consistent improvements even compared with top-performing segmentation methods. This allows trading increased computation time for improved performance, which can be beneficial, especially for safety-critical applications.
翻訳日:2023-09-15 15:48:17 公開日:2023-09-14
# 咬合下の3次元関節物体操作のための学習環境

Learning Environment-Aware Affordance for 3D Articulated Object Manipulation under Occlusions ( http://arxiv.org/abs/2309.07510v1 )

ライセンス: Link先を確認
Kai Cheng, Ruihai Wu, Yan Shen, Chuanruo Ning, Guanqi Zhan, Hao Dong(参考訳) 多様な環境における3次元関節物体の知覚と操作は, ロボットにとって不可欠である。 近年の研究では、ポイントレベルのアフォーダンスが下流操作タスクに実行可能な事前設定を提供していることが示されている。 しかし、既存の研究は主に、環境によって課される現実的な制約やエージェントの形態、例えばオクルージョンや物理的な制限を見渡す、均質なエージェントによる単一対象シナリオに焦点を当てている。 本稿では,オブジェクトレベルの動作可能なプリミティブと環境制約の両方を組み込んだ環境対応アプライアンスフレームワークを提案する。 オブジェクト中心のアフォーダンスアプローチとは異なり、学習環境を意識したアフォーダンスは、様々なオクルージョンの複雑さのために、その量、ジオメトリ、位置、ポーズによって特徴付けられる組合せ爆発の課題に直面している。 そこで本研究では,1つのオクルーダーを含むシーンを訓練し,複雑なオクルーダーの組み合わせを持つシーンに一般化できる,新しいコントラスト・アフォーアンス学習フレームワークを提案する。 環境制約を考慮した学習における提案手法の有効性を示す実験を行った。

Perceiving and manipulating 3D articulated objects in diverse environments is essential for home-assistant robots. Recent studies have shown that point-level affordance provides actionable priors for downstream manipulation tasks. However, existing works primarily focus on single-object scenarios with homogeneous agents, overlooking the realistic constraints imposed by the environment and the agent's morphology, e.g., occlusions and physical limitations. In this paper, we propose an environment-aware affordance framework that incorporates both object-level actionable priors and environment constraints. Unlike object-centric affordance approaches, learning environment-aware affordance faces the challenge of combinatorial explosion due to the complexity of various occlusions, characterized by their quantities, geometries, positions and poses. To address this and enhance data efficiency, we introduce a novel contrastive affordance learning framework capable of training on scenes containing a single occluder and generalizing to scenes with complex occluder combinations. Experiments demonstrate the effectiveness of our proposed approach in learning affordance considering environment constraints.
翻訳日:2023-09-15 15:47:56 公開日:2023-09-14
# difftalker:中間ランドマークによる発話面の共駆動音声画像拡散

DiffTalker: Co-driven audio-image diffusion for talking faces via intermediate landmarks ( http://arxiv.org/abs/2309.07509v1 )

ライセンス: Link先を確認
Zipeng Qi, Xulong Zhang, Ning Cheng, Jing Xiao, Jianzong Wang(参考訳) 現実的な話し顔の生成は、多くのアプリケーションで複雑で広く議論されているタスクである。 本稿では,音声とランドマークによる共同運転により,生活に似た発話顔を生成する新しいモデルDiffTalkerを提案する。 difftalkerは、従来のテキストと画像のペアで訓練されたオーディオ制御に拡散モデルを直接適用することに関連する課題に対処する。 DiffTalkerは2つのエージェントネットワークから構成される: 幾何精度のためのトランスフォーマーベースのランドマーク補完ネットワークと、テクスチャ詳細のための拡散ベースの顔生成ネットワークである。 ランドマークは、オーディオと画像ドメイン間のシームレスな接続を確立する上で重要な役割を担い、事前訓練された拡散モデルからの知識の取り込みを促進する。 このイノベーティブなアプローチは、音声の表情を効率よく生成する。 実験結果から、DiffTalkerは明瞭で幾何学的に正確な発話顔を生成するのに優れた性能を示しており、音声と画像の特徴を付加する必要がない。

Generating realistic talking faces is a complex and widely discussed task with numerous applications. In this paper, we present DiffTalker, a novel model designed to generate lifelike talking faces through audio and landmark co-driving. DiffTalker addresses the challenges associated with directly applying diffusion models to audio control, which are traditionally trained on text-image pairs. DiffTalker consists of two agent networks: a transformer-based landmarks completion network for geometric accuracy and a diffusion-based face generation network for texture details. Landmarks play a pivotal role in establishing a seamless connection between the audio and image domains, facilitating the incorporation of knowledge from pre-trained diffusion models. This innovative approach efficiently produces articulate-speaking faces. Experimental results showcase DiffTalker's superior performance in producing clear and geometrically accurate talking faces, all without the need for additional alignment between audio and image features.
翻訳日:2023-09-15 15:47:38 公開日:2023-09-14
# スマート・セルフ・スーパービジョン・インフラストラクチャによる映像予測による自律走行計画

Connected Autonomous Vehicle Motion Planning with Video Predictions from Smart, Self-Supervised Infrastructure ( http://arxiv.org/abs/2309.07504v1 )

ライセンス: Link先を確認
Jiankai Sun, Shreyas Kousik, David Fridovich-Keil, Mac Schwager(参考訳) 連結自動運転車(CAV)は、都市交通の安全性、効率、持続可能性を高めることを約束する。 しかし、これは周囲のエージェントの動きを正確に予測し、自身の動きを安全に計画するcavに付随する。 複雑な都市環境において、多くのエージェント間の頻繁な閉塞と相互作用のため、そうすることは困難である。 ひとつの解決策は、スマートインフラストラクチャを活用して、CAVの状況認識を強化することだ。今回の研究では、最近提案された、道路ユーザの有用なビデオ予測の生成とブロードキャストを行うスマートセンサの“自己監視トラフィックアドバイザ(SSTA)フレームワークを活用する。 本研究では,SSTA予測を生ビデオの代わりに将来の占有率を予測するように修正し,放送予測のデータフットプリントを削減する。 結果として得られた予測は計画フレームワーク内で使用され、この設計がCAVモーションプランニングを効果的に支援できることを示す。 混雑した都市環境において,SSTA出力を実用的なCAV計画に役立てる要因について,様々な数値実験を行った。

Connected autonomous vehicles (CAVs) promise to enhance safety, efficiency, and sustainability in urban transportation. However, this is contingent upon a CAV correctly predicting the motion of surrounding agents and planning its own motion safely. Doing so is challenging in complex urban environments due to frequent occlusions and interactions among many agents. One solution is to leverage smart infrastructure to augment a CAV's situational awareness; the present work leverages a recently proposed "Self-Supervised Traffic Advisor" (SSTA) framework of smart sensors that teach themselves to generate and broadcast useful video predictions of road users. In this work, SSTA predictions are modified to predict future occupancy instead of raw video, which reduces the data footprint of broadcast predictions. The resulting predictions are used within a planning framework, demonstrating that this design can effectively aid CAV motion planning. A variety of numerical experiments study the key factors that make SSTA outputs useful for practical CAV planning in crowded urban environments.
翻訳日:2023-09-15 15:47:21 公開日:2023-09-14
# 事前学習モデルの効率的ロバスト化

Efficiently Robustify Pre-trained Models ( http://arxiv.org/abs/2309.07499v1 )

ライセンス: Link先を確認
Nishant Jain, Harkirat Behl, Yogesh Singh Rawat, Vibhav Vineet(参考訳) ディープラーニングアルゴリズムの最近のトレンドは、大規模モデルをトレーニングし、パラメータ数が高く、ビッグデータでトレーニングすることにある。 しかし、このような大規模モデルの現実の設定への堅牢性は、まだ未解決の話題である。 本研究では,まず,様々な摂動やデータセットの下でのモデルの性能をベンチマークし,実世界の変化を表現し,それらの変化下での劣化性能を強調する。 次に,大規模ネットワークにおいては,既存のロバスト化スキームの完全モデルがスケーラブルな選択肢にならない可能性について論じるとともに,所望の文字を忘れる可能性についても論じる。 最後に,知識伝達文献に着想を得た簡易で費用対効果の高い手法を提案する。 より小さなモデルをより低い計算コストで堅牢化し、それを教師として使用して、これらの大規模なネットワークの一部をチューニングすることで、全体的な計算オーバーヘッドを低減します。 提案手法は,imagenet-c,r,s,aデータセット,転送学習,ゼロショット評価設定などの様々な視覚摂動下で評価する。 ベンチマーク結果から,本手法はこれらの大規模モデルに対して効率よくロバスト性を誘導し,時間を大幅に短縮し,既存の手法では達成できない移動学習,ゼロショット特性を維持できることが示唆された。

A recent trend in deep learning algorithms has been towards training large scale models, having high parameter count and trained on big dataset. However, robustness of such large scale models towards real-world settings is still a less-explored topic. In this work, we first benchmark the performance of these models under different perturbations and datasets thereby representing real-world shifts, and highlight their degrading performance under these shifts. We then discuss on how complete model fine-tuning based existing robustification schemes might not be a scalable option given very large scale networks and can also lead them to forget some of the desired characterstics. Finally, we propose a simple and cost-effective method to solve this problem, inspired by knowledge transfer literature. It involves robustifying smaller models, at a lower computation cost, and then use them as teachers to tune a fraction of these large scale networks, reducing the overall computational overhead. We evaluate our proposed method under various vision perturbations including ImageNet-C,R,S,A datasets and also for transfer learning, zero-shot evaluation setups on different datasets. Benchmark results show that our method is able to induce robustness to these large scale models efficiently, requiring significantly lower time and also preserves the transfer learning, zero-shot properties of the original model which none of the existing methods are able to achieve.
翻訳日:2023-09-15 15:47:01 公開日:2023-09-14
# HDTR-Net:任意面生成のためのリアルタイム高精細歯列修復ネットワーク

HDTR-Net: A Real-Time High-Definition Teeth Restoration Network for Arbitrary Talking Face Generation Methods ( http://arxiv.org/abs/2309.07495v1 )

ライセンス: Link先を確認
Yongyuan Li, Xiuyuan Qin, Chao Liang, Mingqiang Wei(参考訳) Talking Face Generation (TFG)は、潜在的なつながりにある音声や顔の特徴から高い自然な唇の動きを達成するために、顔の動きを再構築することを目的としている。 既存のtfg手法は、自然で現実的な画像を生成するために大きな進歩を遂げている。 しかし、ほとんどの作品は視覚的品質を考慮に入れない。 クロスモーダル生成手法の視覚的品質劣化を回避しつつ、唇の同期を確保することは困難である。 この問題に対処するために,任意のTFG法に対してHDTR-Netと呼ばれる汎用高精細歯列修復ネットワークを提案する。 HDTR-Netは、同期と時間的一貫性を維持しながら、極めて高速に歯の領域を拡張できる。 特に,歯および周囲領域の微細なテクスチャ特徴情報を効果的に捉えるためのFGFFモジュールを提案し,これらの特徴を利用して特徴マップを微細化し,歯の明瞭度を高める。 広範な実験により,本手法は唇同期やフレームコヒーレンスに苦しむことなく任意のtfg法に適応できることが示された。 HDTR-Netのもう1つの利点は、そのリアルタイム生成能力である。 また、音声映像合成の高精細復元条件下では、その推定速度は、超解像に基づく現在の最先端顔復元よりも300〜%高速である。

Talking Face Generation (TFG) aims to reconstruct facial movements to achieve high natural lip movements from audio and facial features that are under potential connections. Existing TFG methods have made significant advancements to produce natural and realistic images. However, most work rarely takes visual quality into consideration. It is challenging to ensure lip synchronization while avoiding visual quality degradation in cross-modal generation methods. To address this issue, we propose a universal High-Definition Teeth Restoration Network, dubbed HDTR-Net, for arbitrary TFG methods. HDTR-Net can enhance teeth regions at an extremely fast speed while maintaining synchronization, and temporal consistency. In particular, we propose a Fine-Grained Feature Fusion (FGFF) module to effectively capture fine texture feature information around teeth and surrounding regions, and use these features to fine-grain the feature map to enhance the clarity of teeth. Extensive experiments show that our method can be adapted to arbitrary TFG methods without suffering from lip synchronization and frame coherence. Another advantage of HDTR-Net is its real-time generation ability. Also under the condition of high-definition restoration of talking face video synthesis, its inference speed is $300\%$ faster than the current state-of-the-art face restoration based on super-resolution.
翻訳日:2023-09-15 15:46:38 公開日:2023-09-14
# 大規模並列熱マップソルティングと説明可能なクラスタリングへの応用

Massively-Parallel Heat Map Sorting and Applications To Explainable Clustering ( http://arxiv.org/abs/2309.07486v1 )

ライセンス: Link先を確認
Sepideh Aghamolaei and Mohammad Ghodsi(参考訳) k$ラベルでラベル付けされた一組の点が与えられた場合、クラスタ(ラベル)を保存しながら点と次元を再順序付けしてマージする熱マップソート問題を導入する。 クラスタが接続されている場合、すなわち複数のクラスタに分割されず、2つのクラスタがマージされない場合、クラスタは保存される。 この問題がnpハードであることを証明し、超並列計算モデルにおいて一定数のラウンドを持つ固定パラメータアルゴリズムを与え、各マシンがサブリニアメモリを持ち、マシン全体のメモリが線形であることを示す。 この問題のnpハード特殊ケースに対して近似アルゴリズムを与える。 我々は,eメールとコンピュータネットワークの有向および非有向グラフ上で局所性に敏感なハッシュによる次元性低減手法を用いて,k-meansおよびdential-based clustering (dbscan) と比較した。

Given a set of points labeled with $k$ labels, we introduce the heat map sorting problem as reordering and merging the points and dimensions while preserving the clusters (labels). A cluster is preserved if it remains connected, i.e., if it is not split into several clusters and no two clusters are merged. We prove the problem is NP-hard and we give a fixed-parameter algorithm with a constant number of rounds in the massively parallel computation model, where each machine has a sublinear memory and the total memory of the machines is linear. We give an approximation algorithm for a NP-hard special case of the problem. We empirically compare our algorithm with k-means and density-based clustering (DBSCAN) using a dimensionality reduction via locality-sensitive hashing on several directed and undirected graphs of email and computer networks.
翻訳日:2023-09-15 15:46:15 公開日:2023-09-14
# 決定論的投影型信念ネットワークを用いた自動エンコーディングの改善

Improved Auto-Encoding using Deterministic Projected Belief Networks ( http://arxiv.org/abs/2309.07481v1 )

ライセンス: Link先を確認
Paul M Baggenstoss(参考訳) 本稿では、決定論的射影ネットワーク(D-PBN)のユニークな特性を利用して、トレーニング可能な複合活性化関数(TCAs)を最大限に活用する。 d-pbnは、フィードフォワードニューラルネットワークを介して"バックアップ"するオートエンコーダの一種である。 TCAsは、データの分布を変える複雑な単調増加形を持つ活性化関数であり、従う線形変換がより効果的である。 D-PBN は "バックアップ" によって動作するため、TCA は復元プロセスにおいて逆転し、元のデータ分布を復元する。 本稿では,tcatを用いたd-pbnオートエンコーダが,変分オートエンコーダを含む標準オートエンコーダを大幅に上回ることを示す。

In this paper, we exploit the unique properties of a deterministic projected belief network (D-PBN) to take full advantage of trainable compound activation functions (TCAs). A D-PBN is a type of auto-encoder that operates by "backing up" through a feed-forward neural network. TCAs are activation functions with complex monotonic-increasing shapes that change the distribution of the data so that the linear transformation that follows is more effective. Because a D-PBN operates by "backing up", the TCAs are inverted in the reconstruction process, restoring the original distribution of the data, thus taking advantage of a given TCA in both analysis and reconstruction. In this paper, we show that a D-PBN auto-encoder with TCAs can significantly out-perform standard auto-encoders including variational auto-encoders.
翻訳日:2023-09-15 15:46:01 公開日:2023-09-14
# 音響単位を用いた直接音声翻訳システム

Direct Text to Speech Translation System using Acoustic Units ( http://arxiv.org/abs/2309.07478v1 )

ライセンス: Link先を確認
Victoria Mingote, Pablo Gimeno, Luis Vicente, Sameer Khurana, Antoine Laurent, Jarod Duret(参考訳) 本稿では,離散音響単位を用いた音声翻訳システムを提案する。 このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語の音声を生成する。 従来の音声と音声の直接翻訳システムにおける音響ユニットの成功に動機づけられ,同じパイプラインを用いて,クラスタリングアルゴリズムと組み合わされた音声エンコーダを用いて音響ユニットを抽出する。 ユニットが取得されると、エンコーダ-デコーダアーキテクチャがそれらを予測するために訓練される。 そして、ボコーダが単位から音声を生成する。 CVSSコーパスを初期化に用いた2種類のテキストmBARTモデルを用いて, 直接テキストから音声翻訳へのアプローチを検討した。 システムは、評価されたほとんどの言語ペアの競合性能を報告した。 さらに,提案したアーキテクチャを,より多くの言語で事前学習したモデルで初期化することで,大幅な改善が得られた。

This paper proposes a direct text to speech translation system using discrete acoustic units. This framework employs text in different source languages as input to generate speech in the target language without the need for text transcriptions in this language. Motivated by the success of acoustic units in previous works for direct speech to speech translation systems, we use the same pipeline to extract the acoustic units using a speech encoder combined with a clustering algorithm. Once units are obtained, an encoder-decoder architecture is trained to predict them. Then a vocoder generates speech from units. Our approach for direct text to speech translation was tested on the new CVSS corpus with two different text mBART models employed as initialisation. The systems presented report competitive performance for most of the language pairs evaluated. Besides, results show a remarkable improvement when initialising our proposed architecture with a model pre-trained with more languages.
翻訳日:2023-09-15 15:45:47 公開日:2023-09-14
# 有効距離145kmまでの量子鍵分布のためのコヒーレント・ワンウェイプロトコルの実装

Implementation of coherent one way protocol for quantum key distribution up to an effective distance of 145 km ( http://arxiv.org/abs/2309.07555v1 )

ライセンス: Link先を確認
Priya Malpani, Satish Kumar and Anirban Pathak(参考訳) 本研究では,光ファイバーの減衰が最小となる通信波長(1550 nm)におけるqkdのための光ファイバーベースの牛プロトコルを実験的に実現する。 平均光子数0.5、繰り返し速度500MHzのパルスの発生には、波長1550nmのレーザー、減衰器、強度変調器を用いる。 実験は、40km, 80km, 120kmの光ファイバで行われ、検出器の開示率、圧縮率、デッドタイム、余剰バイアス電圧などの実験パラメータは、最終キーレートへの影響を観測するために、すべてのケース(40km, 80km, 120km)で異なる。 具体的には,圧縮率の低下や開示率の低下に伴い,キーレートの線形増加が観察された。 鍵レートは、開示率、圧縮率、デッドタイムの最小許容値に対して最大値を取得する。 余剰バイアス電圧の様々な値に対して安定である。 様々なパラメータを変更しながら、量子ビット誤り率(qber)を6%以下に維持した。 得られたキーレートも時間とともに安定している。 ここで得られた実験結果は、COW QKDプロトコルの初期の実現例と比較される。 また、中間距離及び120km以上の距離における鍵レートをエミュレートするために、本実装で用いられる光ファイバの25kmに相当する5dB損失の減衰器を用いる。 これにより、現在の実装はCOW QKDを145kmまで実現した。

In the present work, we report experimental realization of an optical fiber based COW protocol for QKD in the telecom wavelength (1550 nm) where the attenuation in the optical fiber is minimum. A laser of 1550 nm wavelength, attenuator and intensity modulator is used for the generation of pulses having average photon number 0.5 and repetition rate of 500 MHz. The experiment is performed over 40 km, 80 km and 120 km of optical fiber and several experimental parameters like disclose rate, compression ratio, dead time and excess bias voltage of the detector are varied for all the cases (i.e., for 40 km, 80 km and 120 km distances) to observe their impact on the final key rate. Specifically, It is observed that there is a linear increase in the key rate as we decrease compression ratio or disclose rate. The key rate obtains its maximum value for least permitted values of disclose rate, compression ratio and dead time. It seems to remain stable for various values of excess bias voltage. While changing various parameters, we have maintained the quantum bit error rate (QBER) below 6%. The key rate obtained is also found to remain stable over time. Experimental results obtained here are also compared with the earlier realizations of the COW QKD protocol. Further, to emulate key rate at intermediate distances and at a distance larger than 120 km, an attenuator of 5 dB loss is used which can be treated as equivalent to 25 km of the optical fiber used in the present implementation. This has made the present implementation equivalent to the realization of COW QKD upto 145 km.
翻訳日:2023-09-15 15:40:38 公開日:2023-09-14
# 表現学習による自然主義的ロボットアーム軌道生成

Naturalistic Robot Arm Trajectory Generation via Representation Learning ( http://arxiv.org/abs/2309.07550v1 )

ライセンス: Link先を確認
Jayjun Lee, Adam J. Spiers(参考訳) 家庭環境におけるマニピュレータロボットの統合は、より予測可能で人間らしいロボットの動きの必要性を示唆している。 これは、麻痺のある人の自立を支援する車椅子搭載の補助ロボットに特に当てはまる。 自然主義的な運動軌道を生成する方法の1つは、人間のデモ隊の模倣である。 本稿では,自己回帰時空間グラフニューラルネットワークを用いた自己指導型模倣学習法について検討する。 我々は、アクションフリータスクのデモンストレーションとして、人間の腕のウェアラブルIMUセンサーを介して捉えた多様な人間の運動軌跡データからの学習に対処する。 複数の参加者から観測された腕の動きデータを用いて、UR5eロボットアームの自然および機能的な飲酒運動軌跡を生成する。

The integration of manipulator robots in household environments suggests a need for more predictable and human-like robot motion. This holds especially true for wheelchair-mounted assistive robots that can support the independence of people with paralysis. One method of generating naturalistic motion trajectories is via the imitation of human demonstrators. This paper explores a self-supervised imitation learning method using an autoregressive spatio-temporal graph neural network for an assistive drinking task. We address learning from diverse human motion trajectory data that were captured via wearable IMU sensors on a human arm as the action-free task demonstrations. Observed arm motion data from several participants is used to generate natural and functional drinking motion trajectories for a UR5e robot arm.
翻訳日:2023-09-15 15:39:55 公開日:2023-09-14
# 強化学習のための近位ベルマン写像とそのロバスト適応フィルタリングへの応用

Proximal Bellman mappings for reinforcement learning and their application to robust adaptive filtering ( http://arxiv.org/abs/2309.07548v1 )

ライセンス: Link先を確認
Yuki Akiyama and Konstantinos Slavakis(参考訳) 本稿では,強化学習(RL)のアルゴリズム的・理論的コアを,近位ベルマン写像の新たなクラスを導入して論じる。 これらの写像は、カーネル・ヒルベルト空間 (RKHSs) の再現において定義され、RKHSs のリッチな近似特性と内積の恩恵を受けるために、これらの写像は、割引係数の値によらず、(確実に)非拡大写像のヒルベルト族に属することが示され、古典的なベルマン写像の属性を再現し、新しいRL設計の道を開くために十分な設計自由度を持つ。 オンライン選択の問題を解決するために提案された写像のクラス上に近似的なポリシーイテレーションスキームを構築し, 任意の場合において, 最適」指数の$p$を線形適応フィルタリングにおける外れ値と闘うための$p$-norm損失を, トレーニングデータや外れ値の統計的特性に関する知識なしで解決する。 合成データの数値実験は、いくつかの非rlおよびカーネルベースのrlスキームよりも優れた性能を示す。

This paper aims at the algorithmic/theoretical core of reinforcement learning (RL) by introducing the novel class of proximal Bellman mappings. These mappings are defined in reproducing kernel Hilbert spaces (RKHSs), to benefit from the rich approximation properties and inner product of RKHSs, they are shown to belong to the powerful Hilbertian family of (firmly) nonexpansive mappings, regardless of the values of their discount factors, and possess ample degrees of design freedom to even reproduce attributes of the classical Bellman mappings and to pave the way for novel RL designs. An approximate policy-iteration scheme is built on the proposed class of mappings to solve the problem of selecting online, at every time instance, the "optimal" exponent $p$ in a $p$-norm loss to combat outliers in linear adaptive filtering, without training data and any knowledge on the statistical properties of the outliers. Numerical tests on synthetic data showcase the superior performance of the proposed framework over several non-RL and kernel-based RL schemes.
翻訳日:2023-09-15 15:39:33 公開日:2023-09-14
# DBLPLink:DBLP Scholarly Knowledge Graph用のエンティティリンカ

DBLPLink: An Entity Linker for the DBLP Scholarly Knowledge Graph ( http://arxiv.org/abs/2309.07545v1 )

ライセンス: Link先を確認
Debayan Banerjee, Arefa, Ricardo Usbeck and Chris Biemann(参考訳) 本稿では,dblpの学術知識グラフ上でエンティティリンクを行う,dblplink という web アプリケーションを提案する。 DBLPLinkは、T5のようなテキストからテキストまでの事前訓練された言語モデルを使用して、入力されたテキスト質問からエンティティラベルスパンを生成する。 エンティティ候補はラベルに基づいてデータベースから取得され、エンティティ再ランカはTransE、DistMult、ComplExなどのエンティティ埋め込みに基づいてそれらをソートする。 結果は、ユーザが使用するT5-small、T5-baseと異なるKG埋め込みの結果を比較、比較できるように表示される。 デモはhttps://ltdemos.informatik.uni-hamburg.de/dblplink/で見ることができる。

In this work, we present a web application named DBLPLink, which performs entity linking over the DBLP scholarly knowledge graph. DBLPLink uses text-to-text pre-trained language models, such as T5, to produce entity label spans from an input text question. Entity candidates are fetched from a database based on the labels, and an entity re-ranker sorts them based on entity embeddings, such as TransE, DistMult and ComplEx. The results are displayed so that users may compare and contrast the results between T5-small, T5-base and the different KG embeddings used. The demo can be accessed at https://ltdemos.informatik.uni-hamburg.de/dblplink/.
翻訳日:2023-09-15 15:39:07 公開日:2023-09-14
# VerilogEval:Verilogコード生成のための大規模言語モデルの評価

VerilogEval: Evaluating Large Language Models for Verilog Code Generation ( http://arxiv.org/abs/2309.07544v1 )

ライセンス: Link先を確認
Mingjie Liu, Nathaniel Pinckney, Brucek Khailany and Haoxing Ren(参考訳) 大規模言語モデル (LLMs) の人気が高まり、様々な分野への応用の道が開かれた。 本稿では,ハードウェア設計と検証のための Verilog コード生成の文脈で LLM 性能を評価するためのベンチマークフレームワークを提案する。 本稿では,VerilogインストラクショナルWebサイトHDLBitsから156個の問題からなる総合評価データセットを提案する。 評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。 生成した設計の過渡的シミュレーション出力を黄金解と比較することにより、Verilogのコード補完を機能的正当性のために自動テストすることができる。 また,LLM生成した合成問題コードペアによるブートストラップにより,教師付き微調整により,事前学習言語モデルのVerilogコード生成能力を向上できることを実証した。

The increasing popularity of large language models (LLMs) has paved the way for their application in diverse domains. This paper proposes a benchmarking framework tailored specifically for evaluating LLM performance in the context of Verilog code generation for hardware design and verification. We present a comprehensive evaluation dataset consisting of 156 problems from the Verilog instructional website HDLBits. The evaluation set consists of a diverse set of Verilog code generation tasks, ranging from simple combinational circuits to complex finite state machines. The Verilog code completions can be automatically tested for functional correctness by comparing the transient simulation outputs of the generated design with a golden solution. We also demonstrate that the Verilog code generation capability of pretrained language models could be improved with supervised fine-tuning by bootstrapping with LLM generated synthetic problem-code pairs.
翻訳日:2023-09-15 15:38:44 公開日:2023-09-14
# 深層学習を成功させるための基盤メカニズムの普遍性

Universality of underlying mechanism for successful deep learning ( http://arxiv.org/abs/2309.07537v1 )

ライセンス: Link先を確認
Yuval Meir, Yarden Tzach, Shiri Hodassman, Ofek Tevet and Ido Kanter(参考訳) 深層アーキテクチャとデータセットに制限のある、成功した深層学習(dl)のメカニズム、すなわちcifar-10上のvgg-16は、最近、各層における単一のフィルタの品質を測定する定量的手法に基づいて発表された。 この方法では、各フィルタは可能なアウトプットラベルの小さなクラスタを識別し、追加のノイズをクラスタからラベルとして選択する。 この特徴は層によって徐々に強化され、信号対雑音比(SNR)が向上し、精度が向上する。 本研究では,CIFAR-100 と ImageNet を用いてトレーニングした VGG-16 と EfficientNet-B0 に対して,以下の主な結果を得た。 まず、層によって精度は徐々に向上し、フィルタごとのノイズは徐々に減少する。 第二に、与えられた深いアーキテクチャでは、最大誤差率は出力ラベルの数とほぼ直線的に増加する。 第3に、出力層に隣接する最後の畳み込み層におけるフィルタ当たりの平均フィルタクラスタサイズとクラスタ数は、[3, 1000]の範囲内のデータセットラベルの数とほぼ独立であり、高いSNRが保存されている。 提案するDL機構は,フィルタのクラスタ接続(AFCC)の適用,深層アーキテクチャの計算複雑性と精度の向上,さらには既存の構造を簡易化しつつ精度を向上するなど,いくつかの手法を提案する。

An underlying mechanism for successful deep learning (DL) with a limited deep architecture and dataset, namely VGG-16 on CIFAR-10, was recently presented based on a quantitative method to measure the quality of a single filter in each layer. In this method, each filter identifies small clusters of possible output labels, with additional noise selected as labels out of the clusters. This feature is progressively sharpened with the layers, resulting in an enhanced signal-to-noise ratio (SNR) and higher accuracy. In this study, the suggested universal mechanism is verified for VGG-16 and EfficientNet-B0 trained on the CIFAR-100 and ImageNet datasets with the following main results. First, the accuracy progressively increases with the layers, whereas the noise per filter typically progressively decreases. Second, for a given deep architecture, the maximal error rate increases approximately linearly with the number of output labels. Third, the average filter cluster size and the number of clusters per filter at the last convolutional layer adjacent to the output layer are almost independent of the number of dataset labels in the range [3, 1,000], while a high SNR is preserved. The presented DL mechanism suggests several techniques, such as applying filter's cluster connections (AFCC), to improve the computational complexity and accuracy of deep architectures and furthermore pinpoints the simplification of pre-existing structures while maintaining their accuracies.
翻訳日:2023-09-15 15:38:30 公開日:2023-09-14
# 単調関数の適応近似

Adaptive approximation of monotone functions ( http://arxiv.org/abs/2309.07530v1 )

ライセンス: Link先を確認
Pierre Gaillard (Thoth), S\'ebastien Gerchinovitz (IMT), \'Etienne de Montbrun (TSE-R)(参考訳) 非退化関数 $f: \mathcal{X} \to \mathcal{Y}$ in $L^p(\mu)$ norm を、既知のコンパクト実区間に対して連続的に値を問うことで、古典的な問題を研究する: $\mathcal{X}$, $\mathcal{Y}$ および既知の確率測度 $\mu$ on $\cX$ に対して。 任意の関数に対して$f$ は、停止後に$l^p(\mu)$ 以下の誤差で近似 $\hat{f}$ を保証しなければならないアルゴリズムの最小評価値である$f$ を特徴付ける。 f$ 全体にわたって一様に保持される最悪の結果とは異なり、我々の複雑性尺度は各関数 $f$ に依存する。 この問題を解決するために,1992年にNovakによって提案された数値積分アルゴリズムの一般化であるGreedyBoxを導入する。 GreedyBox は任意の関数 $f$ に対して,対数因子まで,最適なサンプル複雑性を実現する。 さらに,断片的スムース関数に関する結果も明らかにした。 おそらく予想通り、GreedyBoxの$L^p(\mu)$エラーは、アルゴリズムが予測するよりもC^2$関数の方がはるかに速く減少する($f$の滑らかさに関する知識は一切ない)。 簡単な修正は、そのような関数に対する最適ミニマックス近似率も達成し、明示的に計算する。 特に,適応型アルゴリズムと非適応型アルゴリズム,スムーズな機能,スムーズな機能,モノトーン機能と非モノトーン機能の間には,複数の性能ギャップがある。 最後に,理論的結果を支援する数値実験を行った。

We study the classical problem of approximating a non-decreasing function $f: \mathcal{X} \to \mathcal{Y}$ in $L^p(\mu)$ norm by sequentially querying its values, for known compact real intervals $\mathcal{X}$, $\mathcal{Y}$ and a known probability measure $\mu$ on $\cX$. For any function~$f$ we characterize the minimum number of evaluations of $f$ that algorithms need to guarantee an approximation $\hat{f}$ with an $L^p(\mu)$ error below $\epsilon$ after stopping. Unlike worst-case results that hold uniformly over all $f$, our complexity measure is dependent on each specific function $f$. To address this problem, we introduce GreedyBox, a generalization of an algorithm originally proposed by Novak (1992) for numerical integration. We prove that GreedyBox achieves an optimal sample complexity for any function $f$, up to logarithmic factors. Additionally, we uncover results regarding piecewise-smooth functions. Perhaps as expected, the $L^p(\mu)$ error of GreedyBox decreases much faster for piecewise-$C^2$ functions than predicted by the algorithm (without any knowledge on the smoothness of $f$). A simple modification even achieves optimal minimax approximation rates for such functions, which we compute explicitly. In particular, our findings highlight multiple performance gaps between adaptive and non-adaptive algorithms, smooth and piecewise-smooth functions, as well as monotone or non-monotone functions. Finally, we provide numerical experiments to support our theoretical results.
翻訳日:2023-09-15 15:38:04 公開日:2023-09-14
# 類似性を超えた学習:自己監督型時系列学習におけるポジティブペア間の相違

Learning Beyond Similarities: Incorporating Dissimilarities between Positive Pairs in Self-Supervised Time Series Learning ( http://arxiv.org/abs/2309.07526v1 )

ライセンス: Link先を確認
Adrian Atienza, Jakob Bardram, and Sadasivan Puthusserypady(参考訳) 逐次入力の類似性を同定することにより,時系列解析における自己監視学習(SSL)手法が時間的データ固有の静的特性を符号化する効果を実証した。 しかし、類似性を排他的に強調すると、被拘束者コホート内の心血管疾患をモデル化するのに重要なダイナミックな特性を見落としてしまう可能性がある。 そこで本論文では,Destilled Encoding Beyond similarities (DEBS)を導入し,正のペア間の相違点を統合することで,単なる類似点を超越するSSLアプローチの先駆者となる。 本フレームワークは心電図(ECG)信号に適用され,心房細動(AFib)の検出精度が,多彩な被験者で+10\%向上した。 debsは、時系列データの動的特性をエンコードし、最適化プロセス中に類似点をタップすることで、より洗練された表現を実現する可能性を強調する。 本研究で広く述べられている戦略は、時間的データに合わせたSSL手法の進展に向けた新たな道の開拓を約束するものである。

By identifying similarities between successive inputs, Self-Supervised Learning (SSL) methods for time series analysis have demonstrated their effectiveness in encoding the inherent static characteristics of temporal data. However, an exclusive emphasis on similarities might result in representations that overlook the dynamic attributes critical for modeling cardiovascular diseases within a confined subject cohort. Introducing Distilled Encoding Beyond Similarities (DEBS), this paper pioneers an SSL approach that transcends mere similarities by integrating dissimilarities among positive pairs. The framework is applied to electrocardiogram (ECG) signals, leading to a notable enhancement of +10\% in the detection accuracy of Atrial Fibrillation (AFib) across diverse subjects. DEBS underscores the potential of attaining a more refined representation by encoding the dynamic characteristics of time series data, tapping into dissimilarities during the optimization process. Broadly, the strategy delineated in this study holds the promise of unearthing novel avenues for advancing SSL methodologies tailored to temporal data.
翻訳日:2023-09-15 15:37:31 公開日:2023-09-14
# SingFake: 音声のディープフェイク検出

SingFake: Singing Voice Deepfake Detection ( http://arxiv.org/abs/2309.07525v1 )

ライセンス: Link先を確認
Yongyi Zang, You Zhang, Mojtaba Heydari, Zhiyao Duan(参考訳) 歌声合成の台頭は、無許可音声使用に対するアーティストや業界の利害関係者にとって重要な課題となっている。 合成された音声とは異なり、合成された歌声は、合成のアーティファクトを隠す強固な背景音楽を含む歌で通常リリースされる。 さらに、歌声は、発話と異なる音響的・言語的特徴を示す。 これらの特徴により、歌声のディープフェイク検出は、合成音声検出とはかなり異なる問題となる。 本研究では,歌唱音声のディープフェイク検出タスクを提案する。 SingFakeは、40人の歌手の5つの言語で28.93時間のボナフィドと29.40時間のディープフェイク・ソングクリップからなる、初めて編集されたヴィルド・イン・ザ・ワイルドのデータセットである。 テストセットにはさまざまなシナリオが含まれています。 次に、SingFakeを用いて、発話を訓練した4つの最先端音声対策システムを評価する。 音声テストデータでは,これらのシステムの性能が著しく遅れていることがわかった。 SingFakeでのトレーニングでは、分離されたボーカルトラックまたは曲のミックスを使用して、これらのシステムは大幅に改善されている。 しかし,我々の評価では,歌手やコミュニケーションコーデック,言語,音楽的文脈にかかわる課題も特定し,歌声深度検出の専門的な研究を呼び掛けている。 SingFakeデータセットと関連するリソースはオンラインで入手できる。

The rise of singing voice synthesis presents critical challenges to artists and industry stakeholders over unauthorized voice usage. Unlike synthesized speech, synthesized singing voices are typically released in songs containing strong background music that may hide synthesis artifacts. Additionally, singing voices present different acoustic and linguistic characteristics from speech utterances. These unique properties make singing voice deepfake detection a relevant but significantly different problem from synthetic speech detection. In this work, we propose the singing voice deepfake detection task. We first present SingFake, the first curated in-the-wild dataset consisting of 28.93 hours of bonafide and 29.40 hours of deepfake song clips in five languages from 40 singers. We provide a train/val/test split where the test sets include various scenarios. We then use SingFake to evaluate four state-of-the-art speech countermeasure systems trained on speech utterances. We find these systems lag significantly behind their performance on speech test data. When trained on SingFake, either using separated vocal tracks or song mixtures, these systems show substantial improvement. However, our evaluations also identify challenges associated with unseen singers, communication codecs, languages, and musical contexts, calling for dedicated research into singing voice deepfake detection. The SingFake dataset and related resources are available online.
翻訳日:2023-09-15 15:37:14 公開日:2023-09-14
# リモートセンシングにおける画像ブラインド劣化のためのマルチスケール一般化収縮閾値ネットワーク

A Multi-scale Generalized Shrinkage Threshold Network for Image Blind Deblurring in Remote Sensing ( http://arxiv.org/abs/2309.07524v1 )

ライセンス: Link先を確認
Yujie Feng, Yin Yang, Xiaohong Fan, Zhengpeng Zhang, and Jianping Zhang(参考訳) リモートセンシング画像は多くの地球科学応用に必須であるが、センサー技術や複雑な撮像環境の制限により品質が低下する可能性がある。 これを解決するために、劣化した観測データから鮮明で高品質な画像を復元する様々なリモートセンシング画像デブロアリング法を開発した。 しかし、従来のモデルベースのデブロアリング手法の多くは、複雑なアプリケーションでは扱うのが難しい手作業による事前仮定を必要としており、ディープラーニングベースのデブロアリング手法はブラックボックスとして設計されており、透明性と解釈性に欠ける。 本研究では,ネットワーク設計の理論的基礎として,縮小しきい値の繰り返しを交互に繰り返し、ぼやけたカーネルやイメージを交互に更新するブラインドデブロアリング学習フレームワークを提案する。 さらに,カーネル領域におけるぼかしカーネル評価を改善するために,学習可能なぼかしカーネル近距離マッピングモジュールを提案する。 そこで,画像領域に一般化された縮小しきい値演算子とマルチスケールの事前特徴抽出ブロックを組み合わせた深部近距離マッピングモジュールを提案する。 このモジュールはまた、事前重要度を適応的に調整するアテンション機構を導入し、手作り画像の先行項の欠点を回避する。 そこで,新しい多スケール一般化収縮しきい値ネットワーク(mgstnet)は,画像復元の深部幾何学的特徴の学習に特化するように設計されている。 遠隔センシング画像データセットに対するMGSTNetフレームワークの優位性を示す実験を行った。

Remote sensing images are essential for many earth science applications, but their quality can be degraded due to limitations in sensor technology and complex imaging environments. To address this, various remote sensing image deblurring methods have been developed to restore sharp, high-quality images from degraded observational data. However, most traditional model-based deblurring methods usually require predefined hand-craft prior assumptions, which are difficult to handle in complex applications, and most deep learning-based deblurring methods are designed as a black box, lacking transparency and interpretability. In this work, we propose a novel blind deblurring learning framework based on alternating iterations of shrinkage thresholds, alternately updating blurring kernels and images, with the theoretical foundation of network design. Additionally, we propose a learnable blur kernel proximal mapping module to improve the blur kernel evaluation in the kernel domain. Then, we proposed a deep proximal mapping module in the image domain, which combines a generalized shrinkage threshold operator and a multi-scale prior feature extraction block. This module also introduces an attention mechanism to adaptively adjust the prior importance, thus avoiding the drawbacks of hand-crafted image prior terms. Thus, a novel multi-scale generalized shrinkage threshold network (MGSTNet) is designed to specifically focus on learning deep geometric prior features to enhance image restoration. Experiments demonstrate the superiority of our MGSTNet framework on remote sensing image datasets compared to existing deblurring methods.
翻訳日:2023-09-15 15:36:52 公開日:2023-09-14
# 論理クエリに基づくニューロシンボリック勧告モデル

Neuro-Symbolic Recommendation Model based on Logic Query ( http://arxiv.org/abs/2309.07594v1 )

ライセンス: Link先を確認
Maonian Wu, Bang Chen, Shaojun Zhu, Bo Zheng, Wei Peng, Mingyi Zhang(参考訳) レコメンデーションシステムは、ユーザーが関連するアイテムを見つけるのを支援する。 既存のレコメンデーションモデルは、主にユーザーとアイテムの関係を予測し、複雑なマッチングモデルを使用するか、データ内の関連パターンをキャプチャするために広範囲な外部情報を組み込む。 しかし、レコメンデーションはデータを用いた帰納統計の問題であるだけでなく、情報から抽出した知識に基づいて意思決定を推論する認知的タスクでもある。 したがって、論理システムはレコメンデーションタスクの推論のために自然に組み込むことができる。 しかし、論理システムに基づくハードルールアプローチは強力な推論能力を提供するが、現実のタスク、特にレコメンデーションのような複雑なタスクにおける一貫性のない不完全な知識に対処できない。 そこで,本稿では,ユーザ履歴インタラクションを論理式に変換し,その論理式に基づいて推薦予測をクエリタスクに変換するニューロシンボリックレコメンデーションモデルを提案する。 論理式は、ニューラルネットワークのモジュラー論理演算に基づいて計算される。 また,論理計算の複雑さを合理的に低減する暗黙論理エンコーダを構築した。 最後に、計算結果に基づいて、ユーザの関心項目をベクトル空間で問合せすることができる。 3つのよく知られたデータセットによる実験により,本手法は浅部,深部,セッション,推論モデルと比較すると,優れた性能を示した。

A recommendation system assists users in finding items that are relevant to them. Existing recommendation models are primarily based on predicting relationships between users and items and use complex matching models or incorporate extensive external information to capture association patterns in data. However, recommendation is not only a problem of inductive statistics using data; it is also a cognitive task of reasoning decisions based on knowledge extracted from information. Hence, a logic system could naturally be incorporated for the reasoning in a recommendation task. However, although hard-rule approaches based on logic systems can provide powerful reasoning ability, they struggle to cope with inconsistent and incomplete knowledge in real-world tasks, especially for complex tasks such as recommendation. Therefore, in this paper, we propose a neuro-symbolic recommendation model, which transforms the user history interactions into a logic expression and then transforms the recommendation prediction into a query task based on this logic expression. The logic expressions are then computed based on the modular logic operations of the neural network. We also construct an implicit logic encoder to reasonably reduce the complexity of the logic computation. Finally, a user's interest items can be queried in the vector space based on the computation results. Experiments on three well-known datasets verified that our method performs better compared to state of the art shallow, deep, session, and reasoning models.
翻訳日:2023-09-15 15:27:48 公開日:2023-09-14
# 条件順列による統計的に有効な変数重要度評価

Statistically Valid Variable Importance Assessment through Conditional Permutations ( http://arxiv.org/abs/2309.07593v1 )

ライセンス: Link先を確認
Ahmad Chamma (1 and 2 and 3), Denis A. Engemann (4) and Bertrand Thirion (1 and 2 and 3) ((1) Inria, (2) Universite Paris Saclay, (3) CEA, (4) Roche Pharma Research and Early Development, Neuroscience and Rare Diseases, Roche Innovation Center Basel, F. Hoffmann-La Roche Ltd., Basel, Switzerland)(参考訳) 大規模データにディープニューラルネットワークなどの複雑な学習者を使用する場合、変数重要度評価は機械学習アプリケーションにおいて重要なステップとなっている。 除去に基づく重要度評価は現在、特に変数包含を正当化するために統計的保証を求める場合の参照アプローチである。 変数の置換スキームで実装されることが多い。 逆に、これらのアプローチは共変量間の相関の存在において重要でない変数を誤同定するリスクがある。 本稿では,CPI(Conditional Permutation Importance)のモデル非依存および計算的リーン化のための体系的アプローチと,最先端の変数重要度推定器の再利用可能なベンチマークを開発する。 理論的および実証的に、$\textit{cpi}$ は正確な type-i エラー制御を提供することで標準置換の重要性の限界を克服することを示した。 ディープニューラルネットワークを使用すると、$\textit{CPI}$はベンチマーク全体で最高精度を示している。 大規模医療データセットにおける実世界のデータ分析に関する経験的ベンチマークでは、$\textit{cpi}$が統計学的に重要な変数のより控えめな選択を提供することが示された。 この結果から,$\textit{CPI}$は置換型メソッドのドロップイン置換として簡単に利用できることが示唆された。

Variable importance assessment has become a crucial step in machine-learning applications when using complex learners, such as deep neural networks, on large-scale data. Removal-based importance assessment is currently the reference approach, particularly when statistical guarantees are sought to justify variable inclusion. It is often implemented with variable permutation schemes. On the flip side, these approaches risk misidentifying unimportant variables as important in the presence of correlations among covariates. Here we develop a systematic approach for studying Conditional Permutation Importance (CPI) that is model agnostic and computationally lean, as well as reusable benchmarks of state-of-the-art variable importance estimators. We show theoretically and empirically that $\textit{CPI}$ overcomes the limitations of standard permutation importance by providing accurate type-I error control. When used with a deep neural network, $\textit{CPI}$ consistently showed top accuracy across benchmarks. An empirical benchmark on real-world data analysis in a large-scale medical dataset showed that $\textit{CPI}$ provides a more parsimonious selection of statistically significant variables. Our results suggest that $\textit{CPI}$ can be readily used as drop-in replacement for permutation-based methods.
翻訳日:2023-09-15 15:27:26 公開日:2023-09-14
# hpsgのスーパータグ再検討

Revisiting Supertagging for HPSG ( http://arxiv.org/abs/2309.07590v1 )

ライセンス: Link先を確認
Olga Zamaraeva, Carlos G\'omez-Rodr\'iguez(参考訳) 我々はHPSGベースのツリーバンクで訓練された新しいスーパータガーを提案する。 これらのツリーバンクは、よく開発された言語理論に基づいた高品質のアノテーションを特徴とし、通常のwsjセクション23とwikipediaデータを超えて、多様で挑戦的なテストデータセットを含んでいる。 HPSGのスーパータグは以前はMaxEntベースのモデルに依存していた。 我々は、SVMとニューラルCRFとBERTに基づく手法を用いて、SVMとニューラルスーパータガーの両方がベースラインよりもかなり精度が高いことを示す。 我々の微調整されたbertベースのタガーは、wsj23からの1000文の97.26%の正確さと、大聖堂とバザール(cb)の完全な領域外における93.88%を達成した。 したがって、これらの新しいスーパータガーを現代のHPSGパーサに統合することは理にかなっていると結論付け、ここで使用した多様で困難なデータセットがこの分野でより人気を得ることを期待している。 我々はトークン分類のために改定された完全なデータセットに貢献する。

We present new supertaggers trained on HPSG-based treebanks. These treebanks feature high-quality annotation based on a well-developed linguistic theory and include diverse and challenging test datasets, beyond the usual WSJ section 23 and Wikipedia data. HPSG supertagging has previously relied on MaxEnt-based models. We use SVM and neural CRF- and BERT-based methods and show that both SVM and neural supertaggers achieve considerably higher accuracy compared to the baseline. Our fine-tuned BERT-based tagger achieves 97.26% accuracy on 1000 sentences from WSJ23 and 93.88% on the completely out-of-domain The Cathedral and the Bazaar (cb)). We conclude that it therefore makes sense to integrate these new supertaggers into modern HPSG parsers, and we also hope that the diverse and difficult datasets we used here will gain more popularity in the field. We contribute the complete dataset reformatted for token classification.
翻訳日:2023-09-15 15:27:04 公開日:2023-09-14
# バウンスを解き放つ - トンネルのリアルタイムな展望

Unraveling the bounce: a real time perspective on tunneling ( http://arxiv.org/abs/2309.07585v1 )

ライセンス: Link先を確認
Kfir Blum and Omri Rosner(参考訳) 従来の運動方程式の解が複素平面上に存在する場合, 経路積分を用いた一次元量子力学におけるトンネルの研究を行う。 小さな(複雑な)エネルギーで解を解析し、長い時間後に波動関数を構成することに関係し、その作用の分析構造を解明し、エネルギー膨張における最低次項のパラメータ化として虚空時間バウンスがどのように生じるかを明確に示す。 実時間計算は、ポテンシャルの自由領域における波動関数を記述するために自然に拡張され、通常のWKB近似を再現する。 本研究では,サドルの揺らぎによる半古典的補正に対する解析の延長を今後の研究に残す。

We study tunneling in one-dimensional quantum mechanics using the path integral in real time, where solutions of the classical equation of motion live in the complex plane. Analyzing solutions with small (complex) energy, relevant for constructing the wave function after a long time, we unravel the analytic structure of the action, and show explicitly how the imaginary time bounce arises as a parameterization of the lowest order term in the energy expansion. The real time calculation naturally extends to describe the wave function in the free region of the potential, reproducing the usual WKB approximation. The extension of our analysis to the semiclassical correction due to fluctuations on the saddle is left for future work.
翻訳日:2023-09-15 15:26:46 公開日:2023-09-14
# spd行列列のための構造保存トランス

Structure-Preserving Transformers for Sequences of SPD Matrices ( http://arxiv.org/abs/2309.07579v1 )

ライセンス: Link先を確認
Mathieu Seraphim, Alexis Lechervy, Florian Yger, Luc Brun and Olivier Etard(参考訳) 近年,トランスフォーマーをベースとした自動アテンション機構は,テキストから画像まで,非ユークリッド測地データを含む,さまざまなコンテキスト依存データ型の分析に成功している。 本稿では,その解析を通してリーマン幾何学を保存しながら,対称正定値行列の列を分類する機構を提案する。 本手法は,脳波由来の共分散行列を標準データセットからタイムリーに自動睡眠ステージングに応用し,高いステージレベルの性能を得る。

In recent years, Transformer-based auto-attention mechanisms have been successfully applied to the analysis of a variety of context-reliant data types, from texts to images and beyond, including data from non-Euclidean geometries. In this paper, we present such a mechanism, designed to classify sequences of Symmetric Positive Definite matrices while preserving their Riemannian geometry throughout the analysis. We apply our method to automatic sleep staging on timeseries of EEG-derived covariance matrices from a standard dataset, obtaining high levels of stage-wise performance.
翻訳日:2023-09-15 15:26:33 公開日:2023-09-14
# オフライン強化学習における一般化のための等変データ拡張

Equivariant Data Augmentation for Generalization in Offline Reinforcement Learning ( http://arxiv.org/abs/2309.07578v1 )

ライセンス: Link先を確認
Cristina Pinneri, Sarah Bechtle, Markus Wulfmeier, Arunkumar Byravan, Jingwei Zhang, William F. Whitney, Martin Riedmiller(参考訳) 本稿では,オフライン強化学習(rl)における一般化の課題に対処するための新しい手法を提案する。 具体的には,エージェントのアウト・オブ・ディストリビューション目標への一般化能力の向上を目指す。 これを実現するために, 動力学モデルを学び, 状態空間の変換という固定型変換に関して同値であるかどうかを確認することを提案する。 次に、エントロピー正則化器を用いて同変集合を拡大し、結果の変換サンプルでデータセットを増強する。 最後に、既存のオフラインRLアルゴリズムを用いて、拡張データセットに基づいて新しいポリシーをオフラインで学習する。 実験の結果,本手法は検討した環境におけるポリシーのテスト性能を大幅に向上できることがわかった。

We present a novel approach to address the challenge of generalization in offline reinforcement learning (RL), where the agent learns from a fixed dataset without any additional interaction with the environment. Specifically, we aim to improve the agent's ability to generalize to out-of-distribution goals. To achieve this, we propose to learn a dynamics model and check if it is equivariant with respect to a fixed type of transformation, namely translations in the state space. We then use an entropy regularizer to increase the equivariant set and augment the dataset with the resulting transformed samples. Finally, we learn a new policy offline based on the augmented dataset, with an off-the-shelf offline RL algorithm. Our experimental results demonstrate that our approach can greatly improve the test performance of the policy on the considered environments.
翻訳日:2023-09-15 15:26:23 公開日:2023-09-14
# 完全受動測定装置独立量子鍵分布

Fully passive Measurement Device Independent Quantum Key Distribution ( http://arxiv.org/abs/2309.07576v1 )

ライセンス: Link先を確認
Xiang Wang, Feng-Yu Lu, Ze-Hao Wang, Zhen-Qiang Yin, Shuang Wang, Wei Chen, De-Yong He, Guang-Can Guo and Zheng-Fu Han(参考訳) 測定デバイス非依存量子鍵分布(mdi-qkd)は検出デバイスに対するすべての攻撃に抵抗するが、ソース側にはいくつかのセキュリティ上の問題がある。 可能な解決策の1つは、ソースでアクティブな変調器によって導入されたサイドチャネルを取り除くために、パッシブプロトコルを使用することである。 近年,線形光学を用いた受動符号化と受動デコイ状態変調を同時に実現する完全受動QKDプロトコルが提案されている。 本研究では、ソース変調器の両側チャネルと測定装置への攻撃からシステムを保護し、QKDシステムの実装セキュリティを大幅に向上させることができる完全にパッシブなMDI-QKD方式を提案する。 特定のパッシブ符号化戦略とデコイ状態解析の方法、続いて漸近シナリオにおける安全な鍵レートのシミュレーション結果を提供する。 我々の研究は、QKDシステムの実装セキュリティを改善するための実現可能な方法を提供し、現実的なデバイスを用いて受動的QKDスキームを実現するためのリファレンスとして機能する。

Measurement-device-independent quantum key distribution (MDI-QKD) can resist all attacks on the detection devices, but there are still some security issues related to the source side. One possible solution is to use the passive protocol to eliminate the side channels introduced by active modulators at the source. Recently, a fully passive QKD protocol has been proposed that can simultaneously achieve passive encoding and passive decoy-state modulation using linear optics. In this work, we propose a fully passive MDI-QKD scheme that can protect the system from both side channels of source modulators and attacks on the measurement devices, which can significantly improve the implementation security of the QKD systems. We provide a specific passive encoding strategy and a method for decoy-state analysis, followed by simulation results for the secure key rate in the asymptotic scenario. Our work offers a feasible way to improve the implementation security of QKD systems, and serves as a reference for achieving passive QKD schemes using realistic devices.
翻訳日:2023-09-15 15:26:10 公開日:2023-09-14
# 離散単位を用いた音声音声合成

Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer ( http://arxiv.org/abs/2309.07566v1 )

ライセンス: Link先を確認
Yongqi Wang, Jionghao Bai, Rongjie Huang, Ruiqi Li, Zhiqing Hong and Zhou Zhao(参考訳) 音声から音声への直接翻訳 (S2ST) は, 自己教師付き表現の精度は高いが, 翻訳中の話者の音色を保存できない。 一方で、高品質な話者-パラレルデータの不足は、ソースとターゲット音声間の学習スタイル転送の課題となっている。 本稿では,自己教師型モデルからの離散単位に基づく音響言語モデルを用いたS2STフレームワークと,スタイル伝達のためのニューラルコーデックを提案する。 音響言語モデルは、自己教師付きインコンテキスト学習を活用し、話者並列データに頼らずにスタイル転送能力を獲得し、データ不足の問題を克服する。 広範なトレーニングデータを使用することで,未認識のソース言語に対してゼロショットのクロスリンガルスタイル転送を実現する。 実験の結果,本モデルは高い忠実度とスタイル類似度を有する翻訳音声を生成することがわかった。 オーディオサンプルはhttp://stylelm.github.io/で入手できる。

Direct speech-to-speech translation (S2ST) with discrete self-supervised representations has achieved remarkable accuracy, but is unable to preserve the speaker timbre of the source speech during translation. Meanwhile, the scarcity of high-quality speaker-parallel data poses a challenge for learning style transfer between source and target speech. We propose an S2ST framework with an acoustic language model based on discrete units from a self-supervised model and a neural codec for style transfer. The acoustic language model leverages self-supervised in-context learning, acquiring the ability for style transfer without relying on any speaker-parallel data, thereby overcoming the issue of data scarcity. By using extensive training data, our model achieves zero-shot cross-lingual style transfer on previously unseen source languages. Experiments show that our model generates translated speeches with high fidelity and style similarity. Audio samples are available at http://stylelm.github.io/ .
翻訳日:2023-09-15 15:25:51 公開日:2023-09-14
# 会話関係認識のための拡張接続知識を用いた適応型プロンプト学習

Adaptive Prompt Learning with Distilled Connective Knowledge for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2309.07561v1 )

ライセンス: Link先を確認
Bang Wang, Zhenglin Wang, Wei Xiang and Yijun Mo(参考訳) 暗黙的談話関係認識(IDRR)は、明示的な接続性のない2つのテキストセグメント間の談話関係の認識を目的としている。 最近では、様々なニューラルネットワークベースのアプローチよりも優れたパフォーマンスでIDRRタスクに即時学習が適用されている。 しかし、最先端のプロンプトアプローチの離散的な性質は、テンプレートと回答の手動設計を必要とする。 本稿では,連続的プロンプトによる手動設計作業の削減と,知識伝達によるパフォーマンス向上を実現するために,adaptpromptと呼ばれる連結的知識蒸留とともに,プロンプト学習の連続版を提案する。 特に,いくつかの仮想トークンを設計,訓練して連続的なテンプレートを作成し,埋め込み空間における勾配探索によって最適なトークンを自動的に選択する。 また、回答空間としていくつかの仮想回答を生成するために、回答関係マッピングルールも設計する。 さらに、トレーニングデータセットにおける注釈付き接続の重要性に気付き、知識伝達のための教師学生アーキテクチャを設計する。 最新のPDTB Corpus V3.0の実験は、最先端の競合相手よりも良好な関係認識性能の観点から、我々の設計目標を検証する。

Implicit discourse relation recognition (IDRR) aims at recognizing the discourse relation between two text segments without an explicit connective. Recently, the prompt learning has just been applied to the IDRR task with great performance improvements over various neural network-based approaches. However, the discrete nature of the state-art-of-art prompting approach requires manual design of templates and answers, a big hurdle for its practical applications. In this paper, we propose a continuous version of prompt learning together with connective knowledge distillation, called AdaptPrompt, to reduce manual design efforts via continuous prompting while further improving performance via knowledge transfer. In particular, we design and train a few virtual tokens to form continuous templates and automatically select the most suitable one by gradient search in the embedding space. We also design an answer-relation mapping rule to generate a few virtual answers as the answer space. Furthermore, we notice the importance of annotated connectives in the training dataset and design a teacher-student architecture for knowledge transfer. Experiments on the up-to-date PDTB Corpus V3.0 validate our design objectives in terms of the better relation recognition performance over the state-of-the-art competitors.
翻訳日:2023-09-15 15:25:36 公開日:2023-09-14
# 教師付き学習による絡み合いエントロピーのサンプル効率推定

Sample-efficient estimation of entanglement entropy through supervised learning ( http://arxiv.org/abs/2309.07556v1 )

ライセンス: Link先を確認
Maximilian Rieger, Moritz Reh, Martin G\"arttner(参考訳) 少数の実験試料からマルチキュービットシステムの絡み合いのエントロピーを推定するための教師付き機械学習手法を探索する。 我々は,ネットワーク推定とベンチマークの不確かさを,最もよく知られた推定アルゴリズムに対して推定することに注目した。 トレーニング分布に含まれる状態については、ベースライン法が正確な推定を行なえないサンプルサイズの領域での収束を観察するが、トレーニング分布に近い領域では外挿は可能であると考えられる。 本手法は, 量子シミュレーション実験のさらなる応用として, 異なる雑音強度のモデルを訓練することにより, 非ユニタリ進化のための量子相互情報を推定する。

We explore a supervised machine learning approach to estimate the entanglement entropy of multi-qubit systems from few experimental samples. We put a particular focus on estimating both aleatoric and epistemic uncertainty of the network's estimate and benchmark against the best known conventional estimation algorithms. For states that are contained in the training distribution, we observe convergence in a regime of sample sizes in which the baseline method fails to give correct estimates, while extrapolation only seems possible for regions close to the training regime. As a further application of our method, highly relevant for quantum simulation experiments, we estimate the quantum mutual information for non-unitary evolution by training our model on different noise strengths.
翻訳日:2023-09-15 15:25:16 公開日:2023-09-14
# SwitchGPT:非テキスト出力に大規模言語モデルを適用する

SwitchGPT: Adapting Large Language Models for Non-Text Outputs ( http://arxiv.org/abs/2309.07623v1 )

ライセンス: Link先を確認
Xinyu Wang, Bohan Zhuang, Qi Wu(参考訳) 大規模言語モデル(llm)は主にテキストベースのデータセットで訓練され、テキスト出力による複雑な言語命令の理解と実行に非常に熟練している。 しかし、テキスト以外のものを生成するリクエストをフェールさせる。 同時に、高品質な画像を生成するにもかかわらず、テキストから画像へのモダリティ変換モデルは、広範なテキスト事前学習の欠如に苦しむ。 結果として、これらのモデルはより複雑な命令を解釈するのではなく、特定の画像記述を調節するのみである。 このギャップを埋めるために,テキストベースのllmをマルチモーダルなものに進化させるモダリティ変換の観点から,新しいアプローチである \methodname を提案する。 具体的には、最小限のデータセットを用いてLSMに命令を指示し、意図した出力のモダリティを指示によって認識する。 これにより、適応LLMはモデル動物園から様々な既製のモダリティ変換モデルを効果的に呼び出し、非テキスト応答を生成することができる。 これは、通常大量のペアのマルチモーダルデータを必要とする複雑な事前学習の必要性を回避し、llmの広範な知識と高品質な生成モデルの能力を同時に継承する。 適応型マルチモーダルllmを従来のllmと比較するために,多様なモーダル出力を求めるマルチモーダル命令ベンチマークを構築した。 実験の結果、最小限のトレーニングで、LLMは非テキスト応答の要求を理解するのに便利であり、マルチモーダルシナリオにおいて高い柔軟性を実現することができることがわかった。 コードとデータはhttps://github.com/xinke-wang/SwitchGPTで公開される。

Large Language Models (LLMs), primarily trained on text-based datasets, exhibit exceptional proficiencies in understanding and executing complex linguistic instructions via text outputs. However, they falter when requests to generate non-text ones. Concurrently, modality conversion models, such as text-to-image, despite generating high-quality images, suffer from a lack of extensive textual pretraining. As a result, these models are only capable of accommodating specific image descriptions rather than comprehending more complex instructions. To bridge this gap, we propose a novel approach, \methodname, from a modality conversion perspective that evolves a text-based LLM into a multi-modal one. We specifically employ a minimal dataset to instruct LLMs to recognize the intended output modality as directed by the instructions. Consequently, the adapted LLM can effectively summon various off-the-shelf modality conversion models from the model zoos to generate non-text responses. This circumvents the necessity for complicated pretraining that typically requires immense quantities of paired multi-modal data, while simultaneously inheriting the extensive knowledge of LLMs and the ability of high-quality generative models. To evaluate and compare the adapted multi-modal LLM with its traditional counterparts, we have constructed a multi-modal instruction benchmark that solicits diverse modality outputs. The experiment results reveal that, with minimal training, LLMs can be conveniently adapted to comprehend requests for non-text responses, thus achieving higher flexibility in multi-modal scenarios. Code and data will be made available at https://github.com/xinke-wang/SwitchGPT.
翻訳日:2023-09-15 15:18:55 公開日:2023-09-14
# 潜在領域の背景特徴分離と抑制に基づく道路病検出

Road Disease Detection based on Latent Domain Background Feature Separation and Suppression ( http://arxiv.org/abs/2309.07616v1 )

ライセンス: Link先を確認
Juwu Zheng and Jiangtao Ren(参考訳) 対象地域における道路損傷の少なさや、ドメイン情報の多い多様な背景から、道路疾患の検出は困難であり、また、疾患の分類は類似度が高く、検出が困難である。 本稿では,LDBFSS ネットワークと YOLOv5 モデルを組み合わせることで,道路疾患検出の精度を高めるために,背景情報の分離と抑制をドメインの監督なしに行うことができる新しい LDBFSS (Latent Domain background Feature separation and Suppression) ネットワークを提案する。 ldbfssネットワークの構成要素として,まず潜在ドメイン発見モジュールとドメイン逆学習モジュールを設計し,教師なし手法による擬似ドメインラベルを得る。 さらに,コントラスト学習モジュールを導入し,k-instanceのコントラスト損失をデザインし,クラス間距離を増加させることで疾患の特徴表現を最適化し,オブジェクト特徴のクラス内距離を削減した。 GRDDCとCNRDDの2つの道路疾患検出データセットについて実験を行い、他のモデルと比較すると、最適モデルと比較してGRDDCでは4%近く増加し、CNRDDでは4.6%増加した。 実験の結果,本モデルの有効性と優越性が証明された。

Road disease detection is challenging due to the the small proportion of road damage in target region and the diverse background,which introduce lots of domain information.Besides, disease categories have high similarity,makes the detection more difficult. In this paper, we propose a new LDBFSS(Latent Domain Background Feature Separation and Suppression) network which could perform background information separation and suppression without domain supervision and contrastive enhancement of object features.We combine our LDBFSS network with YOLOv5 model to enhance disease features for better road disease detection. As the components of LDBFSS network, we first design a latent domain discovery module and a domain adversarial learning module to obtain pseudo domain labels through unsupervised method, guiding domain discriminator and model to train adversarially to suppress background information. In addition, we introduce a contrastive learning module and design k-instance contrastive loss, optimize the disease feature representation by increasing the inter-class distance and reducing the intra-class distance for object features. We conducted experiments on two road disease detection datasets, GRDDC and CNRDD, and compared with other models,which show an increase of nearly 4% on GRDDC dataset compared with optimal model, and an increase of 4.6% on CNRDD dataset. Experimental results prove the effectiveness and superiority of our model.
翻訳日:2023-09-15 15:18:28 公開日:2023-09-14
# 地域質問応答課題における学習領域の特徴工学

Feature Engineering in Learning-to-Rank for Community Question Answering Task ( http://arxiv.org/abs/2309.07610v1 )

ライセンス: Link先を確認
Nafis Sajid, Md Rashidul Hasan, Muhammad Ibrahim(参考訳) コミュニティ質問応答(CQA)フォーラムはインターネットベースのプラットフォームで、ユーザーはトピックについて質問し、他の専門家はソリューションを提供しようとする。 Quora、Stackoverflow、Yahoo!Answer、StackExchangeといった多くのCQAフォーラムには、多くのユーザ生成データが存在する。 これらのデータは、ユーザの問い合わせに応じて類似の質問(と回答)が提示される自動CQAランキングシステムで活用される。 本研究では,この領域のいくつかの側面を実証的に検討する。 まず、TF-IDF、BM25などの従来の機能に加えて、質問と回答のセマンティックな類似性をキャプチャするBERTベースの機能を導入します。 第2に,既存の研究は質問部分のみから抽出した特徴に着目しており,回答から抽出した特徴は広く調査されていない。 両方の特徴を線形に組み合わせます。 第3に、提案した概念を用いて、CQA領域ではこれまで使われていないような、異なるランク学習アルゴリズムによる実証的研究を行う。 3つの標準CQAデータセットにおいて,提案フレームワークは最先端の性能を実現する。 また,調査で使用する機能の重要性についても分析した。 この作業は,CQA検索タスクにおいて,より優れた機能セットを選択するための実践者を支援することが期待されている。

Community question answering (CQA) forums are Internet-based platforms where users ask questions about a topic and other expert users try to provide solutions. Many CQA forums such as Quora, Stackoverflow, Yahoo!Answer, StackExchange exist with a lot of user-generated data. These data are leveraged in automated CQA ranking systems where similar questions (and answers) are presented in response to the query of the user. In this work, we empirically investigate a few aspects of this domain. Firstly, in addition to traditional features like TF-IDF, BM25 etc., we introduce a BERT-based feature that captures the semantic similarity between the question and answer. Secondly, most of the existing research works have focused on features extracted only from the question part; features extracted from answers have not been explored extensively. We combine both types of features in a linear fashion. Thirdly, using our proposed concepts, we conduct an empirical investigation with different rank-learning algorithms, some of which have not been used so far in CQA domain. On three standard CQA datasets, our proposed framework achieves state-of-the-art performance. We also analyze importance of the features we use in our investigation. This work is expected to guide the practitioners to select a better set of features for the CQA retrieval task.
翻訳日:2023-09-15 15:18:05 公開日:2023-09-14
# 二次元ロボットマニピュレーションのためのマーカーレス変形可能な線形物体の準静的3次元モデル学習

Learning Quasi-Static 3D Models of Markerless Deformable Linear Objects for Bimanual Robotic Manipulation ( http://arxiv.org/abs/2309.07609v1 )

ライセンス: Link先を確認
Piotr Kicki, Micha{\l} Bidzi\'nski, Krzysztof Walas(参考訳) 変形可能な線形物体(dlos)のロボット操作は重要な課題であり、多くの実用的応用において重要である。 この問題に対する古典的なモデルに基づくアプローチでは、ロボットの動きがDLOの変形に与える影響を正確に捉える必要がある。 現在、データ駆動モデルは、品質と計算時間の間の最良のトレードオフを提供します。 本稿では,DLOの学習に基づく複数の3次元モデルを分析し,提案手法により,異なる長さのDLOであっても高い精度を実現するトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。 さらに,ほぼすべてのDLOデータ駆動モデルの予測性能を向上させるデータ拡張手法を提案する。 この手法により、単純な多層パーセプトロン(mlp)でさえ、評価がかなり速く、最先端の性能に近くなる。 実験では、DLOの学習に基づく3次元モデルの性能を、いくつかの挑戦的なデータセットで定量的に比較し、DLOを形成するタスクにおけるそれらの適用性を示す。

The robotic manipulation of Deformable Linear Objects (DLOs) is a vital and challenging task that is important in many practical applications. Classical model-based approaches to this problem require an accurate model to capture how robot motions affect the deformation of the DLO. Nowadays, data-driven models offer the best tradeoff between quality and computation time. This paper analyzes several learning-based 3D models of the DLO and proposes a new one based on the Transformer architecture that achieves superior accuracy, even on the DLOs of different lengths, thanks to the proposed scaling method. Moreover, we introduce a data augmentation technique, which improves the prediction performance of almost all considered DLO data-driven models. Thanks to this technique, even a simple Multilayer Perceptron (MLP) achieves close to state-of-the-art performance while being significantly faster to evaluate. In the experiments, we compare the performance of the learning-based 3D models of the DLO on several challenging datasets quantitatively and demonstrate their applicability in the task of shaping a DLO.
翻訳日:2023-09-15 15:17:45 公開日:2023-09-14
# ネットワーク分析を用いたfacebook上の有害物質およびコミュニティの同定と分析

Identifying and analysing toxic actors and communities on Facebook by employing network analysis ( http://arxiv.org/abs/2309.07608v1 )

ライセンス: Link先を確認
Ritumbra Manuvie and Saikat Chatterjee(参考訳) 学術界と一般の間では、ソーシャルメディアプラットフォーム(smp)が有害な感情コンテンツやネガティブな感情コンテンツを協調的に広める上で中心的な役割を担っているという合意がますます広まっている。 近年の学術研究では、ヘイトフルコンテンツ、政治的プロパガンダ、SMPでのターゲットメッセージングが現実世界の深刻な結果に寄与した方法が実証されている。 本稿では,グラフ理論からインスピレーションを得て,Facebookの代表的なデータセット(n=608,417)に新たなネットワークとコミュニティ探索アルゴリズムを適用する。 歴史的なデータセットにgillvan-newmanアルゴリズムを適用することで、インド極右ヒンドゥートヴァ談話の文脈の中で、アクターの協調ネットワークの5つのコミュニティを見出した。 この研究は、これらの新しいネットワーク分析アルゴリズムをSMPに適用し、有害な調整されたコミュニティやサブコミュニティを自動的に識別し、SMPにおける情報拡散から生ずる現実世界の脅威に抵抗するため、将来の可能性の道を開く。

There has been an increasingly widespread agreement among both academic circles and the general public that the Social Media Platforms (SMPs) play a central role in the dissemination of harmful and negative sentiment content in a coordinated manner. A substantial body of recent scholarly research has demonstrated the ways in which hateful content, political propaganda, and targeted messaging on SMPs have contributed to serious real-world consequences. Adopting inspirations from graph theory, in this paper we apply novel network and community finding algorithms over a representative Facebook dataset (n=608,417) which we have scrapped through 630 pages. By applying Girvan-Newman algorithm over the historical dataset our analysis finds five communities of coordinated networks of actors, within the contexts of Indian far-right Hindutva discourse. This work further paves the path for future potentials of applying such novel network analysis algorithms to SMPs, in order to automatically identify toxic coordinated communities and sub-communities, and to possibly resist real-world threats emerging from information dissemination in the SMPs.
翻訳日:2023-09-15 15:17:29 公開日:2023-09-14
# 大型言語モデルを用いたゼロショット音声トピックの再評価

Zero-shot Audio Topic Reranking using Large Language Models ( http://arxiv.org/abs/2309.07606v1 )

ライセンス: Link先を確認
Mengjie Qian, Rao Ma, Adian Liusie, Erfan Loweimi, Kate M. Knill, Mark J.F. Gales(参考訳) MVSE(Multimodal Video Search by Examples)プロジェクトは、従来のテキストクエリではなく、情報検索のクエリ語としてビデオクリップを使用することを調査する。 これにより、画像、話者、コンテンツ、トピック、感情など、はるかにリッチな検索モードが可能になる。 このプロセスの鍵となる要素は、非常に高速で柔軟で、大規模なアーカイブをサポートするための検索である。 本研究は,この高速アーカイブ検索によるパフォーマンス損失の軽減を目的とした手法である。 特に,ビデオアーカイブのオーディオコンテンツに適用できるため,大規模言語モデルを用いたゼロショット復位手法について検討した。 パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。 その結果,タスク固有のトレーニングデータを必要とせず,検索ランキングの改善が期待できることがわかった。

The Multimodal Video Search by Examples (MVSE) project investigates using video clips as the query term for information retrieval, rather than the more traditional text query. This enables far richer search modalities such as images, speaker, content, topic, and emotion. A key element for this process is highly rapid, flexible, search to support large archives, which in MVSE is facilitated by representing video attributes by embeddings. This work aims to mitigate any performance loss from this rapid archive search by examining reranking approaches. In particular, zero-shot reranking methods using large language models are investigated as these are applicable to any video archive audio content. Performance is evaluated for topic-based retrieval on a publicly available video archive, the BBC Rewind corpus. Results demonstrate that reranking can achieve improved retrieval ranking without the need for any task-specific training data.
翻訳日:2023-09-15 15:17:10 公開日:2023-09-14
# DrossをGold Lossに変える:BERT4RecはSASRecより優れているか?

Turning Dross Into Gold Loss: is BERT4Rec really better than SASRec? ( http://arxiv.org/abs/2309.07602v1 )

ライセンス: Link先を確認
Anton Klenitskiy, Alexey Vasilev(参考訳) 近年,レコメンデーションシステムの分野では,逐次レコメンデーションや次点予測タスクが人気を博している。 現在、最先端の2つのベースラインはTransformerベースのモデルSASRecとBERT4Recである。 ここ数年、これらの2つのアルゴリズムを比較し、新しい最先端モデルを提案する論文が数多く出回っている。 ほとんどの出版物では、BERT4RecはSASRecよりもパフォーマンスが良い。 しかしBERT4Recはすべての項目に対してソフトマックスよりもクロスエントロピーを使い、SASRecは負のサンプリングを使い、1つの正と負のアイテムに対してバイナリクロスエントロピー損失を計算する。 我々の研究によると、両方のモデルがBERT4Recと同じ損失でトレーニングされている場合、SASRecはBERT4Recよりも品質とトレーニング速度の両方で大幅に向上する。 さらに, SASRec は BERT4Rec より優れた正のサンプリングを効果的に行うことができるが, 負のサンプルの数は 1 よりはるかに多いはずである。

Recently sequential recommendations and next-item prediction task has become increasingly popular in the field of recommender systems. Currently, two state-of-the-art baselines are Transformer-based models SASRec and BERT4Rec. Over the past few years, there have been quite a few publications comparing these two algorithms and proposing new state-of-the-art models. In most of the publications, BERT4Rec achieves better performance than SASRec. But BERT4Rec uses cross-entropy over softmax for all items, while SASRec uses negative sampling and calculates binary cross-entropy loss for one positive and one negative item. In our work, we show that if both models are trained with the same loss, which is used by BERT4Rec, then SASRec will significantly outperform BERT4Rec both in terms of quality and training speed. In addition, we show that SASRec could be effectively trained with negative sampling and still outperform BERT4Rec, but the number of negative examples should be much larger than one.
翻訳日:2023-09-15 15:16:57 公開日:2023-09-14
# LLM予測可視信号による誤情報検出と弱スーパービジョン

Detecting Misinformation with LLM-Predicted Credibility Signals and Weak Supervision ( http://arxiv.org/abs/2309.07601v1 )

ライセンス: Link先を確認
Jo\~ao A. Leite, Olesya Razuvayevskaya, Kalina Bontcheva, Carolina Scarton(参考訳) 信頼度信号は、ジャーナリストやファクトチェッカーがオンラインコンテンツの妥当性を評価するために一般的に使用する幅広いヒューリスティックを表す。 しかし、信頼度信号抽出のタスクの自動化は、高い精度の信号固有の抽出器を訓練する必要があるため、非常に困難である。 本稿では,大規模言語モデル(LLM)を18個の信頼性信号で効果的に誘導し,各信号に対して弱いラベルを生成できるかどうかを検討する。 そして、これらのノイズの可能性のあるラベルを弱い監督を用いて集約し、コンテンツの妥当性を予測します。 提案手法は,ゼロショットのllm信頼性信号ラベリングと弱い監督を組み合わせることで,実地ラベルを使わずに2つの誤った情報データセット上の最先端の分類器を上回ることを実証する。 また,コンテンツの妥当性予測に対する個々の信頼度信号の寄与を解析し,誤情報検出におけるその役割に関する新たな洞察を与える。

Credibility signals represent a wide range of heuristics that are typically used by journalists and fact-checkers to assess the veracity of online content. Automating the task of credibility signal extraction, however, is very challenging as it requires high-accuracy signal-specific extractors to be trained, while there are currently no sufficiently large datasets annotated with all credibility signals. This paper investigates whether large language models (LLMs) can be prompted effectively with a set of 18 credibility signals to produce weak labels for each signal. We then aggregate these potentially noisy labels using weak supervision in order to predict content veracity. We demonstrate that our approach, which combines zero-shot LLM credibility signal labeling and weak supervision, outperforms state-of-the-art classifiers on two misinformation datasets without using any ground-truth labels for training. We also analyse the contribution of the individual credibility signals towards predicting content veracity, which provides new valuable insights into their role in misinformation detection.
翻訳日:2023-09-15 15:16:38 公開日:2023-09-14
# 量子粒子の弱値と過去」に対するコメントへの回答

Reply to Comment on "Weak values and the past of a quantum particle'' ( http://arxiv.org/abs/2309.07599v1 )

ライセンス: Link先を確認
Jonte R Hance, John Rarity, James Ladyman(参考訳) 本稿では、我々がPhysical Review Researchで発表した論文「量子粒子の弱さと過去」に対するVaydman氏の最近のコメントに答える。 コメントの中で、彼はまず、弱いトレースが粒子の存在を与えることを(仮定して)定義していることを認めた。しかし、この場合、彼は存在以外の用語を使うべきである。 この承認にもかかわらず、ヴァイドマンは、客観的に現存する存在の考えに関する考えに訴えることで、この定義を主張する。 これらの魅力は欠陥があり、量子粒子の位置については常に事実が存在するという独自の結論に依存している。

We here reply to a recent comment by Vaidman on our paper, ``Weak values and the past of a quantum particle'', which we published in Physical Review Research. In his Comment, he first admits that he is just defining (assuming) the weak trace gives the presence of a particle -- however, in this case, he should use a term other than presence, as this already has a separate, intuitive meaning other than ``where a weak trace is''. Despite this admission, Vaidman then goes on to argue for this definition by appeal to ideas around an objectively-existing idea of presence. We show these appeals are flawed, and rely on their own conclusion -- that there is always a matter of fact about the location of a quantum particle.
翻訳日:2023-09-15 15:16:19 公開日:2023-09-14
# C-Pack:中国の一般的な埋め込みを促進するためにパッケージ化されたリソース

C-Pack: Packaged Resources To Advance General Chinese Embedding ( http://arxiv.org/abs/2309.07597v1 )

ライセンス: Link先を確認
Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighof(参考訳) C-Packは、一般的な中国の埋め込みの分野を大きく前進させるリソースのパッケージである。 C-Packには3つの重要なリソースが含まれている。 1) C-MTEBは6タスクと35データセットをカバーする中国語テキスト埋め込みの総合ベンチマークである。 2) c-mtpは、ラベル付きおよびラベルなしの中国コーパスからキュレートされた大量のテキスト埋め込みデータセットである。 3) C-TEMは、複数のサイズをカバーする埋め込みモデルのファミリーである。 弊社のモデルは、C-MTEB上の以前の中国語のテキスト埋め込みを、リリース時に最大で10%上回っている。 また、c-temのトレーニング方法全体の統合と最適化も行っています。 一般的な中国語の埋め込みに関するリソースとともに、英語のテキスト埋め込みのためのデータとモデルをリリースします。 英語モデルはmtebベンチマークで最先端のパフォーマンスを達成していますが、私たちのリリースした英語データは中国のデータより2倍大きいのです。 これらのリソースはすべて、https://github.com/flagopen/flagembeddingで公開されている。

We introduce C-Pack, a package of resources that significantly advance the field of general Chinese embeddings. C-Pack includes three critical resources. 1) C-MTEB is a comprehensive benchmark for Chinese text embeddings covering 6 tasks and 35 datasets. 2) C-MTP is a massive text embedding dataset curated from labeled and unlabeled Chinese corpora for training embedding models. 3) C-TEM is a family of embedding models covering multiple sizes. Our models outperform all prior Chinese text embeddings on C-MTEB by up to +10% upon the time of the release. We also integrate and optimize the entire suite of training methods for C-TEM. Along with our resources on general Chinese embedding, we release our data and models for English text embeddings. The English models achieve state-of-the-art performance on MTEB benchmark; meanwhile, our released English data is 2 times larger than the Chinese data. All these resources are made publicly available at https://github.com/FlagOpen/FlagEmbedding.
翻訳日:2023-09-15 15:16:06 公開日:2023-09-14
# 周期的に駆動される非エルミートイジング鎖の絡み合い転移

Entanglement transitions in a periodically driven non-Hermitian Ising chain ( http://arxiv.org/abs/2309.07661v1 )

ライセンス: Link先を確認
Tista Banerjee and K. Sengupta(参考訳) 我々は、駆動周波数$\omega_D$の関数として、虚横フィールド$\gamma$の存在下で周期的に駆動されるIsing鎖の絡み合い遷移を研究する。 高い駆動振幅と周波数状態において、以下の臨界値 $\gamma=\gamma_c$ は定常状態半鎖絡みエントロピー$S_{L/2}$ で、チェーン長$L$ as $S_{L/2} \sim \ln L/2$ でスケールし、対照的に$\gamma>\gamma_c$ では$L$ とは独立となる。 小さな$\gamma$ 極限において、フロッケ摂動理論を用いて解析的に計算した$\ln l/2$ 項の係数 $\alpha$ を計算し、その起源を駆動鎖の相関関数におけるフィッシャー・ハートウィッグジャンプ特異点の存在にさかのぼる。 また、$\gamma_c$の周波数依存性を調べ、特別な駆動周波数で$\gamma_c \to 0$を示し、分析的に計算したこれらの周波数では、$S_{L/2}$はすべての$\gamma$に対して$L$とは独立であることを示す。 この挙動は、Floquet Hamiltonian のこれらの駆動周波数における近似緊急対称性に遡ることができる。 最後に、駆動系の動作を低域および中間域の駆動周波数で判別する。 我々の分析は、小サブシステム長$\ell \le \ell^{\ast}(\omega_D)$に対する$S_{\ell} \sim \ell$における絡み合いの体積法的な振る舞いの存在を示している。 我々は$\ell^{\ast}(\omega_d)$を同定し、その存在を小さなサブシステムサイズで駆動鎖のフロッケハミルトニアンの効果的な長距離的性質と結びつける。 我々は、この結果の他の可積分非エルミートモデルへの適用性について論じる。

We study entanglement transitions in a periodically driven Ising chain in the presence of an imaginary transverse field $\gamma$ as a function of drive frequency $\omega_D$. In the high drive amplitude and frequency regime, we find a critical value $\gamma=\gamma_c$ below which the steady state half-chain entanglement entropy, $S_{L/2}$, scales with chain length $L$ as $S_{L/2} \sim \ln L/2$; in contrast, for $\gamma>\gamma_c$, it becomes independent of $L$. In the small $\gamma$ limit, we compute the coefficient, $\alpha$, of the $\ln L/2$ term analytically using a Floquet perturbation theory and trace its origin to the presence of Fisher-Hartwig jump singularities in the correlation function of the driven chain. We also study the frequency dependence of $\gamma_c$ and show that $\gamma_c \to 0$ at special drive frequencies; at these frequencies, which we analytically compute, $S_{L/2}$ remain independent of $L$ for all $\gamma$. This behavior can be traced to an approximate emergent symmetry of the Floquet Hamiltonian at these drive frequencies which we identify. Finally, we discus the behavior of the driven system at low and intermediate drive frequencies. Our analysis shows the presence of volume law behavior of the entanglement in this regime $S_{\ell} \sim \ell$ for small subsystem length $\ell \le \ell^{\ast}(\omega_D)$. We identify $\ell^{\ast}(\omega_D)$ and tie its existence to the effective long-range nature of the Floquet Hamiltonian of the driven chain for small subsystem size. We discuss the applicability of our results to other integrable non-hermitian models.
翻訳日:2023-09-15 15:07:37 公開日:2023-09-14
# 最適制御理論を用いた量子ゲートの制御雑音低減

Mitigating controller noise in quantum gates using optimal control theory ( http://arxiv.org/abs/2309.07659v1 )

ライセンス: Link先を確認
Aviv Aroch, Ronnie Kosloff and Shimshon Kallush(参考訳) すべての量子系は環境や外部からの制御からノイズを受ける。 このノイズは量子技術の実現にとって大きな障害である。 例えば、ノイズは量子ゲートの忠実性を制限する。 最適制御理論を用いて、量子単一および2量子ビットゲートの生成を研究する。 具体的には、位相および振幅雑音のマルコフモデルについて検討し、ゲートの忠実度を劣化させる。 このようなノイズモデルによる最適制御は,ゲート忠実度損失を軽減する制御解を生成する。 この問題は、非常に正確な数値解法と最適制御方程式を解くクロトフアルゴリズムを用いて、リウヴィル空間で定式化されている。

All quantum systems are subject to noise from the environment or external controls. This noise is a major obstacle to the realization of quantum technology. For example, noise limits the fidelity of quantum gates. Employing optimal control theory, we study the generation of quantum single and two-qubit gates. Specifically, we explore a Markovian model of phase and amplitude noise, leading to the degradation of the gate fidelity. We show that optimal control with such noise models generates control solutions to mitigate the loss of gate fidelity. The problem is formulated in Liouville space employing an extremely accurate numerical solver and the Krotov algorithm for solving the optimal control equations.
翻訳日:2023-09-15 15:07:04 公開日:2023-09-14
# 最適パラメータ選択による位相シフト規則

Phase shift rule with the optimal parameter selection ( http://arxiv.org/abs/2309.07655v1 )

ライセンス: Link先を確認
L.A. Markovich, S. Malikis, S. Polla and J.T. Brugu\'es(参考訳) 位相シフト規則は、位相パラメータに関する量子状態の導関数の推定を可能にし、量子システムの振る舞いとダイナミクスに関する貴重な洞察を与える。 この機能は、化学反応や凝縮物系をシミュレートするなど、複雑な量子系の挙動を理解することが興味深い量子シミュレーションタスクにおいて必須である。 しかし、パラメータシフト規則は通常、同値固有値を持つハミルトン系のために設計される。 密接な固有値を持つシステムでは、効果的なルールが確立されていない。 パラメータシフト規則の最適設計について、利用可能な様々なスペクトル情報に合わせた洞察を提供する。 提案手法では,固有値の近さに関わらず,任意の系に対して微分を計算できる。 また、位相シフトの数も最適化され、必要なゲートリソースの量を削減できる。

The phase shift rules enable the estimation of the derivative of a quantum state with respect to phase parameters, providing valuable insights into the behavior and dynamics of quantum systems. This capability is essential in quantum simulation tasks where understanding the behavior of complex quantum systems is of interest, such as simulating chemical reactions or condensed matter systems. However, parameter shift rules are typically designed for Hamiltonian systems with equidistant eigenvalues. For systems with closely spaced eigenvalues, effective rules have not been established. We provide insights about the optimal design of a parameter shift rule, tailored to various sorts of spectral information that may be available. The proposed method lets derivatives be calculated for any system, regardless of how close the eigenvalues are to each other. It also optimizes the number of phase shifts, which reduces the amount of gate resources needed.
翻訳日:2023-09-15 15:06:56 公開日:2023-09-14
# ローテーションヘッドポーズ推定のロバストかつ無拘束化に向けて

Towards Robust and Unconstrained Full Range of Rotation Head Pose Estimation ( http://arxiv.org/abs/2309.07654v1 )

ライセンス: Link先を確認
Thorsten Hempel and Ahmed A. Abdelrahman and Ayoub Al-Hamadi(参考訳) 人の頭の位置の推定は、前頭姿勢予測のサブタスクとして主に取り扱われている多数のアプリケーションにとって重要な問題である。 本研究では,非拘束型終端頭部ポーズ推定のための新しい手法を提案し,全方向頭部ポーズ予測の課題に取り組む。 そこで本研究では,本研究の真理データに対する回転行列形式を導入し,効率的かつロバストな直接回帰のための連続6次元回転行列表現を提案する。 これにより、完全な回転の外観を効率的に学習し、現在の最先端の限界を克服することができる。 頭部姿勢の回転データを提供する新たな蓄積訓練データと、安定学習のための測地的損失アプローチとを組み合わせることで、頭部方向の幅広い範囲を予測できる高度なモデルを設計する。 公開データセットに対する広範な評価は,本手法が他の最先端手法よりも効率的かつロバストに優れており,その高度な予測範囲はアプリケーション領域の拡張を可能にすることを示している。 トレーニングとテストのコードを、トレーニングされたモデルとともにオープンソースにしています。

Estimating the head pose of a person is a crucial problem for numerous applications that is yet mainly addressed as a subtask of frontal pose prediction. We present a novel method for unconstrained end-to-end head pose estimation to tackle the challenging task of full range of orientation head pose prediction. We address the issue of ambiguous rotation labels by introducing the rotation matrix formalism for our ground truth data and propose a continuous 6D rotation matrix representation for efficient and robust direct regression. This allows to efficiently learn full rotation appearance and to overcome the limitations of the current state-of-the-art. Together with new accumulated training data that provides full head pose rotation data and a geodesic loss approach for stable learning, we design an advanced model that is able to predict an extended range of head orientations. An extensive evaluation on public datasets demonstrates that our method significantly outperforms other state-of-the-art methods in an efficient and robust manner, while its advanced prediction range allows the expansion of the application area. We open-source our training and testing code along with our trained models: https://github.com/thohemp/6DRepNet360.
翻訳日:2023-09-15 15:06:44 公開日:2023-09-14
# 多様な制約・目的条件の下での再生可能エネルギー最適部位の選択方法

Methodologies for Selection of Optimal Sites for Renewable Energy Under a Diverse Set of Constraints and Objectives ( http://arxiv.org/abs/2309.07651v1 )

ライセンス: Link先を確認
Arunabha Sen, Christopher Sumnicht, Sandipan Choudhuri, Suli Adeniye, Amit B. Sen(参考訳) 本稿では,異なる制約条件と目的条件下での再生可能エネルギーサイトの最適選択手法を提案する。 サイト選択問題に対する2つの異なるモデル - 粗粒度と細粒度 - を検討し, 解を求める。 私たちは、サイトをセットアップする利点を測定する複数の異なる方法を考えています。 粗粒度モデルを用いた2つの異なる利益指標に対して,性能が保証された近似アルゴリズムを提供する。 細粒度モデルでは,整数線形プログラムを用いて最適解を求める手法を提案する。 本研究は,アリゾナ州のソーラーファームから得られる少ない実データから得られた合成データを用いた広範囲な実験結果である。

In this paper, we present methodologies for optimal selection for renewable energy sites under a different set of constraints and objectives. We consider two different models for the site-selection problem - coarse-grained and fine-grained, and analyze them to find solutions. We consider multiple different ways to measure the benefits of setting up a site. We provide approximation algorithms with a guaranteed performance bound for two different benefit metrics with the coarse-grained model. For the fine-grained model, we provide a technique utilizing Integer Linear Program to find the optimal solution. We present the results of our extensive experimentation with synthetic data generated from sparsely available real data from solar farms in Arizona.
翻訳日:2023-09-15 15:06:24 公開日:2023-09-14
# 中国語自然言語質問からの自動データ可視化

Automatic Data Visualization Generation from Chinese Natural Language Questions ( http://arxiv.org/abs/2309.07650v1 )

ライセンス: Link先を確認
Yan Ge and Victor Junqiu Wei and Yuanfeng Song and Jason Chen Zhang and Raymond Chi-Wing Wong(参考訳) データビジュアライゼーションは、大量のデータセットから洞察を得るために有効なツールとして登場した。 データビジュアライゼーションのプログラミング言語を操作することの難しさから、自然言語(Text-to-Vis)からの自動データビジュアライゼーション生成が普及している。 英語のテキスト・トゥ・ヴィジュアライズに関する研究は多岐にわたるが、中国語の質問からデータ視覚化を生成する研究はまだ行われていない。 そこで本論文では,この課題に対処する最初の試みとして,中国語のテキスト・ツー・ビジュアルデータセットを提案する。 我々のモデルは,多言語BERTをエンコーダとして統合し,言語間能力を高め,語表現学習に$n$-gramの情報を注入する。 実験の結果、我々のデータセットは挑戦的であり、さらなる研究に値することが示された。

Data visualization has emerged as an effective tool for getting insights from massive datasets. Due to the hardness of manipulating the programming languages of data visualization, automatic data visualization generation from natural languages (Text-to-Vis) is becoming increasingly popular. Despite the plethora of research effort on the English Text-to-Vis, studies have yet to be conducted on data visualization generation from questions in Chinese. Motivated by this, we propose a Chinese Text-to-Vis dataset in the paper and demonstrate our first attempt to tackle this problem. Our model integrates multilingual BERT as the encoder, boosts the cross-lingual ability, and infuses the $n$-gram information into our word representation learning. Our experimental results show that our dataset is challenging and deserves further research.
翻訳日:2023-09-15 15:06:14 公開日:2023-09-14
# 因子化ニューラルトランスデューサにおける名前付きエンティティ認識のためのクラスベース言語モデルの導入

Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer ( http://arxiv.org/abs/2309.07648v1 )

ライセンス: Link先を確認
Peng Wang, Yifan Yang, Zheng Liang, Tian Tan, Shiliang Zhang, Xie Chen(参考訳) 近年の音声認識におけるエンド・ツー・エンド(E2E)モデルによる優れた進歩にもかかわらず、名前付きエンティティ認識は依然として難しいが意味理解には不可欠である。 e2eモデルで名前付きエンティティを認識する能力を高めるために、これまでの研究は主に様々なルールベースまたは注意に基づくコンテキストバイアスアルゴリズムに焦点を当てている。 しかし、それらのパフォーマンスは偏りの重みに敏感で、または名前のエンティティリストへの過度な注意によって劣化し、誤ったトリガーのリスクがある。 従来のハイブリッドシステムにおける名前付きエンティティ認識におけるクラスベース言語モデル (LM) の成功と、分解型ニューラルトランスデューサ (FNT) における音響情報と言語情報の効果的な分離に着想を得て、クラスベースのLMをFNTに組み込む新しいE2Eモデルを提案する。 C-FNTでは、名前付きエンティティの言語モデルスコアは、その表面形式の代わりに名前クラスに関連付けることができる。 実験の結果,提案したC-FNTは,単語認識の性能を損なうことなく,名前付きエンティティの誤りを著しく低減できることがわかった。

In spite of the excellent strides made by end-to-end (E2E) models in speech recognition in recent years, named entity recognition is still challenging but critical for semantic understanding. In order to enhance the ability to recognize named entities in E2E models, previous studies mainly focus on various rule-based or attention-based contextual biasing algorithms. However, their performance might be sensitive to the biasing weight or degraded by excessive attention to the named entity list, along with a risk of false triggering. Inspired by the success of the class-based language model (LM) in named entity recognition in conventional hybrid systems and the effective decoupling of acoustic and linguistic information in the factorized neural Transducer (FNT), we propose a novel E2E model to incorporate class-based LMs into FNT, which is referred as C-FNT. In C-FNT, the language model score of named entities can be associated with the name class instead of its surface form. The experimental results show that our proposed C-FNT presents significant error reduction in named entities without hurting performance in general word recognition.
翻訳日:2023-09-15 15:06:00 公開日:2023-09-14
# 異方性磁気系の常磁性熱容量と異常熱力:磁気障害相における層間スピン相関の理解

Paramagnon Heat Capacity and Anomalous Thermopower in Anisotropic Magnetic Systems: Understanding Inter-Layer Spin Correlations in a Magnetically Disordered Phase ( http://arxiv.org/abs/2309.07646v1 )

ライセンス: Link先を確認
Fatemeh Heydarinasab, Morteza Jazandari, Md Mobarak Hossain Polash, Jahanfar Abouie, and Daryoosh Vashaee(参考訳) Onsager線形系におけるエントロピー輸送と荷電担体-パラマグノン相互作用の相互作用は、パラマグノン熱容量の限られた理論的、実験的理解のために議論の対象となっている。 本研究では,スピン量子相関を持つクラスター平均場理論を用いて異方性層状磁気システムにおけるこの相互作用について検討する。 様々な種類のクラスタリングを持つ異なるスピン間のスピン相関関数を調べることにより、スピン相関関数を磁気秩序相転移の上下の層間クラスター間の距離と温度の関数として導出する。 解析の結果, 層間近傍のスピン間のスピン相関は非零熱容量を示し, エントロピー輸送のダイナミクスに関する貴重な知見が得られた。 この結果は実験的な観測と一致し、パラマグノン・ドラッグ・サーモパワーの概念の有効性に強い支持を与えている。 本研究はパラマグノンの複雑なダイナミクスと熱力学的性質に光を当て、複素系におけるエントロピー輸送の理解を前進させる。

The interplay between entropy transport and charge carriers-paramagnon interaction in the Onsager linear system has been a subject of debate due to the limited theoretical and experimental understanding of paramagnon heat capacity. In this study, we investigate this interplay in an anisotropic layered magnetic system using cluster mean-field theory with spin quantum correlations. By examining spin correlation functions between different spins with various types of clustering, we derive the spin correlation function as a function of distance and temperature for the inter-layer clusters both below and above the magnetic order phase transition. Our analysis reveals that paramagnons characterized by pronounced spin correlations among inter-layer nearest-neighbor spins exhibit a non-zero heat capacity, providing valuable insights into the dynamics of entropy transport. The findings align with experimental observations, lending strong support to the validity of the paramagnon drag thermopower concept. This study sheds light on the intricate dynamics and thermodynamic properties of paramagnons, advancing our understanding of entropy transport in complex systems.
翻訳日:2023-09-15 15:05:37 公開日:2023-09-14
# ハイブリッド表現と正規強調を用いた細粒度情報を用いた屋内シーン再構成

Indoor Scene Reconstruction with Fine-Grained Details Using Hybrid Representation and Normal Prior Enhancement ( http://arxiv.org/abs/2309.07640v1 )

ライセンス: Link先を確認
Sheng Ye, Yubin Hu, Matthieu Lin, Yu-Hui Wen, Wang Zhao, Wenping Wang, Yong-Jin Liu(参考訳) 多視点rgb画像からの室内シーンの復元は,繊細で微細な領域と,平坦でテクスチャのない領域が共存していることから困難である。 近年の手法では、予測された表面正規化によって支援されたニューラルラジアンス場を利用してシーン形状を復元している。 これらの方法は、床と壁面の完全な滑らかな結果を生み出すのに優れている。 しかし、それらは不適切な神経表現と不正確に予測された正常な前兆のために高周波構造を持つ複雑な表面を捉えるのに苦労している。 暗黙の表現能力を向上させるために,低周波領域と高周波領域を別々に表現するハイブリッドアーキテクチャを提案する。 そこで本研究では,予測した面正規ベクトルの画素方向の不確かさを推定するネットワークと組み合わせることで,画像のシャープ化とノイズ除去を簡易かつ効果的に行う手法を提案する。 このような不確実性を特定することは、複雑なジオメトリの正確な再構築を妨げる信頼できない表面正常な監督によって、モデルが誤解されるのを防ぐ可能性がある。 評価実験の結果,提案手法は既存手法よりも再現性が高いことがわかった。

The reconstruction of indoor scenes from multi-view RGB images is challenging due to the coexistence of flat and texture-less regions alongside delicate and fine-grained regions. Recent methods leverage neural radiance fields aided by predicted surface normal priors to recover the scene geometry. These methods excel in producing complete and smooth results for floor and wall areas. However, they struggle to capture complex surfaces with high-frequency structures due to the inadequate neural representation and the inaccurately predicted normal priors. To improve the capacity of the implicit representation, we propose a hybrid architecture to represent low-frequency and high-frequency regions separately. To enhance the normal priors, we introduce a simple yet effective image sharpening and denoising technique, coupled with a network that estimates the pixel-wise uncertainty of the predicted surface normal vectors. Identifying such uncertainty can prevent our model from being misled by unreliable surface normal supervisions that hinder the accurate reconstruction of intricate geometries. Experiments on the benchmark datasets show that our method significantly outperforms existing methods in terms of reconstruction quality.
翻訳日:2023-09-15 15:05:20 公開日:2023-09-14
# 動的モジュール化推論による構成構造記述生成

Dynamic MOdularized Reasoning for Compositional Structured Explanation Generation ( http://arxiv.org/abs/2309.07624v1 )

ライセンス: Link先を確認
Xiyan Fu, Anette Frank(参考訳) 推論タスクの解法におけるニューラルモデルの成功にもかかわらず、その構成的一般化能力はいまだに不明である。 本研究では,構成的推論研究を容易にする構造的説明生成タスクの新たな設定を提案する。 先行研究は、反復的推論に事前定義された推論規則を用いることで、シンボリック手法が優れた構成性を達成することを発見した。 しかし、これらのアプローチは脆いシンボリックトランスファーに依存し、明確に定義されたタスクに制限される。 そこで我々は,ニューラルネットワークの構成一般化を改善するために,動的モジュラライズド推論モデルであるMORSEを提案する。 MORSEは推論プロセスを、各モジュールが機能単位を表すモジュールの組み合わせに分解する。 具体的には,特定の機能に特化する動的に入力を選択・ルーティングするために,モジュール化されたセルフアテンションを採用する。 我々は,MORSEの合成一般化能力をテストするために,2つのベンチマークで解析木の長さと形状を増大させる実験を行い,競争ベースラインを上回った。 モデルアブレーションとより深い解析は動的推論モジュールの有効性と一般化能力を示している。

Despite the success of neural models in solving reasoning tasks, their compositional generalization capabilities remain unclear. In this work, we propose a new setting of the structured explanation generation task to facilitate compositional reasoning research. Previous works found that symbolic methods achieve superior compositionality by using pre-defined inference rules for iterative reasoning. But these approaches rely on brittle symbolic transfers and are restricted to well-defined tasks. Hence, we propose a dynamic modularized reasoning model, MORSE, to improve the compositional generalization of neural models. MORSE factorizes the inference process into a combination of modules, where each module represents a functional unit. Specifically, we adopt modularized self-attention to dynamically select and route inputs to dedicated heads, which specializes them to specific functions. We conduct experiments for increasing lengths and shapes of reasoning trees on two benchmarks to test MORSE's compositional generalization abilities, and find it outperforms competitive baselines. Model ablation and deeper analyses show the effectiveness of dynamic reasoning modules and their generalization abilities.
翻訳日:2023-09-15 15:04:59 公開日:2023-09-14
# 会話は数千の勧告の価値である:全体論のレコメンデーションシステムに関する調査

A Conversation is Worth A Thousand Recommendations: A Survey of Holistic Conversational Recommender Systems ( http://arxiv.org/abs/2309.07682v1 )

ライセンス: Link先を確認
Chuang Li, Hengchang Hu, Yan Zhang, Min-Yen Kan and Haizhou Li(参考訳) 会話推薦システム(CRS)は対話的なプロセスを通じてレコメンデーションを生成する。 しかしながら、すべてのCRSアプローチは、人間の会話をインタラクションデータのソースとして使用するわけではない。 結果として、従来のCRS作業の主張は、会話が予期せぬ回転をしたり、会話や意図の理解が完璧でない現実世界の設定に一般化されない。 この課題に取り組むため、研究コミュニティは、現実世界のシナリオから収集した会話データを使用してトレーニングされる総合的なcrsを調査し始めた。 それらの出現にもかかわらず、そのような全体論的アプローチは未解明である。 文献を構造化した方法で要約し,総合的なCRS手法の総合的な調査を行う。 我々の調査は、全体論的なCRSアプローチを3つの要素を持つと認識している。 1) バックボーン言語モデル、オプション使用 2外部知識及び/又は 3)外部ガイダンス。 また、実アプリケーションシナリオにおけるCRSデータセットと評価方法の詳細な分析を行う。 我々は、全体論的なCRSの現在の課題と将来的なトレンドに関する洞察を提供する。

Conversational recommender systems (CRS) generate recommendations through an interactive process. However, not all CRS approaches use human conversations as their source of interaction data; the majority of prior CRS work simulates interactions by exchanging entity-level information. As a result, claims of prior CRS work do not generalise to real-world settings where conversations take unexpected turns, or where conversational and intent understanding is not perfect. To tackle this challenge, the research community has started to examine holistic CRS, which are trained using conversational data collected from real-world scenarios. Despite their emergence, such holistic approaches are under-explored. We present a comprehensive survey of holistic CRS methods by summarizing the literature in a structured manner. Our survey recognises holistic CRS approaches as having three components: 1) a backbone language model, the optional use of 2) external knowledge, and/or 3) external guidance. We also give a detailed analysis of CRS datasets and evaluation methods in real application scenarios. We offer our insight as to the current challenges of holistic CRS and possible future trends.
翻訳日:2023-09-15 14:58:43 公開日:2023-09-14
# 量子状態分類のための機械学習モデルのベンチマーク

Benchmarking machine learning models for quantum state classification ( http://arxiv.org/abs/2309.07679v1 )

ライセンス: Link先を確認
Edoardo Pedicillo, Andrea Pasquale and Stefano Carrazza(参考訳) 量子コンピューティングは、情報が量子ビットと呼ばれる2段階の量子状態によって処理される成長分野である。 現在の量子ビットの物理的実現には、ノイズやデコヒーレンス現象のために異なる実験によって構成される慎重な校正が必要である。 異なる評価実験の中で重要なステップは、励起状態から基底状態を識別することで測定状態の分類を行うモデルを開発することである。 本稿では,実量子デバイスに適用する複数の分類手法について検討する。

Quantum computing is a growing field where the information is processed by two-levels quantum states known as qubits. Current physical realizations of qubits require a careful calibration, composed by different experiments, due to noise and decoherence phenomena. Among the different characterization experiments, a crucial step is to develop a model to classify the measured state by discriminating the ground state from the excited state. In this proceedings we benchmark multiple classification techniques applied to real quantum devices.
翻訳日:2023-09-15 14:58:26 公開日:2023-09-14
# 適応話者:効率的な多重シーケンスアライメントを用いたテキストベースダイアリゼーションの評価と可視化(拡張版)

Aligning Speakers: Evaluating and Visualizing Text-based Diarization Using Efficient Multiple Sequence Alignment (Extended Version) ( http://arxiv.org/abs/2309.07677v1 )

ライセンス: Link先を確認
Chen Gong, Peilin Wu, Jinho D. Choi(参考訳) 本稿ではテキストベースの話者ダイアリゼーション(SD)に対する新たな評価手法を提案する。 テキストベースのダイアリゼーション誤り率とダイアリゼーションF1という2つの新しい指標が提案されている。 私たちのメトリクスは、既存のものと比較して多くの種類のエラーを含んでおり、SDでより包括的な分析を可能にします。 トークンをアライメントするために、動的プログラミングを用いて仮説に対する高次元アライメントを処理しながら、参照中の複数のシーケンスをサポートする多重シーケンスアライメントアルゴリズムが導入された。 当社の作業は,アライメントアルゴリズム用のAPIを提供するaligned4dと,SDエラーの可視化と評価を行うTranscribeViewの2つのツールにまとめられている。

This paper presents a novel evaluation approach to text-based speaker diarization (SD), tackling the limitations of traditional metrics that do not account for any contextual information in text. Two new metrics are proposed, Text-based Diarization Error Rate and Diarization F1, which perform utterance- and word-level evaluations by aligning tokens in reference and hypothesis transcripts. Our metrics encompass more types of errors compared to existing ones, allowing us to make a more comprehensive analysis in SD. To align tokens, a multiple sequence alignment algorithm is introduced that supports multiple sequences in the reference while handling high-dimensional alignment to the hypothesis using dynamic programming. Our work is packaged into two tools, align4d providing an API for our alignment algorithm and TranscribeView for visualizing and evaluating SD errors, which can greatly aid in the creation of high-quality data, fostering the advancement of dialogue systems.
翻訳日:2023-09-15 14:58:18 公開日:2023-09-14
# 階層型強化学習における目標空間の抽象化

Goal Space Abstraction in Hierarchical Reinforcement Learning via Set-Based Reachability Analysis ( http://arxiv.org/abs/2309.07675v1 )

ライセンス: Link先を確認
Mehdi Zadem and Sergio Mover and Sao Mai Nguyen(参考訳) オープンディビジョン学習は、効率的で転送可能な学習のために知識を構造化する方法を提供するため、目標表現にシンボリックな方法を使用することで大きなメリットがあります。 しかしながら、既存の階層強化学習(HRL)アプローチは、しばしば手動の目標表現を必要とするため、象徴的推論に依存している。 象徴的な目標表現を自律的に発見する上での課題は、環境力学のような重要な情報を保存する必要があることである。 本稿では,課題に類似した役割を持つ環境状態の集合を抽象化する創発的表現を用いて,目標発見のための発達メカニズムを提案する。 目的表現と階層ポリシーの両方を同時に学習するFeudal HRLアルゴリズムを導入する。 このアルゴリズムは、ニューラルネットワークのシンボリックリーチビリティ解析を用いて、状態の集合間の遷移関係を近似し、目標表現を洗練させる。 複雑なナビゲーションタスクに対する我々のアプローチを評価し、学習された表現が解釈可能で、転送可能で、データ効率のよい学習結果を示す。

Open-ended learning benefits immensely from the use of symbolic methods for goal representation as they offer ways to structure knowledge for efficient and transferable learning. However, the existing Hierarchical Reinforcement Learning (HRL) approaches relying on symbolic reasoning are often limited as they require a manual goal representation. The challenge in autonomously discovering a symbolic goal representation is that it must preserve critical information, such as the environment dynamics. In this paper, we propose a developmental mechanism for goal discovery via an emergent representation that abstracts (i.e., groups together) sets of environment states that have similar roles in the task. We introduce a Feudal HRL algorithm that concurrently learns both the goal representation and a hierarchical policy. The algorithm uses symbolic reachability analysis for neural networks to approximate the transition relation among sets of states and to refine the goal representation. We evaluate our approach on complex navigation tasks, showing the learned representation is interpretable, transferrable and results in data efficient learning.
翻訳日:2023-09-15 14:57:58 公開日:2023-09-14
# パッシブMDI-QKD

Passive MDI-QKD ( http://arxiv.org/abs/2309.07673v1 )

ライセンス: Link先を確認
Jinjie Li, Wenyuan Wang, Hoi-Kwong Lo(参考訳) 最近提案された完全受動QKDは、すべてのソース変調器側チャネルを除去する。 本研究では、全受動的ソースとMDI-QKDを組み合わせることで、ソース変調器と検出器からサイドチャネルを同時に除去する。 我々は、受動的MDI-QKDの数値シミュレーションを行い、より優れた実装セキュリティと実装の容易さを確保しつつ、より安全で実用的なQKDシステムへの道を開くことを目的とした、最近提案された完全受動的TF-QKDと比較して、許容可能な鍵レートを得る。 我々は、完全受動的プロトコルがMDI-QKDと互換性があることを証明し、シフティング効率を向上できる新しいアイデアを提案した。

A recently proposed fully passive QKD removes all source modulator side channels. In this work, we combine the fully passive sources with MDI-QKD to remove simultaneously side channels from source modulators and detectors. We show a numerical simulation of the passive MDI-QKD, and we obtain an acceptable key rate while getting much better implementation security, as well as ease of implementation, compared with a recently proposed fully passive TF-QKD, paving the way towards more secure and practical QKD systems. We have proved that a fully passive protocol is compatible with MDI-QKD and we also proposed a novel idea that could potentially improve the sifting efficiency.
翻訳日:2023-09-15 14:57:40 公開日:2023-09-14
# 有限・雑音データを用いた開形式PDEの物理制約付きロバスト学習

Physics-constrained robust learning of open-form PDEs from limited and noisy data ( http://arxiv.org/abs/2309.07672v1 )

ライセンス: Link先を確認
Mengge Du, Longfeng Nie, Siyu Lou, Yuntian Chenc, Dongxiao Zhang(参考訳) 非線形力学系の根底にある支配方程式を解き放つことは、特にノイズの多い観測に遭遇し、事前の知識が得られない場合において重要な課題である。 本研究では,自由形式偏微分方程式(PDE)を有限・雑音データから堅牢に発見するフレームワークであるR-DISCOVERを提案する。 このフレームワークは,2つの更新プロセス – 発見と埋め込み – を通じて動作する。 発見フェーズは、シンボル表現と強化学習(RL)誘導ハイブリッドPDEジェネレータを用いて、ツリー構造を持つ多様なオープンフォームPDEを効率的に生成する。 ニューラルネットワークに基づく予測モデルは、システム応答に適合し、生成されたPDEに対する報酬評価器として機能する。 優れた適合を有するPDEを用いて、RL法による発電機を反復的に最適化し、パラメータフリー安定度で最良のPDEを選択する。 埋め込みフェーズは、発見過程から最初に特定されたPDEを物理的制約として、堅牢なトレーニングのための予測モデルに統合する。 PDEツリーのトラバースは、人間の介入なしに計算グラフと埋め込みプロセスの構築を自動化する。 数値実験により,非線形力学系から高ノイズなデータを用いて制御方程式を抽出し,他の物理インフォームドニューラルネットワークによる探索法より優れていることを示す。 この研究は、限られた理解で現実世界のシステムを探索する新たな可能性を開く。

Unveiling the underlying governing equations of nonlinear dynamic systems remains a significant challenge, especially when encountering noisy observations and no prior knowledge available. This study proposes R-DISCOVER, a framework designed to robustly uncover open-form partial differential equations (PDEs) from limited and noisy data. The framework operates through two alternating update processes: discovering and embedding. The discovering phase employs symbolic representation and a reinforcement learning (RL)-guided hybrid PDE generator to efficiently produce diverse open-form PDEs with tree structures. A neural network-based predictive model fits the system response and serves as the reward evaluator for the generated PDEs. PDEs with superior fits are utilized to iteratively optimize the generator via the RL method and the best-performing PDE is selected by a parameter-free stability metric. The embedding phase integrates the initially identified PDE from the discovering process as a physical constraint into the predictive model for robust training. The traversal of PDE trees automates the construction of the computational graph and the embedding process without human intervention. Numerical experiments demonstrate our framework's capability to uncover governing equations from nonlinear dynamic systems with limited and highly noisy data and outperform other physics-informed neural network-based discovery methods. This work opens new potential for exploring real-world systems with limited understanding.
翻訳日:2023-09-15 14:57:26 公開日:2023-09-14
# 多元ドメイン適応のためのフェデレーションデータセット辞書学習

Federated Dataset Dictionary Learning for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2309.07670v1 )

ライセンス: Link先を確認
Fabiola Espinosa Castellon, Eduardo Fernandes Montesuma, Fred Ngol\`e Mboula, Aur\'elien Mayoue, Antoine Souloumiac, C\'edric Gouy-Pallier(参考訳) 本稿では,クライアント間で分散シフトがあり,ラベルのないデータが存在する,フェデレートされたドメイン適応のためのアプローチを提案する。 提案するフレームワークであるFedDaDiLは、経験的分布の辞書学習を通じて得られた課題に取り組む。 我々の設定では、クライアントの分布は特定のドメインを表し、FedDaDiLは経験分布の連合辞書を集合的に訓練する。 特に,協調通信プロトコルとアグリゲーション操作を設計することにより,データセット辞書学習フレームワークを構築した。 選択されたプロトコルは、クライアントのデータをプライベートに保ち、中央集権的なプロトコルに比べて全体的なプライバシを向上させる。 実験により,本手法が対象領域のラベル付きデータの生成に有効であることを示す。 (i)カルテック事務所 (ii)tep、及び (iii)CWRUベンチマーク。 さらに,本手法を,フェデレーションドメイン適応における集中型と他のベンチマークと比較した。

In this article, we propose an approach for federated domain adaptation, a setting where distributional shift exists among clients and some have unlabeled data. The proposed framework, FedDaDiL, tackles the resulting challenge through dictionary learning of empirical distributions. In our setting, clients' distributions represent particular domains, and FedDaDiL collectively trains a federated dictionary of empirical distributions. In particular, we build upon the Dataset Dictionary Learning framework by designing collaborative communication protocols and aggregation operations. The chosen protocols keep clients' data private, thus enhancing overall privacy compared to its centralized counterpart. We empirically demonstrate that our approach successfully generates labeled data on the target domain with extensive experiments on (i) Caltech-Office, (ii) TEP, and (iii) CWRU benchmarks. Furthermore, we compare our method to its centralized counterpart and other benchmarks in federated domain adaptation.
翻訳日:2023-09-15 14:57:03 公開日:2023-09-14
# CoRF : 知識蒸留による放射界の着色

CoRF : Colorizing Radiance Fields using Knowledge Distillation ( http://arxiv.org/abs/2309.07668v1 )

ライセンス: Link先を確認
Ankit Dhiman and R Srinath and Srinjay Sarkar and Lokesh R Boregowda and R Venkatesh Babu(参考訳) ニューラルレイディアンス場(NeRF)に基づく手法は,マルチビュー画像の高品質なノベルビュー合成を可能にする。 本研究では,入力グレースケールのマルチビュー画像からカラー化された新規ビューを合成する手法を提案する。 生成したグレースケールの新規ビューに画像やビデオに基づく色付け手法を適用すると、ビュー間の不整合によるアーティファクトを観察する。 色付きグレースケール画像シーケンス上での放射界ネットワークのトレーニングも、3D一貫性の問題は解決しない。 本研究では,自然画像に訓練された着色ネットワークから放射場ネットワークへ色知識を伝達する蒸留法を提案する。 具体的には,放射場ネットワークを3次元表現として使用し,既存の2次元カラー化手法から知識を伝達する。 実験により,提案手法は,ベースラインよりもクロスビュー一貫性を維持しつつ,室内および屋外のシーンにおいて優れたカラー化ノベルビューが得られることを示した。 さらに,本手法が発色場ネットワークのカラー化などの応用に有効であることを示す。 1.赤外線(ir)多視点画像と画像 2) 古いグレースケールのマルチビュー画像シーケンス。

Neural radiance field (NeRF) based methods enable high-quality novel-view synthesis for multi-view images. This work presents a method for synthesizing colorized novel views from input grey-scale multi-view images. When we apply image or video-based colorization methods on the generated grey-scale novel views, we observe artifacts due to inconsistency across views. Training a radiance field network on the colorized grey-scale image sequence also does not solve the 3D consistency issue. We propose a distillation based method to transfer color knowledge from the colorization networks trained on natural images to the radiance field network. Specifically, our method uses the radiance field network as a 3D representation and transfers knowledge from existing 2D colorization methods. The experimental results demonstrate that the proposed method produces superior colorized novel views for indoor and outdoor scenes while maintaining cross-view consistency than baselines. Further, we show the efficacy of our method on applications like colorization of radiance field network trained from 1.) Infra-Red (IR) multi-view images and 2.) Old grey-scale multi-view image sequences.
翻訳日:2023-09-15 14:56:49 公開日:2023-09-14
# マルチソースドメイン適応はデータセット辞書学習によるデータセット蒸留に適合する

Multi-Source Domain Adaptation meets Dataset Distillation through Dataset Dictionary Learning ( http://arxiv.org/abs/2309.07666v1 )

ライセンス: Link先を確認
Eduardo Fernandes Montesuma, Fred Ngol\`e Mboula, Antoine Souloumiac(参考訳) 本稿では,機械学習における2つの課題であるマルチソースドメイン適応(MSDA)とデータセット蒸留(DD)の交差点について考察する。 一つは、複数の不均一なラベル付きソースドメインをラベルなしのターゲットドメインに適応させることである。 一方、第2の問題はデータセットに関するすべての情報を含む小さな要約を合成することである。 そこで我々はMSDA-DDと呼ばれる新しい問題を考える。 そこで我々は,従来のMSDA文献,例えばWasserstein Barycenter Transport and Dataset Dictionary Learning,およびDDメソッドの分散マッチングに適用した。 この問題を4つのベンチマーク(caltech-office 10, tennessee-eastman process, continuous stirred tank reactor, case western reserve university)で徹底的に実験し,1クラスあたりのサンプル数が最大でも最先端の適応性能が得られることを示した。

In this paper, we consider the intersection of two problems in machine learning: Multi-Source Domain Adaptation (MSDA) and Dataset Distillation (DD). On the one hand, the first considers adapting multiple heterogeneous labeled source domains to an unlabeled target domain. On the other hand, the second attacks the problem of synthesizing a small summary containing all the information about the datasets. We thus consider a new problem called MSDA-DD. To solve it, we adapt previous works in the MSDA literature, such as Wasserstein Barycenter Transport and Dataset Dictionary Learning, as well as DD method Distribution Matching. We thoroughly experiment with this novel problem on four benchmarks (Caltech-Office 10, Tennessee-Eastman Process, Continuous Stirred Tank Reactor, and Case Western Reserve University), where we show that, even with as little as 1 sample per class, one achieves state-of-the-art adaptation performance.
翻訳日:2023-09-15 14:56:32 公開日:2023-09-14
# リニアvaeにおけるレート歪曲線のデータセットサイズ依存性と後方崩壊閾値

Dataset Size Dependence of Rate-Distortion Curve and Threshold of Posterior Collapse in Linear VAE ( http://arxiv.org/abs/2309.07663v1 )

ライセンス: Link先を確認
Yuma Ichikawa and Koji Hukushima(参考訳) 変分オートエンコーダ(VAE)では、変分後部はしばしば前部と密接に一致し、後部崩壊(英語版)として知られ、表現学習の質を妨げる。 この問題を緩和するために、VAEで調整可能なハイパーパラメータベータが導入されている。 本稿では,vaeのベータ値,データセットサイズ,後方崩壊量,速度変動曲線との関係を,極小vaeを高次元で解析することにより評価する閉形式式を提案する。 これらの結果は, 相対的に大きいベータで, 一般化誤差の長い台地が出現することを明らかにする。 ベータが増加すると、台地の長さは広がり、一定のベータしきい値を超えて無限になる。 これは、通常の正規化パラメータとは異なり、ベータの選択がデータセットサイズに関係なく後方崩壊を引き起こすことを意味する。 このように、ベータは注意深いチューニングを必要とする危険パラメータである。 さらに, レート歪曲線に対するデータセットサイズ依存性を考慮すると, 高レート歪曲線を得るには比較的大きなデータセットが必要である。 広範な数値実験が我々の分析を支えている。

In the Variational Autoencoder (VAE), the variational posterior often aligns closely with the prior, which is known as posterior collapse and hinders the quality of representation learning. To mitigate this problem, an adjustable hyperparameter beta has been introduced in the VAE. This paper presents a closed-form expression to assess the relationship between the beta in VAE, the dataset size, the posterior collapse, and the rate-distortion curve by analyzing a minimal VAE in a high-dimensional limit. These results clarify that a long plateau in the generalization error emerges with a relatively larger beta. As the beta increases, the length of the plateau extends and then becomes infinite beyond a certain beta threshold. This implies that the choice of beta, unlike the usual regularization parameters, can induce posterior collapse regardless of the dataset size. Thus, beta is a risky parameter that requires careful tuning. Furthermore, considering the dataset-size dependence on the rate-distortion curve, a relatively large dataset is required to obtain a rate-distortion curve with high rates. Extensive numerical experiments support our analysis.
翻訳日:2023-09-15 14:56:13 公開日:2023-09-14
# 乱れ導波路におけるトポロジー保護の耐性と破壊

Tolerance and breakdown of topological protection in a disordered waveguide ( http://arxiv.org/abs/2309.07710v1 )

ライセンス: Link先を確認
Kiyanoush Goudarzi, Moonjoo Lee(参考訳) 我々は、自明な誘電体および非自明な磁気異方性材料からなる乱れ導波路を考える。 位相的に保護されたエッジモードは、非自明な格子の時間反転対称性の破れによって現れる。 エッジモードは、他の位置および半径障害の下で維持されるが、非自明な格子に半径障害を適用することで、直ちに保護を破る。 この分解は、トポロジカルバンドギャップを占めるドナーとアクセプターモードに由来する。 さらに,bott指数の計算により,異常の増加とともに位相ギャップへのギャップ変化を誘導する金属としてアンダーソン局在が出現することを示した。

We consider a disordered waveguide consisting of trivial dielectric and non-trivial magnetically anisotropic material. A topologically-protected edge mode appears owing to the broken time-reversal symmetry of the non-trivial lattice. While the edge mode maintains under other position and radius disorders, the protection is immediately broken by applying a radius disorder to the non-trivial lattice. This breakdown originates from donor and acceptor modes occupying the topological bandgap. Furthermore, via the calculation of the Bott index, we show that Anderson localization occurs as a metal conducting gap changes to a topological gap along with increasing disorders.
翻訳日:2023-09-15 14:48:57 公開日:2023-09-14
# Market-GAN:セマンティックコンテキストによる金融市場データ生成の制御

Market-GAN: Adding Control to Financial Market Data Generation with Semantic Context ( http://arxiv.org/abs/2309.07708v1 )

ライセンス: Link先を確認
Haochong Xia, Shuo Sun, Xinrun Wang, Bo An(参考訳) 金融シミュレーターは、予測精度の向上、リスク管理、戦略的金融決定の促進に重要な役割を果たしている。 金融市場シミュレーション手法の開発にもかかわらず、既存のフレームワークは、しばしば特殊なシミュレーションコンテキストへの適応に苦しむ。 私たちは課題を指摘します 一 現在の金融データセットには、文脈ラベルを含まないもの 二 現行の技術は、文脈を制御として金融データを生成するように設計されていず、他の形態に比べて高い精度を要求する。 三 金融データの非定常かつ騒がしい性質を前提として、コンテキスト整合で高忠実なデータの生成に固有の困難があること。 これらの課題に対処するために、私たちの貢献は 一 線形回帰と動的時間ワープクラスタリングを組み合わせて市場ダイナミクスを抽出する市場ダイナミクスモデリング手法を活用して、市場ダイナミクス、株式ティッカー、歴史状態を文脈とするコンテキスト市場データセットを提案した。 二 低次元の特徴を学習するためのオートエンコーダ、知識伝達のための監督者等を、制御可能な世代にGAN(Generative Adversarial Networks)を組み込んだ新しいアーキテクチャであるMarket-GANを提案する。 三 我々は、市場GANが本質的な市場分布を複数の目的で捉えるための二段階のトレーニングスキームを導入する。 関連する段階では、オートエンコーダとスーパーバイザを用いることで、敵の訓練段階により良い初期化を施したジェネレータを作成する。 本稿では,下流タスクにおけるアライメント,忠実度,データ使用性,市場事実を考慮した総合評価指標を提案する。 我々は2000年から2023年までのダウ・ジョーンズ工業平均データを用いて市場GANを評価し、4つの最先端時系列生成モデルと比較して優れた性能を示した。

Financial simulators play an important role in enhancing forecasting accuracy, managing risks, and fostering strategic financial decision-making. Despite the development of financial market simulation methodologies, existing frameworks often struggle with adapting to specialized simulation context. We pinpoint the challenges as i) current financial datasets do not contain context labels; ii) current techniques are not designed to generate financial data with context as control, which demands greater precision compared to other modalities; iii) the inherent difficulties in generating context-aligned, high-fidelity data given the non-stationary, noisy nature of financial data. To address these challenges, our contributions are: i) we proposed the Contextual Market Dataset with market dynamics, stock ticker, and history state as context, leveraging a market dynamics modeling method that combines linear regression and Dynamic Time Warping clustering to extract market dynamics; ii) we present Market-GAN, a novel architecture incorporating a Generative Adversarial Networks (GAN) for the controllable generation with context, an autoencoder for learning low-dimension features, and supervisors for knowledge transfer; iii) we introduce a two-stage training scheme to ensure that Market-GAN captures the intrinsic market distribution with multiple objectives. In the pertaining stage, with the use of the autoencoder and supervisors, we prepare the generator with a better initialization for the adversarial training stage. We propose a set of holistic evaluation metrics that consider alignment, fidelity, data usability on downstream tasks, and market facts. We evaluate Market-GAN with the Dow Jones Industrial Average data from 2000 to 2023 and showcase superior performance in comparison to 4 state-of-the-art time-series generative models.
翻訳日:2023-09-15 14:48:35 公開日:2023-09-14
# colld:多言語事前学習音声エンコーダ圧縮のための造影層間蒸留

CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders ( http://arxiv.org/abs/2309.07707v1 )

ライセンス: Link先を確認
Heng-Jui Chang, Ning Dong, Ruslan Mavlyutov, Sravya Popuri, Yu-An Chung(参考訳) 大規模自己教師付き事前学習音声エンコーダは、音声認識や翻訳タスクにおける従来のアプローチを上回っている。 これらの大規模モデルを開発するコストが高いため、新しいタスクのための新しいエンコーダの構築と、デバイス上のアプリケーションへのデプロイは不可能である。 先行研究では、この問題に対処するためにモデル圧縮手法を提案するが、これらはより小さなモデルとより現実的なタスクに焦点を当てている。 そこで我々は,マスク付き予測とコントラスト学習を利用して,事前学習した音声エンコーダを圧縮する新しい知識蒸留法であるContrastive Layer-to-layer Distillation (CoLLD)を提案する。 CoLLDは従来の手法よりも優れており、多言語音声テキスト翻訳および認識ベンチマークにおける小型モデルと大規模モデルのギャップを埋める。

Large-scale self-supervised pre-trained speech encoders outperform conventional approaches in speech recognition and translation tasks. Due to the high cost of developing these large models, building new encoders for new tasks and deploying them to on-device applications are infeasible. Prior studies propose model compression methods to address this issue, but those works focus on smaller models and less realistic tasks. Thus, we propose Contrastive Layer-to-layer Distillation (CoLLD), a novel knowledge distillation method to compress pre-trained speech encoders by leveraging masked prediction and contrastive learning to train student models to copy the behavior of a large teacher model. CoLLD outperforms prior methods and closes the gap between small and large models on multilingual speech-to-text translation and recognition benchmarks.
翻訳日:2023-09-15 14:48:06 公開日:2023-09-14
# NutritionVerse: 食事摂取量推定手法の実証的研究

NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches ( http://arxiv.org/abs/2309.07704v1 )

ライセンス: Link先を確認
Chi-en Amy Tai, Matthew Keller, Saeejith Nair, Yuhao Chen, Yifan Wu, Olivia Markham, Krish Parmar, Pengcheng Xi, Heather Keller, Sharon Kirkpatrick, Alexander Wong(参考訳) 栄養失調は生活の質の低下と直接結びついているため、食事の正確な摂取推定は健康な食事を支援するための政策やプログラムを伝える上で重要である。 しかし、食品日記のような自己申告方法にはかなりのバイアスがかかる。 従来の食事アセスメント技術やモバイルアプリケーションのような新たな代替手法は、高コストで訓練要員を必要とする可能性がある。 最近の研究は、コンピュータビジョンと機械学習を用いて食品画像から食事摂取を自動推定することに焦点を当てているが、多様な視点、モダリティ、食品アノテーションを備えた包括的なデータセットが欠如しているため、これらの手法の正確性や現実性を妨げている。 この制限に対処するために, 食品情報とマルチモーダルアノテーション(深度画像, インスタンスマスク, セマンティックマスクなど)を備えた, 84,984 個のフォトリアリスティック合成2d食品画像の最初の大規模データセットである nutritionverse-synth を紹介する。 さらに,251皿の889枚の画像を含む実画像データセット,栄養素逆現実データを用いて,リアリズムの評価を行う。 これらの新しいデータセットを利用して,indirect segmentation-based および direct prediction network を含む,食事摂取量推定手法の実証研究である nutritionverse の開発とベンチマークを行った。 さらに,合成データと実画像に事前学習した微調整モデルを用いて,合成データと実データの融合に関する知見を提供する。 最後に、食事センシングのための機械学習を加速するオープンイニシアチブの一環として、2つのデータセット(nutritionverse-synth, nutritionverse-real)をhttps://www.kaggle.com/nutritionverse/datasetsにリリースします。

Accurate dietary intake estimation is critical for informing policies and programs to support healthy eating, as malnutrition has been directly linked to decreased quality of life. However self-reporting methods such as food diaries suffer from substantial bias. Other conventional dietary assessment techniques and emerging alternative approaches such as mobile applications incur high time costs and may necessitate trained personnel. Recent work has focused on using computer vision and machine learning to automatically estimate dietary intake from food images, but the lack of comprehensive datasets with diverse viewpoints, modalities and food annotations hinders the accuracy and realism of such methods. To address this limitation, we introduce NutritionVerse-Synth, the first large-scale dataset of 84,984 photorealistic synthetic 2D food images with associated dietary information and multimodal annotations (including depth images, instance masks, and semantic masks). Additionally, we collect a real image dataset, NutritionVerse-Real, containing 889 images of 251 dishes to evaluate realism. Leveraging these novel datasets, we develop and benchmark NutritionVerse, an empirical study of various dietary intake estimation approaches, including indirect segmentation-based and direct prediction networks. We further fine-tune models pretrained on synthetic data with real images to provide insights into the fusion of synthetic and real data. Finally, we release both datasets (NutritionVerse-Synth, NutritionVerse-Real) on https://www.kaggle.com/nutritionverse/datasets as part of an open initiative to accelerate machine learning for dietary sensing.
翻訳日:2023-09-15 14:47:53 公開日:2023-09-14
# 因果エントロピーと因果制御測定のための情報ゲイン

Causal Entropy and Information Gain for Measuring Causal Control ( http://arxiv.org/abs/2309.07703v1 )

ライセンス: Link先を確認
Francisco Nunes Ferreira Quialheiro Simoes, Mehdi Dastani, Thijs van Ommen(参考訳) 人工知能モデルと手法は一般的に因果解釈性に欠ける。 解釈可能な機械学習(IML)手法の進歩にもかかわらず、結果変数に因果的影響を持たない特徴にしばしば重要度を割り当てる。 これらの方法によって関連づけられた、あるいはモデルトレーニングの前にも、因果関係のある特徴を選択することは、ソリューションを提供する。 情報理論量を利用した特徴選択法は,統計的に関連する特徴の同定に成功している。 しかし、それらに基づく情報理論量は因果関係を含まないため、そのようなシナリオには適さない。 この課題に対処するために,本論文では,ある結果変数に対する特徴の因果的重要性を評価するために,システムの因果的構造を組み込んだ情報理論量を提案する。 具体的には、因果エントロピー(causal entropy)と因果情報ゲイン(causal information gain)と呼ばれるエントロピーと相互情報の因果バージョンを導入する。 これらの新しく定義された量は、他の変数への介入による変数のエントロピーの変化をキャプチャする。 これらの量と因果効果の存在を結びつける基本的な結果が導出される。 特徴選択における因果情報ゲインの使用を実証し、選択した結果変数に対する制御を提供する特徴を明らかにする際に、標準的相互情報よりも優位性を示す。 本研究は,因果関係領域の解釈性を向上させる手法開発への道を開くものである。

Artificial intelligence models and methods commonly lack causal interpretability. Despite the advancements in interpretable machine learning (IML) methods, they frequently assign importance to features which lack causal influence on the outcome variable. Selecting causally relevant features among those identified as relevant by these methods, or even before model training, would offer a solution. Feature selection methods utilizing information theoretical quantities have been successful in identifying statistically relevant features. However, the information theoretical quantities they are based on do not incorporate causality, rendering them unsuitable for such scenarios. To address this challenge, this article proposes information theoretical quantities that incorporate the causal structure of the system, which can be used to evaluate causal importance of features for some given outcome variable. Specifically, we introduce causal versions of entropy and mutual information, termed causal entropy and causal information gain, which are designed to assess how much control a feature provides over the outcome variable. These newly defined quantities capture changes in the entropy of a variable resulting from interventions on other variables. Fundamental results connecting these quantities to the existence of causal effects are derived. The use of causal information gain in feature selection is demonstrated, highlighting its superiority over standard mutual information in revealing which features provide control over a chosen outcome variable. Our investigation paves the way for the development of methods with improved interpretability in domains involving causation.
翻訳日:2023-09-15 14:47:22 公開日:2023-09-14
# 生成モデルによるデータセットの凝縮

Dataset Condensation via Generative Model ( http://arxiv.org/abs/2309.07698v1 )

ライセンス: Link先を確認
David Junhao Zhang, Heng Wang, Chuhui Xue, Rui Yan, Wenqing Zhang, Song Bai, Mike Zheng Shou(参考訳) Dataset Condensationは、大量のトレーニングサンプルを小さなセットに集約することを目的としている。 以前のメソッドは通常、データセットをピクセルフォーマットにコンデンスする。 しかし、最適化速度の遅さと最適化すべきパラメータの多さに悩まされている。 画像の解像度とクラスが増加すると、学習可能なパラメータの数が増加し、さまざまなクラスを持つ大規模なデータセットへの凝縮メソッドのスケーリングが禁止される。 さらに, 凝縮試料間の関係は無視されているため, 凝縮試料の特徴分布は多様ではないことが多い。 これらの問題を解決するために、データセットを別のフォーマット、生成モデルに集約する。 このような新しいフォーマットは、クラス数や画像解像度が増加するにつれて生成モデルのサイズが比較的安定であるため、大きなデータセットの凝縮を可能にする。 さらに, 凝縮試料の関係をモデル化するために, クラス内およびクラス間損失を提案する。 クラス内の損失は、各サンプルを同じクラスの他のものから切り離すことで、クラスごとにより多様なサンプルを作成することを目的としている。 一方、クラス間損失は、異なるクラスの中心間のギャップを広げることで、サンプルの識別性を高める。 最先端の手法との比較およびアブレーション研究により,本手法の有効性が確認された。 私たちはImageNet-1kで結露を成功させた最初の人物です。

Dataset condensation aims to condense a large dataset with a lot of training samples into a small set. Previous methods usually condense the dataset into the pixels format. However, it suffers from slow optimization speed and large number of parameters to be optimized. When increasing image resolutions and classes, the number of learnable parameters grows accordingly, prohibiting condensation methods from scaling up to large datasets with diverse classes. Moreover, the relations among condensed samples have been neglected and hence the feature distribution of condensed samples is often not diverse. To solve these problems, we propose to condense the dataset into another format, a generative model. Such a novel format allows for the condensation of large datasets because the size of the generative model remains relatively stable as the number of classes or image resolution increases. Furthermore, an intra-class and an inter-class loss are proposed to model the relation of condensed samples. Intra-class loss aims to create more diverse samples for each class by pushing each sample away from the others of the same class. Meanwhile, inter-class loss increases the discriminability of samples by widening the gap between the centers of different classes. Extensive comparisons with state-of-the-art methods and our ablation studies confirm the effectiveness of our method and its individual component. To our best knowledge, we are the first to successfully conduct condensation on ImageNet-1k.
翻訳日:2023-09-15 14:46:59 公開日:2023-09-14
# 連続フィードバック制御を有する量子熱機械における定常絡み合い生成

Steady-state entanglement production in a quantum thermal machine with continuous feedback control ( http://arxiv.org/abs/2309.07696v1 )

ライセンス: Link先を確認
Giovanni Francesco Diotallevi, Bj\"orn Annby-Andersson, Peter Samuelsson, Armin Tavakoli, Pharnam Bakhshinezhad(参考訳) 量子熱機械は、局所環境と自然に相互作用して定常的な絡み合いを発生させることができる。 しかし、最小の資源と制御を使用すると、絡み合いは一般的に非常にうるさい。 本稿では,連続的なフィードバックプロトコルの存在下での2量子量子熱機械の絡み合い発生について検討する。 各キュービットは連続的に測定され、実時間フィードバックによって局所的なシステムと環境の相互作用を制御する。 エンタングルメントの品質が大幅に向上し,標準ベルの不等式に違反し,量子テレポーテーションを維持できるような理想的な演算系が存在することを示す。 特に, 理想的な操作では, システム間の熱電流は絡み合う電流に比例することがわかった。 最後に,機械が理想的な条件から外れる際の絡み合い生成の堅牢性について検討する。

Quantum thermal machines can generate steady-state entanglement by harvesting spontaneous interactions with local environments. However, using minimal resources and control, the entanglement is typically very noisy. Here, we study entanglement generation in a two-qubit quantum thermal machine in the presence of a continuous feedback protocol. Each qubit is measured continuously and the outcomes are used for real-time feedback to control the local system-environment interactions. We show that there exists an ideal operation regime where the quality of entanglement is significantly improved, to the extent that it can violate standard Bell inequalities and uphold quantum teleportation. In particular, we find, for ideal operation, that the heat current across the system is proportional to the entanglement concurrence. Finally, we investigate the robustness of entanglement production when the machine operates away from the ideal conditions.
翻訳日:2023-09-15 14:46:39 公開日:2023-09-14
# 大規模言語モデルに対する不確定な思考のツリー

Tree of Uncertain Thoughts Reasoning for Large Language Models ( http://arxiv.org/abs/2309.07694v1 )

ライセンス: Link先を確認
Shentong Mo, Miao Xin(参考訳) 最近導入されたTree of Thoughts (ToT) は、大言語モデル (LLMs) が世界的意思決定の監視とバックトラックを通じて理屈を定めている一方で、中間決定点や「思考」に固有の局所的不確実性を見落としている。 これらの局所的な不確実性は、多様な応答の可能性を考慮し、LSMに固有のものであり、推論過程において重要な関心事である。 この中心的なギャップに対処するため、LLMに適した推論フレームワークであるTree of Uncertain Thoughts(TouT)を紹介します。 我々のTouTはモンテカルロ・ドロップアウトを効果的に利用し、これらの中間段階におけるLLMの多様な局所応答に関連する不確実性スコアを定量化する。 この局所不確実性定量化とグローバル検索アルゴリズムを組み合わせることで、TouTは応答生成におけるモデルの精度を向上させる。 ゲームオブ24とミニクロスワードという,2つの必要な計画作業に関する厳密な実験によって,このアプローチを実証する。 実証的な証拠は、TouTがToTとチェーン・オブ・シークレットの双方よりも優れていることを裏付けている。

While the recently introduced Tree of Thoughts (ToT) has heralded advancements in allowing Large Language Models (LLMs) to reason through foresight and backtracking for global decision-making, it has overlooked the inherent local uncertainties in intermediate decision points or "thoughts". These local uncertainties, intrinsic to LLMs given their potential for diverse responses, remain a significant concern in the reasoning process. Addressing this pivotal gap, we introduce the Tree of Uncertain Thoughts (TouT) - a reasoning framework tailored for LLMs. Our TouT effectively leverages Monte Carlo Dropout to quantify uncertainty scores associated with LLMs' diverse local responses at these intermediate steps. By marrying this local uncertainty quantification with global search algorithms, TouT enhances the model's precision in response generation. We substantiate our approach with rigorous experiments on two demanding planning tasks: Game of 24 and Mini Crosswords. The empirical evidence underscores TouT's superiority over both ToT and chain-of-thought prompting methods.
翻訳日:2023-09-15 14:46:27 公開日:2023-09-14
# DenseNetを用いた脳波を用いた聴覚空間注意の復号法

A DenseNet-based method for decoding auditory spatial attention with EEG ( http://arxiv.org/abs/2309.07690v1 )

ライセンス: Link先を確認
Xiran Xu, Bo Wang, Yujie Yan, Xihong Wu, Jing Chen(参考訳) 聴覚空間アテンション検出(ASAD)は,複数話者設定で脳波を用いて入場した空間位置を復号することを目的としている。 ASAD法は聴覚的空間的注意の処理における皮質神経応答の脳側方化にインスパイアされ、ニューラル記録を用いた聴覚的注意復号(AAD)タスクに有望な性能を示す。 これまでのasad法では,脳波電極の空間分布が十分に活用されていないため,その性能が低下する可能性がある。 本研究では,元の脳波チャンネルを2次元(2次元)空間トポロジマップに変換することにより,脳波データを時空間情報を含む3次元(3次元)配置に変換する。 そして、3Dディープ畳み込みニューラルネットワーク(DenseNet-3D)を使用して、参加する場所の神経表現の時間的および空間的特徴を抽出する。 その結果、提案手法は、広く使われているKUL(KUL)データセットに対して1秒の判定窓を持つ、最先端(SOTA)メソッド(XANetの90.6%と比較して94.4%)よりも高い復号精度を実現している。

Auditory spatial attention detection (ASAD) aims to decode the attended spatial location with EEG in a multiple-speaker setting. ASAD methods are inspired by the brain lateralization of cortical neural responses during the processing of auditory spatial attention, and show promising performance for the task of auditory attention decoding (AAD) with neural recordings. In the previous ASAD methods, the spatial distribution of EEG electrodes is not fully exploited, which may limit the performance of these methods. In the present work, by transforming the original EEG channels into a two-dimensional (2D) spatial topological map, the EEG data is transformed into a three-dimensional (3D) arrangement containing spatial-temporal information. And then a 3D deep convolutional neural network (DenseNet-3D) is used to extract temporal and spatial features of the neural representation for the attended locations. The results show that the proposed method achieves higher decoding accuracy than the state-of-the-art (SOTA) method (94.4% compared to XANet's 90.6%) with 1-second decision window for the widely used KULeuven (KUL) dataset, and the code to implement our work is available on Github: https://github.com/xuxiran/ASAD_DenseNet
翻訳日:2023-09-15 14:46:06 公開日:2023-09-14
# ChatGPTの検出:ChatGPT生成テキストの検出状況の調査

Detecting ChatGPT: A Survey of the State of Detecting ChatGPT-Generated Text ( http://arxiv.org/abs/2309.07689v1 )

ライセンス: Link先を確認
Mahdi Dhaini, Wessel Poelman, Ege Erdogan(参考訳) chatgpt (openai, 2022) のような生成言語モデルの能力の最近の進歩と広範なアクセシビリティは、人間的なテキストを生成することで様々な利点をもたらしたが、人間と大規模言語モデル(llm)を区別する作業は重要な問題となっている。 これらのモデルは、人間が生成したように見える人工テキストを生成することで、潜在的に欺く可能性がある。 この問題は特に法律、教育、科学といった分野において重要であり、テキストの完全性を保証することが最も重要である。 この調査は、人間が生成したテキストとチャットgptを区別する現在のアプローチの概要を提供する。 本稿では,ChatGPT生成テキストを検出するために構築されたさまざまなデータセットについて,その利用方法,人間とチャットGPT生成テキストの特徴に対する質的分析を行い,その結果を総合的な洞察にまとめる。

While recent advancements in the capabilities and widespread accessibility of generative language models, such as ChatGPT (OpenAI, 2022), have brought about various benefits by generating fluent human-like text, the task of distinguishing between human- and large language model (LLM) generated text has emerged as a crucial problem. These models can potentially deceive by generating artificial text that appears to be human-generated. This issue is particularly significant in domains such as law, education, and science, where ensuring the integrity of text is of the utmost importance. This survey provides an overview of the current approaches employed to differentiate between texts generated by humans and ChatGPT. We present an account of the different datasets constructed for detecting ChatGPT-generated text, the various methods utilized, what qualitative analyses into the characteristics of human versus ChatGPT-generated text have been performed, and finally, summarize our findings into general insights
翻訳日:2023-09-15 14:45:39 公開日:2023-09-14
# deepfdenet:分数微分方程式を解くための新しいニューラルネットワークアーキテクチャ

deepFDEnet: A Novel Neural Network Architecture for Solving Fractional Differential Equations ( http://arxiv.org/abs/2309.07684v1 )

ライセンス: Link先を確認
Ali Nosrati Firoozsalari, Hassan Dana Mazraeh, Alireza Afzal Aghaei, and Kourosh Parand(参考訳) 本研究の目的は,分数微分方程式を高精度に解く深層ニューラルネットワークのための新しいアーキテクチャを提案することである。 提案手法ではガウス積分則と$l_1$離散化手法が用いられる。 各方程式では、未知の関数を近似するためにディープニューラルネットワークが使用される。 分数次微分方程式は, 分数次常微分方程式, 分数次積分微分方程式, 分数次偏微分方程式の3つの形式について検討した。 その結果,提案手法は精度に優れた分数微分方程式の異なる形式を解くことがわかった。

The primary goal of this research is to propose a novel architecture for a deep neural network that can solve fractional differential equations accurately. A Gaussian integration rule and a $L_1$ discretization technique are used in the proposed design. In each equation, a deep neural network is used to approximate the unknown function. Three forms of fractional differential equations have been examined to highlight the method's versatility: a fractional ordinary differential equation, a fractional order integrodifferential equation, and a fractional order partial differential equation. The results show that the proposed architecture solves different forms of fractional differential equations with excellent precision.
翻訳日:2023-09-15 14:45:19 公開日:2023-09-14
# 大きな言語モデルの性質を評価する:人類中心主義に対する注意

Assessing the nature of large language models: A caution against anthropocentrism ( http://arxiv.org/abs/2309.07683v1 )

ライセンス: Link先を確認
Ann Speed(参考訳) 生成AIモデルは、OpenAIsチャットボットであるChatGPTのリリースによって、多くの大衆の注目を集め、憶測を呼んだ。 少なくとも2つの意見キャンプが存在する。1つは、これらのモデルが人間のタスクに根本的な変化をもたらす可能性に興奮している。 これらの問題に対処するため,標準的,規範的,そして認知的・人格的尺度を用いてGPT3.5を評価した。 この実生プロジェクトのために、私たちは、これらのモデルの能力のいくつかの境界、その能力が短時間でどれだけ安定しているか、そしてそれらがどのように人間と比較するかを推定できるテストのバッテリを開発しました。 以上の結果から, GPT 3.5は人格発見に反応する能力は興味深いが, 感覚発達の可能性が示唆された。 また, 認知的・人格的尺度において, 反復的な観察よりも大きな変動がみられたが, 人格的性格が有るとは期待できない。 可変性はともかく、GPT3.5は人間の心の健康状態が悪化していると考えられるものを表示する。

Generative AI models garnered a large amount of public attention and speculation with the release of OpenAIs chatbot, ChatGPT. At least two opinion camps exist: one excited about possibilities these models offer for fundamental changes to human tasks, and another highly concerned about power these models seem to have. To address these concerns, we assessed GPT3.5 using standard, normed, and validated cognitive and personality measures. For this seedling project, we developed a battery of tests that allowed us to estimate the boundaries of some of these models capabilities, how stable those capabilities are over a short period of time, and how they compare to humans. Our results indicate that GPT 3.5 is unlikely to have developed sentience, although its ability to respond to personality inventories is interesting. It did display large variability in both cognitive and personality measures over repeated observations, which is not expected if it had a human-like personality. Variability notwithstanding, GPT3.5 displays what in a human would be considered poor mental health, including low self-esteem and marked dissociation from reality despite upbeat and helpful responses.
翻訳日:2023-09-15 14:45:08 公開日:2023-09-14
# 解釈可能性の考え方--人間解釈可能表現学習のための因果的枠組み

Interpretability is in the Mind of the Beholder: A Causal Framework for Human-interpretable Representation Learning ( http://arxiv.org/abs/2309.07742v1 )

ライセンス: Link先を確認
Emanuele Marconato and Andrea Passerini and Stefano Teso(参考訳) 説明可能なAIは、入力機能などの低レベル要素の観点から定義された説明から、データから学んだ解釈可能な概念でエンコードされた説明へとシフトしている。 しかし、そのような概念を確実に取得する方法は、基本的には不明確である。 概念解釈可能性の合意された概念が欠落しており、ポストホックな説明と概念ベースのニューラルネットワークの両方で使われる概念は、様々な相互に互換性のない戦略によって獲得される。 批判的に、これらのほとんどが問題の人間側を無視している: 表現は、受信側において人間が理解できる限り、理解可能である。 human-interpretable representation learning(hrl)における重要な課題は、このヒューマン要素をモデル化し、運用する方法である。 本研究では,ポストホックな説明と概念に基づくニューラルネットワークの両方に適した解釈可能な表現を得るための数学的枠組みを提案する。 hrlの形式化は,近年の因果表現学習の進歩を基盤としており,人間の利害関係者を外部オブザーバとして明示的にモデル化している。 これにより、機械表現と人間が理解する概念の語彙のアライメントの原理的な概念を導出することができる。 その際、単純な直感的な名前転送ゲームを通じてアライメントと解釈可能性を結び、アライメントとよく知られた表現の性質、すなわち不一致の関係を明らかにする。 また,アライメントは,概念漏洩(concept leak)として知られる概念間の望ましくない相関問題や,コンテンツスタイルの分離問題と関連していることを示す。 概念化は,人間とアルゴリズム間の解釈可能性のギャップを橋渡しし,人間解釈可能表現の新しい研究の足場を確立することを目的としている。

Focus in Explainable AI is shifting from explanations defined in terms of low-level elements, such as input features, to explanations encoded in terms of interpretable concepts learned from data. How to reliably acquire such concepts is, however, still fundamentally unclear. An agreed-upon notion of concept interpretability is missing, with the result that concepts used by both post-hoc explainers and concept-based neural networks are acquired through a variety of mutually incompatible strategies. Critically, most of these neglect the human side of the problem: a representation is understandable only insofar as it can be understood by the human at the receiving end. The key challenge in Human-interpretable Representation Learning (HRL) is how to model and operationalize this human element. In this work, we propose a mathematical framework for acquiring interpretable representations suitable for both post-hoc explainers and concept-based neural networks. Our formalization of HRL builds on recent advances in causal representation learning and explicitly models a human stakeholder as an external observer. This allows us to derive a principled notion of alignment between the machine representation and the vocabulary of concepts understood by the human. In doing so, we link alignment and interpretability through a simple and intuitive name transfer game, and clarify the relationship between alignment and a well-known property of representations, namely disentanglment. We also show that alignment is linked to the issue of undesirable correlations among concepts, also known as concept leakage, and to content-style separation, all through a general information-theoretic reformulation of these properties. Our conceptualization aims to bridge the gap between the human and algorithmic sides of interpretability and establish a stepping stone for new research on human-interpretable representations.
翻訳日:2023-09-15 12:54:52 公開日:2023-09-14
# ロバスト発音評価における非言語的手がかりの相補的役割

The complementary roles of non-verbal cues for Robust Pronunciation Assessment ( http://arxiv.org/abs/2309.07739v1 )

ライセンス: Link先を確認
Yassine El Kheir, Shammur Absar Chowdhury, Ahmed Ali(参考訳) 発音評価システムの研究は、非母語(L2)音声の音韻的・音声学的側面の活用に重点を置いており、しばしば非言語的手がかりに隠れた情報層を無視する。 本研究では,新しい発音評価フレームワークであるIntraVerbalPAを提案する。 このフレームワークは,従来の音声および音素表現とともに,きめ細かなフレームレベルと抽象的な発話レベルの非言語的手がかりの両方を革新的に取り入れている。 さらに,フレームワーク内の持続時間分布を効果的にモデル化するために,「音韻デュレーションの良さ」指標を導入する。 提案するIntraVerbalPAフレームワークとその個々のコンポーネントの有効性を検証し,既存の研究成果に適合または優れる性能を得た。

Research on pronunciation assessment systems focuses on utilizing phonetic and phonological aspects of non-native (L2) speech, often neglecting the rich layer of information hidden within the non-verbal cues. In this study, we proposed a novel pronunciation assessment framework, IntraVerbalPA. % The framework innovatively incorporates both fine-grained frame- and abstract utterance-level non-verbal cues, alongside the conventional speech and phoneme representations. Additionally, we introduce ''Goodness of phonemic-duration'' metric to effectively model duration distribution within the framework. Our results validate the effectiveness of the proposed IntraVerbalPA framework and its individual components, yielding performance that either matches or outperforms existing research works.
翻訳日:2023-09-15 12:54:21 公開日:2023-09-14
# 単語レベル音声セグメントとパラ言語特徴を用いた音声分類モデルの構築

Explaining Speech Classification Models via Word-Level Audio Segments and Paralinguistic Features ( http://arxiv.org/abs/2309.07733v1 )

ライセンス: Link先を確認
Eliana Pastor, Alkis Koudounas, Giuseppe Attanasio, Dirk Hovy, Elena Baralis(参考訳) eXplainable AI(XAI)の最近の進歩は、ビジョン、言語、表形式のデータのモデルがどのように動作するかについて、新たな洞察を与えている。 しかし、音声モデルを理解するためのアプローチはほとんどない。 既存の作業は音声言語理解(SLU)タスクに重点を置いており、ほとんどのユーザにとって説明が難しい。 音声分類モデルを説明するための新しい手法を提案する。 入力摂動による2つの情報レベルの理解が容易な説明を生成する。 1)単語レベルの説明は,各単語関連音声セグメントが結果に与える影響を明らかにする。 2)パラ言語的特徴(例えば、韻律と背景雑音)は、反事実に答える:「この方法で音声信号を編集すれば、モデル予測はどうなるか?」 英語とイタリア語の2つの音声分類タスクで2つの最先端sluモデルを説明することにより、我々のアプローチを検証する。 以上より,説明はモデルの内部動作に忠実であり,人間には妥当であることが示唆された。 本手法と知見は,音声モデルの解釈に関する今後の研究の道を開くものである。

Recent advances in eXplainable AI (XAI) have provided new insights into how models for vision, language, and tabular data operate. However, few approaches exist for understanding speech models. Existing work focuses on a few spoken language understanding (SLU) tasks, and explanations are difficult to interpret for most users. We introduce a new approach to explain speech classification models. We generate easy-to-interpret explanations via input perturbation on two information levels. 1) Word-level explanations reveal how each word-related audio segment impacts the outcome. 2) Paralinguistic features (e.g., prosody and background noise) answer the counterfactual: ``What would the model prediction be if we edited the audio signal in this way?'' We validate our approach by explaining two state-of-the-art SLU models on two speech classification tasks in English and Italian. Our findings demonstrate that the explanations are faithful to the model's inner workings and plausible to humans. Our method and findings pave the way for future research on interpreting speech models.
翻訳日:2023-09-15 12:54:07 公開日:2023-09-14
# 指数的に強化された非エルミタン冷却

Exponentially Enhanced non-Hermitian Cooling ( http://arxiv.org/abs/2309.07731v1 )

ライセンス: Link先を確認
Haowei Xu, Uro\v{s} Deli\'c, Guoqing Wang, Changhao Li, Paola Cappellaro, and Ju Li(参考訳) ある種の非エルミート系は皮膚効果を示し、そこで波動関数は系の片端で指数関数的に局在する。 このような指数関数的な波動関数の増幅は、古典的および量子センシングなどの応用の可能性から大きな注目を集めている。 しかし、指数的に抑制された波動関数に特徴付けられるシステムの反対側のエッジは、ほとんど探索されていない。 この現象を生かした非エルミタン冷却機構を導入し、従来の冷却技術やレーザー冷却技術と根本的に異なる。 特に、非ハーミティー性は熱励起を増幅するものではなく、むしろ再分配する。 したがって、系の一方の端で熱励起を冷却することができ、環境との散逸相互作用に依存する低い境界を持つにもかかわらず、補助モードの数によって冷却効果を指数関数的に向上させることができる。 非エルミート冷却は例外点や非自明な位相のような複雑な性質に依存しておらず、光子、フォノン、マグノンなどの幅広いボソニックモードに適用することができる。

Certain non-Hermitian systems exhibit the skin effect, whereby the wavefunctions become exponentially localized at one edge of the system. Such exponential amplification of wavefunction has received significant attention due to its potential applications in e.g., classical and quantum sensing. However, the opposite edge of the system, featured by the exponentially suppressed wavefunctions, remains largely unexplored. Leveraging this phenomenon, we introduce a non-Hermitian cooling mechanism, which is fundamentally distinct from traditional refrigeration or laser cooling techniques. Notably, non-Hermiticity will not amplify thermal excitations, but rather redistribute them. Hence, thermal excitations can be cooled down at one edge of the system, and the cooling effect can be exponentially enhanced by the number of auxiliary modes, albeit with a lower bound that depends on the dissipative interaction with the environment. Non-Hermitian cooling does not rely on intricate properties such as exceptional points or non-trivial topology, and it can apply to a wide range of Bosonic modes such as photons, phonons, magnons, etc.
翻訳日:2023-09-15 12:53:49 公開日:2023-09-14
# aidps:水中音響センサネットワークにおける適応的侵入検知・防止システム

AIDPS:Adaptive Intrusion Detection and Prevention System for Underwater Acoustic Sensor Networks ( http://arxiv.org/abs/2309.07730v1 )

ライセンス: Link先を確認
Soumadeep Das, Aryan Mohammadi Pasikhani, Prosanta Gope, John A. Clark, Chintan Patel and Biplab Sikdar(参考訳) 水中音響センサネットワーク(uw-asn)は主に水中環境に使われ、多くの地域で応用されている。 しかしながら、セキュリティ上の考慮の欠如、水中環境の不安定で困難な性質、UW-ASN(セキュリティプリミティブを採用できない)に使用されるセンサノードのリソース制約の性質により、UW-ASNは脆弱性に悩まされる。 本稿では,UW-ASNに対するAIDPS(Adaptive decentralized Intrusion Detection and Prevention System)を提案する。 提案されたAIDPSはUW-ASNのセキュリティを改善し、水中攻撃(例えば、ブラックホール、グレイホール、洪水攻撃)を効率的に検出できる。 提案手法の最も効果的な構成を決定するために,複数の最先端機械学習アルゴリズム(適応ランダムフォレスト(ARF),光勾配ブースティングマシン,K-アネレスト近傍)と概念ドリフト検出アルゴリズム(ADWIN,kdqTree,Page-Hinkleyなど)を用いて実験を行った。 実験結果から,ADWINを用いたインクリメンタルARFは,1クラスサポートベクトルマシン(SVM)異常検出器で実装した場合に最適な性能を示すことがわかった。 さらに,提案手法は最先端のベンチマーキング手法よりも優れた性能を示し,拡張性や複雑性など,より広い範囲の望ましい特徴を提供する。

Underwater Acoustic Sensor Networks (UW-ASNs) are predominantly used for underwater environments and find applications in many areas. However, a lack of security considerations, the unstable and challenging nature of the underwater environment, and the resource-constrained nature of the sensor nodes used for UW-ASNs (which makes them incapable of adopting security primitives) make the UW-ASN prone to vulnerabilities. This paper proposes an Adaptive decentralised Intrusion Detection and Prevention System called AIDPS for UW-ASNs. The proposed AIDPS can improve the security of the UW-ASNs so that they can efficiently detect underwater-related attacks (e.g., blackhole, grayhole and flooding attacks). To determine the most effective configuration of the proposed construction, we conduct a number of experiments using several state-of-the-art machine learning algorithms (e.g., Adaptive Random Forest (ARF), light gradient-boosting machine, and K-nearest neighbours) and concept drift detection algorithms (e.g., ADWIN, kdqTree, and Page-Hinkley). Our experimental results show that incremental ARF using ADWIN provides optimal performance when implemented with One-class support vector machine (SVM) anomaly-based detectors. Furthermore, our extensive evaluation results also show that the proposed scheme outperforms state-of-the-art bench-marking methods while providing a wider range of desirable features such as scalability and complexity.
翻訳日:2023-09-15 12:53:31 公開日:2023-09-14
# PerPLM: ライター固有の中間学習とプロンプトによる事前学習言語モデルのパーソナライズされた微調整

PerPLM: Personalized Fine-tuning of Pretrained Language Models via Writer-specific Intermediate Learning and Prompts ( http://arxiv.org/abs/2309.07727v1 )

ライセンス: Link先を確認
Daisuke Oba, Naoki Yoshinaga, Masashi Toyoda(参考訳) 言葉や句の意味は、使用する場所(文脈)だけでなく、使用する人(作家)にも依存する。 プレトレーニング言語モデル(PLM)はコンテキストをキャプチャするための強力なツールであるが、通常、様々なライターで広く使用されるように訓練され、微調整される。 本研究では, PLMの微調整を具体化することで, テキスト理解タスクの精度を向上させることを目的とする。 我々は、ターゲットライターのプレーンテキストのみをパーソナライズするための一般的な設定に焦点を当てる。 異なるユーザ向けに複数のPLMのコピーを微調整・保存するコストを回避するため、著者固有のプロンプトを用いて統一されたPLMをパーソナライズする。 これらのプロンプトの設計と評価は未開発の領域であるため、設定で可能なさまざまなタイプのプロンプトを導入し、比較する。 文字テキストのタスク非依存の特徴を抽出するマスク付き言語モデリングに基づくパーソナライズされた中間学習を提案する。 実験では、複数のタスク、データセット、PLMを用いて、異なるプロンプトの性質と中間学習アプローチの有効性を明らかにする。

The meanings of words and phrases depend not only on where they are used (contexts) but also on who use them (writers). Pretrained language models (PLMs) are powerful tools for capturing context, but they are typically pretrained and fine-tuned for universal use across different writers. This study aims to improve the accuracy of text understanding tasks by personalizing the fine-tuning of PLMs for specific writers. We focus on a general setting where only the plain text from target writers are available for personalization. To avoid the cost of fine-tuning and storing multiple copies of PLMs for different users, we exhaustively explore using writer-specific prompts to personalize a unified PLM. Since the design and evaluation of these prompts is an underdeveloped area, we introduce and compare different types of prompts that are possible in our setting. To maximize the potential of prompt-based personalized fine-tuning, we propose a personalized intermediate learning based on masked language modeling to extract task-independent traits of writers' text. Our experiments, using multiple tasks, datasets, and PLMs, reveal the nature of different prompts and the effectiveness of our intermediate learning approach.
翻訳日:2023-09-15 12:52:58 公開日:2023-09-14
# L1-Aware Multilingual Mispronunciation Detection Framework

L1-aware Multilingual Mispronunciation Detection Framework ( http://arxiv.org/abs/2309.07719v1 )

ライセンス: Link先を確認
Yassine El Kheir, Shammur Absar Chwodhury, Ahmed Ali(参考訳) 話者の母語(L1)と非母語(L2)との音韻的相違は、誤発音の主要な要因である。 本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。 入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。 まず、入力された音声を基準音素シーケンスに整列させるアテンション機構を配置する。 その後、補助モデルからL1-L2音声埋め込みを抽出し、L1言語とL2言語を識別するマルチタスク設定で事前訓練し、一次ネットワークに注入する。 最後に、L1-MultiMDDは、ターゲット言語である英語、アラビア語、マンダリンに対する接続性時間分類(CTC)の損失を利用して、統一された多言語音素認識タスクに最適化される。 L2-ARTIC, LATIC, AraVoiceL2v2, and unseen -- EpaDB, Speechocean762データセットに対するL1-MultiMDDフレームワークの有効性を示す。 すべてのターゲット言語におけるperとfalse reject rate(frr)の一貫した向上は、我々のアプローチの堅牢性、有効性、一般化性を確認します。

The phonological discrepancies between a speaker's native (L1) and the non-native language (L2) serves as a major factor for mispronunciation. This paper introduces a novel multilingual MDD architecture, L1-MultiMDD, enriched with L1-aware speech representation. An end-to-end speech encoder is trained on the input signal and its corresponding reference phoneme sequence. First, an attention mechanism is deployed to align the input audio with the reference phoneme sequence. Afterwards, the L1-L2-speech embedding are extracted from an auxiliary model, pretrained in a multi-task setup identifying L1 and L2 language, and are infused with the primary network. Finally, the L1-MultiMDD is then optimized for a unified multilingual phoneme recognition task using connectionist temporal classification (CTC) loss for the target languages: English, Arabic, and Mandarin. Our experiments demonstrate the effectiveness of the proposed L1-MultiMDD framework on both seen -- L2-ARTIC, LATIC, and AraVoiceL2v2; and unseen -- EpaDB and Speechocean762 datasets. The consistent gains in PER, and false rejection rate (FRR) across all target languages confirm our approach's robustness, efficacy, and generalizability.
翻訳日:2023-09-15 12:52:35 公開日:2023-09-14
# 人工原子を介して伝送線に結合したフォノニック結晶

A phononic crystal coupled to a transmission line via an artificial atom ( http://arxiv.org/abs/2309.07717v1 )

ライセンス: Link先を確認
Aleksey N. Bolgar, Daniil D. Kirichenko, Rais. S. Shaikhaidarov, Shtefan V. Sanduleanu, Alexander V. Semenov, Aleksey Yu. Dmitriev, Oleg V. Astafiev(参考訳) 量子状態における人工原子 {超伝導量子系 { と相互作用するフォノン結晶について検討する。 フォノニック結晶は、クオッツ表面に細長い金属ストライプの長い格子でできている。 人工原子は送信線と交互に相互作用するため、異なる性質の2つの自由度、音響的および電磁的自由度は単一の量子オブジェクトと結合する。 人工原子上の伝搬電磁波の散乱スペクトルは、音速結晶の音響モードを可視化する。 系をシミュレートし、フォノン結晶の準正規モードとその特性を発見した。 計算は実験により得られたモードと一致しており、これは第1ブリルアンゾーンエッジ付近のフォノン結晶の分散分岐に適合する。 私たちの幾何学は、シンプルでコンパクトなフォノニック結晶に対する量子音響の効果を実現できる。

We study a phononic crystal interacting with an artificial atom { a superconducting quantum system { in the quantum regime. The phononic crystal is made of a long lattice of narrow metallic stripes on a quatz surface. The artificial atom in turn interacts with a transmission line therefore two degrees of freedom of different nature, acoustic and electromagnetic, are coupled with a single quantum object. A scattering spectrum of propagating electromagnetic waves on the artificial atom visualizes acoustic modes of the phononic crystal. We simulate the system and found quasinormal modes of our phononic crystal and their properties. The calculations are consistent with the experimentally found modes, which are fitted to the dispersion branches of the phononic crystal near the first Brillouin zone edge. Our geometry allows to realize effects of quantum acoustics on a simple and compact phononic crystal.
翻訳日:2023-09-15 12:52:12 公開日:2023-09-14
# ベクトル値ニューラルネットワークの理解と実および超複素値ニューラルネットワークとの関係

Understanding Vector-Valued Neural Networks and Their Relationship with Real and Hypercomplex-Valued Neural Networks ( http://arxiv.org/abs/2309.07716v1 )

ライセンス: Link先を確認
Marcos Eduardo Valle(参考訳) 多次元信号と画像処理のためのディープラーニングモデルが成功したにもかかわらず、ほとんどのニューラルネットワークは実数の(多次元)配列で表されるデータを処理している。 特徴チャネル間の相互相関は通常、トレーニングデータから学習され、多くのパラメータと注意深いトレーニングが必要となる。 対照的に、ベクトル値ニューラルネットワークはベクトルの配列を処理し、特徴チャネル間の相互相関を自然に考慮する。 その結果、通常はパラメータが少なく、従来のニューラルネットワークよりも堅牢なトレーニングを受ける。 本稿では,ベクトル値ニューラルネットワーク(V-nets)の広範なフレームワークを提案する。 この文脈では、超複素値ニューラルネットワークは、追加の代数的性質を持つベクトル値モデルと見なされる。 さらに,ベクトル値と従来のニューラルネットワークの関係について述べる。 正確には、実数値モデルに制約を課して特徴チャネル間の相互関係を考えることで、ベクトル値ニューラルネットワークを得ることができる。 最後に、超複素数値ニューラルネットワークを含むV-netが、現在のディープラーニングライブラリを実数値ネットワークとして実装可能であることを示す。

Despite the many successful applications of deep learning models for multidimensional signal and image processing, most traditional neural networks process data represented by (multidimensional) arrays of real numbers. The intercorrelation between feature channels is usually expected to be learned from the training data, requiring numerous parameters and careful training. In contrast, vector-valued neural networks are conceived to process arrays of vectors and naturally consider the intercorrelation between feature channels. Consequently, they usually have fewer parameters and often undergo more robust training than traditional neural networks. This paper aims to present a broad framework for vector-valued neural networks, referred to as V-nets. In this context, hypercomplex-valued neural networks are regarded as vector-valued models with additional algebraic properties. Furthermore, this paper explains the relationship between vector-valued and traditional neural networks. Precisely, a vector-valued neural network can be obtained by placing restrictions on a real-valued model to consider the intercorrelation between feature channels. Finally, we show how V-nets, including hypercomplex-valued neural networks, can be implemented in current deep-learning libraries as real-valued networks.
翻訳日:2023-09-15 12:52:02 公開日:2023-09-14
# 相対論的量子論の基本性質の論理的意味

Logical implications between fundamental properties of relativistic quantum theories ( http://arxiv.org/abs/2309.07715v1 )

ライセンス: Link先を確認
Antoine Soulas(参考訳) 相対論的量子論を制約する数学的整合条件が定式化される。 量子場理論の文脈において、これは物理学の局所性と同値であることが判明し、従ってそれらは実際には2つの冗長な仮説であることが明らかとなった。 また、波動関数の崩壊のエピステマティック解釈を促進し、非局所的な測定に関連する未解決問題に対処し、フェルミオン場の非可測性の新たな証明を提供する。

A mathematical consistency condition constraining any relativistic quantum theory is formulated. It turns out to be equivalent to the locality of physics as well as, in the context of quantum field theory, microcausality, thereby revealing that these are actually two redundant hypotheses. It also promotes an epistemic interpretation of the wavefunction collapse, helps address unsolved problems related to nonlocal measurements and provides a new proof of the non-measurability of fermionic fields.
翻訳日:2023-09-15 12:51:45 公開日:2023-09-14
# 相互作用する量子チャネルに対する因果影響とシグナル伝達の連続性

Continuity of causal influence versus signalling for interacting quantum channels ( http://arxiv.org/abs/2309.07771v1 )

ライセンス: Link先を確認
Paolo Perinotti and Alessandro Tosini and Leonardo Vaglini(参考訳) アリスとボブの量子エージェント間の因果関係は、必ずしも相互作用によって媒介される。 最後のものを可逆的な量子チャネルとしてモデル化すると、アリスの介入はボブの系に因果的影響を与え、アリスとボブの系の間の相関を修正できる。 量子系間の因果的影響は必ずしもシグナル伝達を可能にする。 ここでは因果影響の強さとシグナル伝達の強さの連続性を示す。 相互作用の強度に関する連続性は、等しい入力および出力サブシステムを持つ二部流チャネルにも示される。

A causal relation between quantum agents, say Alice and Bob, is necessarily mediated by an interaction. Modelling the last one as a reversible quantum channel, an intervention of Alice can have causal influence on Bob's system, modifying correlations between Alice and Bob's systems. Causal influence between quantum systems necessarily allows for signalling. Here we prove a continuity relation between the strength of causal influence and that of signalling. The continuity with respect to the intensity of the interaction is also shown for bipartite channels having equal input and output subsystems.
翻訳日:2023-09-15 12:45:53 公開日:2023-09-14
# 変分量子線形解法の拡張量子支持ベクトルマシン

Variational Quantum Linear Solver enhanced Quantum Support Vector Machine ( http://arxiv.org/abs/2309.07770v1 )

ライセンス: Link先を確認
Jianming Yi, Kalyani Suresh, Ali Moghiseh, Norbert Wehn(参考訳) 量子サポートベクトルマシン(QSVM)は、分類などの教師付き機械学習タスクに量子リソースを使用する上で重要な役割を果たす。 しかし、現在の手法は、ノイズ中間スケール量子(NISQ)デバイス上でのスケーラビリティに強く制限されている。 本稿では,変分量子線形ソルバー(VQLS)拡張QSVMという新しい手法を提案する。 これはnisqデバイス上で最小二乗svmの線形方程式系を解くために変分量子線形解法を利用するという考え方に基づいている。 本手法の実装は,3種の異なるiris植物種からなるirisデータセットを用いた広範囲な数値実験によって評価された。 そこで本研究では,特徴空間を1次元から7次元に分類可能な分類器を構築することにより,アルゴリズムの実用性と有効性を検討する。 さらに,アルゴリズムの様々なサブルーチンに対して,古典計算と量子計算の両方を戦略的に活用することにより,実装に伴う実用上の課題を効果的に軽減する。 これらには、変量アンサッツのトレーニング可能性の大幅な改善と、コスト計算における実行時間の顕著な削減が含まれている。 数値実験により,8次元特徴空間において分離超平面を同定する能力を示す。 さらに、同じデータセットを持つさまざまなインスタンスに対して、一貫して強力なパフォーマンスを示している。

Quantum Support Vector Machines (QSVM) play a vital role in using quantum resources for supervised machine learning tasks, such as classification. However, current methods are strongly limited in terms of scalability on Noisy Intermediate Scale Quantum (NISQ) devices. In this work, we propose a novel approach called the Variational Quantum Linear Solver (VQLS) enhanced QSVM. This is built upon our idea of utilizing the variational quantum linear solver to solve system of linear equations of a least squares-SVM on a NISQ device. The implementation of our approach is evaluated by an extensive series of numerical experiments with the Iris dataset, which consists of three distinct iris plant species. Based on this, we explore the practicality and effectiveness of our algorithm by constructing a classifier capable of classification in a feature space ranging from one to seven dimensions. Furthermore, by strategically exploiting both classical and quantum computing for various subroutines of our algorithm, we effectively mitigate practical challenges associated with the implementation. These include significant improvement in the trainability of the variational ansatz and notable reductions in run-time for cost calculations. Based on the numerical experiments, our approach exhibits the capability of identifying a separating hyperplane in an 8-dimensional feature space. Moreover, it consistently demonstrated strong performance across various instances with the same dataset.
翻訳日:2023-09-15 12:45:44 公開日:2023-09-14
# Echotune: ASRタスクにおける可変長音声特性を活用したモジュラー・エクストラクタ

Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks ( http://arxiv.org/abs/2309.07765v1 )

ライセンス: Link先を確認
Sizhou Chen, Songyang Gao, Sen Fang(参考訳) Transformerアーキテクチャは、ASR(Automatic Speech Recognition)タスクに非常に効果的であることが証明され、ドメイン内の多くの研究の基盤となる。 歴史的に、多くのアプローチは固定長の注意窓に依存しており、これは様々な音声サンプルの持続時間と複雑さの問題となり、データの過度な平滑化と重要な長期接続の無視につながる。 この制限に対処するため、様々な音声サンプルの複雑さと持続時間に対応する可変長アテンション機構を備えたニブルモジュールであるEcho-MSAを導入する。 このモジュールは、フレームや音素から単語や談話まで、様々な粒度の音声特徴を抽出する柔軟性を提供する。 提案設計では,音声の可変長の特徴を捉え,固定長注意の限界に対処する。 本評価では,Echo-MSAモジュール出力と従来の注目を一致させる動的ゲーティング機構を補完する並列アテンションアーキテクチャを利用する。 本研究から得られた実証的証拠は,Echo-MSAを初等モデルのトレーニングシステムに組み込むことで,原モデルの本質的な安定性を維持しつつ,単語誤り率(WER)が著しく向上することを明らかにする。

The Transformer architecture has proven to be highly effective for Automatic Speech Recognition (ASR) tasks, becoming a foundational component for a plethora of research in the domain. Historically, many approaches have leaned on fixed-length attention windows, which becomes problematic for varied speech samples in duration and complexity, leading to data over-smoothing and neglect of essential long-term connectivity. Addressing this limitation, we introduce Echo-MSA, a nimble module equipped with a variable-length attention mechanism that accommodates a range of speech sample complexities and durations. This module offers the flexibility to extract speech features across various granularities, spanning from frames and phonemes to words and discourse. The proposed design captures the variable length feature of speech and addresses the limitations of fixed-length attention. Our evaluation leverages a parallel attention architecture complemented by a dynamic gating mechanism that amalgamates traditional attention with the Echo-MSA module output. Empirical evidence from our study reveals that integrating Echo-MSA into the primary model's training regime significantly enhances the word error rate (WER) performance, all while preserving the intrinsic stability of the original model.
翻訳日:2023-09-15 12:45:24 公開日:2023-09-14
# pre:再パラメータエンコーダを用いた視覚言語プロンプト学習

PRE: Vision-Language Prompt Learning with Reparameterization Encoder ( http://arxiv.org/abs/2309.07760v1 )

ライセンス: Link先を確認
Anh Pham Thi Minh(参考訳) CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。 しかし、最適な性能を得るためには、下流画像分布とテキストクラス記述との整合を改善するために、プロンプトの手動選択が必要である。 この手動のプロンプトエンジニアリングは、ドメインの専門知識を必要とし、非常に時間がかかるため、実際にモデルをデプロイするための大きな課題です。 非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。 CoOpは手動のプロンプトよりも大幅に改善できるが、学習コンテキストは、同じデータセット内のより広い未確認クラスにさらに一般化できる。 本研究では,基本クラスを学習する能力を維持しつつ,学習可能なプロンプトの非知覚クラスへの一般化能力を高めるための,シンプルで効率的な手法であるreparameterization encoder (pre) を用いたプロンプト学習を提案する。 プロンプトを直接最適化する代わりに、Preはプロンプトエンコーダを使用して入力プロンプト埋め込みを再パラメータ化し、少数のサンプルからタスク固有の知識を探索する。 8つのベンチマークの実験と広範囲なアブレーション研究は、我々のアプローチが迅速な学習の効率的な方法であることを示している。 具体的には、preは、新しいクラスの平均精度が5.60%、調和平均が3%という注目すべき向上を達成している。

Large pre-trained vision-language models such as CLIP have demonstrated great potential in zero-shot transferability to downstream tasks. However, to attain optimal performance, the manual selection of prompts is necessary to improve alignment between the downstream image distribution and the textual class descriptions. This manual prompt engineering is the major challenge for deploying such models in practice since it requires domain expertise and is extremely time-consuming. To avoid non-trivial prompt engineering, recent work Context Optimization (CoOp) introduced the concept of prompt learning to the vision domain using learnable textual tokens. While CoOp can achieve substantial improvements over manual prompts, its learned context is worse generalizable to wider unseen classes within the same dataset. In this work, we present Prompt Learning with Reparameterization Encoder (PRE) - a simple and efficient method that enhances the generalization ability of the learnable prompt to unseen classes while maintaining the capacity to learn Base classes. Instead of directly optimizing the prompts, PRE employs a prompt encoder to reparameterize the input prompt embeddings, enhancing the exploration of task-specific knowledge from few-shot samples. Experiments and extensive ablation studies on 8 benchmarks demonstrate that our approach is an efficient method for prompt learning. Specifically, PRE achieves a notable enhancement of 5.60% in average accuracy on New classes and 3% in Harmonic mean compared to CoOp in the 16-shot setting, all achieved within a good training time.
翻訳日:2023-09-15 12:45:00 公開日:2023-09-14
# prograsp: 物体把握のための実用的ヒューマンロボットコミュニケーション

PROGrasp: Pragmatic Human-Robot Communication for Object Grasping ( http://arxiv.org/abs/2309.07759v1 )

ライセンス: Link先を確認
Gi-Cheon Kang, Junghyun Kim, Jaein Kim, Byoung-Tak Zhang(参考訳) 対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。 現在のIOGシステムは、人間が最初に対象のオブジェクトのカテゴリ(例えばボトル)を指定すると仮定している。 目的達成のためにコンテキストに依存して意図を伝達する実践的手法に触発されて,新たなIOGタスクであるPragmatic-IOGと,それに対応するデータセットであるIntention-oriented Multi-modal Dialogue (IM-Dial)を導入する。 提案するタスクシナリオでは、まず、意図指向の発話(例えば「喉が渇いている」など)がロボットに与えられる。 ロボットは、人間のユーザと対話することで、対象物を識別する。 タスク設定に基づいて,ユーザの意図を解釈し,対象物であるPROGrasp(Pragmatic Object Grasping)をピックアップするロボットシステムを提案する。 PROGraspは、視覚的なグラウンドニング、質問、オブジェクトの把握、そして最も重要なのは、実用的推論の解答解釈のモジュールを組み込むことで、Pragmatic-IOGを実行する。 ProGraspはオフライン(ターゲットオブジェクト発見)やオンライン(物理ロボットアーム付きIOG)の設定で有効であることを示す実験結果が得られた。

Interactive Object Grasping (IOG) is the task of identifying and grasping the desired object via human-robot natural language interaction. Current IOG systems assume that a human user initially specifies the target object's category (e.g., bottle). Inspired by pragmatics, where humans often convey their intentions by relying on context to achieve goals, we introduce a new IOG task, Pragmatic-IOG, and the corresponding dataset, Intention-oriented Multi-modal Dialogue (IM-Dial). In our proposed task scenario, an intention-oriented utterance (e.g., "I am thirsty") is initially given to the robot. The robot should then identify the target object by interacting with a human user. Based on the task setup, we propose a new robotic system that can interpret the user's intention and pick up the target object, Pragmatic Object Grasping (PROGrasp). PROGrasp performs Pragmatic-IOG by incorporating modules for visual grounding, question asking, object grasping, and most importantly, answer interpretation for pragmatic inference. Experimental results show that PROGrasp is effective in offline (i.e., target object discovery) and online (i.e., IOG with a physical robot arm) settings.
翻訳日:2023-09-15 12:44:32 公開日:2023-09-14
# Ensemble LLMアプローチによるAIテキストの生成

Generative AI Text Classification using Ensemble LLM Approaches ( http://arxiv.org/abs/2309.07755v1 )

ライセンス: Link先を確認
Harika Abburi, Michael Suesserman, Nirmala Pudota, Balaji Veeramani, Edward Bowen, Sanmitra Bhattacharya(参考訳) 大規模言語モデル(LLM)は、さまざまな人工知能(AI)や、コンテンツ生成やレポート生成などの自然言語処理タスクにおいて、優れたパフォーマンスを示している。 しかし、これらのモデルの不正な適用は、偽ニュースの生成や盗作など、望ましくない結果をもたらす可能性がある。 結果として、AI生成言語の正確な検出は、LLMの使用に責任を負う上で重要である。 この研究において、我々は 1)テキストの特定の本体が人間によって生成されるAIであるか否か、及び 2)本文の生成における特定の言語モデルの帰属。 英語とスペイン語の両方のテキストが検討されている。 この研究で使用されるデータセットは、自動テキスト識別(AuTexTification)共有タスクの一部として提供される。 上記の研究目的のそれぞれに対して,従来の機械学習(TML)分類器の機能として使用される,学習前の異なるLLMから確率を生成するアンサンブルニューラルモデルを提案する。 aiと人間の生成したテキストを区別する最初のタスクとして、英語とスペイン語のテキストでは、それぞれ5位と13位(マクロ$f1$スコア 0.733と0.649)でランク付けしました。 モデル属性に関する第2のタスクでは、マクロ$F1$スコアが0.625と0.653で、それぞれ英語とスペイン語のテキストが1位でした。

Large Language Models (LLMs) have shown impressive performance across a variety of Artificial Intelligence (AI) and natural language processing tasks, such as content creation, report generation, etc. However, unregulated malign application of these models can create undesirable consequences such as generation of fake news, plagiarism, etc. As a result, accurate detection of AI-generated language can be crucial in responsible usage of LLMs. In this work, we explore 1) whether a certain body of text is AI generated or written by human, and 2) attribution of a specific language model in generating a body of text. Texts in both English and Spanish are considered. The datasets used in this study are provided as part of the Automated Text Identification (AuTexTification) shared task. For each of the research objectives stated above, we propose an ensemble neural model that generates probabilities from different pre-trained LLMs which are used as features to a Traditional Machine Learning (TML) classifier following it. For the first task of distinguishing between AI and human generated text, our model ranked in fifth and thirteenth place (with macro $F1$ scores of 0.733 and 0.649) for English and Spanish texts, respectively. For the second task on model attribution, our model ranked in first place with macro $F1$ scores of 0.625 and 0.653 for English and Spanish texts, respectively.
翻訳日:2023-09-15 12:44:09 公開日:2023-09-14
# セマンティック・レベル・コンセンサス抽出と分散による共分散物体検出

Co-Salient Object Detection with Semantic-Level Consensus Extraction and Dispersion ( http://arxiv.org/abs/2309.07753v1 )

ライセンス: Link先を確認
Peiran Xu, Yadong Mu(参考訳) 画像群が与えられた場合、cosod(co-salient object detection)は、各画像内の共通のサルエントオブジェクトを強調することを目的としている。 この課題の成功には、コンセンサス抽出と、各画像に対するコンセンサス分散という2つの要因が密接に関連している。 これまでのほとんどの研究は局所的な特徴を用いてグループコンセンサスを表現するが、代わりに階層変換モジュールを使って意味レベルのコンセンサスを抽出する。 したがって、共通のオブジェクトカテゴリをより包括的に表現することができ、ターゲットオブジェクトと局所的な類似性を共有する他のオブジェクトからの干渉を排除できる。 さらに,異なるシーンにおける共分散オブジェクトの変動を考慮したTransformerベースの分散モジュールを提案する。 グループ内のインタラクションを最大限に活用しながら、イメージ特有の方法で画像フィーチャーマップにコンセンサスを配布する。 これら2つのモジュールは、ViTエンコーダとFPNライクなデコーダと統合され、追加の分岐と補助損失なしにエンドツーエンドのトレーニング可能なネットワークを形成する。 提案手法は,3つの一般的なCoSODデータセットを用いて評価し,最先端の性能を実現する。

Given a group of images, co-salient object detection (CoSOD) aims to highlight the common salient object in each image. There are two factors closely related to the success of this task, namely consensus extraction, and the dispersion of consensus to each image. Most previous works represent the group consensus using local features, while we instead utilize a hierarchical Transformer module for extracting semantic-level consensus. Therefore, it can obtain a more comprehensive representation of the common object category, and exclude interference from other objects that share local similarities with the target object. In addition, we propose a Transformer-based dispersion module that takes into account the variation of the co-salient object in different scenes. It distributes the consensus to the image feature maps in an image-specific way while making full use of interactions within the group. These two modules are integrated with a ViT encoder and an FPN-like decoder to form an end-to-end trainable network, without additional branch and auxiliary loss. The proposed method is evaluated on three commonly used CoSOD datasets and achieves state-of-the-art performance.
翻訳日:2023-09-15 12:43:48 公開日:2023-09-14
# DT-NeRF:高忠実トーキングポートレート合成のための分解三面体-ハッシュニューラル放射場

DT-NeRF: Decomposed Triplane-Hash Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis ( http://arxiv.org/abs/2309.07752v1 )

ライセンス: Link先を確認
Yaoyu Su, Shaohui Wang, Haoqian Wang(参考訳) 本稿では,分割三平面・ハッシュニューラル・ラジアンス・フィールド(dt-nerf)について述べる。このフレームワークは,発話面のフォトリアリスティックなレンダリングを著しく改善し,キー評価データセットで最先端の結果を得る。 本アーキテクチャでは,顔領域を2つの特殊三葉機に分解し,その1つは口の表現に特化し,もう1つはより広い顔の特徴に特化している。 音声特徴を残差項として導入し,音声-口頭変換器を用いてクエリベクトルとしてモデルに統合する。 さらに,この手法はニューラルラジアンス場(NeRF)の機能を活用し,付加的なボリュームレンダリング技術により顔全体の容積表現を強化する。 提案手法の有効性と優位性を包括的に評価した。

In this paper, we present the decomposed triplane-hash neural radiance fields (DT-NeRF), a framework that significantly improves the photorealistic rendering of talking faces and achieves state-of-the-art results on key evaluation datasets. Our architecture decomposes the facial region into two specialized triplanes: one specialized for representing the mouth, and the other for the broader facial features. We introduce audio features as residual terms and integrate them as query vectors into our model through an audio-mouth-face transformer. Additionally, our method leverages the capabilities of Neural Radiance Fields (NeRF) to enrich the volumetric representation of the entire face through additive volumetric rendering techniques. Comprehensive experimental evaluations corroborate the effectiveness and superiority of our proposed approach.
翻訳日:2023-09-15 12:43:27 公開日:2023-09-14
# OmnimatteRF:3次元背景モデリングによるロバストオムニマット

OmnimatteRF: Robust Omnimatte with 3D Background Modeling ( http://arxiv.org/abs/2309.07749v1 )

ライセンス: Link先を確認
Geng Lin, Chen Gao, Jia-Bin Huang, Changil Kim, Yipeng Wang, Matthias Zwicker, Ayush Saraf(参考訳) ビデオマッティングは、カジュアルに撮られた映画に面白い効果を加えることや、ビデオ制作のプロフェッショナルを支援することなど、幅広い応用がある。 シャドウやリフレクションなどの関連した効果をマッティングする研究活動も増えており、omnimatteのような手法は、関心のある動的前景オブジェクトを自身の層に分離するために提案されている。 しかし、以前の作品では、ビデオの背景を2D画像層として表現しており、より複雑なシーンを表現できる能力に制限されているため、現実世界のビデオへの応用を妨げている。 本稿では,動的2次元フォアグラウンド層と3次元背景モデルを組み合わせた新しいビデオマットリング法omnimatterfを提案する。 2dレイヤーは被写体の詳細を保存し、3d背景は実世界ビデオのシーンを堅牢に再現する。 広範に実験した結果,本手法は映像の再現性が向上した。

Video matting has broad applications, from adding interesting effects to casually captured movies to assisting video production professionals. Matting with associated effects such as shadows and reflections has also attracted increasing research activity, and methods like Omnimatte have been proposed to separate dynamic foreground objects of interest into their own layers. However, prior works represent video backgrounds as 2D image layers, limiting their capacity to express more complicated scenes, thus hindering application to real-world videos. In this paper, we propose a novel video matting method, OmnimatteRF, that combines dynamic 2D foreground layers and a 3D background model. The 2D layers preserve the details of the subjects, while the 3D background robustly reconstructs scenes in real-world videos. Extensive experiments demonstrate that our method reconstructs scenes with better quality on various videos.
翻訳日:2023-09-15 12:43:13 公開日:2023-09-14
# facebook上の偽情報のecho-chambers

Disinformation Echo-chambers on Facebook ( http://arxiv.org/abs/2309.07745v1 )

ライセンス: Link先を確認
Mathias-Felipe de-Lima-Santos and Wilson Ceron(参考訳) 情報環境は、インターネットとオンラインソーシャルネットワークの拡大によって劇的な変化を遂げた。 楽観的な見解は、オンラインコミュニケーションが参加の文化を育むと考えた。 しかし、最近の出来事は、ソーシャルメディアプラットフォームは、ユーザーが既存の信念を露呈することでコンテンツの多様性を制限していることを示唆している。 さらに、悪質な意図を持つユーザーは、これらのプラットフォームを使って人々をだまして民主的なプロセスを軽視している。 この2つの現象をよりよく理解するために、本章では、投稿、url、画像上のfacebookグループの協調的不正確な行動を分析する計算手法について記述する。 以上の結果から,Facebookグループは同一項目をほぼ同時に共有していたことが示唆された。 すると、これらの集団が偽情報エコーチャンバーに似ており、偽情報ナラティブの活動が繰り返し共有されていることがわかりました。 この章は理論と実証的な意味で終わる。

The information landscape has undergone dramatic changes with the expansion of the internet and online social networks. Optimistic views thought that online communication would foster a culture of participation. However, recent events suggest that social media platforms limit the diversity of the content by exposing users to pre-existing beliefs, which is known by the metaphor of echo chambers. In addition, users with malicious intent are using these platforms to deceive people and discredit the democratic process. To better understand these two phenomena, this chapter describes a computational method to analyze coordinated inauthentic behavior on Facebook groups on posts, URLs, and images. Our findings suggest that Facebook groups shared identical items almost simultaneously by different entities. In doing so, we could identify that these groups resemble disinformation echo chambers, where repeatedly sharing activities of disinformation narratives occur. The chapter concludes with theoretical and empirical implications.
翻訳日:2023-09-15 12:42:57 公開日:2023-09-14
# 自動運転のための模倣学習の交通規則遵守の強化に何が重要か

What Matters to Enhance Traffic Rule Compliance of Imitation Learning for Automated Driving ( http://arxiv.org/abs/2309.07808v1 )

ライセンス: Link先を確認
Hongkuan Zhou, Aifen Sui, Wei Cao, Letian Shi(参考訳) 最近、より単純な構造と高速な推論時間のために、運転パイプライン全体を1つのニューラルネットワークに置き換えるエンドツーエンドの自動運転技術に研究の注意が向けられている。 この魅力的なアプローチは、駆動パイプラインのコンポーネントを大幅に削減するが、その単純さは解釈可能性の問題と安全性の問題にも繋がる:2003.06404。 訓練された政策は、必ずしも交通規則に準拠するわけではないし、中間出力が不足しているため、誤った行動の理由を見つけることも困難である。 一方、センサーは、複雑な運転シナリオの下で周囲の環境を認識できる、自動運転のセキュリティと実現可能性にも重要である。 本稿では,エンド・ツー・エンドの自動運転性能を向上させるために,クロスセマンティクス生成センサ融合技術を用いた新しいペナルティに基づく模倣学習手法であるp-csgを提案する。 我々は,タウン05ロングベンチマークを用いて,本モデルの性能評価を行い,15%以上の印象的な運転スコア改善を達成した。 さらに,FGSMやDot攻撃などの敵攻撃に対するロバストネス評価を行い,ベースラインモデルと比較してロバストネスが著しく増加し,コードベースリソースやアブレーション研究,ビデオなどの詳細な情報がhttps://hk-zh.github.io/p-csg-plusで見られるようになった。

More research attention has recently been given to end-to-end autonomous driving technologies where the entire driving pipeline is replaced with a single neural network because of its simpler structure and faster inference time. Despite this appealing approach largely reducing the components in driving pipeline, its simplicity also leads to interpretability problems and safety issues arXiv:2003.06404. The trained policy is not always compliant with the traffic rules and it is also hard to discover the reason for the misbehavior because of the lack of intermediate outputs. Meanwhile, Sensors are also critical to autonomous driving's security and feasibility to perceive the surrounding environment under complex driving scenarios. In this paper, we proposed P-CSG, a novel penalty-based imitation learning approach with cross semantics generation sensor fusion technologies to increase the overall performance of End-to-End Autonomous Driving. We conducted an assessment of our model's performance using the Town 05 Long benchmark, achieving an impressive driving score improvement of over 15%. Furthermore, we conducted robustness evaluations against adversarial attacks like FGSM and Dot attacks, revealing a substantial increase in robustness compared to baseline models.More detailed information, such as code-based resources, ablation studies and videos can be found at https://hk-zh.github.io/p-csg-plus.
翻訳日:2023-09-15 12:35:19 公開日:2023-09-14
# ポップクイズ! トレーニング済みのコードモデルは、正しいAPI名を知っているか?

Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API Names? ( http://arxiv.org/abs/2309.07804v1 )

ライセンス: Link先を確認
Terry Yue Zhuo, Xiaoning Du, Zhenchang Xing, Jiamou Sun, Haowei Quan, Li Li, Liming Zhu(参考訳) CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。 これらのコードモデル間のapi使用の正確性とあいまいさは、望ましいプログラム機能を達成するために不可欠であり、様々なapiを構造的および意味的に完全に修飾された名前を学ぶ必要がある。 最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。 しかし、このようなAPI使用率低下の理由はほとんど調査されていない。 この課題に対処するために,clozeスタイルのテストを用いてモデルに格納された知識を測定するコードモデルの解釈手段として,知識探索の利用を提案する。 包括的調査では,APIコールとAPIインポートという2つの視点から,APIの完全修飾名を理解するためのコードモデルの能力について検討した。 具体的には、現在のコードモデルがAPI名を理解するのに苦労していることを明らかにする。 自然言語のコンテキストは、Python APIの名前の特定や、Python APIの名前の知識の一般化において、コードモデルを支援することができる。 今回の調査結果は,現在の事前トレーニング済みコードモデルの限界と能力に関する洞察を提供し,事前トレーニングプロセスにapi構造を組み込むことで,api使用自動化とコード表現の改善が期待できる。 この研究は、コードインテリジェンスの実践を前進させ、今後の研究の方向性を示す。 この研究で使用されるすべての実験結果、データおよびソースコードは \url{https://doi.org/10.5281/zenodo.7902072} で入手できる。

Recent breakthroughs in pre-trained code models, such as CodeBERT and Codex, have shown their superior performance in various downstream tasks. The correctness and unambiguity of API usage among these code models are crucial for achieving desirable program functionalities, requiring them to learn various API fully qualified names structurally and semantically. Recent studies reveal that even state-of-the-art pre-trained code models struggle with suggesting the correct APIs during code generation. However, the reasons for such poor API usage performance are barely investigated. To address this challenge, we propose using knowledge probing as a means of interpreting code models, which uses cloze-style tests to measure the knowledge stored in models. Our comprehensive study examines a code model's capability of understanding API fully qualified names from two different perspectives: API call and API import. Specifically, we reveal that current code models struggle with understanding API names, with pre-training strategies significantly affecting the quality of API name learning. We demonstrate that natural language context can assist code models in locating Python API names and generalize Python API name knowledge to unseen data. Our findings provide insights into the limitations and capabilities of current pre-trained code models, and suggest that incorporating API structure into the pre-training process can improve automated API usage and code representations. This work provides significance for advancing code intelligence practices and direction for future studies. All experiment results, data and source code used in this work are available at \url{https://doi.org/10.5281/zenodo.7902072}.
翻訳日:2023-09-15 12:34:51 公開日:2023-09-14
# ストーリーテリングの力学原理

The Dynamical Principles of Storytelling ( http://arxiv.org/abs/2309.07797v1 )

ライセンス: Link先を確認
Isidoros Doxas (1 and 2), James Meiss (3), Steven Bottone (1), Tom Strelich (4 and 5), Andrew Plummer (5 and 6), Adrienne Breland (5 and 7), Simon Dennis (8 and 9), Kathy Garvin-Doxas (9 and 10), Michael Klymkowsky (3) ((1) Northrop Grumman Corporation, (2) Some work performed at the University of Colorado, Boulder, (3) University of Colorado, Boulder, (4) Fusion Constructive LLC, (5) Work performed at Northop Grumman Corporation (6) Current Address JP Morgan, (7) Current address, GALT Aerospace, (8) University of Melbourne, (9) Work performed at the University of Colorado, Boulder, (10) Boulder Internet Technologies)(参考訳) 1800の短編の冒頭を考えると、平均的な物語の1ダースの段落はarxiv:2309.06600で定義された行動原理に従うことが分かる。 段落の順序が絞られた場合、平均はもはやこの性質を示さない。 この結果は、物語を始める際に意味空間に優先的な方向があることを示し、おそらくはアリストテレス・イン・ポエティクス(Aristotle in Poetics)が示唆した、西洋の一般的な物語作りの伝統に関連している。

When considering the opening part of 1800 short stories, we find that the first dozen paragraphs of the average narrative follow an action principle as defined in arXiv:2309.06600. When the order of the paragraphs is shuffled, the average no longer exhibits this property. The findings show that there is a preferential direction we take in semantic space when starting a story, possibly related to a common Western storytelling tradition as implied by Aristotle in Poetics.
翻訳日:2023-09-15 12:34:26 公開日:2023-09-14
# 6dof物体ポーズ追跡のより包括的評価のために

For A More Comprehensive Evaluation of 6DoF Object Pose Tracking ( http://arxiv.org/abs/2309.07796v1 )

ライセンス: Link先を確認
Yang Li, Fan Zhong, Xin Wang, Shuangbing Song, Jiachen Li, Xueying Qin and Changhe Tu(参考訳) 6DoFオブジェクトのポーズトラッキングに関する以前の評価では、この領域の開発とともに明らかな限界が示されている。 特に、評価プロトコルは異なるメソッドに対して統一されておらず、広く使われているYCBVデータセットには重要なアノテーションエラーが含まれており、エラーメトリクスにもバイアスがある可能性がある。 その結果、新しいアルゴリズムを開発する上で大きな障害となっている手法を適切に比較することは困難である。 本稿では,上記の問題に対処するための統一ベンチマークを提案する。 ycbvのより正確なアノテーションのために、全てのオブジェクトのポーズを洗練し、カメラを視認し、ピクセル以下のサブミリ波アライメントエラーを生じさせるマルチビューマルチオブジェクト・グローバルポーズリファインメント法を提案する。 従来のスコアリング手法と誤差指標の限界を分析し,改良された評価手法を紹介する。 統一されたベンチマークでは、YCBVとBCOTの両方をベースデータセットとしており、シーンカテゴリで補完的であることが示されている。 実験では,提案手法の精度と信頼性を,特にycbvのための現実的な半合成データセットを用いて検証し,そのベンチマーク結果を用いて学習非学習法とrgb&rgbd法を統一した。

Previous evaluations on 6DoF object pose tracking have presented obvious limitations along with the development of this area. In particular, the evaluation protocols are not unified for different methods, the widely-used YCBV dataset contains significant annotation error, and the error metrics also may be biased. As a result, it is hard to fairly compare the methods, which has became a big obstacle for developing new algorithms. In this paper we contribute a unified benchmark to address the above problems. For more accurate annotation of YCBV, we propose a multi-view multi-object global pose refinement method, which can jointly refine the poses of all objects and view cameras, resulting in sub-pixel sub-millimeter alignment errors. The limitations of previous scoring methods and error metrics are analyzed, based on which we introduce our improved evaluation methods. The unified benchmark takes both YCBV and BCOT as base datasets, which are shown to be complementary in scene categories. In experiments, we validate the precision and reliability of the proposed global pose refinement method with a realistic semi-synthesized dataset particularly for YCBV, and then present the benchmark results unifying learning&non-learning and RGB&RGBD methods, with some finds not discovered in previous studies.
翻訳日:2023-09-15 12:34:16 公開日:2023-09-14
# 画像テキスト補助タスクの活用によるソーシャルメディア投稿のマルチモーダル分類の改善

Improving Multimodal Classification of Social Media Posts by Leveraging Image-Text Auxiliary tasks ( http://arxiv.org/abs/2309.07794v1 )

ライセンス: Link先を確認
Danae S\'anchez Villegas, Daniel Preo\c{t}iuc-Pietro, Nikolaos Aletras(参考訳) ソーシャルメディア投稿からのマルチモーダル情報を効果的に活用することは、感情分析、皮肉検出、ヘイトスピーチ分類などの下流タスクに不可欠である。 しかし, テキスト情報と画像情報の組み合わせは, 一致した画像テキスト対に存在する隠蔽情報や補補完情報と, 慣用的横断的意味論により困難である。 本研究は,事前学習したマルチモーダルモデルの微調整を行う際に,メインタスクと協調して2つの補助損失の利用を提案することにより,直接モデル化することを目的とする。 Image-Text Contrastive (ITC)は、投稿のイメージテキスト表現を近接させ、異なる投稿から分離し、基盤となる依存関係をキャプチャする。 画像テキストマッチング(ITM)は、画像とテキスト間の意味的対応の理解を容易にする。 これらの目的を5つのマルチモーダルモデルと組み合わせ,4つの人気のあるソーシャルメディアデータセットで一貫した改善を示す。 さらに,詳細な分析を行い,各補助タスクが最も効果的であることを示す特定のシナリオと事例について考察した。

Effectively leveraging multimodal information from social media posts is essential to various downstream tasks such as sentiment analysis, sarcasm detection and hate speech classification. However, combining text and image information is challenging because of the idiosyncratic cross-modal semantics with hidden or complementary information present in matching image-text pairs. In this work, we aim to directly model this by proposing the use of two auxiliary losses jointly with the main task when fine-tuning any pre-trained multimodal model. Image-Text Contrastive (ITC) brings image-text representations of a post closer together and separates them from different posts, capturing underlying dependencies. Image-Text Matching (ITM) facilitates the understanding of semantic correspondence between images and text by penalizing unrelated pairs. We combine these objectives with five multimodal models, demonstrating consistent improvements across four popular social media datasets. Furthermore, through detailed analysis, we shed light on the specific scenarios and cases where each auxiliary task proves to be most effective.
翻訳日:2023-09-15 12:33:53 公開日:2023-09-14
# マルチイン・マルチアウト樹状ニューロンモデルとその最適化

A Multi-In and Multi-Out Dendritic Neuron Model and its Optimization ( http://arxiv.org/abs/2309.07791v1 )

ライセンス: Link先を確認
Yu Ding, Jun Yu, Chunzhi Gu, Shangce Gao, Chao Zhang(参考訳) 実ニューロンの相互接続にインスパイアされた人工ニューラルネットワーク(ANN)は、コンピュータビジョンや自然言語処理といった様々な分野で前例のない成功を収めている。 近年,樹状ニューロンモデル(DNM)と呼ばれる新しい数学的ANNモデルが提案され,実際のニューロンの構造をより正確に反映することで非線形問題に対処している。 しかし、シングルアウトプット設計はマルチアウトプットタスクの処理能力を制限し、アプリケーションを大幅に削減した。 本稿では,多出力タスクに対処する新しいマルチイン・マルチアウト樹状ニューロンモデル(MODN)を提案する。 我々の中核となる考え方は、それぞれの出力を回帰するために所望のデンドライトを適応的に選択するために、ソマ層にフィルタリング行列を導入することである。 このような行列は学習可能なように設計されているため、MODNは各デンドライトと出力の関係を調べ、下流タスクに対するより良い解決策を提供することができる。 また、テロデンドロン層をmodnにモデル化し、実際のニューロンの挙動をよりよくシミュレートする。 重要なことは、MODNはより一般的で統一されたフレームワークであり、フィルター行列をカスタマイズすることでDNMとして自然に特殊化することができる。 modnの最適化を検討するために,ヒューリスティックと勾配に基づく最適化について検討し,modnの2段階学習法を提案する。 バイナリクラスとマルチクラスの両方の分類タスクで11のデータセットで行った広範な実験の結果は、正確性、収束性、汎用性に関してmodnの有効性を示している。

Artificial neural networks (ANNs), inspired by the interconnection of real neurons, have achieved unprecedented success in various fields such as computer vision and natural language processing. Recently, a novel mathematical ANN model, known as the dendritic neuron model (DNM), has been proposed to address nonlinear problems by more accurately reflecting the structure of real neurons. However, the single-output design limits its capability to handle multi-output tasks, significantly lowering its applications. In this paper, we propose a novel multi-in and multi-out dendritic neuron model (MODN) to tackle multi-output tasks. Our core idea is to introduce a filtering matrix to the soma layer to adaptively select the desired dendrites to regress each output. Because such a matrix is designed to be learnable, MODN can explore the relationship between each dendrite and output to provide a better solution to downstream tasks. We also model a telodendron layer into MODN to simulate better the real neuron behavior. Importantly, MODN is a more general and unified framework that can be naturally specialized as the DNM by customizing the filtering matrix. To explore the optimization of MODN, we investigate both heuristic and gradient-based optimizers and introduce a 2-step training method for MODN. Extensive experimental results performed on 11 datasets on both binary and multi-class classification tasks demonstrate the effectiveness of MODN, with respect to accuracy, convergence, and generality.
翻訳日:2023-09-15 12:33:34 公開日:2023-09-14
# ベクトル値カーネル回帰のためのオンラインアルゴリズムの収束解析

Convergence analysis of online algorithms for vector-valued kernel regression ( http://arxiv.org/abs/2309.07779v1 )

ライセンス: Link先を確認
Michael Griebel and Peter Oswald(参考訳) 本稿では,オンライン学習アルゴリズムによる雑音ベクトル値データから回帰関数を近似する問題を,適切な再現カーネルヒルベルト空間(rkhs)を用いて検討する。 オンラインアルゴリズムでは、サンプルはランダムなプロセスによって一つずつ利用可能となり、回帰関数に近似を構築するために順次処理される。 我々は、そのようなオンライン近似アルゴリズムの漸近的性能に興味を持ち、RKHSノルムの期待二乗誤差が$C^2 (m+1)^{-s/(2+s)}$でバウンドできることを示し、$m$は現在の処理データの数であり、パラメータ$0<s\leq 1$は回帰関数に対するさらなる滑らかさの仮定を表し、定数$C$は入力ノイズの分散、回帰関数の滑らかさ、アルゴリズムのさらなるパラメータに依存する。

We consider the problem of approximating the regression function from noisy vector-valued data by an online learning algorithm using an appropriate reproducing kernel Hilbert space (RKHS) as prior. In an online algorithm, i.i.d. samples become available one by one by a random process and are successively processed to build approximations to the regression function. We are interested in the asymptotic performance of such online approximation algorithms and show that the expected squared error in the RKHS norm can be bounded by $C^2 (m+1)^{-s/(2+s)}$, where $m$ is the current number of processed data, the parameter $0<s\leq 1$ expresses an additional smoothness assumption on the regression function and the constant $C$ depends on the variance of the input noise, the smoothness of the regression function and further parameters of the algorithm.
翻訳日:2023-09-15 12:33:07 公開日:2023-09-14
# Virchow:100万ドルのデジタル病理モデル

Virchow: A Million-Slide Digital Pathology Foundation Model ( http://arxiv.org/abs/2309.07778v1 )

ライセンス: Link先を確認
Eugene Vorontsov, Alican Bozkurt, Adam Casson, George Shaikovski, Michal Zelechowski, Siqi Liu, Philippe Mathieu, Alexander van Eck, Donghun Lee, Julian Viret, Eric Robert, Yi Kan Wang, Jeremy D. Kun, Matthew C. H. Le, Jan Bernhard, Ran A. Godrich, Gerard Oakley, Ewan Millar, Matthew Hanna, Juan Retamero, William A. Moye, Razik Yousfi, Christopher Kanan, David Klimstra, Brandon Rothrock, Thomas J. Fuchs(参考訳) 計算病理学は人工知能を使用して、スライド画像全体の分析を通じて精密医療と意思決定支援システムを可能にする。 がんの診断と治療に革命をもたらす可能性がある。 しかし、この目的に対する大きな課題は、多くの特定の計算病理タスクにおいて、データの量は開発に不十分であることである。 この課題に対処するため、計算病理学のための6億2200万のパラメータディープニューラルネットワーク基盤モデルであるVirchowを開発した。 virchowは自己教師付き学習を用いて150万ヘマトキシリンとエオシンを訓練し、様々な組織群からスライド画像全体を染色した。 タイルレベルのパンカンサー検出やサブタイピング、スライドレベルのバイオマーカー予測などの下流タスクで評価されると、Virchowは、トレーニング済みデータと同じ人口から引き出された内部データセットと、外部の公開データセットの両方で、最先端のシステムよりも優れている。 Virchowは膵管タイル分類では93%の精度で,大腸微小静脈不安定症では0.983,乳癌では0.967であった。 パフォーマンスの向上は、大量の病理画像データセットの事前トレーニングの重要性を強調しており、さらに大きなデータセットの事前トレーニングは、薬物結果予測などの限られたトレーニングデータが利用できる多くの高インパクトアプリケーションの性能向上を継続する可能性があることを示唆している。

Computational pathology uses artificial intelligence to enable precision medicine and decision support systems through the analysis of whole slide images. It has the potential to revolutionize the diagnosis and treatment of cancer. However, a major challenge to this objective is that for many specific computational pathology tasks the amount of data is inadequate for development. To address this challenge, we created Virchow, a 632 million parameter deep neural network foundation model for computational pathology. Using self-supervised learning, Virchow is trained on 1.5 million hematoxylin and eosin stained whole slide images from diverse tissue groups, which is orders of magnitude more data than previous works. When evaluated on downstream tasks including tile-level pan-cancer detection and subtyping and slide-level biomarker prediction, Virchow outperforms state-of-the-art systems both on internal datasets drawn from the same population as the pretraining data as well as external public datasets. Virchow achieves 93% balanced accuracy for pancancer tile classification, and AUCs of 0.983 for colon microsatellite instability status prediction and 0.967 for breast CDH1 status prediction. The gains in performance highlight the importance of pretraining on massive pathology image datasets, suggesting pretraining on even larger datasets could continue improving performance for many high-impact applications where limited amounts of training data are available, such as drug outcome prediction.
翻訳日:2023-09-15 12:32:46 公開日:2023-09-14
# シンプレクティックおよびラグランジュ極性双対性 : 量子情報幾何への応用

Symplectic and Lagrangian Polar Duality; Applications to Quantum Information Geometry ( http://arxiv.org/abs/2309.07775v1 )

ライセンス: Link先を確認
Maurice de Gosson and Charlyne de Gosson(参考訳) 極双対性は凸幾何学と解析からよく知られた概念である。 本稿では,量子力学への応用を念頭に置いて,極双対性のシンプレクティック共変バージョンを2つ検討する。 最初の変種は位相空間上のシンプレクティック形式を利用し、密度作用素の共分散行列を正確に研究することができる。 後者は量子情報理論の基本的な対象である。 第二の変種は、ラグランジュ平面が果たす役割を強調する通常の極双対性のシンプレクティック共変バージョンである。 これは「幾何量子状態」の概念を一般化ガウス系との単射で定義することを可能にする。

Polar duality is a well-known concept from convex geometry and analysis. In the present paper, we study two symplectically covariant versions of polar duality keeping in mind their applications to quantum mechanics. The first variant makes use of the symplectic form on phase space and allows a precise study of the covariance matrix of a density operator. The latter is a fundamental object in quantum information theory., The second variant is a symplectically covariant version of the usual polar duality highlighting the role played by Lagrangian planes. It allows us to define the notion of "geometric quantum states" with are in bijection with generalized Gaussians.
翻訳日:2023-09-15 12:32:18 公開日:2023-09-14
# モバイルゲームにおける音声ヒューマノイド具体化会話エージェントのユーザビリティ評価

Usability Evaluation of Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games ( http://arxiv.org/abs/2309.07773v1 )

ライセンス: Link先を確認
Danai Korre and Judy Robertson(参考訳) 本稿では,モバイル・シリアス・ゲーム(msg)アプリケーションにおいて,ヒューマノイド・エンボディド・会話エージェント(hecas)がどの程度ユーザビリティを高めるかに関する実証研究を行う。 この研究の目的は、複数のエージェントの影響と人間の錯覚が相互作用の質に与える影響を評価することである。 実験では, ハイヒューマンライクネス(HECA)エージェントと低ヒューマンライクネス(テキスト)エージェントの2種類のエージェント提示方法を検討した。 実験の目的は、高い人間に近いエージェントが人間の錯覚を誘発し、ユーザビリティに影響を与えるかどうかを評価することである。 高い人間的なエージェントはECA開発のためのガイドラインであるECA設計モデルに従って設計されている。 90人の被験者による実験の結果,ユーザがHECAと対話する傾向が示された。 この2つのバージョンの違いは統計的に有意であり、大きな効果サイズ(d=1.01)であり、多くの参加者はHECAの人間的な特性がより魅力的であるとして、彼らの選択を正当化した。 本研究は、HECAが真剣ゲームに与える影響について重要な情報を提供し、将来のモバイル真剣ゲームの設計に関する洞察を提供する。

This paper presents an empirical investigation of the extent to which spoken Humanoid Embodied Conversational Agents (HECAs) can foster usability in mobile serious game (MSG) applications. The aim of the research is to assess the impact of multiple agents and illusion of humanness on the quality of the interaction. The experiment investigates two styles of agent presentation: an agent of high human-likeness (HECA) and an agent of low human-likeness (text). The purpose of the experiment is to assess whether and how agents of high humanlikeness can evoke the illusion of humanness and affect usability. Agents of high human-likeness were designed by following the ECA design model that is a proposed guide for ECA development. The results of the experiment with 90 participants show that users prefer to interact with the HECAs. The difference between the two versions is statistically significant with a large effect size (d=1.01), with many of the participants justifying their choice by saying that the human-like characteristics of the HECA made the version more appealing. This research provides key information on the potential effect of HECAs on serious games, which can provide insight into the design of future mobile serious games.
翻訳日:2023-09-15 12:32:07 公開日:2023-09-14
# VAPOR:オフライン強化学習を用いた屋外植生におけるホロノミックレッグロボットナビゲーション

VAPOR: Holonomic Legged Robot Navigation in Outdoor Vegetation Using Offline Reinforcement Learning ( http://arxiv.org/abs/2309.07832v1 )

ライセンス: Link先を確認
Kasun Weerakoon, Adarsh Jagan Sathyamoorthy, Mohamed Elnoor, Dinesh Manocha(参考訳) オフライン強化学習(RL)を用いた非構造・密植屋外環境における自律脚ロボットナビゲーションの新しい手法であるVAPORを提案する。 実際の屋外植生から収集したラベルのないデータから新しいRLポリシーを訓練する。 この方針は、3次元LiDAR点雲、目標コストマップ、および処理されたプロプレセプションデータを状態入力として使用し、高さ、密度、およびナビゲーションの剛性/剛性などの周囲の植生の物理的および幾何学的性質を学習する。 エンド・ツー・エンドのポリシーアクションを使用する代わりに、フルトレーニングされたRLポリシーのQネットワークを使用して、狭い狭い通路をナビゲートし、背の高い草や茂みなどの植生の侵入を防止できる新しい適応プランナーから発生する動的に実現可能なロボット動作を評価する。 複雑な屋外植生における脚付きロボットに本手法の能力を示す。 本研究では,既存のオフラインrlおよびアウトドアナビゲーション手法と比較して,成功率の向上,平均消費電力の減少,正規化軌道長の低下を観察した。

We present VAPOR, a novel method for autonomous legged robot navigation in unstructured, densely vegetated outdoor environments using Offline Reinforcement Learning (RL). Our method trains a novel RL policy from unlabeled data collected in real outdoor vegetation. This policy uses height and intensity-based cost maps derived from 3D LiDAR point clouds, a goal cost map, and processed proprioception data as state inputs, and learns the physical and geometric properties of the surrounding vegetation such as height, density, and solidity/stiffness for navigation. Instead of using end-to-end policy actions, the fully-trained RL policy's Q network is used to evaluate dynamically feasible robot actions generated from a novel adaptive planner capable of navigating through dense narrow passages and preventing entrapment in vegetation such as tall grass and bushes. We demonstrate our method's capabilities on a legged robot in complex outdoor vegetation. We observe an improvement in success rates, a decrease in average power consumption, and decrease in normalized trajectory length compared to both existing end-to-end offline RL and outdoor navigation methods.
翻訳日:2023-09-15 12:25:50 公開日:2023-09-14
# 衛星画像からの道路抽出のための大規模弱監視学習

Large-scale Weakly Supervised Learning for Road Extraction from Satellite Imagery ( http://arxiv.org/abs/2309.07823v1 )

ライセンス: Link先を確認
Shiqiao Meng, Zonglin Di, Siwei Yang, Yin Wang(参考訳) ディープラーニングを用いた衛星画像からの道路の自動抽出は、従来の手動マッピングの代替手段である。 そのため近年は注目されている。 しかし、既存のメソッドのほとんどは教師ありでピクセルレベルのラベリングが必要であり、退屈でエラーやすい。 さらに悪いことに、地球は様々な地形、植生、人工物を持っている。 ある領域で訓練されたモデルが他の領域にあまり一般化しないことはよく知られている。 光や天使のような様々な撮影条件や様々な画像処理技術が問題をさらに複雑にしている。 すべてのイメージスタイルをカバーするトレーニングデータを開発するのは非現実的です。 本稿では,openstreetmap道路データを弱いラベルと大規模衛星画像として活用し,事前学習によるセマンティクスセグメンテーションモデルを提案する。 実験結果から, 弱ラベル付きデータの量とともに, 予測精度が向上し, トレーニング対象地域における道路密度が増大することが示唆された。 広く使用されているdeepglobe roadデータセットの100倍のデータを使用すると、d-linknetアーキテクチャとresnet-50バックボーンのモデルが、現在のdeepglobe leaderboardの最高パフォーマンスを上回ります。 さらに、大規模事前学習により、我々のモデルは、キュレートされたデータセットのみを用いて訓練されたモデルよりもはるかに優れた一般化を実現し、アプリケーションの可能性を示している。

Automatic road extraction from satellite imagery using deep learning is a viable alternative to traditional manual mapping. Therefore it has received considerable attention recently. However, most of the existing methods are supervised and require pixel-level labeling, which is tedious and error-prone. To make matters worse, the earth has a diverse range of terrain, vegetation, and man-made objects. It is well known that models trained in one area generalize poorly to other areas. Various shooting conditions such as light and angel, as well as different image processing techniques further complicate the issue. It is impractical to develop training data to cover all image styles. This paper proposes to leverage OpenStreetMap road data as weak labels and large scale satellite imagery to pre-train semantic segmentation models. Our extensive experimental results show that the prediction accuracy increases with the amount of the weakly labeled data, as well as the road density in the areas chosen for training. Using as much as 100 times more data than the widely used DeepGlobe road dataset, our model with the D-LinkNet architecture and the ResNet-50 backbone exceeds the top performer of the current DeepGlobe leaderboard. Furthermore, due to large-scale pre-training, our model generalizes much better than those trained with only the curated datasets, implying great application potential.
翻訳日:2023-09-15 12:25:29 公開日:2023-09-14
# CATfOOD: 外部性能と校正のための対実的強化トレーニング

CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration ( http://arxiv.org/abs/2309.07822v1 )

ライセンス: Link先を確認
Rachneet Sachdeva, Martin Tutek, Iryna Gurevych(参考訳) 近年,大規模言語モデル (LLM) は,特にプロンプトに条件付けされたテキストの生成において,特に顕著な能力を示した。 本研究では,小言語モデルの学習データ(SLM)を,自動生成した逆ファクト~(CF)インスタンス(最小限の変更された入力)で拡張し,抽出された質問応答〜(QA)設定におけるSLMのアウト・オブ・ドメイン〜(OOD)性能を改善するために,LLMを用いて検討する。 各種LLM発電機において,データ拡張はOOD性能を継続的に向上し,信頼性に基づくモデルと合理的なキャリブレータモデルのキャリブレーションを改善する。 さらに,これらの性能改善は,CFインスタンスの表面形状や意味内容の多様性と相関する。 最後に, キャリブレーションが容易なCF拡張モデルは, 重要度を割り当てる際のエントロピーがはるかに低いことを示し, 合理的拡張キャリブレータは簡潔な説明を好むことを示す。

In recent years, large language models (LLMs) have shown remarkable capabilities at scale, particularly at generating text conditioned on a prompt. In our work, we investigate the use of LLMs to augment training data of small language models~(SLMs) with automatically generated counterfactual~(CF) instances -- i.e. minimally altered inputs -- in order to improve out-of-domain~(OOD) performance of SLMs in the extractive question answering~(QA) setup. We show that, across various LLM generators, such data augmentation consistently enhances OOD performance and improves model calibration for both confidence-based and rationale-augmented calibrator models. Furthermore, these performance improvements correlate with higher diversity of CF instances in terms of their surface form and semantic content. Finally, we show that CF augmented models which are easier to calibrate also exhibit much lower entropy when assigning importance, indicating that rationale-augmented calibrators prefer concise explanations.
翻訳日:2023-09-15 12:25:07 公開日:2023-09-14
# ボソニック回路を用いた普遍量子計算の十分条件

Sufficient condition for universal quantum computation using bosonic circuits ( http://arxiv.org/abs/2309.07820v1 )

ライセンス: Link先を確認
Cameron Calcluth, Nicolas Reichel, Alessandro Ferraro, Giulia Ferrini(参考訳) 本稿では、他のシミュラブル回路を普遍性に促進する文脈において、連続変数状態の資源性を評価する新しい手法を提案する。 擬似かつ非ガウス的な回路は、ゴッテマン・キタエフ・プレスキル状態、ガウス演算、ホモダイン測定から成り立っている。 まず、連続変数状態をキュービット状態にマッピングするための一般的なフレームワークを紹介します。 次に、モジュラーサブシステム分解と安定化サブシステム分解を含む既存のマップをこのフレームワークで表現する。 これらの結果と離散変数量子計算の既存の結果を組み合わせることで、普遍的な量子計算を達成するのに十分な条件が得られる。 これらの結果はまた、位置表現に対称な状態に対して、モジュラー部分系分解はリソースレス(シミュラブル)な操作、すなわち入力安定化子 Gottesman-Kitaev-Preskill 状態を含むガウス回路のクラスで解釈できることを示した。 したがって、モジュラーサブシステム分解は、現実的なゴッテマン・キタエフ・プレスキル状態の論理的内容を分析するために、運用上関連するマッピングである。

We present a new method for quantifying the resourcefulness of continuous-variable states in the context of promoting otherwise simulatable circuits to universality. The simulatable, albeit non-Gaussian, circuits that we consider are composed of Gottesman-Kitaev-Preskill states, Gaussian operations, and homodyne measurements. We first introduce a general framework for mapping a continuous-variable state into a qubit state. We then express existing maps in this framework, including the modular subsystem decomposition and stabilizer subsystem decomposition. Combining these results with existing results in discrete-variable quantum computation provides a sufficient condition for achieving universal quantum computation. These results also allow us to demonstrate that for states symmetric in the position representation, the modular subsystem decomposition can be interpreted in terms of resourceless (simulatable) operations - i.e., included in the class of Gaussian circuits with input stabilizer Gottesman-Kitaev-Preskill states. Therefore, the modular subsystem decomposition is an operationally relevant mapping to analyze the logical content of realistic Gottesman-Kitaev-Preskill states, among other states.
翻訳日:2023-09-15 12:24:46 公開日:2023-09-14
# 線形テンソル変換の分解

Decomposition of linear tensor transformations ( http://arxiv.org/abs/2309.07819v1 )

ライセンス: Link先を確認
Claudio Turchetti(参考訳) テンソル分解の計算における主要な問題の1つは、テンソルの階数を決定する有限アルゴリズムがないため、ランク1成分の数を選択する方法である。 この目的のためによく用いられるアプローチは、最適化問題を解き、成分の数を固定すると仮定することで低次元の部分空間を見つけることである。 しかしながら、このアルゴリズムは効率的で実装が容易であるが、しばしばローカルのミニマに収束し、外れ値やノイズに悩まされる。 本論文の目的は、テンソルを有限個の低ランクテンソルの和として表現できる正確なテンソル分解のための数学的枠組みを開発することである。 論文では、次の3つの問題を導出するために実行します。 一 非負の自己随伴テンソル作用素の分解 二 線形テンソル変換の分解 三 一般テンソルの分解

One of the main issues in computing a tensor decomposition is how to choose the number of rank-one components, since there is no finite algorithms for determining the rank of a tensor. A commonly used approach for this purpose is to find a low-dimensional subspace by solving an optimization problem and assuming the number of components is fixed. However, even though this algorithm is efficient and easy to implement, it often converges to poor local minima and suffers from outliers and noise. The aim of this paper is to develop a mathematical framework for exact tensor decomposition that is able to represent a tensor as the sum of a finite number of low-rank tensors. In the paper three different problems will be carried out to derive: i) the decomposition of a non-negative self-adjoint tensor operator; ii) the decomposition of a linear tensor transformation; iii) the decomposition of a generic tensor.
翻訳日:2023-09-15 12:24:24 公開日:2023-09-14
# 多次元キャビティ内における粒子の自己共役モーメント演算子

Self-adjoint Momentum Operator for a Particle Confined in a Multi-Dimensional Cavity ( http://arxiv.org/abs/2309.07818v1 )

ライセンス: Link先を確認
A. Mariani, U.-J. Wiese(参考訳) 最近の一次元間隔に閉じ込められた粒子に対する自己随伴運動量作用素の構築に基づいて、任意の次元の任意の領域にその構成を拡張する。 運動量ベクトルの異なる成分は、非常に特別な条件が満たされない限り互いに可換ではない。 したがって、運動量測定は一度に一つの方向を考慮すべきである。 また、エーレンフェストの定理やハイゼンベルクの不確実性関係の高次元への解釈など、他の結果も拡張する。

Based on the recent construction of a self-adjoint momentum operator for a particle confined in a one-dimensional interval, we extend the construction to arbitrarily shaped regions in any number of dimensions. Different components of the momentum vector do not commute with each other unless very special conditions are met. As such, momentum measurements should be considered one direction at a time. We also extend other results, such as the Ehrenfest theorem and the interpretation of the Heisenberg uncertainty relation to higher dimensions.
翻訳日:2023-09-15 12:24:10 公開日:2023-09-14
# 知識グラフに基づくセル信号解析のための方向散乱

Directed Scattering for Knowledge Graph-based Cellular Signaling Analysis ( http://arxiv.org/abs/2309.07813v1 )

ライセンス: Link先を確認
Aarthi Venkat, Joyce Chew, Ferran Cardoso Rodriguez, Christopher J. Tape, Michael Perlmutter, Smita Krishnaswamy(参考訳) 指向グラフは多くの現象の自然なモデルであり、特に分子相互作用や細胞シグナルの関係を定義する化学反応ネットワークのような科学知識グラフである。 これらの状況では、ソースノードは通常、シンクと異なる生物物理特性を持つ。 順序と一方向の関係のため、多くのネットワークは階層構造とマルチスケール構造を持つ。 しかし、機械学習におけるノードレベルおよびエッジレベルのタスクを実行する方法の多くは、これらの特性を考慮に入れていないため、セルシグナルネットワーク推論のような科学的タスクに効果的に活用されていない。 本研究では, 幾何散乱変換の有向バージョンと, オートエンコーダの非線形次元化特性と双曲空間の幾何学的性質を組み合わせて, 潜在階層を学習する, 有向散乱オートエンコーダ (dsae) と呼ばれる新しいフレームワークを提案する。 本手法は,有向グラフの埋め込みやセル・シグナリングネットワークの学習など,多くのタスクにおいて優れることを示す。

Directed graphs are a natural model for many phenomena, in particular scientific knowledge graphs such as molecular interaction or chemical reaction networks that define cellular signaling relationships. In these situations, source nodes typically have distinct biophysical properties from sinks. Due to their ordered and unidirectional relationships, many such networks also have hierarchical and multiscale structure. However, the majority of methods performing node- and edge-level tasks in machine learning do not take these properties into account, and thus have not been leveraged effectively for scientific tasks such as cellular signaling network inference. We propose a new framework called Directed Scattering Autoencoder (DSAE) which uses a directed version of a geometric scattering transform, combined with the non-linear dimensionality reduction properties of an autoencoder and the geometric properties of the hyperbolic space to learn latent hierarchies. We show this method outperforms numerous others on tasks such as embedding directed graphs and learning cellular signaling networks.
翻訳日:2023-09-15 12:24:02 公開日:2023-09-14
# がん治験適性基準のテキスト分類

Text Classification of Cancer Clinical Trial Eligibility Criteria ( http://arxiv.org/abs/2309.07812v1 )

ライセンス: Link先を確認
Yumeng Yang, Soumya Jayaraj, Ethan B Ludmir, Kirk Roberts(参考訳) 患者が対象とする臨床試験の自動識別は、治験適格性が自然言語で記述されているという事実によって複雑である。 この問題の潜在的な解決策は、共通タイプの適格基準にテキスト分類法を採用することである。 本研究では,術前悪性腫瘍,ヒト免疫不全ウイルス,B型肝炎,C型肝炎,精神疾患,薬物・物質乱用,自己免疫疾患の7つの共通排除基準に焦点を当てた。 本データセットは,第764相臨床試験からなり,これらの除外は試験レベルでアノテートされる。 本研究は,新規にトレーニング済み臨床試験 BERT モデルとともに,共通のトランスフォーマーモデルを用いて実験を行った。 本結果は, 排除基準の自動分類の可能性を示した。 さらに,臨床試験に特化する事前学習された言語モデルの価値を実証し,すべての基準で最高の平均性能が得られることを示した。

Automatic identification of clinical trials for which a patient is eligible is complicated by the fact that trial eligibility is stated in natural language. A potential solution to this problem is to employ text classification methods for common types of eligibility criteria. In this study, we focus on seven common exclusion criteria in cancer trials: prior malignancy, human immunodeficiency virus, hepatitis B, hepatitis C, psychiatric illness, drug/substance abuse, and autoimmune illness. Our dataset consists of 764 phase III cancer trials with these exclusions annotated at the trial level. We experiment with common transformer models as well as a new pre-trained clinical trial BERT model. Our results demonstrate the feasibility of automatically classifying common exclusion criteria. Additionally, we demonstrate the value of a pre-trained language model specifically for clinical trials, which yields the highest average performance across all criteria.
翻訳日:2023-09-15 12:23:48 公開日:2023-09-14
# spectrum-aware adjustment:主成分回帰への応用による新しいデバイアスフレームワーク

Spectrum-Aware Adjustment: A New Debiasing Framework with Applications to Principal Components Regression ( http://arxiv.org/abs/2309.07810v1 )

ライセンス: Link先を確認
Yufan Li, Pragya Sur(参考訳) 我々は,現代のデバイアス技術が与える共変量分布の制約を回避し,高次元線形回帰のための新しいデバイアスフレームワークを提案する。 我々は,特徴数とサンプル数が大小ともに比較可能な,一般的な設定について検討する。 この文脈では、最先端のデバイアス技術は自由度補正を用いて正規化推定器の収縮バイアスを除去し、推論を行う。 しかし、この方法では、観測されたサンプルは、すなわち、共変量は平均的なガウス分布に従っており、観測された特徴に対する信頼できる共分散行列推定が利用可能である。 このアプローチが苦労するのは (i)共変量は、重い尾または非対称分布を持つ非ガウシアンである。 (ii)意匠の行は、異質性又は依存関係を示し、 (iii)信頼性の高い特徴共分散推定が不足している。 そこで我々は,デバイアス補正を,サンプル共分散行列のスペクトルによって決定されるステップサイズで(好ましくは初期化)再スケールした勾配降下ステップとする新しい戦略を開発した。 以前の仕事とは異なり、この行列の固有ベクトルは直交群から一様引き分けられると仮定する。 この仮定は、複雑な行列依存、重み付き尾翼、非対称性、潜伏低ランク構造を含む、従来のデバイアスが失敗する様々な状況において有効であることを示す。 提案する推定器の漸近正規性(中心とスケール)を様々な収束概念の下で確立する。 さらに,その漸近的分散に対する一貫した推定器を開発した。 最後に,Spectrum-Awareアプローチを用いた脱バイアス主成分回帰(PCR)手法を提案する。 各種シミュレーションおよび実データ実験において,本手法が自由度デバイアスをマージンで上回ることを示した。

We introduce a new debiasing framework for high-dimensional linear regression that bypasses the restrictions on covariate distributions imposed by modern debiasing technology. We study the prevalent setting where the number of features and samples are both large and comparable. In this context, state-of-the-art debiasing technology uses a degrees-of-freedom correction to remove shrinkage bias of regularized estimators and conduct inference. However, this method requires that the observed samples are i.i.d., the covariates follow a mean zero Gaussian distribution, and reliable covariance matrix estimates for observed features are available. This approach struggles when (i) covariates are non-Gaussian with heavy tails or asymmetric distributions, (ii) rows of the design exhibit heterogeneity or dependencies, and (iii) reliable feature covariance estimates are lacking. To address these, we develop a new strategy where the debiasing correction is a rescaled gradient descent step (suitably initialized) with step size determined by the spectrum of the sample covariance matrix. Unlike prior work, we assume that eigenvectors of this matrix are uniform draws from the orthogonal group. We show this assumption remains valid in diverse situations where traditional debiasing fails, including designs with complex row-column dependencies, heavy tails, asymmetric properties, and latent low-rank structures. We establish asymptotic normality of our proposed estimator (centered and scaled) under various convergence notions. Moreover, we develop a consistent estimator for its asymptotic variance. Lastly, we introduce a debiased Principal Component Regression (PCR) technique using our Spectrum-Aware approach. In varied simulations and real data experiments, we observe that our method outperforms degrees-of-freedom debiasing by a margin.
翻訳日:2023-09-15 12:23:34 公開日:2023-09-14
# ディザリングを用いた効果的なプライベートフェデレーション学習

Communication Efficient Private Federated Learning Using Dithering ( http://arxiv.org/abs/2309.07809v1 )

ライセンス: Link先を確認
Burak Hasircioglu, Deniz Gunduz(参考訳) 効率的なコミュニケーションを確保しながらプライバシを維持するというタスクは、連合学習における基本的な課題である。 本研究では,信頼集約モデルにおいてこの課題に取り組み,両目的を同時に達成するソリューションを提案する。 クライアントにおける減算ディザリングに基づく量子化スキームを用いることで,アグリゲータにおける通常の雑音付加プロセスを効果的に再現できることを示す。 これは、完全な精度勾配の送信や中央ノイズの追加とは対照的に、必要な通信量を実質的に削減しながら、他のクライアントに対して同じレベルの差分プライバシーを保証できることを意味する。 また,本手法の精度が完全精度勾配法と一致することを実験的に証明した。

The task of preserving privacy while ensuring efficient communication is a fundamental challenge in federated learning. In this work, we tackle this challenge in the trusted aggregator model, and propose a solution that achieves both objectives simultaneously. We show that employing a quantization scheme based on subtractive dithering at the clients can effectively replicate the normal noise addition process at the aggregator. This implies that we can guarantee the same level of differential privacy against other clients while substantially reducing the amount of communication required, as opposed to transmitting full precision gradients and using central noise addition. We also experimentally demonstrate that the accuracy of our proposed approach matches that of the full precision gradient method.
翻訳日:2023-09-15 12:23:04 公開日:2023-09-14
# 機械学習対称性の群論的構造同定

Identifying the Group-Theoretic Structure of Machine-Learned Symmetries ( http://arxiv.org/abs/2309.07860v1 )

ライセンス: Link先を確認
Roy T. Forestano, Konstantin T. Matchev, Katia Matcheva, Alexander Roman, Eyup B. Unlu, Sarunas Verner(参考訳) 近年、深層学習は重要な物理量を保存する対称性変換の導出に成功している。 完全に無知であるため、これらの技術は発見された対称性の同定を後段に延期した。 本稿では,そのような機械学習対称性の群論的構造を調べ,同定する手法を提案する。 我々は、対称性発見の深層学習段階またはその後の処理段階において、サブアルジェブラ構造を調べる損失関数を設計する。 U(n) リー群族(英語版)の例で新しい方法を説明し、各部分代数分解を得る。 粒子物理学への応用として、モデル構築でよく用いられるSU(3)やSU(5)のような非アベリアゲージ対称性の自発的破壊後の残留対称性の同定を示す。

Deep learning was recently successfully used in deriving symmetry transformations that preserve important physics quantities. Being completely agnostic, these techniques postpone the identification of the discovered symmetries to a later stage. In this letter we propose methods for examining and identifying the group-theoretic structure of such machine-learned symmetries. We design loss functions which probe the subalgebra structure either during the deep learning stage of symmetry discovery or in a subsequent post-processing stage. We illustrate the new methods with examples from the U(n) Lie group family, obtaining the respective subalgebra decompositions. As an application to particle physics, we demonstrate the identification of the residual symmetries after the spontaneous breaking of non-Abelian gauge symmetries like SU(3) and SU(5) which are commonly used in model building.
翻訳日:2023-09-15 12:16:08 公開日:2023-09-14
# 可変量子力学のためのオーバーヘッド拘束回路編み

Overhead-constrained circuit knitting for variational quantum dynamics ( http://arxiv.org/abs/2309.07857v1 )

ライセンス: Link先を確認
Gian Gentinetta, Friederike Metz, Giuseppe Carleo(参考訳) 巨大量子系の力学をシミュレートすることは、量子力学現象の深い理解を得るための決定的かつ重要な追求である。 量子コンピュータはそのようなシミュレーションを高速化する大きな可能性を秘めているが、その実用的応用は限られたスケールと広汎なノイズによって妨げられている。 そこで本研究では,大規模な量子系を個別のデバイスでシミュレート可能な小さなサブシステムに分割する回路編み機を用いて,これらの課題に対処する手法を提案する。 システムの進化は投影型変分量子力学(pvqd)アルゴリズムによって制御され、変分量子回路のパラメータの制約が補われ、回路編み込み方式によって課されるサンプリングオーバーヘッドが制御可能であることを保証する。 本研究では,強い相関を持つスピンからなる複数の弱エンタングルブロックを持つ量子スピン系において,サンプリングオーバーヘッドを管理可能としつつ,そのダイナミクスを正確にシミュレートする手法をテストした。 さらに, 長距離ゲートを切断することで回路の深さを低減できることを示す。

Simulating the dynamics of large quantum systems is a formidable yet vital pursuit for obtaining a deeper understanding of quantum mechanical phenomena. While quantum computers hold great promise for speeding up such simulations, their practical application remains hindered by limited scale and pervasive noise. In this work, we propose an approach that addresses these challenges by employing circuit knitting to partition a large quantum system into smaller subsystems that can each be simulated on a separate device. The evolution of the system is governed by the projected variational quantum dynamics (PVQD) algorithm, supplemented with constraints on the parameters of the variational quantum circuit, ensuring that the sampling overhead imposed by the circuit knitting scheme remains controllable. We test our method on quantum spin systems with multiple weakly entangled blocks each consisting of strongly correlated spins, where we are able to accurately simulate the dynamics while keeping the sampling overhead manageable. Further, we show that the same method can be used to reduce the circuit depth by cutting long-ranged gates.
翻訳日:2023-09-15 12:15:54 公開日:2023-09-14
# ExpertQA: 専門家による質問と回答

ExpertQA: Expert-Curated Questions and Attributed Answers ( http://arxiv.org/abs/2309.07852v1 )

ライセンス: Link先を確認
Chaitanya Malaviya, Subin Lee, Sihao Chen, Elizabeth Sieber, Mark Yatskar, Dan Roth(参考訳) 言語モデルはより洗練され多様なユーザによって適応されるため、検証可能な情報源が支持する事実に正しい情報を提供することを保証することの重要性は、研究や職業の分野にまたがって重要である。 これは特に、医療や法律のような、誤った情報を広めるリスクが高く、好ましくない社会的な結果をもたらすような、高リスクの分野の場合である。 事実性や帰属性を研究するこれまでの研究は、ドメイン固有のシナリオにおける言語モデル出力の特性の分析に重点を置いていない。 本稿では,いくつかのシステムから提供された事実と帰属に関する様々な軸を,そのループにドメインの専門家を招いて分析する。 具体的には、まず32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する回答を評価する。 また、専門家に言語モデルによる回答の修正を依頼し、32の分野にまたがる2177の質問を含む高品質の長文QAデータセットであるExpertQAと、回答におけるクレームの属性を検証した。

As language models are adapted by a more sophisticated and diverse set of users, the importance of guaranteeing that they provide factually correct information supported by verifiable sources is critical across fields of study & professions. This is especially the case for high-stakes fields, such as medicine and law, where the risk of propagating false information is high and can lead to undesirable societal consequences. Previous work studying factuality and attribution has not focused on analyzing these characteristics of language model outputs in domain-specific scenarios. In this work, we present an evaluation study analyzing various axes of factuality and attribution provided in responses from a few systems, by bringing domain experts in the loop. Specifically, we first collect expert-curated questions from 484 participants across 32 fields of study, and then ask the same experts to evaluate generated responses to their own questions. We also ask experts to revise answers produced by language models, which leads to ExpertQA, a high-quality long-form QA dataset with 2177 questions spanning 32 fields, along with verified answers and attributions for claims in the answers.
翻訳日:2023-09-15 12:15:35 公開日:2023-09-14
# 単純で高次なネットワークの質量

The mass of simple and higher-order networks ( http://arxiv.org/abs/2309.07851v1 )

ライセンス: Link先を確認
Ginestra Bianconi(参考訳) 本稿では,単純かつ高次ネットワークの質量がトポロジーと幾何学からどのように出現するかを説明する理論的枠組みを提案する。 離散位相ディラック作用素を用いて、ナムブ・ジョナ・ラシニオモデルに触発された無質量自己相互作用型位相ディラック場に対する作用を定義し、ネットワークの質量はカイラル対称性の破れの結果であり、自己整合ギャップ方程式を満たす。 興味深いことに、ネットワークの質量はそのスペクトル特性、トポロジー、幾何学に依存する。 離散位相ディラック作用素の調和モードで観測される物質-反物質対称性の破れにより、ネットワーク質量の2つの可能な定義が与えられる。 両方の可能な定義について、ネットワークの質量は、ベア質量の値にエンコードされる2つの定義の差を持つギャップ方程式から得られる。 実際、ベア質量はベッチ数 $\beta_0$ またはネットワークのベッチ数 $\beta_1$ によって決定できる。 また,これらの結果の一般化を,単純複体の質量を定義する高次ネットワークへも論じる。

We propose a theoretical framework that explains how the mass of simple and higher-order networks emergences from their topology and their geometry. We use the discrete topological Dirac operator to define an action for a massless self-interacting topological Dirac field inspired by the Nambu-Jona Lasinio model.The mass of the network is the result of the chiral symmetry breaking and satisfies a self-consistent gap equation. Interestingly it is shown that the mass of a network depends on its spectral properties, topology and geometry. Due to the breaking of the matter-antimatter symmetry observed for the harmonic modes of the discrete topological Dirac operator, two possible definitions of the network mass can be given. For both possible definitions, the mass of the network comes from a gap equation with the difference among the two definitions encoded in the value of the bare mass. Indeed the bare mass can be determined either by the Betti number $\beta_0$ or by the Betti number $\beta_1$ of the network.We provide numerical results on the mass of different networks, including random graphs, scale-free and real weighted collaboration networks. We discuss also the generalization of these results to higher-order networks defining the mass of simplicial complexes.
翻訳日:2023-09-15 12:15:14 公開日:2023-09-14
# TFNet: 高速かつ正確なLiDARセマンティックセグメンテーションのための時間キューの爆発

TFNet: Exploiting Temporal Cues for Fast and Accurate LiDAR Semantic Segmentation ( http://arxiv.org/abs/2309.07849v1 )

ライセンス: Link先を確認
Rong Li, ShiJie Li, Xieyuanli Chen, Teli Ma, Wang Hao, Juergen Gall, Junwei Liang(参考訳) LiDARセマンティックセグメンテーションは、自律走行とロボットが周囲を正確かつ堅牢に理解できるようにする上で重要な役割を果たす。 ポイントベース、レンジイメージベース、極性ベースなど、さまざまなタイプの方法がある。 これらのうち、距離画像に基づく手法は精度と速度のバランスから広く用いられている。 しかし, 距離画像の水平・垂直角分解能の制限によって生じる「many-to-one」問題では, モデル推論中に3次元点の約20%が隠蔽されるという大きな課題に直面している。 本稿では,この問題を解決するために,時間情報を利用した距離画像に基づくlidarセマンティクスセグメンテーション手法であるtfnetを提案する。 具体的には,過去のスキャンから有用な情報を抽出し,現在のスキャンと統合するために,時間的融合層を組み込む。 次に,誤りの予測,特に `many-to-one'' 問題に起因した予測を正すために,max-votingに基づく後処理手法を設計する。 提案手法の有効性と拡張性を示す2つのベンチマークと3つのモダリティの7つのバックボーンの実験を行った。

LiDAR semantic segmentation plays a crucial role in enabling autonomous driving and robots to understand their surroundings accurately and robustly. There are different types of methods, such as point-based, range image-based, and polar-based. Among these, range image-based methods are widely used due to their balance between accuracy and speed. However, they face a significant challenge known as the ``many-to-one'' problem caused by the range image's limited horizontal and vertical angular resolution, where around 20% of the 3D points are occluded during model inference based on our observation. In this paper, we present TFNet, a range image-based LiDAR semantic segmentation method that utilizes temporal information to address this issue. Specifically, we incorporate a temporal fusion layer to extract useful information from previous scans and integrate it with the current scan. We then design a max-voting-based post-processing technique to correct false predictions, particularly those caused by the ``many-to-one'' issue. Experiments on two benchmarks and seven backbones of three modalities demonstrate the effectiveness and scalability of our proposed method.
翻訳日:2023-09-15 12:14:49 公開日:2023-09-14
# 動的カシミール効果における熱力学的エントロピー生成

Thermodynamic entropy production in the dynamical Casimir effect ( http://arxiv.org/abs/2309.07847v1 )

ライセンス: Link先を確認
Gustavo de Oliveira and Lucas C. C\'eleri(参考訳) 動的カシミール効果の文脈におけるエントロピー生成の問題に対処する。 具体的には、所定の軌跡を記述する鏡の1つを持つ1次元の理想空洞を考える。 空洞内部にはスカラー量子場があり、移動ミラーによって課される非自明な境界条件によって引き起こされる場の熱力学的エントロピーの変化について尋ねる。 効果的なハミルトニアンアプローチを用いることでエントロピーの生成を計算し、短時間の極限で生成した粒子の数にスケールすることを示す。 さらに、そのようなアプローチは、このエントロピーが場のモード基底における量子コヒーレンスの発展に直接関係していることを証明することができる。 ガウス状態の時間発展に基づく別のアプローチにより、場の単一モードにおけるエントロピー生成の長期的極限を研究することができる。 これにより、フィールドモードにおける熱力学的エントロピー生成と、考慮モードと他のすべてのモードとの絡み合いの関係が生じる。 このようにして、力学カシミール効果による場のエントロピー生成と、量子力学の2つの基本的な特徴、コヒーレンスと絡み合いを結びつける。

We address the question of entropy production in the context of the dynamical Casimir effect. Specifically, we consider a one-dimensional ideal cavity with one of its mirrors describing a prescribed trajectory. Inside the cavity we have a scalar quantum field and we ask about the changes in the thermodynamic entropy of the field induced by the non-trivial boundary conditions imposed by the moving mirror. By employing an effective Hamiltonian approach, we compute the entropy production and show that it scales with the number of particles created in the short-time limit. Moreover, such approach allows us to demonstrate that this entropy is directly related to the developments of quantum coherences in the mode basis of the field. A distinct approach, based on the time evolution of Gaussian states, allows us to study the long-time limit of the entropy production in single mode of the field. This results in a relation between the thermodynamic entropy production in the field mode with the entanglement between the considered mode and all the other modes. In this way, we link the entropy production in the field due to the dynamical Casimir effect with two fundamental features of quantum mechanics, coherence and entanglement.
翻訳日:2023-09-15 12:14:29 公開日:2023-09-14
# mc-nerf:ミューティカメラ画像取得システムのためのミューティカメラニューラルラミアンスフィールド

MC-NeRF: Muti-Camera Neural Radiance Fields for Muti-Camera Image Acquisition Systems ( http://arxiv.org/abs/2309.07846v1 )

ライセンス: Link先を確認
Yu Gao, Lutong Su, Hao Liang, Yufeng Yue, Yi Yang, Mengyin Fu(参考訳) neural radiance fields (nerf) は3dシーン表現にマルチビュー画像を用いており、顕著な性能を示している。 マルチビュー画像の主な源の1つとして、マルチカメラシステムは、固有パラメータの変更や頻繁なポーズ変更といった課題に直面する。 従来のnerfベースの手法の多くは、グローバルユニークなカメラを想定しており、複数のカメラのシナリオをほとんど考慮しない。 さらに、いくつかのポーズロバスト法は、ポーズが初期化されにくい場合、まだ最適でない解に影響を受けやすい。 本稿では,バンドル調整型ニューラルラジアンスフィールドに対して,固有パラメータと外部パラメータを協調的に最適化するMC-NeRFを提案する。 第一に,本質的パラメータと外生的パラメータの結合最適化から生じる縮退事例と結合問題に対処するための理論的解析を行う。 次に,提案手法に基づいて,キャリブレーションオブジェクトの設計を含むマルチカメラシステムのための効率的なキャリブレーション画像取得手法を提案する。 最後に、レンダリングネットワークとともに、内在パラメータと外在パラメータの回帰を可能にするトレーニングシーケンスを備えたグローバルエンド・ツー・エンドネットワークを提案する。 さらに、既存のほとんどのデータセットはユニークなカメラ用に設計されており、私たちは4種類のマルチカメラ取得システムを含む新しいデータセットを作成し、読者はカスタムデータセットを作成できる。 実験により,各画像が異なるカメラパラメータに対応する場合の有効性を確認した。 具体的には,110種類の内在・外在パラメータを持つ110個の画像を採用し,初期ポーズを伴わずに3次元シーン表現を実現する。 コードと補足資料はhttps://in2-viaun.github.io/MC-NeRFで入手できる。

Neural Radiance Fields (NeRF) employ multi-view images for 3D scene representation and have shown remarkable performance. As one of the primary sources of multi-view images, multi-camera systems encounter challenges such as varying intrinsic parameters and frequent pose changes. Most previous NeRF-based methods often assume a global unique camera and seldom consider scenarios with multiple cameras. Besides, some pose-robust methods still remain susceptible to suboptimal solutions when poses are poor initialized. In this paper, we propose MC-NeRF, a method can jointly optimize both intrinsic and extrinsic parameters for bundle-adjusting Neural Radiance Fields. Firstly, we conduct a theoretical analysis to tackle the degenerate case and coupling issue that arise from the joint optimization between intrinsic and extrinsic parameters. Secondly, based on the proposed solutions, we introduce an efficient calibration image acquisition scheme for multi-camera systems, including the design of calibration object. Lastly, we present a global end-to-end network with training sequence that enables the regression of intrinsic and extrinsic parameters, along with the rendering network. Moreover, most existing datasets are designed for unique camera, we create a new dataset that includes four different styles of multi-camera acquisition systems, allowing readers to generate custom datasets. Experiments confirm the effectiveness of our method when each image corresponds to different camera parameters. Specifically, we adopt up to 110 images with 110 different intrinsic and extrinsic parameters, to achieve 3D scene representation without providing initial poses. The Code and supplementary materials are available at https://in2-viaun.github.io/MC-NeRF.
翻訳日:2023-09-15 12:14:11 公開日:2023-09-14
# 確率的ボラティリティモデルの校正へのディープラーニングの適用

Applying Deep Learning to Calibrate Stochastic Volatility Models ( http://arxiv.org/abs/2309.07843v1 )

ライセンス: Link先を確認
Abir Sridi and Paul Bilokon(参考訳) 確率的ボラティリティモデル(英語版)は、ボラティリティは確率的過程であり、インプリートされたボラティリティ表面の基本的なスタイル化された事実のほとんどを捉え、ボラティリティの笑顔やスキューのより現実的なダイナミクスを与える。 しかし、彼らは調整に時間がかかりすぎる重大な問題に直面している。 深層学習(dl)技術に基づく代替校正手法は,近年,キャリブレーション問題の高速かつ正確な解法構築に利用されている。 Huge氏とSavin氏は、DDL(differial Deep Learning)アプローチを開発した。マシンラーニングモデルは、機能やラベルだけでなく、ラベルから機能への差分もトレーニングする。 本研究の目的は、バニラヨーロッパオプション(キャリブレーション機器)の価格設定にDDL技術を適用し、より具体的には、基礎となる資産がヘストンモデルに従い、訓練されたネットワーク上でモデルをキャリブレーションすることである。 DDLは高速なトレーニングと正確な価格設定を可能にする。 トレーニングされたニューラルネットワークは、Hestonキャリブレーションの計算時間を劇的に短縮する。 本研究では, 異なる正規化手法も導入し, DDLの場合, 特に適用例を挙げる。 オーバーフィッティングを低減し,一般化誤差を改善することで,それらの性能を比較する。 DDLの性能は、フィードフォワードニューラルネットワークの場合の古典的なDLと(差別化せずに)比較される。 DDLがDLより優れていることを示す。

Stochastic volatility models, where the volatility is a stochastic process, can capture most of the essential stylized facts of implied volatility surfaces and give more realistic dynamics of the volatility smile or skew. However, they come with the significant issue that they take too long to calibrate. Alternative calibration methods based on Deep Learning (DL) techniques have been recently used to build fast and accurate solutions to the calibration problem. Huge and Savine developed a Differential Deep Learning (DDL) approach, where Machine Learning models are trained on samples of not only features and labels but also differentials of labels to features. The present work aims to apply the DDL technique to price vanilla European options (i.e. the calibration instruments), more specifically, puts when the underlying asset follows a Heston model and then calibrate the model on the trained network. DDL allows for fast training and accurate pricing. The trained neural network dramatically reduces Heston calibration's computation time. In this work, we also introduce different regularisation techniques, and we apply them notably in the case of the DDL. We compare their performance in reducing overfitting and improving the generalisation error. The DDL performance is also compared to the classical DL (without differentiation) one in the case of Feed-Forward Neural Networks. We show that the DDL outperforms the DL.
翻訳日:2023-09-15 12:13:39 公開日:2023-09-14
# 2つのTimin':2層アプローチによるスマートコントラクトの修復

Two Timin': Repairing Smart Contracts With A Two-Layered Approach ( http://arxiv.org/abs/2309.07841v1 )

ライセンス: Link先を確認
Abhinav Jain, Ehan Masud, Michelle Han, Rohan Dhillon, Sumukh Rao, Arya Joshi, Salar Cheema, Saurav Kumar(参考訳) ブロックチェーン技術の現代的関連性から、スマートコントラクトには大きなリスクとメリットの両方がある。 脆弱性は一連の結果を引き起こす可能性があり、結果として大きな損失をもたらす。 現在の多くの論文は、主に悪意のある意図のためにスマートコントラクトを分類することに焦点を当てており、しばしばバイトコードやopcodeのような制限されたコントラクト特性に依存している。 本稿では,新しい2層構造を提案する。 1)分類及び分類 2) 悪意のある契約を直接修復する。 Slitherの脆弱性レポートはソースコードと組み合わせて、トレーニング済みのRandomForestClassifier(RFC)とLarge Language Models(LLM)を通過して、提案された脆弱性を分類し、修復する。 実験は、微調整および急速駆動LLMの有効性を示す。 gpt-3.5-turboとllama-2-7bで事前訓練されたスマートコントラクト修理モデルは、全体の脆弱性数を97.5%、96.7%削減した。 修復された契約を手動で検査した結果、全ての契約が機能を保持しており、提案手法がスマートコントラクトの自動バッチ分類と脆弱性の修復に適していることが示されている。

Due to the modern relevance of blockchain technology, smart contracts present both substantial risks and benefits. Vulnerabilities within them can trigger a cascade of consequences, resulting in significant losses. Many current papers primarily focus on classifying smart contracts for malicious intent, often relying on limited contract characteristics, such as bytecode or opcode. This paper proposes a novel, two-layered framework: 1) classifying and 2) directly repairing malicious contracts. Slither's vulnerability report is combined with source code and passed through a pre-trained RandomForestClassifier (RFC) and Large Language Models (LLMs), classifying and repairing each suggested vulnerability. Experiments demonstrate the effectiveness of fine-tuned and prompt-engineered LLMs. The smart contract repair models, built from pre-trained GPT-3.5-Turbo and fine-tuned Llama-2-7B models, reduced the overall vulnerability count by 97.5% and 96.7% respectively. A manual inspection of repaired contracts shows that all retain functionality, indicating that the proposed method is appropriate for automatic batch classification and repair of vulnerabilities in smart contracts.
翻訳日:2023-09-15 12:13:02 公開日:2023-09-14
# ワームスタート固定点最適化アルゴリズムの学習

Learning to Warm-Start Fixed-Point Optimization Algorithms ( http://arxiv.org/abs/2309.07835v1 )

ライセンス: Link先を確認
Rajiv Sambharya, Georgina Hall, Brandon Amos, Bartolomeo Stellato(参考訳) 固定点最適化アルゴリズムのウォームスタートに機械学習フレームワークを導入する。 私たちのアーキテクチャは、ウォームスタートのためのニューラルネットワークマッピング問題パラメータと、予め定義された固定点反復数で構成される。 固定点残差や基底真理解の距離を最小化するために設計された2つの損失関数を提案する。 このようにして、ニューラルネットワークは、下流の損失を最小化するというエンドツーエンドの目標から、ウォームスタートを予測する。 アーキテクチャの重要な特徴は柔軟性であり、トレーニングされたステップの数に制限されることなく、任意のステップで実行される固定ポイントアルゴリズムのウォームスタートを予測することができる。 固定点作用素の共通類に対して、可視データ上のPAC-Bayes一般化バウンダリ(contractive, linearly convergent, averaged)を提供する。 このフレームワークを制御、統計、信号処理におけるよく知られたアプリケーションに適用することにより、これらの問題を解決するのに必要なイテレーション数とソリューション時間を大幅に削減する。

We introduce a machine-learning framework to warm-start fixed-point optimization algorithms. Our architecture consists of a neural network mapping problem parameters to warm starts, followed by a predefined number of fixed-point iterations. We propose two loss functions designed to either minimize the fixed-point residual or the distance to a ground truth solution. In this way, the neural network predicts warm starts with the end-to-end goal of minimizing the downstream loss. An important feature of our architecture is its flexibility, in that it can predict a warm start for fixed-point algorithms run for any number of steps, without being limited to the number of steps it has been trained on. We provide PAC-Bayes generalization bounds on unseen data for common classes of fixed-point operators: contractive, linearly convergent, and averaged. Applying this framework to well-known applications in control, statistics, and signal processing, we observe a significant reduction in the number of iterations and solution time required to solve these problems, through learned warm starts.
翻訳日:2023-09-15 12:12:12 公開日:2023-09-14
# スケーラブルモデルに基づくガウス的プロセスクラスタリング

Scalable Model-Based Gaussian Process Clustering ( http://arxiv.org/abs/2309.07882v1 )

ライセンス: Link先を確認
Anirban Chakraborty, Abhisek Chakraborty(参考訳) gaussianプロセスは、柔軟性と固有の不確かさの定量化のため、機能データのクラスタリングに欠かせないツールである。 しかし、関数データが大きなグリッド(例えば長さ$p$)上で観測されると、ガウスのプロセスクラスタリングはすぐに自分自身を不可能にし、空間の複雑さが$O(p^2)$と$O(p^3)$の繰り返しの時間複雑さが生じる。 このようなアプリケーションにおけるガウス過程クラスタリングのスケーラビリティを確保するため、クラスタリングタスクの中心にあるガウス過程に対する一般的なvecchia近似を埋め込み、アルゴリズム設計に対する重要な理論的洞察を提供し、最終的に計算効率の高い期待最大化(em)アルゴリズムを開発することを提案する。 提案手法の有効性に関する実証的な証拠は,極温度異常 ( href{https://www.ncei.noaa.gov/ Access/monitoring/climate-at-a-glance/global/time-series}{noaa.gov}) データセットのシミュレーションと解析を通じて提供される。

Gaussian process is an indispensable tool in clustering functional data, owing to it's flexibility and inherent uncertainty quantification. However, when the functional data is observed over a large grid (say, of length $p$), Gaussian process clustering quickly renders itself infeasible, incurring $O(p^2)$ space complexity and $O(p^3)$ time complexity per iteration; and thus prohibiting it's natural adaptation to large environmental applications. To ensure scalability of Gaussian process clustering in such applications, we propose to embed the popular Vecchia approximation for Gaussian processes at the heart of the clustering task, provide crucial theoretical insights towards algorithmic design, and finally develop a computationally efficient expectation maximization (EM) algorithm. Empirical evidence of the utility of our proposal is provided via simulations and analysis of polar temperature anomaly (\href{https://www.ncei.noaa.gov/access/monitoring/climate-at-a-glance/global/time-series}{noaa.gov}) data-sets.
翻訳日:2023-09-15 12:06:50 公開日:2023-09-14
# 量子コンピュータ上での線形微分方程式の解法コスト : 明示的資源数への高速フォワード

The cost of solving linear differential equations on a quantum computer: fast-forwarding to explicit resource counts ( http://arxiv.org/abs/2309.07881v1 )

ライセンス: Link先を確認
David Jennings, Matteo Lostaglio, Robert B. Lowrie, Sam Pallister, Andrew T. Sornborger(参考訳) 量子コンピュータは古典力学系をいかにシミュレートできるか? ハミルトンシミュレーション以外のダイナミクスを効率的にシミュレートする量子アルゴリズムの開発には努力が増えているが、今のところ正確な実行コストは分かっていない。 この作業では、2つの重要な貢献をします。 まず、線形常微分方程式の解を量子状態に符号化するコストについて、初めて非漸近計算を行う。 第2に,古典力学の大規模クラスの安定性により,その高速進行が可能となり,量子シミュレーションの時間効率が向上することを示す。 複雑性分析に安定性情報を含むための広範なフレームワークを提供し,最新分析と比較してクエリ数を数桁改善する例を示す。 この観点から、量子ハミルトニアン力学は、この安定性によって引き起こされる高速なフォワードを許さない境界ケースである。 結果を説明するために、負の対数ノルムを持つ一様系では、履歴状態を出力するとき、クエリ数は11900 \sqrt{t} \log(t)$と10300 t \log(t)$ for $t \in [10^6, 10^{15}]$とエラー$\epsilon = 10^{10}$である。

How well can quantum computers simulate classical dynamical systems? There is increasing effort in developing quantum algorithms to efficiently simulate dynamics beyond Hamiltonian simulation, but so far exact running costs are not known. In this work, we provide two significant contributions. First, we provide the first non-asymptotic computation of the cost of encoding the solution to linear ordinary differential equations into quantum states -- either the solution at a final time, or an encoding of the whole history within a time interval. Second, we show that the stability properties of a large class of classical dynamics can allow their fast-forwarding, making their quantum simulation much more time-efficient. We give a broad framework to include stability information in the complexity analysis and present examples where this brings several orders of magnitude improvements in the query counts compared to state-of-the-art analysis. From this point of view, quantum Hamiltonian dynamics is a boundary case that does not allow this form of stability-induced fast-forwarding. To illustrate our results, we find that for homogeneous systems with negative log-norm, the query counts lie within the curves $11900 \sqrt{T} \log(T)$ and $10300 T \log(T)$ for $T \in [10^6, 10^{15}]$ and error $\epsilon = 10^{-10}$, when outputting a history state.
翻訳日:2023-09-15 12:06:29 公開日:2023-09-14
# mEBAL2データベースとベンチマーク:画像に基づくマルチスペクトルアイリンク検出

mEBAL2 Database and Benchmark: Image-based Multispectral Eyeblink Detection ( http://arxiv.org/abs/2309.07880v1 )

ライセンス: Link先を確認
Roberto Daza, Aythami Morales, Julian Fierrez, Ruben Tolosana, Ruben Vera-Rodriguez(参考訳) 本研究は、RGBおよび近赤外線(NIR)画像における新しいマルチスペクトルデータベースとアイブリンク検出手法を導入する。 提案するデータセット (mEBAL2, multimodal Eye Blink and Attention Level Estimation, Version 2) は,blink検出および関連アプリケーション(例えば,顔バイオメトリックスにおける注目レベル推定と提示攻撃検出)に対する,データ駆動型マルチスペクトルアプローチを改善するための大きな機会である。 mEBAL2には180の異なる学生(合計200万以上のラベル付き画像)から21,100のイメージシーケンスが含まれており、難易度が異なる多くのeラーニングタスクを実行したり、EDX MOOCプラットフォームを通じてHTML開始の実際のコースを受講している。 mEBAL2は2つの近赤外線(NIR)と1つのRGBカメラを含む複数のセンサーを使用し、タスクの実行中の顔のジェスチャーをキャプチャする。 さらに、mEBAL2のブリンク検出のベンチマークとして、最大97%のパフォーマンスを持つ畳み込みニューラルネットワークアーキテクチャを提案する。 既存のアイブリンク検出器の性能を高めるため、RGBスペクトル、NIRスペクトル、両方の組み合わせを用いて異なるトレーニング手法が実装されている。 トレーニング中にNIRとRGB画像を組み合わせることで、RGBアイリンク検出器(RGB画像のみに基づく検出)の性能が向上することを示した。 最後に、提案するeyeblink検出器の一般化能力は、hust-lebwデータセットのようなより荒野でより困難な環境で検証され、eyeblink検出のための新しい世代のデータ駆動アプローチを訓練するmebal2の有用性を示す。

This work introduces a new multispectral database and novel approaches for eyeblink detection in RGB and Near-Infrared (NIR) individual images. Our contributed dataset (mEBAL2, multimodal Eye Blink and Attention Level estimation, Version 2) is the largest existing eyeblink database, representing a great opportunity to improve data-driven multispectral approaches for blink detection and related applications (e.g., attention level estimation and presentation attack detection in face biometrics). mEBAL2 includes 21,100 image sequences from 180 different students (more than 2 million labeled images in total) while conducting a number of e-learning tasks of varying difficulty or taking a real course on HTML initiation through the edX MOOC platform. mEBAL2 uses multiple sensors, including two Near-Infrared (NIR) and one RGB camera to capture facial gestures during the execution of the tasks, as well as an Electroencephalogram (EEG) band to get the cognitive activity of the user and blinking events. Furthermore, this work proposes a Convolutional Neural Network architecture as benchmark for blink detection on mEBAL2 with performances up to 97%. Different training methodologies are implemented using the RGB spectrum, NIR spectrum, and the combination of both to enhance the performance on existing eyeblink detectors. We demonstrate that combining NIR and RGB images during training improves the performance of RGB eyeblink detectors (i.e., detection based only on a RGB image). Finally, the generalization capacity of the proposed eyeblink detectors is validated in wilder and more challenging environments like the HUST-LEBW dataset to show the usefulness of mEBAL2 to train a new generation of data-driven approaches for eyeblink detection.
翻訳日:2023-09-15 12:05:58 公開日:2023-09-14
# ネットワークメトリクスを用いた移動パターンの基盤となるコミュニティ構造探索

Using network metrics to explore the community structure that underlies movement patterns ( http://arxiv.org/abs/2309.07878v1 )

ライセンス: Link先を確認
Anh Pham Thi Minh, Abhishek Kumar Singh, Soumya Snigdha Kundu(参考訳) 本研究は,サンティアゴ・デ・チリの地域社会構造を住民の移動パターンから分析することを目的とする。 都市内の移動パターンを表すネットワークを構築するために、匿名化された住民のサブセットに対して、自宅や職場のおよその場所を含むデータセットを使用する。 このネットワークの分析を通じて,サンティアゴ・デ・チリ内に存在するコミュニティやサブ都市を特定し,都市の空間的組織を駆動する要因について考察することを目的とする。 モジュール性最適化アルゴリズムとクラスタリング技術を用いてネットワーク内のコミュニティを識別する。 その結果,コミュニティ検出アルゴリズムと分離ツールを組み合わせることで,作業時間における分離の複雑な地理の理解を深める新たな知見が得られた。

This work aims to explore the community structure of Santiago de Chile by analyzing the movement patterns of its residents. We use a dataset containing the approximate locations of home and work places for a subset of anonymized residents to construct a network that represents the movement patterns within the city. Through the analysis of this network, we aim to identify the communities or sub-cities that exist within Santiago de Chile and gain insights into the factors that drive the spatial organization of the city. We employ modularity optimization algorithms and clustering techniques to identify the communities within the network. Our results present that the novelty of combining community detection algorithms with segregation tools provides new insights to further the understanding of the complex geography of segregation during working hours.
翻訳日:2023-09-15 12:05:23 公開日:2023-09-14
# safety-tuned llamas: 命令に従う大規模言語モデルの安全性向上から学ぶ

Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions ( http://arxiv.org/abs/2309.07875v1 )

ライセンス: Link先を確認
Federico Bianchi, Mirac Suzgun, Giuseppe Attanasio, Paul R\"ottger, Dan Jurafsky, Tatsunori Hashimoto, James Zou(参考訳) 命令に従うように大きな言語モデルをトレーニングすることで、幅広いタスクでパフォーマンスが向上し、一般的には役に立ちます。 しかし、完全に有用なモデルは最も悪意のある指示にも従い、有害なコンテンツを簡単に生成します。 本稿では,教師の指導指導において,安全ではなく,役に立つことのみを強調するモデルの安全性に関する懸念を提起する。 いくつかの一般的な命令調整モデルは非常に安全でないことを示す。 さらに,LLaMAなどのモデルを微調整した場合,トレーニングセットに3%の安全性例(数百のデモ)を追加することで,安全性を大幅に向上できることを示す。 私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。 しかし、過度に安全性を調整しすぎると、モデルが安全でないものに似ているという合理的なプロンプトに反応しないという、誇張された安全性の挙動が見つかります。 本研究は, LLMのトレーニングにおけるトレードオフに光を当て, 指示に従い, 安全な行動を示す。

Training large language models to follow instructions makes them perform better on a wide range of tasks, generally becoming more helpful. However, a perfectly helpful model will follow even the most malicious instructions and readily generate harmful content. In this paper, we raise concerns over the safety of models that only emphasize helpfulness, not safety, in their instruction-tuning. We show that several popular instruction-tuned models are highly unsafe. Moreover, we show that adding just 3% safety examples (a few hundred demonstrations) in the training set when fine-tuning a model like LLaMA can substantially improve their safety. Our safety-tuning does not make models significantly less capable or helpful as measured by standard benchmarks. However, we do find a behavior of exaggerated safety, where too much safety-tuning makes models refuse to respond to reasonable prompts that superficially resemble unsafe ones. Our study sheds light on trade-offs in training LLMs to follow instructions and exhibit safe behavior.
翻訳日:2023-09-15 12:05:10 公開日:2023-09-14
# Agents: 自律言語エージェントのためのオープンソースフレームワーク

Agents: An Open-source Framework for Autonomous Language Agents ( http://arxiv.org/abs/2309.07870v1 )

ライセンス: Link先を確認
Wangchunshu Zhou, Yuchen Eleanor Jiang, Long Li, Jialong Wu, Tiannan Wang, Shi Qiu, Jintian Zhang, Jing Chen, Ruipu Wu, Shuai Wang, Shiding Zhu, Jiyu Chen, Wentao Zhang, Ningyu Zhang, Huajun Chen, Peng Cui, Mrinmaya Sachan(参考訳) 大規模言語モデル(LLM)の最近の進歩により、研究者や開発者は、さまざまなタスクを自動的に解決し、自然言語インターフェースを使用して環境、人間、その他のエージェントと対話できる自律型言語エージェントを構築することができる。 我々は、言語エージェントを人工知能への有望な方向とみなし、オープンソースライブラリであるAgentsを、これらの進歩をより広い非専門家の聴衆に開放することを目的としている。 エージェントは、計画、メモリ、ツールの使用、マルチエージェント通信、きめ細かいシンボル制御など、重要な機能をサポートするために慎重に設計されている。 エージェントは、非専門家が最先端の自律型言語エージェントを構築し、カスタマイズし、テストし、チューニングし、デプロイすることを可能にするため、ユーザフレンドリである。 この図書館は、モジュラーデザインが研究者にとって容易に拡張できるようにするため、研究に親しみやすい。 Agentsはhttps://github.com/aiwaves-cn/agentsで利用できる。

Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at https://github.com/aiwaves-cn/agents.
翻訳日:2023-09-15 12:04:50 公開日:2023-09-14
# ベータ拡散

Beta Diffusion ( http://arxiv.org/abs/2309.07867v1 )

ライセンス: Link先を確認
Mingyuan Zhou and Tianqi Chen and Zhendong Wang and Huangjie Zheng(参考訳) 境界範囲内でデータを生成するためにデマスキングとデノージングを統合する,新しい生成モデリング手法であるbeta diffusionを導入する。 スケールされたベータ分布とシフトしたベータ分布を使用することで、ベータ拡散は時間とともに乗法的遷移を利用して前方および逆拡散プロセスの両方を作成し、任意の時点のデータから、前縁と逆条件の両方でベータ分布を維持する。 加法的ガウスノイズと再重み付き証拠下界(ELBO)に依存する従来の拡散ベース生成モデルとは異なり、ベータ拡散はKL分散の凸性に由来するKL分割上界(KLUB)と乗法的に最適化される。 提案するklubは負のelboよりもベータ拡散の最適化に有効であることを実証し,2つの引数を交換したkl分岐のklubとして導出できることを示した。 bregman divergenceで表されるβ拡散の損失関数は、最適化のためのklubsの有効性をさらに支持する。 合成データと自然画像の双方における実験結果は,レンジ境界データの生成モデルにおけるベータ拡散の特異性を示し,拡散モデルの最適化におけるklubsの有効性を検証する。

We introduce beta diffusion, a novel generative modeling method that integrates demasking and denoising to generate data within bounded ranges. Using scaled and shifted beta distributions, beta diffusion utilizes multiplicative transitions over time to create both forward and reverse diffusion processes, maintaining beta distributions in both the forward marginals and the reverse conditionals, given the data at any point in time. Unlike traditional diffusion-based generative models relying on additive Gaussian noise and reweighted evidence lower bounds (ELBOs), beta diffusion is multiplicative and optimized with KL-divergence upper bounds (KLUBs) derived from the convexity of the KL divergence. We demonstrate that the proposed KLUBs are more effective for optimizing beta diffusion compared to negative ELBOs, which can also be derived as the KLUBs of the same KL divergence with its two arguments swapped. The loss function of beta diffusion, expressed in terms of Bregman divergence, further supports the efficacy of KLUBs for optimization. Experimental results on both synthetic data and natural images demonstrate the unique capabilities of beta diffusion in generative modeling of range-bounded data and validate the effectiveness of KLUBs in optimizing diffusion models, thereby making them valuable additions to the family of diffusion-based generative models and the optimization techniques used to train them.
翻訳日:2023-09-15 12:04:33 公開日:2023-09-14
# 勾配制約付きシャープネス認識による視覚言語モデルの学習

Gradient constrained sharpness-aware prompt learning for vision-language models ( http://arxiv.org/abs/2309.07866v1 )

ライセンス: Link先を確認
Liangchen Liu, Nannan Wang, Dawei Zhou, Xinbo Gao, Decheng Liu, Xi Yang, Tongliang Liu(参考訳) 本稿では,視覚言語モデル (vlm) の汎用的プロンプト学習における新たなトレードオフ問題,すなわち見掛けたクラスの性能を維持しつつ,見当たらないクラスの性能を向上させることを目的とした。 クラス劣化を無視する既存の一般化可能な手法と比較して、この問題の設定はより厳密であり、実用的な応用とより密に適合する。 この問題を解決するために、最適化の観点から始め、損失景観幾何学とモデル一般化能力の関係を利用する。 最先端手法と広く使われているシャープネス認識最小化(SAM)の損失景観を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関し、それぞれが不可欠であると結論付けた。 しかし,既存の手法の最適化勾配は,最適化手順全体において損失値と損失シャープ性の両方において,常に高い一貫性を維持できないことがわかった。 そこで本研究では、最適化勾配を動的に制約するグラディエント制約付きシャープネス対応コンテキスト最適化(GCSCoOp)を新たに提案し、2倍の最適化目標を同時に達成する。 トレードオフ問題におけるGCSCoOpの有効性を検証する。

This paper targets a novel trade-off problem in generalizable prompt learning for vision-language models (VLM), i.e., improving the performance on unseen classes while maintaining the performance on seen classes. Comparing with existing generalizable methods that neglect the seen classes degradation, the setting of this problem is more strict and fits more closely with practical applications. To solve this problem, we start from the optimization perspective, and leverage the relationship between loss landscape geometry and model generalization ability. By analyzing the loss landscape of the state-of-the-art method and the widely-used Sharpness-aware Minimization (SAM), we conclude that the trade-off performance correlates to both loss value and loss sharpness, while each of them are indispensable. However, we find the optimizing gradient of existing methods cannot always maintain high consistency with both loss value and loss sharpness during the whole optimization procedure. To this end, we propose an novel SAM-based method for prompt learning, denoted as Gradient Constrained Sharpness-aware Context Optimization (GCSCoOp), to dynamically constrains the optimizing gradient, thus achieving above two-fold optimization objective simultaneously. Extensive experiments verify the effectiveness of GCSCoOp in the trade-off problem.
翻訳日:2023-09-15 12:04:02 公開日:2023-09-14
# 大規模言語モデルに基づくエージェントの台頭と可能性:調査

The Rise and Potential of Large Language Model Based Agents: A Survey ( http://arxiv.org/abs/2309.07864v1 )

ライセンス: Link先を確認
Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Qin Liu, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huan, Tao Gui(参考訳) 人類は長い間、人間のレベルに匹敵する人工知能(AI)を追求してきた。 AIエージェントは、環境を感知し、意思決定し、行動を取る人工エンティティである。 20世紀中頃から、インテリジェントAIエージェントの開発に多くの努力がなされている。 しかし、これらの取り組みは主に特定のタスクにおける特定の能力やパフォーマンスを強化するアルゴリズムや訓練戦略の進歩に焦点を当てている。 実際、コミュニティに欠けているのは、多様なシナリオに適応可能なAIエージェントを設計するための出発点となる、十分に汎用的で強力なモデルである。 彼らが示した多彩で目覚ましい能力のため、大きな言語モデル(LLM)は人工知能(AGI)の潜在的な火花と見なされ、汎用AIエージェントの構築を期待している。 多くの研究努力は、LLMをAIエージェント構築の基礎として活用し、大きな進歩を遂げた。 まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがAIエージェントに適した基盤である理由を説明します。 これに基づいて,脳,知覚,行動の3つの主要構成要素からなるLCMエージェントの概念的フレームワークを提案する。 その後、単一エージェントシナリオ、マルチエージェントシナリオ、ヒューマンエージェント協調の3つの側面において、LLMベースのエージェントの広範な応用について検討する。 その後、エージェント・ソサエティを掘り下げ、llmベースのエージェントの行動と個性、彼らが社会を形成した時に生じる社会現象、そして彼らが人間社会に与える洞察を探求する。 最後に、この分野における重要なトピックとオープンな問題について論じる。

For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.
翻訳日:2023-09-15 12:03:40 公開日:2023-09-14
# ciwagan: 調音情報交換

CiwaGAN: Articulatory information exchange ( http://arxiv.org/abs/2309.07861v1 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s}, Thomas Lu, Alan Zhou, Peter Wu, Gopala K. Anumanchipalli(参考訳) 人間は調音器を制御して音に情報をエンコードし、聴覚装置を用いて音から情報をデコードする。 本稿では,教師なし言語モデルと教師なし情報交換モデルを組み合わせた音声言語獲得モデルであるciwaganについて述べる。 先行研究は教師なしの調音モデルと情報交換を別々に含むが、この2つのコンポーネントを結合した最初のモデルである。 また,より解釈可能な内部表現を用いた調音モデルの改良も提案する。 提案したCiwaGANモデルは,ディープラーニングを用いた人間の音声言語習得の最も現実的な近似である。 したがって、人間の発話行為の認知的妥当なシミュレーションに有用である。

Humans encode information into sounds by controlling articulators and decode information from sounds using the auditory apparatus. This paper introduces CiwaGAN, a model of human spoken language acquisition that combines unsupervised articulatory modeling with an unsupervised model of information exchange through the auditory modality. While prior research includes unsupervised articulatory modeling and information exchange separately, our model is the first to combine the two components. The paper also proposes an improved articulatory model with more interpretable internal representations. The proposed CiwaGAN model is the most realistic approximation of human spoken language acquisition using deep learning. As such, it is useful for cognitively plausible simulations of the human speech act.
翻訳日:2023-09-15 12:03:10 公開日:2023-09-14
# 生成的画像ダイナミクス

Generative Image Dynamics ( http://arxiv.org/abs/2309.07906v1 )

ライセンス: Link先を確認
Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski(参考訳) シーンダイナミクスに先立って画像空間をモデル化する手法を提案する。 我々の先行研究は、木、花、ろうそく、風に吹く服など、自然に振動する動きを含む実ビデオ列から抽出された運動軌跡の収集から得られた。 単一の画像が与えられた場合、訓練されたモデルでは、周波数調整された拡散サンプリングプロセスを使用して、フーリエ領域内のピクセル毎の長期動きの表現を予測します。 この表現は、ビデオ全体にわたる濃密な動き軌跡に変換することができる。 画像ベースのレンダリングモジュールに加えて、静止画をシームレスにループするダイナミックビデオにしたり、ユーザーが実際の画像内のオブジェクトと現実的に対話できるようにするなど、多くのダウンストリームアプリケーションにも使用することができる。

We present an approach to modeling an image-space prior on scene dynamics. Our prior is learned from a collection of motion trajectories extracted from real video sequences containing natural, oscillating motion such as trees, flowers, candles, and clothes blowing in the wind. Given a single image, our trained model uses a frequency-coordinated diffusion sampling process to predict a per-pixel long-term motion representation in the Fourier domain, which we call a neural stochastic motion texture. This representation can be converted into dense motion trajectories that span an entire video. Along with an image-based rendering module, these trajectories can be used for a number of downstream applications, such as turning still images into seamlessly looping dynamic videos, or allowing users to realistically interact with objects in real pictures.
翻訳日:2023-09-15 11:54:10 公開日:2023-09-14
# 量子ans\"atzeで不毛高原を特徴づけるアジョイント

The Adjoint Is All You Need: Characterizing Barren Plateaus in Quantum Ans\"atze ( http://arxiv.org/abs/2309.07902v1 )

ライセンス: Link先を確認
Enrico Fontana, Dylan Herman, Shouvanik Chakrabarti, Niraj Kumar, Romina Yalovetzky, Jamie Heredge, Shree Hari Sureshbabu, and Marco Pistoia(参考訳) コンパクトリー群の表現論のツールを用いて、可観測性が動的リー代数(dla)にあるパラメータ化された量子回路に対するバレン高原(bps)の理論を定式化する。 ハミルトン変分アンサッツ、量子交互作用素アンサツ、多くの等価量子ニューラルネットワークなど、広く使われるアンサアツの多種多様な種類はラザである。 特に、我々の理論は、量子回路の非自明で部分空間の制御不能な族である量子化合物 ans\atze の勾配分散を計算する能力を初めて提供する。 本研究では,Haar初期化の下での回路勾配のばらつきが,既存の数値観測と一致するDLAの次元と逆スケールできることを厳密に証明する。

Using tools from the representation theory of compact Lie groups we formulate a theory of Barren Plateaus (BPs) for parameterized quantum circuits where the observable lies in the dynamical Lie algebra (DLA), a setting that we term Lie-algebra Supported Ansatz (LASA). A large variety of commonly used ans\"atze such as the Hamiltonian Variational Ansatz, Quantum Alternating Operator Ansatz, and many equivariant quantum neural networks are LASAs. In particular, our theory provides for the first time the ability to compute the gradient variance for a non-trivial, subspace uncontrollable family of quantum circuits, the quantum compound ans\"atze. We rigorously prove that the variance of the circuit gradient, under Haar initialization, scales inversely with the dimension of the DLA, which agrees with existing numerical observations.
翻訳日:2023-09-15 11:53:56 公開日:2023-09-14
# 大言語モデルを用いたあいまいさを考慮したインコンテキスト学習

Ambiguity-Aware In-Context Learning with Large Language Models ( http://arxiv.org/abs/2309.07900v1 )

ライセンス: Link先を確認
Lingyu Gao, Aditi Chaudhary, Krishna Srinivasan, Kazuma Hashimoto, Karthik Raman, Michael Bendersky(参考訳) インコンテキスト学習(ICL)、すなわち、LLMはいくつかのタスク固有のデモしか示さず、タスク固有の微調整が不要なダウンストリームゲインにつながった。 しかし、LSMはプロンプトの選択に敏感であるため、ICLの優れたデモンストレーションをどのように選択するかが重要な研究課題である。 効果的な戦略の1つは、ICLのデモンストレーションとテストインプットのセマンティックな類似性をテキストレトリバーを用いて活用することである。 以前の作業(Min et al., 2022)から、ラベルとデモのペアがモデル予測に偏っていることが分かっています。 これにより、LCMの既存のタスクに関する知識、特に出力ラベル空間に関する知識を考えることで、より良い実証選択戦略が実現できるのではないかという仮説が導かれる。 3つのテキスト分類タスクの広範な実験を通じて、意味的に類似したiclのデモンストレーションを選択するだけでなく、テスト例を取り巻く固有のラベルの曖昧さを解決するためのデモを選択することが有用であることがわかった。 興味深いことに、llmが以前誤って分類され、テスト例の判断境界に落ちているデモを含めると、最もパフォーマンスが向上する。

In-context learning (ICL) i.e. showing LLMs only a few task-specific demonstrations has led to downstream gains with no task-specific fine-tuning required. However, LLMs are sensitive to the choice of prompts, and therefore a crucial research question is how to select good demonstrations for ICL. One effective strategy is leveraging semantic similarity between the ICL demonstrations and test inputs by using a text retriever, which however is sub-optimal as that does not consider the LLM's existing knowledge about that task. From prior work (Min et al., 2022), we already know that labels paired with the demonstrations bias the model predictions. This leads us to our hypothesis whether considering LLM's existing knowledge about the task, especially with respect to the output label space can help in a better demonstration selection strategy. Through extensive experimentation on three text classification tasks, we find that it is beneficial to not only choose semantically similar ICL demonstrations but also to choose those demonstrations that help resolve the inherent label ambiguity surrounding the test example. Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example's decision boundary, brings the most performance gain.
翻訳日:2023-09-15 11:53:39 公開日:2023-09-14
# ハード制約による物理インフォームドDeepONetsの改良

Improving physics-informed DeepONets with hard constraints ( http://arxiv.org/abs/2309.07899v1 )

ライセンス: Link先を確認
R\"udiger Brecht, Dmytro R. Popovych, Alex Bihlo and Roman O. Popovych(参考訳) 現在の物理インフォームドニューラルネットワーク(標準または演算子)は、解決しているシステムの初期状態の正確な学習に依存している。 対照的に、標準的な数値的手法はそのような初期条件を学習することなく発展させる。 本研究では, 初期条件を学習する必要がなく, 予測解に正確に表されるように, 現在の物理学的な深層学習戦略を改善することを提案する。 さらに、この方法では、DeepONetを複数回適用してソリューションをタイムステップする場合、結果の関数が連続的であることを保証します。

Current physics-informed (standard or operator) neural networks still rely on accurately learning the initial conditions of the system they are solving. In contrast, standard numerical methods evolve such initial conditions without needing to learn these. In this study, we propose to improve current physics-informed deep learning strategies such that initial conditions do not need to be learned and are represented exactly in the predicted solution. Moreover, this method guarantees that when a DeepONet is applied multiple times to time step a solution, the resulting function is continuous.
翻訳日:2023-09-15 11:53:16 公開日:2023-09-14
# 遺伝的アルゴリズムを用いたHLB制御方略の探索:ACP分散を用いた2オーチャードモデルアプローチ

Investigating HLB control strategies using Genetic Algorithms: A two-orchard model approach with ACP Dispersal ( http://arxiv.org/abs/2309.07895v1 )

ライセンス: Link先を確認
Andr\'es Anzo Hern\'andez, Uvencio Jos\'e Gim\'enez Mujica, Carlos Hern\'andez Gracidas, Jos\'e Jacobo Oliveros Oliveros(参考訳) 本研究は, 機械的および化学的制御と呼ばれる2つの潜在的戦略における制御パラメータを最適化するための遺伝的アルゴリズムの利用に焦点を当てた。 アジア産カンキツ類psyllid (acp) の分散を組み込んだ2系統の果樹園モデルを開発し, 提案する制御戦略の有効性を評価するためにコスト関数と客観的関数を検討した。 ACPの移動性も考慮され、病気のダイナミックスをより現実的に捉えることができる。 さらに、グローバル再生数(R_{0}$)の数学的表現を導出し、ACPモビリティが存在する場合のモデルパラメータの感度解析を可能にする。 さらに,各パッチの最終的なサイズと個々のR_{0}$(ACPモビリティが欠如している場合)の観点から,戦略のコスト関数と効率を数学的に表現する。 遺伝的アルゴリズムにより得られた結果は,各制御戦略の最適パラメータを明らかにし,カンキツ果樹園におけるhlbに対する効果的な制御対策を実施する上で,意思決定に有用な知見を与える。 本研究は、農業における疾病管理における制御パラメータの最適化の重要性を強調し、遺伝的アルゴリズムに基づく疾病管理戦略の開発において、今後の研究の基盤となる。

This study focuses on the use of genetic algorithms to optimize control parameters in two potential strategies called mechanical and chemical control, for mitigating the spread of Huanglongbing (HLB) in citrus orchards. By developing a two-orchard model that incorporates the dispersal of the Asian Citrus Psyllid (ACP), the cost functions and objective function are explored to assess the effectiveness of the proposed control strategies. The mobility of ACP is also taken into account to capture the disease dynamics more realistically. Additionally, a mathematical expression for the global reproduction number ($R_{0}$) is derived, allowing for sensitivity analysis of the model parameters when ACP mobility is present. Furthermore, we mathematically express the cost function and efficiency of the strategy in terms of the final size and individual $R_{0}$ of each patch (i.e., when ACP mobility is absent). The results obtained through the genetic algorithms reveal optimal parameters for each control strategy, providing valuable insights for decision-making in implementing effective control measures against HLB in citrus orchards. This study highlights the importance of optimizing control parameters in disease management in agriculture and provides a solid foundation for future research in developing disease control strategies based on genetic algorithms.
翻訳日:2023-09-15 11:53:06 公開日:2023-09-14
# 集団非エルミート皮膚効果:非相互多体系におけるポイントギャップトポロジーとドーブロンホロン励起

Collective non-Hermitian skin effect: Point-gap topology and the doublon-holon excitations in non-reciprocal many-body systems ( http://arxiv.org/abs/2309.07894v1 )

ライセンス: Link先を確認
Beom Hyun Kim and Jae-Ho Han and Moon Jip Park(参考訳) オープン量子系は、エルミート系を持たない物質のエキゾチックな位相相を多数提供する。 境界へのバルク状態のマクロな崩壊である非エルミート皮膚効果は、様々な実験プラットフォームで広く研究されている。 しかし、そのような位相的位相相が多体相互作用の存在下で持続するかどうかは、まだ疑問である。 特に、以前の研究では、パウリ排除原理が皮膚効果を抑制することが示されている。 本研究では, ドブロン-ホロン励起における皮膚効果の存在を示すことで, 強い反例を示す。 スピンハーフはたの-ネルソン模型の基底状態は皮膚効果を示さないが, ドブロン-ホロン対はその集合励起として強い結合限界でも多体皮膚効果を示す。 我々は,多体エネルギースペクトル内の点ギャップ位相を媒介としたバルク境界対応を明らかにすることにより,この効果の堅牢性を厳密に確立する。 本研究は多体相互作用系の集団励起における非エルミート位相相の存在を裏付けるものである。

Open quantum systems provide a plethora of exotic topological phases of matter that has no Hermitian counterpart. Non-Hermitian skin effect, macroscopic collapse of bulk states to the boundary, has been extensively studied in various experimental platforms. However, it remains an open question whether such topological phases persist in the presence of many-body interactions. Notably, previous studies have shown that the Pauli exclusion principle suppresses the skin effect. In this study, we present a compelling counterexample by demonstrating the presence of the skin effect in doublon-holon excitations. While the ground state of the spin-half Hatano-Nelson model shows no skin effect, the doublon-holon pairs, as its collective excitations, display the many-body skin effect even in strong coupling limit. We rigorously establish the robustness of this effect by revealing a bulk-boundary correspondence mediated by the point gap topology within the many-body energy spectrum. Our findings underscore the existence of non-Hermitian topological phases in collective excitations of many-body interacting systems.
翻訳日:2023-09-15 11:52:40 公開日:2023-09-14
# 過去の実験からプロキシメトリックを選択する

Choosing a Proxy Metric from Past Experiments ( http://arxiv.org/abs/2309.07893v1 )

ライセンス: Link先を確認
Nilesh Tripuraneni, Lee Richardson, Alexander D'Amour, Jacopo Soriano, Steve Yadlowsky(参考訳) 多くのランダム化実験において、長期的な計量(すなわち利害関係の一次結果)の処理効果はしばしば測定が困難または不可能である。 このような長期的なメトリクスは、しばしば変化に反応するのが遅く、短時間の水平実験で忠実に見積もるのは十分うるさい。 一般的な方法は、いくつかの短期的なプロキシメトリクスを測定して、彼らが長期的な指標を綿密に追跡することを期待することです。 本稿では,ランダム化実験の均質集団において,最適な指標を定義し,構築するための新しい統計的枠組みを提案する。 提案手法はまず,与えられた実験における最適プロキシメトリックの構成を,実際の潜時処理効果と検討中の実験の雑音レベルに依存するポートフォリオ最適化問題に還元する。 次に, ランダム化実験の履歴コーパスにおいて, 長期的指標と一連のプロキシの観察された治療効果を解消し, 最適化問題に用いる潜在的治療効果の推定値を抽出する。 提案手法から得られた重要な洞察の一つは、与えられた実験の最適プロキシ指標がアプリオリ固定ではなく、その配置するランダム化実験のサンプルサイズ(あるいは有効雑音レベル)に依存することである。 提案手法を産業レコメンデーションシステムからのランダム化実験の大規模コーパスに応用し,いくつかの基準値に対して良好に作用するプロキシ指標を構築した。

In many randomized experiments, the treatment effect of the long-term metric (i.e. the primary outcome of interest) is often difficult or infeasible to measure. Such long-term metrics are often slow to react to changes and sufficiently noisy they are challenging to faithfully estimate in short-horizon experiments. A common alternative is to measure several short-term proxy metrics in the hope they closely track the long-term metric -- so they can be used to effectively guide decision-making in the near-term. We introduce a new statistical framework to both define and construct an optimal proxy metric for use in a homogeneous population of randomized experiments. Our procedure first reduces the construction of an optimal proxy metric in a given experiment to a portfolio optimization problem which depends on the true latent treatment effects and noise level of experiment under consideration. We then denoise the observed treatment effects of the long-term metric and a set of proxies in a historical corpus of randomized experiments to extract estimates of the latent treatment effects for use in the optimization problem. One key insight derived from our approach is that the optimal proxy metric for a given experiment is not apriori fixed; rather it should depend on the sample size (or effective noise level) of the randomized experiment for which it is deployed. To instantiate and evaluate our framework, we employ our methodology in a large corpus of randomized experiments from an industrial recommendation system and construct proxy metrics that perform favorably relative to several baselines.
翻訳日:2023-09-15 11:52:21 公開日:2023-09-14
# HandNeRF: 単一のRGB画像から手動インタラクションシーンを再構築する学習

HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image ( http://arxiv.org/abs/2309.07891v1 )

ライセンス: Link先を確認
Hongsuk Choi, Nikhil Chavan-Dafle, Jiacheng Yuan, Volkan Isler, and Hyunsoo Park(参考訳) 本稿では,単一のrgb画像から3次元ハンドオブジェクトシーンを再構成する前に,ハンドオブジェクトインタラクションを学習する手法を提案する。 3次元ハンドオブジェクトシーン再構成のためのトレーニングデータ生成と推論は、単一の画像の奥行きあいまいさと、手とオブジェクトによるオクルージョンのため困難である。 我々はこの課題を、手の形を利用して、手と物体形状の相対的な構成を制限し、機会に変える。 我々は3次元手形特徴と2次元オブジェクト特徴との相関を明示的にエンコードし,手と物体のシーン形状を予測する一般化可能な暗黙関数HandNeRFを設計する。 実世界のデータセットを用いた実験により、HandNeRFは、新しいグリップ構成のハンドオブジェクトシーンを、同等の手法よりも正確に再構築可能であることを示す。 さらに,HandNeRFからのオブジェクト再構成により,ロボットハンドオーバの把握など,下流タスクのより正確な実行が可能になることを示す。

This paper presents a method to learn hand-object interaction prior for reconstructing a 3D hand-object scene from a single RGB image. The inference as well as training-data generation for 3D hand-object scene reconstruction is challenging due to the depth ambiguity of a single image and occlusions by the hand and object. We turn this challenge into an opportunity by utilizing the hand shape to constrain the possible relative configuration of the hand and object geometry. We design a generalizable implicit function, HandNeRF, that explicitly encodes the correlation of the 3D hand shape features and 2D object features to predict the hand and object scene geometry. With experiments on real-world datasets, we show that HandNeRF is able to reconstruct hand-object scenes of novel grasp configurations more accurately than comparable methods. Moreover, we demonstrate that object reconstruction from HandNeRF ensures more accurate execution of a downstream task, such as grasping for robotic hand-over.
翻訳日:2023-09-15 11:51:57 公開日:2023-09-14
# 圧力マッピングセンサを用いた体重運動認識のための局所的特徴融合フレームワーク

A Novel Local-Global Feature Fusion Framework for Body-weight Exercise Recognition with Pressure Mapping Sensors ( http://arxiv.org/abs/2309.07888v1 )

ライセンス: Link先を確認
Davinder Pal Singh, Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz(参考訳) 床面動的圧力マップを用いた体重運動認識のための局所的特徴融合フレームワークを提案する。 提案フレームワークは, 画像処理技術とYOLOオブジェクト検出を用いて局所的特徴とグローバル的特徴を組み合わせることで, 異なる部位からの圧力プロファイルを局所化し, 物理的制約を考慮することを目的としている。 提案した局所特徴抽出法は, 刈り取られた圧力マッピングと, 角方向, マット上の位置, 圧力領域などの数値的特徴からなる高次局所特徴集合を生成する。 また,グローバル特徴抽出の知識を保存し,運動認識の性能を向上させるために,正規化のための知識蒸留を採用する。 実験の結果,ラベル固有の特徴を保ちながら,運動認識のためのF1スコアが11%向上したことが明らかとなった。

We present a novel local-global feature fusion framework for body-weight exercise recognition with floor-based dynamic pressure maps. One step further from the existing studies using deep neural networks mainly focusing on global feature extraction, the proposed framework aims to combine local and global features using image processing techniques and the YOLO object detection to localize pressure profiles from different body parts and consider physical constraints. The proposed local feature extraction method generates two sets of high-level local features consisting of cropped pressure mapping and numerical features such as angular orientation, location on the mat, and pressure area. In addition, we adopt a knowledge distillation for regularization to preserve the knowledge of the global feature extraction and improve the performance of the exercise recognition. Our experimental results demonstrate a notable 11 percent improvement in F1 score for exercise recognition while preserving label-specific features.
翻訳日:2023-09-15 11:51:38 公開日:2023-09-14
# 密度比推定のための一般化KMM型最適化法に関するメモ

Some notes concerning a generalized KMM-type optimization method for density ratio estimation ( http://arxiv.org/abs/2309.07887v1 )

ライセンス: Link先を確認
Cristian Daniel Alecsa(参考訳) 本稿では,密度比推定のための新しい最適化アルゴリズムを提案する。 より正確には、トレーニングデータとテストデータのサブセットに対する密度比の推定を含むより一般的な状況をカバーするために、適切な損失関数の構築を用いて、よく知られたKMM法を拡張することを検討する。 関連するコードはhttps://github.com/CDAlecsa/Generalized-KMMで見ることができる。

In the present paper we introduce new optimization algorithms for the task of density ratio estimation. More precisely, we consider extending the well-known KMM method using the construction of a suitable loss function, in order to encompass more general situations involving the estimation of density ratio with respect to subsets of the training data and test data, respectively. The associated codes can be found at https://github.com/CDAlecsa/Generalized-KMM.
翻訳日:2023-09-15 11:51:24 公開日:2023-09-14
# OpenIllumination: 実物体の逆レンダリング評価のためのマルチイルミネーションデータセット

OpenIllumination: A Multi-Illumination Dataset for Inverse Rendering Evaluation on Real Objects ( http://arxiv.org/abs/2309.07921v1 )

ライセンス: Link先を確認
Isabella Liu, Linghao Chen, Ziyang Fu, Liwen Wu, Haian Jin, Zhong Li, Chin Ming Ryan Wong, Yi Xu, Ravi Ramamoorthi, Zexiang Xu, Hao Su(参考訳) OpenIlluminationは、64個のオブジェクトの108K以上のイメージを多種多様な素材で格納し、72個のカメラビューと多数の異なるイルミネーションをキャプチャする現実世界のデータセットである。 データセットの各画像に対して、正確なカメラパラメータ、照明グランド真理、前景セグメンテーションマスクを提供する。 このデータセットは, 実物体に対する逆レンダリングおよび材料分解法を定量的に評価できる。 我々は,我々のデータセット上で最先端の逆レンダリング手法をいくつか検討し,その性能を比較した。 データセットとコードはプロジェクトページにある。 https://oppo-us-research.github.io/openillumination。

We introduce OpenIllumination, a real-world dataset containing over 108K images of 64 objects with diverse materials, captured under 72 camera views and a large number of different illuminations. For each image in the dataset, we provide accurate camera parameters, illumination ground truth, and foreground segmentation masks. Our dataset enables the quantitative evaluation of most inverse rendering and material decomposition methods for real objects. We examine several state-of-the-art inverse rendering methods on our dataset and compare their performances. The dataset and code can be found on the project page: https://oppo-us-research.github.io/OpenIllumination.
翻訳日:2023-09-15 11:46:04 公開日:2023-09-14
# 変圧器を用いた大語彙3次元拡散モデル

Large-Vocabulary 3D Diffusion Model with Transformer ( http://arxiv.org/abs/2309.07920v1 )

ライセンス: Link先を確認
Ziang Cao, Fangzhou Hong, Tong Wu, Liang Pan, Ziwei Liu(参考訳) 自動生成モデルによる多種多様な高品質な3Dアセットの作成が望ましい。 3d生成への多大な努力にもかかわらず、既存の作品の多くは単一のカテゴリやいくつかのカテゴリの生成に焦点を当てている。 本稿では,実世界の3dオブジェクトの膨大なカテゴリを単一の生成モデルで合成するための拡散型フィードフォワードフレームワークを提案する。 特に、この大語彙の3D世代には3つの大きな課題がある。 a) 表現的かつ効率的な3d表現の必要性 b) 分類における幾何学及びテクスチャの大きな多様性 c) 現実世界のオブジェクトの出現の複雑さ。 そこで,本稿では,トランスフォーマー difftf を用いた三面体に基づく3次元拡散モデルを提案する。 1) 効率とロバスト性を考慮して, 修正三平面表現を採用し, 適合速度と精度を向上させる。 2) 形状やテクスチャの劇的な変化に対処するため, 汎用的な3D知識と専門的な3D特徴を組み合わせた3Dオブジェクトの特徴を考察する。 多様なカテゴリから一般化した3d知識を抽出するため,多面的注意を共有できる新しい3d認識トランスを提案する。 異なる平面にまたがる平面間の関係を学習し、特殊な3D特徴を持つ一般化された3D知識を集約する。 3)3次元認識型エンコーダ/デコーダを考案し,複雑な外観を持つカテゴリを扱うための符号化三葉機における一般化された3次元知識を強化する。 ShapeNetとOmniObject3D(200以上の多様な実世界のカテゴリ)の広範囲にわたる実験は、単一のDiffTFモデルが、大きな多様性、豊富なセマンティクス、高品質で最先端の3Dオブジェクト生成性能を達成することを説得力強く証明している。

Creating diverse and high-quality 3D assets with an automatic generative model is highly desirable. Despite extensive efforts on 3D generation, most existing works focus on the generation of a single category or a few categories. In this paper, we introduce a diffusion-based feed-forward framework for synthesizing massive categories of real-world 3D objects with a single generative model. Notably, there are three major challenges for this large-vocabulary 3D generation: a) the need for expressive yet efficient 3D representation; b) large diversity in geometry and texture across categories; c) complexity in the appearances of real-world objects. To this end, we propose a novel triplane-based 3D-aware Diffusion model with TransFormer, DiffTF, for handling challenges via three aspects. 1) Considering efficiency and robustness, we adopt a revised triplane representation and improve the fitting speed and accuracy. 2) To handle the drastic variations in geometry and texture, we regard the features of all 3D objects as a combination of generalized 3D knowledge and specialized 3D features. To extract generalized 3D knowledge from diverse categories, we propose a novel 3D-aware transformer with shared cross-plane attention. It learns the cross-plane relations across different planes and aggregates the generalized 3D knowledge with specialized 3D features. 3) In addition, we devise the 3D-aware encoder/decoder to enhance the generalized 3D knowledge in the encoded triplanes for handling categories with complex appearances. Extensive experiments on ShapeNet and OmniObject3D (over 200 diverse real-world categories) convincingly demonstrate that a single DiffTF model achieves state-of-the-art large-vocabulary 3D object generation performance with large diversity, rich semantics, and high quality.
翻訳日:2023-09-15 11:45:55 公開日:2023-09-14
# Prompted Chain-of-Contactsによる人間とシーンの統一インタラクション

Unified Human-Scene Interaction via Prompted Chain-of-Contacts ( http://arxiv.org/abs/2309.07918v1 )

ライセンス: Link先を確認
Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang, Bo Dai, Dahua Lin, Jiangmiao Pang(参考訳) HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。 動作品質と物理的妥当性の進歩にもかかわらず、2つの重要な要因、多目的インタラクション制御とユーザフレンドリなインターフェースの開発は、HSIの実用化前にさらなる探索を必要とする。 本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一HSIフレームワークUniHSIを提案する。 この枠組みは、接触の連鎖(CoC: Chain of Contacts)としての相互作用の定義に基づいて構築されている。 この定義に基づいて、unihsiは、言語プロンプトをcocの形式でタスクプランに翻訳する大規模言語モデル(llm)プランナーと、cocを統一されたタスク実行に変換する統一コントローラを構成する。 トレーニングと評価を容易にするために,多様なシナリオに基づいてLLMが生成する数千のタスク計画を含むScenePlanというデータセットを新たに収集した。 汎用的なタスク実行と実際のスキャンシーンに対する一般化性におけるフレームワークの有効性を総合的に検証した。 プロジェクトページはhttps://github.com/OpenRobotLab/UniHSI にある。

Human-Scene Interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control and the development of a user-friendly interface, require further exploration before the practical application of HSI. This paper presents a unified HSI framework, UniHSI, which supports unified control of diverse interactions through language commands. This framework is built upon the definition of interaction as Chain of Contacts (CoC): steps of human joint-object part pairs, which is inspired by the strong correlation between interaction types and human-object contact regions. Based on the definition, UniHSI constitutes a Large Language Model (LLM) Planner to translate language prompts into task plans in the form of CoC, and a Unified Controller that turns CoC into uniform task execution. To facilitate training and evaluation, we collect a new dataset named ScenePlan that encompasses thousands of task plans generated by LLMs based on diverse scenarios. Comprehensive experiments demonstrate the effectiveness of our framework in versatile task execution and generalizability to real scanned scenes. The project page is at https://github.com/OpenRobotLab/UniHSI .
翻訳日:2023-09-15 11:45:29 公開日:2023-09-14
# 単語と点に注目したテキスト対形コヒーレンスのためのベンチマーク

Looking at words and points with attention: a benchmark for text-to-shape coherence ( http://arxiv.org/abs/2309.07917v1 )

ライセンス: Link先を確認
Andrea Amaduzzi, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano(参考訳) テキスト条件による3Dオブジェクト生成と操作は急速に進歩しているが、生成された3D形状と入力テキスト記述とのコヒーレンスの評価は明確なベンチマークを欠いている。 理由は2つあります a) テキスト形式のペアの唯一の公開データセットにおけるテキスト記述の質の低さ b) 当該コヒーレンスを定量的に評価するための指標の限られた有効性 本稿では,両弱点に対処する包括的解決策を提案する。 まず,大きな言語モデルを用いて,形状に関連するテキスト記述を自動的に洗練する。 次に,テキスト間のコヒーレンスを評価するための定量的指標を提案する。 アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。 ユーザスタディによって検証された改良されたデータセット,新しいメトリック,およびテキスト形状のペアは,テキスト条件付き3次元生成モデルのテキスト形状コヒーレンスに関する研究を促進するために公開された,新しいきめ細かいベンチマークで構成されている。 ベンチマークはhttps://cvlab-unibo.github.io/CrossCoherence-Web/で入手できる。

While text-conditional 3D object generation and manipulation have seen rapid progress, the evaluation of coherence between generated 3D shapes and input textual descriptions lacks a clear benchmark. The reason is twofold: a) the low quality of the textual descriptions in the only publicly available dataset of text-shape pairs; b) the limited effectiveness of the metrics used to quantitatively assess such coherence. In this paper, we propose a comprehensive solution that addresses both weaknesses. Firstly, we employ large language models to automatically refine textual descriptions associated with shapes. Secondly, we propose a quantitative metric to assess text-to-shape coherence, through cross-attention mechanisms. To validate our approach, we conduct a user study and compare quantitatively our metric with existing ones. The refined dataset, the new metric and a set of text-shape pairs validated by the user study comprise a novel, fine-grained benchmark that we publicly release to foster research on text-to-shape coherence of text-conditioned 3D generative models. Benchmark available at https://cvlab-unibo.github.io/CrossCoherence-Web/.
翻訳日:2023-09-15 11:45:08 公開日:2023-09-14
# MMICL:マルチモーダルインコンテキスト学習による視覚言語モデルの構築

MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning ( http://arxiv.org/abs/2309.07915v1 )

ライセンス: Link先を確認
Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang(参考訳) ディープラーニングの復活から始めて、大きな言語モデル(LLM)の恩恵を受ける視覚言語モデル(VLM)は、それほど人気がない。 しかし、LLMは背景知識やタスク情報をテキスト内学習に利用できるが、ほとんどのVLMは複雑なマルチモーダルプロンプトの理解に苦戦している。 この問題は、VLMのアーキテクチャ設計や事前学習データに遡ることができる。 具体的には、現在のvlmsでは、複数のイメージとテキストをインターリーブしたマルチモーダルプロンプトではなく、単一のイメージでマルチモーダルデータを活用することを強調している。 新たに提案されたVLMは、複数の画像でユーザプロンプトを処理できるが、事前学習データでは、インターリーブされた画像やWebからクロールされたテキストよりも洗練されたマルチモーダルプロンプトが提供されない。 モデルとデータの観点から,この問題に対処するMMICLを提案する。 リアルなアプリケーションにおけるトレーニングデータと複雑なユーザプロンプトのギャップを軽減するために、インターリーブ方式で視覚的コンテキストとテキスト的コンテキストをシームレスに統合できる、よく設計されたアーキテクチャを導入します。 1)インターリーブ画像とテキストを用いたマルチモーダルコンテキスト 2)各画像のテキスト参照、及び 3)空間的,論理的,時間的関係を有するマルチイメージデータ。 実験の結果,MME や MMBench などの複雑な推論ベンチマークにおいて,MMICL は多種多様な視覚言語タスクにおいて,最新のゼロショットと少数ショットのパフォーマンスを達成できることが確認された。 解析の結果,MMICLは複雑なマルチモーダル素早い理解の課題に効果的に対処できることが示された。 ScienceQA-IMGの実験により、MMICLはVLMにおける言語バイアスの問題を軽減することができた。

Starting from the resurgence of deep learning, vision-language models (VLMs) benefiting from large language models (LLMs) have never been so popular. However, while LLMs can utilize extensive background knowledge and task information with in-context learning, most VLMs still struggle with understanding complex multi-modal prompts with multiple images. The issue can traced back to the architectural design of VLMs or pre-training data. Specifically, the current VLMs primarily emphasize utilizing multi-modal data with a single image some, rather than multi-modal prompts with interleaved multiple images and text. Even though some newly proposed VLMs could handle user prompts with multiple images, pre-training data does not provide more sophisticated multi-modal prompts than interleaved image and text crawled from the web. We propose MMICL to address the issue by considering both the model and data perspectives. We introduce a well-designed architecture capable of seamlessly integrating visual and textual context in an interleaved manner and MIC dataset to reduce the gap between the training data and the complex user prompts in real-world applications, including: 1) multi-modal context with interleaved images and text, 2) textual references for each image, and 3) multi-image data with spatial, logical, or temporal relationships. Our experiments confirm that MMICL achieves new stat-of-the-art zero-shot and few-shot performance on a wide range of general vision-language tasks, especially for complex reasoning benchmarks including MME and MMBench. Our analysis demonstrates that MMICL effectively deals with the challenge of complex multi-modal prompt understanding. The experiments on ScienceQA-IMG also show that MMICL successfully alleviates the issue of language bias in VLMs, which we believe is the reason behind the advanced performance of MMICL.
翻訳日:2023-09-15 11:44:52 公開日:2023-09-14
# ALWOD:弱スーパービジョンオブジェクト検出のためのアクティブラーニング

ALWOD: Active Learning for Weakly-Supervised Object Detection ( http://arxiv.org/abs/2309.07914v1 )

ライセンス: Link先を確認
Yuting Wang, Velibor Ilic, Jiatong Li, Branislav Kisacanin, and Vladimir Pavlovic(参考訳) オブジェクト検出(OD)は重要なビジョンタスクであり、正確なオブジェクトローカライゼーションラベルを持つ大規模なトレーニングデータセットが不足しているため、依然として課題である。 本研究では,弱教師付きオブジェクト検出パラダイムを用いたアクティブラーニング(al)を用いて,この問題に対処する新しいフレームワークであるalwodを提案する。 ALの性能はモデル初期化に大きく依存するため、非常に小さなラベル付きセットと大きなタグ付けされた画像のセットを併用した補助画像生成戦略をALのウォームスタートとして提案する。 次に,学生と教師のODペア間の不一致と不確実性を活用して,アノテートする最も情報性の高いイメージを効果的に提案するAL獲得関数を提案する。 最後に、ALループを完了するために、人間のアノテーションに委譲された新しいラベル付けタスクを導入し、情報的画像のラベル付けを迅速かつ効果的に行うモデル提案検出の選定と修正を行った。 いくつかの難解なベンチマークを通じて、alwodは、一部のラベル付きだが戦略的に選択された画像インスタンスでトレーニングされたodと、完全にラベル付きデータに依存するodとのギャップを大幅に狭めることを実証した。 私たちのコードはhttps://github.com/seqam-lab/alwodで公開されています。

Object detection (OD), a crucial vision task, remains challenged by the lack of large training datasets with precise object localization labels. In this work, we propose ALWOD, a new framework that addresses this problem by fusing active learning (AL) with weakly and semi-supervised object detection paradigms. Because the performance of AL critically depends on the model initialization, we propose a new auxiliary image generator strategy that utilizes an extremely small labeled set, coupled with a large weakly tagged set of images, as a warm-start for AL. We then propose a new AL acquisition function, another critical factor in AL success, that leverages the student-teacher OD pair disagreement and uncertainty to effectively propose the most informative images to annotate. Finally, to complete the AL loop, we introduce a new labeling task delegated to human annotators, based on selection and correction of model-proposed detections, which is both rapid and effective in labeling the informative images. We demonstrate, across several challenging benchmarks, that ALWOD significantly narrows the gap between the ODs trained on few partially labeled but strategically selected image instances and those that rely on the fully-labeled data. Our code is publicly available on https://github.com/seqam-lab/ALWOD.
翻訳日:2023-09-15 11:44:19 公開日:2023-09-14
# 効率的な画像-映像間伝達学習のための空間的・時間的学習

Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer Learning ( http://arxiv.org/abs/2309.07911v1 )

ライセンス: Link先を確認
Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Yingya Zhang, Changxin Gao, Deli Zhao, Nong Sang(参考訳) 近年,CLIP のような大規模事前学習型言語画像モデルでは,空間的内容の理解には異常な能力があるが,そのようなモデルを映像認識にナビゲートすることは,相変わらず不満足な時間的モデリング能力に悩まされている。 既存の手法では、事前訓練されたモデル全体を通してバックプロパゲーションが必要か、リソース要求となるか、あるいは事前訓練された構造の時間的推論能力によって制限される、事前訓練されたモデルに調整可能な構造を挿入する。 本研究では,ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。 具体的には、事前訓練された基礎モデルが空間エンコーダとして機能し、時間エンコーダとして軽量ネットワークが導入されたデュアルエンコーダ構造を用いる。 エンコーダの間に統合ブランチを挿入して時空間情報をヒューズする。 DiSTの空間的・時間的学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。 一方,統合のための余分なネットワークとの絡み合った学習は,空間的理解と時間的理解の両方に有益であることを示す。 5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。 大規模な Kinetics-710 の事前トレーニングでは,凍った ViT-L モデルで Kinetics-400 の89.7% を達成した。 コードとモデルはhttps://github.com/alibaba-mmai-research/DiSTにある。

Recently, large-scale pre-trained language-image models like CLIP have shown extraordinary capabilities for understanding spatial contents, but naively transferring such models to video recognition still suffers from unsatisfactory temporal modeling capabilities. Existing methods insert tunable structures into or in parallel with the pre-trained model, which either requires back-propagation through the whole pre-trained model and is thus resource-demanding, or is limited by the temporal reasoning capability of the pre-trained structure. In this work, we present DiST, which disentangles the learning of spatial and temporal aspects of videos. Specifically, DiST uses a dual-encoder structure, where a pre-trained foundation model acts as the spatial encoder, and a lightweight network is introduced as the temporal encoder. An integration branch is inserted between the encoders to fuse spatio-temporal information. The disentangled spatial and temporal learning in DiST is highly efficient because it avoids the back-propagation of massive pre-trained parameters. Meanwhile, we empirically show that disentangled learning with an extra network for integration benefits both spatial and temporal understanding. Extensive experiments on five benchmarks show that DiST delivers better performance than existing state-of-the-art methods by convincing gaps. When pre-training on the large-scale Kinetics-710, we achieve 89.7% on Kinetics-400 with a frozen ViT-L model, which verifies the scalability of DiST. Codes and models can be found in https://github.com/alibaba-mmai-research/DiST.
翻訳日:2023-09-15 11:43:56 公開日:2023-09-14
# tempo: 効率的なマルチビューポーズ推定、追跡、予測

TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting ( http://arxiv.org/abs/2309.07910v1 )

ライセンス: Link先を確認
Rohan Choudhury, Kris Kitani, Laszlo A. Jeni(参考訳) 既存の3次元ポーズ推定手法は正確であるが、計算コストは高く、単一の時間ステップ予測に最適化されている。 我々は,人間のポーズを追跡・予測しながら,頑健な時空間表現を学習し,ポーズ精度を向上させる効率的な多視点ポーズ推定モデルであるtempoを提案する。 一人当たりの2dポーズ特徴を逐次計算し、空間的情報と時間的情報の両方を単一の表現に融合することにより、最先端と比較して計算量を大幅に削減する。 そこで本モデルでは,効率を犠牲にすることなく,時空間を用いてより正確な人間のポーズを予測できる。 我々はさらに、この表現を使って、人間のポーズを時間とともに追跡し、将来のポーズを予測する。 最後に、シーン固有の微調整なしでデータセットをまたいでモデルを一般化できることを実証する。 TEMPOは、挑戦的なCMU Panoptic Studioデータセット上のTesseTrackと比較して、33$\times$ FPSの改善で10$\%のMPJPEを達成している。

Existing volumetric methods for predicting 3D human pose estimation are accurate, but computationally expensive and optimized for single time-step prediction. We present TEMPO, an efficient multi-view pose estimation model that learns a robust spatiotemporal representation, improving pose accuracy while also tracking and forecasting human pose. We significantly reduce computation compared to the state-of-the-art by recurrently computing per-person 2D pose features, fusing both spatial and temporal information into a single representation. In doing so, our model is able to use spatiotemporal context to predict more accurate human poses without sacrificing efficiency. We further use this representation to track human poses over time as well as predict future poses. Finally, we demonstrate that our model is able to generalize across datasets without scene-specific fine-tuning. TEMPO achieves 10$\%$ better MPJPE with a 33$\times$ improvement in FPS compared to TesseTrack on the challenging CMU Panoptic Studio dataset.
翻訳日:2023-09-15 11:43:26 公開日:2023-09-14
# 物理的に可塑性フルボディハンドオブジェクト相互作用合成

Physically Plausible Full-Body Hand-Object Interaction Synthesis ( http://arxiv.org/abs/2309.07907v1 )

ライセンス: Link先を確認
Jona Braun, Sammy Christen, Muhammed Kocabas, Emre Aksan, Otmar Hilliges(参考訳) そこで本研究では, 物体間相互作用を全体で合成する物理手法を提案する。 近年の進歩は、人間と物体の相互作用の特定の側面に対処しているが、包括的な物理に基づくアプローチは依然として課題である。 既存のメソッドは、しばしばインタラクションプロセスの分離セグメントに焦点を当て、アーティファクトにつながる可能性のあるデータ駆動技術に依存します。 対照的に,提案手法は強化学習(RL)と物理シミュレーションを採用し,データ駆動手法の限界を緩和する。 階層的なフレームワークを通じて、まず、分離した設定で身体と手の動きのスキルを学習する。 ジェネリックスキル先行者は、基礎部分の動きに埋め込まれた潜伏スキルをデコードすることを学ぶ。 ハイレベルなポリシーは、これらの事前訓練された潜在空間における手と対象の相互作用を制御し、把持のタスク目標と3次元の目標追跡によって導かれる。 対人的なスタイルの用語とタスク報酬を組み合わせ、タスクインセンティブを達成しつつ自然な動きを奨励する新しい報酬関数を用いて訓練される。 本手法は,オブジェクトの接近から把握,その後の操作に至るまで,完全なインタラクションタスクの実現に成功している。 このアプローチをキネマティックスベースのベースラインと比較し,より物理的に妥当な動作につながることを示す。

We propose a physics-based method for synthesizing dexterous hand-object interactions in a full-body setting. While recent advancements have addressed specific facets of human-object interactions, a comprehensive physics-based approach remains a challenge. Existing methods often focus on isolated segments of the interaction process and rely on data-driven techniques that may result in artifacts. In contrast, our proposed method embraces reinforcement learning (RL) and physics simulation to mitigate the limitations of data-driven approaches. Through a hierarchical framework, we first learn skill priors for both body and hand movements in a decoupled setting. The generic skill priors learn to decode a latent skill embedding into the motion of the underlying part. A high-level policy then controls hand-object interactions in these pretrained latent spaces, guided by task objectives of grasping and 3D target trajectory following. It is trained using a novel reward function that combines an adversarial style term with a task reward, encouraging natural motions while fulfilling the task incentives. Our method successfully accomplishes the complete interaction task, from approaching an object to grasping and subsequent manipulation. We compare our approach against kinematics-based baselines and show that it leads to more physically plausible motions.
翻訳日:2023-09-15 11:42:45 公開日:2023-09-14