このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231219となっている論文です。

PDF登録状況(公開日: 20231219)

TitleAuthorsAbstract論文公表日・翻訳日
# ProvG-Searcher: 効率的な確率グラフ探索のためのグラフ表現学習アプローチ

ProvG-Searcher: A Graph Representation Learning Approach for Efficient Provenance Graph Search ( http://arxiv.org/abs/2309.03647v2 )

ライセンス: Link先を確認
Enes Altinisik, Fatih Deniz, Husrev Taha Sencar, (参考訳) ProvG-Searcherは,システムセキュリティログ内の既知のAPT動作を検出する新しい手法である。 提案手法では,イベントログの包括的グラフ表現であるプロフェランスグラフを利用して,システムエンティティをノードとして,インタラクションをエッジとしてマッピングすることで,データプロフェランス関係をキャプチャし,表現する。 グラフマッチング問題として前駆体グラフを探索するタスクを定式化し,グラフ表現学習法を用いる。 探索手法の中心的な構成要素は,部分グラフ関係を直接評価できるベクトル空間への部分グラフの埋め込みである。 本稿では,クエリと事前計算したサブグラフ表現との直接比較を行うために,サブグラフマッチングを簡略化する順序埋め込みを用いることで,これを実現する。 証明グラフのサイズと複雑さによって引き起こされる課題に対処するために,グラフ分割方式と行動保存グラフ縮小方式を提案する。 全体として,本手法は計算効率を著しく向上させ,検索処理の大部分をオフラインで行なえるようにし,クエリ実行中に軽量な比較ステップを組み込む。 ProvG-Searcherは、クエリの振る舞いを検出する精度が99%を超え、偽陽性率が約0.02%であり、他の手法よりも優れていることを示す。

We present ProvG-Searcher, a novel approach for detecting known APT behaviors within system security logs. Our approach leverages provenance graphs, a comprehensive graph representation of event logs, to capture and depict data provenance relations by mapping system entities as nodes and their interactions as edges. We formulate the task of searching provenance graphs as a subgraph matching problem and employ a graph representation learning method. The central component of our search methodology involves embedding of subgraphs in a vector space where subgraph relationships can be directly evaluated. We achieve this through the use of order embeddings that simplify subgraph matching to straightforward comparisons between a query and precomputed subgraph representations. To address challenges posed by the size and complexity of provenance graphs, we propose a graph partitioning scheme and a behavior-preserving graph reduction method. Overall, our technique offers significant computational efficiency, allowing most of the search computation to be performed offline while incorporating a lightweight comparison step during query execution. Experimental results on standard datasets demonstrate that ProvG-Searcher achieves superior performance, with an accuracy exceeding 99% in detecting query behaviors and a false positive rate of approximately 0.02%, outperforming other approaches.
翻訳日:2024-03-25 22:59:44 公開日:2023-12-19
# 脱出できない:エンタープライズネットワークにおけるSIEMルールの侵入を検出する

You Cannot Escape Me: Detecting Evasions of SIEM Rules in Enterprise Networks ( http://arxiv.org/abs/2311.10197v2 )

ライセンス: Link先を確認
Rafael Uetz, Marco Herzog, Louis Hackländer, Simon Schwarz, Martin Henze, (参考訳) サイバー攻撃は組織にとって大きなリスクとなり、データ盗難、妨害、ゆがみがよくある。 予防対策は攻撃を撃退するのに十分ではないので、成功した侵入者のタイムリーな検出は、彼らが最終目標に達するのを阻止するために不可欠である。 この目的のために、多くの組織はセキュリティ情報およびイベント管理(SIEM)システムを使用して、セキュリティ関連のイベントを集中的に収集し、専門家による検出ルールを使用して攻撃指標をスキャンしている。 しかし,広く普及しているSIEM検出ルールを解析することにより,敵の約半数が容易に回避でき,検出されることなく,企業ネットワーク内で共通の悪意ある行動が実行できるようになる。 そこで本研究では、機械学習を用いて、入ってくる事象をSIEMルールと比較し、一方の事象と、他方の既知の事象を比較して回避を成功させる適応的誤用検出法を提案する。 このアイデアに基づいて,概念適応型誤用検知システムAMIDESを提案する。 大規模企業ネットワークから4週間のSIEMイベントと500件以上の手作りの回避策を用いて,AMIDESは誤報なしにこれらの回避行為の大部分を検出できた。 さらに、AMIDESは、どのルールが回避されたかを評価することで、アラート分析を容易にする。 その計算効率はAMIDESを現実世界の運用に適しており、組織は適度な努力で発見盲点を著しく削減することができる。

Cyberattacks have grown into a major risk for organizations, with common consequences being data theft, sabotage, and extortion. Since preventive measures do not suffice to repel attacks, timely detection of successful intruders is crucial to stop them from reaching their final goals. For this purpose, many organizations utilize Security Information and Event Management (SIEM) systems to centrally collect security-related events and scan them for attack indicators using expert-written detection rules. However, as we show by analyzing a set of widespread SIEM detection rules, adversaries can evade almost half of them easily, allowing them to perform common malicious actions within an enterprise network without being detected. To remedy these critical detection blind spots, we propose the idea of adaptive misuse detection, which utilizes machine learning to compare incoming events to SIEM rules on the one hand and known-benign events on the other hand to discover successful evasions. Based on this idea, we present AMIDES, an open-source proof-of-concept adaptive misuse detection system. Using four weeks of SIEM events from a large enterprise network and more than 500 hand-crafted evasions, we show that AMIDES successfully detects a majority of these evasions without any false alerts. In addition, AMIDES eases alert analysis by assessing which rules were evaded. Its computational efficiency qualifies AMIDES for real-world operation and hence enables organizations to significantly reduce detection blind spots with moderate effort.
翻訳日:2024-03-18 23:02:51 公開日:2023-12-19
# QuanShield: 自己破壊エンクレーブによるサイドチェネル攻撃に対する防御

QuanShield: Protecting against Side-Channels Attacks using Self-Destructing Enclaves ( http://arxiv.org/abs/2312.11796v1 )

ライセンス: Link先を確認
Shujie Cui, Haohua Li, Yuanhong Li, Zhi Zhang, Lluís Vilanova, Peter Pietzuch, (参考訳) Trusted Execution Environments (TEE) は、OSカーネルとハイパーバイザからのアクセスに対してセキュリティに敏感な計算を保護するエンクレーブを作成することができる。 近年の研究では、TEEは、敵がエンクレーブに隠された秘密を学べるサイドチャネル攻撃に弱いことが示されている。 このような攻撃の大部分は、エンクレーブ実行の制御やデータフローを追跡するために例外や割り込みをトリガーする。 本研究では,エンクレーブの実行を中断するサイドチャネル攻撃からエンクレーブを保護するシステムであるQuanShieldを提案する。 QuanShieldの主な考え方は、割り込みが発生した時にエンクレーブが終了するエンクレーブを実行する専用CPUコア上に割り込み不要環境を作成することによって、リソース分離を強化することである。 QuanShieldは、最近のOSカーネルでサポートされているティッカーレススケジューリングモードを利用して割り込みを避ける。 QuanShieldは次に、ハードウェアが割り込み処理をサポートするために使用するエンクレーブの保存領域(SA)を第2スタックとして使用する。 LLVMベースのコンパイラパスを通じて、QuarnShieldはEnclave命令を変更して、関数フレームベースのアドレスなどのメモリ参照をSAへ/から保存/ロードする。 割り込みが発生した場合、ハードウェアはSA内のデータをCPU状態に上書きし、エンクレーブ実行が失敗することを保証する。 評価の結果,QuanShieldは事実上のオーバーヘッドで割り込み攻撃の限界を著しく高めることがわかった。

Trusted Execution Environments (TEEs) allow user processes to create enclaves that protect security-sensitive computation against access from the OS kernel and the hypervisor. Recent work has shown that TEEs are vulnerable to side-channel attacks that allow an adversary to learn secrets shielded in enclaves. The majority of such attacks trigger exceptions or interrupts to trace the control or data flow of enclave execution. We propose QuanShield, a system that protects enclaves from side-channel attacks that interrupt enclave execution. The main idea behind QuanShield is to strengthen resource isolation by creating an interrupt-free environment on a dedicated CPU core for running enclaves in which enclaves terminate when interrupts occur. QuanShield avoids interrupts by exploiting the tickless scheduling mode supported by recent OS kernels. QuanShield then uses the save area (SA) of the enclave, which is used by the hardware to support interrupt handling, as a second stack. Through an LLVM-based compiler pass, QuanShield modifies enclave instructions to store/load memory references, such as function frame base addresses, to/from the SA. When an interrupt occurs, the hardware overwrites the data in the SA with CPU state, thus ensuring that enclave execution fails. Our evaluation shows that QuanShield significantly raises the bar for interrupt-based attacks with practical overhead.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-19
# ローカル環境におけるプライバシ保護データ公開の概要

A Summary of Privacy-Preserving Data Publishing in the Local Setting ( http://arxiv.org/abs/2312.11845v1 )

ライセンス: Link先を確認
Wenjun Lin, Jiahao Qian, Wenwen Liu, Lang Wu, (参考訳) 収集、処理、共有データの指数関数的な成長は個人のプライバシーに対する懸念を引き起こしている。 その結果、組織がどのようにデータを扱い、保護するかを監督する様々な法律や規則が制定された。 このような手法の1つが統計開示制御であり、機密情報の漏洩のリスクを最小化することを目的としている。 この識別は、特定のプライバシー保護技術によって達成される。 しかし、トレードオフが存在する: 特定されていないデータは、しばしば情報の喪失につながるため、データ分析の精度とモデルの予測能力に影響を及ぼす可能性がある。 包括的な目標は、データの解釈可能性を維持しながら、個人のプライバシを保護することだ。 統計開示制御の進歩にもかかわらず、この分野は進化を続けており、プライバシーとユーティリティの最適なバランスをとる決定的な解決策は存在しない。 この調査は、非識別の複雑な過程を掘り下げるものである。 マイクロデータの復号化に使用される現在のプライバシ保存技術について概説し、様々な開示シナリオに適したプライバシ対策を掘り下げ、情報損失と予測性能の指標を評価する。 ここでは、プライバシ制約によって引き起こされる主な課題に取り組み、これらの課題を緩和し、プライバシ保護のテクニックを分類し、現在の比較研究の理論的評価を提供し、ドメイン内の多くの未解決問題を強調します。

The exponential growth of collected, processed, and shared data has given rise to concerns about individuals' privacy. Consequently, various laws and regulations have been established to oversee how organizations handle and safeguard data. One such method is Statistical Disclosure Control, which aims to minimize the risk of exposing confidential information by de-identifying it. This de-identification is achieved through specific privacy-preserving techniques. However, a trade-off exists: de-identified data can often lead to a loss of information, which might impact the accuracy of data analysis and the predictive capability of models. The overarching goal remains to safeguard individual privacy while preserving the data's interpretability, meaning its overall usefulness. Despite advances in Statistical Disclosure Control, the field continues to evolve, with no definitive solution that strikes an optimal balance between privacy and utility. This survey delves into the intricate processes of de-identification. We outline the current privacy-preserving techniques employed in microdata de-identification, delve into privacy measures tailored for various disclosure scenarios, and assess metrics for information loss and predictive performance. Herein, we tackle the primary challenges posed by privacy constraints, overview predominant strategies to mitigate these challenges, categorize privacy-preserving techniques, offer a theoretical assessment of current comparative research, and highlight numerous unresolved issues in the domain.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-19
# クラウドにおけるプロパティ保存型データベース暗号化技術に関する調査

A Survey on Property-Preserving Database Encryption Techniques in the Cloud ( http://arxiv.org/abs/2312.12075v1 )

ライセンス: Link先を確認
Johannes Koppenwallner, Erich Schikuta, (参考訳) リレーショナルデータベースをクラウドにアウトソーシングすることは、スケーラビリティ、可用性、コスト効率など、いくつかのメリットを提供する。 しかし、アウトソースされたデータのセキュリティと機密性には懸念がある。 ここでの一般的なアプローチは、標準化された暗号化アルゴリズムでデータを暗号化し、クラウドにのみ暗号化されたデータを格納することだ。 しかし、このアプローチの問題点は、暗号化によってソート、フォーマット、コンパラビリティといった、データベースクエリの機能に不可欠なデータの重要な特性が失われることである。 この問題に対する解決策の1つは、暗号化アルゴリズムを使用することである。 これらのアルゴリズムは、Caesar暗号化のような単純なアルゴリズムから、mOPEのようなセキュアなアルゴリズムまで様々である。 報告では、クラウドデータベースサービスとの関係でデータを保存するのに使用される一般的な暗号化技術について調査している。 適用された手法を示し、それらの特性を識別する。

Outsourcing a relational database to the cloud offers several benefits, including scalability, availability, and cost-effectiveness. However, there are concerns about the security and confidentiality of the outsourced data. A general approach here would be to encrypt the data with a standardized encryption algorithm and then store the data only encrypted in the cloud. The problem with this approach, however, is that with encryption, important properties of the data such as sorting, format or comparability, which are essential for the functioning of database queries, are lost. One solution to this problem is the use of encryption algorithms, which also preserve these properties in the encrypted data, thus enabling queries to encrypted data. These algorithms range from simple algorithms like Caesar encryption to secure algorithms like mOPE. The report at hand presents a survey on common encryption techniques used for storing data in relation Cloud database services. It presents the applied methods and identifies their characteristics.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-19
# Terrapin攻撃:シーケンス数操作によるSSHチャネルのインテリジェンスを破る

Terrapin Attack: Breaking SSH Channel Integrity By Sequence Number Manipulation ( http://arxiv.org/abs/2312.12422v1 )

ライセンス: Link先を確認
Fabian Bäumer, Marcus Brinkmann, Jörg Schwenk, (参考訳) SSHプロトコルは、ネットワークサービス、特にリモート端末のログインや、組織内のファイル転送、オープンインターネット上の1500万以上のサーバへのセキュアなアクセスを提供する。 SSHは認証されたキー交換を使用して、クライアントとサーバの間のセキュアなチャネルを確立する。 セキュアなチャネルは、メッセージ操作、リプレイ、挿入、削除、再注文を防止する。 本稿では,SSHに新たな暗号化アルゴリズムと緩和が加えられたことにより,SSHバイナリパケットプロトコルはもはやセキュアなチャネルではなく,広く使用されている3つの暗号化モードに対して,SSHチャネル整合性(INT-PST)が損なわれていることを示す。 これにより、SSHチャネルの開始時に暗号化されたパケットをクライアントやサーバに通知せずに削除できるプレフィックス・トランケーション攻撃が可能になる。 この攻撃の実際の応用例をいくつか紹介する。 我々は,ユーザ認証のための公開鍵アルゴリズムをダウングレードしたり,OpenSSH 9.5で導入されたキーストロークタイミング攻撃に対する新たな対策をオフにすることができるような,SSH拡張交渉(RFC 8308)を完全に破ることができることを示す。 我々はまた、AsyncSSHの実装欠陥を特定し、攻撃者が攻撃者によって制御されたシェルに被害者のログインをリダイレクトできるようにする。 脆弱な暗号化モードと拡張ネゴシエーションをサポートするインターネット全体のスキャンでは、SSHサーバの77%が悪用可能な暗号化モードをサポートしており、57%が好みの選択肢として挙げている。 まず、SSHハンドシェイクは認証されていないオプションメッセージをサポートします。 第二に、SSHは暗号化を有効にしたときにメッセージシーケンス番号をリセットしない。 この分析に基づいて、攻撃を緩和するSSHの効果的かつ後方互換性のある変更を提案する。

The SSH protocol provides secure access to network services, particularly remote terminal login and file transfer within organizational networks and to over 15 million servers on the open internet. SSH uses an authenticated key exchange to establish a secure channel between a client and a server, which protects the confidentiality and integrity of messages sent in either direction. The secure channel prevents message manipulation, replay, insertion, deletion, and reordering. In this paper, we show that as new encryption algorithms and mitigations were added to SSH, the SSH Binary Packet Protocol is no longer a secure channel: SSH channel integrity (INT-PST) is broken for three widely used encryption modes. This allows prefix truncation attacks where some encrypted packets at the beginning of the SSH channel can be deleted without the client or server noticing it. We demonstrate several real-world applications of this attack. We show that we can fully break SSH extension negotiation (RFC 8308), such that an attacker can downgrade the public key algorithms for user authentication or turn off a new countermeasure against keystroke timing attacks introduced in OpenSSH 9.5. We also identified an implementation flaw in AsyncSSH that, together with prefix truncation, allows an attacker to redirect the victim's login into a shell controlled by the attacker. In an internet-wide scan for vulnerable encryption modes and support for extension negotiation, we find that 77% of SSH servers support an exploitable encryption mode, while 57% even list it as their preferred choice. We identify two root causes that enable these attacks: First, the SSH handshake supports optional messages that are not authenticated. Second, SSH does not reset message sequence numbers when encryption is enabled. Based on this analysis, we propose effective and backward-compatible changes to SSH that mitigate our attacks.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-19
# SoK: クロスチェーンブリッジのセキュリティ:アタックサーフェス、ディフェンス、オープンな問題

SoK: Security of Cross-chain Bridges: Attack Surfaces, Defenses, and Open Problems ( http://arxiv.org/abs/2312.12573v1 )

ライセンス: Link先を確認
Mengya Zhang, Xiaokuan Zhang, Josh Barbee, Yinqian Zhang, Zhiqiang Lin, (参考訳) ブロックチェーン間のトークンとデータ交換を容易にするために、クロスチェーンブリッジが使用されている。 橋は人気が高まりつつあるが、まだ幼少期であり、最近何度も攻撃を受けており、財政的に大きな損失を出している。 クロスチェーンブリッジ上の各インシデントをオンラインで解説する報告は数多くあるが、インターネット上に散らばっていて、クロスチェーンブリッジのセキュリティ状況を全体像的に分析する作業は行われていない。 このギャップを埋めるために、我々はクロスチェーンブリッジのセキュリティ問題に関する体系的研究を行った。 まず、既存のクロスチェーンブリッジの特徴を要約し、その使用方法、検証メカニズム、通信モデル、および3つの分類について述べる。 これらの特徴に基づき、攻撃者が悪用する可能性のある攻撃ベクトルを12個同定する。 次に、過去2年間のクロスチェーン攻撃を10の異なるタイプに分類し、ソリデーティコードの例を伴って、各脆弱性タイプについて説明を提供する分類法を紹介します。 また、既存の防衛や潜在的な防衛、オープンな質問、クロスチェーンブリッジ研究の方向性についても論じる。 この体系化は、より高いセキュリティを備えたクロスチェーンブリッジの設計と実装に光を当て、さらに重要なのは、よりよいクロスチェーンブリッジエコシステムを構築するための将来の研究を促進することができる、と私たちは信じています。

Cross-chain bridges are used to facilitate token and data exchanges across blockchains. Although bridges are becoming increasingly popular, they are still in their infancy and have been attacked multiple times recently, causing significant financial loss. Although there are numerous reports online explaining each of the incidents on cross-chain bridges, they are scattered over the Internet, and there is no work that analyzes the security landscape of cross-chain bridges in a holistic manner. To fill the gap, in this paper, we performed a systematic study of cross-chain bridge security issues. First, we summarize the characteristics of existing cross-chain bridges, including their usages, verification mechanisms, communication models, and three categorizations. Based on these characteristics, we identify 12 potential attack vectors that attackers may exploit. Next, we introduce a taxonomy that categorizes cross-chain attacks in the past two years into 10 distinct types, and then provide explanations for each vulnerability type, accompanied by Solidity code examples. We also discuss existing and potential defenses, as well as open questions and future research directions on cross-chain bridges. We believe that this systematization can shed light on designing and implementing cross-chain bridges with higher security and, more importantly, facilitating future research on building a better cross-chain bridge ecosystem.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-19
# 大規模言語モデルはセキュリティの脆弱性を特定できるのか?

Can Large Language Models Identify And Reason About Security Vulnerabilities? Not Yet ( http://arxiv.org/abs/2312.12575v1 )

ライセンス: Link先を確認
Saad Ullah, Mingji Han, Saurabh Pujar, Hammond Pearce, Ayse Coskun, Gianluca Stringhini, (参考訳) 大規模な言語モデル(LLM)は、自動脆弱性修正に使用するために提案されているが、ベンチマークでは、セキュリティ関連のバグが一貫して欠如していることが示されている。 したがって、LLMがセキュリティ関連のバグを確実に特定できるかどうか、これまでで最も詳細な調査を行っている。 我々は、228のコードシナリオのシリーズを構築し、自動化されたフレームワークにおいて8つの異なる調査次元にわたる最も有能なLLMのうち8つを分析します。 評価の結果、LLMは非決定論的応答、不正確で不誠実な推論を提供し、知識遮断日以外の現実世界のシナリオでは不十分であることがわかった。 もっとも重要なのは,関数名や変数名だけを変更すること,あるいはソースコードにライブラリ関数を追加することで,これらのモデルがそれぞれ26%,17%のケースで誤った解が得られることだ。 これらの結果から,LSMを汎用セキュリティアシスタントとして使用するには,さらなるLSMの進歩が必要であることが示唆された。

Large Language Models (LLMs) have been suggested for use in automated vulnerability repair, but benchmarks showing they can consistently identify security-related bugs are lacking. We thus perform the most detailed investigation to date on whether LLMs can reliably identify security-related bugs. We construct a series of 228 code scenarios and analyze eight of the most capable LLMs across eight different investigative dimensions in an automated framework. Our evaluation shows LLMs provide non-deterministic responses, incorrect and unfaithful reasoning, and perform poorly in real-world scenarios outside their knowledge cut-off date. Most importantly, our findings reveal significant non-robustness in even the most advanced models like `PaLM2' and `GPT-4': by merely changing function or variable names, or by the addition of library functions in the source code, these models can yield incorrect answers in 26% and 17% of cases, respectively. These findings demonstrate that further LLM advances are needed before LLMs can be used as general purpose security assistants.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-19
# FairFlow Protocol:EthereumにおけるMEV(Equitable Maximal Extractable Value)緩和

FairFlow Protocol: Equitable Maximal Extractable Value (MEV) mitigation in Ethereum ( http://arxiv.org/abs/2312.12654v1 )

ライセンス: Link先を確認
Dipankar Sarkar, (参考訳) Ethereumは、堅牢なスマートコントラクト機能のために、分散アプリケーション(dApps)の主要なプラットフォームとして登場した。 Ethereumエコシステムにおける重要な問題のひとつは、ブロックチェーンコミュニティで注目されている概念であるMaximal Extractable Value(MEV)である。 しかし、MEVはプラットフォームの運用と整合性に大きな意味を持つ主要な課題であり続けている。 本稿では,Ethereumの既存インフラストラクチャにおけるMEVの効果を緩和する新しいフレームワークであるFairFlowプロトコルを紹介する。 このプロトコルは、より公平な環境を提供し、鉱夫やバリデータによる搾取を防ぎ、ユーザーデータを保護することを目的としている。 オークションベースのブロック空間割り当てとランダム化トランザクションオーダリングの組み合わせは、MEV利用の可能性を大幅に減少させる。

Ethereum has emerged as a leading platform for decentralized applications (dApps) due to its robust smart contract capabilities. One of the critical issues in the Ethereum ecosystem is Maximal Extractable Value (MEV), a concept that has gained significant attention in the blockchain community. However, MEV has remained a major challenge with significant implications for the platform's operation and integrity. This paper introduces the FairFlow protocol, a novel framework designed to mitigate the effects of MEV within Ethereum's existing infrastructure. The protocol aims to provide a more equitable environment, preventing exploitation by miners or validators, and protecting user data. The combined approach of auction-based block space allocation and randomized transaction ordering significantly reduces the potential for MEV exploitation.
翻訳日:2024-03-18 11:47:54 公開日:2023-12-19
# サイバー戦争における情報技術の影響

Impact of Information Technology in Cyberwars ( http://arxiv.org/abs/2401.12221v1 )

ライセンス: Link先を確認
Santhosh Pogaku, (参考訳) 現代の国家と国家の間で様々な種類の戦争が発展し、それぞれが技術革新と最先端の技術の使用によって発展した。 最新のイノベーション、技術、アイデアの助けを得て、ITセクターにさらに貢献し、サイバー戦争に使用されるさまざまな技術がより進歩し、結果として、情報技術は、他の多くの統合された自動化技術に対する強み、力、制御を持つ。 主にサイバー戦争に使用される様々な技術を特定する。 本研究は,サイバー戦争に関連する情報技術の先行研究を,体系的レビュー手法とテーマ分析手法を用いて検討した。

Different types of warfare have evolved between nations and states in the modern era, each with its technological breakthroughs and use of cutting-edge technologies. With the help of the latest innovations, technologies and ideas emerging and contributing more to the It sector, making it more advanced and resulting in different technologies used for cyber warfare, information technology has a stronghold, power, and control over many other integrated automated technologies. To identify the various technologies that are primarily used in cyber warfare. This exploratory study used a systematic review technique and a theme analysis approach to examine prior works in information technology relevant to cyber warfare.
翻訳日:2024-03-18 08:27:10 公開日:2023-12-19
# 第6回モデリング変数言語ワークショップ(MODEVAR 2024)

Sixth International Workshop on Languages for Modelling Variability (MODEVAR 2024) ( http://arxiv.org/abs/2402.15511v1 )

ライセンス: Link先を確認
Jessie Galasso-Carbonnel, Chico Sundermann, (参考訳) これは、スイスのベルンで開催された第6回モデリング変数に関する国際ワークショップ(MODEVAR 2024)の手続きである。

This is the proceedings of the Sixth International Workshop on Languages for Modelling Variability (MODEVAR 2024) which was held at Bern, Switzerland, February 06th 2024.
翻訳日:2024-03-18 07:18:44 公開日:2023-12-19
# RIS3-MCATによる課題指向スマートスペシャライゼーションのためのモニタリングプラットフォームの構築

Towards building a monitoring platform for a challenge-oriented smart specialisation with RIS3-MCAT ( http://arxiv.org/abs/2401.10900v1 )

ライセンス: Link先を確認
Enric Fuster, Tatiana Fern\'andez, Hermes Carretero, Nicolau Duran-Silva, Roger Guix\'e, Josep Pujol, Bernardo Rondelli, Guillem Rull, Marta Cortijo, Montserrat Romagosa(参考訳) 社会・環境問題に対処するための、より持続的で包括的で公平な経路への転換をめざした新しい研究開発パラダイムにおいて、社会経済開発のための新たな専門化のパターンと新たな軌跡を生み出すためには、R&I政策やプロジェクトの貢献を地図化し理解するための監視システムやツールを提供することが不可欠である。 この変換に対処するため、カタルーニャにおける挑戦指向のスマートスペシャライゼーションを監視するために、オープンデータ、セマンティック分析、データ視覚化の可能性を探求する一連の研究の結果、RIS3-MCATプラットフォームを提示する。 RIS3-MCATは、R&Iプロジェクトデータへのアクセスを容易にするインタラクティブなプラットフォームであり、大量のテキストの洗練された分析を可能にし、古典的な分類システムを超えたテーマの特殊化と課題の詳細な研究を可能にする。 本稿では,その概念化,開発フレームワーク,利用について述べる。

In the new research and innovation (R&I) paradigm, aimed at a transformation towards more sustainable, inclusive and fair pathways to address societal and environmental challenges, and at generating new patterns of specialisation and new trajectories for socioeconomic development, it is essential to provide monitoring systems and tools to map and understand the contribution of R&I policies and projects. To address this transformation, we present the RIS3-MCAT platform, the result of a line of work aimed at exploring the potential of open data, semantic analysis, and data visualisation, for monitoring challenge-oriented smart specialisation in Catalonia. RIS3-MCAT is an interactive platform that facilitates access to R&I project data in formats that allow for sophisticated analyses of a large volume of texts, enabling the detailed study of thematic specialisations and challenges beyond classical classification systems. Its conceptualisation, development framework and use are presented in this paper.
翻訳日:2024-02-11 17:41:35 公開日:2023-12-19
# 高度な大規模言語モデルのガバナンスと活用のための倫理的人工知能原則とガイドライン

Ethical Artificial Intelligence Principles and Guidelines for the Governance and Utilization of Highly Advanced Large Language Models ( http://arxiv.org/abs/2401.10745v1 )

ライセンス: Link先を確認
Soaad Hossain, Syed Ishtiaque Ahmed(参考訳) ChatGPT、LaMDA、その他の大規模言語モデル(LLMs)の成功を踏まえると、技術分野やその他の分野におけるLLMの開発と利用が増加している。 LLMが人間の知性を超えているレベルには達していないが、それがいつになるかは時が経つだろう。 このようなLSMは高度なLSMと呼ばれる。 現在、我々はまだその段階に達していないため、先進的なLLMに対処する倫理的人工知能(AI)の原則とガイドラインが限られている。 しかし、一旦その点に達すると、倫理的かつ最適な方法でその余波に対処する準備が十分できていないため、望ましくない予期せぬ結果に繋がる。 本稿では,高度なllmに対応するための倫理的ai原則とガイドラインについて論じる。

Given the success of ChatGPT, LaMDA and other large language models (LLMs), there has been an increase in development and usage of LLMs within the technology sector and other sectors. While the level in which LLMs has not reached a level where it has surpassed human intelligence, there will be a time when it will. Such LLMs can be referred to as advanced LLMs. Currently, there are limited usage of ethical artificial intelligence (AI) principles and guidelines addressing advanced LLMs due to the fact that we have not reached that point yet. However, this is a problem as once we do reach that point, we will not be adequately prepared to deal with the aftermath of it in an ethical and optimal way, which will lead to undesired and unexpected consequences. This paper addresses this issue by discussing what ethical AI principles and guidelines can be used to address highly advanced LLMs.
翻訳日:2024-02-11 17:40:24 公開日:2023-12-19
# ビデオsar持続イメージングのためのダブルpcに基づくビームセグメンテーション極性フォーマットアルゴリズム

A Beam-Segmenting Polar Format Algorithm Based on Double PCS for Video SAR Persistent Imaging ( http://arxiv.org/abs/2401.10252v1 )

ライセンス: Link先を確認
Jiawei Jiang, Yinwei Li, Shaowen Luo, Ping Li and Yiming Zhu(参考訳) ビデオ合成開口レーダ(SAR)は,高解像度,高フレームレート,連続観測の利点などにより近年注目されている。 一般に、PFA(Polar format algorithm)はスポットライトモードビデオSARの効率的なアルゴリズムである。 しかし、pfaの過程では、波面曲率誤差(wce)が撮像シーンサイズを制限し、2次元補間が効率に影響を及ぼす。 上記の問題を解決するために,BS-PCS-PFAと呼ばれるチャープスケーリング(PCS)の原理に基づくビーム分割型PFAが,キャリア周波数の異なるビデオSARに対して持続撮像機能を持つビデオSAR画像に対して提案されている。 まず、ビデオSAR PFAに適用可能な改良PCSを提案し、2次元補間を置き換え、地上出力座標系(GOCS)における粗い画像を得る。 粗画像に存在する歪みやデフォーカスについては、ビームセグメンテーションの高速フィルタリングに基づく新しいサブブロックイメージング法を提案し、サブブロックの等価サイズが歪み無視領域より小さい場合には歪みやデフォーカスを無視できる複数のサブビームデータに分割する。 サブビームデータを処理し、再焦点サブイメージをモザイクすることで、歪みやデフォーカスのないGOCSのフルイメージを得る。 さらに, 実不規則軌道への適応性を求めるアルゴリズムに3段階のMoCo法を適用した。 提案手法は,PFAのシーンサイズを大幅に拡大し,操作効率が向上し,ビデオSAR撮影に適している。 このアルゴリズムの実現性は実験データによって検証される。

Video synthetic aperture radar (SAR) is attracting more attention in recent years due to its abilities of high resolution, high frame rate and advantages in continuous observation. Generally, the polar format algorithm (PFA) is an efficient algorithm for spotlight mode video SAR. However, in the process of PFA, the wavefront curvature error (WCE) limits the imaging scene size and the 2-D interpolation affects the efficiency. To solve the aforementioned problems, a beam-segmenting PFA based on principle of chirp scaling (PCS), called BS-PCS-PFA, is proposed for video SAR imaging, which has the capability of persistent imaging for different carrier frequencies video SAR. Firstly, an improved PCS applicable to video SAR PFA is proposed to replace the 2-D interpolation and the coarse image in the ground output coordinate system (GOCS) is obtained. As for the distortion or defocus existing in the coarse image, a novel sub-block imaging method based on beam-segmenting fast filtering is proposed to segment the image into multiple sub-beam data, whose distortion and defocus can be ignored when the equivalent size of sub-block is smaller than the distortion negligible region. Through processing the sub-beam data and mosaicking the refocused subimages, the full image in GOCS without distortion and defocus is obtained. Moreover, a three-step MoCo method is applied to the algorithm for the adaptability to the actual irregular trajectories. The proposed method can significantly expand the effective scene size of PFA, and the better operational efficiency makes it more suitable for video SAR imaging. The feasibility of the algorithm is verified by the experimental data.
翻訳日:2024-02-11 17:39:56 公開日:2023-12-19
# ランダム集合による推論:未来への課題

Reasoning with random sets: An agenda for the future ( http://arxiv.org/abs/2401.09435v1 )

ライセンス: Link先を確認
Fabio Cuzzolin(参考訳) In this paper, we discuss a potential agenda for future work in the theory of random sets and belief functions, touching upon a number of focal issues: the development of a fully-fledged theory of statistical reasoning with random sets, including the generalisation of logistic regression and of the classical laws of probability; the further development of the geometric approach to uncertainty, to include general random sets, a wider range of uncertainty measures and alternative geometric representations; the application of this new theory to high-impact areas such as climate change, machine learning and statistical learning theory.

In this paper, we discuss a potential agenda for future work in the theory of random sets and belief functions, touching upon a number of focal issues: the development of a fully-fledged theory of statistical reasoning with random sets, including the generalisation of logistic regression and of the classical laws of probability; the further development of the geometric approach to uncertainty, to include general random sets, a wider range of uncertainty measures and alternative geometric representations; the application of this new theory to high-impact areas such as climate change, machine learning and statistical learning theory.
翻訳日:2024-01-22 09:25:34 公開日:2023-12-19
# オービタルホール絶縁体におけるオービタルホール導電率の逆転と可変トポロジカル量子状態の発生

Reversal of Orbital Hall Conductivity and Emergence of Tunable Topological Quantum States in Orbital Hall Insulator ( http://arxiv.org/abs/2312.14181v1 )

ライセンス: Link先を確認
Shilei Ji, Chuye Quan, Ruijia Yao, Jianping Yang, Xing'ao Li(参考訳) 最近の知見は、軌道角運動量(OAM)が、軌道ホール絶縁体における軌道チャーン数によって特徴づけられる固有軌道ホール効果(OHE)を誘導する能力を持っていることを示している。 量子異常ホール絶縁体のスピン偏極チャネルとは異なり、OAMはバレーロックされており、対応するエッジ状態を操作する上での課題となっている。 ここでは、yk \cdot p$モデルと第一原理計算を組み合わせることで、ひずみ工学を通して符号反転軌道チャーン数を示す。 ひずみの操作下では、電子構造における軌道寄与と整合して、原子価帯から伝導帯への非零OAMの移動を観察する。 我々は、OAMを持つ電子とホールが反対軌道を示し、軌道のホール伝導率が逆転することを明らかにした。 さらに,符号可逆 OHE 間の位相量子状態について検討する。

Recent findings indicate that orbital angular momentum (OAM) has the capability to induce the intrinsic orbital Hall effect (OHE), which is characterized by orbital Chern number in the orbital Hall insulator. Unlike the spin-polarized channel in Quantum anomalous Hall insulator, the OAM is valley-locked, posing challenges in manipulating the corresponding edge state. Here we demonstrate the sign-reversal orbital Chern number through strain engineering by combing the $k \cdot p$ model and first-principles calculation. Under the manipulation of strain, we observe the transfer of non-zero OAM from the valence band to the conduction band, aligning with the orbital contribution in the electronic structure. Our investigation reveals that electrons and holes with OAM exhibit opposing trajectories, resulting in a reversal of the orbital Hall conductivity. Furthermore, we explore the topological quantum state between the sign-reversible OHE.
翻訳日:2024-01-15 13:14:54 公開日:2023-12-19
# テストセットAUROCの興味深い事例

The curious case of the test set AUROC ( http://arxiv.org/abs/2312.16188v1 )

ライセンス: Link先を確認
Michael Roberts, Alon Hazan, S\"oren Dittmer, James H.F. Rudd, and Carola-Bibiane Sch\"onlieb(参考訳) MLモデルのサイズと複雑さは過去10年間で急速に増加してきたが、パフォーマンスを評価する方法はペースを保っていない。 特に、多くの潜在的なパフォーマンス指標の中で、MLコミュニティは頑固に使い続けている。 a) 検証及び試験コホート(訓練データとは別)のための受信機動作特性曲線(AUROC)の下の領域 b)検証ROCから決定された最適しきい値における試験データの感度及び特異性。 しかし、テストROC曲線から得られるスコアを考慮すれば、モデルがどのように機能するか、その一般化能力についてのみ、狭い洞察が得られると論じる。

Whilst the size and complexity of ML models have rapidly and significantly increased over the past decade, the methods for assessing their performance have not kept pace. In particular, among the many potential performance metrics, the ML community stubbornly continues to use (a) the area under the receiver operating characteristic curve (AUROC) for a validation and test cohort (distinct from training data) or (b) the sensitivity and specificity for the test data at an optimal threshold determined from the validation ROC. However, we argue that considering scores derived from the test ROC curve alone gives only a narrow insight into how a model performs and its ability to generalise.
翻訳日:2024-01-15 13:05:15 公開日:2023-12-19
# モデルに基づくメトリクスの忠実なモデル評価

Faithful Model Evaluation for Model-Based Metrics ( http://arxiv.org/abs/2312.17254v1 )

ライセンス: Link先を確認
Palash Goyal, Qian Hu, Rahul Gupta(参考訳) 統計的に重要なテストは、自然言語処理(NLP)において、研究や実験の結果が偶然によるものか、真の関係を反映したものかを決定するために用いられる。 重要度試験における重要なステップは、サンプル分散の関数である信頼区間の推定である。 サンプル分散計算は、基礎的真理に対する評価が容易である。 しかし、多くの場合、メートル法モデルがしばしば評価に使用される。 例えば、2つの大きな言語モデルの毒性を比較するために、毒性分類器が評価に用いられる。 既存の作業は通常、計量モデルエラーによる分散変化を考慮せず、誤った結論につながる可能性がある。 本研究では,モデルベースメトリクスの重要度テストの数学的基礎を確立する。 公開ベンチマークデータセットと生産システムに関する実験により, モデルに基づく指標のサンプル分散を計算するために, 計量モデル誤差を考慮すると, 特定の実験の結論が変わることを示す。

Statistical significance testing is used in natural language processing (NLP) to determine whether the results of a study or experiment are likely to be due to chance or if they reflect a genuine relationship. A key step in significance testing is the estimation of confidence interval which is a function of sample variance. Sample variance calculation is straightforward when evaluating against ground truth. However, in many cases, a metric model is often used for evaluation. For example, to compare toxicity of two large language models, a toxicity classifier is used for evaluation. Existing works usually do not consider the variance change due to metric model errors, which can lead to wrong conclusions. In this work, we establish the mathematical foundation of significance testing for model-based metrics. With experiments on public benchmark datasets and a production system, we show that considering metric model errors to calculate sample variances for model-based metrics changes the conclusions in certain experiments.
翻訳日:2024-01-15 12:48:25 公開日:2023-12-19
# プロフェッショナルネットワークの課題: つながりが人事に力を与える

Professional Network Matters: Connections Empower Person-Job Fit ( http://arxiv.org/abs/2401.00010v1 )

ライセンス: Link先を確認
Hao Chen, Lun Du, Yuxuan Lu, Qiang Fu, Xu Chen, Shi Han, Yanbin Kang, Guangming Lu, Zi Li(参考訳) オンライン採用プラットフォームは通常、適切な求職者と適切な職種を自動的にマッチングするコアサービスにおいて、個人-ジョブフィットモデルを採用している。 既存の作品は歴史的あるいは文脈的な情報を活用するが、求職者のプロフェッショナルネットワークにおける社会的関係という重要な側面を無視することが多い。 本稿では,プロフェッショナルネットワークをPerson-Job Fitモデルに組み込むことの重要性を強調する。 本研究の革新的アプローチは,1つの段階から成っている:(1) 専門的接続を含む異種知識を捉えるためのワークプレース・異種情報ネットワーク(WHIN)の定義,2) 異種グラフニューラルネットワークを用いた各種エンティティの事前学習,(2) 専門的接続のコンテキスト情報でユーザの行方不明情報を補うコンテキスト的ソーシャルアテンショングラフニューラルネットワーク(CSAGNN)の設計。 我々は, csagnn において,whin から事前学習されたエンティティ表現を活用し, うるさいプロフェッショナルネットワークを扱うジョブ特化注意機構を導入する。 本手法の有効性を,linkedinの3つの実世界のリクルートデータセットで実験的評価を行い,ベースラインモデルと比較して優れた性能を示す。

Online recruitment platforms typically employ Person-Job Fit models in the core service that automatically match suitable job seekers with appropriate job positions. While existing works leverage historical or contextual information, they often disregard a crucial aspect: job seekers' social relationships in professional networks. This paper emphasizes the importance of incorporating professional networks into the Person-Job Fit model. Our innovative approach consists of two stages: (1) defining a Workplace Heterogeneous Information Network (WHIN) to capture heterogeneous knowledge, including professional connections and pre-training representations of various entities using a heterogeneous graph neural network; (2) designing a Contextual Social Attention Graph Neural Network (CSAGNN) that supplements users' missing information with professional connections' contextual information. We introduce a job-specific attention mechanism in CSAGNN to handle noisy professional networks, leveraging pre-trained entity representations from WHIN. We demonstrate the effectiveness of our approach through experimental evaluations conducted across three real-world recruitment datasets from LinkedIn, showing superior performance compared to baseline models.
翻訳日:2024-01-15 12:25:16 公開日:2023-12-19
# REE-HDSC:Suriname Curacaoの歴史データベースにおける抽出エンティティの認識

REE-HDSC: Recognizing Extracted Entities for the Historical Database Suriname Curacao ( http://arxiv.org/abs/2401.02972v1 )

ライセンス: Link先を確認
Erik Tjong Kim Sang(参考訳) 本プロジェクト REE-HDSC について述べるとともに,手書き文字認識(HTR)ソフトウェアで生成したテキストから自動的に抽出される名前付きエンティティの品質向上に向けた取り組みについて概説する。 6段階の処理パイプラインを記述し、キュラカオ市民登録簿から19世紀と20世紀の死亡証明書を処理してテストする。 パイプラインは日付を高精度に抽出するが,人物名抽出の精度は低いことが判明した。 次に、名前付きhtrモデルの再トレーニング、後処理、不正な名前の識別と削除により、名前精度の抽出方法を示す。

We describe the project REE-HDSC and outline our efforts to improve the quality of named entities extracted automatically from texts generated by hand-written text recognition (HTR) software. We describe a six-step processing pipeline and test it by processing 19th and 20th century death certificates from the civil registry of Curacao. We find that the pipeline extracts dates with high precision but that the precision of person name extraction is low. Next we show how name precision extraction can be improved by retraining HTR models with names, post-processing and by identifying and removing incorrect names.
翻訳日:2024-01-15 09:31:07 公開日:2023-12-19
# 姿勢決定のためのハイパースペクトル光曲線インバージョン

Hyperspectral Lightcurve Inversion for Attitude Determination ( http://arxiv.org/abs/2401.05397v1 )

ライセンス: Link先を確認
Sim\~ao da Gra\c{c}a Marto, Massimiliano Vasile, Andrew Campbell, Paul Murray, Stephen Marshall, Vasili Savitski(参考訳) 衛星の時系列単画素スペクトル測定からなるスペクトル光曲線は、宇宙船の姿勢と回転を推定するために用いられる。 2つの方法が用いられる。 1つは正規化された最小二乗コスト関数の数値最適化、もう1つはニューラルネットワークモデルによる機械学習に基づく。 目的は最小限の情報で作業することであり、それ故に姿勢や慣性テンソルに関する事前情報はない。 本課題の理論的・実践的側面を考察し, 合成データを用いて方法論を検証した。 結果は合成データに基づいて示される。

Spectral lightcurves consisting of time series single-pixel spectral measurements of spacecraft are used to infer the spacecraft's attitude and rotation. Two methods are used. One based on numerical optimisation of a regularised least squares cost function, and another based on machine learning with a neural network model. The aim is to work with minimal information, thus no prior is available on the attitude nor on the inertia tensor. The theoretical and practical aspects of this task are investigated, and the methodology is tested on synthetic data. Results are shown based on synthetic data.
翻訳日:2024-01-15 08:47:03 公開日:2023-12-19
# loss it right: 学習に基づく視覚オドメトリにおけるユークリッド計量とリーマン計量

Loss it right: Euclidean and Riemannian Metrics in Learning-based Visual Odometry ( http://arxiv.org/abs/2401.05396v1 )

ライセンス: Link先を確認
Olaya \'Alvarez-Tu\~n\'on, Yury Brodskiy and Erdal Kayacan(参考訳) 本稿では,視覚オドメトリー(VO)ネットワークにおける異なるポーズ表現とメートル法関数について概説する。 VOネットワークの性能は、そのアーキテクチャがどのように情報をエンコードするかに大きく依存している。 ポーズ表現と損失関数の選択は、ネットワーク収束と一般化に大きな影響を及ぼす。 VOネットワークのDeepVOにおけるこれらの要因を,オイラー,四分音,和音距離に基づく損失関数を用いて検討し,その性能への影響を解析した。 本研究では,損失関数がカメラモーション推定のための効率的かつ正確なVOネットワークの設計に与える影響について考察した。 実験は、弦距離のような計量の数学的要求を満たす距離が、より良い一般化とより高速な収束をもたらすことを示している。 実験のコードはhttps://github.com/remaro-network/Loss_VO_rightにある。

This paper overviews different pose representations and metric functions in visual odometry (VO) networks. The performance of VO networks heavily relies on how their architecture encodes the information. The choice of pose representation and loss function significantly impacts network convergence and generalization. We investigate these factors in the VO network DeepVO by implementing loss functions based on Euler, quaternion, and chordal distance and analyzing their influence on performance. The results of this study provide insights into how loss functions affect the designing of efficient and accurate VO networks for camera motion estimation. The experiments illustrate that a distance that complies with the mathematical requirements of a metric, such as the chordal distance, provides better generalization and faster convergence. The code for the experiments can be found at https://github.com/remaro-network/Loss_VO_right
翻訳日:2024-01-15 08:46:55 公開日:2023-12-19
# SRNI-CAR:中国自動車市場分析のための総合データセット

SRNI-CAR: A comprehensive dataset for analyzing the Chinese automotive market ( http://arxiv.org/abs/2401.05395v1 )

ライセンス: Link先を確認
Ruixin Ding and Bowei Chen and James M. Wilson and Zhi Yan and Yufei Huang(参考訳) 自動車産業は世界経済において重要な役割を担っており、特に重要なのは中国自動車市場の拡大である。 しかし、既存の自動車セクターのデータセットはカバー範囲が限られており、より多様な変数に対する需要の増加を十分に考慮していない。 本稿は,2016年から2022年にかけて,販売データ,オンラインレビュー,中国自動車産業に関する豊富な情報を含む包括的なデータセットを導入することで,このデータギャップを埋めることを目的とする。 このデータセットは貴重なリソースとして機能し、利用可能なデータを大幅に拡張する。 その影響は、予測精度の向上、ビジネスアプリケーションの範囲の拡大、政策開発と規制の通知、自動車部門における学術研究の進展など、さまざまな範囲に及んでいる。 ビジネスとアカデミックの両方のコンテキストでデータセットの潜在的な応用を説明するために、2つのアプリケーション例を示す。 我々の開発したデータセットは中国自動車市場の理解を高め、世界中の研究者、政策立案者、業界関係者に貴重なツールを提供する。

The automotive industry plays a critical role in the global economy, and particularly important is the expanding Chinese automobile market due to its immense scale and influence. However, existing automotive sector datasets are limited in their coverage, failing to adequately consider the growing demand for more and diverse variables. This paper aims to bridge this data gap by introducing a comprehensive dataset spanning the years from 2016 to 2022, encompassing sales data, online reviews, and a wealth of information related to the Chinese automotive industry. This dataset serves as a valuable resource, significantly expanding the available data. Its impact extends to various dimensions, including improving forecasting accuracy, expanding the scope of business applications, informing policy development and regulation, and advancing academic research within the automotive sector. To illustrate the dataset's potential applications in both business and academic contexts, we present two application examples. Our developed dataset enhances our understanding of the Chinese automotive market and offers a valuable tool for researchers, policymakers, and industry stakeholders worldwide.
翻訳日:2024-01-15 08:46:42 公開日:2023-12-19
# k-Support Normによる反復正規化:スパース回復の重要な補完

Iterative Regularization with k-Support Norm: an Important Complement to Sparse Recovery ( http://arxiv.org/abs/2401.05394v1 )

ライセンス: Link先を確認
William de Vazelhes, Bhaskar Mukhoty, Xiao-Tong Yuan, Bin Gu(参考訳) スパースリカバリは機械学習と信号処理においてユビキタスである。 スパースリカバリのNPハードの性質のため、既存の手法は制限的(あるいは未知の)適用条件や高い計算コストに悩まされていることが知られている。 近年, 反復正規化手法は, 従来手法で用いられてきた面倒なグリッド探索よりも, 早い停止時間でスパースリカバリを達成できるため, 有望な高速手法として出現している。 しかし、これらの反復的メソッドのほとんどは、制限的な適用性条件を必要とする$\ell_1$ノルムに基づいており、多くの場合失敗する可能性がある。 そのため、より広い条件下で反復正則化法を用いてスパースリカバリを実現することは、まだ研究されていない。 この問題に対処するために、$\ell_1$標準ではなく$k$サポート標準正規化器に基づく新しい反復正規化アルゴリズムIRKSNを提案する。 IRKSNを用いてスパースリカバリ条件を提供し、従来のリカバリ条件と$\ell_1$標準正規化器を比較した。 さらに,irksnのモデル誤差に対する初期停止条件を明示定数で与え,スパース回復のための標準線形率を達成する。 最後に,提案手法をいくつかの実験に適用し,関連する設計行列を用いた支援リカバリ実験を行った。

Sparse recovery is ubiquitous in machine learning and signal processing. Due to the NP-hard nature of sparse recovery, existing methods are known to suffer either from restrictive (or even unknown) applicability conditions, or high computational cost. Recently, iterative regularization methods have emerged as a promising fast approach because they can achieve sparse recovery in one pass through early stopping, rather than the tedious grid-search used in the traditional methods. However, most of those iterative methods are based on the $\ell_1$ norm which requires restrictive applicability conditions and could fail in many cases. Therefore, achieving sparse recovery with iterative regularization methods under a wider range of conditions has yet to be further explored. To address this issue, we propose a novel iterative regularization algorithm, IRKSN, based on the $k$-support norm regularizer rather than the $\ell_1$ norm. We provide conditions for sparse recovery with IRKSN, and compare them with traditional conditions for recovery with $\ell_1$ norm regularizers. Additionally, we give an early stopping bound on the model error of IRKSN with explicit constants, achieving the standard linear rate for sparse recovery. Finally, we illustrate the applicability of our algorithm on several experiments, including a support recovery experiment with a correlated design matrix.
翻訳日:2024-01-15 08:46:24 公開日:2023-12-19
# at-2ff:ソルト・アンド・ペッパーによる脱ノイズ画像の適応型2型ファジィフィルタ

AT-2FF: Adaptive Type-2 Fuzzy Filter for De-noising Images Corrupted with Salt-and-Pepper ( http://arxiv.org/abs/2401.05392v1 )

ライセンス: Link先を確認
Vikas Singh(参考訳) ノイズは必然的にデジタル画像で一般的であり、視覚画像の劣化を引き起こす。 そのため、画像特徴(エッジ、コーナーなど)を維持しつつノイズを少なくするために適切なフィルタリング方法が必要となる。 本稿では,SAPノイズ除去のための適応しきい値付き2型ファジィ重み付き平均フィルタを提案する。 本フィルタは,2種類のファジィ識別子のM-ALDと,2種類のファジィ識別子のM-ALDとを比較して,第1段階の画像を,適応しきい値に基づいて軽度,中度,重度に分類する。 第2段は、フィルタウィンドウ内の未分解画素の平均およびばらつきとともにgmfを用いて適切な重みを計算して破損画素を除去する。 シミュレーション結果から, 画像の特徴, エッジ, コーナー, その他の鋭い構造は, 異なるフィルタリング法と比較して明瞭に保存できることがわかった。

Noise is inevitably common in digital images, leading to visual image deterioration. Therefore, a suitable filtering method is required to lessen the noise while preserving the image features (edges, corners, etc.). This paper presents the efficient type-2 fuzzy weighted mean filter with an adaptive threshold to remove the SAP noise. The present filter has two primary steps: The first stage categorizes images as lightly, medium, and heavily corrupted based on an adaptive threshold by comparing the M-ALD of processed pixels with the upper and lower MF of the type-2 fuzzy identifier. The second stage eliminates corrupted pixels by computing the appropriate weight using GMF with the mean and variance of the uncorrupted pixels in the filter window. Simulation results vividly show that the obtained denoised images preserve image features, i.e., edges, corners, and other sharp structures, compared with different filtering methods.
翻訳日:2024-01-15 08:45:59 公開日:2023-12-19
# Intel GPU上での効率的なLLM推論ソリューション

Efficient LLM inference solution on Intel GPU ( http://arxiv.org/abs/2401.05391v1 )

ライセンス: Link先を確認
Hui Wu, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu, Jinghui Gu(参考訳) トランスフォーマーに基づく大規模言語モデル(LLM)は多くの分野で広く使われており、実アプリケーションではLLM推論の効率が話題となっている。 しかし、LLMは通常、大規模な演算を持つモデル構造で複雑に設計され、自動回帰モードで推論を行うため、高い効率でシステムを設計することが難しい。 本稿では,低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。 まず、データ移動と要素演算を融合させることでLCMデコーダ層を単純化し、メモリアクセス頻度とシステム遅延を低減する。 また,デバイスメモリ管理の効率化のために,要求トークンと応答トークンのキー/バリューを別々の物理メモリに保持するセグメントkvキャッシュポリシを提案する。 カスタマイズされたScaled-Dot-Product-Attentionカーネルは、セグメントKVキャッシュソリューションに基づいた融合ポリシーに適合するように設計されている。 我々は、LLM推論ソリューションをIntel GPU上に実装し、公開しています。 標準的なHuggingFaceの実装と比較すると、提案されたソリューションは、Intel GPU上の一般的なLLMの最大7倍のトークンレイテンシと27倍のスループットを実現している。

Transformer based Large Language Models (LLMs) have been widely used in many fields, and the efficiency of LLM inference becomes hot topic in real applications. However, LLMs are usually complicatedly designed in model structure with massive operations and perform inference in the auto-regressive mode, making it a challenging task to design a system with high efficiency. In this paper, we propose an efficient LLM inference solution with low latency and high throughput. Firstly, we simplify the LLM decoder layer by fusing data movement and element-wise operations to reduce the memory access frequency and lower system latency. We also propose a segment KV cache policy to keep key/value of the request and response tokens in separate physical memory for effective device memory management, helping enlarge the runtime batch size and improve system throughput. A customized Scaled-Dot-Product-Attention kernel is designed to match our fusion policy based on the segment KV cache solution. We implement our LLM inference solution on Intel GPU and publish it publicly. Compared with the standard HuggingFace implementation, the proposed solution achieves up to 7x lower token latency and 27x higher throughput for some popular LLMs on Intel GPU.
翻訳日:2024-01-15 08:45:42 公開日:2023-12-19
# LLMを用いた学生のコード理解の自動評価

Automated Assessment of Students' Code Comprehension using LLMs ( http://arxiv.org/abs/2401.05399v1 )

ライセンス: Link先を確認
Priti Oli, Rabin Banjade, Jeevan Chapagain, Vasile Rus(参考訳) 学生の回答、特に自然言語による回答を評価することは、教育の分野で重要な課題である。 大規模言語モデル(llms)などのトランスフォーマティブベースのモデルを含む機械学習の進歩は、様々な自然言語タスクにおいて大きな進歩をもたらした。 にもかかわらず、様々なタスクにまたがってLSMを評価する傾向が高まっている中で、自動回答評価の領域におけるLSMの評価はあまり注目されていない。 このギャップに対処するために,学生の短時間かつオープンな回答の自動評価にLLMを使うことの可能性を検討する。 特に,LLMを用いて学生の説明と専門家の説明を,コンピュータプログラムの行ごとの説明の文脈で比較する。 比較目的として,大言語モデル (llms) とエンコーダに基づく意味テキスト類似度 (sts) モデルの両方を評価し,学生のコンピュータコードの説明の正確性を評価する。 この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。

Assessing student's answers and in particular natural language answers is a crucial challenge in the field of education. Advances in machine learning, including transformer-based models such as Large Language Models(LLMs), have led to significant progress in various natural language tasks. Nevertheless, amidst the growing trend of evaluating LLMs across diverse tasks, evaluating LLMs in the realm of automated answer assesment has not received much attention. To address this gap, we explore the potential of using LLMs for automated assessment of student's short and open-ended answer. Particularly, we use LLMs to compare students' explanations with expert explanations in the context of line-by-line explanations of computer programs. For comparison purposes, we assess both Large Language Models (LLMs) and encoder-based Semantic Textual Similarity (STS) models in the context of assessing the correctness of students' explanation of computer code. Our findings indicate that LLMs, when prompted in few-shot and chain-of-thought setting perform comparable to fine-tuned encoder-based models in evaluating students' short answers in programming domain.
翻訳日:2024-01-15 08:31:41 公開日:2023-12-19
# 社会科学におけるGeoAI

GeoAI in Social Science ( http://arxiv.org/abs/2401.05398v1 )

ライセンス: Link先を確認
Wenwen Li(参考訳) geoai(geospatial artificial intelligence, geospatial artificial intelligence)は、人工知能(ai)、地理空間ビッグデータ、巨大なコンピューティングパワーを活用して、高度な自動化と人工知能によって問題を解決する、エキサイティングな新しい分野である。 本稿では、社会科学研究におけるAIの進歩を概観し、GeoAIを用いて重要なデータと知識ギャップを埋める重要な進歩について述べる。 また、データサイロを分割することの重要性、GeoAI研究手法の収束の加速、GeoAIが地理空間的利益を超えることの重要性についても論じている。

GeoAI, or geospatial artificial intelligence, is an exciting new area that leverages artificial intelligence (AI), geospatial big data, and massive computing power to solve problems with high automation and intelligence. This paper reviews the progress of AI in social science research, highlighting important advancements in using GeoAI to fill critical data and knowledge gaps. It also discusses the importance of breaking down data silos, accelerating convergence among GeoAI research methods, as well as moving GeoAI beyond geospatial benefits.
翻訳日:2024-01-15 08:31:23 公開日:2023-12-19
# Auto311:非緊急呼び出しのための信頼誘導自動システム

Auto311: A Confidence-guided Automated System for Non-emergency Call ( http://arxiv.org/abs/2312.14185v1 )

ライセンス: Link先を確認
Zirong Chen, Xutong Sun, Yuanhe Li, Meiyi Ma(参考訳) 緊急時及び非緊急時対応システムは、自治体が提供し、生活、環境、財産を保護するのに不可欠なサービスである。 非緊急呼び出しの効果的な処理は、公共の安全と幸福のために重要である。 非緊急呼び出し者による負担を軽減することで、911日までに支援を必要としている住民は、迅速かつ効果的な対応を受けることができる。 Collaborating with the Department of Emergency Communications (DEC) in Nashville, we analyzed 11,796 non-emergency call recordings and developed Auto311, the first automated system to handle 311 non-emergency calls, which (1) effectively and dynamically predicts ongoing non-emergency incident types to generate tailored case reports during the call; (2) itemizes essential information from dialogue contexts to complete the generated reports; and (3) strategically structures system-caller dialogues with optimized confidence. 実世界のデータを用いてシステムの有効性とデプロイ性を評価した。 実験の結果,本システムは平均f-1スコア92.54%のインシデントタイプを効果的に予測できることがわかった。 さらに,本システムでは,関連する文脈から重要情報を抽出して報告を完了し,基礎的事実と比較して平均一貫性スコア0.93を達成している。 さらにエミュレーションでは、発話サイズが大きくなるにつれて会話のターンを効果的に減らし、94.49%の平均精度で通話を分類している。

Emergency and non-emergency response systems are essential services provided by local governments and critical to protecting lives, the environment, and property. The effective handling of (non-)emergency calls is critical for public safety and well-being. By reducing the burden through non-emergency callers, residents in critical need of assistance through 911 will receive a fast and effective response. Collaborating with the Department of Emergency Communications (DEC) in Nashville, we analyzed 11,796 non-emergency call recordings and developed Auto311, the first automated system to handle 311 non-emergency calls, which (1) effectively and dynamically predicts ongoing non-emergency incident types to generate tailored case reports during the call; (2) itemizes essential information from dialogue contexts to complete the generated reports; and (3) strategically structures system-caller dialogues with optimized confidence. We used real-world data to evaluate the system's effectiveness and deployability. The experimental results indicate that the system effectively predicts incident type with an average F-1 score of 92.54%. Moreover, the system successfully itemizes critical information from relevant contexts to complete reports, evincing a 0.93 average consistency score compared to the ground truth. Additionally, emulations demonstrate that the system effectively decreases conversation turns as the utterance size gets more extensive and categorizes the ongoing call with 94.49% mean accuracy.
翻訳日:2023-12-31 03:48:29 公開日:2023-12-19
# 医学用語分類における大規模言語モデルと応答と推論の相違

Large Language Models in Medical Term Classification and Unexpected Misalignment Between Response and Reasoning ( http://arxiv.org/abs/2312.14184v1 )

ライセンス: Link先を確認
Xiaodan Zhang, Sandeep Vemulapalli, Nabasmita Talukdar, Sumyeong Ahn, Jiankun Wang, Han Meng, Sardar Mehtab Bin Murtaza, Aakash Ajay Dave, Dmitry Leshchiner, Dimitri F. Joseph, Martin Witteveen-Lane, Dave Chesla, Jiayu Zhou, and Bin Chen(参考訳) 本研究は, GPT-3.5, GPT-4, Falcon, LLaMA 2 など最先端の大規模言語モデル (LLM) を用いて, 軽度認知障害 (MCI) 患者を放電サマリーから同定し, モデル応答が理由と一致していない事例を検証した。 MIMIC-IV v2.2データベースを用いて、65歳以上のコホートに焦点をあて、ICD符号に対するMCI診断と専門家評価を検証した。 データは、モデル微調整と評価のための7:2:1の比率でトレーニング、検証、テストセットに分割され、MIMIC IIIの転移性癌データセットがさらに推論整合性を評価するために使用された。 GPT-4は、特に複雑なプロンプトに対する反応において優れた解釈能力を示したが、顕著な応答推論の不整合を示した。 対照的に、falconやllama 2のようなオープンソースモデルは高い精度を達成したが、説明的推論が欠如しており、パフォーマンスと解釈可能性の両方を最適化するためのさらなる研究の必要性を強調している。 本研究は, GPT-4で観測された予期せぬ推論応答の不一致について, 迅速なエンジニアリングの重要性とさらなる探究の必要性を強調した。 その結果、医療診断にLSMを取り入れることの約束を裏付け、AI生成出力の精度と臨床コヒーレンスを確保するための方法論の進歩に留意し、医療意思決定におけるLSMの信頼性を向上させることが期待された。

This study assesses the ability of state-of-the-art large language models (LLMs) including GPT-3.5, GPT-4, Falcon, and LLaMA 2 to identify patients with mild cognitive impairment (MCI) from discharge summaries and examines instances where the models' responses were misaligned with their reasoning. Utilizing the MIMIC-IV v2.2 database, we focused on a cohort aged 65 and older, verifying MCI diagnoses against ICD codes and expert evaluations. The data was partitioned into training, validation, and testing sets in a 7:2:1 ratio for model fine-tuning and evaluation, with an additional metastatic cancer dataset from MIMIC III used to further assess reasoning consistency. GPT-4 demonstrated superior interpretative capabilities, particularly in response to complex prompts, yet displayed notable response-reasoning inconsistencies. In contrast, open-source models like Falcon and LLaMA 2 achieved high accuracy but lacked explanatory reasoning, underscoring the necessity for further research to optimize both performance and interpretability. The study emphasizes the significance of prompt engineering and the need for further exploration into the unexpected reasoning-response misalignment observed in GPT-4. The results underscore the promise of incorporating LLMs into healthcare diagnostics, contingent upon methodological advancements to ensure accuracy and clinical coherence of AI-generated outputs, thereby improving the trustworthiness of LLMs for medical decision-making.
翻訳日:2023-12-31 03:48:09 公開日:2023-12-19
# find the lady:ディープニューラルネットワークの置換と再同期

Find the Lady: Permutation and Re-Synchronization of Deep Neural Networks ( http://arxiv.org/abs/2312.14182v1 )

ライセンス: Link先を確認
Carl De Sousa Trias, Mihai Petru Mitrea, Attilio Fiandrotti, Marco Cagnazzo, Sumanta Chaudhuri, Enzo Tartaglione(参考訳) ディープニューラルネットワークは、冗長な複数の対称、等価損失解によって特徴づけられる。 したがって、層内のニューロンの順序と特徴写像は、それらの出力に影響を与えることなく、任意の置換を与えることができる。 これらのニューロンをシャッフルしたり、微調整のような摂動を応用すれば、それらを元の順序、すなわち再同期に戻すことができるだろうか? 汚職の恐れはあるのか? これらの疑問に答えることは、オーナシップトラッキングと整合性検証のためのニューラルネットワークのホワイトボックス透かしのようなアプリケーションにとって重要である。 我々は、置換ニューロンの順序を再同期する手法を考案する。 本手法は,ニューロンがパラメータプルーニング,量子化,微調整によってさらに変化した場合にも有効である。 さらに、モデルの整合性を損なう通常の方法に関する理論的および実践的な証拠を提供し、その結果、それに対応する解が得られる。 我々は,人気のあるコンピュータビジョンデータセットとモデルを用いて,我々のアプローチをテストし,一般的なホワイトボックス透かし法における脅威と対策を説明する。

Deep neural networks are characterized by multiple symmetrical, equi-loss solutions that are redundant. Thus, the order of neurons in a layer and feature maps can be given arbitrary permutations, without affecting (or minimally affecting) their output. If we shuffle these neurons, or if we apply to them some perturbations (like fine-tuning) can we put them back in the original order i.e. re-synchronize? Is there a possible corruption threat? Answering these questions is important for applications like neural network white-box watermarking for ownership tracking and integrity verification. We advance a method to re-synchronize the order of permuted neurons. Our method is also effective if neurons are further altered by parameter pruning, quantization, and fine-tuning, showing robustness to integrity attacks. Additionally, we provide theoretical and practical evidence for the usual means to corrupt the integrity of the model, resulting in a solution to counter it. We test our approach on popular computer vision datasets and models, and we illustrate the threat and our countermeasure on a popular white-box watermarking method.
翻訳日:2023-12-31 03:47:40 公開日:2023-12-19
# 不均一児のメンタルヘルス臨床ノートにおける動的トピック言語モデル

Dynamic Topic Language Model on Heterogeneous Children's Mental Health Clinical Notes ( http://arxiv.org/abs/2312.14180v1 )

ライセンス: Link先を確認
Hanwen Ye, Tatiana Moreno, Adrianne Alpern, Louis Ehwerhemuepha, Annie Qu(参考訳) メンタルヘルス(メンタルヘルス)は、新型コロナウイルス(COVID-19)のパンデミック以降注目を浴びている子どもの生活や健康に影響を及ぼす。 話題モデルを用いた精神科臨床ノートの分析は、子どもの精神状態を評価する上で重要である。 しかし、縦長設定のために構築されるトピックモデルはほとんどなく、一貫したトピックを保持し、各ドキュメントの時間的軌跡を捉えない。 これらの課題に対処するため,我々は,進化する文書メタデータに対する時間不変なトピックと個別の時間依存を持つ縦型トピックモデルを開発した。 本モデルは,発見トピックの意味を時間とともに保存し,文書間に不均一性を組み込む。 特に,文書を分類できる場合には,異なる文書群間の話題の多様性を最大化するための教師なしトピック学習手法を提案する。 また,多段長手設定に適応した効率的な変分最適化手法を提案する。 本研究では,南カリフォルニアの大型第3次小児病院の精神科臨床ノートに本手法を適用し,抽出されたトピックの全体的一貫性を38%向上させた。 実際のデータ分析によると、子どもたちは州が閉鎖されたときによりネガティブな感情を表現し、学校が再開するとよりポジティブになる。 さらに、SGM(性的・セクシュアル・マイノリティ)の子供は、主要な新型コロナウイルスのイベントに対してより顕著な反応を示し、ワクチン関連のニュースに対する感受性が非SGMの子供よりも高いことを示唆している。 本研究は、パンデミック中の子どものメンタルヘルスの進展を調査し、臨床医が子どものメンタルヘルスにおける性同一性に関する格差を認識するための貴重な洞察を提供する。

Mental health diseases affect children's lives and well-beings which have received increased attention since the COVID-19 pandemic. Analyzing psychiatric clinical notes with topic models is critical to evaluate children's mental status over time. However, few topic models are built for longitudinal settings, and they fail to keep consistent topics and capture temporal trajectories for each document. To address these challenges, we develop a longitudinal topic model with time-invariant topics and individualized temporal dependencies on the evolving document metadata. Our model preserves the semantic meaning of discovered topics over time and incorporates heterogeneity among documents. In particular, when documents can be categorized, we propose an unsupervised topics learning approach to maximize topic heterogeneity across different document groups. We also present an efficient variational optimization procedure adapted for the multistage longitudinal setting. In this case study, we apply our method to the psychiatric clinical notes from a large tertiary pediatric hospital in Southern California and achieve a 38% increase in the overall coherence of extracted topics. Our real data analysis reveals that children tend to express more negative emotions during state shutdowns and more positive when schools reopen. Furthermore, it suggests that sexual and gender minority (SGM) children display more pronounced reactions to major COVID-19 events and a greater sensitivity to vaccine-related news than non-SGM children. This study examines the progression of children's mental health during the pandemic and offers clinicians valuable insights to recognize the disparities in children's mental health related to their sexual and gender identities.
翻訳日:2023-12-31 03:47:22 公開日:2023-12-19
# 自然言語処理による技術的負債の検出 -体系的文献レビュー-

Detecting Technical Debt Using Natural Language Processing Approaches -- A Systematic Literature Review ( http://arxiv.org/abs/2312.15020v1 )

ライセンス: Link先を確認
Edi Sutoyo, Andrea Capiluppi(参考訳) コンテキスト: 技術的負債(TD)は、ソフトウェア開発におけるアーキテクチャ決定の長期的影響と、高品質で効果的で効率的なコードの作成とリリーススケジュールの達成の間のトレードオフのメタファーとしてよく知られている。 したがって、コードは劣化し、リファクタリングが必要です。 開発チームにおけるリソース、時間、知識、経験の欠如は、あらゆるソフトウェア開発プロジェクトでTDを引き起こす可能性がある。 目的: TD検出の文脈では、NLPは自動的にTDの存在を識別し、特定のタイプのTDを認識する。 しかし、この文献で採用されている多種多様な特徴抽出手法とML/DLアルゴリズムは、研究者が性能改善を試みるのを妨げることが多い。 方法:これを踏まえて,このslrでは,技術的負債検出に使用される特徴抽出手法とアルゴリズムの分類を提案している。 結果: このSLRの品質評価に合格した55項目を選択した。 SDLCの各位相におけるTDの同定に,どの特徴抽出とアルゴリズムを用いたかを検討した。 分析の結果,NLP,NLP+ML,NLP+DLに分類した。 これにより、パフォーマンスを3つの異なる方法で議論することができます。 結論: 総じて, NLP+DL群は, 全プロジェクトにおいて, 精度とF1スコアにおいて, かつリコール基準において, 1つのプロジェクトを除いて, 一貫して優れていた。 特徴抽出技術に関して、PTWEは解析された各プロジェクトに対して高い精度、リコール、F1スコアを達成する。 さらに、td型は可能であればsdlcフェーズにマッピングされ、sdlcフェーズごとに最も優れた特徴抽出とアルゴリズムを決定するのに役立った。 最後に、SLRの結果に基づいて、研究者や実践者にとって関心のある意味も特定する。

Context: Technical debt (TD) is a well-known metaphor for the long-term effects of architectural decisions in software development and the trade-off between producing high-quality, effective, and efficient code and meeting a release schedule. Thus, the code degrades and needs refactoring. A lack of resources, time, knowledge, or experience on the development team might cause TD in any software development project. Objective: In the context of TD detection, NLP has been utilized to identify the presence of TD automatically and even recognize specific types of TD. However, the enormous variety of feature extraction approaches and ML/DL algorithms employed in the literature often hinders researchers from trying to improve their performance. Method: In light of this, this SLR proposes a taxonomy of feature extraction techniques and algorithms used in technical debt detection: its objective is to compare and benchmark their performance in the examined studies. Results: We selected 55 articles that passed the quality evaluation of this SLR. We then investigated which feature extractions and algorithms were employed to identify TD in each SDLC phase. All approaches proposed in the analyzed studies were grouped into NLP, NLP+ML, and NLP+DL. This allows us to discuss the performance in three different ways. Conclusion: Overall, the NLP+DL group consistently outperforms in precision and F1-score for all projects, and in all but one project for the recall metric. Regarding the feature extraction techniques, the PTWE consistently achieves higher precision, recall, and F1-score for each project analyzed. Furthermore, TD types have been mapped, when possible, to SDLC phases: this served to determine the best-performing feature extractions and algorithms for each SDLC phase. Finally, based on the SLR results, we also identify implications that could be of concern to researchers and practitioners.
翻訳日:2023-12-31 03:15:47 公開日:2023-12-19
# 高識別性LNT特徴を用いたエッジインテリジェンスの向上

Enhancing Edge Intelligence with Highly Discriminant LNT Features ( http://arxiv.org/abs/2312.14968v1 )

ライセンス: Link先を確認
Xinyu Wang, Vinod K. Mishra, C.-C. Jay Kuo(参考訳) エッジにおけるAIアルゴリズムは、より小さなモデルサイズとより低い計算複雑性を必要とする。 これらの目的を達成するため、深層学習パラダイムではなく、グリーンラーニング(GL)パラダイムを採用する。 GLには3つのモジュールがある。 1)教師なし表現学習 2)教師付き特徴学習、及び 3) 意思決定を監督する。 この作業では第2のモジュールに注目します。 特に、入力特徴の適切な線形結合から、第1モジュールで得られるxで表される新しい識別特徴を導出する。 これらはそれぞれ相補的特徴と生特徴と呼ばれる。 この線に沿って、最小二乗正規変換(LNT)に基づいて、高度に識別された相補的特徴を生成する新しい教師付き学習法を提案する。 LNTは2つのステップからなる。 まず, cクラス分類問題を二分分類問題に変換する。 2つのクラスはそれぞれ 0 と 1 で割り当てられる。 次に、N次元(N-D)特徴空間から1次元出力空間への最小二乗回帰問題を定式化し、最小二乗正規方程式を解いて、a1で表される1つのN-D正規ベクトルを得る。 1つの正規ベクトルは1つの二分分割によって生成されるので、M 分割を持つ M 正規ベクトルを得ることができる。 Ax は x の LNT と呼ばれ、aj^T, j=1, ..., M を積み重ねることで R^{M の変換行列 A が M の新たな特徴を生成できる。 新たに生成された相補的特徴は、原特徴よりも識別性が高い。 実験により,これらの新機能により分類性能が向上することが示された。

AI algorithms at the edge demand smaller model sizes and lower computational complexity. To achieve these objectives, we adopt a green learning (GL) paradigm rather than the deep learning paradigm. GL has three modules: 1) unsupervised representation learning, 2) supervised feature learning, and 3) supervised decision learning. We focus on the second module in this work. In particular, we derive new discriminant features from proper linear combinations of input features, denoted by x, obtained in the first module. They are called complementary and raw features, respectively. Along this line, we present a novel supervised learning method to generate highly discriminant complementary features based on the least-squares normal transform (LNT). LNT consists of two steps. First, we convert a C-class classification problem to a binary classification problem. The two classes are assigned with 0 and 1, respectively. Next, we formulate a least-squares regression problem from the N-dimensional (N-D) feature space to the 1-D output space, and solve the least-squares normal equation to obtain one N-D normal vector, denoted by a1. Since one normal vector is yielded by one binary split, we can obtain M normal vectors with M splits. Then, Ax is called an LNT of x, where transform matrix A in R^{M by N} by stacking aj^T, j=1, ..., M, and the LNT, Ax, can generate M new features. The newly generated complementary features are shown to be more discriminant than the raw features. Experiments show that the classification performance can be improved by these new features.
翻訳日:2023-12-31 03:13:53 公開日:2023-12-19
# 高次元回帰設計のための混合モデルとLASSO

Mixture model for designs in high dimensional regression and the LASSO ( http://arxiv.org/abs/1210.4762v3 )

ライセンス: Link先を確認
Mohamed Ibrahim Assoweh, Emmanuel Caron and St\'ephane Chr\'etien(参考訳) lasso は回帰モデル \bean y & = & x\beta + z, \eean ここで $x\in \r^{n\times p}$ と $z$ は中心ガウス型 i.i.d. 雑音ベクトル $\mathcal n(0,\sigma^2i)$ である。 LASSOは、円柱が十分不整合であり、さらに少ない拘束条件下での予測誤差が低いとき、スパースベクトルの正確な支持回復のような顕著な特性を達成することが証明されている。 しかし、多くの行列は実用上小さなコヒーレンスを満たさないため、LASSO推定器は低速状態と呼ばれるものに悩まされる可能性がある。 本研究の目的は,様々な状況下で列の潜在的クラスタ化の性質を自然な方法で捉えることができる設計行列の混合モデルを提案することで,LASSOを若干異なる視点から研究することである。 このモデルでは、設計行列の列はガウス混合モデルから引き出される。 設計行列に$X$の非コヒーレンスを必要とする代わりに、混合中心のはるかに小さな行列の非コヒーレンスしか必要としない。 我々の主な結果は、混合モデルの最大分散に依存する補正項を除いて、不整合設計の場合と同じ精度で$X\beta$を推定できることを示している。

The LASSO is a recent technique for variable selection in the regression model \bean y & = & X\beta + z, \eean where $X\in \R^{n\times p}$ and $z$ is a centered gaussian i.i.d. noise vector $\mathcal N(0,\sigma^2I)$. The LASSO has been proved to achieve remarkable properties such as exact support recovery of sparse vectors when the columns are sufficently incoherent and low prediction error under even less stringent conditions. However, many matrices do not satisfy small coherence in practical applications and the LASSO estimator may thus suffer from what is known as the slow rate regime. The goal of the present paper is to study the LASSO from a slightly different perspective by proposing a mixture model for the design matrix which is able to capture in a natural way the potentially clustered nature of the columns in many practical situations. In this model, the columns of the design matrix are drawn from a Gaussian mixture model. Instead of requiring incoherence for the design matrix $X$, we only require incoherence of the much smaller matrix of the mixture's centers. Our main result states that $X\beta$ can be estimated with the same precision as for incoherent designs except for a correction term depending on the maximal variance in the mixture model.
翻訳日:2023-12-24 17:54:08 公開日:2023-12-19
# Gaussian3Diff:3Dフルヘッド合成と編集のための3Dガウス拡散

Gaussian3Diff: 3D Gaussian Diffusion for 3D Full Head Synthesis and Editing ( http://arxiv.org/abs/2312.03763v3 )

ライセンス: Link先を確認
Yushi Lan, Feitong Tan, Di Qiu, Qiangeng Xu, Kyle Genova, Zeng Huang, Sean Fanello, Rohit Pandey, Thomas Funkhouser, Chen Change Loy, Yinda Zhang(参考訳) 本稿では,フォトリアリスティックな3次元頭部を創出し,それを操作・再現する新しい枠組みを提案する。 提案手法は,パラメトリック顔モデルに固定された3次元ガウスを用いた3次元頭部の暗黙の関数表現を利用する。 表現能力を高め、空間情報をエンコードするために、色や不透明を直接保存するのではなく、各ガウス語に軽量な三平面ペイロードを埋め込む。 さらに、3DMMにより2次元UV空間のガウスをパラメータ化し、3Dヘッドアバター生成のための拡散モデルの有効利用を可能にする。 本手法は,顔の特徴や表情を微妙に編集した多彩でリアルな3次元頭部の作成を容易にする。 広範な実験により本手法の有効性が実証された。

We present a novel framework for generating photorealistic 3D human head and subsequently manipulating and reposing them with remarkable flexibility. The proposed approach leverages an implicit function representation of 3D human heads, employing 3D Gaussians anchored on a parametric face model. To enhance representational capabilities and encode spatial information, we embed a lightweight tri-plane payload within each Gaussian rather than directly storing color and opacity. Additionally, we parameterize the Gaussians in a 2D UV space via a 3DMM, enabling effective utilization of the diffusion model for 3D head avatar generation. Our method facilitates the creation of diverse and realistic 3D human heads with fine-grained editing over facial features and expressions. Extensive experiments demonstrate the effectiveness of our method.
翻訳日:2023-12-22 18:02:24 公開日:2023-12-19
# SimQ-NAS: 同時量子化ポリシーとニューラルアーキテクチャ検索

SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture Search ( http://arxiv.org/abs/2312.13301v1 )

ライセンス: Link先を確認
Sharath Nittur Sridhar, Maciej Szankin, Fang Chen, Sairam Sundaresan, Anthony Sarah(参考訳) 最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。 一般的なアプローチは、スーパーネットワークのトレーニングをサブネットワークの検索から切り離し、しばしばサーチに関連する計算オーバーヘッドを軽減するために予測器を使用する。 さらに、ある方法は探索空間に量子化ポリシーを取り入れている。 しかしながら、畳み込みニューラルネットワークの量子化ポリシー探索はよく研究されているが、トランスフォーマーや特に基礎モデルへの拡張は未検討のままである。 本稿では,軽量に訓練された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャと対応する量子化ポリシーの両方を効率的に探索し,精度,モデルサイズ,レイテンシといった異なる性能目標に対して,それぞれのベースラインを上回ることができることを示す。 具体的には,i-modal (ViT と BERT) と multi-modal (BEiT-3) のトランスフォーマーベースアーキテクチャと畳み込みアーキテクチャ (ResNet) の両方において,我々のアプローチが良好に動作することを示す。 特定のネットワークに対して、完全な量子化されたINT8ベースラインに比べて精度が劣化することなく、それぞれレイテンシとモデルサイズに対して最大4.80x$と3.44x$の改善を示す。

Recent one-shot Neural Architecture Search algorithms rely on training a hardware-agnostic super-network tailored to a specific task and then extracting efficient sub-networks for different hardware platforms. Popular approaches separate the training of super-networks from the search for sub-networks, often employing predictors to alleviate the computational overhead associated with search. Additionally, certain methods also incorporate the quantization policy within the search space. However, while the quantization policy search for convolutional neural networks is well studied, the extension of these methods to transformers and especially foundation models remains under-explored. In this paper, we demonstrate that by using multi-objective search algorithms paired with lightly trained predictors, we can efficiently search for both the sub-network architecture and the corresponding quantization policy and outperform their respective baselines across different performance objectives such as accuracy, model size, and latency. Specifically, we demonstrate that our approach performs well across both uni-modal (ViT and BERT) and multi-modal (BEiT-3) transformer-based architectures as well as convolutional architectures (ResNet). For certain networks, we demonstrate an improvement of up to $4.80x$ and $3.44x$ for latency and model size respectively, without degradation in accuracy compared to the fully quantized INT8 baselines.
翻訳日:2023-12-22 17:26:26 公開日:2023-12-19
# 文脈測定モデルと量子理論

Contextual Measurement Model and Quantum Theory ( http://arxiv.org/abs/2312.13300v1 )

ライセンス: Link先を確認
Andrei Khrennikov(参考訳) 我々は,量子基礎の解明に使用される文脈計測モデル(CMM)を開発した。 このモデルは、実験的な文脈の役割に関するボーアの見解と一致する。 CMMは一般化確率理論と結びついた文脈確率理論に基づいている。 CMMは古典物理学、量子物理学、半古典物理学における測定をカバーしている。 CMM形式はいくつかの例で示されている。 我々は、古典的確率の CMM フレーミング、フォン・ノイマン測度理論、量子楽器理論を考える。 CMMは物理学、認知、意思決定、心理学の外部にも適用でき、量子的モデリングと呼ばれる。

We develop the contextual measurement model (CMM) which is used for clarification of the quantum foundations. This model matches with Bohr's views on the role of experimental contexts. CMM is based on contextual probability theory which is connected with generalized probability theory. CMM covers measurements in classical, quantum, and semi-classical physics. The CMM formalism is illustrated by a few examples. We consider CMM framing of classical probability, the von Neumann measurement theory, the quantum instrument theory. CMM can also be applied outside of physics, in cognition, decision making, and psychology, so called quantum-like modeling.
翻訳日:2023-12-22 17:26:01 公開日:2023-12-19
# 自己組織化ガウス格子によるコンパクト3次元シーン表現

Compact 3D Scene Representation via Self-Organizing Gaussian Grids ( http://arxiv.org/abs/2312.13299v1 )

ライセンス: Link先を確認
Wieland Morgenstern, Florian Barthel, Anna Hilsmann, Peter Eisert(参考訳) 3D Gaussian Splattingは、静的な3Dシーンをモデリングするための非常に有望なテクニックとして最近登場した。 Neural Radiance Fieldsとは対照的に、高速な高速レンダリングを可能にする効率的なラスタライゼーションを利用している。 しかし、ストレージサイズは著しく高く、リソース制限されたデバイスでの運用を妨げている。 本稿では,3次元ガウス型スプレーティングのパラメータを局所的な均質性を持つ2次元グリッドに整理するコンパクトなシーン表現を導入し,レンダリング時の視覚的品質を損なうことなく,ストレージ要件の大幅な削減を実現する。 私たちの考えの中心は、自然界に存在する知覚的冗長性の明示的な搾取です。 本質的に、シーンの本質的な性質は、ガウスパラメータの多数の置換を等価に表現することができる。 そこで本研究では,高次元ガウスパラメータを近傍構造を維持しながら2次元グリッドに規則的に配置する,新しい高並列アルゴリズムを提案する。 トレーニング中、グリッド内のソートパラメータ間の局所的な滑らかさをさらに強化する。 圧縮されていないガウス人は3DGSと同じ構造を使い、確立されたレンダラーとのシームレスな統合を保証する。 本手法は,複雑なシーンの8倍から26倍の縮小率を実現し,トレーニング時間を増加させることなく,3次元シーンの分布と消費の領域を大きく前進させる。 詳細はプロジェクトのページにある。 https://fraunhoferhhi.github.io/Self-Organizing-Gaussians/

3D Gaussian Splatting has recently emerged as a highly promising technique for modeling of static 3D scenes. In contrast to Neural Radiance Fields, it utilizes efficient rasterization allowing for very fast rendering at high-quality. However, the storage size is significantly higher, which hinders practical deployment, e.g.~on resource constrained devices. In this paper, we introduce a compact scene representation organizing the parameters of 3D Gaussian Splatting (3DGS) into a 2D grid with local homogeneity, ensuring a drastic reduction in storage requirements without compromising visual quality during rendering. Central to our idea is the explicit exploitation of perceptual redundancies present in natural scenes. In essence, the inherent nature of a scene allows for numerous permutations of Gaussian parameters to equivalently represent it. To this end, we propose a novel highly parallel algorithm that regularly arranges the high-dimensional Gaussian parameters into a 2D grid while preserving their neighborhood structure. During training, we further enforce local smoothness between the sorted parameters in the grid. The uncompressed Gaussians use the same structure as 3DGS, ensuring a seamless integration with established renderers. Our method achieves a reduction factor of 8x to 26x in size for complex scenes with no increase in training time, marking a substantial leap forward in the domain of 3D scene distribution and consumption. Additional information can be found on our project page: https://fraunhoferhhi.github.io/Self-Organizing-Gaussians/
翻訳日:2023-12-22 17:25:54 公開日:2023-12-19
# RealGen: 制御可能なトラフィックシナリオのための検索拡張生成

RealGen: Retrieval Augmented Generation for Controllable Traffic Scenarios ( http://arxiv.org/abs/2312.13303v1 )

ライセンス: Link先を確認
Wenhao Ding, Yulong Cao, Ding Zhao, Chaowei Xiao, Marco Pavone(参考訳) シミュレーションは、現実世界のテストに関連する潜在的なリスクのために、自動運転車(AV)の開発において重要な役割を果たす。 シミュレータの視覚的な側面では大きな進歩があったが、エージェント間の複雑な動作の生成は依然として大きな課題である。 シナリオ生成における現実性を保証することが必須であるだけでなく、AVトレーニングと評価のための制御可能な生成を容易にするために、嗜好と条件を取り入れることも不可欠である。 トレーニングデータセットの分布を覚えることに主に依存する従来の手法は、目に見えないシナリオを生成するのに不足することが多い。 大規模言語モデルにおける検索拡張生成の成功に触発されて,交通シナリオ生成のための新しい検索ベースのインコンテキスト学習フレームワークであるRealGenを提案する。 realgenは、複数の検索されたサンプルの振る舞いをグラデーションフリーな方法で組み合わせて、新しいシナリオを合成する。 このコンテキスト内学習フレームワークは、シナリオの編集、さまざまな振る舞いの作成、重要なシナリオの生成など、多種多様な生成機能を提供する。 評価の結果、realgenは相当な柔軟性と制御性を提供しており、制御可能なトラフィックシナリオ生成の分野において新たな方向を示している。 詳細はプロジェクトのwebサイト(https://realgen.github.io.org)を参照。

Simulation plays a crucial role in the development of autonomous vehicles (AVs) due to the potential risks associated with real-world testing. Although significant progress has been made in the visual aspects of simulators, generating complex behavior among agents remains a formidable challenge. It is not only imperative to ensure realism in the scenarios generated but also essential to incorporate preferences and conditions to facilitate controllable generation for AV training and evaluation. Traditional methods, mainly relying on memorizing the distribution of training datasets, often fall short in generating unseen scenarios. Inspired by the success of retrieval augmented generation in large language models, we present RealGen, a novel retrieval-based in-context learning framework for traffic scenario generation. RealGen synthesizes new scenarios by combining behaviors from multiple retrieved examples in a gradient-free way, which may originate from templates or tagged scenarios. This in-context learning framework endows versatile generative capabilities, including the ability to edit scenarios, compose various behaviors, and produce critical scenarios. Evaluations show that RealGen offers considerable flexibility and controllability, marking a new direction in the field of controllable traffic scenario generation. Check our project website for more information: https://realgen.github.io.
翻訳日:2023-12-22 17:10:55 公開日:2023-12-19
# DNAメチル化の経時的予測とエピジェネティックな結果の予測

Longitudinal prediction of DNA methylation to forecast epigenetic outcomes ( http://arxiv.org/abs/2312.13302v1 )

ライセンス: Link先を確認
Arthur Leroy, Ai Ling Teh, Frank Dondelinger, Mauricio A. Alvarez, Dennis Wang(参考訳) 生命の初期段階における生物学的変化の進化を妨害するには、DNAメチル化のような長手な分子のプロファイリングが必要である。 本稿では,gps(multi-mean gaussian process)に基づく確率的・縦型機械学習フレームワークを提案する。 この方法は、不確実性を考慮しつつ、異なる年齢のDNAメチル化状態の将来の予測を提供する。 本モデルでは,0~4歳児の出生コホートをトレーニングし,各児のメチル化部位の状態を5~7歳児で正確に予測できることを実証した。 マルチ平均GPによって予測されるメチル化プロファイルは、エピジェネティックな年齢などの他の表現型を推定し、他の健康指標と比較できることを示す。 このアプローチは、エピジェネティックな研究が発達、老化、疾患の進行の間のエピジェネティックな変化を調査するために、縦断的な設計へと進むことを奨励する。

Interrogating the evolution of biological changes at early stages of life requires longitudinal profiling of molecules, such as DNA methylation, which can be challenging with children. We introduce a probabilistic and longitudinal machine learning framework based on multi-mean Gaussian processes (GPs), accounting for individual and gene correlations across time. This method provides future predictions of DNA methylation status at different individual ages while accounting for uncertainty. Our model is trained on a birth cohort of children with methylation profiled at ages 0-4, and we demonstrated that the status of methylation sites for each child can be accurately predicted at ages 5-7. We show that methylation profiles predicted by multi-mean GPs can be used to estimate other phenotypes, such as epigenetic age, and enable comparison to other health measures of interest. This approach encourages epigenetic studies to move towards longitudinal design for investigating epigenetic changes during development, ageing and disease progression.
翻訳日:2023-12-22 17:10:36 公開日:2023-12-19
# 時間周波数を量子連続変数とする量子力学:資源、サブショットノイズ精度、位相空間表現

Quantum metrology using time-frequency as quantum continuous variables: Resources, sub shot-noise precision and phase space representation ( http://arxiv.org/abs/2210.05511v5 )

ライセンス: Link先を確認
Eloi Descamps, Nicolas Fabre, Arne Keller and Perola Milman(参考訳) 単一光子を用いた時間精度測定における電磁場周波数の役割をパラダイムシステムとして検討する。 そこで我々は、強度とスペクトル資源の寄与を独立に同定し、プローブ数によるパラメータ推定の精度のスケーリングにおいて、両者が重要な役割を果たしていることを示す。 特に、量子モード相関を用いた二次スケーリングを観測することは可能であり、ハイゼンベルク極限を満たす状態の数学的表現を明示することができる。 また,結果の幾何学的および位相空間的解釈を提供し,状態のスペクトル分散を変化させることで,スケール上の興味深い量子-古典的遷移を観察する。 この結果は、量子力学的観点から周波数の役割を考えることにより、単一光子と量子光学の離散的かつ連続的な側面を結びつける。

We study the role of the electromagnetic field's frequency in time precision measurements using single photons as a paradigmatic system. For such, we independently identify the contributions of intensity and spectral resources and show that both can play a role on the scaling of the precision of parameter estimation with the number of probes. We show in particular that it is possible to observe a quadratic scaling using quantum mode correlations only and explicit the mathematical expression of states saturating the Heisenberg limit. We also provide a geometrical and phase space interpretation of our results, and observe a curious quantum-to-classical-like transition on scaling by modifying the spectral variance of states. Our results connect discrete and continuous aspects of single photons and quantum optics by considering from a quantum mechanical perspective the role of frequency.
翻訳日:2023-12-21 22:38:33 公開日:2023-12-19
# 畳み込みミラーによるデュアルPID制御系の解析

Analysis of Dual-Based PID Controllers through Convolutional Mirror Descent ( http://arxiv.org/abs/2202.06152v4 )

ライセンス: Link先を確認
Santiago R. Balseiro, Haihao Lu, Vahab Mirrokni, Balasubramanian Sivan(参考訳) 双対型比例積分微分(PID)コントローラは、オンライン広告の予算割当など、グローバルな制約でオンライン割り当て問題を解決するためにしばしば使用される。 しかし、コントローラはヒューリスティックな方法で使われ、パフォーマンスに関する保証が得られない。 本稿では、オンラインアロケーション問題に対するデュアルベースPIDコントローラの性能に関する最初の後悔点を提供する。 我々はまず,双対型PIDコントローラとオンライン凸最適化のための新しい一階次アルゴリズムである 'emph{Convolutional Mirror Descent} (CMD) の基本的な接続を確立し,過去の勾配の重み付き移動平均に基づいて反復を更新する。 CMDは特別な場合、運動量と楽観的なミラー降下を伴うオンラインミラー降下を回復する。 我々は,CMDが一般のオンライン凸最適化問題に対して,逆入力による後悔の少ない条件を確立する。 この新たな結果を利用して、オンラインアロケーション問題に対するデュアルベースのPIDコントローラに初めて後悔の意を表す。 証明の副産物として、我々は非滑らかな凸最適化のためのCMDに対する最初の後悔の束を提供する。

Dual-based proportional-integral-derivative (PID) controllers are often employed in practice to solve online allocation problems with global constraints, such as budget pacing in online advertising. However, controllers are used in a heuristic fashion and come with no provable guarantees on their performance. This paper provides the first regret bounds on the performance of dual-based PID controllers for online allocation problems. We do so by first establishing a fundamental connection between dual-based PID controllers and a new first-order algorithm for online convex optimization called \emph{Convolutional Mirror Descent} (CMD), which updates iterates based on a weighted moving average of past gradients. CMD recovers, in a special case, online mirror descent with momentum and optimistic mirror descent. We establish sufficient conditions under which CMD attains low regret for general online convex optimization problems with adversarial inputs. We leverage this new result to give the first regret bound for dual-based PID controllers for online allocation problems. As a byproduct of our proofs, we provide the first regret bound for CMD for non-smooth convex optimization, which might be of independent interest.
翻訳日:2023-12-21 22:34:59 公開日:2023-12-19
# 小型フットプリント話者検証のためのマルチレベルXベクトル知識の蒸留

Distilling Multi-Level X-vector Knowledge for Small-footprint Speaker Verification ( http://arxiv.org/abs/2303.01125v3 )

ライセンス: Link先を確認
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) 深い話者モデルは話者検証タスクにおいて印象的な精度を示したが、これはしばしばモデルサイズと計算時間の増加を犠牲にし、リソース制約のある環境でのデプロイメントの課題を提示している。 本研究は, 知識蒸留を用いたフットプリント深層話者埋込み抽出の開発を通じて, この限界に対処することに焦点を当てる。 この領域でのこれまでの研究は発話レベルでの話者埋め込み抽出に集中しているが、このアプローチでは、x-vectorモデル(教師ネットワーク)の異なるレベルからの埋め込みを融合して、コンパクトな学生ネットワークを訓練する。 その結果, 学生モデルは, 教師の埋め込みの大きさによって85%~91%の顕著な縮小率を示し, フレームレベルの情報の重要性が強調された。 特に,教師の埋め込みを連結することにより,教師と同等の性能を維持しながら,モデルサイズを75%削減した学生ネットワークを実現する。 これらの発見と洞察は他のx-ベクター変種にまで拡張され、我々のアプローチの幅広い適用性を示している。

Even though deep speaker models have demonstrated impressive accuracy in speaker verification tasks, this often comes at the expense of increased model size and computation time, presenting challenges for deployment in resource-constrained environments. Our research focuses on addressing this limitation through the development of small footprint deep speaker embedding extraction using knowledge distillation. While previous work in this domain has concentrated on speaker embedding extraction at the utterance level, our approach involves amalgamating embeddings from different levels of the x-vector model (teacher network) to train a compact student network. The results highlight the significance of frame-level information, with the student models exhibiting a remarkable size reduction of 85%-91% compared to their teacher counterparts, depending on the size of the teacher embeddings. Notably, by concatenating teacher embeddings, we achieve student networks that maintain comparable performance to the teacher while enjoying a substantial 75% reduction in model size. These findings and insights extend to other x-vector variants, underscoring the broad applicability of our approach.
翻訳日:2023-12-21 22:23:16 公開日:2023-12-19
# 安全性評価の批判的視点のための潜在グラフ表現

Latent Graph Representations for Critical View of Safety Assessment ( http://arxiv.org/abs/2212.04155v4 )

ライセンス: Link先を確認
Aditya Murali, Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Nicolas Padoy(参考訳) 腹腔鏡下胆嚢摘出術における安全性の批判的視点を評価するには, 重要な解剖学的構造を正確に同定し, 互いの幾何学的関係を推論し, 露出の質を決定する必要がある。 従来の作業では、セグメンテーションを中間ステップとして含み、予測セグメンテーションマスクを使用してCVSを予測することで、このタスクにアプローチしていた。 これらの手法は有効であるが、非常に高価な接地構文のセグメンテーションアノテーションに依存しており、予測されたセグメンテーションが間違っており、一般化が制限される。 そこで本研究では,まず,ゆがんだ潜在シーングラフを用いて手術画像を表現し,その表現をグラフニューラルネットワークを用いて処理するCVS予測手法を提案する。 私たちのグラフ表現は、意味情報(オブジェクトの位置、クラス情報、幾何学的関係)を明示的にエンコードし、解剖学による推論を改善します。 最後に、アノテーションコストに対処するため、細粒度オブジェクト境界を学習するために補助的な画像再構成目的を組み込んだボックスアノテーションのみを用いて、本手法を訓練することを提案する。 提案手法は,バウンディングボックスアノテーションでトレーニングした場合のベースラインメソッドよりも優れるだけでなく,セグメンテーションマスクでトレーニングした場合にも効果的にスケールできることを示す。

Assessing the critical view of safety in laparoscopic cholecystectomy requires accurate identification and localization of key anatomical structures, reasoning about their geometric relationships to one another, and determining the quality of their exposure. Prior works have approached this task by including semantic segmentation as an intermediate step, using predicted segmentation masks to then predict the CVS. While these methods are effective, they rely on extremely expensive ground-truth segmentation annotations and tend to fail when the predicted segmentation is incorrect, limiting generalization. In this work, we propose a method for CVS prediction wherein we first represent a surgical image using a disentangled latent scene graph, then process this representation using a graph neural network. Our graph representations explicitly encode semantic information - object location, class information, geometric relations - to improve anatomy-driven reasoning, as well as visual features to retain differentiability and thereby provide robustness to semantic errors. Finally, to address annotation cost, we propose to train our method using only bounding box annotations, incorporating an auxiliary image reconstruction objective to learn fine-grained object boundaries. We show that our method not only outperforms several baseline methods when trained with bounding box annotations, but also scales effectively when trained with segmentation masks, maintaining state-of-the-art performance.
翻訳日:2023-12-21 22:21:30 公開日:2023-12-19
# 量子対角化による回路深さの低減

Reducing circuit depth with qubitwise diagonalization ( http://arxiv.org/abs/2306.00170v3 )

ライセンス: Link先を確認
Edison M. Murairi and Michael J. Cervia(参考訳) 様々な量子アルゴリズムは、ハミルトニアンのスペクトルや進化を研究するためにパウリ作用素を便利な基礎として採用している。 そのようなアルゴリズムにおける回路の深さを減らす一つの戦略は、ポーリ作用素の同時対角化であり、ユニタリ進化演算子や可観測値を生成する。 我々は、深さが$O(n \log r)$の量子回路を、$r$ Pauli演算子によって生成される$n$-qubit演算子を対角化するアルゴリズムを提案する。 さらに,本アルゴリズムは1ステップあたり少なくとも1量子ビットの演算子を反復的に対角化するので,クビット接続が制限されたハードウェア上でも低回路深度を維持するのに適している。 このアルゴリズムは、ランダムに生成されたハミルトニアンと、短い深さと低い2量子ゲート数を持つ分子ハミルトニアンを対角化する量子回路の創出に好適である。

A variety of quantum algorithms employ Pauli operators as a convenient basis for studying the spectrum or evolution of Hamiltonians or measuring multi-body observables. One strategy to reduce circuit depth in such algorithms involves simultaneous diagonalization of Pauli operators generating unitary evolution operators or observables of interest. We propose an algorithm yielding quantum circuits with depths $O(n \log r)$ diagonalizing $n$-qubit operators generated by $r$ Pauli operators. Moreover, as our algorithm iteratively diagonalizes all operators on at least one qubit per step, it is well suited to maintain low circuit depth even on hardware with limited qubit connectivity. We observe that our algorithm performs favorably in producing quantum circuits diagonalizing randomly generated Hamiltonians as well as molecular Hamiltonians with short depths and low two-qubit gate counts.
翻訳日:2023-12-21 22:12:47 公開日:2023-12-19
# 解釈可能な機械学習モデルの開発と診断のためのPiMLツールボックス

PiML Toolbox for Interpretable Machine Learning Model Development and Diagnostics ( http://arxiv.org/abs/2305.04214v3 )

ライセンス: Link先を確認
Agus Sudjianto, Aijun Zhang, Zebin Yang, Yu Su, Ningzhou Zeng(参考訳) PiML (read $\pi$-ML, /`pai`em`el/)は、機械学習モデルの開発とモデル診断を解釈可能なPythonツールボックスである。 データパイプライン、モデルのトレーニングとチューニング、モデルの解釈と説明、モデルの診断と比較を含む、ローコードおよびハイコードモードのマシンラーニングワークフローで設計されている。 このツールボックスは、固有のローカルおよび/またはグローバル解釈可能性を持つ解釈可能なモデル(例えば、gam、gami-net、xgb1/xgb2)の一覧をサポートする。 また、モデルに依存しない説明可能性ツール(PFI、PDP、LIME、SHAPなど)や、モデルに依存しない強力な診断ツール(弱点、信頼性、堅牢性、レジリエンス、公正性など)もサポートしている。 PiMLモデルの統合と、品質保証のための既存のMLOpsプラットフォームへのテストは、フレキシブルなハイコードAPIによって実現されている。 さらに、PiMLツールボックスには、モデル開発や銀行の検証など、包括的なユーザガイドとハンズオンの例が付属している。 このプロジェクトはhttps://github.com/SelfExplainML/PiML-Toolboxで入手できる。

PiML (read $\pi$-ML, /`pai`em`el/) is an integrated and open-access Python toolbox for interpretable machine learning model development and model diagnostics. It is designed with machine learning workflows in both low-code and high-code modes, including data pipeline, model training and tuning, model interpretation and explanation, and model diagnostics and comparison. The toolbox supports a growing list of interpretable models (e.g. GAM, GAMI-Net, XGB1/XGB2) with inherent local and/or global interpretability. It also supports model-agnostic explainability tools (e.g. PFI, PDP, LIME, SHAP) and a powerful suite of model-agnostic diagnostics (e.g. weakness, reliability, robustness, resilience, fairness). Integration of PiML models and tests to existing MLOps platforms for quality assurance are enabled by flexible high-code APIs. Furthermore, PiML toolbox comes with a comprehensive user guide and hands-on examples, including the applications for model development and validation in banking. The project is available at https://github.com/SelfExplainML/PiML-Toolbox.
翻訳日:2023-12-21 22:10:04 公開日:2023-12-19
# 微調整拡散モデルにおける精度と解釈可能性のトレードオフ

Trade-offs in Fine-tuned Diffusion Models Between Accuracy and Interpretability ( http://arxiv.org/abs/2303.17908v2 )

ライセンス: Link先を確認
Mischa Dombrowski, Hadrien Reynaud, Johanna P. M\"uller, Matthew Baugh, Bernhard Kainz(参考訳) 近年の拡散モデルの発展は、生成的機械学習研究の軌道に大きな影響を与えており、多くの人は、ドメイン固有のテキストから画像へのデータセットを用いた事前学習モデルの微調整戦略を採用している。 特に、この方法はx線画像合成などの医療用途に利用され、関連する放射線学的報告の多用を生かしている。 しかし、一般的な懸念は、これらのモデルが生成したコンテンツを真に理解しているかどうかの保証の欠如である。 テキスト条件画像生成の進化に伴い、これらのモデルはオブジェクトの局所化の精査を容易にするほど強力に成長している。 我々の研究は、医療画像の重要な領域におけるこの進歩を強調し、解釈可能性の重要な役割を強調している。 さらに,生成拡散モデルにおける画像忠実度とモデル解釈可能性との連続的なトレードオフを明らかにする。 具体的には、微調整時に学習可能なテキストエンコーダが採用されると、解釈性が低下する。 我々の深層探査は、この分岐の原因となる要因を明らかにする。 そこで本研究では,真に解釈可能な生成モデルを開発するための設計原則について述べる。 コードはhttps://github.com/MischaD/chest-distillationで入手できる。

Recent advancements in diffusion models have significantly impacted the trajectory of generative machine learning research, with many adopting the strategy of fine-tuning pre-trained models using domain-specific text-to-image datasets. Notably, this method has been readily employed for medical applications, such as X-ray image synthesis, leveraging the plethora of associated radiology reports. Yet, a prevailing concern is the lack of assurance on whether these models genuinely comprehend their generated content. With the evolution of text-conditional image generation, these models have grown potent enough to facilitate object localization scrutiny. Our research underscores this advancement in the critical realm of medical imaging, emphasizing the crucial role of interpretability. We further unravel a consequential trade-off between image fidelity as gauged by conventional metrics and model interpretability in generative diffusion models. Specifically, the adoption of learnable text encoders when fine-tuning results in diminished interpretability. Our in-depth exploration uncovers the underlying factors responsible for this divergence. Consequently, we present a set of design principles for the development of truly interpretable generative models. Code is available at https://github.com/MischaD/chest-distillation.
翻訳日:2023-12-21 22:08:39 公開日:2023-12-19
# 社会犯罪場面における暴力的表情同定のためのデータ理論的アプローチ

A Data-Theoretic Approach to Identifying Violent Facial Expressions in Social Crime Contexts ( http://arxiv.org/abs/2308.08658v2 )

ライセンス: Link先を確認
Arindam Kumar Paul(参考訳) 人間の表情は、人間の行動や意図を特定する上で重要な役割を果たす。 表情は任意の人の特定の行動を表し、いかなる人物の暴力的行動のパターンも地理的領域に大きく依存する。 ここでは,犯罪を犯す意図があるかどうかを検出する畳み込みニューラルネットワークを用いて,自動システムを設計した。 そこで本研究では,犯罪や暴力行為を行う前に,表情に関する非常に少ないデータを用いて犯罪を効果的に実行する前に,犯罪の意図や暴力行為を識別する手法を提案する。 時間のかかる欠陥のある方法である画像機能を使う代わりに、トレーニングのために正確な表情をキャプチャし、ターゲットの表情をより正確に予測する自動機能セレクタ畳み込みニューラルネットワークモデルを使用しました。 ここでは,地域全体の暴力的で犯罪前の顔パターンを表現できる,特定の地理的領域の顔データのみを用いた。

Human Facial Expressions plays an important role in identifying human actions or intention. Facial expressions can represent any specific action of any person and the pattern of violent behavior of any person strongly depends on the geographic region. Here we have designed an automated system by using a Convolutional Neural Network which can detect whether a person has any intention to commit any crime or not. Here we proposed a new method that can identify criminal intentions or violent behavior of any person before executing crimes more efficiently by using very little data on facial expressions before executing a crime or any violent tasks. Instead of using image features which is a time-consuming and faulty method we used an automated feature selector Convolutional Neural Network model which can capture exact facial expressions for training and then can predict that target facial expressions more accurately. Here we used only the facial data of a specific geographic region which can represent the violent and before-crime before-crime facial patterns of the people of the whole region.
翻訳日:2023-12-21 22:00:21 公開日:2023-12-19
# usm-scd:大規模基礎モデルに基づく多言語話者変化検出

USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained Foundation Models ( http://arxiv.org/abs/2309.08023v2 )

ライセンス: Link先を確認
Guanlong Zhao, Yongqiang Wang, Jason Pelecanos, Yu Zhang, Hank Liao, Yiling Huang, Han Lu, Quan Wang(参考訳) 本稿では,話者交代を同時検出し,96言語でasrを行う多言語話者変化検出モデル(usm-scd)を提案する。 このモデルは、大量の教師付きおよび教師なしデータに基づいて訓練された音声基礎モデルから適応し、下流タスクのための大規模汎用基礎モデルからの微調整の有用性を示す。 この多言語話者変化検出モデルの性能を一連のアブレーション研究により解析する。 その結果,USM-SCDモデルでは,96言語のデータからなるテストセットに対して,平均話者変化検出F1スコアの75%以上を達成可能であることがわかった。 アメリカ英語では、USM-SCDモデルは、様々な公用および内部テストセットで85.8%の話者変化検出F1スコアを達成することができ、以前のモノリンガルベースラインモデルよりも21%高い。 また、最良のモデル性能を達成するためには、トレーニング可能なモデルパラメータの4分の1を微調整する必要があることも示しています。 USM-SCDモデルは、強力なパブリックなASRベースラインと比較して最先端のASR品質を示しており、両方のタスクを無視できる計算コストで処理するのに適している。

We introduce a multilingual speaker change detection model (USM-SCD) that can simultaneously detect speaker turns and perform ASR for 96 languages. This model is adapted from a speech foundation model trained on a large quantity of supervised and unsupervised data, demonstrating the utility of fine-tuning from a large generic foundation model for a downstream task. We analyze the performance of this multilingual speaker change detection model through a series of ablation studies. We show that the USM-SCD model can achieve more than 75% average speaker change detection F1 score across a test set that consists of data from 96 languages. On American English, the USM-SCD model can achieve an 85.8% speaker change detection F1 score across various public and internal test sets, beating the previous monolingual baseline model by 21% relative. We also show that we only need to fine-tune one-quarter of the trainable model parameters to achieve the best model performance. The USM-SCD model exhibits state-of-the-art ASR quality compared with a strong public ASR baseline, making it suitable to handle both tasks with negligible additional computational cost.
翻訳日:2023-12-21 21:48:29 公開日:2023-12-19
# mriにおける拡散確率モデルの新しい応用に関する調査

A Survey of Emerging Applications of Diffusion Probabilistic Models in MRI ( http://arxiv.org/abs/2311.11383v2 )

ライセンス: Link先を確認
Yuheng Fan, Hanxi Liao, Shiqi Huang, Yimin Luo, Huazhu Fu, Haikun Qi(参考訳) 拡散確率モデル (DPM) は, 明らかな可能性評価とデータ合成のための段階的なサンプリングプロセスを用いて, 研究の関心が高まっている。 サンプリング中の多くのステップによる計算負荷にもかかわらず、DPMは様々な医療画像タスクにおいて、その高品質で多様な世代に対して広く評価されている。 MRIは優れた軟組織コントラストと超高解像度の空間分解能を有する重要な医用画像モダリティであり、DPMに特有の機会がある。 MRIでDPMを探索する研究が近年増えているが、MRIアプリケーション用に特別に設計されたDPMの調査論文はいまだに不足している。 この記事では、MRIコミュニティの研究者が異なるアプリケーションにおけるDPMの進歩を把握できるようにすることを目的としている。 まず,拡散時間ステップが離散的か連続的かに応じて分類された2つの支配的なDPMの理論を紹介し,画像生成,画像翻訳,セグメンテーション,異常検出,その他の研究トピックを含むMRIにおける新たなDPMの総合的なレビューを行う。 最後に、DPMのMRIタスクに特有の制限だけでなく、一般的な制限についても論じ、さらに探究する価値のある潜在的な領域を指摘する。

Diffusion probabilistic models (DPMs) which employ explicit likelihood characterization and a gradual sampling process to synthesize data, have gained increasing research interest. Despite their huge computational burdens due to the large number of steps involved during sampling, DPMs are widely appreciated in various medical imaging tasks for their high-quality and diversity of generation. Magnetic resonance imaging (MRI) is an important medical imaging modality with excellent soft tissue contrast and superb spatial resolution, which possesses unique opportunities for DPMs. Although there is a recent surge of studies exploring DPMs in MRI, a survey paper of DPMs specifically designed for MRI applications is still lacking. This review article aims to help researchers in the MRI community to grasp the advances of DPMs in different applications. We first introduce the theory of two dominant kinds of DPMs, categorized according to whether the diffusion time step is discrete or continuous, and then provide a comprehensive review of emerging DPMs in MRI, including reconstruction, image generation, image translation, segmentation, anomaly detection, and further research topics. Finally, we discuss the general limitations as well as limitations specific to the MRI tasks of DPMs and point out potential areas that are worth further exploration.
翻訳日:2023-12-21 21:36:27 公開日:2023-12-19
# mkidを用いた単光子検出器設置のための大学院実験

A postgraduate laboratory experiment to set up a single-photon detector using MKIDs ( http://arxiv.org/abs/2311.08295v2 )

ライセンス: Link先を確認
Pietro Campana, Rodolfo Carobene, Eleonora Cipelli, Marco Gobbo, Aurora Perego, Davide Vertemati(参考訳) 本稿では,低温におけるマイクロ波応用の知識と専門知識の育成を目的とした実験室活動について述べる。 この経験はマイクロ波動インダクタンス検出器(MKID)による単一赤外線光子の検出に焦点を当てている。 実験的なセットアップ、理論的な概念、そして関連する活動は、経験を通じて得られるスキルと知識を強調しながら詳細に記述されている。 この実験は、量子技術分野の大学院生向けに設計されている。

This paper presents a laboratory activity aimed at developing knowledge and expertise in microwave applications at cryogenic temperatures. The experience focuses on the detection of single infrared photons through Microwave Kinetic Inductance Detectors (MKIDs). The experimental setup, theoretical concepts, and activities involved are detailed, highlighting the skills and knowledge gained through the experience. This experiment is designed for postgraduate students in the field of quantum technologies.
翻訳日:2023-12-21 21:35:19 公開日:2023-12-19
# householder量子化によるディープハッシュ

Deep Hashing via Householder Quantization ( http://arxiv.org/abs/2311.04207v2 )

ライセンス: Link先を確認
Lucas R. Schwengber, Lucas Resende, Paulo Orenstein, Roberto I. Oliveira(参考訳) ハッシュ化は大規模画像類似性探索の核心であり,最近の手法はディープラーニング技術によって大幅に改善されている。 このようなアルゴリズムは通常、データの連続的な埋め込みを学習する。 その後のコスト二項化のステップを避けるため、共通解として、類似性学習項(類似画像が近傍の埋め込みにグループ化されることを保証する)と量子化ペナルティ項(埋め込みエントリが例えば-1 や 1)に近いことを保証する)を組み合わせた損失関数を用いる。 しかし、これらの2つの用語間の相互作用は学習を難しくし、埋め込みを悪化させる可能性がある。 まず、量子化のない埋め込み空間上で類似性学習を行い、次に埋め込みの座標がその符号に近いように埋め込みの最適直交変換を見つけ、次に符号関数を通して変換された埋め込みを量子化する。 第2段階では, 家計行列を用いて直交変換をパラメトリズして, 確率勾配降下を効率的に活用する。 類似度測度は通常直交変換の下で不変であるため、この量子化戦略は性能面ではコストがかからない。 結果として得られるアルゴリズムは教師なし、高速、ハイパーパラメータフリーであり、既存のディープハッシュやメトリック学習アルゴリズム上で実行できる。 我々は、この手法が広く使われている画像データセットの最先端のパフォーマンスにつながることを示し、他の量子化戦略とは異なり、既存のディープハッシュアルゴリズムに一貫した性能改善をもたらすことを示す。

Hashing is at the heart of large-scale image similarity search, and recent methods have been substantially improved through deep learning techniques. Such algorithms typically learn continuous embeddings of the data. To avoid a subsequent costly binarization step, a common solution is to employ loss functions that combine a similarity learning term (to ensure similar images are grouped to nearby embeddings) and a quantization penalty term (to ensure that the embedding entries are close to binarized entries, e.g., -1 or 1). Still, the interaction between these two terms can make learning harder and the embeddings worse. We propose an alternative quantization strategy that decomposes the learning problem in two stages: first, perform similarity learning over the embedding space with no quantization; second, find an optimal orthogonal transformation of the embeddings so each coordinate of the embedding is close to its sign, and then quantize the transformed embedding through the sign function. In the second step, we parametrize orthogonal transformations using Householder matrices to efficiently leverage stochastic gradient descent. Since similarity measures are usually invariant under orthogonal transformations, this quantization strategy comes at no cost in terms of performance. The resulting algorithm is unsupervised, fast, hyperparameter-free and can be run on top of any existing deep hashing or metric learning algorithm. We provide extensive experimental results showing that this approach leads to state-of-the-art performance on widely used image datasets, and, unlike other quantization strategies, brings consistent improvements in performance to existing deep hashing algorithms.
翻訳日:2023-12-21 21:34:41 公開日:2023-12-19
# 監視クリフォード+T回路における動的マジック遷移

Dynamical Magic Transitions in Monitored Clifford+T Circuits ( http://arxiv.org/abs/2312.00132v2 )

ライセンス: Link先を確認
Mircea Bejan, Campbell McLauchlan and Benjamin B\'eri(参考訳) 量子力学の古典的シミュレーションは一般に難しいと推測されている。 このように、最近発見された高エンタングリングと低エンタングメントダイナミクス間の測定誘起遷移は、古典的シミュラビリティにおける相転移である。 ここでは、エンタングルメントを超えたシミュラビリティ遷移について研究する:いくつかの高エンタングリングダイナミクス(例えば、可積分系やクリフォード回路)は古典的にシミュレートし易いので、計算の難しさを達成するために「魔法」が必要であることを指摘し、マジックのダイナミクスが測定とどのように競合するかを問う。 得られた「力学マジック遷移」は、Tゲートでドープされたランダム監視クリフォード回路(マジック注入)に焦点をあてる。 我々は,この遷移を駆動するメカニズムとして,動的「安定化剤精製」,すなわち安定化剤状態の重畳の崩壊を同定する。 魔法と絡み合いの遷移が一致する場合もあれば、高い(ボリュームローの)絡み合いのフェーズで魔法とシミュラビリティの遷移がある場合もあります。 実験結果の確立には,力学の量子的本質をマジック状態レジスタに蒸留し,相互に可換な計測を行うポーリ計算を用いる。 我々は、安定化器のパーフィケーションを「魔法の断片化」にリンクし、これらの測定を解離したO(1)重みブロックに分割し、これを元の回路における魔法の拡散と関連づける。

The classical simulation of highly-entangling quantum dynamics is conjectured to be generically hard. Thus, recently discovered measurement-induced transitions between highly entangling and low-entanglement dynamics are phase transitions in classical simulability. Here, we study simulability transitions beyond entanglement: noting that some highly-entangling dynamics (e.g., integrable systems or Clifford circuits) are easy to classically simulate, thus requiring "magic"--a subtle form of quantum resource--to achieve computational hardness, we ask how the dynamics of magic competes with measurements. We study the resulting "dynamical magic transitions" focusing on random monitored Clifford circuits doped by T gates (injecting magic). We identify dynamical "stabilizer-purification"--the collapse of a superposition of stabilizer states by measurements--as the mechanism driving this transition. We find cases where transitions in magic and entanglement coincide, but also others with a magic and simulability transition in a highly (volume-law) entangled phase. In establishing our results, we use Pauli-based computation, a scheme distilling the quantum essence of the dynamics to a magic state register subject to mutually commuting measurements. We link stabilizer-purification to "magic fragmentation" wherein these measurements separate into disjoint, O(1)-weight blocks, and relate this to the spread of magic in the original circuit becoming arrested.
翻訳日:2023-12-21 21:23:17 公開日:2023-12-19
# 解析的可解モデルにおけるページ曲線絡み合いダイナミクス

Page curve entanglement dynamics in an analytically solvable model ( http://arxiv.org/abs/2311.18045v2 )

ライセンス: Link先を確認
Stefan Kehrein(参考訳) ブラックホールの絡み合いエントロピーは、ページ曲線に従うことが期待される。 時間とともに最初の線形増加の後、絡み合いエントロピーはページ時間で最大に達し、その後減少する。 このページ曲線の曲げとホーキングの1975年の半古典的計算との明らかな矛盾は、ブラックホール情報パラドックスの中心にある。 このことから、非平衡量子多体系の立場から、エンタングルメントエントロピーの異常な挙動から、この論文は、そのようなページ曲線を明示的に示す、完全に解決可能な自由フェルミオンモデルを導入する:体積法則で飽和する代わりに、エンタングルメントエントロピーは、最近になって漸近的に消滅する。 粒子電流のような物理的観測性はページ時間に異常な挙動を示しず、粒子電流と絡み合い発生との間の半古典的関係がいかに崩壊するかを明示的に知ることができる。

The entanglement entropy of black holes is expected to follow the Page curve. After an initial linear increase with time the entanglement entropy should reach a maximum at the Page time and then decrease. This bending down of the Page curve and the apparent contradiction with Hawking's semiclassical calculation from 1975 is at the center of the black hole information paradox. Motivated by this - from the point of view of non-equilibrium quantum many-body systems - unusual behavior of the entanglement entropy, this paper introduces an exactly solvable model of free fermions that explicitly shows such a Page curve: Instead of saturating at a volume law the entanglement entropy vanishes asymptotically for late times. Physical observables like the particle current do not show any unusual behavior at the Page time and one can explicitly see how the semiclassical connection between particle current and entanglement generation breaks down.
翻訳日:2023-12-21 21:22:15 公開日:2023-12-19
# Multipoint-BAX:仮想オブジェクトによる効率的な粒子加速器エミタンス調整のための新しいアプローチ

Multipoint-BAX: A New Approach for Efficiently Tuning Particle Accelerator Emittance via Virtual Objectives ( http://arxiv.org/abs/2209.04587v5 )

ライセンス: Link先を確認
Sara A. Miskovich, Willie Neiswanger, William Colocho, Claudio Emma, Jacqueline Garrahan, Timothy Maxwell, Christopher Mayes, Stefano Ermon, Auralee Edelen, Daniel Ratner(参考訳) ビームエミッタランスは高輝度加速器の性能に不可欠であるが、通常四極子スキャンによって行われるエミッタランス計算として最適化は時間に制限されることが多い。 このような計算は$\textit{multipoint query}$のタイプである。 ベイズ最適化のような従来のブラックボックスオプティマイザは、全一連の測定値を取得する必要があるため、そのような目的に対処する際には遅く非効率である。 ベイジアンアルゴリズム実行(BAX)の手法を用いて,個別のビームサイズ計測をクエリし,モデル化する,マルチポイントクエリのブラックボックス最適化のための新しい情報理論アルゴリズムであるMultipoint-BAXを提案する。 提案手法は,アクセルから直接ではなく,高速学習モデルから出力目標を計算するために,$\textit{virtual objective}$を通じてポイントを取得することで,アクセル上の遅いマルチポイントクエリを回避する。 我々は,Linac Coherent Light Source (LCLS) とAdvanced Accelerator Experimental Tests II (FACET-II) の発光を最小化するために Multipoint-BAX を用いる。 シミュレーションでは,従来の手法よりも20$\times$高速で,雑音に対して頑健である。 ライブテストでは、FACET-IIのハンドチューニングエミタンスと一致し、LCLSのハンドチューニングよりも24%低いエミタンスを達成した。 提案手法は,マルチポイントクエリを最適化するための概念シフトであり,粒子加速器や他の科学機器の類似問題に容易に適応できることを期待する。

Although beam emittance is critical for the performance of high-brightness accelerators, optimization is often time limited as emittance calculations, commonly done via quadrupole scans, are typically slow. Such calculations are a type of $\textit{multipoint query}$, i.e. each query requires multiple secondary measurements. Traditional black-box optimizers such as Bayesian optimization are slow and inefficient when dealing with such objectives as they must acquire the full series of measurements, but return only the emittance, with each query. We propose a new information-theoretic algorithm, Multipoint-BAX, for black-box optimization on multipoint queries, which queries and models individual beam-size measurements using techniques from Bayesian Algorithm Execution (BAX). Our method avoids the slow multipoint query on the accelerator by acquiring points through a $\textit{virtual objective}$, i.e. calculating the emittance objective from a fast learned model rather than directly from the accelerator. We use Multipoint-BAX to minimize emittance at the Linac Coherent Light Source (LCLS) and the Facility for Advanced Accelerator Experimental Tests II (FACET-II). In simulation, our method is 20$\times$ faster and more robust to noise compared to existing methods. In live tests, it matched the hand-tuned emittance at FACET-II and achieved a 24% lower emittance than hand-tuning at LCLS. Our method represents a conceptual shift for optimizing multipoint queries, and we anticipate that it can be readily adapted to similar problems in particle accelerators and other scientific instruments.
翻訳日:2023-12-21 19:37:27 公開日:2023-12-19
# ニューラルネットワークの初期化におけるバイアス量子乱数の影響について

On the effects of biased quantum random numbers on the initialization of artificial neural networks ( http://arxiv.org/abs/2108.13329v2 )

ライセンス: Link先を確認
Raoul Heese, Moritz Wolter, Sascha M\"ucke, Lukas Franken, Nico Piatkowski(参考訳) 最近の実用的な量子コンピューティングの進歩により、研究者はノイズの多い中間スケール量子(nisq)デバイス上でアルゴリズムを評価することができるクラウドベースの量子コンピューティングプラットフォームが多様になった。 量子コンピュータの一般的な性質は、古典的なシステムから得られる擬似ランダム性とは対照的に、真のランダム性を示すことができることである。 機械学習の文脈におけるそのような真の量子ランダム性の効果を調べることは魅力的であり、最近の結果は、量子乱数を用いることで実際に利益が得られることを曖昧に示唆している。 この話題についてさらに光を当てるために、数値実験において、ハードウェアバイアスの量子乱数が人工ニューラルネットワークの重み付けの初期化に与える影響を実証的に研究する。 非バイアス量子乱数と比較すると統計的に有意な差は認められず、また古典的な疑似乱数生成器から偏りや偏りのない乱数も見いだされた。 我々の実験のための量子乱数は、実量子ハードウェアから得られる。

Recent advances in practical quantum computing have led to a variety of cloud-based quantum computing platforms that allow researchers to evaluate their algorithms on noisy intermediate-scale quantum (NISQ) devices. A common property of quantum computers is that they can exhibit instances of true randomness as opposed to pseudo-randomness obtained from classical systems. Investigating the effects of such true quantum randomness in the context of machine learning is appealing, and recent results vaguely suggest that benefits can indeed be achieved from the use of quantum random numbers. To shed some more light on this topic, we empirically study the effects of hardware-biased quantum random numbers on the initialization of artificial neural network weights in numerical experiments. We find no statistically significant difference in comparison with unbiased quantum random numbers as well as biased and unbiased random numbers from a classical pseudo-random number generator. The quantum random numbers for our experiments are obtained from real quantum hardware.
翻訳日:2023-12-21 19:33:49 公開日:2023-12-19
# 動き拡散による連続確率的人間の動き予測に向けて

Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion ( http://arxiv.org/abs/2305.12554v2 )

ライセンス: Link先を確認
Jiarui Sun, Girish Chowdhary(参考訳) Stochastic Human Motion Prediction (HMP) は、過去の人間の運動軌跡に基づいて、複数の可能性のあるポーズシーケンスを予測することを目的としている。 以前のアプローチは印象的なパフォーマンスを示しているが、複雑なトレーニングプロセスや、提供された履歴と矛盾することが多い予測を生成する傾向など、いくつかの問題に直面している。 これらの課題を克服するために、DiffMotionという、エンドツーエンドの拡散に基づく確率的HMPフレームワークを提案する。 DiffMotionの動作予測器は,(1)劣化した動きから初期動作を復元するTransformerベースのネットワーク,(2)過去の観測を考慮し生成した動きを洗練させるGraph Convolutional Network(GCN)の2つのモジュールから構成される。 本手法はトランスフォーマー-GCNモジュールの設計と分散スケジューラによって促進され,精度,現実性,一貫した動作の予測に優れ,多様性の適切なレベルを維持している。 ベンチマーク分析の結果,DiffMotionは精度と忠実度の両方で従来の手法よりも優れ,強靭性も優れていた。

Stochastic Human Motion Prediction (HMP) aims to predict multiple possible upcoming pose sequences based on past human motion trajectories. Although previous approaches have shown impressive performance, they face several issues, including complex training processes and a tendency to generate predictions that are often inconsistent with the provided history, and sometimes even becoming entirely unreasonable. To overcome these issues, we propose DiffMotion, an end-to-end diffusion-based stochastic HMP framework. DiffMotion's motion predictor is composed of two modules, including (1) a Transformer-based network for initial motion reconstruction from corrupted motion, and (2) a Graph Convolutional Network (GCN) to refine the generated motion considering past observations. Our method, facilitated by this novel Transformer-GCN module design and a proposed variance scheduler, excels in predicting accurate, realistic, and consistent motions, while maintaining an appropriate level of diversity. Our results on benchmark datasets show that DiffMotion significantly outperforms previous methods in terms of both accuracy and fidelity, while demonstrating superior robustness.
翻訳日:2023-12-21 19:27:31 公開日:2023-12-19
# LAVA: 事前特定学習アルゴリズムのないデータ評価

LAVA: Data Valuation without Pre-Specified Learning Algorithms ( http://arxiv.org/abs/2305.00054v3 )

ライセンス: Link先を確認
Hoang Anh Just, Feiyang Kang, Jiachen T. Wang, Yi Zeng, Myeongseob Ko, Ming Jin, Ruoxi Jia(参考訳) 従来、学習アルゴリズムの検証性能をトレーニングデータ間で公平に分割する問題として、データ評価(DV)が提案されている。 その結果、計算されたデータ値は、基礎となる学習アルゴリズムの多くの設計選択に依存する。 しかし、この依存は、データ取得プロセスにおける異なるデータソースに対する優先順位の設定や、データマーケットプレースにおける価格設定メカニズムの実行など、多くのDVユースケースでは望ましくない。 これらのシナリオでは、データは実際の分析の前に評価され、学習アルゴリズムの選択はまだ決定されていない。 依存のもう一つの副作用は、個々の点の値を評価するためには、ポイントなしで学習アルゴリズムを再実行する必要があることである。 この作業は、下流の学習アルゴリズムに欠かせない方法でトレーニングデータを評価できる新しいフレームワークを導入することで、現在のデータ評価手法の限界を乗り越えるものだ。 主な成果は以下の通りである。 1) トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて, トレーニングセットに関連する検証性能のプロキシを開発する。 距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。 2) クラス別ワッサースタイン距離の感度解析に基づいて, 個人データを評価する新しい手法を開発した。 重要なことは、これらの値は距離を計算する際にオフザシェルフ最適化ソルバの出力から直接得ることができる。 3)低品質データの検出に関連するさまざまなユースケースに対して,新たなデータアセスメントフレームワークを評価し,驚くべきことに,我々のフレームワークの学習非依存機能は,桁違いに高速でSOTAの性能を大幅に向上させることができることを示す。

Traditionally, data valuation (DV) is posed as a problem of equitably splitting the validation performance of a learning algorithm among the training data. As a result, the calculated data values depend on many design choices of the underlying learning algorithm. However, this dependence is undesirable for many DV use cases, such as setting priorities over different data sources in a data acquisition process and informing pricing mechanisms in a data marketplace. In these scenarios, data needs to be valued before the actual analysis and the choice of the learning algorithm is still undetermined then. Another side-effect of the dependence is that to assess the value of individual points, one needs to re-run the learning algorithm with and without a point, which incurs a large computation burden. This work leapfrogs over the current limits of data valuation methods by introducing a new framework that can value training data in a way that is oblivious to the downstream learning algorithm. Our main results are as follows. (1) We develop a proxy for the validation performance associated with a training set based on a non-conventional class-wise Wasserstein distance between training and validation sets. We show that the distance characterizes the upper bound of the validation performance for any given model under certain Lipschitz conditions. (2) We develop a novel method to value individual data based on the sensitivity analysis of the class-wise Wasserstein distance. Importantly, these values can be directly obtained for free from the output of off-the-shelf optimization solvers when computing the distance. (3) We evaluate our new data valuation framework over various use cases related to detecting low-quality data and show that, surprisingly, the learning-agnostic feature of our framework enables a significant improvement over SOTA performance while being orders of magnitude faster.
翻訳日:2023-12-21 19:26:49 公開日:2023-12-19
# ビュー整合テキストから3d生成のための2次元拡散のデバイアススコアとプロンプト

Debiasing Scores and Prompts of 2D Diffusion for View-consistent Text-to-3D Generation ( http://arxiv.org/abs/2303.15413v5 )

ライセンス: Link先を確認
Susung Hong, Donghoon Ahn, Seungryong Kim(参考訳) 既存の有望なテキストから3D生成技術は、しばしば不整合性の問題に遭遇する。 最も注目すべき問題の1つは、オブジェクトの最も標準的なビュー(\textit{e.g})であるJanus問題である。 顔や頭)が他の見方に現れる。 本研究では,2次元拡散モデルの埋め込みバイアスであるビューの不整合問題の主な原因を,スコア蒸留テキストから3次元生成のための既存のフレームワークを探索する。 これらの知見に基づき、ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。 スコアデバイアスと呼ばれる最初のアプローチは、2次元拡散モデルによって推定されるスコアをカットし、最適化プロセスを通じて徐々に切り下げ値を増やすことです。 我々の2つ目のアプローチは、プロンプトデバイアスと呼ばれ、言語モデルを用いてユーザプロンプトとビュープロンプトの相反する単語を特定し、ビュープロンプトとオブジェクトの表示方向の相違を調整する。 提案手法は,2次元拡散モデルに対する忠実性と,オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現することにより,生成した3次元オブジェクトのリアリズムを向上させることを実証した。 プロジェクトのページは~\url{https://susunghong.github.io/debiased-score-distillation-sampling/}で閲覧できます。

Existing score-distilling text-to-3D generation techniques, despite their considerable promise, often encounter the view inconsistency problem. One of the most notable issues is the Janus problem, where the most canonical view of an object (\textit{e.g}., face or head) appears in other views. In this work, we explore existing frameworks for score-distilling text-to-3D generation and identify the main causes of the view inconsistency problem -- the embedded bias of 2D diffusion models. Based on these findings, we propose two approaches to debias the score-distillation frameworks for view-consistent text-to-3D generation. Our first approach, called score debiasing, involves cutting off the score estimated by 2D diffusion models and gradually increasing the truncation value throughout the optimization process. Our second approach, called prompt debiasing, identifies conflicting words between user prompts and view prompts using a language model, and adjusts the discrepancy between view prompts and the viewing direction of an object. Our experimental results show that our methods improve the realism of the generated 3D objects by significantly reducing artifacts and achieve a good trade-off between faithfulness to the 2D diffusion models and 3D consistency with little overhead. Our project page is available at~\url{https://susunghong.github.io/Debiased-Score-Distillation-Sampling/}.
翻訳日:2023-12-21 19:24:12 公開日:2023-12-19
# データ中毒とバックドア攻撃に対するロバストなコントラスト言語画像前訓練

Robust Contrastive Language-Image Pre-training against Data Poisoning and Backdoor Attacks ( http://arxiv.org/abs/2303.06854v2 )

ライセンス: Link先を確認
Wenhan Yang, Jingdong Gao, Baharan Mirzasoleiman(参考訳) 対照的な視覚言語表現学習は、インターネットからクロールされた数百万のイメージキャプチャペアから学習することで、ゼロショット分類の最先端のパフォーマンスを達成している。 しかし、CLIPのような大規模なマルチモーダルモデルを動かす巨大なデータは、さまざまな種類のターゲットデータ中毒やバックドア攻撃に対して極めて脆弱である。 この脆弱性にもかかわらず、このような攻撃に対する強固な対照的な視覚言語事前訓練は未対応のままである。 本研究では,ターゲットとするデータ中毒やバックドア攻撃に対して,マルチモーダル視覚言語モデルの堅牢な事前学習を行う最初の方法であるroclipを提案する。 ROCLIPは、比較的大きく多彩なランダムキャプションのプールを考慮し、各画像と、そのキャプションではなく、プール内で最もよく似たテキストとを、いくつかのエポックごとにマッチングすることにより、有毒な画像キャプチャペアの関連を効果的に破壊する。また、画像とテキストの強化を活用して、防御をさらに強化し、モデルの性能を向上させる。 ROCLIPは、訓練前のCLIPモデルにおいて、最先端のデータ中毒やバックドア攻撃が効果的でないことを示す。 特にROCLIPは、ターゲットデータ中毒攻撃の成功率を93.75%から12.5%、バックドア攻撃の成功率を0%まで下げる一方で、モデルの線形プローブ性能を10%改善し、CLIPと比較して同様のゼロショット性能を維持する。 マッチング頻度を増大させることで、ROCLIPは強い攻撃を防御することができ、これはデータに有毒な例を最大1%増やし、低い攻撃成功率の12.5%を維持しながら、一部のタスクのパフォーマンスをトレードオフする。

Contrastive vision-language representation learning has achieved state-of-the-art performance for zero-shot classification, by learning from millions of image-caption pairs crawled from the internet. However, the massive data that powers large multimodal models such as CLIP, makes them extremely vulnerable to various types of targeted data poisoning and backdoor attacks. Despite this vulnerability, robust contrastive vision-language pre-training against such attacks has remained unaddressed. In this work, we propose ROCLIP, the first effective method for robust pre-training multimodal vision-language models against targeted data poisoning and backdoor attacks. ROCLIP effectively breaks the association between poisoned image-caption pairs by considering a relatively large and varying pool of random captions, and matching every image with the text that is most similar to it in the pool instead of its own caption, every few epochs.It also leverages image and text augmentations to further strengthen the defense and improve the performance of the model. Our extensive experiments show that ROCLIP renders state-of-the-art targeted data poisoning and backdoor attacks ineffective during pre-training CLIP models. In particular, ROCLIP decreases the success rate for targeted data poisoning attacks from 93.75% to 12.5% and that of backdoor attacks down to 0%, while improving the model's linear probe performance by 10% and maintains a similar zero shot performance compared to CLIP. By increasing the frequency of matching, ROCLIP is able to defend strong attacks, which add up to 1% poisoned examples to the data, and successfully maintain a low attack success rate of 12.5%, while trading off the performance on some tasks.
翻訳日:2023-12-21 19:23:28 公開日:2023-12-19
# 時系列分類と外因性回帰の深層学習に関する最近の調査

Deep Learning for Time Series Classification and Extrinsic Regression: A Current Survey ( http://arxiv.org/abs/2302.02515v2 )

ライセンス: Link先を確認
Navid Mohammadi Foumani, Lynn Miller, Chang Wei Tan, Geoffrey I. Webb, Germain Forestier, Mahsa Salehi(参考訳) 時系列分類と外部回帰は重要かつ困難な機械学習タスクである。 ディープラーニングは自然言語処理やコンピュータビジョンに革命をもたらし、関連する特徴を生データからしばしば抽象化しなければならないが、先駆者ではない時系列分析など他の分野で大きな可能性を秘めている。 本稿では,時系列分類と漸近回帰のための深層学習の高速移動分野における技術の現状について検討する。 本稿では,これらのタスクに使用する異なるネットワークアーキテクチャとトレーニング手法をレビューし,時系列データにディープラーニングを適用する際の課題と機会について議論する。 また,時系列分類と漸近回帰,人間活動認識と衛星地球観測の2つの重要な応用を要約した。

Time Series Classification and Extrinsic Regression are important and challenging machine learning tasks. Deep learning has revolutionized natural language processing and computer vision and holds great promise in other fields such as time series analysis where the relevant features must often be abstracted from the raw data but are not known a priori. This paper surveys the current state of the art in the fast-moving field of deep learning for time series classification and extrinsic regression. We review different network architectures and training methods used for these tasks and discuss the challenges and opportunities when applying deep learning to time series data. We also summarize two critical applications of time series classification and extrinsic regression, human activity recognition and satellite earth observation.
翻訳日:2023-12-21 19:22:28 公開日:2023-12-19
# FLAME:スプレッドシート式のための小さな言語モデル

FLAME: A small language model for spreadsheet formulas ( http://arxiv.org/abs/2301.13779v2 )

ライセンス: Link先を確認
Harshit Joshi, Abishai Ebenezer, Jos\'e Cambronero, Sumit Gulwani, Aditya Kanade, Vu Le, Ivan Radi\v{c}ek, Gust Verbruggen(参考訳) スプレッドシートはエンドユーザのデータ管理に不可欠なツールです。 これらの環境で公式オーサリング支援に大規模な言語モデルを使用することは、トレーニングが高価で、そのサイズ(最大10億のパラメータ)のためデプロイが難しいため、難しい場合がある。 本稿では,Excel 公式にのみ準拠するトランスフォーマーモデル FLAME について述べる。このモデルでは,領域の洞察を活用して,より小さく(60M パラメータ)かつ2桁少ないデータでトレーニングし,競争性能を実現する。 スケッチ重複を利用したトレーニングデータセットをキュレートし、excel特有の公式トークン化を導入し、マスクスパン予測とノイズの自動エンコーディングのドメイン固有バージョンを事前学習目標として使用する。 FLAMEは, 補修, 補修, 類似性に基づく公式検索について評価する。 FLAMEはDavinci (175B) や Cushman (12B) の Codex や CodeT5 (220M) など、修理作業と完了作業の14つの評価設定のうち10つである。 公式検索では、FLAMEはCodeT5、CodeBERT、GraphCodeBERTより優れている。

Spreadsheets are a vital tool for end-user data management. Using large language models for formula authoring assistance in these environments can be difficult, as these models are expensive to train and challenging to deploy due to their size (up to billions of parameters). We present FLAME, a transformer-based model trained exclusively on Excel formulas that leverages domain insights to achieve competitive performance while being substantially smaller (60M parameters) and training on two orders of magnitude less data. We curate a training dataset using sketch deduplication, introduce an Excel-specific formula tokenizer, and use domain-specific versions of masked span prediction and noisy auto-encoding as pre-training objectives. We evaluate FLAME on formula repair, formula completion, and similarity-based formula retrieval. FLAME can outperform much larger models, such as the Davinci (175B) and Cushman (12B) variants of Codex and CodeT5 (220M), in 10 of 14 evaluation settings for the repair and completion tasks. For formula retrieval, FLAME outperforms CodeT5, CodeBERT, and GraphCodeBERT.
翻訳日:2023-12-21 19:22:17 公開日:2023-12-19
# 分離言語事前学習によるブートストラップ型ビジョンランゲージ学習

Bootstrapping Vision-Language Learning with Decoupled Language Pre-training ( http://arxiv.org/abs/2307.07063v4 )

ライセンス: Link先を確認
Yiren Jian, Chongyang Gao, Soroush Vosoughi(参考訳) 本稿では,凍結型大言語モデル(llms)のリソース集約型視覚言語(vl)事前学習への応用を最適化する新しい手法を提案する。 現在のパラダイムでは、言語モデルをガイドするプロンプトとして視覚的特徴を使用し、対応するテキストに対して最も関連性の高い視覚的特徴を決定することに重点を置いている。 私たちのアプローチは、言語コンポーネントに集中することで、視覚的な特徴に合わせるのに最適なプロンプトを特定することで多様化します。 Prompt-Transformer (P-Former) は,これらの理想的なプロンプトを予測し,画像とテキストのペアリングの必要性を回避し,言語データのみを訓練するモデルである。 この戦略は、エンドツーエンドのVLトレーニングプロセスを、別段のステージに微妙に分岐させる。 実験の結果,本フレームワークはロバストな画像からテキストへのベースライン(blip-2)の性能を大幅に向上させ,4mまたは129mのイメージテキストペアでトレーニングされたモデル間のパフォーマンスギャップを効果的に狭めていることが明らかとなった。 重要な点として,本フレームワークはアーキテクチャ設計の観点からはモダリティ非依存かつ柔軟であり,多様なベースモジュールを用いたビデオ学習タスクにおいて,その成功例によって検証されている。 コードはhttps://github.com/yiren-jian/BLITextで入手できる。

We present a novel methodology aimed at optimizing the application of frozen large language models (LLMs) for resource-intensive vision-language (VL) pre-training. The current paradigm uses visual features as prompts to guide language models, with a focus on determining the most relevant visual features for corresponding text. Our approach diverges by concentrating on the language component, specifically identifying the optimal prompts to align with visual features. We introduce the Prompt-Transformer (P-Former), a model that predicts these ideal prompts, which is trained exclusively on linguistic data, bypassing the need for image-text pairings. This strategy subtly bifurcates the end-to-end VL training process into an additional, separate stage. Our experiments reveal that our framework significantly enhances the performance of a robust image-to-text baseline (BLIP-2), and effectively narrows the performance gap between models trained with either 4M or 129M image-text pairs. Importantly, our framework is modality-agnostic and flexible in terms of architectural design, as validated by its successful application in a video learning task using varied base modules. The code will be made available at https://github.com/yiren-jian/BLIText.
翻訳日:2023-12-21 19:16:08 公開日:2023-12-19
# DecodingTrust: GPTモデルにおける信頼性の総合評価

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models ( http://arxiv.org/abs/2306.11698v3 )

ライセンス: Link先を確認
Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li(参考訳) ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルは、実践者や一般大衆の関心を捉えながら、その能力にエキサイティングな進歩を見せている。 しかし、GPTモデルの信頼性に関する文献は依然として限られているが、医療や金融といった繊細なアプリケーションに有能なGPTモデルを採用することを提案した。 本研究は,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案し,有害性,ステレオタイプバイアス,敵対的堅牢性,アウト・オブ・ディストリビューションの堅牢性,敵的デモンストレーションに対する堅牢性,プライバシ,マシン倫理,公正性など,さまざまな観点から考察する。 評価の結果,信頼の脅威に対する未公表の脆弱性が発見された。 例えば、GPTモデルは、有毒で偏りのある出力を生成し、トレーニングデータと会話履歴の両方のプライベート情報を漏らすために、容易に誤解される。 また、GPT-4は標準ベンチマークではGPT-3.5よりも信頼性が高いが、GPT-4はJailbreakingシステムやユーザプロンプトにより脆弱である。 我々の研究は、GPTモデルの総合的信頼性評価を示し、信頼性のギャップに光を当てている。 私たちのベンチマークはhttps://decodingtrust.github.io/で、データセットはhttps://huggingface.co/datasets/AI-Secure/DecodingTrustでプレビューできます。 id=kaHpo8OZw2。

Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in their capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications such as healthcare and finance -- where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives -- including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially because GPT-4 follows (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/; our dataset can be previewed at https://huggingface.co/datasets/AI-Secure/DecodingTrust; a concise version of this work is at https://openreview.net/pdf?id=kaHpo8OZw2.
翻訳日:2023-12-21 19:14:19 公開日:2023-12-19
# RewriteLM: テキスト書き換えのための命令付き大規模言語モデル

RewriteLM: An Instruction-Tuned Large Language Model for Text Rewriting ( http://arxiv.org/abs/2305.15685v2 )

ライセンス: Link先を確認
Lei Shu, Liangchen Luo, Jayakumar Hoskere, Yun Zhu, Yinxiao Liu, Simon Tong, Jindong Chen, Lei Meng(参考訳) 大規模な言語モデル(llm)は、ストーリーテリングや電子メール生成といった創造的なタスクで印象的な能力を発揮しています。 しかし、LSMは主に中間修正ではなく最終テキスト結果に基づいて訓練されているため、テキスト書き換えタスクを実行することは困難である。 書き換えタスクのほとんどの研究は、単一文の境界内の特定の変換型に焦点を当てている。 本研究では,多種多様な単語と自然言語を含む構造を用いた多文間書き直し作業におけるLLMの整合性向上のための指導指導と強化学習のための新しい手法を開発する。 1) ウィキ編集及び公開コーパスから命令生成及びチェーン・オブ・シークレットによる書き直しデータの生成 2)新たなランキング機能による報酬モデル学習のための比較データ収集。 そこで本研究では,自然言語命令によって表現される多種多様な書き起こしタイプをカバーする新しいベンチマークOpenRewriteEvalを紹介する。 以上の結果から, 各種のベースラインに対して有意な改善が得られた。 パブリックリポジトリはGitHubでGoogle Research(https://github.com/google-research/google-research/tree/master/rewritelm)で公開されている。

Large Language Models (LLMs) have demonstrated impressive capabilities in creative tasks such as storytelling and E-mail generation. However, as LLMs are primarily trained on final text results rather than intermediate revisions, it might be challenging for them to perform text rewriting tasks. Most studies in the rewriting tasks focus on a particular transformation type within the boundaries of single sentences. In this work, we develop new strategies for instruction tuning and reinforcement learning to better align LLMs for cross-sentence rewriting tasks using diverse wording and structures expressed through natural languages including 1) generating rewriting instruction data from Wiki edits and public corpus through instruction generation and chain-of-thought prompting; 2) collecting comparison data for reward model training through a new ranking function. To facilitate this research, we introduce OpenRewriteEval, a novel benchmark covers a wide variety of rewriting types expressed through natural language instructions. Our results show significant improvements over a variety of baselines. The public repository is available on GitHub under Google Research (https://github.com/google-research/google-research/tree/master/rewritelm).
翻訳日:2023-12-21 19:10:50 公開日:2023-12-19
# 現代の非参照画像とビデオ品質メトリクスの堅牢性と敵攻撃の比較

Comparing the robustness of modern no-reference image- and video-quality metrics to adversarial attacks ( http://arxiv.org/abs/2310.06958v2 )

ライセンス: Link先を確認
Anastasia Antsiferova, Khaled Abud, Aleksandr Gushchin, Ekaterina Shumitskaya, Sergey Lavrushkin, Dmitriy Vatolin(参考訳) 現在、ニューラルネットワークベースの画像およびビデオ品質指標は、従来の方法よりも優れたパフォーマンスを示している。 しかし、視覚的品質を改善することなくメトリクスのスコアを上げる敵攻撃にもより脆弱になった。 既存の品質指標のベンチマークは、主観的品質と計算時間との相関の観点からパフォーマンスを比較する。 しかし、画像品質指標の敵対的ロバスト性も研究に値する分野である。 本稿では,異なる敵攻撃に対する現代のメトリクスの堅牢性を分析する。 コンピュータビジョンタスクからの敵意攻撃を適用し,15の非参照画像/ビデオ品質指標に対する攻撃の効率性を比較した。 いくつかのメトリクスは、脆弱なメトリクスよりも安全なベンチマークでの使用を可能にする敵攻撃に対する高い抵抗を示した。 このベンチマークは、攻撃に対してメトリクスをより堅牢にしたい研究者や、必要に応じてそのようなメトリクスを見つけたい研究者のために、新しいメトリクスの提出を受け入れる。 pip install robustness-benchmarkを使ってベンチマークを試してみよう。

Nowadays neural-network-based image- and video-quality metrics show better performance compared to traditional methods. However, they also became more vulnerable to adversarial attacks that increase metrics' scores without improving visual quality. The existing benchmarks of quality metrics compare their performance in terms of correlation with subjective quality and calculation time. However, the adversarial robustness of image-quality metrics is also an area worth researching. In this paper, we analyse modern metrics' robustness to different adversarial attacks. We adopted adversarial attacks from computer vision tasks and compared attacks' efficiency against 15 no-reference image/video-quality metrics. Some metrics showed high resistance to adversarial attacks which makes their usage in benchmarks safer than vulnerable metrics. The benchmark accepts new metrics submissions for researchers who want to make their metrics more robust to attacks or to find such metrics for their needs. Try our benchmark using pip install robustness-benchmark.
翻訳日:2023-12-21 19:03:17 公開日:2023-12-19
# 伝統教育を超えて:大学院工学教育における大規模言語モデルとチャットボットの可能性

Beyond Traditional Teaching: The Potential of Large Language Models and Chatbots in Graduate Engineering Education ( http://arxiv.org/abs/2309.13059v2 )

ライセンス: Link先を確認
Mahyar Abedi, Ibrahem Alshybani, Muhammad Rubayat Bin Shahadat, Michael S. Murillo(参考訳) 教育の急速な発展の中で、デジタル技術は伝統的な教育手法を何度も破壊してきた。 本稿では,大規模言語モデル(LLM)とチャットボットを大学院工学教育に統合する可能性について考察する。 まず、歴史的および技術的混乱を追跡してコンテキストを提供し、マシンラーニングやディープラーニングといった重要な用語と、最近の進歩の基盤となるメカニズム、すなわち注意/変換モデルとグラフィック処理ユニットを紹介します。 我々の研究の核心は、LLMベースのチャットボットを大学院流体力学コースに応用することにある。 授業資料から質問バンクを開発し,チャットボットの正確かつ洞察に富んだ応答能力を評価した。 結果は、複雑な質問に効果的に答えるボットの能力だけでなく、セルフペースト学習の促進、即時フィードバックの提供、インストラクターの作業負荷の削減など、教室におけるチャットボットの利用の潜在的な利点を示すものである。 また,チャットボットの性能向上に対する知的プロンプトの変容効果についても検討した。 さらに、数学的な問題解決やコード解釈のためにWolfram Alphaのような強力なプラグインが、チャットボットの機能を大幅に拡張し、総合的な教育ツールに変換できることを示す。 教育におけるこのようなAIモデルの使用に関する課題と倫理的意味を認めながら、バランスのとれたアプローチを提唱する。 大学院教育におけるLLMとチャットボットの利用は極めて有益であるが,倫理的かつ効率的な使用を保証するためには,継続的な評価と適応が必要である。

In the rapidly evolving landscape of education, digital technologies have repeatedly disrupted traditional pedagogical methods. This paper explores the latest of these disruptions: the potential integration of large language models (LLMs) and chatbots into graduate engineering education. We begin by tracing historical and technological disruptions to provide context and then introduce key terms such as machine learning and deep learning and the underlying mechanisms of recent advancements, namely attention/transformer models and graphics processing units. The heart of our investigation lies in the application of an LLM-based chatbot in a graduate fluid mechanics course. We developed a question bank from the course material and assessed the chatbot's ability to provide accurate, insightful responses. The results are encouraging, demonstrating not only the bot's ability to effectively answer complex questions but also the potential advantages of chatbot usage in the classroom, such as the promotion of self-paced learning, the provision of instantaneous feedback, and the reduction of instructors' workload. The study also examines the transformative effect of intelligent prompting on enhancing the chatbot's performance. Furthermore, we demonstrate how powerful plugins like Wolfram Alpha for mathematical problem-solving and code interpretation can significantly extend the chatbot's capabilities, transforming it into a comprehensive educational tool. While acknowledging the challenges and ethical implications surrounding the use of such AI models in education, we advocate for a balanced approach. The use of LLMs and chatbots in graduate education can be greatly beneficial but requires ongoing evaluation and adaptation to ensure ethical and efficient use.
翻訳日:2023-12-21 19:02:07 公開日:2023-12-19
# 健康関連社会談話における情報探索イベントの特徴付け

Characterizing Information Seeking Events in Health-Related Social Discourse ( http://arxiv.org/abs/2308.09156v2 )

ライセンス: Link先を確認
Omar Sharif, Madhusudan Basak, Tanzia Parvin, Ava Scharfstein, Alphonso Bradham, Jacob T. Borodovsky, Sarah E. Lord, Sarah M. Preum(参考訳) ソーシャルメディアサイトは、個人が健康情報を探し、共有するための人気のあるプラットフォームになっている。 ソーシャルメディアマイニングにおける自然言語処理の進歩にもかかわらず、イベントの文脈における社会談話に関する健康関連テキストの分析にはギャップが残っている。 イベント駆動分析は、治療の選択肢、誤解、知識のギャップなど、個別および集団レベルでの医療のさまざまな側面に対する洞察を提供する。 本稿では,社会談話における健康関連情報探索を,イベントのレンズを通して特徴付けるパラダイムを提案する。 ここでのイベントは、治療/治療の軌跡を捉えるドメインの専門家によって定義されたボードカテゴリである。 このアプローチの価値を説明するために、世界的健康問題であるオピオイド使用障害(oud)に対する薬物に関するreddit投稿を分析した。 我々の知る限りでは、OUD社会談話における情報探索を特徴付けるイベントカテゴリを初めて定義する試みである。 ドメインの専門家がガイドしたTREAT-ISEは、イベントベースのフレームワーク上でオンライン談話を分析するための、新しいマルチラベル処理情報検索イベントデータセットである。 このデータセットには、OUDからのリカバリに関連する情報検索イベントに関するRedditの記事が含まれている。 また、複数の機械学習とディープラーニング分類器を用いて、タスクのパフォーマンスベンチマーク(77.4%のF1スコア)を確立する。 最後に、この課題におけるChatGPTの性能と誤りを徹底的に調査し、LCMの能力と現在進行中のキャラクタリゼーションの取り組みに関する貴重な洞察を提供する。

Social media sites have become a popular platform for individuals to seek and share health information. Despite the progress in natural language processing for social media mining, a gap remains in analyzing health-related texts on social discourse in the context of events. Event-driven analysis can offer insights into different facets of healthcare at an individual and collective level, including treatment options, misconceptions, knowledge gaps, etc. This paper presents a paradigm to characterize health-related information-seeking in social discourse through the lens of events. Events here are board categories defined with domain experts that capture the trajectory of the treatment/medication. To illustrate the value of this approach, we analyze Reddit posts regarding medications for Opioid Use Disorder (OUD), a critical global health concern. To the best of our knowledge, this is the first attempt to define event categories for characterizing information-seeking in OUD social discourse. Guided by domain experts, we develop TREAT-ISE, a novel multilabel treatment information-seeking event dataset to analyze online discourse on an event-based framework. This dataset contains Reddit posts on information-seeking events related to recovery from OUD, where each post is annotated based on the type of events. We also establish a strong performance benchmark (77.4% F1 score) for the task by employing several machine learning and deep learning classifiers. Finally, we thoroughly investigate the performance and errors of ChatGPT on this task, providing valuable insights into the LLM's capabilities and ongoing characterization efforts.
翻訳日:2023-12-21 19:00:48 公開日:2023-12-19
# lost in translation: コード翻訳中に大規模言語モデルによって導入されたバグの研究

Lost in Translation: A Study of Bugs Introduced by Large Language Models while Translating Code ( http://arxiv.org/abs/2308.03109v2 )

ライセンス: Link先を確認
Rangeet Pan, Ali Reza Ibrahimzada, Rahul Krishna, Divya Sankar, Lambert Pouguem Wassi, Michele Merler, Boris Sobolev, Raju Pavuluri, Saurabh Sinha, Reyhaneh Jabbarvand(参考訳) コード翻訳は、ソースコードをあるプログラミング言語(PL)から別のプログラミング言語に変換することを目的としている。 コード合成における大きな言語モデル(LLM)の有望な能力を考えると、研究者はコード翻訳を自動化する可能性を探っている。 LLMベースのコード翻訳の進歩の前提は、既存の技術に対する彼らの約束と限界を理解することである。 そこで本研究では,C言語,C++言語,Go言語,Java言語,Python言語など,多言語間のコード翻訳における一般的なLLMとコードLLMの能力について,大規模な実証的研究を行った。 3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳を含む我々の研究は、LLMがまだコードの翻訳を自動化するために確実に使われていないことを明らかにしている。 翻訳失敗のさらなる手作業による調査では、翻訳バグの15のカテゴリが特定されている。 LLMベースのコード翻訳と従来の非LLMベースのアプローチを比較した。 分析の結果,これら2つの手法はそれぞれの強みと弱みを有することがわかった。 最後に、我々の研究から得た知見は、翻訳中にLLMにより多くのコンテキストを提供することで、より良い結果が得られることを示唆している。 そこで本研究では,誤訳の症状に基づくプロンプト作成手法を提案し,LLMに基づくコード翻訳の性能を平均5.5%向上させる。 私たちの研究は、コード翻訳におけるllmの現在の制限と改善の機会に関する洞察を提供する、スケールと幅という観点で最初のものです。 私たちのデータセットは,5つのPLに1,700のコードサンプルと10K以上のテスト,43K以上のコード,1,725のラベル付きバグ,1365のバグフィックスペアで構成されています。

Code translation aims to convert source code from one programming language (PL) to another. Given the promising abilities of large language models (LLMs) in code synthesis, researchers are exploring their potential to automate code translation. The prerequisite for advancing the state of LLM-based code translation is to understand their promises and limitations over existing techniques. To that end, we present a large-scale empirical study to investigate the ability of general LLMs and code LLMs for code translation across pairs of different languages, including C, C++, Go, Java, and Python. Our study, which involves the translation of 1,700 code samples from three benchmarks and two real-world projects, reveals that LLMs are yet to be reliably used to automate code translation -- with correct translations ranging from 2.1% to 47.3% for the studied LLMs. Further manual investigation of unsuccessful translations identifies 15 categories of translation bugs. We also compare LLM-based code translation with traditional non-LLM-based approaches. Our analysis shows that these two classes of techniques have their own strengths and weaknesses. Finally, insights from our study suggest that providing more context to LLMs during translation can help them produce better results. To that end, we propose a prompt-crafting approach based on the symptoms of erroneous translations; this improves the performance of LLM-based code translation by 5.5% on average. Our study is the first of its kind, in terms of scale and breadth, that provides insights into the current limitations of LLMs in code translation and opportunities for improving them. Our dataset -- consisting of 1,700 code samples in five PLs with 10K+ tests, 43K+ translated code, 1,725 manually labeled bugs, and 1,365 bug-fix pairs -- can help drive research in this area.
翻訳日:2023-12-21 18:59:24 公開日:2023-12-19
# アルツハイマー病マウスにおける新しい物体認識と自発位置認識機械学習解析手法の探索

Exploring Novel Object Recognition and Spontaneous Location Recognition Machine Learning Analysis Techniques in Alzheimer's Mice ( http://arxiv.org/abs/2312.06914v2 )

ライセンス: Link先を確認
Soham Bafana(参考訳) マウスにおける物体認識パターンの理解は行動神経科学の進歩に不可欠であり、特にアルツハイマー研究の領域において人間の健康に重大な影響を及ぼす。 本研究は,新しい物体認識(nor)と自発的位置認識(slr)タスクに着目し,このような振る舞いを分析するための最先端計算パイプラインの開発,応用,評価に重点を置いている。 このパイプラインは、初期データ収集のためのAny-Maze、詳細なポーズ推定のためのDeepLabCut、ニュアンスな行動分類のための畳み込みニューラルネットワーク(CNN)の3つの高度な計算モデルを統合する。 4つの異なるマウス群で採用され、高い精度と堅牢性を示した。 ビデオ品質の制限や手動計算の必要性といったある種の課題にもかかわらず、結果はパイプラインの有効性とスケーラビリティの可能性を確認している。 この研究は、行動神経科学に対する多次元計算アプローチの概念実証となり、将来、より複雑な分析のためのパイプラインの汎用性と準備を強調する。

Understanding object recognition patterns in mice is crucial for advancing behavioral neuroscience and has significant implications for human health, particularly in the realm of Alzheimer's research. This study is centered on the development, application, and evaluation of a state-of-the-art computational pipeline designed to analyze such behaviors, specifically focusing on Novel Object Recognition (NOR) and Spontaneous Location Recognition (SLR) tasks. The pipeline integrates three advanced computational models: Any-Maze for initial data collection, DeepLabCut for detailed pose estimation, and Convolutional Neural Networks (CNNs) for nuanced behavioral classification. Employed across four distinct mouse groups, this pipeline demonstrated high levels of accuracy and robustness. Despite certain challenges like video quality limitations and the need for manual calculations, the results affirm the pipeline's efficacy and potential for scalability. The study serves as a proof of concept for a multidimensional computational approach to behavioral neuroscience, emphasizing the pipeline's versatility and readiness for future, more complex analyses.
翻訳日:2023-12-21 18:52:38 公開日:2023-12-19
# AUGCAL:拡張合成画像の不確かさ校正によるSim2Real適応の改善

AUGCAL: Improving Sim2Real Adaptation by Uncertainty Calibration on Augmented Synthetic Images ( http://arxiv.org/abs/2312.06106v2 )

ライセンス: Link先を確認
Prithvijit Chattopadhyay, Bharat Goyal, Boglarka Ecsedi, Viraj Prabhu, Judy Hoffman(参考訳) シミュレータから抽出した合成データ(SIM)は、注釈付き現実画像の取得が困難なトレーニングモデルの代替として人気がある。 しかし, 合成画像で学習したモデルを実世界のアプリケーションへ移行することは, 外観の相違により困難である。 このsim2realギャップに対処する一般的なソリューションは、ラベル付きsimデータとラベルなしの実データを使ってモデルをトレーニングする教師なしドメイン適応である。 このようなSIM2REAL適応モデルによる誤予測は、しばしば誤判定と関連付けられ、これは実際のデータの過信予測から生じる。 本稿では,sim2の適応モデルを改善するための,教師なし適応のための簡易なトレーニングタイムパッチであるaugcalについて紹介する。(1)ミスカバリの削減,(2)不正確な予測における過信の低減,(3)誤分類検出の改善による信頼度スコアの信頼性の向上。 ベースSIM2REAL適応アルゴリズムが与えられた場合、トレーニング時に、AUGCALはバニラSIMイメージを強力な拡張ビュー(AUG介入)に置き換え、さらに拡張SIM予測(CAL介入)のトレーニング時間校正損失を最適化する。 我々は,未ラベルREALデータの誤校正方法の簡単な解析的正当性を用いて,AUGCALを動機付けている。 実験により、複数の適応方法、バックボーン、タスク、シフトにまたがるAUGCALの有効性を実証的に示す。

Synthetic data (SIM) drawn from simulators have emerged as a popular alternative for training models where acquiring annotated real-world images is difficult. However, transferring models trained on synthetic images to real-world applications can be challenging due to appearance disparities. A commonly employed solution to counter this SIM2REAL gap is unsupervised domain adaptation, where models are trained using labeled SIM data and unlabeled REAL data. Mispredictions made by such SIM2REAL adapted models are often associated with miscalibration - stemming from overconfident predictions on real data. In this paper, we introduce AUGCAL, a simple training-time patch for unsupervised adaptation that improves SIM2REAL adapted models by - (1) reducing overall miscalibration, (2) reducing overconfidence in incorrect predictions and (3) improving confidence score reliability by better guiding misclassification detection - all while retaining or improving SIM2REAL performance. Given a base SIM2REAL adaptation algorithm, at training time, AUGCAL involves replacing vanilla SIM images with strongly augmented views (AUG intervention) and additionally optimizing for a training time calibration loss on augmented SIM predictions (CAL intervention). We motivate AUGCAL using a brief analytical justification of how to reduce miscalibration on unlabeled REAL data. Through our experiments, we empirically show the efficacy of AUGCAL across multiple adaptation methods, backbones, tasks and shifts.
翻訳日:2023-12-21 18:52:18 公開日:2023-12-19
# ユーザコマンド推論のためのllmを用いた人間中心自律システム

Human-Centric Autonomous Systems With LLMs for User Command Reasoning ( http://arxiv.org/abs/2311.08206v2 )

ライセンス: Link先を確認
Yi Yang and Qingwen Zhang and Ci Li and Daniel Sim\~oes Marta and Nazre Batool and John Folkesson(参考訳) 自動運転の進化は、近年顕著な進歩を遂げ、具体的な現実へと進化した。 しかし、人間中心の大規模な採用は、様々な多面的要件を満たすことにつながる。 自律システムがユーザの意図に合うようにするためには、特に複雑な状況や緊急状況において、ユーザのコマンドを正確に識別し、解釈することが不可欠である。 そこで本研究では,大規模言語モデル(llms)の推論能力を活用し,インキャビンユーザのコマンドからシステム要件を推定することを提案する。 異なるLLMモデルとプロンプト設計を含む一連の実験を通じて、自然言語テキストコマンドからのシステム要求の多変量二値分類精度について検討する。 提案手法では,プロンプトの理解と推論を行うllmの一般的な能力を確認するが,その効果はllmモデルと適切な逐次プロンプトの設計の両方の品質に依存することを強調する。 コードとモデルは、リンク \url{https://github.com/KTH-RPL/DriveCmd_LLM} で公開されている。

The evolution of autonomous driving has made remarkable advancements in recent years, evolving into a tangible reality. However, a human-centric large-scale adoption hinges on meeting a variety of multifaceted requirements. To ensure that the autonomous system meets the user's intent, it is essential to accurately discern and interpret user commands, especially in complex or emergency situations. To this end, we propose to leverage the reasoning capabilities of Large Language Models (LLMs) to infer system requirements from in-cabin users' commands. Through a series of experiments that include different LLM models and prompt designs, we explore the few-shot multivariate binary classification accuracy of system requirements from natural language textual commands. We confirm the general ability of LLMs to understand and reason about prompts but underline that their effectiveness is conditioned on the quality of both the LLM model and the design of appropriate sequential prompts. Code and models are public with the link \url{https://github.com/KTH-RPL/DriveCmd_LLM}.
翻訳日:2023-12-21 18:48:31 公開日:2023-12-19
# 信頼と検証:ディープラーニングを用いたロバストなイメージセグメンテーション

Trust, but Verify: Robust Image Segmentation using Deep Learning ( http://arxiv.org/abs/2310.16999v3 )

ライセンス: Link先を確認
Fahim Ahmed Zaman, Xiaodong Wu, Weiyu Xu, Milan Sonka and Raghuraman Mudumbai(参考訳) 本稿では,複数の階層のランダムおよび最悪の摂動,すなわち逆攻撃に対して頑健な医用画像セグメンテーションのための深層ニューラルネットワークの出力を検証する手法について述べる。 この手法は,筆者らが最近開発した"trust, but verify"と呼ばれる一般的なアプローチに基づいており,補助検証ネットワークは,セグメント化を入力として,入力画像内のマスク特徴の予測を行う。 適切に設計された補助ネットワークは、入力セグメンテーションが正確であれば高品質の予測を生成するが、セグメンテーションが正しくない場合は低品質の予測を生成する。 このようなネットワークの予測を元のイメージで確認することで,不良セグメントの検出が可能になる。 しかし,検証手法が真に堅牢であるためには,ブラックボックスニューラルネットワークに依存しない予測の品質をチェックする方法が必要である。 実際、ディープ・ニューラル・レグレッション・ネットワークを用いた従来のセグメンテーション評価手法は、偽陰性に対して脆弱であり、不正確なセグメンテーションを良いものとして不正確なラベル付けできることが示されている。 このような脆弱性を回避し,その堅牢性を示す検証ネットワークの設計について述べる。

We describe a method for verifying the output of a deep neural network for medical image segmentation that is robust to several classes of random as well as worst-case perturbations i.e. adversarial attacks. This method is based on a general approach recently developed by the authors called "Trust, but Verify" wherein an auxiliary verification network produces predictions about certain masked features in the input image using the segmentation as an input. A well-designed auxiliary network will produce high-quality predictions when the input segmentations are accurate, but will produce low-quality predictions when the segmentations are incorrect. Checking the predictions of such a network with the original image allows us to detect bad segmentations. However, to ensure the verification method is truly robust, we need a method for checking the quality of the predictions that does not itself rely on a black-box neural network. Indeed, we show that previous methods for segmentation evaluation that do use deep neural regression networks are vulnerable to false negatives i.e. can inaccurately label bad segmentations as good. We describe the design of a verification network that avoids such vulnerability and present results to demonstrate its robustness compared to previous methods.
翻訳日:2023-12-21 18:48:03 公開日:2023-12-19
# 固定効果を有する静的パネルモデルのダブル機械学習

Double Machine Learning for Static Panel Models with Fixed Effects ( http://arxiv.org/abs/2312.08174v2 )

ライセンス: Link先を確認
Paul Clarke and Annalivia Polselli(参考訳) 機械学習(ML)アルゴリズムは、予測子の真の機能形式が未知であるため、実際に有用な高次元あるいは非線形ニュアンス関数を近似するための強力なデータ駆動ツールである。 本稿では,集合レグレッサの非線形効果を許容するパネルデータからの政策介入の推定器を開発し,これら推定器の性能について,ラスソ,分類・回帰木,ランダム林の3つのよく知られたmlアルゴリズムを用いて検討する。 我々はDouble Machine Learning (DML) (Chernozhukov et al., 2018) を用いて、不均一な個々の不均一性(固定効果)と、Robinson (1988) の部分的に線形回帰モデルを拡張することによる不均一な共振の因果効果を推定する。 非線形モデルに対するグループ内推定器,ファーストディファレンス推定器,相関付きランダム効果推定器(mundlak,1978)の拡張に基づく,観測不能な個人不均一性を扱うための3つの方法を開発した。 モンテカルロシミュレーションを用いて、データ生成プロセスが非線形であっても従来の最小二乗推定器は良好に動作可能であるが、回帰器の真の効果が非線形で不連続なプロセス下では、バイアス低減の観点からかなりの性能向上がある。 しかし、同じシナリオでは、広範なハイパーパラメータチューニングにもかかわらず、これらが極めて非正規な推定値分布をもたらし、推定値の分散が著しく過小評価されているため、双方の学習者にとって問題となる。 これは他の状況での樹木のパフォーマンスと矛盾し、さらなる調査が必要である。 最後に、英国における全国最低賃金導入の影響を示す観測パネルデータに対するDMLの例を示す。

Machine Learning (ML) algorithms are powerful data-driven tools for approximating highdimensional or non-linear nuisance functions which are useful in practice because the true functional form of the predictors is ex-ante unknown. In this paper, we develop estimators of policy interventions from panel data which allow for non-linear effects of the confounding regressors, and investigate the performance of these estimators using three well-known ML algorithms, specifically, LASSO, classification and regression trees, and random forests. We use Double Machine Learning (DML) (Chernozhukov et al., 2018) for the estimation of causal effects of homogeneous treatments with unobserved individual heterogeneity (fixed effects) and no unobserved confounding by extending Robinson (1988)'s partially linear regression model. We develop three alternative approaches for handling unobserved individual heterogeneity based on extending the within-group estimator, first-difference estimator, and correlated random effect estimator (Mundlak, 1978) for non-linear models. Using Monte Carlo simulations, we find that conventional least squares estimators can perform well even if the data generating process is nonlinear, but there are substantial performance gains in terms of bias reduction under a process where the true effect of the regressors is non-linear and discontinuous. However, for the same scenarios, we also find - despite extensive hyperparameter tuning - inference to be problematic for both tree-based learners because these lead to highly non-normal estimator distributions and the estimator variance being severely under-estimated. This contradicts the performance of trees in other circumstances and requires further investigation. Finally, we provide an illustrative example of DML for observational panel data showing the impact of the introduction of the national minimum wage in the UK.
翻訳日:2023-12-21 18:35:33 公開日:2023-12-19
# ProS:Universal Cross-Domain Retrievalのための汎用知識の実証とシミュレーション

ProS: Prompting-to-simulate Generalized knowledge for Universal Cross-Domain Retrieval ( http://arxiv.org/abs/2312.12478v1 )

ライセンス: Link先を確認
Kaipeng Fang, Jingkuan Song, Lianli Gao, Pengpeng Zeng, Zhi-Qi Cheng, Xiyao Li, Heng Tao Shen(参考訳) ユニバーサルクロスドメイン検索(ucdr)の目標は、トレーニング中にデータが厳密に未知のドメインやカテゴリに属する可能性がある一般的なテストシナリオにおいて、堅牢なパフォーマンスを達成することである。 近年,プロンプトチューニングによる事前学習モデルでは,一般化能力が強く,数ショット学習やビデオテキスト検索などの下流課題においても注目に値する成果が得られている。 しかし、UCDRに直接適用しても、ドメインシフト(不慣れなドメインへの適応)とセマンティックシフト(未知のカテゴリへの移動)の両方を扱うのに十分ではないかもしれない。 そこで本研究では,UCDRにプロンプトチューニングを適用する最初の方法であるPrompting-to-Simulate (ProS)を提案する。 ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。 具体的には、Prompt Units Learningの段階で、ドメインとセマンティック知識をマスク・アンド・アラインな方法で個別にキャプチャする2つのPrompt Unitを導入します。 次に,コンテントアウェアシミュレータ学習段階において,コンテントアウェアプロンプトシミュレータをシミュレートテストシナリオで訓練し,対応するcadpを生成する。 3つのベンチマークデータセットで行った広範囲な実験により,本手法は過剰なパラメータを伴わずに新たな最先端性能を達成できた。 このメソッドはhttps://anonymous.4open.science/r/prosで公開されている。

The goal of Universal Cross-Domain Retrieval (UCDR) is to achieve robust performance in generalized test scenarios, wherein data may belong to strictly unknown domains and categories during training. Recently, pre-trained models with prompt tuning have shown strong generalization capabilities and attained noteworthy achievements in various downstream tasks, such as few-shot learning and video-text retrieval. However, applying them directly to UCDR may not sufficiently to handle both domain shift (i.e., adapting to unfamiliar domains) and semantic shift (i.e., transferring to unknown categories). To this end, we propose Prompting-to-Simulate (ProS), the first method to apply prompt tuning for UCDR. ProS employs a two-step process to simulate Content-aware Dynamic Prompts (CaDP) which can impact models to produce generalized features for UCDR. Concretely, in Prompt Units Learning stage, we introduce two Prompt Units to individually capture domain and semantic knowledge in a mask-and-align way. Then, in Context-aware Simulator Learning stage, we train a Content-aware Prompt Simulator under a simulated test scenarios to produce the corresponding CaDP. Extensive experiments conducted on three benchmark datasets show that our method achieves new state-of-the-art performance without bringing excessive parameters. Our method is publicly available at https://anonymous.4open.science/r/ProS
翻訳日:2023-12-21 18:28:08 公開日:2023-12-19
# 信頼できるグラフニューラルネットワークに関する調査 : 因果的視点から

Survey on Trustworthy Graph Neural Networks: From A Causal Perspective ( http://arxiv.org/abs/2312.12477v1 )

ライセンス: Link先を確認
Wenzhao Jiang, Hao Liu and Hui Xiong(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ構造化データ内の複雑な依存関係をキャプチャする強力な表現学習ツールとして登場した。 幅広いグラフマイニングタスクの成功にもかかわらず、GNNは、分布シフトへの感受性、特定の人口への偏見、説明可能性の欠如など、彼らの信頼性に関する深刻な懸念を提起している。 最近のgnnへの因果学習技術の統合は、表面的な相関ではなく、基礎となるデータ因果関係を捉えることで、信頼性の問題の大半を軽減できるため、多くの画期的な研究のきっかけとなっている。 本調査では、因果性に着想を得たGNNに関する最近の研究成果を概観する。 具体的には、まず、因果関係のレンズを通して既存のGNNモデルの重要なリスクを提示する。 さらに,因果的推論と因果的表現学習という,それらが備える因果的学習能力のタイプに基づいて,因果性にインスパイアされたGNN(CIGNN)の分類を導入する。 さらに,各カテゴリの典型的な手法を体系的に議論し,信頼性リスクの軽減方法を示す。 最後に, 有用な資源を要約し, 今後の方向性を議論し, 新興分野における新たな研究の機会を浮き彫りにしたい。 代表論文はオープンソースデータとコードとともにhttps://github.com/usail-hkust/Causality-Inspired-GNNsで公開されている。

Graph Neural Networks (GNNs) have emerged as powerful representation learning tools for capturing complex dependencies within diverse graph-structured data. Despite their success in a wide range of graph mining tasks, GNNs have raised serious concerns regarding their trustworthiness, including susceptibility to distribution shift, biases towards certain populations, and lack of explainability. Recently, integrating causal learning techniques into GNNs has sparked numerous ground-breaking studies since most of the trustworthiness issues can be alleviated by capturing the underlying data causality rather than superficial correlations. In this survey, we provide a comprehensive review of recent research efforts on causality-inspired GNNs. Specifically, we first present the key trustworthy risks of existing GNN models through the lens of causality. Moreover, we introduce a taxonomy of Causality-Inspired GNNs (CIGNNs) based on the type of causal learning capability they are equipped with, i.e., causal reasoning and causal representation learning. Besides, we systematically discuss typical methods within each category and demonstrate how they mitigate trustworthiness risks. Finally, we summarize useful resources and discuss several future directions, hoping to shed light on new research opportunities in this emerging field. The representative papers, along with open-source data and codes, are available in https://github.com/usail-hkust/Causality-Inspired-GNNs.
翻訳日:2023-12-21 18:27:42 公開日:2023-12-19
# DSAF:数値気象予測ダウンスケーリングのための2段階適応フレームワーク

DSAF: A Dual-Stage Adaptive Framework for Numerical Weather Prediction Downscaling ( http://arxiv.org/abs/2312.12476v1 )

ライセンス: Link先を確認
Pengwei Liu, Wenwei Wang, Bingqing Peng, Binqing Wu and Liang Sun(参考訳) 気象予報手法として広く認知されているが、数値気象予報(NWP)は通常、時間空間の離散化、物理パラメトリゼーション、計算の制限により、比較的粗い解像度と避けられない偏差に悩まされている。 深層学習技術の普及に伴い,地域NWPダウンスケーリングとバイアス補正に対処する新たなフレームワークであるDual-Stage Adaptive Framework (DSAF)を提案する。 DSAFはその設計に適応的な要素を独自に組み込んで、進化する気象条件に対する柔軟な応答を保証する。 具体的には、NWPのダウンスケーリングと修正はフレームワーク内でうまく分離されており、独立して適用することができるため、モデルの最適化軌道を戦略的に導くことができる。 マルチタスク学習機構と不確実性重み付き損失関数を利用することで、DSAFは様々な気象要因のバランスの取れたトレーニングを促進する。 さらに,特に注意中心学習モジュールは,複雑な相互関係を巧みに管理し,地理的情報を効果的に統合する。 ECMWF 運用予測 (HRES) と再解析 (ERA5) に関する実験的な検証は,既存の最先端モデルよりもDSAF の方が優れた性能を示し,提案モジュールを用いて既存モデルが拡張された場合の大幅な改善を示す。 コードはhttps://github.com/pengwei07/DSAFで公開されている。

While widely recognized as one of the most substantial weather forecasting methodologies, Numerical Weather Prediction (NWP) usually suffers from relatively coarse resolution and inevitable bias due to tempo-spatial discretization, physical parametrization process, and computation limitation. With the roaring growth of deep learning-based techniques, we propose the Dual-Stage Adaptive Framework (DSAF), a novel framework to address regional NWP downscaling and bias correction tasks. DSAF uniquely incorporates adaptive elements in its design to ensure a flexible response to evolving weather conditions. Specifically, NWP downscaling and correction are well-decoupled in the framework and can be applied independently, which strategically guides the optimization trajectory of the model. Utilizing a multi-task learning mechanism and an uncertainty-weighted loss function, DSAF facilitates balanced training across various weather factors. Additionally, our specifically designed attention-centric learnable module effectively integrates geographic information, proficiently managing complex interrelationships. Experimental validation on the ECMWF operational forecast (HRES) and reanalysis (ERA5) archive demonstrates DSAF's superior performance over existing state-of-the-art models and shows substantial improvements when existing models are augmented using our proposed modules. Code is publicly available at https://github.com/pengwei07/DSAF.
翻訳日:2023-12-21 18:27:19 公開日:2023-12-19
# グラフニューラルネットワークのための重み付け学習

Learning to Reweight for Graph Neural Network ( http://arxiv.org/abs/2312.12475v1 )

ライセンス: Link先を確認
Zhengyu Chen, Teng Xiao, Kun Kuang, Zheqi Lv, Min Zhang, Jinluan Yang, Chengqiang Lu, Hongxia Yang and Fei Wu(参考訳) グラフニューラルネットワーク(gnns)は、グラフタスクに有望な結果を示す。 しかし、既存のGNNの一般化能力は、テストとトレーニンググラフデータの間に分散シフトが存在する場合に低下する。 深刻な変性の根底にある基因は、GNNがI.I.Dの仮定に基づいて設計されていることである。 このような環境では、GNNはトレーニングセットに存在する知覚不可能な統計的相関を利用して予測する傾向にある。 本稿では,OF-Distribution(OOD)設定におけるGNNの一般化能力の問題について検討する。 そこで本研究では,L2R-GNN(Learning to Reweight for Generalizable Graph Neural Network)を提案する。 そこで本研究では, 分散一般化能力を大幅に向上させ, 従来の手法と比較し, 過度に縮小したサンプルサイズを抑制する新しい非線形グラフ相関法を提案する。 グラフ表現の変数は相関の安定性に基づいてクラスタ化され、グラフデコレーション法は重みを学習し、2つの変数ではなく異なるクラスタの変数間の相関を除去する。 また,l2r-gnnフレームワークの2レベル最適化により,最適重み付けとgnnパラメータの同時学習が容易となり,オーバーフィッティング問題を回避するための効率の高い確率的アルゴリズムを提案する。 実験の結果,L2R-GNNは分布シフトの下で,様々なグラフ予測ベンチマークのベースラインを大幅に上回ることがわかった。

Graph Neural Networks (GNNs) show promising results for graph tasks. However, existing GNNs' generalization ability will degrade when there exist distribution shifts between testing and training graph data. The cardinal impetus underlying the severe degeneration is that the GNNs are architected predicated upon the I.I.D assumptions. In such a setting, GNNs are inclined to leverage imperceptible statistical correlations subsisting in the training set to predict, albeit it is a spurious correlation. In this paper, we study the problem of the generalization ability of GNNs in Out-Of-Distribution (OOD) settings. To solve this problem, we propose the Learning to Reweight for Generalizable Graph Neural Network (L2R-GNN) to enhance the generalization ability for achieving satisfactory performance on unseen testing graphs that have different distributions with training graphs. We propose a novel nonlinear graph decorrelation method, which can substantially improve the out-of-distribution generalization ability and compares favorably to previous methods in restraining the over-reduced sample size. The variables of the graph representation are clustered based on the stability of the correlation, and the graph decorrelation method learns weights to remove correlations between the variables of different clusters rather than any two variables. Besides, we interpose an efficacious stochastic algorithm upon bi-level optimization for the L2R-GNN framework, which facilitates simultaneously learning the optimal weights and GNN parameters, and avoids the overfitting problem. Experimental results show that L2R-GNN greatly outperforms baselines on various graph prediction benchmarks under distribution shifts.
翻訳日:2023-12-21 18:26:53 公開日:2023-12-19
# 入力凸ニューラルネットワークの原理的重み初期化

Principled Weight Initialisation for Input-Convex Neural Networks ( http://arxiv.org/abs/2312.12474v1 )

ライセンス: Link先を確認
Pieter-Jan Hoedt and G\"unter Klambauer(参考訳) input-convex neural network(icnn)は、入出力マッピングにおける凸性を保証するネットワークである。 これらのネットワークはエネルギーベースのモデリング、最適輸送問題、学習不変性にうまく適用されている。 ICNNの凸性は、非減少凸活性化関数と非負重みを用いて達成される。 これらの特異性のため、暗黙的に重みを仮定する以前の初期化戦略はICNNには有効ではない。 非負の重みを持つ層を通る信号伝搬を研究することにより、ICNNの原理的な重み初期化を導出することができる。 具体的には,重みが中心分布からサンプリングされるという仮定を取り除いて,信号伝搬理論を一般化する。 実験では,ICNNの学習を効果的に促進し,より優れた一般化につながることを実証した。 さらに、ICNNは、一般的な信念とは対照的に、初期化時にスキップ接続なしで訓練できることがわかった。 最後に、ICNNを現実世界の薬物発見タスクに適用し、より効果的な分子潜在宇宙探査を可能にすることを示す。

Input-Convex Neural Networks (ICNNs) are networks that guarantee convexity in their input-output mapping. These networks have been successfully applied for energy-based modelling, optimal transport problems and learning invariances. The convexity of ICNNs is achieved by using non-decreasing convex activation functions and non-negative weights. Because of these peculiarities, previous initialisation strategies, which implicitly assume centred weights, are not effective for ICNNs. By studying signal propagation through layers with non-negative weights, we are able to derive a principled weight initialisation for ICNNs. Concretely, we generalise signal propagation theory by removing the assumption that weights are sampled from a centred distribution. In a set of experiments, we demonstrate that our principled initialisation effectively accelerates learning in ICNNs and leads to better generalisation. Moreover, we find that, in contrast to common belief, ICNNs can be trained without skip-connections when initialised correctly. Finally, we apply ICNNs to a real-world drug discovery task and show that they allow for more effective molecular latent space exploration.
翻訳日:2023-12-21 18:26:25 公開日:2023-12-19
# グループ会話における社会ロボットの行動に関する研究

A Study on Social Robot Behavior in Group Conversation ( http://arxiv.org/abs/2312.12473v1 )

ライセンス: Link先を確認
Tung Nguyen and Eric Nichols and Randy Gomez(参考訳) 近年,人間とロボットの相互作用に関する研究が,グループレベルでロボットの影響を考察し始めた。 グループ内のロボットの影響を調査する研究が最近増えているにもかかわらず、ロボットがグループや人々のチームに配置されたときに起こることの全体的な理解はまだ限られている。 本稿では,グループで会話を管理するsociロボットにおいて,参加者が2人以上いる場合の課題について検討する。 グループ設定では、会話のダイナミクスは従来の1対1の会話よりもはるかに複雑であるため、解決すべき課題はもっと多い。

Recently, research in human-robot interaction began to consider a robot's influence at the group level. Despite the recent growth in research investigating the effects of robots within groups of people, our overall understanding of what happens when robots are placed within groups or teams of people is still limited. This paper investigates several key problems for soci robots that manage conversations in a group setting, where the number of participants is more than two. In a group setting, the conversation dynamics are a lot more complicated than the conventional one-to-one conversation, thus, there are more challenges need to be solved.
翻訳日:2023-12-21 18:26:08 公開日:2023-12-19
# 各種スマートフォンにおける量子化大言語モデルの性能評価

A Performance Evaluation of a Quantized Large Language Model on Various Smartphones ( http://arxiv.org/abs/2312.12472v1 )

ライセンス: Link先を確認
Tolga \c{C}\"opl\"u, Marc Loedi, Arto Bendiken, Mykhailo Makohin, Joshua J. Bouw, Stephen Cobb (Haltia, Inc.)(参考訳) 本稿では,apple iphone モデルにおける on-device large language model (llm) 推論の実現可能性と性能について検討する。 生成AIの急速な進化の中で、オンデバイスLLMは、クラウドベースのモデルに固有のプライバシ、セキュリティ、接続性の課題に対するソリューションを提供する。 資源制限されたデバイス上でのマルチビリオンパラメータLPMの実行に関する既存の文献を活用し、スマートフォン世代間での高性能LCMの熱的効果と相互作用速度について検討した。 実世界のパフォーマンス結果を提示し、デバイス上での推論機能に関する洞察を提供する。

This paper explores the feasibility and performance of on-device large language model (LLM) inference on various Apple iPhone models. Amidst the rapid evolution of generative AI, on-device LLMs offer solutions to privacy, security, and connectivity challenges inherent in cloud-based models. Leveraging existing literature on running multi-billion parameter LLMs on resource-limited devices, our study examines the thermal effects and interaction speeds of a high-performing LLM across different smartphone generations. We present real-world performance results, providing insights into on-device inference capabilities.
翻訳日:2023-12-21 18:25:58 公開日:2023-12-19
# Atlantis: 安定拡散による水中深度推定の実現

Atlantis: Enabling Underwater Depth Estimation with Stable Diffusion ( http://arxiv.org/abs/2312.12471v1 )

ライセンス: Link先を確認
Fan Zhang, Shaodi You, Yu Li, Ying Fu(参考訳) 近年、単眼深度推定は、深層学習の進歩により、地上画像において著しい進歩を遂げている。 しかし、主にデータ不足のため、水中のシーンでは不十分である。 光の減衰と後方散乱の固有の課題を考えると、明確な水中画像や正確な深度情報を取得することは特に困難で費用がかかる。 したがって、学習ベースのアプローチは、データ不足を軽減するために合成データに依存するか、教師なしまたは自己教師なしの方法に頼ることが多い。 それでも、これらのメソッドのパフォーマンスは、しばしばドメインのギャップとゆるい制約によって制限される。 本稿では,正確な地球深度データを用いて,光リアルな水中画像を生成するパイプラインを提案する。 このアプローチは、水中深度推定のための教師付きモデルの訓練を促進させ、地上環境と水中環境のパフォーマンス格差を効果的に低減する。 従来の合成データセットではシーン内容を変更することなく地上画像にスタイル転送を施すだけでよいが,本手法では,地上深度データを利用して革新的な安定拡散モデルを用いて,水中の活力のある非存在シーンを独特に生成する。 具体的には、この生成タスクのために特別に準備された \{Underwater, Depth, Text\} データ三脚で訓練された独自のDepth2Underwater ControlNetを導入する。 筆者らが新たに開発したデータセットは, 地上深部推定モデルにおいて, 水中画像の定量的, 定性的に, 地上事前訓練済み画像を上回って, 相当な精度向上を実現する。 さらに、水中シーンの深度精度の向上は、深度マップに依存する水中画像復元技術にも役立ち、データセットの有用性をさらに実証する。 データセットはhttps://github.com/zkawfanx/atlantisで入手できる。

Monocular depth estimation has experienced significant progress on terrestrial images in recent years, largely due to deep learning advancements. However, it remains inadequate for underwater scenes, primarily because of data scarcity. Given the inherent challenges of light attenuation and backscattering in water, acquiring clear underwater images or precise depth information is notably difficult and costly. Consequently, learning-based approaches often rely on synthetic data or turn to unsupervised or self-supervised methods to mitigate this lack of data. Nonetheless, the performance of these methods is often constrained by the domain gap and looser constraints. In this paper, we propose a novel pipeline for generating photorealistic underwater images using accurate terrestrial depth data. This approach facilitates the training of supervised models for underwater depth estimation, effectively reducing the performance disparity between terrestrial and underwater environments. Contrary to prior synthetic datasets that merely apply style transfer to terrestrial images without altering the scene content, our approach uniquely creates vibrant, non-existent underwater scenes by leveraging terrestrial depth data through the innovative Stable Diffusion model. Specifically, we introduce a unique Depth2Underwater ControlNet, trained on specially prepared \{Underwater, Depth, Text\} data triplets, for this generation task. Our newly developed dataset enables terrestrial depth estimation models to achieve considerable improvements, both quantitatively and qualitatively, on unseen underwater images, surpassing their terrestrial pre-trained counterparts. Moreover, the enhanced depth accuracy for underwater scenes also aids underwater image restoration techniques that rely on depth maps, further demonstrating our dataset's utility. The dataset will be available at https://github.com/zkawfanx/Atlantis.
翻訳日:2023-12-21 18:25:50 公開日:2023-12-19
# リモートセンシング画像セグメント参照のための回転マルチスケールインタラクションネットワーク

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation ( http://arxiv.org/abs/2312.12470v1 )

ライセンス: Link先を確認
Sihan Liu, Yiwei Ma, Xiaoqing Zhang, Haowei Wang, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji(参考訳) Referring Remote Sensing Image Segmentation (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題であり、テキストクエリによって記述された、空中画像の特定の領域を記述している。 従来の参照画像セグメンテーション(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられ、最適部分セグメンテーションの結果をもたらす。 これらの課題に対処するために、RRSISのユニークな要求に対応する革新的なアプローチであるRotated Multi-Scale Interaction Network (RMSIN)を導入する。 RMSINは、複数のスケールで必要とされる細かな詳細に効果的に対処するために、IIM(Intra-scale Interaction Module)と、これらの詳細をネットワーク全体に整合的に統合するためのCIM(Cross-scale Interaction Module)を組み込んでいる。 さらに、RMSINは適応回転畳み込み(ARC)を用いて、オブジェクトの様々な向きを考慮し、セグメント化の精度を大幅に向上させる新しいコントリビューションである。 RMSINの有効性を評価するため、17,402個の画像キャプションマスクトレーレットからなる拡張データセットをキュレートした。 このデータセットは、幅広い空間シナリオと回転シナリオを持つモデルを示すだけでなく、RRSISタスクの厳密なベンチマークを確立し、厳密な性能評価を保証する。 実験結果から,rmsinの性能は従来の最先端モデルをかなり上回っており,その性能は極めて高いことが示された。 すべてのデータセットとコードはhttps://github.com/Lsan2401/RMSINで公開されている。

Referring Remote Sensing Image Segmentation (RRSIS) is a new challenge that combines computer vision and natural language processing, delineating specific regions in aerial images as described by textual queries. Traditional Referring Image Segmentation (RIS) approaches have been impeded by the complex spatial scales and orientations found in aerial imagery, leading to suboptimal segmentation results. To address these challenges, we introduce the Rotated Multi-Scale Interaction Network (RMSIN), an innovative approach designed for the unique demands of RRSIS. RMSIN incorporates an Intra-scale Interaction Module (IIM) to effectively address the fine-grained detail required at multiple scales and a Cross-scale Interaction Module (CIM) for integrating these details coherently across the network. Furthermore, RMSIN employs an Adaptive Rotated Convolution (ARC) to account for the diverse orientations of objects, a novel contribution that significantly enhances segmentation accuracy. To assess the efficacy of RMSIN, we have curated an expansive dataset comprising 17,402 image-caption-mask triplets, which is unparalleled in terms of scale and variety. This dataset not only presents the model with a wide range of spatial and rotational scenarios but also establishes a stringent benchmark for the RRSIS task, ensuring a rigorous evaluation of performance. Our experimental evaluations demonstrate the exceptional performance of RMSIN, surpassing existing state-of-the-art models by a significant margin. All datasets and code are made available at https://github.com/Lsan2401/RMSIN.
翻訳日:2023-12-21 18:25:19 公開日:2023-12-19
# 高速推論速度を有する車両走行問題に対する高性能非自己回帰解法のための蒸留自己回帰モデル

Distilling Autoregressive Models to Obtain High-Performance Non-Autoregressive Solvers for Vehicle Routing Problems with Faster Inference Speed ( http://arxiv.org/abs/2312.12469v1 )

ライセンス: Link先を確認
Yubin Xiao, Di Wang, Boyang Li, Mingzhao Wang, Xuan Wu, Changliang Zhou, You Zhou(参考訳) ニューラルネットワークモデルは、自動回帰(AR)または非自己回帰(NAR)学習アプローチを採用することで、車両ルーティング問題(VRP)に有望な性能を示す。 arモデルは高品質なソリューションを生み出すが、一般的にはシーケンシャルな生成によって高い推論レイテンシを持つ。 逆に、NARモデルは低い推論遅延で並列に解を生成するが、一般に性能は劣っている。 本稿では,低推論遅延を有する高性能NARモデルを得るための汎用的非自己回帰的知識蒸留法(GNARKD)を提案する。 GNARKDは、学習した中心成分をネットワークアーキテクチャに保存し、知識蒸留により対応するNARモデルを入手しながら、ARモデルの逐次生成の制約を取り除く。 我々は、GNARKDを広く採用されている3つのARモデルに適用して、合成および実世界の両方のインスタンスに対して、NAR VRPソルバを得る。 実験の結果、gnarkdは許容される性能低下(2-3\%)で推論時間を大幅に削減する(4~5倍高速)。 我々の知る限りでは、この研究は知識蒸留を通じてARからNAR VRPソルバを得るための第一種である。

Neural construction models have shown promising performance for Vehicle Routing Problems (VRPs) by adopting either the Autoregressive (AR) or Non-Autoregressive (NAR) learning approach. While AR models produce high-quality solutions, they generally have a high inference latency due to their sequential generation nature. Conversely, NAR models generate solutions in parallel with a low inference latency but generally exhibit inferior performance. In this paper, we propose a generic Guided Non-Autoregressive Knowledge Distillation (GNARKD) method to obtain high-performance NAR models having a low inference latency. GNARKD removes the constraint of sequential generation in AR models while preserving the learned pivotal components in the network architecture to obtain the corresponding NAR models through knowledge distillation. We evaluate GNARKD by applying it to three widely adopted AR models to obtain NAR VRP solvers for both synthesized and real-world instances. The experimental results demonstrate that GNARKD significantly reduces the inference time (4-5 times faster) with acceptable performance drop (2-3\%). To the best of our knowledge, this study is first-of-its-kind to obtain NAR VRP solvers from AR ones through knowledge distillation.
翻訳日:2023-12-21 18:24:47 公開日:2023-12-19
# maskint: 非自己回帰マスクトランスフォーマーによるビデオ編集

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers ( http://arxiv.org/abs/2312.12468v1 )

ライセンス: Link先を確認
Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie(参考訳) 生成AIの最近の進歩は、特にテキストプロンプト制御の文脈において、画像とビデオの編集を大幅に強化している。 最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。 しかし、拡散ベースの方法の計算の要求は相当であり、トレーニングのために大規模なペアデータセットを必要とすることが多い。 本研究では、テキストベースのビデオ編集プロセスを2段階に分割することで、この問題に対処する。 最初の段階では、既存のテキストと画像の拡散モデルを利用して、いくつかのキーフレームを微調整なしで同時に編集する。 第2段階では,非自己回帰型マスク生成トランスを基盤とし,キーフレーム間のフレーム補間を専門とする,中間フレームによる構造指導の恩恵を受ける, maskint と呼ばれる効率的なモデルを導入する。 本研究は,他の拡散型手法と比較してマスクの有効性と効率を示す。 本研究は,テキストベースの映像編集の実践的ソリューションを提供し,この領域における非自己回帰マスク生成トランスの可能性を示す。

Recent advances in generative AI have significantly enhanced image and video editing, particularly in the context of text prompt control. State-of-the-art approaches predominantly rely on diffusion models to accomplish these tasks. However, the computational demands of diffusion-based methods are substantial, often necessitating large-scale paired datasets for training, and therefore challenging the deployment in practical applications. This study addresses this challenge by breaking down the text-based video editing process into two separate stages. In the first stage, we leverage an existing text-to-image diffusion model to simultaneously edit a few keyframes without additional fine-tuning. In the second stage, we introduce an efficient model called MaskINT, which is built on non-autoregressive masked generative transformers and specializes in frame interpolation between the keyframes, benefiting from structural guidance provided by intermediate frames. Our comprehensive set of experiments illustrates the efficacy and efficiency of MaskINT when compared to other diffusion-based methodologies. This research offers a practical solution for text-based video editing and showcases the potential of non-autoregressive masked generative transformers in this domain.
翻訳日:2023-12-21 18:24:25 公開日:2023-12-19
# 階層型コンタクトメッシュトランスによるフレキシブルボディ衝突ダイナミクスの学習

Learning Flexible Body Collision Dynamics with Hierarchical Contact Mesh Transformer ( http://arxiv.org/abs/2312.12467v1 )

ライセンス: Link先を確認
Youn-Yeol Yu, Jeongwhan Choi, Woojin Cho, Kookjin Lee, Nayong Kim, Kiseok Chang, ChangSeung Woo, Ilho Kim, SeokWoo Lee, Joon Young Yang, Sooyoung Yoon, Noseong Park(参考訳) 近年、複雑な高次元物理系をモデル化するためのメッシュベースグラフニューラルネットワーク(GNN)モデルが多数提案されている。 従来の数値解法と比較して解法時間を大幅に短縮する顕著な成果が得られた。 これらの手法は一般的に 一 物理力学及び/又は解法における計算コストの低減 二 流体及び剛体力学における解の精度を向上させる手法を提案する。 しかし、非常に短い時間枠内で瞬時に衝突が起こるフレキシブルボディダイナミクスの課題に取り組むのに効果があるかどうかはまだ解明されていない。 本稿では,階層的メッシュ構造を用い,物体の空間的に離れた位置における長距離依存性(衝突によって生じる)を学習できる階層的メッシュトランスフォーマ(hcmt)を提案する。 HCMTは長距離相互作用を可能にし、階層メッシュ構造はすぐに遠くの位置への衝突効果を伝播させる。 この目的のために、コンタクトメッシュ変換器と階層メッシュ変換器(それぞれCMTとHMT)で構成される。 最後に,製品デザインの表示業界で頻繁に使用される実験的な設定を反映したトラジェクトリからなるフレキシブルボディダイナミックスデータセットを提案する。 また、よく知られたベンチマークデータセットを用いて、いくつかのベースラインのパフォーマンスを比較する。 その結果, hcmtは既存の手法よりも大幅に性能が向上した。

Recently, many mesh-based graph neural network (GNN) models have been proposed for modeling complex high-dimensional physical systems. Remarkable achievements have been made in significantly reducing the solving time compared to traditional numerical solvers. These methods are typically designed to i) reduce the computational cost in solving physical dynamics and/or ii) propose techniques to enhance the solution accuracy in fluid and rigid body dynamics. However, it remains under-explored whether they are effective in addressing the challenges of flexible body dynamics, where instantaneous collisions occur within a very short timeframe. In this paper, we present Hierarchical Contact Mesh Transformer (HCMT), which uses hierarchical mesh structures and can learn long-range dependencies (occurred by collisions) among spatially distant positions of a body -- two close positions in a higher-level mesh corresponds to two distant positions in a lower-level mesh. HCMT enables long-range interactions, and the hierarchical mesh structure quickly propagates collision effects to faraway positions. To this end, it consists of a contact mesh Transformer and a hierarchical mesh Transformer (CMT and HMT, respectively). Lastly, we propose a flexible body dynamics dataset, consisting of trajectories that reflect experimental settings frequently used in the display industry for product designs. We also compare the performance of several baselines using well-known benchmark datasets. Our results show that HCMT provides significant performance improvements over existing methods.
翻訳日:2023-12-21 18:24:07 公開日:2023-12-19
# スマートホームデバイスに対するフィードバック提供に関するユーザアプローチ

Users Approach on Providing Feedback for Smart Home Devices ( http://arxiv.org/abs/2312.12466v1 )

ライセンス: Link先を確認
Santhosh Pogaku(参考訳) スマートホーム技術は、個人の生活をより簡単にし、よりリラックスさせることに非常に関心を寄せています。 技術は、多くの精巧で洗練されたフレームワークを提供し、賢く生きたイノベーションをもたらした。 本稿では,スマートホームデバイスに対するフィードバック提供に対するユーザのアプローチの行動意図について検討する。 私たちは、スマートホームデバイスとその期待に対するフィードバックを与えるユーザのモットーを研究するために、単純なランダムサンプリングで選択した3~5人の学生のオンライン調査を行います。 ユーザのニーズを満たすためにプロダクトのサービスと品質を即興で改善し、生活をより楽にするために、スマートホームデバイスへのフィードバックを積極的に共有する準備が整っていることを私たちは見てきた。

Smart Home technology has accomplished extraordinary interest in making individuals' lives more straightforward and more relaxing as of late. Technology as of late brought about delivering numerous savvy and refined frameworks which advanced clever living innovation. In this paper, we will be investigating the behavioural intention of user's approach on providing feedback for smart home devices. We will be conducting an online survey for sample of three to five students selected by simple random sampling to study the user's motto for giving feedback on smart home devices and their expectations. We have observed that most users are ready to share their feedback on smart home devices actively to improvise the service and quality of the product to fulfill the user needs and make their lives easier.
翻訳日:2023-12-21 18:23:45 公開日:2023-12-19
# Rectangle Search: 任意のビーム検索(拡張版)

Rectangle Search: An Anytime Beam Search (Extended Version) ( http://arxiv.org/abs/2312.12554v1 )

ライセンス: Link先を確認
Sofia Lemons, Wheeler Ruml, Robert C. Holte, Carlos Linares L\'opez(参考訳) 任意のヒューリスティック検索アルゴリズムは、(潜在的に最適でない)解をできるだけ早く見つけ、そして最適な解が得られるか、時間が切れるまで、より良い解を見つけようとする。 最も広く知られている検索アルゴリズムはベストファースト検索に基づいている。 本稿では,ブロードファースト検索の変種であるビーム探索に基づく,新しいアルゴリズムである矩形探索を提案する。 あらゆる深さで代替品を探索し、より深い局所的なミニマを特徴とする問題に最も適している。 様々な人気のある検索ベンチマークを用いた実験では、矩形検索は固定幅のビームサーチと競合し、以前の最高の検索アルゴリズムよりもよく動作することが示唆されている。

Anytime heuristic search algorithms try to find a (potentially suboptimal) solution as quickly as possible and then work to find better and better solutions until an optimal solution is obtained or time is exhausted. The most widely-known anytime search algorithms are based on best-first search. In this paper, we propose a new algorithm, rectangle search, that is instead based on beam search, a variant of breadth-first search. It repeatedly explores alternatives at all depth levels and is thus best-suited to problems featuring deep local minima. Experiments using a variety of popular search benchmarks suggest that rectangle search is competitive with fixed-width beam search and often performs better than the previous best anytime search algorithms.
翻訳日:2023-12-21 18:16:39 公開日:2023-12-19
# StreamDiffusion: リアルタイムインタラクティブ生成のためのパイプラインレベルのソリューション

StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation ( http://arxiv.org/abs/2312.12491v1 )

ライセンス: Link先を確認
Akio Kodaira, Chenfeng Xu, Toshiki Hazama, Takanori Yoshimoto, Kohei Ohno, Shogo Mitsuhori, Soichi Sugano, Hanying Cho, Zhijian Liu, Kurt Keutzer(参考訳) 本稿では,インタラクティブ画像生成のためのリアルタイム拡散パイプラインstreamdiffusionを提案する。 既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。 この制限は、Metaverse、ライブビデオストリーミング、高スループットが必須となるブロードキャストといった連続的な入力を含むシナリオで特に顕著になる。 そこで本研究では,従来のシーケンシャル・デノナイジングをバッチ・デノナイジング・プロセスに変換する新しい手法を提案する。 stream batchは従来のwait-and-interactアプローチを廃止し、流体と高スループットストリームを可能にする。 データ入力とモデルスループットの周波数差を処理するために,ストリーミング処理を並列化する新しい入出力キューを設計する。 さらに、既存の拡散パイプラインは、追加のU-Net計算を必要とする分類器フリーガイダンス(CFG)を使用している。 冗長な計算を緩和するために, 負の条件付き分数化ステップを1つまたは0つに減らす新しい残差分類器フリー誘導(rcfg)アルゴリズムを提案する。 また,電力消費を最適化する確率的類似性フィルタ(ssf)を提案する。 私たちのStream Batchは、異なるdenoisingレベルでシーケンシャルなdenoising法と比較して1.5倍のスピードアップを実現しています。 提案したRCFGは従来のCFGよりも2.05倍高速である。 提案した戦略と既存の成熟した加速ツールを組み合わせることで、画像・画像生成は1つのRTX4090で最大91.07fpsを実現し、Diffusersによって開発されたAutoPiplineのスループットを59.56倍に向上させた。 さらに,提案したStreamDiffusionは,RTX3060では2.39倍,RTX4090では1.99倍のエネルギー消費を著しく削減する。

We introduce StreamDiffusion, a real-time diffusion pipeline designed for interactive image generation. Existing diffusion models are adept at creating images from text or image prompts, yet they often fall short in real-time interaction. This limitation becomes particularly evident in scenarios involving continuous input, such as Metaverse, live video streaming, and broadcasting, where high throughput is imperative. To address this, we present a novel approach that transforms the original sequential denoising into the batching denoising process. Stream Batch eliminates the conventional wait-and-interact approach and enables fluid and high throughput streams. To handle the frequency disparity between data input and model throughput, we design a novel input-output queue for parallelizing the streaming process. Moreover, the existing diffusion pipeline uses classifier-free guidance(CFG), which requires additional U-Net computation. To mitigate the redundant computations, we propose a novel residual classifier-free guidance (RCFG) algorithm that reduces the number of negative conditional denoising steps to only one or even zero. Besides, we introduce a stochastic similarity filter(SSF) to optimize power consumption. Our Stream Batch achieves around 1.5x speedup compared to the sequential denoising method at different denoising levels. The proposed RCFG leads to speeds up to 2.05x higher than the conventional CFG. Combining the proposed strategies and existing mature acceleration tools makes the image-to-image generation achieve up-to 91.07fps on one RTX4090, improving the throughputs of AutoPipline developed by Diffusers over 59.56x. Furthermore, our proposed StreamDiffusion also significantly reduces the energy consumption by 2.39x on one RTX3060 and 1.99x on one RTX4090, respectively.
翻訳日:2023-12-21 18:16:08 公開日:2023-12-19
# InstructVideo:人間のフィードバックでビデオ拡散モデルを教える

InstructVideo: Instructing Video Diffusion Models with Human Feedback ( http://arxiv.org/abs/2312.12490v1 )

ライセンス: Link先を確認
Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni(参考訳) 拡散モデルはビデオ生成のデファクトパラダイムとして登場した。 しかし、様々な品質のwebスケールデータに依存することは、しばしば視覚的に見当たらず、テキストのプロンプトとミスマッチする結果をもたらす。 そこで本研究では,テキスト間拡散モデルを人間のフィードバックで指示するinstructvideoを提案する。 InstructVideoには2つの重要な要素がある。 1) DDIMサンプリングチェーン全体を通して発生する報酬微調整のコストを改善するため, 報酬微調整を編集として再放送する。 InstructVideoは、拡散過程を利用してサンプル映像を破損させるため、DDIMサンプリングチェーンの部分的な推論しか必要とせず、微調整コストを低減し、微調整効率を向上する。 2)ヒトの嗜好に専用の映像報酬モデルがないことを緩和するため,HPSv2などの既存の画像報酬モデルを再利用した。 そこで本研究では,セグメントスライスサンプリングに基づく報奨信号を提供するメカニズムであるsegmental video rewardと,微調整時の時間的モデリング劣化を緩和する時間的減衰報奨を提案する。 InstructVideoにおける画像報酬モデルの有効性と有効性は質的かつ定量的に検証され、一般化能力を損なうことなく生成ビデオの視覚的品質を著しく向上させる。 コードとモデルは公開される予定だ。

Diffusion models have emerged as the de facto paradigm for video generation. However, their reliance on web-scale data of varied quality often yields results that are visually unappealing and misaligned with the textual prompts. To tackle this problem, we propose InstructVideo to instruct text-to-video diffusion models with human feedback by reward fine-tuning. InstructVideo has two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by generating through the full DDIM sampling chain, we recast reward fine-tuning as editing. By leveraging the diffusion process to corrupt a sampled video, InstructVideo requires only partial inference of the DDIM sampling chain, reducing fine-tuning cost while improving fine-tuning efficiency. 2) To mitigate the absence of a dedicated video reward model for human preferences, we repurpose established image reward models, e.g., HPSv2. To this end, we propose Segmental Video Reward, a mechanism to provide reward signals based on segmental sparse sampling, and Temporally Attenuated Reward, a method that mitigates temporal modeling degradation during fine-tuning. Extensive experiments, both qualitative and quantitative, validate the practicality and efficacy of using image reward models in InstructVideo, significantly enhancing the visual quality of generated videos without compromising generalization capabilities. Code and models will be made publicly available.
翻訳日:2023-12-21 18:15:38 公開日:2023-12-19
# Hアンサンブル:信頼度の高いFew-Shotマルチソースフリートランスファーへの情報理論的アプローチ

H-ensemble: An Information Theoretic Approach to Reliable Few-Shot Multi-Source-Free Transfer ( http://arxiv.org/abs/2312.12489v1 )

ライセンス: Link先を確認
Yanru Wu, Jianning Wang, Weida Wang, Yang Li(参考訳) マルチソース転送学習は、対象タスクの学習に複数のソースタスクを使用することで、データの不足に対する効果的な解決策となる。 しかし、ソースデータとモデルの詳細へのアクセスは商用モデルの時代に制限されており、そのようなアクセスなしでソースドメインの知識を活用することを目的としたマルチソースフリー(msf)トランスファーラーニングが設定されている。 新たに定義された問題パラダイムとして、MSF転送学習は未熟であり、明確に定式化されていない。 本研究では,H-アンサンブル(H-enmble)というフレームワークを提案し,最大相関回帰の一般化を用いて,対象タスクに対するソースモデルの最適線形結合(あるいはアンサンブル)を動的に学習する。 アンサンブル重みは、転送可能性のための情報理論メトリックを最大化することによって最適化される。 以前の作品と比較して、Hアンサンブルの特徴は以下のとおりである。 1) ターゲットタスクの新規かつ現実的なmsf設定への適応性。 2)理論上の信頼性。 3) 解釈や適応が容易な軽量な構造。 本手法はアブレーション研究によって実証的に検証され,他のタスクアンサンブルや伝達学習法との比較も行った。 我々は,Hアンサンブルが最適なタスクアンサンブルを学習し,先行技術より優れていることを示す。

Multi-source transfer learning is an effective solution to data scarcity by utilizing multiple source tasks for the learning of the target task. However, access to source data and model details is limited in the era of commercial models, giving rise to the setting of multi-source-free (MSF) transfer learning that aims to leverage source domain knowledge without such access. As a newly defined problem paradigm, MSF transfer learning remains largely underexplored and not clearly formulated. In this work, we adopt an information theoretic perspective on it and propose a framework named H-ensemble, which dynamically learns the optimal linear combination, or ensemble, of source models for the target task, using a generalization of maximal correlation regression. The ensemble weights are optimized by maximizing an information theoretic metric for transferability. Compared to previous works, H-ensemble is characterized by: 1) its adaptability to a novel and realistic MSF setting for few-shot target tasks, 2) theoretical reliability, 3) a lightweight structure easy to interpret and adapt. Our method is empirically validated by ablation studies, along with extensive comparative analysis with other task ensemble and transfer learning methods. We show that the H-ensemble can successfully learn the optimal task ensemble, as well as outperform prior arts.
翻訳日:2023-12-21 18:15:14 公開日:2023-12-19
# 勾配インバージョンにおける再構成品質の予測:最適化の視点から

Foreseeing Reconstruction Quality of Gradient Inversion: An Optimization Perspective ( http://arxiv.org/abs/2312.12488v1 )

ライセンス: Link先を確認
HyeongGwon Hong, Yooshin Cho, Hanbyel Cho, Jaesung Ahn, Junmo Kim(参考訳) クライアントがフェデレート学習(FL)でサーバと重み付け更新を共有すると、グラディエント・インバージョン・アタックがデータのプライバシーを漏洩する可能性がある。 既存の研究では、主にL2またはコサイン距離を攻撃の勾配マッチングの損失関数として用いている。 我々の経験的調査は、脆弱性ランキングが使用する損失関数によって異なることを示している。 勾配逆攻撃の脆弱性プロキシとして一般的に使用されるグラディエントノルムは、勾配マッチングの損失関数によらず一定であるため、これを説明できない。 本稿では,損失認識型脆弱性プロキシ(LAVP)を初めて提案する。 lavp は基底真理における勾配マッチング損失に関してヘッセンの最大値または最小固有値のどちらかを指す。 この提案は, 地上真実に近い勾配反転の局所的最適化に関する理論的知見に基づいており, 最悪の場合の攻撃シナリオに対応する。 LAVPが様々なアーキテクチャやデータセット上で有効であることを示し、サンプルの脆弱性を捕捉する際の勾配基準よりも一貫した優位性を示す。 各プロキシのパフォーマンスは、いくつかの類似度スコアに対するSpearmanのランク相関によって測定される。 この研究は、将来L2やコサイン距離を超える潜在的な損失関数に対するFLセキュリティの強化に寄与する。

Gradient inversion attacks can leak data privacy when clients share weight updates with the server in federated learning (FL). Existing studies mainly use L2 or cosine distance as the loss function for gradient matching in the attack. Our empirical investigation shows that the vulnerability ranking varies with the loss function used. Gradient norm, which is commonly used as a vulnerability proxy for gradient inversion attack, cannot explain this as it remains constant regardless of the loss function for gradient matching. In this paper, we propose a loss-aware vulnerability proxy (LAVP) for the first time. LAVP refers to either the maximum or minimum eigenvalue of the Hessian with respect to gradient matching loss at ground truth. This suggestion is based on our theoretical findings regarding the local optimization of the gradient inversion in proximity to the ground truth, which corresponds to the worst case attack scenario. We demonstrate the effectiveness of LAVP on various architectures and datasets, showing its consistent superiority over the gradient norm in capturing sample vulnerabilities. The performance of each proxy is measured in terms of Spearman's rank correlation with respect to several similarity scores. This work will contribute to enhancing FL security against any potential loss functions beyond L2 or cosine distance in the future.
翻訳日:2023-12-21 18:14:52 公開日:2023-12-19
# アダプティブガイダンス:条件拡散モデルのトレーニングフリーアクセラレーション

Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models ( http://arxiv.org/abs/2312.12487v1 )

ライセンス: Link先を確認
Angela Castillo, Jonas Kohler, Juan C. P\'erez, Juan Pablo P\'erez, Albert Pumarola, Bernard Ghanem, Pablo Arbel\'aez, Ali Thabet(参考訳) 本稿では,テキスト条件付き拡散モデルにおける分類自由誘導(CFG)の役割を推論効率の観点から総合的に検討する。 特に、全ての拡散ステップにCFGを適用するというデフォルトの選択を緩和し、代わりに効率的なガイダンスポリシーを探索する。 我々は、そのようなポリシーの発見を、微分可能なニューラルネットワーク検索フレームワークで定式化する。 以上の結果から,CFGが提案するデノナイジングステップは,特にデノナイジングプロセスの後半において,CFGの余剰ニューラルネットワーク評価を冗長にする単純な条件付きステップと整合する傾向が示唆された。 この知見に基づいて, CFG の効率的な変種である "Adaptive Guidance" (AG) を提案する。 実験の結果,AG は CFG の画質を 25% 削減しながら保存することを示した。 したがって、AGはガイダンス蒸留のプラグアンドプレイ代替品を構成し、トレーニング不要で負のプロンプトを扱う能力を維持しながら、後者のスピードアップの50%を達成している。 最後に、拡散過程の前半におけるcfgのさらなる冗長性を明らかにし、神経機能評価全体を過去の推定値の単純なアフィン変換に置き換えることができることを示した。 この手法はLinearAGと呼ばれ、ベースラインモデルから逸脱するコストでさらに安価な推論を提供する。 本研究は,テキスト条件付き拡散モデルのより実用的かつ迅速な展開に寄与する条件付き弁別プロセスの効率に関する知見を提供する。

This paper presents a comprehensive study on the role of Classifier-Free Guidance (CFG) in text-conditioned diffusion models from the perspective of inference efficiency. In particular, we relax the default choice of applying CFG in all diffusion steps and instead search for efficient guidance policies. We formulate the discovery of such policies in the differentiable Neural Architecture Search framework. Our findings suggest that the denoising steps proposed by CFG become increasingly aligned with simple conditional steps, which renders the extra neural network evaluation of CFG redundant, especially in the second half of the denoising process. Building upon this insight, we propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively omits network evaluations when the denoising process displays convergence. Our experiments demonstrate that AG preserves CFG's image quality while reducing computation by 25%. Thus, AG constitutes a plug-and-play alternative to Guidance Distillation, achieving 50% of the speed-ups of the latter while being training-free and retaining the capacity to handle negative prompts. Finally, we uncover further redundancies of CFG in the first half of the diffusion process, showing that entire neural function evaluations can be replaced by simple affine transformations of past score estimates. This method, termed LinearAG, offers even cheaper inference at the cost of deviating from the baseline model. Our findings provide insights into the efficiency of the conditional denoising process that contribute to more practical and swift deployment of text-conditioned diffusion models.
翻訳日:2023-12-21 18:14:32 公開日:2023-12-19
# 視覚による自動食料品追跡システム-スマートホーム

Vision-Based Automatic Groceries Tracking System -- Smart Homes ( http://arxiv.org/abs/2312.12486v1 )

ライセンス: Link先を確認
Divya Mereddy(参考訳) 先進的なAIでは、あらゆる業界がロケット速度で成長しているが、スマートホーム産業は次世代には達していない。 家をスマートホームと呼ぶまでには、まだ大きなイノベーションの飛躍があります。 スマートホームは、住民のニーズをタイムリーに予測し、それらを満たすべきである。 家を維持するための重要なタスクの1つは、タイムリーな食料品の追跡と供給の維持である。 食料品追跡モデルは小売業界では非常に有名であるが、一般家庭では存在しない。 家庭用冷蔵庫や保管庫の食料品検出は, 小売棚データと比較して複雑である。 本稿では,小売店の棚上げデータと果物のデータセットを実店舗から収集したリアルタイム360度ビューデータポイントとを組み合わせることで,家庭用食料品追跡の課題を解決する。 このビジョンに基づくオブジェクト検出システムとサプライチェーンとユーザ食品関心予測システムを統合することにより、食料品注文の完全自動化を実現することができる。

With advanced AI, while every industry is growing at rocket speed, the smart home industry has not reached the next generation. There is still a huge leap of innovation that needs to happen before we call a home a Smart home. A Smart home should predict residents' needs and fulfill them in a timely manner. One of the important tasks of maintaining a home is timely grocery tracking and supply maintenance. Grocery tracking models are very famous in the retail industry but they are nonexistent in the common household. Groceries detection in household refrigerators or storage closets is very complicated compared to retail shelving data. In this paper, home grocery tracking problem is resolved by combining retail shelving data and fruits dataset with real-time 360 view data points collected from home groceries storage. By integrating this vision-based object detection system along with supply chain and user food interest prediction systems, complete automation of groceries ordering can be achieved.
翻訳日:2023-12-21 18:14:05 公開日:2023-12-19
# ロバスト凸QCQPに対する決定論的サロゲートの学習

Learning Deterministic Surrogates for Robust Convex QCQPs ( http://arxiv.org/abs/2312.12485v1 )

ライセンス: Link先を確認
Egon Per\v{s}ak and Miguel F. Anjos(参考訳) 決定にフォーカスした学習は、文脈最適化のための有望な開発である。 これにより、問題の文脈的感度構造を反映した予測モデルを訓練することができる。 しかし、このパラダイムを堅牢な最適化に拡張する試みは限られている。 本研究では,不確実な凸2次プログラム(QCQP)におけるロバストな決定損失に関する予測モデルをトレーニングするための二重暗黙層モデルを提案する。 第1の層は、問題の決定論的バージョンを解き、第2の層は、第1の層から得られた決定から得られた観察に基づく不確実性セットに対する最悪のケース実現を評価する。 これにより、テスト時により単純な決定論的問題を解決するだけで、ロバストな決定につながるモデルのパラメータ化を学べます。 さらに、堅牢な解決を行う代わりに、より小さく、より簡単な2つの課題をトレーニングで解決します。 第2層(ワーストケース問題)は、単に点観測ではなく近隣の問題に適合することで予測・最適化のための正規化アプローチと見なすことができる。 我々は、不確実な集合が地域問題を信頼させる場合の最悪の問題緩和を動機付け、不確実な制約に対処するために様々な緩和を活用する。 どちらの層も一般にこの問題において厳密に凸であり、したがってほぼ至る所で有意義な勾配を持つ。 シミュレーション実験におけるこのモデルの適用例を示す。 本手法は,不確実凸QCQPに対する意思決定中心学習のための効果的な正規化ツールである。

Decision-focused learning is a promising development for contextual optimisation. It enables us to train prediction models that reflect the contextual sensitivity structure of the problem. However, there have been limited attempts to extend this paradigm to robust optimisation. We propose a double implicit layer model for training prediction models with respect to robust decision loss in uncertain convex quadratically constrained quadratic programs (QCQP). The first layer solves a deterministic version of the problem, the second layer evaluates the worst case realisation for an uncertainty set centred on the observation given the decisions obtained from the first layer. This enables us to learn model parameterisations that lead to robust decisions while only solving a simpler deterministic problem at test time. Additionally, instead of having to solve a robust counterpart we solve two smaller and potentially easier problems in training. The second layer (worst case problem) can be seen as a regularisation approach for predict-and-optimise by fitting to a neighbourhood of problems instead of just a point observation. We motivate relaxations of the worst-case problem in cases of uncertainty sets that would otherwise lead to trust region problems, and leverage various relaxations to deal with uncertain constraints. Both layers are typically strictly convex in this problem setting and thus have meaningful gradients almost everywhere. We demonstrate an application of this model on simulated experiments. The method is an effective regularisation tool for decision-focused learning for uncertain convex QCQPs.
翻訳日:2023-12-21 18:13:51 公開日:2023-12-19
# SkyMask: きめ細かい学習可能なマスクによる攻撃非依存のロバスト学習

SkyMask: Attack-agnostic Robust Federated Learning with Fine-grained Learnable Masks ( http://arxiv.org/abs/2312.12484v1 )

ライセンス: Link先を確認
Peishen Yan, Hao Wang, Tao Song, Yang Hua, Ruhui Ma, Ningxin Hu, Mohammad R. Haghighat and Haibing Guan(参考訳) フェデレーション学習(fl)は,分散データの活用とデータのプライバシの保護という,一般的なパラダイムになりつつある。 しかしながら、分散特性のため、flシステムは悪意のあるモデル更新をアップロードすることで、クライアントがグローバルモデルを攻撃するビザンチン攻撃に対して脆弱である。 既存のByzantine-robust FLシステムのほとんどは、Byzantine攻撃に対抗するためにクライアントがアップロードした個々のモデル更新の重みを統計的に分析している。 層レベルおよびパラメータレベルの細粒度攻撃の開発により、攻撃のステルス性と有効性が大幅に向上した。 既存のモデルレベルの防御手法は、無意識や過剰反応のため、訓練効率とモデル性能を低下させる。 この問題に対処するために,パラメータレベルでの悪意あるモデル更新を識別するために,きめ細かい学習可能なマスクを活用する,攻撃非依存の堅牢なFLシステムであるSkyMaskを提案する。 具体的には、flサーバは、クライアントがアップロードしたモデル更新にパラメータレベルのマスクを適用し、小さなクリーンデータセット(すなわちルートデータセット)上でマスクをトレーニングすることで、高次元空間における良質なモデル更新と悪意のあるモデル更新の微妙な違いを学ぶ。 我々の大規模な実験では、最先端(SOTA)攻撃下での3つの公開データセットの異なるモデルを用いており、その結果、SkyMaskはSOTAの防御戦略と比較して最大10%高いテスト精度を達成でき、高い割合の悪意のあるクライアントによる攻撃に対してうまく防御できることが示された。 一方,実験結果は,我々のアプローチのスケーラビリティとルートデータセットのデータ分布への弱い依存を実証している。

Federated Learning (FL) is becoming a popular paradigm for leveraging distributed data and preserving data privacy. However, due to the distributed characteristic, FL systems are vulnerable to Byzantine attacks that compromised clients attack the global model by uploading malicious model updates. Most existing Byzantine-robust FL systems statistically analyze the weights of whole individual model updates uploaded by clients to defend against Byzantine attacks. With the development of layer-level and parameter-level fine-grained attacks, the attacks' stealthiness and effectiveness have been significantly improved. Due to unawareness or overreaction, the existing model-level defense methods degrade the training efficiency and model performance. To address this problem, we propose SkyMask, a new attack-agnostic robust FL system that leverages fine-grained learnable masks to identify malicious model updates at the parameter-level. Specifically, the FL server applies parameter-level masks to model updates uploaded by clients and trains the masks over a small clean dataset (i.e., root dataset) to learn the subtle difference between benign and malicious model updates in a high-dimension space. Our extensive experiments involve different models on three public datasets under state-of-the-art (SOTA) attacks, where the results show that SkyMask achieves up to 10% higher testing accuracy compared with SOTA defense strategies and successfully defends against attacks with malicious clients of a high fraction up to 80%. In the meantime, the experimental results demonstrate the scalability of our approach and the weak dependence on the data distribution of the root dataset.
翻訳日:2023-12-21 18:13:29 公開日:2023-12-19
# scotti: アダプティブフレームワークを使ってトレーニング時に計算を省く

SCoTTi: Save Computation at Training Time with an adaptive framework ( http://arxiv.org/abs/2312.12483v1 )

ライセンス: Link先を確認
Ziyu Lin, Enzo Tartaglione, Van-Tam Nguyen(参考訳) オンデバイストレーニングは、モデルがエッジデバイス上でトレーニングされるマシンラーニングの新たなアプローチであり、プライバシ保護とリアルタイムパフォーマンスの向上を目標としている。 しかし、エッジデバイスは通常、制限された計算能力とリソースを持っており、計算集約的なモデルトレーニングタスクの実行が困難である。 そのため、この分野では、トレーニング中の資源消費の減少が懸念されている。 そこで我々は,上記の課題に対処する適応型フレームワークであるSCoTTi(Save Computation at Training Time)を提案する。 最適化可能なしきい値パラメータを利用して、メモリと計算フットプリントの減少に対応するトレーニング中のニューロン更新数を効果的に削減する。 提案手法は,resnets,mobilenet,swain-tなど,広く採用されているベンチマークおよびポピュラーアーキテクチャの計算資源節約に関する最先端手法と比較して優れた性能を示す。

On-device training is an emerging approach in machine learning where models are trained on edge devices, aiming to enhance privacy protection and real-time performance. However, edge devices typically possess restricted computational power and resources, making it challenging to perform computationally intensive model training tasks. Consequently, reducing resource consumption during training has become a pressing concern in this field. To this end, we propose SCoTTi (Save Computation at Training Time), an adaptive framework that addresses the aforementioned challenge. It leverages an optimizable threshold parameter to effectively reduce the number of neuron updates during training which corresponds to a decrease in memory and computation footprint. Our proposed approach demonstrates superior performance compared to the state-of-the-art methods regarding computational resource savings on various commonly employed benchmarks and popular architectures, including ResNets, MobileNet, and Swin-T.
翻訳日:2023-12-21 18:13:01 公開日:2023-12-19
# new horizons: ラボからクリニックへの生成aiによる製薬研究開発の先駆者 - 業界の観点から

New Horizons: Pioneering Pharmaceutical R&D with Generative AI from lab to the clinic -- an industry perspective ( http://arxiv.org/abs/2312.12482v1 )

ライセンス: Link先を確認
Guy Doron, Sam Genway, Mark Roberts and Sai Jasti(参考訳) 生成AIの急速な進歩は、産業全体にわたる研究開発の戦略的ビジョンを変えつつある。 医薬品R&Dのユニークな課題は、生成的AIの応用が、早期発見から規制承認に至るまで、バリューチェーン全体に沿って価値を提供することである。 この視点では、これらの課題をレビューし、すでに影響をもたらしている生成型aiアプリケーション、直近にある破壊的な機会、そして業界の未来を形作る長期的なトランスフォーメーションを探求する3段階のアプローチを取る。 選択されたアプリケーションは、生産性の向上、タイムラインの加速、研究の質の向上、データと意思決定、そして業界のための持続可能な未来をサポートする可能性についてレビューされる。 今日、Pharma R&Dのリーダーたちは、この技術から真の価値を獲得し、将来の成長を守るための基礎となる、生成的なAI戦略を開発する。 generative aiは、今日、生産性を促進するために組織データにアクセスし、結合するための、新しい効率的なルートを提供する。 次に、この影響は、臨床開発、患者の体験の向上、手術効率の向上、今後の病気の負担に対処するためのデジタルイノベーションの開放に繋がる。 次世代のai技術と組み合わせることで、企業は、ベンチからベッドサイドへの仮説の迅速な自動生成とテストを通じて、パイプラインのフェーズ周辺のループを閉じることができる。 これはR&Dの将来へのビジョンであり、コアでの持続可能性、時間スケールの削減、リソースへの依存の低減、そして患者が治療不能で最終的に病気を治療する新たな希望を提供する。

The rapid advance of generative AI is reshaping the strategic vision for R&D across industries. The unique challenges of pharmaceutical R&D will see applications of generative AI deliver value along the entire value chain from early discovery to regulatory approval. This perspective reviews these challenges and takes a three-horizon approach to explore the generative AI applications already delivering impact, the disruptive opportunities which are just around the corner, and the longer-term transformation which will shape the future of the industry. Selected applications are reviewed for their potential to drive increase productivity, accelerate timelines, improve the quality of research, data and decision making, and support a sustainable future for the industry. Recommendations are given for Pharma R&D leaders developing a generative AI strategy today which will lay the groundwork for getting real value from the technology and safeguarding future growth. Generative AI is today providing new, efficient routes to accessing and combining organisational data to drive productivity. Next, this impact will reach clinical development, enhancing the patient experience, driving operational efficiency, and unlocking digital innovation to better tackle the future burden of disease. Looking to the furthest horizon, rapid acquisition of rich multi-omics data, which capture the 'language of life', in combination with next generation AI technologies will allow organisations to close the loop around phases of the pipeline through rapid, automated generation and testing of hypotheses from bench to bedside. This provides a vision for the future of R&D with sustainability at the core, with reduced timescales and reduced dependency on resources, while offering new hope to patients to treat the untreatable and ultimately cure diseases.
翻訳日:2023-12-21 18:12:44 公開日:2023-12-19
# 展示空間:内部空間の画像からの建築上有意義な意味記述

Unveiling Spaces: Architecturally meaningful semantic descriptions from images of interior spaces ( http://arxiv.org/abs/2312.12481v1 )

ライセンス: Link先を確認
Demircan Tas, Rohit Priyadarshi Sanatani(参考訳) 過去10年間、アーキテクチャ設計ワークフローにおけるコンピュータビジョンツールや技術の採用が増えている。 注目すべきユースケースは、ポイントクラウド生成、ビジュアルコンテンツ分析、ロボット製作のための空間認識などだ。 二次元画像や映像から高レベルな記号記述と意味コンテンツを抽出するために,複数の画像分類,物体検出,意味画素分割モデルが普及している。 しかし、この点において大きな課題は、家具、人、その他の非建築要素によってこれらの要素の一部が隠蔽されている多様なイメージから高層建築構造(壁、床、天井窓など)を抽出することであった。 本研究の目的は、内部空間の2次元シーンからアーキテクチャ的に意味のある意味記述を抽出できるモデルを提案することである。 1000の仮想教室はパラメトリック生成され、長さ、幅、高さ、ドア/ウインドウ位置などの重要な空間パラメータに沿ってランダム化される。 カメラの位置や非構造的視覚障害(家具/オブジェクト)もランダム化される。 画像から画像への変換のためのGAN(Generative Adversarial Network)は,これらの囲いを合成的に生成した画像に対して,高レベルの構造構造を表す画像抽象化を訓練する。 このモデルは、新しい囲いの目に見えない合成画像でテストされ、出力はピクセル単位で比較して評価される。 また,既存の室内囲いの写真にも同様のモデル評価を行い,実環境における性能評価を行った。

There has been a growing adoption of computer vision tools and technologies in architectural design workflows over the past decade. Notable use cases include point cloud generation, visual content analysis, and spatial awareness for robotic fabrication. Multiple image classification, object detection, and semantic pixel segmentation models have become popular for the extraction of high-level symbolic descriptions and semantic content from two-dimensional images and videos. However, a major challenge in this regard has been the extraction of high-level architectural structures (walls, floors, ceilings windows etc.) from diverse imagery where parts of these elements are occluded by furniture, people, or other non-architectural elements. This project aims to tackle this problem by proposing models that are capable of extracting architecturally meaningful semantic descriptions from two-dimensional scenes of populated interior spaces. 1000 virtual classrooms are parametrically generated, randomized along key spatial parameters such as length, width, height, and door/window positions. The positions of cameras, and non-architectural visual obstructions (furniture/objects) are also randomized. A Generative Adversarial Network (GAN) for image-to-image translation (Pix2Pix) is trained on synthetically generated rendered images of these enclosures, along with corresponding image abstractions representing high-level architectural structure. The model is then tested on unseen synthetic imagery of new enclosures, and outputs are compared to ground truth using pixel-wise comparison for evaluation. A similar model evaluation is also carried out on photographs of existing indoor enclosures, to measure its performance in real-world settings.
翻訳日:2023-12-21 18:12:12 公開日:2023-12-19
# 連続テスト時間適応のための適応分布マスク付きオートエンコーダ

Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation ( http://arxiv.org/abs/2312.12480v1 )

ライセンス: Link先を確認
Jiaming Liu, Ran Xu, Senqiao Yang, Renrui Zhang, Qizhe Zhang, Zehui Chen, Yandong Guo, and Shanghang Zhang(参考訳) 実世界のダイナミズムに対処するため,CTTA (Continuous Test-Time Adaptation) が提案されている。 既存のCTTA法は、主にエントロピーの最小化や教師による擬似ラベル方式に頼っている。 しかし、動的データ分布は、既存の自己教師付き学習手法における誤校正予測やノイズのある擬似ラベルを引き起こし、継続的な適応過程におけるエラー蓄積と破滅的な忘れの問題の効果的軽減を妨げる。 これらの課題に対処するため,適応分布マスケドオートエンコーダ (ADMA) を連続的に提案し,分散シフトの蓄積を軽減しつつ,対象領域の知識の抽出を強化する。 具体的には,マスキング位置を適応的にサンプリングし,マスキング対象サンプルと元のターゲットサンプルとの一貫性制約を確立する分散認識マスキング(dam)機構を提案する。 さらに,マスクトークンに対しては,効率の良いデコーダを用いて手作りの特徴記述子(例えば,向き付け勾配のヒストグラム)を再構築し,その不変性を利用してタスク関連表現を増加させる。 提案手法は,広く認識されている4つのベンチマークに対して広範な実験を行うことで,分類および分割CTTAタスクにおける最先端のパフォーマンスを実現する。

Continual Test-Time Adaptation (CTTA) is proposed to migrate a source pre-trained model to continually changing target distributions, addressing real-world dynamism. Existing CTTA methods mainly rely on entropy minimization or teacher-student pseudo-labeling schemes for knowledge extraction in unlabeled target domains. However, dynamic data distributions cause miscalibrated predictions and noisy pseudo-labels in existing self-supervised learning methods, hindering the effective mitigation of error accumulation and catastrophic forgetting problems during the continual adaptation process. To tackle these issues, we propose a continual self-supervised method, Adaptive Distribution Masked Autoencoders (ADMA), which enhances the extraction of target domain knowledge while mitigating the accumulation of distribution shifts. Specifically, we propose a Distribution-aware Masking (DaM) mechanism to adaptively sample masked positions, followed by establishing consistency constraints between the masked target samples and the original target samples. Additionally, for masked tokens, we utilize an efficient decoder to reconstruct a hand-crafted feature descriptor (e.g., Histograms of Oriented Gradients), leveraging its invariant properties to boost task-relevant representations. Through conducting extensive experiments on four widely recognized benchmarks, our proposed method attains state-of-the-art performance in both classification and segmentation CTTA tasks.
翻訳日:2023-12-21 18:11:44 公開日:2023-12-19
# 大規模視覚と言語モデルからのゼロショット建築属性抽出

Zero-shot Building Attribute Extraction from Large-Scale Vision and Language Models ( http://arxiv.org/abs/2312.12479v1 )

ライセンス: Link先を確認
Fei Pan, Sangryul Jeon, Brian Wang, Frank Mckenna, Stella X. Yu(参考訳) 既存の建物認識手法はbrailsで例示されており、教師付き学習を用いて衛星画像とストリートビュー画像から情報を抽出し、分類とセグメンテーションを行う。 しかし、それぞれのタスクモジュールは、人間の注釈データを必要とし、地域のバリエーションとアノテーションの不均衡に対するスケーラビリティと堅牢性を妨げる。 そこで本研究では,外部アノテーションへの依存を軽減するため,大規模視覚と言語モデルを用いた属性抽出のためのゼロショットワークフローを提案する。 提案するワークフローには,画像レベルのキャプションと,構造工学および土木工学に関連する語彙に基づく建物画像のセグメントレベルのキャプションという,2つの重要なコンポーネントが含まれている。 これら2つのコンポーネントは、画像と語彙の特徴表現を計算し、視覚的およびテキスト的表現のセマンティックマッチングを容易にすることで、記述的なキャプションを生成する。 その結果、我々のフレームワークは、構造的および土木工学領域における属性抽出を構築するためのAI駆動のキャプションを強化するための有望な手段を提供する。

Existing building recognition methods, exemplified by BRAILS, utilize supervised learning to extract information from satellite and street-view images for classification and segmentation. However, each task module requires human-annotated data, hindering the scalability and robustness to regional variations and annotation imbalances. In response, we propose a new zero-shot workflow for building attribute extraction that utilizes large-scale vision and language models to mitigate reliance on external annotations. The proposed workflow contains two key components: image-level captioning and segment-level captioning for the building images based on the vocabularies pertinent to structural and civil engineering. These two components generate descriptive captions by computing feature representations of the image and the vocabularies, and facilitating a semantic match between the visual and textual representations. Consequently, our framework offers a promising avenue to enhance AI-driven captioning for building attribute extraction in the structural and civil engineering domains, ultimately reducing reliance on human annotations while bolstering performance and adaptability.
翻訳日:2023-12-21 18:11:20 公開日:2023-12-19
# バッチ機能獲得のためのジェネレータ支援エキスパート混合

Generator Assisted Mixture of Experts For Feature Acquisition in Batch ( http://arxiv.org/abs/2312.12574v1 )

ライセンス: Link先を確認
Vedang Asgaonkar, Aditya Jain, Abir De(参考訳) 一連の観察から、特徴獲得とは、正確性を高める未観測機能のサブセットを見つけることである。 このような問題は、事前作業のシーケンシャルな設定で検討されてきた。 ここで、モデルは獲得したすべての新機能からフィードバックを受け取り、より多くの機能を探したり、予測したりする。 しかし、時間の本質的な設定では、シーケンシャルな買収は不可能である。 本稿では、現在観察されている機能に基づいて、バッチでクエリする機能のサブセットを選択し、その後、バッチとして取得し、次に予測を行うバッチにおける機能獲得の問題を考察する。 いくつかの技術革新を使ってこの問題を解決する。 まず、いくつかの例で合成機能のサブセットを描画するために機能ジェネレータを使用し、oracleクエリのコストを削減します。 第二に、多種多様な観測特徴に対して特徴獲得問題を抽出できるようにするために、局所性に敏感なハッシュからツールを借り、専門家モデルの混合を訓練することで、データをバケットに分割する。 第3に、原目標のトラクタブルな下限を設計する。 モデルトレーニングと組み合わさった欲求アルゴリズムを用いて、その根底にある問題を解決する。 4つのデータセットを用いた実験は、精度と機能獲得コストのトレードオフの観点から、このアプローチがこれらの手法を上回っていることを示している。

Given a set of observations, feature acquisition is about finding the subset of unobserved features which would enhance accuracy. Such problems have been explored in a sequential setting in prior work. Here, the model receives feedback from every new feature acquired and chooses to explore more features or to predict. However, sequential acquisition is not feasible in some settings where time is of the essence. We consider the problem of feature acquisition in batch, where the subset of features to be queried in batch is chosen based on the currently observed features, and then acquired as a batch, followed by prediction. We solve this problem using several technical innovations. First, we use a feature generator to draw a subset of the synthetic features for some examples, which reduces the cost of oracle queries. Second, to make the feature acquisition problem tractable for the large heterogeneous observed features, we partition the data into buckets, by borrowing tools from locality sensitive hashing and then train a mixture of experts model. Third, we design a tractable lower bound of the original objective. We use a greedy algorithm combined with model training to solve the underlying problem. Experiments with four datasets show that our approach outperforms these methods in terms of trade-off between accuracy and feature acquisition cost.
翻訳日:2023-12-21 18:04:13 公開日:2023-12-19
# 高次元ゲームへの対物形状のスケーリング

Scaling Opponent Shaping to High Dimensional Games ( http://arxiv.org/abs/2312.12568v1 )

ライセンス: Link先を確認
Akbir Khan and Timon Willi and Newton Kwan and Andrea Tacchetti and Chris Lu and Edward Grefenstette and Tim Rockt\"aschel and Jakob Foerster(参考訳) 混合インセンティブを持つマルチエージェント設定では、ゼロサムゲーム用に開発された手法が有害な結果をもたらすことが示されている。 この問題に対処するため、相手のシェーピング(os)メソッドは、コプレイヤの学習ダイナミクスに影響を与えるように明示的に学習し、経験的に個人と集団の成果を改善する。 しかし,高次導関数の推定やモデルフリーなメタラーニングのスケーリングといった課題があるため,低次元環境においてのみos手法が評価されている。 より複雑な設定にスケールする別の方法は、望ましくないソリューションに収束するか、環境や共同プレイヤに関する非現実的な仮定に依存する。 本稿では,時間的拡張動作と長時間の地平線を持つ汎用ゲームへのOSベースのアプローチを初めて実現した。 従来のアルゴリズムが用いたメタ状態と履歴の表現を分析した後、Shaperと呼ばれる簡易バージョンを提案する。 文献からの挑戦的な状況において、Shaperが個人的および集団的成果を改善することを実証的に示す。 さらに文献に暗黙的な手法を定式化し,その相手の形状に対する寄与を分析した。 本手法は,特定の環境下での先行手法の機能向上に有効であることを示す。 最後に、CoinGameのような従来の環境は、時間的に拡張された一般サム相互作用を分析するのに不十分であることを示す。

In multi-agent settings with mixed incentives, methods developed for zero-sum games have been shown to lead to detrimental outcomes. To address this issue, opponent shaping (OS) methods explicitly learn to influence the learning dynamics of co-players and empirically lead to improved individual and collective outcomes. However, OS methods have only been evaluated in low-dimensional environments due to the challenges associated with estimating higher-order derivatives or scaling model-free meta-learning. Alternative methods that scale to more complex settings either converge to undesirable solutions or rely on unrealistic assumptions about the environment or co-players. In this paper, we successfully scale an OS-based approach to general-sum games with temporally-extended actions and long-time horizons for the first time. After analysing the representations of the meta-state and history used by previous algorithms, we propose a simplified version called Shaper. We show empirically that Shaper leads to improved individual and collective outcomes in a range of challenging settings from literature. We further formalize a technique previously implicit in the literature, and analyse its contribution to opponent shaping. We show empirically that this technique is helpful for the functioning of prior methods in certain environments. Lastly, we show that previous environments, such as the CoinGame, are inadequate for analysing temporally-extended general-sum interactions.
翻訳日:2023-12-21 18:03:53 公開日:2023-12-19
# パックのリード:N-player Opponent Shaping

Leading the Pack: N-player Opponent Shaping ( http://arxiv.org/abs/2312.12564v1 )

ライセンス: Link先を確認
Alexandra Souly, Timon Willi, Akbir Khan, Robert Kirk, Chris Lu, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 強化学習ソリューションは、2人の総和設定で大きな成功を収める。 この設定では、エージェントが共同プレイヤの学習に責任を負う、対向的シェーピング(OS)のパラダイムが、全体として悪い結果を回避し、報酬を最大化するエージェントへと導いてきた。 この方法は現在2人のプレイヤーに制限されている。 しかし、現実の世界には、多くのエージェントとの相互作用があり、ローカルスケールとグローバルスケールの両方で相互作用する。 本稿では,複数のコプレーヤと複数のシェーピングエージェントを含む環境に対して,対向シェーピング(os)手法を拡張する。 我々は,3から5までのプレイヤー数が異なる4つの異なる環境上で評価を行い,モデルベースのOS手法がナイーブラーニングよりも優れたグローバル福祉と均衡に収束することを実証した。 しかし,多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。 最後に,複数のosメソッドが存在するシナリオを考察し,協調エージェントの多数を必要とするゲームでは,osメソッドがグローバル福祉の貧弱な結果に収束することに注目した。

Reinforcement learning solutions have great success in the 2-player general sum setting. In this setting, the paradigm of Opponent Shaping (OS), in which agents account for the learning of their co-players, has led to agents which are able to avoid collectively bad outcomes, whilst also maximizing their reward. These methods have currently been limited to 2-player game. However, the real world involves interactions with many more agents, with interactions on both local and global scales. In this paper, we extend Opponent Shaping (OS) methods to environments involving multiple co-players and multiple shaping agents. We evaluate on over 4 different environments, varying the number of players from 3 to 5, and demonstrate that model-based OS methods converge to equilibrium with better global welfare than naive learning. However, we find that when playing with a large number of co-players, OS methods' relative performance reduces, suggesting that in the limit OS methods may not perform well. Finally, we explore scenarios where more than one OS method is present, noticing that within games requiring a majority of cooperating agents, OS methods converge to outcomes with poor global welfare.
翻訳日:2023-12-21 18:03:29 公開日:2023-12-19
# aif360によるバイアス緩和のための重み付けサンプルの包括的検証

Comprehensive Validation on Reweighting Samples for Bias Mitigation via AIF360 ( http://arxiv.org/abs/2312.12560v1 )

ライセンス: Link先を確認
Christina Hastings Blow, Lijun Qian, Camille Gibson, Pamela Obiomon, Xishuang Dong(参考訳) Fairness AIは、倫理的AI実装の重要な側面であるデータキュレーション、モデリング、評価、デプロイメントを含む、AI開発ライフサイクル全体のバイアスを検出し緩和することを目的としている。 データバイアス、特に性別や人種などのセンシティブな属性に対処するため、サンプルの再重み付けは、公正なAIにとって効率的である。 本稿では,従来の機械学習(ml)モデルにおけるサンプルの重み付けに関する体系的な検討を行い,成人所得の2進分類と保護属性の異なるコンプスデータセットの5つのモデルを用いた。 本研究は,5つのフェアネス指標を用いて予測結果を評価し,従来のMLモデルにおけるフェアネスの達成におけるサンプルの有効性の再重み付けとモデル固有性を明らかにするとともに,バイアスダイナミクスの複雑さを明らかにする。

Fairness AI aims to detect and alleviate bias across the entire AI development life cycle, encompassing data curation, modeling, evaluation, and deployment-a pivotal aspect of ethical AI implementation. Addressing data bias, particularly concerning sensitive attributes like gender and race, reweighting samples proves efficient for fairness AI. This paper contributes a systematic examination of reweighting samples for traditional machine learning (ML) models, employing five models for binary classification on the Adult Income and COMPUS datasets with various protected attributes. The study evaluates prediction results using five fairness metrics, uncovering the nuanced and model-specific nature of reweighting sample effectiveness in achieving fairness in traditional ML models, as well as revealing the complexity of bias dynamics.
翻訳日:2023-12-21 18:03:08 公開日:2023-12-19
# 公平性を超えて:アルゴリズムの評価と設計システムのための代替的モラル次元

Beyond Fairness: Alternative Moral Dimensions for Assessing Algorithms and Designing Systems ( http://arxiv.org/abs/2312.12559v1 )

ライセンス: Link先を確認
Kimi Wenzel, Geoff Kaufman, Laura Dabbish(参考訳) 人工知能(AI)システムの倫理は、学術的なコミュニティにおいて重要な関心事となっている。 この懸念はアルゴリズムの公正性に対する大きな関心を広めた。 大規模な研究課題は現在、アルゴリズム的公平性の向上、アルゴリズム的公平性の評価、公正に対する人間の認識の理解に費やされている。 我々は、道徳の単一の次元としての公平性には過度な信頼があり、それは他の重要な人間の価値観を犠牲にしている。 道徳心理学から、公正性を超えた5つの道徳的次元を示し、これらの代替次元が倫理的AI開発に寄与する3つの方法を提案する。

The ethics of artificial intelligence (AI) systems has risen as an imminent concern across scholarly communities. This concern has propagated a great interest in algorithmic fairness. Large research agendas are now devoted to increasing algorithmic fairness, assessing algorithmic fairness, and understanding human perceptions of fairness. We argue that there is an overreliance on fairness as a single dimension of morality, which comes at the expense of other important human values. Drawing from moral psychology, we present five moral dimensions that go beyond fairness, and suggest three ways these alternative dimensions may contribute to ethical AI development.
翻訳日:2023-12-21 18:02:51 公開日:2023-12-19
# 部分ダイナミクス知識を用いたサンプル効率的強化学習

Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge ( http://arxiv.org/abs/2312.12558v1 )

ライセンス: Link先を確認
Meshal Alharbi, Mardavij Roozbehani, Munther Dahleh(参考訳) オンライン強化学習のサンプル複雑性の問題は、学習過程を加速させる可能性のあるシステム力学に関する部分的な知識を考慮せずに、文献でしばしば研究される。 本稿では,オンラインQ-ラーニング手法のサンプル複雑性について,ダイナミックスに関する事前知識が利用できる場合や,効率的に学習できる場合について検討する。 S_{h+1} = f(S_h, A_h) + W_h$, ここで$f$は基礎となるシステムダイナミクスを表し、$W_h$は状態や動作に依存しない未知の乱れである。 有限エピソディックマルコフ決定過程において、$s$状態、$a$アクション、エピソード長$h$を設定し、$f$の完全な知識の下で$\tilde{\mathcal{o}}(\text{poly}(h)\sqrt{t})$を成す楽観的なq-ラーニングアルゴリズムを提示し、$t$はシステムとのインタラクションの総数である。 これは、既存のQ-ラーニングメソッドに対する典型的な $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{SAT})$ regret とは対照的である。 さらに、ノイズの多い$\hat{f}$ of $f$しか得られない場合、状態空間と作用空間の濃度に依存しない多くのサンプルにおいて、我々の手法は概して最適なポリシーを学ぶことができる。 準最適性ギャップは近似誤差 $\hat{f}-f$ と対応する最適値関数のリプシッツ定数に依存する。 提案手法は遷移確率のモデル化を必要とせず、モデルフリーメソッドと同じメモリ複雑性を享受する。

The problem of sample complexity of online reinforcement learning is often studied in the literature without taking into account any partial knowledge about the system dynamics that could potentially accelerate the learning process. In this paper, we study the sample complexity of online Q-learning methods when some prior knowledge about the dynamics is available or can be learned efficiently. We focus on systems that evolve according to an additive disturbance model of the form $S_{h+1} = f(S_h, A_h) + W_h$, where $f$ represents the underlying system dynamics, and $W_h$ are unknown disturbances independent of states and actions. In the setting of finite episodic Markov decision processes with $S$ states, $A$ actions, and episode length $H$, we present an optimistic Q-learning algorithm that achieves $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{T})$ regret under perfect knowledge of $f$, where $T$ is the total number of interactions with the system. This is in contrast to the typical $\tilde{\mathcal{O}}(\text{Poly}(H)\sqrt{SAT})$ regret for existing Q-learning methods. Further, if only a noisy estimate $\hat{f}$ of $f$ is available, our method can learn an approximately optimal policy in a number of samples that is independent of the cardinalities of state and action spaces. The sub-optimality gap depends on the approximation error $\hat{f}-f$, as well as the Lipschitz constant of the corresponding optimal value function. Our approach does not require modeling of the transition probabilities and enjoys the same memory complexity as model-free methods.
翻訳日:2023-12-21 18:02:40 公開日:2023-12-19
# NFTのダークサイド:ウォッシュトレーディングの大規模実証研究

The Dark Side of NFTs: A Large-Scale Empirical Study of Wash Trading ( http://arxiv.org/abs/2312.12544v1 )

ライセンス: Link先を確認
Shijian Chen and Jiachi Chen and Jiangshan Yu and Xiapu Luo and Yanlin Wang and Zibin Zheng(参考訳) NFT(Non-Fungible Tokens)は2021年に初めて注目されて以来、大きく成長している。 しかし、NFT市場は偽の取引や経済バブル、例えばNFT洗浄取引に悩まされている。 ウォッシュトレーディング(Wash trading)とは、通常、同一人物または2人の個人を巻き込んだ取引のことであり、NFTエコシステムにとって大きな脅威となっている。 従来の研究は金融面からのみNFTウォッシュ取引を検出するが、現実のウォッシュ取引ケースはより複雑である(例えば、市場価値を膨らませることを目的としていない)。 NFT洗剤取引をよりよく理解するための多次元分析がまだ存在しない。 そこで本研究では,NFTの輸送イベント8,717,031件,販売イベント3,830,141件を2,701,883件から分析した。 最初に、OpenSea API経由で収集されたデータセットを最適化します。 次に,NFT洗剤取引の3つのタイプを特定し,識別アルゴリズムを提案する。 実験の結果,824件の転送イベントと5,330件のセールイベント(合計で8,857,070.41)および370件のNFT洗剤取引行動に関連するアドレスペアが報告され,最低損失は3,965,247.13であった。 さらに,マーケットプレースデザイン,収益性,NFTプロジェクトデザイン,支払トークン,ユーザ行動,NTTエコシステムといった6つの側面からの洞察も提供する。

NFTs (Non-Fungible Tokens) have seen significant growth since they first captured public attention in 2021. However, the NFT market is plagued by fake transactions and economic bubbles, e.g., NFT wash trading. Wash trading typically refers to a transaction involving the same person or two colluding individuals, and has become a major threat to the NFT ecosystem. Previous studies only detect NFT wash trading from the financial aspect, while the real-world wash trading cases are much more complicated (e.g., not aiming at inflating the market value). There is still a lack of multi-dimension analysis to better understand NFT wash trading. Therefore, we present the most comprehensive study of NFT wash trading, analyzing 8,717,031 transfer events and 3,830,141 sale events from 2,701,883 NFTs. We first optimize the dataset collected via the OpenSea API. Next, we identify three types of NFT wash trading and propose identification algorithms. Our experimental results reveal 824 transfer events and 5,330 sale events (accounting for a total of \$8,857,070.41) and 370 address pairs related to NFT wash trading behaviors, causing a minimum loss of \$3,965,247.13. Furthermore, we provide insights from six aspects, i.e., marketplace design, profitability, NFT project design, payment token, user behavior, and NFT ecosystem
翻訳日:2023-12-21 18:02:08 公開日:2023-12-19
# 血糖レベルの予測:フェデレート学習を用いたグラフベース説明可能な方法

Blood Glucose Level Prediction: A Graph-based Explainable Method with Federated Learning ( http://arxiv.org/abs/2312.12541v1 )

ライセンス: Link先を確認
Chengzhe Piao and Ken Li(参考訳) イギリスでは1型糖尿病(t1d)の患者約40万人が、膵臓インスリン産生不足のためインスリン分泌に依存している。 血糖値 (BG) の維持は重要であり, 連続血糖モニタリング (CGM) が重要な役割を担っている。 5分毎にBGを追跡するCGMは、炭水化物摂取やインスリンデリバリーなどの要因を考慮し、効果的な血糖値予測(BGLP)を可能にする。 近年の研究では、BGLPの歴史的BGデータを用いたシーケンシャルモデルの開発に焦点が当てられ、炭水化物摂取、インスリンデリバリー、時間といった付加的な属性が取り入れられている。 これらの手法はBGLPで顕著な成功を示し、時間的説明を提供するものもある。 しかし、属性とそれらのBGLPへの影響の間には明確な相関関係がないことが多い。 さらに、参加者データを集約して人口パターンを学ぶ手法もある。 これらの制約に対処するため、グラフ注意ネットワーク(GAT)とゲートリカレントユニット(GRU)を組み合わせたグラフ注意メモリ(GAM)モデルを導入した。 GATはモデル属性相関にグラフ注意を適用し、透過的で動的な属性関係を提供する。 注意重みは時間とともに属性の重要度を動的に測定する。 プライバシを確保するために,我々は,集団パターン分析のセキュア化を目的として,フェデレートラーニング(FL)を採用した。 提案手法は,12名の参加者によるオハイオt1dm'18とオハイオt1dm'20データセットを用いて検証を行った。 ハイパーパラメータ・インパクト分析により,モデルの安定性と有効性を実証した。

In the UK, approximately 400,000 people with type 1 diabetes (T1D) rely on insulin delivery due to insufficient pancreatic insulin production. Managing blood glucose (BG) levels is crucial, with continuous glucose monitoring (CGM) playing a key role. CGM, tracking BG every 5 minutes, enables effective blood glucose level prediction (BGLP) by considering factors like carbohydrate intake and insulin delivery. Recent research has focused on developing sequential models for BGLP using historical BG data, incorporating additional attributes such as carbohydrate intake, insulin delivery, and time. These methods have shown notable success in BGLP, with some providing temporal explanations. However, they often lack clear correlations between attributes and their impact on BGLP. Additionally, some methods raise privacy concerns by aggregating participant data to learn population patterns. Addressing these limitations, we introduced a graph attentive memory (GAM) model, combining a graph attention network (GAT) with a gated recurrent unit (GRU). GAT applies graph attention to model attribute correlations, offering transparent, dynamic attribute relationships. Attention weights dynamically gauge attribute significance over time. To ensure privacy, we employed federated learning (FL), facilitating secure population pattern analysis. Our method was validated using the OhioT1DM'18 and OhioT1DM'20 datasets from 12 participants, focusing on 6 key attributes. We demonstrated our model's stability and effectiveness through hyperparameter impact analysis.
翻訳日:2023-12-21 18:01:39 公開日:2023-12-19
# テキスト・画像拡散モデルのための固定点インバージョン

Fixed-point Inversion for Text-to-image diffusion models ( http://arxiv.org/abs/2312.12540v1 )

ライセンス: Link先を確認
Barak Meiri, Dvir Samuel, Nir Darshan, Gal Chechik, Shai Avidan, Rami Ben-Ari(参考訳) テキスト誘導拡散モデルは、画像の生成と操作の強力な新しい方法を提供する。 画像編集補間や意味的拡張を含むこれらのモデルのいくつかの応用は拡散反転を必要とする。 これは、与えられた画像を生成するために使用できるノイズシードを見つけるプロセスである。 与えられた画像を反転させる現在の技術は遅く、あるいは不正確である。 拡散過程を反転させる技術的挑戦は、閉形式では解けない潜在性上の暗黙の方程式から生じる。 この問題に対する従来のアプローチは、近似あるいは様々な学習スキームによって解決された。 そこで,この問題を定点方程式問題として定式化し,数値解析におけるよく研究された手法である固定点反復法を用いて解いた。 さらに,潜在空間に符号化された実画像の反転を著しく損なう不整合の原因を特定する。 符号化のプロンプト対応調整を適用することで、その修正方法を示す。 私たちのソリューションである固定点反転は、同じような反転品質で、ruleやnull-textといった以前の技術よりもはるかに高速です。 事前訓練された拡散モデルと組み合わせて、モデルトレーニング、即時チューニング、追加パラメータを必要としない。 一連の実験で、不動点反転は、画像編集、画像補間、レアオブジェクトの生成など、いくつかの下流タスクで改善された結果を示すことが判明した。

Text-guided diffusion models offer powerful new ways to generate and manipulate images. Several applications of these models, including image editing interpolation, and semantic augmentation, require diffusion inversion. This is the process of finding a noise seed that can be used to generate a given image. Current techniques for inverting a given image can be slow or inaccurate. The technical challenge for inverting the diffusion process arises from an implicit equation over the latent that cannot be solved in closed form. Previous approaches proposed to solve this issue by approximation or various learning schemes. Here, we formulate the problem as a fixed-point equation problem and solve it using fixed-point iterations, a well-studied approach in numerical analysis. We further identify a source of inconsistency that significantly hurts the inversion of real images encoded to the latent space. We show how to correct it by applying a prompt-aware adjustment of the encoding. Our solution, Fixed-point inversion, is much faster than previous techniques like EDICT and Null-text, with similar inversion quality. It can be combined with any pretrained diffusion model and requires no model training, prompt tuning, or additional parameters. In a series of experiments, we find that Fixed-point inversion shows improved results in several downstream tasks: image editing, image interpolation, and generation of rare objects.
翻訳日:2023-12-21 18:01:16 公開日:2023-12-19
# 臨界系における量子ステアリング楕円体と量子肥満

Quantum steering ellipsoids and quantum obesity in critical systems ( http://arxiv.org/abs/2312.12537v1 )

ライセンス: Link先を確認
Pedro Rosario, Alan C. Santos(参考訳) 量子肥満(quantum obesity, qo)は、絡み合いを超えて量子相関を定量化する新しい関数であり、絡み合いの証人としても機能する。 二成分系の任意の状態に対する解析性のおかげで、例えば量子ディスコードのような他の量子相関に対して有利である。 本稿では、qoが量子相転移のシグネチャを観測するための基本量であることを示す。 また、遷移点付近のQOの臨界挙動を強化することができる局所フィルタリング操作に基づくメカニズムについても述べる。 この目的のために,局所量子演算と古典的通信の下でqoがどのように変化するかを示す定理を提案する。 この研究は、解析的に計算可能なペアワイズqoによる量子臨界系における新しい現象のキャラクタリゼーションの展望を開く。

Quantum obesity (QO) is new function used to quantify quantum correlations beyond entanglement, which also works as a witness for entanglement. Thanks to its analyticity for arbitrary state of bipartite systems, it represents an advantage with respect to other quantum correlations, like quantum discord for example. In this work we show that QO is a fundamental quantity to observe signature of quantum phase transitions. We also describe a mechanism based on local filtering operations able to intensify the critical behavior of the QO near to the transition point. To this end, we introduce a theorem stating how QO changes under local quantum operations and classical communications. This work opens perspective for the characterization of new phenomena in quantum critical systems through the analytically computable pairwise QO.
翻訳日:2023-12-21 18:00:58 公開日:2023-12-19
# メゾスコピック・リーズによる量子熱力学のエントロピー生成

Entropy production in the mesoscopic-leads formulation of quantum thermodynamics ( http://arxiv.org/abs/2312.12513v1 )

ライセンス: Link先を確認
Artur Lacerda, Michael J. Kewming, Marlon Brenes, Conor Jackson, Stephen R. Clark, Mark T. Mitchison, and John Goold(参考訳) 熱浴に強く結合した系のエントロピー生成を理解することは、量子熱力学とメソスコピック物理学の両方の核となる問題である。 このようなシステムでエントロピー生産を正確に研究する技術は数多く存在するが、一般的には浴槽の微細な記述が必要であり、大規模なシステムの研究には数値的に難解になる。 あるいは、様々なレベルの近似に関連するすべてのニュアンスに、オープンシステムアプローチを適用することもできる。 近年、メソスコピック・リード・アプローチは、複数の熱浴と強く結合した量子系を研究するための強力な方法として登場した。 この方法では、各局所減衰された離散リードモードがマルコフ埋め込みを提供する。 本手法は,強結合開量子系のエントロピー生成を記述するのに非常に有用であることを示す。 我々は,非相互作用系と相互作用系の両方において,単一の浴槽に結合した系が埋め込みのレベルで熱的固定点を示すことを数値的に示す。 これにより、量子力学半群の熱力学から、強結合した非マルコフ中心系の非平衡熱力学を推測する様々な結果が得られる。 特に、過渡的な状態におけるエントロピー生成は、単項および複数項の場合に明示的に計算できる補正により、よく確立されたエントロピー生成の顕微鏡的定義を復元することを示した。

Understanding the entropy production of systems strongly coupled to thermal baths is a core problem of both quantum thermodynamics and mesoscopic physics. While there exist many techniques to accurately study entropy production in such systems, they typically require a microscopic description of the baths, which can become numerically intractable to study for large systems. Alternatively an open-systems approach can be employed with all the nuances associated with various levels of approximation. Recently, the mesoscopic leads approach has emerged as a powerful method for studying such quantum systems strongly coupled to multiple thermal baths. In this method, a set of discretised lead modes, each locally damped, provide a Markovian embedding. Here we show that this method proves extremely useful to describe entropy production of a strongly coupled open quantum system. We show numerically, for both non-interacting and interacting setups, that a system coupled to a single bath exhibits a thermal fixed point at the level of the embedding. This allows us to use various results from the thermodynamics of quantum dynamical semi-groups to infer the non-equilibrium thermodynamics of the strongly coupled, non-Markovian central systems. In particular, we show that the entropy production in the transient regime recovers the well established microscopic definitions of entropy production with a correction that can be computed explicitly for both the single- and multiple-lead cases.
翻訳日:2023-12-21 18:00:45 公開日:2023-12-19
# 完全可解格子模型における絡み合い膜

The entanglement membrane in exactly solvable lattice models ( http://arxiv.org/abs/2312.12509v1 )

ライセンス: Link先を確認
Michael A. Rampp, Suhail A. Rather, Pieter W. Claeys(参考訳) 絡み合い膜理論はカオス量子多体系における絡み合いダイナミクスと作用素成長の効果的な粗い記述である。 膜を特徴づける基本的な量は絡み合い線張力である。 しかし、顕微鏡モデルの絡み合い線張力の決定は一般に指数関数的に難しい。 最近導入された完全可解だがカオス的なユニタリ回路、いわゆる一般化二重ユニタリ回路の絡み合い線張力を計算し、v_e<v_b$の速度スケールの階層を形成する非自明な形式を得る。 これらの回路は、ホログラフィーモデルでも飽和しているエンタングルメント成長の特定の境界を飽和させる。 さらに, 絡み線張力と時間的絡みと相関関数を関連づける。 また、局所次元$\geq3$ に特有の振舞いを表示するキュービットを超えて一般化された双ユニタリゲートを構築する新しい方法も発見する。 その結果, マイクロフローケット格子モデルにおけるエンタングルメント膜理論に光を当て, 精度および数値計算による予測の有効性の非自明な検証が可能となった。

Entanglement membrane theory is an effective coarse-grained description of entanglement dynamics and operator growth in chaotic quantum many-body systems. The fundamental quantity characterizing the membrane is the entanglement line tension. However, determining the entanglement line tension for microscopic models is in general exponentially difficult. We compute the entanglement line tension in a recently introduced class of exactly solvable yet chaotic unitary circuits, so-called generalized dual-unitary circuits, obtaining a non-trivial form that gives rise to a hierarchy of velocity scales with $v_E<v_B$. We find that these circuits saturate certain bounds on entanglement growth that are also saturated in holographic models. Furthermore, we relate the entanglement line tension to temporal entanglement and correlation functions. We also find new methods of constructing generalized dual-unitary gates beyond qubits that display behavior unique to local dimension $\geq3$. Our results shed light on entanglement membrane theory in microscopic Floquet lattice models and enable us to perform non-trivial checks on the validity of its predictions by comparison to exact and numerical calculations.
翻訳日:2023-12-21 18:00:21 公開日:2023-12-19
# 量子場理論のためのハミルトン切断テンソルネットワーク

Hamiltonian truncation tensor networks for quantum field theories ( http://arxiv.org/abs/2312.12506v1 )

ライセンス: Link先を確認
Philipp Schmoll, Jan Naumann, Alexander Nietner, Jens Eisert, Spyros Sotiriadis(参考訳) 量子論の平衡特性と平衡ダイナミクスを理解することは、理論粒子物理学や宇宙論における基本的な問題の鍵となる側面である。 しかし、古典的なシミュレーションは非常に難しい。 本研究では、低エネルギー固有状態と非平衡時間進化の研究に適した連続量子場理論の古典的シミュレーションのためのテンソルネットワーク手法を提案する。 この手法はハミルトニアン切断法とテンソルネットワーク法に基づいており、2つの成功したアプローチの間のギャップを橋渡ししている。 重要な発展の1つは、大域的プロジェクタの行列積状態表現の正確な構成であり、相互作用理論の実装に不可欠である。 計算量は比較的高いが, 正確な対角化に基づくハミルトニアン切断に比べて予測精度が劇的に向上し, これまでの未探索パラメータレジームと動的効果の研究が可能となった。 我々は,sine-gordonモデルの基底状態特性の正確な理論結果と比較し,その精度に対する信頼度を検証した。 次に, 質量シュウィンガーモデルである1+1)$-dimensional quantum electrodynamicsについて議論し, その臨界点を正確に同定し, 突発的クエンチにおける運動量空間の絡み合いの成長と飽和について考察する。

Understanding the equilibrium properties and out of equilibrium dynamics of quantum field theories are key aspects of fundamental problems in theoretical particle physics and cosmology. However, their classical simulation is highly challenging. In this work, we introduce a tensor network method for the classical simulation of continuous quantum field theories that is suitable for the study of low-energy eigenstates and out-of-equilibrium time evolution. The method is built on Hamiltonian truncation and tensor network techniques, bridging the gap between two successful approaches. One of the key developments is the exact construction of matrix product state representations of global projectors, crucial for the implementation of interacting theories. Despite featuring a relatively high computational effort, our method dramatically improves predictive precision compared to exact diagonalisation-based Hamiltonian truncation, allowing the study of so far unexplored parameter regimes and dynamical effects. We corroborate trust in the accuracy of the method by comparing it with exact theoretical results for ground state properties of the sine-Gordon model. We then proceed with discussing $(1+1)$-dimensional quantum electrodynamics, the massive Schwinger model, for which we accurately locate its critical point and study the growth and saturation of momentum-space entanglement in sudden quenches.
翻訳日:2023-12-21 18:00:04 公開日:2023-12-19
# DDOS:ドローンの深さと障害物セグメンテーションデータセット

DDOS: The Drone Depth and Obstacle Segmentation Dataset ( http://arxiv.org/abs/2312.12494v1 )

ライセンス: Link先を確認
Benedikt Kolbeinsson and Krystian Mikolajczyk(参考訳) 正確な深度とセマンティックセグメンテーションは様々なコンピュータビジョンタスクに不可欠である。 しかし、注釈付き実世界の空中データセットの不足は、堅牢なモデルのトレーニングと評価において大きな課題となる。 さらに、ワイヤー、ケーブル、フェンスなどの薄い物体の検出とセグメント化は、ドローンの安全な運用を確保する上で重要な関心事となっている。 これらの制約に対処するため,航空ビューにおける深度・意味的セグメンテーションタスクに特化して設計された新しい合成データセットを提案する。 フォトリアリスティックなレンダリング技術を活用したデータセットは,合成スーパービジョンのトレーニングスキームを用いたモデルのトレーニングに有用なリソースを提供すると同時に,深さ精度のためのドローン固有のメトリクスも新たに導入する。

Accurate depth and semantic segmentation are crucial for various computer vision tasks. However, the scarcity of annotated real-world aerial datasets poses a significant challenge for training and evaluating robust models. Additionally, the detection and segmentation of thin objects, such as wires, cables, and fences, present a critical concern for ensuring the safe operation of drones. To address these limitations, we present a novel synthetic dataset specifically designed for depth and semantic segmentation tasks in aerial views. Leveraging photo-realistic rendering techniques, our dataset provides a valuable resource for training models using a synthetic-supervision training scheme while introducing new drone-specific metrics for depth accuracy.
翻訳日:2023-12-21 17:59:41 公開日:2023-12-19
# ドメイン知識命令セットを利用したodia言語用llmの構築

Building a Llama2-finetuned LLM for Odia Language Utilizing Domain Knowledge Instruction Set ( http://arxiv.org/abs/2312.12624v1 )

ライセンス: Link先を確認
Guneet Singh Kohli, Shantipriya Parida, Sambit Sekhar, Samirit Saha, Nipun B Nair, Parul Agarwal, Sonal Khosla, Kusumlata Patiyal, Debasish Dhal(参考訳) 英語以外の言語でllmを構築するのは、現地の文脈を理解するなど多言語llmが利用できないため、大きな需要がある。 この問題は、命令セットを必要とするため、低リソース言語にとって重要である。 インドのような多言語国では、ジェネレーティブAIとLLMベースの技術とサービスを市民に提供するために、Indic言語をサポートするLLMが必要である。 本稿では,我々のアプローチについて述べる。 一 LLM微調整に適したドメイン知識データを含む大規模なOdia命令セットの作成及び 二 オーディアドメインの性能を高めるために調整されたLlama2ファインチュードモデルを構築すること。 提案された研究は、特にIndic言語のための命令セットとLLMの構築を支援する。 研究や非商業目的のために、モデルとインストラクションセットを一般向けにリリースします。

Building LLMs for languages other than English is in great demand due to the unavailability and performance of multilingual LLMs, such as understanding the local context. The problem is critical for low-resource languages due to the need for instruction sets. In a multilingual country like India, there is a need for LLMs supporting Indic languages to provide generative AI and LLM-based technologies and services to its citizens. This paper presents our approach of i) generating a large Odia instruction set, including domain knowledge data suitable for LLM fine-tuning, and ii) building a Llama2-finetuned model tailored for enhanced performance in the Odia domain. The proposed work will help researchers build an instruction set and LLM, particularly for Indic languages. We will release the model and instruction set for the public for research and noncommercial purposes.
翻訳日:2023-12-21 17:53:05 公開日:2023-12-19
# 核輸送ソルバの代理最適化による核融合燃焼プラズマの予測能力向上

Enhancing predictive capabilities in fusion burning plasmas through surrogate-based optimization in core transport solvers ( http://arxiv.org/abs/2312.12610v1 )

ライセンス: Link先を確認
P. Rodriguez-Fernandez, N.T. Howard, A. Saltzman, S. Kantamneni, J. Candy, C. Holland, M. Balandat, S. Ament and A.E. White(参考訳) 本研究は,非線形ジャイロキネティックシミュレーションによるコアプラズマプロファイルの予測と性能を,精度を損なうことなく大幅に低減する,サロゲートモデリングと最適化技術を活用したportalsフレームワークを提案する。 PortALSの効率は標準手法とベンチマークされ、その全電位はGPU加速非線形CGYROを用いたDIII-D ITER類似形状プラズマにおける一意に同時5チャネル(電子温度、イオン温度、電子密度、不純物密度、角回転)予測で示される。 また, 燃焼プラズマにおける正確な性能予測と, 核融合実験における輸送モデルの影響について概説した。

This work presents the PORTALS framework, which leverages surrogate modeling and optimization techniques to enable the prediction of core plasma profiles and performance with nonlinear gyrokinetic simulations at significantly reduced cost, with no loss of accuracy. The efficiency of PORTALS is benchmarked against standard methods, and its full potential is demonstrated on a unique, simultaneous 5-channel (electron temperature, ion temperature, electron density, impurity density and angular rotation) prediction of steady-state profiles in a DIII-D ITER Similar Shape plasma with GPU-accelerated, nonlinear CGYRO. This paper also provides general guidelines for accurate performance predictions in burning plasmas and the impact of transport modeling in fusion pilot plants studies.
翻訳日:2023-12-21 17:52:44 公開日:2023-12-19
# 3光子電子スピン共鳴

Three-photon electron spin resonances ( http://arxiv.org/abs/2312.12609v1 )

ライセンス: Link先を確認
S. I. Atwood (1), V. V. Mkhitaryan (2), S. Dhileepkumar (1), C. Nuibe (1), S. Hosseinzadeh (1), H. Malissa (1,2), J. M. Lupton (1,2), and C. Boehme (1) ((1) Department of Physics and Astronomy, University of Utah, Salt Lake City, USA, (2) Institut f\"ur Experimentelle und Angewandte Physik, Universit\"at Regensburg, Regensburg, Germany)(参考訳) 有機発光ダイオードにおける電荷キャリアスピンの3光子共振遷移を室温で電気的に検出した磁気共鳴(edmr)分光法を用いて観察した。 強い磁気共鳴駆動(ドライブフィールド$B_1$ ~静的磁場$B_0$)の下で、B_0$が1光共鳴磁界の約3倍のときに、$B_0$-field swept EDMRラインが出現する。 2光子シフトと1光子シフトの比は、フロッケハミルトニアンによる解析式と一致し、これらの3光子遷移の性質を確認し、スピン物理学の量子力学の到達不能領域へのアクセスを可能にする。

We report the observation of a three-photon resonant transition of charge-carrier spins in an organic light-emitting diode using electrically detected magnetic resonance (EDMR) spectroscopy at room temperature. Under strong magnetic-resonant drive (drive field $B_1$ ~ static magnetic field $B_0$), a $B_0$-field swept EDMR line emerges when $B_0$ is approximately threefold the one-photon resonance field. Ratios of drive-induced shifts of this line to those of two- and one-photon shifts agree with analytical expressions derived from the Floquet Hamiltonian and confirm the nature of these three-photon transitions, enabling access of spin physics to a hitherto inaccessible domain of quantum mechanics.
翻訳日:2023-12-21 17:51:52 公開日:2023-12-19
# 信頼と検証:ランダムな平滑化技術の調査

Trust, But Verify: A Survey of Randomized Smoothing Techniques ( http://arxiv.org/abs/2312.12608v1 )

ライセンス: Link先を確認
Anupriya Kumari, Devansh Bhardwaj, Sukrit Jindal, Sarthak Gupta(参考訳) 機械学習モデルは様々な領域で顕著な成功を収めてきたが、敵の攻撃に弱いままである。 経験的防御機構はしばしば不足し、新しい攻撃が絶えず出現し、既存の防御機構が時代遅れになる。 実証的な防御から認定ベースの防御へのパラダイムシフトは、対応として観察されている。 ランダムな平滑化は、顕著な進歩の中で有望なテクニックとして現れている。 本研究は,機械学習分類器の検証におけるランダム化平滑化の理論的基礎,実証的有効性,および応用についてレビューする。 ランダム化スムーディングの基礎となる概念を深く探求し、敵の摂動に対する堅牢性を証明する理論的保証を強調した。 さらに、既存の方法論の課題を議論し、潜在的なソリューションについての洞察に富んだ視点を提供する。 本稿では,ランダムな平滑化の文脈において,既存の知識を体系化する試みについて述べる。

Machine learning models have demonstrated remarkable success across diverse domains but remain vulnerable to adversarial attacks. Empirical defence mechanisms often fall short, as new attacks constantly emerge, rendering existing defences obsolete. A paradigm shift from empirical defences to certification-based defences has been observed in response. Randomized smoothing has emerged as a promising technique among notable advancements. This study reviews the theoretical foundations, empirical effectiveness, and applications of randomized smoothing in verifying machine learning classifiers. We provide an in-depth exploration of the fundamental concepts underlying randomized smoothing, highlighting its theoretical guarantees in certifying robustness against adversarial perturbations. Additionally, we discuss the challenges of existing methodologies and offer insightful perspectives on potential solutions. This paper is novel in its attempt to systemise the existing knowledge in the context of randomized smoothing.
翻訳日:2023-12-21 17:51:33 公開日:2023-12-19
# グラディエントレキシケース選択によるニューラルネットワークの最適化

Optimizing Neural Networks with Gradient Lexicase Selection ( http://arxiv.org/abs/2312.12606v1 )

ライセンス: Link先を確認
Li Ding, Lee Spector(参考訳) 機械学習で集約されたパフォーマンス測定を使用することの潜在的な欠点の1つは、モデルが一部のトレーニングケースでより高いエラーを、他のケースで低いエラーの妥協として受け入れることを学ぶことだ。 これは局所最適化の停滞と一般化の低さに繋がる。 語彙選択(Lexicase selection)は、進化計算で開発された非競合的手法であり、損失や精度などの集約されたメトリクスを使用するのではなく、個別の訓練ケースエラーのシーケンスに基づいてモデルを選択する。 本稿では,レキシケースの選択を一般の形で深層学習の文脈に統合し,一般化を促進する方法について検討する。 本稿では,進化的手法で勾配降下とレキシケース選択を組み合わせた最適化フレームワークである勾配レキシケース選択を提案する。 実験により,提案手法は,3つの画像分類ベンチマークを用いて,広く使用されているディープニューラルネットワークアーキテクチャの一般化性能を向上することを示した。 さらに質的な分析により,より多様な表現を学習するネットワークを支援することが示唆された。 ソースコードはgithubから入手できます。 https://github.com/ld-ing/gradient-lexicase.com/。

One potential drawback of using aggregated performance measurement in machine learning is that models may learn to accept higher errors on some training cases as compromises for lower errors on others, with the lower errors actually being instances of overfitting. This can lead to both stagnation at local optima and poor generalization. Lexicase selection is an uncompromising method developed in evolutionary computation, which selects models on the basis of sequences of individual training case errors instead of using aggregated metrics such as loss and accuracy. In this paper, we investigate how lexicase selection, in its general form, can be integrated into the context of deep learning to enhance generalization. We propose Gradient Lexicase Selection, an optimization framework that combines gradient descent and lexicase selection in an evolutionary fashion. Our experimental results demonstrate that the proposed method improves the generalization performance of various widely-used deep neural network architectures across three image classification benchmarks. Additionally, qualitative analysis suggests that our method assists networks in learning more diverse representations. Our source code is available on GitHub: https://github.com/ld-ing/gradient-lexicase.
翻訳日:2023-12-21 17:50:52 公開日:2023-12-19
# 野生における機械学習ソフトウェアテストの実践について

Studying the Practices of Testing Machine Learning Software in the Wild ( http://arxiv.org/abs/2312.12604v1 )

ライセンス: Link先を確認
Moses Openja, Foutse Khomh, Armstrong Foundjem, Zhen Ming (Jack) Jiang, Mouna Abidi, Ahmed E. Hassan(参考訳) 背景: マシンラーニング(ml)、特に、医療システムや自動運転車といった安全クリティカルなシステムを含む、多くのソフトウェアシステムにおけるディープラーニング(dl)アルゴリズムの採用が増加しているのを目撃しています。 これらのシステムのソフトウェア品質を保証することは、主にMLソフトウェアシステムの帰納的な性質のため、研究コミュニティにとって依然としてオープンな課題である。 伝統的に、ソフトウェアシステムはプログラムコードとしてシステムの振舞いを規定するルールを記述することによって演能的に構築された。 しかし、MLソフトウェアの場合、これらのルールはトレーニングデータから推測される。 MLシステムの品質保証に関する最近の研究は、突然変異テストのような従来のソフトウェアテストとは異なる概念を適用し、MLソフトウェアシステムの信頼性向上に寄与している。 しかし、これらの研究から提案された試験手法が実際に採用されているかは定かではない。 MLエンジニアのテスト戦略に関する実証的な証拠はほとんどない。 Aims: このギャップを埋めるために、テスト対象のMLプロパティ、それに続くテスト戦略、そしてMLワークフロー全体におけるそれらの実装を特定するために、MLテストプラクティスに関する初の詳細な実証的研究を行います。 メソッド: まず、さまざまなテスト戦略(Oracle Approximationなど)、テストされたMLプロパティ(例えば、正確性、バイアス、公正性)、そしてテストメソッド(例えば、ユニットテスト)を文献から体系的に要約しました。 そこで我々は,MLソフトウェアテストの実践を理解するために調査を行った。 結果: 1) ソフトウェアバグ発見にmlエンジニアが使用するgrey-box, white-box, black-box, and heuristic-based techniqueの4つの主要なテスト戦略のカテゴリを特定した。 2) MLワークフローでテストされる16のMLプロパティを特定した。

Background: We are witnessing an increasing adoption of machine learning (ML), especially deep learning (DL) algorithms in many software systems, including safety-critical systems such as health care systems or autonomous driving vehicles. Ensuring the software quality of these systems is yet an open challenge for the research community, mainly due to the inductive nature of ML software systems. Traditionally, software systems were constructed deductively, by writing down the rules that govern the behavior of the system as program code. However, for ML software, these rules are inferred from training data. Few recent research advances in the quality assurance of ML systems have adapted different concepts from traditional software testing, such as mutation testing, to help improve the reliability of ML software systems. However, it is unclear if any of these proposed testing techniques from research are adopted in practice. There is little empirical evidence about the testing strategies of ML engineers. Aims: To fill this gap, we perform the first fine-grained empirical study on ML testing practices in the wild, to identify the ML properties being tested, the followed testing strategies, and their implementation throughout the ML workflow. Method: First, we systematically summarized the different testing strategies (e.g., Oracle Approximation), the tested ML properties (e.g., Correctness, Bias, and Fairness), and the testing methods (e.g., Unit test) from the literature. Then, we conducted a study to understand the practices of testing ML software. Results: In our findings: 1) we identified four (4) major categories of testing strategy including Grey-box, White-box, Black-box, and Heuristic-based techniques that are used by the ML engineers to find software bugs. 2) We identified 16 ML properties that are tested in the ML workflow.
翻訳日:2023-12-21 17:50:34 公開日:2023-12-19
# メソッドリファクタリングの意図の背後にある:体系的文献レビュー

Behind the Intent of Extract Method Refactoring: A Systematic Literature Review ( http://arxiv.org/abs/2312.12600v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmar, Mohamed Wiem Mkaouer, Ali Ouni(参考訳) コードリファクタリングは、ソースコードの理解性と保守性を改善するために不可欠なソフトウェアエンジニアリングプラクティスとして広く認められています。 リファクタリングの抽出メソッドは、開発者がコード品質を改善するために頻繁に適用するため、リファクタリングの"swiss army knife"と見なされる。 近年、いくつかの研究が、ソフトウェアプロジェクト内のリファクタリングプラクティスに関する実行可能なデータ駆動の洞察の収集、分析、啓発を可能にする抽出メソッドリファクタリングを推奨している。 本稿では,既存の抽出法リファクタリング研究に関する知識体系を概観し,今後の研究に向けた限界と可能性について検討する。 そのため、研究者や実践者は最先端に気付き始め、この文脈で新たな研究機会を見いだす。 体系的文献レビュー(slr)という形で,メソッドリファクタリングの抽出に関連する知識体系について検討する。 1,367の論文を最初のプールにまとめた結果,体系的な選択を行い,最終プールには83の一次研究が含まれた。 3つの研究課題を定義し,その方法論,適用性,自動化度など,いくつかの基準に基づいて分類スキーマを体系的に開発・洗練する。 その結果,83の抽出手法のカタログを構築し,文献にいくつかの手法が提案されていることを示す。 結果はこう示しています (i)抽出メソッドリファクタリング研究の38.6%は、主にコードクローンに対処することに焦点を当てている。 二 抽出方法の適用における意思決定プロセスへの開発者の関与を取り入れた抽出方法のいくつか (3)既存のベンチマークは異質であり、同じ種類の情報を含まないため、ベンチマークのために標準化が困難である。

Code refactoring is widely recognized as an essential software engineering practice to improve the understandability and maintainability of the source code. The Extract Method refactoring is considered as "Swiss army knife" of refactorings, as developers often apply it to improve their code quality. In recent years, several studies attempted to recommend Extract Method refactorings allowing the collection, analysis, and revelation of actionable data-driven insights about refactoring practices within software projects. In this paper, we aim at reviewing the current body of knowledge on existing Extract Method refactoring research and explore their limitations and potential improvement opportunities for future research efforts. Hence, researchers and practitioners begin to be aware of the state-of-the-art and identify new research opportunities in this context. We review the body of knowledge related to Extract Method refactoring in the form of a systematic literature review (SLR). After compiling an initial pool of 1,367 papers, we conducted a systematic selection and our final pool included 83 primary studies. We define three sets of research questions and systematically develop and refine a classification schema based on several criteria including their methodology, applicability, and degree of automation. The results construct a catalog of 83 Extract Method approaches indicating that several techniques have been proposed in the literature. Our results show that: (i) 38.6% of Extract Method refactoring studies primarily focus on addressing code clones; (ii) Several of the Extract Method tools incorporate the developer's involvement in the decision-making process when applying the method extraction, and (iii) the existing benchmarks are heterogeneous and do not contain the same type of information, making standardizing them for the purpose of benchmarking difficult.
翻訳日:2023-12-21 17:50:03 公開日:2023-12-19
# 大腸内視鏡画像の教師なしセグメンテーション

Unsupervised Segmentation of Colonoscopy Images ( http://arxiv.org/abs/2312.12599v1 )

ライセンス: Link先を確認
Heming Yao, J\'er\^ome L\"uscher, Benjamin Gutierrez Becker, Josep Ar\'us-Pous, Tommaso Biancalani, Amelie Bigorgne, David Richmond(参考訳) 大腸内視鏡は様々な消化管疾患の診断と予後に重要な役割を果たす。 大腸内視鏡画像やより一般的な医用画像に対して,大規模で高品質な接地真実アノテーションを収集することの難しさから,大腸内視鏡画像の3つの課題において,視覚変換器からの自己監督的特徴を用いて検討する。 以上の結果から,dinoモデルから得られた画像レベル機能は,完全な教師付きモデルに匹敵する画像分類性能を達成し,パッチレベル機能はオブジェクト検出のための豊富な意味情報を含むことがわかった。 さらに, 自己監督機能と教師なしセグメンテーションを組み合わせることで, 完全に教師なしの方法で複数の臨床関連構造を発見できることを実証し, これらの手法を医用画像解析に応用する可能性を示した。

Colonoscopy plays a crucial role in the diagnosis and prognosis of various gastrointestinal diseases. Due to the challenges of collecting large-scale high-quality ground truth annotations for colonoscopy images, and more generally medical images, we explore using self-supervised features from vision transformers in three challenging tasks for colonoscopy images. Our results indicate that image-level features learned from DINO models achieve image classification performance comparable to fully supervised models, and patch-level features contain rich semantic information for object detection. Furthermore, we demonstrate that self-supervised features combined with unsupervised segmentation can be used to discover multiple clinically relevant structures in a fully unsupervised manner, demonstrating the tremendous potential of applying these methods in medical image analysis.
翻訳日:2023-12-21 17:49:41 公開日:2023-12-19
# 大規模言語モデルを用いたテストケース構築に関する事例研究:実践的考察と課題

A Case Study on Test Case Construction with Large Language Models: Unveiling Practical Insights and Challenges ( http://arxiv.org/abs/2312.12598v1 )

ライセンス: Link先を確認
Roberto Francisco de Lima Junior and Luiz Fernando Paes de Barros Presta and Lucca Santos Borborema and Vanderson Nogueira da Silva and Marcio Leal de Melo Dahia and Anderson Carlos Sousa e Santos(参考訳) 本稿では,ソフトウェア工学におけるテストケース構築における大規模言語モデル(llms)の適用に関する詳細なケーススタディについて述べる。 llmは高度な自然言語処理機能を特徴とし、ソフトウェア開発ライフサイクルのさまざまな側面を自動化するツールとして、ますます注目を集めています。 ケーススタディの方法論を活用して,テストケース構築プロセスにおけるllmの統合を体系的に検討し,その実用性,遭遇した課題,ソフトウェア品質保証への影響を明らかにすることを目的とした。 本研究は, 代表的なソフトウェアアプリケーションの選択, LLMを用いたテストケース構築手法の定式化, その後の結果の評価を含む。 定性分析と定量分析の混合により, LLMがテストケースの包括性, 精度, 効率に与える影響を評価する。 さらに、モデルの解釈可能性、倫理的考慮、さまざまなソフトウェアコンテキストへの適応といった課題についても検討しています。 このケーススタディから得られた知見は, テストケース構築分野におけるLCMの実用性に関する微妙な洞察に寄与し, その潜在的なメリットと限界を解明する。 この研究は、現実のシナリオや複雑さに対処することによって、ソフトウェア実践者と研究者に、LLMをソフトウェアテストの現場に組み込むことによる具体的な意味について、ソフトウェア開発プロセスの最適化における彼らの役割に関するより包括的な理解を促進することを目的としています。

This paper presents a detailed case study examining the application of Large Language Models (LLMs) in the construction of test cases within the context of software engineering. LLMs, characterized by their advanced natural language processing capabilities, are increasingly garnering attention as tools to automate and enhance various aspects of the software development lifecycle. Leveraging a case study methodology, we systematically explore the integration of LLMs in the test case construction process, aiming to shed light on their practical efficacy, challenges encountered, and implications for software quality assurance. The study encompasses the selection of a representative software application, the formulation of test case construction methodologies employing LLMs, and the subsequent evaluation of outcomes. Through a blend of qualitative and quantitative analyses, we assess the impact of LLMs on test case comprehensiveness, accuracy, and efficiency. Additionally, we delve into challenges such as model interpretability, ethical considerations, and adaptation to diverse software contexts. The findings from this case study contribute nuanced insights into the practical utility of LLMs in the domain of test case construction, elucidating their potential benefits and limitations. By addressing real-world scenarios and complexities, this research aims to inform software practitioners and researchers alike about the tangible implications of incorporating LLMs into the software testing landscape, fostering a more comprehensive understanding of their role in optimizing the software development process.
翻訳日:2023-12-21 17:49:25 公開日:2023-12-19
# 不完全なトレーニングデータの変換と拡張によるロバスト機械学習

Robust Machine Learning by Transforming and Augmenting Imperfect Training Data ( http://arxiv.org/abs/2312.12597v1 )

ライセンス: Link先を確認
Elliot Creager(参考訳) 機械学習(ML)は、データをコンピュータプログラムに変換するための表現力のあるフレームワークである。 多くの問題領域で -- 産業と政策の設定において -- 正確な予測や最適な制御に必要なコンピュータプログラムの種類は、手で書くのが難しい。 一方、望ましいシステム動作のインスタンスの収集は、比較的実現可能かもしれない。 これによりMLは広くアピールするだけでなく、配置中に予期せぬ障害モードとして現れるデータ感度も引き起こす。 この意味で、利用可能なトレーニングデータは、手元にあるタスクに不完全である傾向がある。 この論文は、現代の機械学習のいくつかのデータ感度とそれに対応する方法を探る。 まず、機械学習がトレーニングデータで測定された事前の人間の識別を体系化するのを防ぐ方法を議論し、公平な表現学習アプローチをとる。 次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。 ここでは、標準的なトレーニング手法がそのような特徴を学習する傾向があるため、この傾向を利用して、この不整合を露呈するトレーニングデータの分割を探索し、最終的にはスプリアスな特徴に不変な学習アルゴリズムを促進する。 最後に、すべての可能な状態やアクションをカバーすることが不十分なデータからの強化学習に注意を向けます。 カバレッジ問題に対処するために、データを収集する設定の単一ステップのダイナミクスを因果前処理を用いてモデル化する方法について議論する。 これにより、観測された軌跡を縫合して、新しいがもっともらしい反事実軌跡を生成する新しいタイプのデータ拡張が可能になる。

Machine Learning (ML) is an expressive framework for turning data into computer programs. Across many problem domains -- both in industry and policy settings -- the types of computer programs needed for accurate prediction or optimal control are difficult to write by hand. On the other hand, collecting instances of desired system behavior may be relatively more feasible. This makes ML broadly appealing, but also induces data sensitivities that often manifest as unexpected failure modes during deployment. In this sense, the training data available tend to be imperfect for the task at hand. This thesis explores several data sensitivities of modern machine learning and how to address them. We begin by discussing how to prevent ML from codifying prior human discrimination measured in the training data, where we take a fair representation learning approach. We then discuss the problem of learning from data containing spurious features, which provide predictive fidelity during training but are unreliable upon deployment. Here we observe that insofar as standard training methods tend to learn such features, this propensity can be leveraged to search for partitions of training data that expose this inconsistency, ultimately promoting learning algorithms invariant to spurious features. Finally, we turn our attention to reinforcement learning from data with insufficient coverage over all possible states and actions. To address the coverage issue, we discuss how causal priors can be used to model the single-step dynamics of the setting where data are collected. This enables a new type of data augmentation where observed trajectories are stitched together to produce new but plausible counterfactual trajectories.
翻訳日:2023-12-21 17:49:00 公開日:2023-12-19
# サドル支配スクランブルにおけるスプレッド複雑性

Spread complexity in saddle-dominated scrambling ( http://arxiv.org/abs/2312.12593v1 )

ライセンス: Link先を確認
Kyoung-Bum Huh, Hyun-Sik Jeong, Juan F. Pedraza(参考訳) 近年、量子システムの複雑性とカオス性の尺度として、拡散複雑性の概念krylov complexity for statesが導入された。 本稿では,サドル支配スクランブルを示す<emph{integrable} 系における熱場二重状態の拡散複雑性について検討する。 具体的には,saddle-dominated scramblingを特徴とする量子力学系の代表的な例として,リプキン・メシュコフ・グリックモデルと逆調和振動子に着目した。 Lanczosアルゴリズムの適用により,これらのシステムにおける拡散複雑性は,特異なランプピーク・スロープ・プレートパターンを呈し,emph{chaotic}システムに類似した特徴を示すことが明らかとなった。 その結果、拡散複雑性は貴重なプローブとして機能するが、真の量子カオスを正確に診断するには、一般に追加の物理入力が必要であることが示された。 また,拡散複雑性,スペクトル形状因子,クリロフ空間内の遷移確率との関係についても検討した。 我々は,計算結果の分析的確認を行い,複雑性のehrenfest定理を検証し,拡散複雑性の早い段階での異なる二次的挙動を同定する。

Recently, the concept of spread complexity, Krylov complexity for states, has been introduced as a measure of the complexity and chaoticity of quantum systems. In this paper, we study the spread complexity of the thermofield double state within \emph{integrable} systems that exhibit saddle-dominated scrambling. Specifically, we focus on the Lipkin-Meshkov-Glick model and the inverted harmonic oscillator as representative examples of quantum mechanical systems featuring saddle-dominated scrambling. Applying the Lanczos algorithm, our numerical investigation reveals that the spread complexity in these systems exhibits features reminiscent of \emph{chaotic} systems, displaying a distinctive ramp-peak-slope-plateau pattern. Our results indicate that, although spread complexity serves as a valuable probe, accurately diagnosing true quantum chaos generally necessitates additional physical input. We also explore the relationship between spread complexity, the spectral form factor, and the transition probability within the Krylov space. We provide analytical confirmation of our numerical results, validating the Ehrenfest theorem of complexity and identifying a distinct quadratic behavior in the early-time regime of spread complexity.
翻訳日:2023-12-21 17:48:34 公開日:2023-12-19
# 教師なしニューラルマシン翻訳の実験的研究:nmt出力、モデル行動、文の寄与の分析

An Empirical study of Unsupervised Neural Machine Translation: analyzing NMT output, model's behavior and sentences' contribution ( http://arxiv.org/abs/2312.12588v1 )

ライセンス: Link先を確認
Isidora Chara Tourni, Derry Wijaya(参考訳) unsupervised neural machine translation (unmt) は、人間が翻訳した並列データがないという仮定の下でnmt結果を改善することに重点を置いているが、教師付き手法に比べてその利点を強調し、翻訳精度以外の側面で結果を分析する作業はほとんど行われていない。 我々は、フランス語、グジャラート語、カザフ語という3つの非常に多種多様な言語に焦点をあて、ハイリソースと低リソースの設定において様々なレベルの監督を行い、NMT出力の品質を測定し、生成されたシーケンスの語順とソースや参照文とのセマンティックな類似性を比較する。 また,先行研究の成果をunmtパラダイムに拡大し,結果に対する原文と対象文の寄与度を評価するために,階層的関連伝播を用いた。

Unsupervised Neural Machine Translation (UNMT) focuses on improving NMT results under the assumption there is no human translated parallel data, yet little work has been done so far in highlighting its advantages compared to supervised methods and analyzing its output in aspects other than translation accuracy. We focus on three very diverse languages, French, Gujarati, and Kazakh, and train bilingual NMT models, to and from English, with various levels of supervision, in high- and low- resource setups, measure quality of the NMT output and compare the generated sequences' word order and semantic similarity to source and reference sentences. We also use Layer-wise Relevance Propagation to evaluate the source and target sentences' contribution to the result, expanding the findings of previous works to the UNMT paradigm.
翻訳日:2023-12-21 17:48:13 公開日:2023-12-19
# badrl:強化学習に対するsparseターゲットのバックドア攻撃

BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning ( http://arxiv.org/abs/2312.12585v1 )

ライセンス: Link先を確認
Jing Cui, Yufei Han, Yuzhe Ma, Jianbin Jiao, Junge Zhang(参考訳) 強化学習におけるバックドア攻撃(rl)は、攻撃の成功を確実にするために強烈な攻撃戦略を採用している。 しかし、これらの手法は高い攻撃コストと検出性の向上に苦しむ。 本研究は,攻撃を成功させながら,訓練やテスト中に極めてスパースなバックドア中毒作業をすることに焦点を当てた,新しいアプローチであるbadrlを提案する。 私たちのアルゴリズムであるbadrlは、トレーニングやテスト中にトリガーを注入するために、高い攻撃値を持つ状態観測を戦略的に選択します。 サンプルに依存しないトリガーパターンを使用する以前の方法とは対照的に、badrlはターゲット状態の観測に基づいて動的にトリガーパターンを生成し、その効果を高める。 理論的分析によると、標的となるバックドア攻撃は常に可能であり、特定の仮定の下ではステルス性を維持している。 各種の古典的RLタスクにおける実証的な結果から、BadRLは、テスト中のトレーニングおよび頻繁な攻撃において、最小限の毒殺力(総トレーニングステップの0.003%)で被害者エージェントのパフォーマンスを著しく低下させることができることが示されている。

Backdoor attacks in reinforcement learning (RL) have previously employed intense attack strategies to ensure attack success. However, these methods suffer from high attack costs and increased detectability. In this work, we propose a novel approach, BadRL, which focuses on conducting highly sparse backdoor poisoning efforts during training and testing while maintaining successful attacks. Our algorithm, BadRL, strategically chooses state observations with high attack values to inject triggers during training and testing, thereby reducing the chances of detection. In contrast to the previous methods that utilize sample-agnostic trigger patterns, BadRL dynamically generates distinct trigger patterns based on targeted state observations, thereby enhancing its effectiveness. Theoretical analysis shows that the targeted backdoor attack is always viable and remains stealthy under specific assumptions. Empirical results on various classic RL tasks illustrate that BadRL can substantially degrade the performance of a victim agent with minimal poisoning efforts 0.003% of total training steps) during training and infrequent attacks during testing.
翻訳日:2023-12-21 17:47:53 公開日:2023-12-19
# 不確実なセマンティックデータを用いたロボット探査のための観測強化型マルチアーマティブバンド

Observation-Augmented Contextual Multi-Armed Bandits for Robotic Exploration with Uncertain Semantic Data ( http://arxiv.org/abs/2312.12583v1 )

ライセンス: Link先を確認
Shohei Wakayama and Nisar Ahmed(参考訳) 不確実性下でのロボットの意思決定には、搾取と利用可能な選択肢の探索のバランスを慎重に考慮しなければならない。 本研究では,外部情報ソースから得られる余分な結果の観測を意思決定エージェントが活用できる,観察増強型CMAB(OA-CMABs)と呼ばれる,コンテキスト対応型マルチアームバンディットを提案する。 CMABは、期待されるオプションの結果をコンテキスト特徴と隠れパラメータの関数としてモデル化する。 OA-CMABでは、外部観測も文脈特徴の関数であり、隠れたパラメータに関する追加の証拠を提供する。 しかし、外部情報ソースがエラーを起こしやすい場合、結果として得られた後続更新は、エラーが考慮されない限り、意思決定性能を損なう可能性がある。 この目的のために,確率的データ検証の概念に基づくOA-CMABに対する頑健なベイズ推論プロセスを提案する。 提案手法は, 複雑な混合モデルパラメータの優先順位と, 意味データソースのハイブリッド観測確率を扱い, 近年開発された確率的意味データ連想手法に基づく検証アルゴリズムの開発を可能にした。 さらに,OA-CMABにおける不確実性源の組合せをより効果的に扱うために,期待される自由エネルギー最小化に基づくオプション選択のための新しいアクティブ推論アルゴリズムを導出する。 これは、欠陥観測と非ガウス的推論を考慮し、バンディットに基づくロボット意思決定のためのアクティブ推論に関する過去の研究を一般化する。 提案手法は,宇宙探査のための非同期探索サイト選択問題をシミュレーションしたものである。 その結果, 外部情報ソースから誤った観測結果が得られても, 効率的な意思決定とロバストなパラメータ推定は, 幅広い実験条件下でも達成できることがわかった。

For robotic decision-making under uncertainty, the balance between exploitation and exploration of available options must be carefully taken into account. In this study, we introduce a new variant of contextual multi-armed bandits called observation-augmented CMABs (OA-CMABs) wherein a decision-making agent can utilize extra outcome observations from an external information source. CMABs model the expected option outcomes as a function of context features and hidden parameters, which are inferred from previous option outcomes. In OA-CMABs, external observations are also a function of context features and thus provide additional evidence about the hidden parameters. Yet, if an external information source is error-prone, the resulting posterior updates can harm decision-making performance unless the presence of errors is considered. To this end, we propose a robust Bayesian inference process for OA-CMABs that is based on the concept of probabilistic data validation. Our approach handles complex mixture model parameter priors and hybrid observation likelihoods for semantic data sources, allowing us to develop validation algorithms based on recently develop probabilistic semantic data association techniques. Furthermore, to more effectively cope with the combined sources of uncertainty in OA-CMABs, we derive a new active inference algorithm for option selection based on expected free energy minimization. This generalizes previous work on active inference for bandit-based robotic decision-making by accounting for faulty observations and non-Gaussian inference. Our approaches are demonstrated on a simulated asynchronous search site selection problem for space exploration. The results show that even if incorrect observations are provided by external information sources, efficient decision-making and robust parameter inference are still achieved in a wide variety of experimental conditions.
翻訳日:2023-12-21 17:47:33 公開日:2023-12-19
# 積分活性化変換によるディープニューラルネットワークの表現力の向上

Improving the Expressive Power of Deep Neural Networks through Integral Activation Transform ( http://arxiv.org/abs/2312.12578v1 )

ライセンス: Link先を確認
Zezhong Zhang, Feng Bao, Guannan Zhang(参考訳) ディープニューラルネットワーク(DNN)の印象的な表現力は、その広範な適用可能性の基盤となっている。 しかし、深層建築の理論的な能力は高いが、訓練の成功によって得られる実用的な表現力はしばしば不足する。 本稿では、連続変数としてのDNNの深さを探索するNeural ODEsから得られた知見に基づいて、連続幅の概念を通じて従来の完全連結DNNを一般化する。 一般化ディープニューラルネットワーク(GDNN)では、各層におけるニューロンの伝統的な概念は連続状態関数に置き換えられる。 重み積分カーネルの有限ランクパラメタライゼーションを用いて、従来のDNNフレームワークの活性化層として積分活性化変換(IAT)を用いてGDNNが得られることを示す。 iatは入力ベクトルをいくつかの基底関数を用いて関数空間にマッピングし、続いて関数空間の非線形活性化を行い、他の基底関数の集合と統合して情報を抽出する。 ReLU非線形性を特徴とする特定の変種であるIAT-ReLUはスカラーReLUの活性化を円滑に一般化する。 特に、iat-reluは連続基底関数を用いると連続的な活性化パターンを示し、dnnのトレーサビリティをスムーズに向上させる。 数値実験により,IAT-ReLUはトレーニング性やスムーズさの点で通常のReLUよりも優れていた。

The impressive expressive power of deep neural networks (DNNs) underlies their widespread applicability. However, while the theoretical capacity of deep architectures is high, the practical expressive power achieved through successful training often falls short. Building on the insights gained from Neural ODEs, which explore the depth of DNNs as a continuous variable, in this work, we generalize the traditional fully connected DNN through the concept of continuous width. In the Generalized Deep Neural Network (GDNN), the traditional notion of neurons in each layer is replaced by a continuous state function. Using the finite rank parameterization of the weight integral kernel, we establish that GDNN can be obtained by employing the Integral Activation Transform (IAT) as activation layers within the traditional DNN framework. The IAT maps the input vector to a function space using some basis functions, followed by nonlinear activation in the function space, and then extracts information through the integration with another collection of basis functions. A specific variant, IAT-ReLU, featuring the ReLU nonlinearity, serves as a smooth generalization of the scalar ReLU activation. Notably, IAT-ReLU exhibits a continuous activation pattern when continuous basis functions are employed, making it smooth and enhancing the trainability of the DNN. Our numerical experiments demonstrate that IAT-ReLU outperforms regular ReLU in terms of trainability and better smoothness.
翻訳日:2023-12-21 17:47:03 公開日:2023-12-19
# IS-DARTS: 正確な測定によるDARTSの安定化

IS-DARTS: Stabilizing DARTS through Precise Measurement on Candidate Importance ( http://arxiv.org/abs/2312.12648v1 )

ライセンス: Link先を確認
Hongyi He, Longjun Liu, Haonan Zhang and Nanning Zheng(参考訳) 既存のNeural Architecture Searchメソッドの中で、DARTSはその効率性と単純さで知られている。 このアプローチでは、重み共有スーパーネットを構築するためにネットワーク表現を連続的に緩和し、わずか数gpuで優れたサブネットを識別できる。 しかし、DARTSの性能低下によりパラメータフリーな操作で満たされたアーキテクチャが劣化し、ロバスト性に大きな課題が残る。 この問題を解決するために、理論的および実験的分析により探索空間における候補重要度を偏りに推定し、情報に基づく測定によりより正確に操作を選択することを明らかにする。 さらに、双レベル最適化における超ネットに対する過度な懸念と非効率なデータ利用もまた、最適以下の結果であることを示した。 サブネットの性能を重視したより現実的な目標を採用し、情報に基づく測定の助けを借りて単純化する。 最後に,DARTSの最適重みの近似誤差を低減するために,スーパーネットの幅を漸進的に縮小する理由を理論的に説明する。 提案手法はIS-DARTSと呼ばれ,DARTSを包括的に改善し,上記の問題を解決する。 NAS-Bench-201とDARTSに基づく探索空間の大規模な実験は、IS-DARTSの有効性を実証している。

Among existing Neural Architecture Search methods, DARTS is known for its efficiency and simplicity. This approach applies continuous relaxation of network representation to construct a weight-sharing supernet and enables the identification of excellent subnets in just a few GPU days. However, performance collapse in DARTS results in deteriorating architectures filled with parameter-free operations and remains a great challenge to the robustness. To resolve this problem, we reveal that the fundamental reason is the biased estimation of the candidate importance in the search space through theoretical and experimental analysis, and more precisely select operations via information-based measurements. Furthermore, we demonstrate that the excessive concern over the supernet and inefficient utilization of data in bi-level optimization also account for suboptimal results. We adopt a more realistic objective focusing on the performance of subnets and simplify it with the help of the information-based measurements. Finally, we explain theoretically why progressively shrinking the width of the supernet is necessary and reduce the approximation error of optimal weights in DARTS. Our proposed method, named IS-DARTS, comprehensively improves DARTS and resolves the aforementioned problems. Extensive experiments on NAS-Bench-201 and DARTS-based search space demonstrate the effectiveness of IS-DARTS.
翻訳日:2023-12-21 17:40:24 公開日:2023-12-19
# 低用量ct再構成のための回転拡張ノイズ2逆法

Rotational Augmented Noise2Inverse for Low-dose Computed Tomography Reconstruction ( http://arxiv.org/abs/2312.12644v1 )

ライセンス: Link先を確認
Hang Xu, Alessandro Perelli(参考訳) 本研究では,低線量CT(LDCT)再構成のための新しい自己監督手法を提案する。 CTスキャン中の患者への放射線線量削減は、低い光子や限られた測定値のため、再建の質が著しく低下するため、重要な課題である。 教師あり深層学習法では、画像中のノイズを除去できるが、高放射能ctスキャンを加えるだけで得られる正確な根拠真理が必要となる。 そこで我々は,畳み込みニューラルネットワーク(CNN)のトレーニングに基礎的真理を必要としない,LDCTのための新しい自己教師型フレームワークを提案する。 ノイズ2逆法 (N2I) に基づいて,CTイメージングシステムにより誘導される回転変換の同変特性をトレーニング損失に適用し,低線量でのCT画像の品質向上を図る。 数値および実験結果から,Sparse View を用いた N2I の再構成精度は低下するが,提案手法は異なる範囲のサンプリング角度で画像品質を向上する。 最後に, RAN2IはN2Iと比較して高画質であり, 実射影データに対するRAN2Iの実験結果は教師付き学習に匹敵する性能を示した。

In this work, we present a novel self-supervised method for Low Dose Computed Tomography (LDCT) reconstruction. Reducing the radiation dose to patients during a CT scan is a crucial challenge since the quality of the reconstruction highly degrades because of low photons or limited measurements. Supervised deep learning methods have shown the ability to remove noise in images but require accurate ground truth which can be obtained only by performing additional high-radiation CT scans. Therefore, we propose a novel self-supervised framework for LDCT, in which ground truth is not required for training the convolutional neural network (CNN). Based on the Noise2Inverse (N2I) method, we enforce in the training loss the equivariant property of rotation transformation, which is induced by the CT imaging system, to improve the quality of the CT image in a lower dose. Numerical and experimental results show that the reconstruction accuracy of N2I with sparse views is degrading while the proposed rotational augmented Noise2Inverse (RAN2I) method keeps better image quality over a different range of sampling angles. Finally, the quantitative results demonstrate that RAN2I achieves higher image quality compared to N2I, and experimental results of RAN2I on real projection data show comparable performance to supervised learning.
翻訳日:2023-12-21 17:40:03 公開日:2023-12-19
# ダイヤモンド中のP1とNV中心のアンサンブルにおける磁気ノイズパワースペクトルの定量化

Quantifying the magnetic noise power spectrum for ensembles of P1 and NV centers in diamond ( http://arxiv.org/abs/2312.12643v1 )

ライセンス: Link先を確認
Ethan Q. Williams, Chandrasekhar Ramanathan(参考訳) carr-purcell-meiboom-gill (cpmg) を動的に分離し、2.5ghzのパルス電子常磁性共鳴(pepr)を用いてダイヤモンド中のp1およびnv中心の磁気ノイズパワースペクトルを測定する。 13mtおよび190mtのhht(high pressure, high temperature)ダイヤモンド試料で,p1mtでは89mtのcvdダイヤモンド試料でストロボスコープで検出したpepr実験を行った。 広い1/\omega$の振る舞いは、最近HPHTダイヤモンドで広く見られるP1中心のクラスター化によるローレンツスペクトルの不均一分布と一致している。 しかし、このクラスタリングがCVDダイヤモンドで起こっているかどうかは不明である。 13mTでは$^{13}$Cの周波数よりも高いが、89mTと190mTでは$^{13}$Cの周波数より低い。我々はCPMGフィルタ関数の高調波を利用して、高域でのパワースペクトルへの$^{13}$Cの寄与の見積もりを改善する技術を開発した。 驚いたことに、CPMGフィルタの高調波で測定された$^{13}$Cのピークは、低調波での測定に基づいて予想されるよりも大きく見える。 有限パルス幅とフリップ角誤差の存在下での手法のロバスト性を評価する。 これらの技術は、化学センシングやナノスケール核磁気共鳴のような様々なアック磁気計測やノイズスペクトル測定に使用できる。

We use Carr-Purcell-Meiboom-Gill (CPMG) dynamical decoupling to measure the magnetic noise power spectra for ensembles of P1 and NV centers in diamond using pulsed electron paramagnetic resonance (pEPR) at 2.5 GHz. The stroboscopically detected pEPR experiments on NV centers were performed on an HPHT (high pressure, high temperature) diamond sample at 13 mT and 190 mT, while the experiments on P1 centers were performed on a CVD (chemical vapor deposition) diamond sample at 89 mT. All power spectra show two distinct features, a broad component that is observed to scale as approximately $1/\omega$, and a prominent peak at the $^{13}$C Larmor precession frequency. The broad $1/\omega$ behavior is consistent with an inhomogeneous distribution of Lorentzian spectra due to clustering of P1 centers, which has recently been shown to be prevalent in HPHT diamond. However, it is unknown if such clustering occurs in CVD diamond. The maximum rate at which we can apply $\pi$ pulses is higher than the $^{13}$C frequency at 13 mT, but is lower than the $^{13}$C frequency at 89 mT and 190 mT. We develop techniques that utilize the higher harmonics of the CPMG filter function to improve our estimate of the $^{13}$C contribution to the power spectrum at the higher fields. Surprisingly, the $^{13}$C peak, when measured with higher harmonics of the CPMG filter, appears larger than expected based on measurements with the lower harmonics. We assess the robustness of our methods in the presence of finite pulse widths and flip angle errors. These techniques could be used in a variety of ac magnetometry and noise spectroscopy measurements such as chemical sensing and nanoscale nuclear magnetic resonance.
翻訳日:2023-12-21 17:39:42 公開日:2023-12-19
# 距離プロファイルによるマッチング

Matching via Distance Profiles ( http://arxiv.org/abs/2312.12641v1 )

ライセンス: Link先を確認
YoonHaeng Hur, Yuehaw Khoo(参考訳) 本稿では,距離プロファイルに基づくマッチング手法を提案し,検討する。 点雲のマッチングでは, 2次マッチングの計算障害を回避し, 線形プログラムを解くことで, 提案手法を容易に実装できる。 また,距離プロファイルを用いて位置と位置のマッチングを行うフレキシブルな手法を提案し,解析する。 さらに,経験的プロセス理論を用いた位置-位置マッチングの文脈における統計的推定誤差解析を提案する。 さらに,提案手法をモデルに適用し,マッチングが成功するための雑音レベルの条件を特徴付けることにより,その雑音安定性を示す。 最後に,提案手法の性能を実証し,合成データと実データを用いた既存手法と比較する。

In this paper, we introduce and study matching methods based on distance profiles. For the matching of point clouds, the proposed method is easily implementable by solving a linear program, circumventing the computational obstacles of quadratic matching. Also, we propose and analyze a flexible way to execute location-to-location matching using distance profiles. Moreover, we provide a statistical estimation error analysis in the context of location-to-location matching using empirical process theory. Furthermore, we apply our method to a certain model and show its noise stability by characterizing conditions on the noise level for the matching to be successful. Lastly, we demonstrate the performance of the proposed method and compare it with some existing methods using synthetic and real data.
翻訳日:2023-12-21 17:39:11 公開日:2023-12-19
# RealCraft: ゼロショットビデオ編集の解決策としての注意制御

RealCraft: Attention Control as A Solution for Zero-shot Long Video Editing ( http://arxiv.org/abs/2312.12635v1 )

ライセンス: Link先を確認
Shutong Jin, Ruiyu Wang, Florian T. Pokorny(参考訳) 大規模テキスト画像生成モデルは高品質な画像の合成において有望な性能を示したが、これらのモデルを画像編集に直接適用することは大きな課題である。 この課題は、追加の時間次元のため、ビデオ編集においてさらに増幅される。 特に、フレーム間の安定したセマンティックレイアウトを維持しながら、既存のバックグラウンドを壊さずに、正確にローカライズされた編集を実行する必要がある。 本稿では,実映像におけるゼロショット編集のための注意制御型手法である \textit{realcraft} を提案する。 プロンプトとフレーム間のクロスアテンションのオブジェクト中心の操作とフレーム内の空間的注意を併用することにより、整合性の向上とともに正確な形状編集を実現する。 我々のモデルは、安定した拡散と共に直接使用することができ、追加のローカライズ情報なしで操作できる。 提案手法は,動画の局所化,高精細化,形状予測,時間一貫性のある編集を64フレームまでの様々な長さの映像で行った。

Although large-scale text-to-image generative models have shown promising performance in synthesizing high-quality images, directly applying these models to image editing remains a significant challenge. This challenge is further amplified in video editing due to the additional dimension of time. Especially for editing real videos as it necessitates maintaining a stable semantic layout across the frames while executing localized edits precisely without disrupting the existing backgrounds. In this paper, we propose \textit{RealCraft}, an attention-control-based method for zero-shot editing in real videos. By employing the object-centric manipulation of cross-attention between prompts and frames and spatial-temporal attention within the frames, we achieve precise shape-wise editing along with enhanced consistency. Our model can be used directly with Stable Diffusion and operates without the need for additional localized information. We showcase our zero-shot attention-control-based method across a range of videos, demonstrating localized, high-fidelity, shape-precise and time-consistent editing in videos of various lengths, up to 64 frames.
翻訳日:2023-12-21 17:39:02 公開日:2023-12-19
# MotionScript: 表現力のある3Dヒューマンモーションのための自然言語記述

MotionScript: Natural Language Descriptions for Expressive 3D Human Motions ( http://arxiv.org/abs/2312.12634v1 )

ライセンス: Link先を確認
Payam Jome Yazdian, Eric Liu, Li Cheng, Angelica Lim(参考訳) 本稿では、人体の動きに対するモーション・トゥ・テキスト変換アルゴリズムと自然言語表現であるMotionScriptを提案する。 motionscriptは、以前の自然言語アプローチよりも、より詳細に、より正確に動きを記述することを目的としている。 多くの動きデータセットは、相対的に客観的で単純な動作を記述し、表現方法のばらつきがほとんどない(例えば、座って歩いたり、ボールをドリブルしたり)。 しかし、クラス内のさまざまな動き(例えば悲しい、踊っている)を含む表現的な行動や、標準的なモーションキャプチャーデータセット(例えば、スタイリスティックウォーキング、手話)の領域外の行動に対しては、より具体的できめ細かい自然言語記述が必要である。 提案するモーションスクリプト記述は、単純なアクションラベルや人間のキャプションではなく、自然言語による直接記述を提供するという点で、既存の自然言語表現とは異なる。 我々の知る限りでは、これは訓練データを必要としない3Dモーションを自然言語記述に翻訳する最初の試みである。 実験により, テキスト・トゥ・モーション・ニューラルタスクにおいてMotionScript表現が使用される場合, 身体の動きをより正確に再構成し, 未知の複雑な動きを生成するために, 大規模言語モデルを用いることができた。

This paper proposes MotionScript, a motion-to-text conversion algorithm and natural language representation for human body motions. MotionScript aims to describe movements in greater detail and with more accuracy than previous natural language approaches. Many motion datasets describe relatively objective and simple actions with little variation on the way they are expressed (e.g. sitting, walking, dribbling a ball). But for expressive actions that contain a diversity of movements in the class (e.g. being sad, dancing), or for actions outside the domain of standard motion capture datasets (e.g. stylistic walking, sign-language), more specific and granular natural language descriptions are needed. Our proposed MotionScript descriptions differ from existing natural language representations in that it provides direct descriptions in natural language instead of simple action labels or high-level human captions. To the best of our knowledge, this is the first attempt at translating 3D motions to natural language descriptions without requiring training data. Our experiments show that when MotionScript representations are used in a text-to-motion neural task, body movements are more accurately reconstructed, and large language models can be used to generate unseen complex motions.
翻訳日:2023-12-21 17:38:40 公開日:2023-12-19
# 多忠実ベイズ最適化の長期挙動

Long-run Behaviour of Multi-fidelity Bayesian Optimisation ( http://arxiv.org/abs/2312.12633v1 )

ライセンス: Link先を確認
Gbetondji J-S Dovonon, Jakob Zeitler(参考訳) MFBO(Multi-fidelity Bayesian Optimisation)は、一般に単一忠実ベイズ最適化(SFBO)よりも早く収束することが示されている(Poloczek et al. (2017))。 最近のベンチマーク論文に触発されて、特定のシナリオ(Mikkola et al. (2023), Eggensperger et al. (2021))でパフォーマンスが低くなるという文献の観測に基づいて、MFBOの長期的挙動を調査している。 長期にわたるMBFOの低パフォーマンスは、多くの研究課題、特に低パフォーマンスの開始時期を特定できない場合に、その適用を著しく損なう可能性がある。 簡単なベンチマークスタディを作成し,経験的な結果を示し,低パフォーマンスのシナリオと考えられる理由について論じる。

Multi-fidelity Bayesian Optimisation (MFBO) has been shown to generally converge faster than single-fidelity Bayesian Optimisation (SFBO) (Poloczek et al. (2017)). Inspired by recent benchmark papers, we are investigating the long-run behaviour of MFBO, based on observations in the literature that it might under-perform in certain scenarios (Mikkola et al. (2023), Eggensperger et al. (2021)). An under-performance of MBFO in the long-run could significantly undermine its application to many research tasks, especially when we are not able to identify when the under-performance begins. We create a simple benchmark study, showcase empirical results and discuss scenarios and possible reasons of under-performance.
翻訳日:2023-12-21 17:38:17 公開日:2023-12-19
# 限定データ取得によるシリンダー間流体流のデータ駆動型発見

Data-driven discovery with Limited Data Acquisition for fluid flow across cylinder ( http://arxiv.org/abs/2312.12630v1 )

ライセンス: Link先を確認
Dr. Himanshu Singh(参考訳) 動的モード分解(dmd)による動的システムの制御原理の抽出における中心的な課題の一つとして,データ可用性の限界,あるいはデータ取得の制限について述べる。 データ取得に制限のある力学系の支配原理を発見することに興味があるため、我々は、ガウス確率行列の概念を用いてシリンダー実験における標準流体流に対する支配的なクープマンモードを復元する、クープマン作用素に基づくカーネル化拡張MD(KeDMD)の変種を提供する。 従来のカーネル関数であるgaussian radial basis function kernelは残念ながら、限られたデータ取得でkedmdを実行するというシナリオでは、希望するkoopmanモードを生成できないことが判明した。 しかしながら、ラプラシアン核関数は、上記の実験のためのデータセットスナップショットの観点で限られたデータが提供された場合、所望のkoopmanモードをうまく生成し、これらのエキサイティングな実験結果の報告を目的としている。 本稿では、正規化確率から生じる再生カーネルヒルベルト空間(RKHS)と相互作用するクープマン作用素の機能についても検討する。 Lebesgue measure $d\mu_{\sigma,1,\mathbb{C}^n}(z)=(2\pi\sigma^2)^{-n}\exp\left(-\fracfracfrac|z\|_2}{\sigma}\right)dV(z)$ は、円柱実験における流体流動のコプマンモードを決定するために$L^2-$sense に埋め込まれる。 正規化ラプラシアン測度 $d\mu_{\sigma,1,\mathbb{C}^n}(z)$ で生成される RKHS 上のクープマン作用素の作用素論的性質について調べる。 その際、正規化ラプラシアン測度によって生成される RKHS 上のクープマン作用素のコンパクト化と閉化性を提供する。

One of the central challenge for extracting governing principles of dynamical system via Dynamic Mode Decomposition (DMD) is about the limit data availability or formally called as Limited Data Acquisition in the present paper. In the interest of discovering the governing principles for a dynamical system with limited data acquisition, we provide a variant of Kernelized Extended DMD (KeDMD) based on the Koopman operator which employ the notion of Gaussian random matrix to recover the dominant Koopman modes for the standard fluid flow across cylinder experiment. It turns out that the traditional kernel function, Gaussian Radial Basis Function Kernel, unfortunately, is not able to generate the desired Koopman modes in the scenario of executing KeDMD with limited data acquisition. However, the Laplacian Kernel Function successfully generates the desired Koopman modes when limited data is provided in terms of data-set snapshot for the aforementioned experiment and this manuscripts serves the purpose of reporting these exciting experimental insights. This paper also explores the functionality of the Koopman operator when it interacts with the reproducing kernel Hilbert space (RKHS) that arises from the normalized probability Lebesgue measure $d\mu_{\sigma,1,\mathbb{C}^n}(z)=(2\pi\sigma^2)^{-n}\exp\left(-\frac{\|z\|_2}{\sigma}\right)dV(z)$ when it is embedded in $L^2-$sense for the holomorphic functions over $\mathbb{C}^n$, in the aim of determining the Koopman modes for fluid flow across cylinder experiment. We explore the operator-theoretic characterizations of the Koopman operator on the RKHS generated by the normalized Laplacian measure $d\mu_{\sigma,1,\mathbb{C}^n}(z)$ in the $L^2-$sense. In doing so, we provide the compactification & closable characterization of Koopman operator over the RKHS generated by the normalized Laplacian measure in the $L^2-$sense.
翻訳日:2023-12-21 17:38:04 公開日:2023-12-19
# 局所位相誤差推定を用いたディジタルツインニングのための無線レイトレーシングの校正

Calibrating Wireless Ray Tracing for Digital Twinning using Local Phase Error Estimates ( http://arxiv.org/abs/2312.12625v1 )

ライセンス: Link先を確認
Clement Ruah, Osvaldo Simeone, Jakob Hoydis, Bashir Al-Hashimi(参考訳) シミュレーションインテリジェンスの原理を具現化し、デジタルツイン(DT)システムは物理システムの高忠実な仮想モデルを構築し維持する。 本稿では,次世代無線システムにおける無線アクセスネットワーク(RAN)セグメントのDTを可能にする技術として広く見なされているレイトレーシング(RT)に焦点を当てる。 RTはチャネル条件をシミュレートし、データ拡張と予測ベースの送信を可能にする。 しかし、RTヒンジの有効性は、RTが想定する電磁特性の実際のチャネル条件への適応(キャリブレーションと呼ばれるプロセス)に影響を及ぼす。 RTキャリブレーションの主な課題は、RTソフトウェアに供給される幾何学的モデルの小さな相違が、シミュレーションされた伝搬経路の予測位相の精度を妨げているという事実である。 この問題の既存の解決策は、チャネル電力プロファイルに依存するか、相情報を無視するか、あるいはシミュレーションされた位相をキャリブレーションに十分正確なものと仮定してチャネル応答を操作する。 本稿では,RT生成チャネル応答における位相誤差を推定・補償する,新しいチャネル応答に基づく手法を提案する。 提案手法は,位相誤差のない決定論的モデルと均一な位相誤差を持つ確率的モデルの間にブリッジする事前位相誤差分布を柔軟に選択した変動予測最大化アルゴリズムに基づく。 このアルゴリズムは計算効率が高く、Sionnaライブラリで利用可能なオープンソースの差別化可能なRTソフトウェアを活用して、RT予測の精度で既存の手法より優れていることを示す。

Embodying the principle of simulation intelligence, digital twin (DT) systems construct and maintain a high-fidelity virtual model of a physical system. This paper focuses on ray tracing (RT), which is widely seen as an enabling technology for DTs of the radio access network (RAN) segment of next-generation disaggregated wireless systems. RT makes it possible to simulate channel conditions, enabling data augmentation and prediction-based transmission. However, the effectiveness of RT hinges on the adaptation of the electromagnetic properties assumed by the RT to actual channel conditions, a process known as calibration. The main challenge of RT calibration is the fact that small discrepancies in the geometric model fed to the RT software hinder the accuracy of the predicted phases of the simulated propagation paths. Existing solutions to this problem either rely on the channel power profile, hence disregarding phase information, or they operate on the channel responses by assuming the simulated phases to be sufficiently accurate for calibration. This paper proposes a novel channel response-based scheme that, unlike the state of the art, estimates and compensates for the phase errors in the RT-generated channel responses. The proposed approach builds on the variational expectation maximization algorithm with a flexible choice of the prior phase-error distribution that bridges between a deterministic model with no phase errors and a stochastic model with uniform phase errors. The algorithm is computationally efficient, and is demonstrated, by leveraging the open-source differentiable RT software available within the Sionna library, to outperform existing methods in terms of the accuracy of RT predictions.
翻訳日:2023-12-21 17:37:13 公開日:2023-12-19
# 実生活に関係できる」:「正義中心のデータ構造とアルゴリズム」に対する態度と期待

"It Can Relate to Real Lives": Attitudes and Expectations in Justice-Centered Data Structures & Algorithms for Non-Majors ( http://arxiv.org/abs/2312.12620v1 )

ライセンス: Link先を確認
Anna Batra, Iris Zhou, Suh Young Choi, Chongjiu Gao, Yanbing Xiao, Sonia Fereidooni, Kevin Lin(参考訳) 先行研究は、倫理、アイデンティティ、政治的ビジョンを強調することで、ポストセカンダリー・コンピューティング教育に対するより正義中心のアプローチを主張した。 本経験報告では、性別や人種の多様性を持つ中等教育の学生が、学部の非コンピュータサイエンス専攻向けに設計された正義中心のデータ構造とアルゴリズムをどう経験するかを検討する。 各四半期の開始と終了に収集された学生調査データの2/4を定量的・定性的に分析し,学生の態度と期待について報告する。 クラス全体では,自信の計算と帰属意識という,次のような態度が顕著に増加した。 女性、非バイナリー系、その他の学生も男性(wnb+)と同一視される傾向にあったが、この四半期の終わりには男性よりも信頼度と帰属意識が著しく低下した。 黒、ラテックス、中東、北アフリカ、ネイティブアメリカン、パシフィックアイランド(BLMNPI)の学生は、白人とアジア人の学生と比べて有意な差はなかった。 また,本授業に先立って,学生の期待を満たした自己反射についても分析した。 学生の大多数はコースに対する肯定的な全体的な感情を報告し、多くの学生はジャスティス中心のアプローチを特に評価したが、プログラムの実施と面接の準備に関してもっと実践することを望んだ。 実践の意味を議論し,反復的設計を通じて,計算倫理に対する評価と職業的準備への欲求を両立させるための政治的ビジョンを述べる。

Prior work has argued for a more justice-centered approach to postsecondary computing education by emphasizing ethics, identity, and political vision. In this experience report, we examine how postsecondary students of diverse gender and racial identities experience a justice-centered Data Structures and Algorithms designed for undergraduate non-computer science majors. Through a quantitative and qualitative analysis of two quarters of student survey data collected at the start and end of each quarter, we report on student attitudes and expectations. Across the class, we found a significant increase in the following attitudes: computing confidence and sense of belonging. While women, non-binary, and other students not identifying as men (WNB+) also increased in these areas, they still reported significantly lower confidence and sense of belonging than men at the end of the quarter. Black, Latinx, Middle Eastern and North African, Native American, and Pacific Islander (BLMNPI) students had no significant differences compared to white and Asian students. We also analyzed end-of-quarter student self-reflections on their fulfillment of expectations prior to taking the course. While the majority of students reported a positive overall sentiment about the course and many students specifically appreciated the justice-centered approach, some desired more practice with program implementation and interview preparation. We discuss implications for practice and articulate a political vision for holding both appreciation for computing ethics and a desire for professional preparation together through iterative design.
翻訳日:2023-12-21 17:36:50 公開日:2023-12-19
# スライド画像全体における前立腺癌診断のための階層的視覚トランスフォーマー

Hierarchical Vision Transformers for Context-Aware Prostate Cancer Grading in Whole Slide Images ( http://arxiv.org/abs/2312.12619v1 )

ライセンス: Link先を確認
Cl\'ement Grisi, Geert Litjens, Jeroen van der Laak(参考訳) ビジョントランスフォーマー (ViT) はコンピュータビジョンの新しい時代を迎え、多くの課題において非並列的な性能を示している。 しかし、それらの計算病理学への実践的な展開は、スライド画像全体(WSI)の重大さに大きく制約されており、結果として長い入力シーケンスが得られる。 変換器は長い文書に適用すると同様の制限に直面し、階層変換器はそれを回避するために導入された。 WSIとそれら固有の階層構造との類似性を考えると、階層型視覚変換器(H-ViT)は計算病理学において有望な解である。 この研究はH-ViTsの能力を掘り下げ、WSIsにおける前立腺がんのグレーディングの効率を評価する。 その結果,既存の最先端ソリューションとの競合性能が得られた。

Vision Transformers (ViTs) have ushered in a new era in computer vision, showcasing unparalleled performance in many challenging tasks. However, their practical deployment in computational pathology has largely been constrained by the sheer size of whole slide images (WSIs), which result in lengthy input sequences. Transformers faced a similar limitation when applied to long documents, and Hierarchical Transformers were introduced to circumvent it. Given the analogous challenge with WSIs and their inherent hierarchical structure, Hierarchical Vision Transformers (H-ViTs) emerge as a promising solution in computational pathology. This work delves into the capabilities of H-ViTs, evaluating their efficiency for prostate cancer grading in WSIs. Our results show that they achieve competitive performance against existing state-of-the-art solutions.
翻訳日:2023-12-21 17:36:24 公開日:2023-12-19
# オンライン変分逐次モンテカルロ

Online Variational Sequential Monte Carlo ( http://arxiv.org/abs/2312.12616v1 )

ライセンス: Link先を確認
Alessandro Mastrototaro and Jimmy Olsson(参考訳) シリアルデータの最も古典的な生成モデルであるステートスペースモデル(ssm)は、aiと統計機械学習において基本である。 SSMでは、パラメータ学習や潜在状態推論のあらゆる形態は、一般に複雑な潜在状態の後部の計算を伴う。 本研究では, 粒子法と変分推論を組み合わせることで, 計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する, 変分連続モンテカルロ法(VSMC)を構築した。 標準VSMCはオフラインモードで動作するが、与えられたデータの繰り返し処理により、確率的近似を用いて、VSMCシュロゲートELBOの勾配の近似を時間内に分散し、データのストリームの存在下でオンライン学習を可能にする。 これにより、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することが可能な、オンラインVSMCアルゴリズムが実現される。 さらに,このアルゴリズムの収束特性を,データの個数が無限大になりがちであることを示す厳密な理論結果と,その収束特性とバッチ処理環境における有用性に関する数値イラストを提供する。

Being the most classical generative model for serial data, state-space models (SSM) are fundamental in AI and statistical machine learning. In SSM, any form of parameter learning or latent state inference typically involves the computation of complex latent-state posteriors. In this work, we build upon the variational sequential Monte Carlo (VSMC) method, which provides computationally efficient and accurate model parameter estimation and Bayesian latent-state inference by combining particle methods and variational inference. While standard VSMC operates in the offline mode, by re-processing repeatedly a given batch of data, we distribute the approximation of the gradient of the VSMC surrogate ELBO in time using stochastic approximation, allowing for online learning in the presence of streams of data. This results in an algorithm, online VSMC, that is capable of performing efficiently, entirely on-the-fly, both parameter estimation and particle proposal adaptation. In addition, we provide rigorous theoretical results describing the algorithm's convergence properties as the number of data tends to infinity as well as numerical illustrations of its excellent convergence properties and usefulness also in batch-processing settings.
翻訳日:2023-12-21 17:36:08 公開日:2023-12-19
# 既存の量子位置検証プロトコルを任意伝送損失に対して安全にする

Making Existing Quantum Position Verification Protocols Secure Against Arbitrary Transmission Loss ( http://arxiv.org/abs/2312.12614v1 )

ライセンス: Link先を確認
Rene Allerstorfer, Andreas Bluhm, Harry Buhrman, Matthias Christandl, Lloren\c{c} Escol\`a-Farr\`as, Florian Speelman, Philip Verduyn Lunel(参考訳) 信号損失は、選択されたプロトコルにロス耐性がない場合に量子暗号のセキュリティに重大な脅威をもたらす。 量子位置検証(QPV)プロトコルでは、比較的小さな損失率でさえセキュリティを損なう可能性がある。 したがって、事実上達成可能な損失率の下でセキュアなプロトコルを見つけることが目標だ。 本研究では,QPVプロトコルの通常の構造を変更し,BB84プロトコル(\mathrm{QPV}_{\mathrm{BB84}}^{f}$)にインスパイアされた実用的な候補プロトコルを含むプロトコルのクラスに対して,検証器と証明器間の通信損失が潜在的に高いことを証明した。 この修正は、光子の存在検出、証明者での小さな時間遅延、進行前にプレイすることを約束することを含み、証明者の実験室への全体的な損失率を減少させる。 適応されたプロトコル c-$\mathrm{QPV}_{\mathrm{BB84}}^{f}$ は、適応戦略を使った攻撃者に対しても、強力なセキュリティ保証を備えた事実上実行可能なQPVプロトコルとなる。 検証者と証明者の間の損失率は、主にそれらの距離によって予測されるので、より長い距離での安全なQPVが可能となる。 また、必要な光子の存在検出の実装も可能で、QPVにおけるすべての主要な実践的問題を解くプロトコルとしてc-$\mathrm{QPV}_{\mathrm{BB84}}^{f} が用いられる。 最後に,実験的な側面を議論し,パラメータ推定を行う。

Signal loss poses a significant threat to the security of quantum cryptography when the chosen protocol lacks loss-tolerance. In quantum position verification (QPV) protocols, even relatively small loss rates can compromise security. The goal is thus to find protocols that remain secure under practically achievable loss rates. In this work, we modify the usual structure of QPV protocols and prove that this modification makes the potentially high transmission loss between the verifiers and the prover security-irrelevant for a class of protocols that includes a practically-interesting candidate protocol inspired by the BB84 protocol ($\mathrm{QPV}_{\mathrm{BB84}}^{f}$). This modification, which involves photon presence detection, a small time delay at the prover, and a commitment to play before proceeding, reduces the overall loss rate to just the prover's laboratory. The adapted protocol c-$\mathrm{QPV}_{\mathrm{BB84}}^{f}$ then becomes a practically feasible QPV protocol with strong security guarantees, even against attackers using adaptive strategies. As the loss rate between the verifiers and prover is mainly dictated by the distance between them, secure QPV over longer distances becomes possible. We also show possible implementations of the required photon presence detection, making c-$\mathrm{QPV}_{\mathrm{BB84}}^{f}$ a protocol that solves all major practical issues in QPV. Finally, we discuss experimental aspects and give parameter estimations.
翻訳日:2023-12-21 17:35:50 公開日:2023-12-19
# 計測に基づくフォトニック量子プロセッサによる散乱振幅のコヒーレント量子計算に向けて

Toward coherent quantum computation of scattering amplitudes with a measurement-based photonic quantum processor ( http://arxiv.org/abs/2312.12613v1 )

ライセンス: Link先を確認
Ra\'ul A. Brice\~no, Robert G. Edwards, Miller Eaton, Carlos Gonz\'alez-Arciniegas, Olivier Pfister, George Siopsis(参考訳) 近年、強く相互作用する理論の性質を研究するために量子シミュレーションの応用が開発されている。 これは2つの要因によって推進されている:一方、理論家から古典的計算を用いて研究するのが非常に難しい物理観測装置へのアクセスの必要性、他方、量子ハードウェアはより大きなシステムに対してますます信頼性と拡張性が増している。 本研究では,現在格子QCDを経由せず,ジェファーソン研究所の実験プログラム,将来の電子イオン衝突型加速器,その他の加速器施設の中核にある散乱可観測物質を量子光学シミュレーションで研究する可能性について論じる。 計測に基づくフォトニック量子コンピューティングの最近の進歩は、要求されるエキゾチックゲートの決定論的生成と単一フォトニック量子プロセッサへの実装に活用できることを示した。

In recent years, applications of quantum simulation have been developed to study properties of strongly interacting theories. This has been driven by two factors: on the one hand, needs from theorists to have access to physical observables that are prohibitively difficult to study using classical computing; on the other hand, quantum hardware becoming increasingly reliable and scalable to larger systems. In this work, we discuss the feasibility of using quantum optical simulation for studying scattering observables that are presently inaccessible via lattice QCD and are at the core of the experimental program at Jefferson Lab, the future Electron-Ion Collider, and other accelerator facilities. We show that recent progress in measurement-based photonic quantum computing can be leveraged to provide deterministic generation of required exotic gates and implementation in a single photonic quantum processor.
翻訳日:2023-12-21 17:35:21 公開日:2023-12-19
# 連合学習におけるサーバモメンタムの役割について

On the Role of Server Momentum in Federated Learning ( http://arxiv.org/abs/2312.12670v1 )

ライセンス: Link先を確認
Jianhui Sun, Xidong Wu, Heng Huang, Aidong Zhang(参考訳) Federated Averaging (FedAvg)は、重要なクライアントシステムの不均一性とデータ不均一性に遭遇する際に収束問題を経験することが知られている。 サーバのモーメントは効果的な緩和として提案されている。 しかし、既存のサーバの運動量は運動量定式化において制限的であり、ハイパーパラメータを適切にスケジュールせず、システムの均質な設定にのみ焦点をあてる。 本稿では,サーバの運動量に関する一般的な枠組みを提案する。 (a)フェデレーション学習(fl)において未熟な運動量スキームの大規模クラスをカバーしている。 (b)人気のあるステージワイズハイパーパラメータスケジューラを可能にする。 c)ヘテロジニアスおよび非同期ローカルコンピューティングを可能にする。 提案するフレームワークに対して厳密な収束解析を行う。 我々の知る限り、これはハイパーパラメータスケジューラとシステム不均一性を用いてサーバの運動量のパフォーマンスを徹底的に解析する最初の研究である。 広範な実験により,提案手法の有効性が検証された。

Federated Averaging (FedAvg) is known to experience convergence issues when encountering significant clients system heterogeneity and data heterogeneity. Server momentum has been proposed as an effective mitigation. However, existing server momentum works are restrictive in the momentum formulation, do not properly schedule hyperparameters and focus only on system homogeneous settings, which leaves the role of server momentum still an under-explored problem. In this paper, we propose a general framework for server momentum, that (a) covers a large class of momentum schemes that are unexplored in federated learning (FL), (b) enables a popular stagewise hyperparameter scheduler, (c) allows heterogeneous and asynchronous local computing. We provide rigorous convergence analysis for the proposed framework. To our best knowledge, this is the first work that thoroughly analyzes the performances of server momentum with a hyperparameter scheduler and system heterogeneity. Extensive experiments validate the effectiveness of our proposed framework.
翻訳日:2023-12-21 17:29:07 公開日:2023-12-19
# フォワードアルゴリズムのための畳み込みチャネル間競合学習

Convolutional Channel-wise Competitive Learning for the Forward-Forward Algorithm ( http://arxiv.org/abs/2312.12668v1 )

ライセンス: Link先を確認
Andreas Papachristodoulou, Christos Kyrkou, Stelios Timotheou, Theocharis Theocharides(参考訳) 深層ニューラルネットワークのトレーニングに一般的に使用されるバックプロパゲーション(BP)の問題を軽減するために、フォワードフォワード(FF)アルゴリズムが最近提案されている。 しかし、その現在の定式化は、負のデータの生成、収束の緩やかさ、複雑なタスクにおける不適切なパフォーマンスなどの制限を示す。 本稿では,画像分類のための畳み込みニューラルネットワークの文脈において,チャネル指向の競合学習を活用し,ffの主な考え方を取り上げ,それらを改善する。 競争学習を促進し、負のデータ構築の必要性をなくす階層的損失関数が導入された。 合成特徴の学習と特徴空間分割の両立を図るため,競合学習プロセスを補完するチャネルワイド特徴分離器と抽出器ブロックを提案する。 MNIST, Fashion-MNIST, CIFAR-10, CIFAR-100の試験誤差は0.58%, 7.69%, 21.89%, 48.77%であった。 本手法は,ff学習とbp法の性能差を橋渡しし,より効率的で柔軟な学習を可能にするために,有用な表現を階層的に学習する手法の可能性を示唆する。

The Forward-Forward (FF) Algorithm has been recently proposed to alleviate the issues of backpropagation (BP) commonly used to train deep neural networks. However, its current formulation exhibits limitations such as the generation of negative data, slower convergence, and inadequate performance on complex tasks. In this paper, we take the main ideas of FF and improve them by leveraging channel-wise competitive learning in the context of convolutional neural networks for image classification tasks. A layer-wise loss function is introduced that promotes competitive learning and eliminates the need for negative data construction. To enhance both the learning of compositional features and feature space partitioning, a channel-wise feature separator and extractor block is proposed that complements the competitive learning process. Our method outperforms recent FF-based models on image classification tasks, achieving testing errors of 0.58%, 7.69%, 21.89%, and 48.77% on MNIST, Fashion-MNIST, CIFAR-10 and CIFAR-100 respectively. Our approach bridges the performance gap between FF learning and BP methods, indicating the potential of our proposed approach to learn useful representations in a layer-wise modular fashion, enabling more efficient and flexible learning.
翻訳日:2023-12-21 17:28:51 公開日:2023-12-19
# ソフトウェアにおける悪質な署名を構造的相互作用から発見する

Discovering Malicious Signatures in Software from Structural Interactions ( http://arxiv.org/abs/2312.12667v1 )

ライセンス: Link先を確認
Chenzhong Yin, Hantang Zhang, Mingxi Cheng, Xiongye Xiao, Xinghe Chen, Xin Ren, Paul Bogdan(参考訳) マルウェアは、OSを破壊したり無効にしたり、機密性の高いユーザー情報を盗んだり、価値あるディスクスペースを占有することができる。 しかし、静的ベースや動的ベースのアプローチのような現在のマルウェア検出手法では、新しく開発された(`ゼロデイ)マルウェアの特定が困難であり、カスタマイズされた仮想マシン(VM)環境によって制限されている。 これらの限界を克服するために,深層学習,数学的手法,ネットワークサイエンスを活用した新しいマルウェア検出手法を提案する。 提案手法は静的および動的解析に焦点をあて,LLVM(Lower-Level Virtual Machine)を用いて複雑なネットワーク内のアプリケーションをプロファイリングする。 生成されたネットワークトポロジはGraphSAGEアーキテクチャに入力され、良質なソフトウェアアプリケーションと悪質なソフトウェアアプリケーションを効率的に区別する。 重要な点として、GraphSAGEモデルはネットワークのトポロジを解析して予測し、最先端のマルウェアを検出し、VMの実行中に潜在的損傷を防止できる。 本手法を評価するために,24,376のアプリケーション(特にc/c++で書かれた)のソースコードを含むデータセットについて検討を行った。 その結果、受信機動作特性曲線(AUROC)の99.85%のエリアで高い検出性能を示した。 我々のアプローチは、現在のマルウェア検出方法と比較して、より正確で効率的なソリューションを提供する、マルウェア検出の大幅な改善を示している。

Malware represents a significant security concern in today's digital landscape, as it can destroy or disable operating systems, steal sensitive user information, and occupy valuable disk space. However, current malware detection methods, such as static-based and dynamic-based approaches, struggle to identify newly developed (``zero-day") malware and are limited by customized virtual machine (VM) environments. To overcome these limitations, we propose a novel malware detection approach that leverages deep learning, mathematical techniques, and network science. Our approach focuses on static and dynamic analysis and utilizes the Low-Level Virtual Machine (LLVM) to profile applications within a complex network. The generated network topologies are input into the GraphSAGE architecture to efficiently distinguish between benign and malicious software applications, with the operation names denoted as node features. Importantly, the GraphSAGE models analyze the network's topological geometry to make predictions, enabling them to detect state-of-the-art malware and prevent potential damage during execution in a VM. To evaluate our approach, we conduct a study on a dataset comprising source code from 24,376 applications, specifically written in C/C++, sourced directly from widely-recognized malware and various types of benign software. The results show a high detection performance with an Area Under the Receiver Operating Characteristic Curve (AUROC) of 99.85%. Our approach marks a substantial improvement in malware detection, providing a notably more accurate and efficient solution when compared to current state-of-the-art malware detection methods.
翻訳日:2023-12-21 17:28:27 公開日:2023-12-19
# モバイルセンシングによる健康推論のためのインクリメンタル半教師付きフェデレーション学習

Incremental Semi-supervised Federated Learning for Health Inference via Mobile Sensing ( http://arxiv.org/abs/2312.12666v1 )

ライセンス: Link先を確認
Guimin Dong, Lihua Cai, Mingyue Tang, Laura E. Barnes, and Mehdi Boukhechba(参考訳) モバイルセンシングは、多様なスマートセンサーを活用して、人間の行動や環境状況に関するきめ細かい情報を捉えることで、健康推測問題(例えばインフルエンザのような症状認識)の有望な解決策として現れる。 マシンラーニングモデルの集中トレーニングは、データの漏洩や誤操作によって、モバイルユーザの機密情報をプライバシリスク下に置くことができる。 フェデレーション学習(fl)は、モバイルデバイスがローカルなプライベートデータを露出することなく、グローバルなモデルを協調的に学習することを可能にする。 しかし,モバイルセンシングを用いたデバイス上でのfl展開には課題がある。 1) 長期かつ連続的に収集されたモバイルセンシングデータは、センシング対象(例えば、人間)が内部及び/又は外部刺激の結果として異なる行動を持つため、ドメインシフトを示すことができる。 2 利用可能なすべてのデータを用いたモデル再訓練は、計算とメモリ負担を増大させる。 3) 注釈付きクラウドソースデータの空間性はFLの頑丈さを損なう。 本研究では,半教師付き半教師付きフェデレート学習アルゴリズムであるFedMobileを提案する。 インフルエンザ様症状認識のための実世界のモバイルセンシングデータセットを用いてFedMobileを評価する。 実験の結果,feedmobile が学習したモデルが,選択したベースライン法と比較して最高の結果を得た。

Mobile sensing appears as a promising solution for health inference problem (e.g., influenza-like symptom recognition) by leveraging diverse smart sensors to capture fine-grained information about human behaviors and ambient contexts. Centralized training of machine learning models can place mobile users' sensitive information under privacy risks due to data breach and misexploitation. Federated Learning (FL) enables mobile devices to collaboratively learn global models without the exposure of local private data. However, there are challenges of on-device FL deployment using mobile sensing: 1) long-term and continuously collected mobile sensing data may exhibit domain shifts as sensing objects (e.g. humans) have varying behaviors as a result of internal and/or external stimulus; 2) model retraining using all available data may increase computation and memory burden; and 3) the sparsity of annotated crowd-sourced data causes supervised FL to lack robustness. In this work, we propose FedMobile, an incremental semi-supervised federated learning algorithm, to train models semi-supervisedly and incrementally in a decentralized online fashion. We evaluate FedMobile using a real-world mobile sensing dataset for influenza-like symptom recognition. Our empirical results show that FedMobile-trained models achieve the best results in comparison to the selected baseline methods.
翻訳日:2023-12-21 17:28:00 公開日:2023-12-19
# UnionDet: リアルタイムヒューマンオブジェクトインタラクション検出を目指すUnion-Level Detector

UnionDet: Union-Level Detector Towards Real-Time Human-Object Interaction Detection ( http://arxiv.org/abs/2312.12664v1 )

ライセンス: Link先を確認
Bumsoo Kim, Taeho Choi, Jaewoo Kang, Hyunwoo J. Kim(参考訳) ディープニューラルネットワークの最近の進歩は、画像から個々の物体を検出することに大きく進歩している。 しかし、物体検出は視覚シーンを完全に理解するには不十分である。 より深い視覚的理解に向けて、物体、特に人間と物体の相互作用は不可欠である。 ほとんどの先行研究はこの情報をボトムアップアプローチで取得し、まずオブジェクトを検出し、オブジェクトのペアリングによって対話を逐次予測する。 これはHOI検出推定時間における大きなボトルネックである。 この問題に対処するために,新たなユニオンレベル検出器を用いたHOI検出のための一段階メタアーキテクチャであるUnionDetを提案する。 V-COCO と HICO-DET という2つの公開データセット上での最先端の手法よりも優れている一方で, 相互作用予測時間 4x~14x の大幅な削減が見られた。

Recent advances in deep neural networks have achieved significant progress in detecting individual objects from an image. However, object detection is not sufficient to fully understand a visual scene. Towards a deeper visual understanding, the interactions between objects, especially humans and objects are essential. Most prior works have obtained this information with a bottom-up approach, where the objects are first detected and the interactions are predicted sequentially by pairing the objects. This is a major bottleneck in HOI detection inference time. To tackle this problem, we propose UnionDet, a one-stage meta-architecture for HOI detection powered by a novel union-level detector that eliminates this additional inference stage by directly capturing the region of interaction. Our one-stage detector for human-object interaction shows a significant reduction in interaction prediction time 4x~14x while outperforming state-of-the-art methods on two public datasets: V-COCO and HICO-DET.
翻訳日:2023-12-21 17:27:38 公開日:2023-12-19
# Misalign, Contrast, Distill:Language-Image Pretrainingにおける誤解の再考

Misalign, Contrast then Distill: Rethinking Misalignments in Language-Image Pretraining ( http://arxiv.org/abs/2312.12661v1 )

ライセンス: Link先を確認
Bumsoo Kim, Yeonsik Jo, Jinhyung Kim, Seung Hwan Kim(参考訳) コントラスト言語-画像事前学習は、Webから未修正画像-テキストペアで視覚とテキストエンコーダを訓練するための顕著なアプローチとして登場した。 データ効率を向上させるため、最近の取り組みでは、画像のランダムな表示を含む追加の監督用語が導入されている。 しかし、画像増強プロセスはテキストの対応に気づいていないため、この手順はトレーニング中に様々な画像テキストの不一致を引き起こす可能性がある。 以前の方法は、この矛盾を無視するか、トレーニング中の不一致の影響を軽減するために外部モデルを導入した。 対照的に、これらのミスアライメントを付加的なトレーニング源として活用する新しい計量学習手法を提案し、これを「Misalign, Contrast then Distill(MCD)」と呼ぶ。 拡張画像とそのテキストを単純な正のペアとして扱う従来の方法とは異なり、MDDは増大による誤認識の連続的なスケールを予測する。 提案するmcdは,複数の分類と下流データセットの検索において最先端の転送性を実現する。

Contrastive Language-Image Pretraining has emerged as a prominent approach for training vision and text encoders with uncurated image-text pairs from the web. To enhance data-efficiency, recent efforts have introduced additional supervision terms that involve random-augmented views of the image. However, since the image augmentation process is unaware of its text counterpart, this procedure could cause various degrees of image-text misalignments during training. Prior methods either disregarded this discrepancy or introduced external models to mitigate the impact of misalignments during training. In contrast, we propose a novel metric learning approach that capitalizes on these misalignments as an additional training source, which we term "Misalign, Contrast then Distill (MCD)". Unlike previous methods that treat augmented images and their text counterparts as simple positive pairs, MCD predicts the continuous scales of misalignment caused by the augmentation. Our extensive experimental results show that our proposed MCD achieves state-of-the-art transferability in multiple classification and retrieval downstream datasets.
翻訳日:2023-12-21 17:27:11 公開日:2023-12-19
# ポスト編集は人間の翻訳より速いのか?

Is post-editing really faster than human translation? ( http://arxiv.org/abs/2312.12660v1 )

ライセンス: Link先を確認
Silvia Terribile(参考訳) 時間効率はローカライゼーション業界にとって最重要であり、より速いターンアラウンドタイムが要求される。 しかし、翻訳速度はほとんど調査されていないため、言語サービス提供者(LSP)がポスト編集(PE)サービスとヒューマン翻訳(HT)サービスの性能をどのように評価できるかは明確になっていない。 本研究は,LSPによる実世界データに基づいて,HTの翻訳とリビジョン速度,およびニューラルマシン翻訳のPEに関する大規模な研究である。 探索的データ分析アプローチを使用して、2.5年以上にわたって11の言語ペアにまたがる879の言語学者によって翻訳された9000万語のデータを調査している。 本研究の結果は, (a)PEは通常はHTより速いわけではない。 b) 平均速度値は誤解を招くことがある。 (c)翻訳速度は高度に変動し、 (d)編集距離は、速度と強く相関しないため、編集後生産性のプロキシとして使用できない。

Time efficiency is paramount for the localisation industry, which demands ever-faster turnaround times. However, translation speed is largely underresearched, and there is a lack of clarity about how language service providers (LSPs) can evaluate the performance of their post-editing (PE) and human translation (HT) services. This study constitutes the first large-scale investigation of translation and revision speed in HT and in the PE of neural machine translation, based on real-world data from an LSP. It uses an exploratory data analysis approach to investigate data for 90 million words translated by 879 linguists across 11 language pairs, over 2.5 years. The results of this research indicate that (a) PE is usually but not always faster than HT; (b) average speed values may be misleading; (c) translation speed is highly variable; and (d) edit distance cannot be used as a proxy for post-editing productivity, because it does not correlate strongly with speed.
翻訳日:2023-12-21 17:26:35 公開日:2023-12-19
# 自己蒸留エンコーダによるコントラスト言語画像の抽出

Expediting Contrastive Language-Image Pretraining via Self-distilled Encoders ( http://arxiv.org/abs/2312.12659v1 )

ライセンス: Link先を確認
Bumsoo Kim, Jinhyung Kim, Yeonsik Jo, Seung Hwan Kim(参考訳) 視覚言語事前学習(VLP)の最近の進歩は、Webから収集された大規模データによるところが大きい。 しかし、未作成のデータセットには弱い相関のある画像テキストペアが含まれており、データ非効率の原因となっている。 この問題に対処するために, 画像とテキストのモーメントエンコーダを余分に利用して, 画像とテキストの相反する対の教示信号を生成する知識蒸留法が検討されている。 本稿では, 効率的な蒸留フレームワークを用いて, 誤調整問題を解決することを目的とする。 そこで本稿では, 自己蒸留エンコーダを用いたコントラスト言語-画像事前学習の高速化について述べる。 ECLIPSEは、オンライン画像エンコーダとモーメント画像エンコーダの間で共有テキストエンコーダを利用する独自の蒸留アーキテクチャを備えている。 この戦略的設計選択により、蒸留はテキスト埋め込みの統一された射影空間内で動作し、より良い性能が得られる。 ECLIPSEは、統合されたテキスト埋め込み空間に基づいて、オンライン画像エンコーダを高速化することにより、運動量画像エンコーダの計算コストを補う。 広範な実験を通じて,オンライン画像エンコーダによる部分的視点がモーメント教師と相補的に相互作用する,探索と蒸留の間にはスイートスポットがあることを確認した。 その結果、ECLIPSEは、推論速度において相当な加速を達成しつつ、それよりも優れる。

Recent advances in vision language pretraining (VLP) have been largely attributed to the large-scale data collected from the web. However, uncurated dataset contains weakly correlated image-text pairs, causing data inefficiency. To address the issue, knowledge distillation have been explored at the expense of extra image and text momentum encoders to generate teaching signals for misaligned image-text pairs. In this paper, our goal is to resolve the misalignment problem with an efficient distillation framework. To this end, we propose ECLIPSE: Expediting Contrastive Language-Image Pretraining with Self-distilled Encoders. ECLIPSE features a distinctive distillation architecture wherein a shared text encoder is utilized between an online image encoder and a momentum image encoder. This strategic design choice enables the distillation to operate within a unified projected space of text embedding, resulting in better performance. Based on the unified text embedding space, ECLIPSE compensates for the additional computational cost of the momentum image encoder by expediting the online image encoder. Through our extensive experiments, we validate that there is a sweet spot between expedition and distillation where the partial view from the expedited online image encoder interacts complementarily with the momentum teacher. As a result, ECLIPSE outperforms its counterparts while achieving substantial acceleration in inference speed.
翻訳日:2023-12-21 17:26:10 公開日:2023-12-19
# ニューラルネットワークの凸景観:ラッソモデルによるグローバル最適点と静止点の特徴付け

The Convex Landscape of Neural Networks: Characterizing Global Optima and Stationary Points via Lasso Models ( http://arxiv.org/abs/2312.12657v1 )

ライセンス: Link先を確認
Tolga Ergen, Mert Pilanci(参考訳) ディープニューラルネットワーク(DNN)モデルの非凸性のため、その有効性は非凸最適化ヒューリスティックの使用に依存する。 従来のDNNの訓練方法は、成功したモデルを作るのに費用がかかる経験的な方法を必要とすることが多く、明確な理論的基盤を持っていない。 本研究では,畳み込み最適化理論とスパースリカバリモデルを用いてニューラルネットワークのトレーニングプロセスを洗練し,それらの最適重量のより良い解釈を行う。 分割線形活性化を用いた2層ニューラルネットワークの訓練に焦点をあて,有限次元凸プログラムとして定式化できることを実証する。 これらのプログラムには、sparsityを促進する正規化用語が含まれており、これはグループlassoの変種である。 まず,有限幅ニューラルネットワークの強双対性を証明するために半無限計画理論を用い,これらのアーキテクチャを高次元凸スパース回復モデルとして表現する。 注目すべきことに、凸プログラムを解くための最悪の複雑さは、データ行列のランクが境界付けられたときのサンプル数とニューロン数の多項式であり、畳み込みネットワークではそうである。 本手法を任意のランクのデータトレーニングに拡張するために,zonotope部分サンプリングに基づく新しい多項式時間近似スキームを開発し,近似比を保証した。 また,非凸学習目標の定常性はすべて,サブサンプリング凸プログラムの大域的最適性として特徴付けられることを示す。 我々の凸モデルは、非凸法とは異なり、ヒューリスティックスや広範なハイパーパラメータチューニングに頼ることなく、標準凸解法を用いて訓練することができる。 大規模な数値実験により、凸モデルは従来の非凸法よりも優れ、最適パラメータに敏感でないことを示す。

Due to the non-convex nature of training Deep Neural Network (DNN) models, their effectiveness relies on the use of non-convex optimization heuristics. Traditional methods for training DNNs often require costly empirical methods to produce successful models and do not have a clear theoretical foundation. In this study, we examine the use of convex optimization theory and sparse recovery models to refine the training process of neural networks and provide a better interpretation of their optimal weights. We focus on training two-layer neural networks with piecewise linear activations and demonstrate that they can be formulated as a finite-dimensional convex program. These programs include a regularization term that promotes sparsity, which constitutes a variant of group Lasso. We first utilize semi-infinite programming theory to prove strong duality for finite width neural networks and then we express these architectures equivalently as high dimensional convex sparse recovery models. Remarkably, the worst-case complexity to solve the convex program is polynomial in the number of samples and number of neurons when the rank of the data matrix is bounded, which is the case in convolutional networks. To extend our method to training data of arbitrary rank, we develop a novel polynomial-time approximation scheme based on zonotope subsampling that comes with a guaranteed approximation ratio. We also show that all the stationary of the nonconvex training objective can be characterized as the global optimum of a subsampled convex program. Our convex models can be trained using standard convex solvers without resorting to heuristics or extensive hyper-parameter tuning unlike non-convex methods. Through extensive numerical experiments, we show that convex models can outperform traditional non-convex methods and are not sensitive to optimizer hyperparameters.
翻訳日:2023-12-21 17:25:20 公開日:2023-12-19
# トランスフォーマーは文脈で逐次関数クラスを学習できるか?

Can Transformers Learn Sequential Function Classes In Context? ( http://arxiv.org/abs/2312.12655v1 )

ライセンス: Link先を確認
Ryan Campbell, Emma Guo, Evan Hu, Reya Vir, Ethan Hsiao(参考訳) インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。 本プロジェクトでは,インバータが逐次的,非テクスチュアルな関数クラスデータ分布から学習できるかどうかを調べることで,ICLを支えるメカニズムの理解を深める。 我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。 解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。 さらに,yラベル列のランダム化実験では,ラベル関連が難読化されてもトランスフォーマーが何らかのicl機能を保っていることを強調する。 提案するタスクの効果的な学習に反映されるように,トランスフォーマが関数クラス内でエンコードされた逐次性を推論し理解できることの証拠を提供する。 また,ラベルの無作為性が増大するにつれて,ラベルノイズに対して学習した逐次性が潜在的に頑健になる可能性が示唆された。 将来の研究は、誘導ヘッドやタスクベクトルといったトランスフォーマーの以前の説明が、これらのトイ例におけるiclの逐次性にどのように関係しているかを考察したいかもしれない。 我々の調査は、トランスフォーマーがどのようにシーケンシャルデータを処理し知覚するかに関するさらなる研究の土台となるものです。

In-context learning (ICL) has revolutionized the capabilities of transformer models in NLP. In our project, we extend the understanding of the mechanisms underpinning ICL by exploring whether transformers can learn from sequential, non-textual function class data distributions. We introduce a novel sliding window sequential function class and employ toy-sized transformers with a GPT-2 architecture to conduct our experiments. Our analysis indicates that these models can indeed leverage ICL when trained on non-textual sequential function classes. Additionally, our experiments with randomized y-label sequences highlights that transformers retain some ICL capabilities even when the label associations are obfuscated. We provide evidence that transformers can reason with and understand sequentiality encoded within function classes, as reflected by the effective learning of our proposed tasks. Our results also show that the performance deteriorated with increasing randomness in the labels, though not to the extent one might expect, implying a potential robustness of learned sequentiality against label noise. Future research may want to look into how previous explanations of transformers, such as induction heads and task vectors, relate to sequentiality in ICL in these toy examples. Our investigation lays the groundwork for further research into how transformers process and perceive sequential data.
翻訳日:2023-12-21 17:24:29 公開日:2023-12-19
# DL-based Segmentation Networkの複雑潜在空間からのロバスト特徴選択によるたこつぼ症候群の診断

Diagnosis Of Takotsubo Syndrome By Robust Feature Selection From The Complex Latent Space Of DL-based Segmentation Network ( http://arxiv.org/abs/2312.12653v1 )

ライセンス: Link先を確認
Fahim Ahmed Zaman, Wahidul Alam, Tarun Kanti Roy, Amanda Chang, Kan Liu and Xiaodong Wu(参考訳) 研究者は、様々な医療画像様式と疾患関連病理において、セグメント化された対象間で有意な相関を示した。 いくつかの研究は、手作りの特徴を病気の予測に用いることは、ディープラーニング(DL)モデルから潜在的特徴を使用することを無視し、鑑別診断の全体的な精度を低下させることを示した。 しかし、分類モデルやセグメンテーションモデルを直接使用して潜在特徴を学習することで、頑健な特徴選択がオプトアウトされ、過度に適合する可能性がある。 このギャップを埋めるために,診断を支援するセグメンテーションモデルの潜在空間を用いた新しい特徴選択手法を提案する。 タコツボ症候群 (TTS) とSTEMI (STEMI) との鑑別法を心エコービデオ (echo) を用いて検討した。 TTSは心エコーでSTEMIの臨床的特徴を模倣することができ、極めて区別が難しい。 従来のSOTA (State-of-the-art) アプローチを82%の精度で評価し, 診断に有意な成績を示した。 さらに、LASSOアルゴリズムを用いたロバストな特徴選択手法は、冗長な特徴の低減に大きな可能性を示し、下流解析における短期および長期の疾患診断のためのロバストなパイプラインを生成する。

Researchers have shown significant correlations among segmented objects in various medical imaging modalities and disease related pathologies. Several studies showed that using hand crafted features for disease prediction neglects the immense possibility to use latent features from deep learning (DL) models which may reduce the overall accuracy of differential diagnosis. However, directly using classification or segmentation models on medical to learn latent features opt out robust feature selection and may lead to overfitting. To fill this gap, we propose a novel feature selection technique using the latent space of a segmentation model that can aid diagnosis. We evaluated our method in differentiating a rare cardiac disease: Takotsubo Syndrome (TTS) from the ST elevation myocardial infarction (STEMI) using echocardiogram videos (echo). TTS can mimic clinical features of STEMI in echo and extremely hard to distinguish. Our approach shows promising results in differential diagnosis of TTS with 82% diagnosis accuracy beating the previous state-of-the-art (SOTA) approach. Moreover, the robust feature selection technique using LASSO algorithm shows great potential in reducing the redundant features and creates a robust pipeline for short- and long-term disease prognoses in the downstream analysis.
翻訳日:2023-12-21 17:24:05 公開日:2023-12-19
# Surf-CDM:医用画像分割のためのスコアベース表面冷拡散モデル

Surf-CDM: Score-Based Surface Cold-Diffusion Model For Medical Image Segmentation ( http://arxiv.org/abs/2312.12649v1 )

ライセンス: Link先を確認
Fahim Ahmed Zaman, Mathews Jacob, Amanda Chang, Kan Liu, Milan Sonka and Xiaodong Wu(参考訳) 拡散モデルは画像生成に優れた性能を示しており、しばしば他の生成モデルよりも優れている。 導入以来、研究者は強力なノイズから画像への切り離しパイプラインを画像分割を含む識別タスクに拡張した。 本研究は, 偏光マスクのパラメトリック表面表現に依存する, 医用画像分割のための条件付きスコアベース生成モデリングフレームワークを提案する。 表面再パラメータ化は、マスクがバイナリマスクとして表現されるのとは対照的に、標準拡散理論を直接適用することができる。 さらに,拡散モデルをガウス雑音の代わりに決定論的摂動で構築し,逆拡散の収束を著しく高速化する「コールド拡散(cold-diffusion)」と呼ばれる拡散手法の拡張版を適用した。 経胸部心エコー画像65本(2230枚のエコー画像フレーム)から左室のセグメンテーションについて検討し,その性能を最も広く普及した画像セグメンテーションモデルと比較した。 提案手法は,セグメンテーション精度の点で比較手法を上回っただけでなく,その固有生成性から下流解析におけるセグメンテーションの不確かさを推定する可能性を示した。

Diffusion models have shown impressive performance for image generation, often times outperforming other generative models. Since their introduction, researchers have extended the powerful noise-to-image denoising pipeline to discriminative tasks, including image segmentation. In this work we propose a conditional score-based generative modeling framework for medical image segmentation which relies on a parametric surface representation for the segmentation masks. The surface re-parameterization allows the direct application of standard diffusion theory, as opposed to when the mask is represented as a binary mask. Moreover, we adapted an extended variant of the diffusion technique known as the "cold-diffusion" where the diffusion model can be constructed with deterministic perturbations instead of Gaussian noise, which facilitates significantly faster convergence in the reverse diffusion. We evaluated our method on the segmentation of the left ventricle from 65 transthoracic echocardiogram videos (2230 echo image frames) and compared its performance to the most popular and widely used image segmentation models. Our proposed model not only outperformed the compared methods in terms of segmentation accuracy, but also showed potential in estimating segmentation uncertainties for further downstream analyses due to its inherent generative nature.
翻訳日:2023-12-21 17:23:42 公開日:2023-12-19
# NN-Steiner:rectilinear Steiner Minimum Tree問題に対する混合ニューラルネットワークアルゴリズム

NN-Steiner: A Mixed Neural-algorithmic Approach for the Rectilinear Steiner Minimum Tree Problem ( http://arxiv.org/abs/2312.10589v2 )

ライセンス: Link先を確認
Andrew B. Kahng, Robert R. Nerem, Yusu Wang, Chien-Yi Yang(参考訳) 近年、組合せ最適化の問題を解決するためにニューラルネットワークを使うことが急速に進歩している。 それでも、与えられた最適化問題を効果的に処理できる「正しい」ニューラルモデルの設計は困難であり、しばしば結果のニューラルモデルの理論的理解や正当化は存在しない。 本稿では,ICレイアウト設計において重要な問題であるリチ線形スタイナー最小木(RSMT)問題に着目し,その結果,VLSI文学において多くのヒューリスティックなアプローチを惹きつけている。 私たちの貢献は2倍です。 本稿では,この問題を解決するために,Arora の PTAS アルゴリズムフレームワークを活用した RSMT 計算のための新しい混合ニューラルネットワークアルゴリズムフレームワークである NN-Steiner を提案する。 私たちのNN-Steinerは、AroraのPTAS内の重要なアルゴリズムコンポーネントを、適切なニューラルネットワークコンポーネントで置き換えます。 特にNN-Steinerは、アルゴリズムフレームワーク内で繰り返し呼び出される4つのニューラルネットワーク(NN)コンポーネントのみを必要とする。 重要なことに、4つのNNコンポーネントはそれぞれ、入力サイズに依存しない境界サイズでしかなく、訓練が容易である。 さらに、NNコンポーネントが一般的なアルゴリズムステップを学んでいるため、一度学習されると、結果として得られる混合ニューラルネットワークアルゴリズムフレームワークは、トレーニングで見られないはるかに大きなインスタンスに一般化される。 NN-Steinerは、私たちの知る限り、RSMT(および変種)をほぼ解く能力を持つ境界サイズの最初のニューラルネットワークアーキテクチャです。 実験では, NN-Steinerの実装方法と, ニューラルネットワークと非ニューラルネットワークを併用した最先端手法との比較により, 特に一般化の観点から, 提案手法の有効性を実証する。

Recent years have witnessed rapid advances in the use of neural networks to solve combinatorial optimization problems. Nevertheless, designing the "right" neural model that can effectively handle a given optimization problem can be challenging, and often there is no theoretical understanding or justification of the resulting neural model. In this paper, we focus on the rectilinear Steiner minimum tree (RSMT) problem, which is of critical importance in IC layout design and as a result has attracted numerous heuristic approaches in the VLSI literature. Our contributions are two-fold. On the methodology front, we propose NN-Steiner, which is a novel mixed neural-algorithmic framework for computing RSMTs that leverages the celebrated PTAS algorithmic framework of Arora to solve this problem (and other geometric optimization problems). Our NN-Steiner replaces key algorithmic components within Arora's PTAS by suitable neural components. In particular, NN-Steiner only needs four neural network (NN) components that are called repeatedly within an algorithmic framework. Crucially, each of the four NN components is only of bounded size independent of input size, and thus easy to train. Furthermore, as the NN component is learning a generic algorithmic step, once learned, the resulting mixed neural-algorithmic framework generalizes to much larger instances not seen in training. Our NN-Steiner, to our best knowledge, is the first neural architecture of bounded size that has capacity to approximately solve RSMT (and variants). On the empirical front, we show how NN-Steiner can be implemented and demonstrate the effectiveness of our resulting approach, especially in terms of generalization, by comparing with state-of-the-art methods (both neural and non-neural based).
翻訳日:2023-12-21 12:37:40 公開日:2023-12-19
# ReRoGCRL:ゴール・コンディション強化学習における表現に基づくロバスト性

ReRoGCRL: Representation-based Robustness in Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2312.07392v3 )

ライセンス: Link先を確認
Xiangyu Yin, Sihao Wu, Jiaxu Liu, Meng Fang, Xingyu Zhao, Xiaowei Huang, Wenjie Ruan(参考訳) Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。 GCRLに適用すると、従来のRL用に設計された攻撃や堅牢な表現訓練方法がより効果的になる。 この課題に対処するために,我々はまず,敵対的コントラスト攻撃に触発された新しいアプローチである半矛盾表現攻撃を提案する。 RLの既存の攻撃とは異なり、ポリシー関数からの情報を必要とせず、デプロイ中にシームレスに実装できる。 そして、既存のGCRLアルゴリズムの脆弱性を軽減するために、各種の摂動に対するRLエージェントの対向ロバスト性を改善するために、セミコントラスト対応強化と感性認識正則化を組み合わせたAdversarial Representation Tacticsを導入する。 複数の最先端GCRLアルゴリズムにまたがる攻撃・防御手法の性能評価を行った。 私たちのツールであるReRoGCRLはhttps://github.com/TrustAI/ReRoGCRLで利用可能です。

While Goal-Conditioned Reinforcement Learning (GCRL) has gained attention, its algorithmic robustness against adversarial perturbations remains unexplored. The attacks and robust representation training methods that are designed for traditional RL become less effective when applied to GCRL. To address this challenge, we first propose the Semi-Contrastive Representation attack, a novel approach inspired by the adversarial contrastive attack. Unlike existing attacks in RL, it only necessitates information from the policy function and can be seamlessly implemented during deployment. Then, to mitigate the vulnerability of existing GCRL algorithms, we introduce Adversarial Representation Tactics, which combines Semi-Contrastive Adversarial Augmentation with Sensitivity-Aware Regularizer to improve the adversarial robustness of the underlying RL agent against various types of perturbations. Extensive experiments validate the superior performance of our attack and defence methods across multiple state-of-the-art GCRL algorithms. Our tool ReRoGCRL is available at https://github.com/TrustAI/ReRoGCRL.
翻訳日:2023-12-21 12:36:13 公開日:2023-12-19
# MVDD:多視点深度拡散モデル

MVDD: Multi-View Depth Diffusion Models ( http://arxiv.org/abs/2312.04875v3 )

ライセンス: Link先を確認
Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang(参考訳) 拡散モデルは2次元画像生成において顕著な結果を示したが、3次元形状生成の成功を再現することは依然として困難である。 本稿では,複雑な3次元形状を表現するマルチビュー奥行きを利用した2次元データ形式を提案する。 この表現を拡散モデルMVDDと組み合わせ、20K以上の点と細かな詳細を持つ高品質の高密度点雲を生成することができる。 多視点深度で3次元の整合性を実現するために, 隣接する視点の視界に対して, 偏極線セグメントの注意を規定する。 さらに、深度マップのアライメントをより確実にするために、深度融合モジュールを拡散ステップに組み込む。 表面再構成で拡張すると、MVDDは高品質な3Dメッシュを生成することができる。 さらに、MVDDは深度補完のような他のタスクで際立っているため、3D先行として機能し、GANインバージョンのような下流タスクを著しく増加させる。 MVDDの3次元形状生成, 深度完了, 下流作業における3次元前処理の可能性について検討した。

Denoising diffusion models have demonstrated outstanding results in 2D image generation, yet it remains a challenge to replicate its success in 3D shape generation. In this paper, we propose leveraging multi-view depth, which represents complex 3D shapes in a 2D data format that is easy to denoise. We pair this representation with a diffusion model, MVDD, that is capable of generating high-quality dense point clouds with 20K+ points with fine-grained details. To enforce 3D consistency in multi-view depth, we introduce an epipolar line segment attention that conditions the denoising step for a view on its neighboring views. Additionally, a depth fusion module is incorporated into diffusion steps to further ensure the alignment of depth maps. When augmented with surface reconstruction, MVDD can also produce high-quality 3D meshes. Furthermore, MVDD stands out in other tasks such as depth completion, and can serve as a 3D prior, significantly boosting many downstream tasks, such as GAN inversion. State-of-the-art results from extensive experiments demonstrate MVDD's excellent ability in 3D shape generation, depth completion, and its potential as a 3D prior for downstream tasks.
翻訳日:2023-12-21 12:35:14 公開日:2023-12-19
# ニューラルファジィエクストラクタ:バイオメトリックユーザ認証にニューラルネットワークを使用するセキュアな方法

Neural Fuzzy Extractors: A Secure Way to Use Artificial Neural Networks for Biometric User Authentication ( http://arxiv.org/abs/2003.08433v2 )

ライセンス: Link先を確認
Abhishek Jana, Md Kamruzzaman Sarker, Monireh Ebrahimi, Pascal Hitzler, George T Amariucai(参考訳) センサ開発と人工知能の新たな進歩、計算コストの低減、ハンドヘルド計算デバイスの普及により、生体認証(および識別)が急速に普及している。 高度な機械学習技術に基づくバイオメトリック認証への現代的なアプローチは、訓練済みの分類器の詳細または明示的なユーザバイオメトリックデータの保存を回避できないため、ユーザの認証情報が偽造される。 本稿では,生体認証のためのベクトル空間分類器や人工ニューラルネットワークを用いたユーザ固有情報を扱うためのセキュアな方法を提案する。 提案アーキテクチャはニューラルファジィ・エクストラクタ (NFE) と呼ばれ,既存の分類器とファジィ抽出器の結合を可能にする。 したがって、NFEは、現代のディープラーニングベースの分類器のすべてのパフォーマンス上の利点と、標準的なファジィ抽出器のセキュリティを提供する。 従来型ニューラルネットワークのnfeを,指紋認証によるユーザ認証の簡単なシナリオに適合させることを実証する。

Powered by new advances in sensor development and artificial intelligence, the decreasing cost of computation, and the pervasiveness of handheld computation devices, biometric user authentication (and identification) is rapidly becoming ubiquitous. Modern approaches to biometric authentication, based on sophisticated machine learning techniques, cannot avoid storing either trained-classifier details or explicit user biometric data, thus exposing users' credentials to falsification. In this paper, we introduce a secure way to handle user-specific information involved with the use of vector-space classifiers or artificial neural networks for biometric authentication. Our proposed architecture, called a Neural Fuzzy Extractor (NFE), allows the coupling of pre-existing classifiers with fuzzy extractors, through a artificial-neural-network-based buffer called an expander, with minimal or no performance degradation. The NFE thus offers all the performance advantages of modern deep-learning-based classifiers, and all the security of standard fuzzy extractors. We demonstrate the NFE retrofit to a classic artificial neural network for a simple scenario of fingerprint-based user authentication.
翻訳日:2023-12-21 03:55:44 公開日:2023-12-19
# 逆操作戦術に対するオンライン公共広場の脆弱性の定量化

Quantifying the Vulnerabilities of the Online Public Square to Adversarial Manipulation Tactics ( http://arxiv.org/abs/1907.06130v4 )

ライセンス: Link先を確認
Bao Tran Truong, Xiaodan Lou, Alessandro Flammini, Filippo Menczer(参考訳) 現代の公共広場と見なされるソーシャルメディアは、操作に弱い。 不正なアカウントを人間に偽装させることで、悪意のあるアクターはターゲットコミュニティ内の偽情報を増幅することができる。 こうした活動の結果は、データを収集し、オンラインコミュニティに影響を与える倫理実験を行うことによって生じる課題から評価が難しい。 本稿では,経験的ネットワークにおける情報拡散をシミュレートするソーシャルメディアモデルを用いて,コンテンツ品質に対する複数の敵操作による影響を定量化する。 ソーシャルメディアの目印である影響力のあるアカウントの存在は、操作するオンラインコミュニティの脆弱性を悪化させる。 悪役が採用できる探索的な戦術の中で、コミュニティに侵入することは、低品質コンテンツがバイラルに広まる可能性が高い。 このような害は、悪役が影響力のある個人や脆弱な個人など特定の標的に焦点を合わせると軽減されるが、低品質のコンテンツでネットワークを浸水させることによってさらに複雑になる。 これらの洞察は、プラットフォームがソーシャルメディアユーザーによる操作のレジリエンスを高めるために使えることを示唆している。

Social media, seen by some as the modern public square, is vulnerable to manipulation. By controlling inauthentic accounts impersonating humans, malicious actors can amplify disinformation within target communities. The consequences of such operations are difficult to evaluate due to the challenges posed by collecting data and carrying out ethical experiments that would influence online communities. Here we use a social media model that simulates information diffusion in an empirical network to quantify the impacts of several adversarial manipulation tactics on the quality of content. We find that the presence of influential accounts, a hallmark of social media, exacerbates the vulnerabilities of online communities to manipulation. Among the explored tactics that bad actors can employ, infiltrating a community is the most likely to make low-quality content go viral. Such harm can be further compounded by inauthentic agents flooding the network with low-quality, yet appealing content, but is mitigated when bad actors focus on specific targets, such as influential or vulnerable individuals. These insights suggest countermeasures that platforms could employ to increase the resilience of social media users to manipulation.
翻訳日:2023-12-21 03:55:10 公開日:2023-12-19
# 上昇モデリングのための一般化因果木

Generalized Causal Tree for Uplift Modeling ( http://arxiv.org/abs/2202.02416v2 )

ライセンス: Link先を確認
Preetam Nandy, Xiufan Yu, Wanjun Liu, Ye Tu, Kinjal Basu, Shaunak Chatterjee(参考訳) upliftモデリングは、マーケティングやポリシー作成からパーソナライズドレコメンデーションまで、さまざまなアプリケーションで不可欠です。 主な目的は、異種集団に対する最適な治療割り当てを学ぶことである。 既存の研究の第一線は、不均一な処理効果を持つコホートを特定するために決定木アルゴリズムの損失関数を変更する。 別の研究の行では、処理グループと制御グループの個別の処理効果を、既成の教師付き学習アルゴリズムを用いて推定する。 異種治療効果を直接モデル化する以前のアプローチは、実際は後者よりも優れていることが知られている。 しかし、既存のツリーベースの手法は、主に1つの処理と1つの制御ユースケースに限られている。 本稿では,複数の離散的・連続的処理に対応するツリーベースアプローチの一般化を提案する。 我々は,その望ましい統計特性からよく知られた因果木アルゴリズムの一般化に着目するが,この一般化手法は他の木に基づく手法にも適用できる。 提案手法の有効性を実験と実データ例を用いて実証した。

Uplift modeling is crucial in various applications ranging from marketing and policy-making to personalized recommendations. The main objective is to learn optimal treatment allocations for a heterogeneous population. A primary line of existing work modifies the loss function of the decision tree algorithm to identify cohorts with heterogeneous treatment effects. Another line of work estimates the individual treatment effects separately for the treatment group and the control group using off-the-shelf supervised learning algorithms. The former approach that directly models the heterogeneous treatment effect is known to outperform the latter in practice. However, the existing tree-based methods are mostly limited to a single treatment and a single control use case, except for a handful of extensions to multiple discrete treatments. In this paper, we propose a generalization of tree-based approaches to tackle multiple discrete and continuous-valued treatments. We focus on a generalization of the well-known causal tree algorithm due to its desirable statistical properties, but our generalization technique can be applied to other tree-based approaches as well. The efficacy of our proposed method is demonstrated using experiments and real data examples.
翻訳日:2023-12-21 03:52:15 公開日:2023-12-19
# 適応スパース符号化のための誤りに基づく閾値付きISTA学習

Learned ISTA with Error-based Thresholding for Adaptive Sparse Coding ( http://arxiv.org/abs/2112.10985v2 )

ライセンス: Link先を確認
Ziang Li, Kailun Wu, Yiwen Guo, and Changshui Zhang(参考訳) 理論的な考察から,各層の収縮関数における各観測値に対する特定のしきい値を示すために,階層的再構成誤差の関数を利用する学習 ista (lista) のためのエラーベースしきい値化 (ebt) 機構を提唱する。 提案するebt機構は, 復元誤差から学習可能な縮小関数のパラメータを適切に分離し, 得られたモデルを, 可能なデータ変動への適応性が向上した。 厳密な分析により、提案EBTは、高い適応性に加えて、LISTAまたはその変種に基づいてより高速な収束をもたらすことも示している。 広範な実験結果から理論解析を検証し,本手法の有効性を確認した。

Drawing on theoretical insights, we advocate an error-based thresholding (EBT) mechanism for learned ISTA (LISTA), which utilizes a function of the layer-wise reconstruction error to suggest a specific threshold for each observation in the shrinkage function of each layer. We show that the proposed EBT mechanism well disentangles the learnable parameters in the shrinkage functions from the reconstruction errors, endowing the obtained models with improved adaptivity to possible data variations. With rigorous analyses, we further show that the proposed EBT also leads to a faster convergence on the basis of LISTA or its variants, in addition to its higher adaptivity. Extensive experimental results confirm our theoretical analyses and verify the effectiveness of our methods.
翻訳日:2023-12-21 03:50:05 公開日:2023-12-19
# 非線形検出器を用いた高次元空間情報の量子輸送

Quantum transport of high-dimensional spatial information with a nonlinear detector ( http://arxiv.org/abs/2111.13624v4 )

ライセンス: Link先を確認
Bereneice Sephton, Adam Vall\'es, Isaac Nape, Mitchell A. Cox, Fabian Steinlechner, Thomas Konrad, Juan P. Torres, Filippus S. Roux, and Andrew Forbes(参考訳) 情報を物理的に転送せずに共有する2つの遠方当事者間の情報交換は、将来の量子ネットワークにおいて重要な資源である。 高次元状態で行うことで、高い情報容量とノイズに対するレジリエンスの向上が期待できるが、現在までの進歩は限られている。 ここでは, 非線形パラメトリック過程が空間自由度において任意の高次元状態射影を可能とし, 強コヒーレント場が過程の確率を高めることを実証する。 これにより、一対の絡み合った量子チャネルと非線形空間モード検出器によって促進される高次元空間情報の量子輸送を実験的に実現することができる。 和周波数生成を用いて、一方の光子を絡み合った対から上向きに変換し、他方に高次元空間情報を伝達する。 我々は,軌道角運動量,エルミート・ガウスおよび任意の空間モード重畳に符号化された情報を忠実に転送することで,送信する状態の知識を必要とせず,任意のフォトニック空間モードに対するd=15量子チャネルを実現する。 我々の実証は、構造化光の非線形制御と量子過程を融合させ、高次元の量子状態を利用する新しいアプローチを提供し、他の自由度にまで拡張できるかもしれない。

Information exchange between two distant parties, where information is shared without physically transporting it, is a crucial resource in future quantum networks. Doing so with high-dimensional states offers the promise of higher information capacity and improved resilience to noise, but progress to date has been limited. Here we demonstrate how a nonlinear parametric process allows for arbitrary high-dimensional state projections in the spatial degree of freedom, where a strong coherent field enhances the probability of the process. This allows us to experimentally realise quantum transport of high-dimensional spatial information facilitated by a quantum channel with a single entangled pair and a nonlinear spatial mode detector. Using sum frequency generation we upconvert one of the photons from an entangled pair resulting in high-dimensional spatial information transported to the other. We realise a d=15 quantum channel for arbitrary photonic spatial modes which we demonstrate by faithfully transferring information encoded into orbital angular momentum, Hermite-Gaussian and arbitrary spatial mode superpositions, without requiring knowledge of the state to be sent. Our demonstration merges the nascent fields of nonlinear control of structured light with quantum processes, offering a new approach to harnessing high-dimensional quantum states, and may be extended to other degrees of freedom too.
翻訳日:2023-12-21 03:49:27 公開日:2023-12-19
# 位置バイアス軽減:感情原因抽出のための知識認識グラフモデル

Position Bias Mitigation: A Knowledge-Aware Graph Model for Emotion Cause Extraction ( http://arxiv.org/abs/2106.03518v3 )

ライセンス: Link先を確認
Hanqi Yan, Lin Gui, Gabriele Pergola, Yulan He(参考訳) 感情原因抽出(ECE)タスクは、テキストで表現された特定の感情に対する感情誘発情報を含む節を特定することを目的としている。 広く使われているCEデータセットは、注釈付き原因節の大多数が関連する感情節の直前にあるか、あるいは感情節自体である、というバイアスを示す。 ECEの既存のモデルは、そのような相対的な位置情報を探索し、データセットバイアスに悩まされる傾向がある。 本研究では,既存のCEモデルが節の相対的な位置に依存する度合いを調べるために,相対的な位置情報がもはや原因節の指示的特徴ではない敵の例を生成する新しい手法を提案する。 既存のモデルの性能をこのような逆例で検証し、大幅な性能低下を観察する。 データセットのバイアスに対処するために,コモンセンス知識を活用して感情のトリガパスを明示的にモデル化し,候補節と感情節間の意味依存度を高めるグラフベース手法を提案する。 実験の結果,提案手法は従来のECEデータセットの既存手法と同等に動作し,既存モデルと比較して敵攻撃に対してより堅牢であることがわかった。

The Emotion Cause Extraction (ECE)} task aims to identify clauses which contain emotion-evoking information for a particular emotion expressed in text. We observe that a widely-used ECE dataset exhibits a bias that the majority of annotated cause clauses are either directly before their associated emotion clauses or are the emotion clauses themselves. Existing models for ECE tend to explore such relative position information and suffer from the dataset bias. To investigate the degree of reliance of existing ECE models on clause relative positions, we propose a novel strategy to generate adversarial examples in which the relative position information is no longer the indicative feature of cause clauses. We test the performance of existing models on such adversarial examples and observe a significant performance drop. To address the dataset bias, we propose a novel graph-based method to explicitly model the emotion triggering paths by leveraging the commonsense knowledge to enhance the semantic dependencies between a candidate clause and an emotion clause. Experimental results show that our proposed approach performs on par with the existing state-of-the-art methods on the original ECE dataset, and is more robust against adversarial attacks compared to existing models.
翻訳日:2023-12-21 03:48:44 公開日:2023-12-19
# テキスト生成のためのgraphmax

Graphmax for Text Generation ( http://arxiv.org/abs/2101.00153v3 )

ライセンス: Link先を確認
Liu Bin, Yin Guosheng(参考訳) テキスト生成において、大きな言語モデル(LM)は、ソフトマックス関数を使用してコンテキストの以前の選択のみに基づいて、新しい単語を選択する。 それでも、シーン固有のコーパスに基づく同時単語のリンク統計情報は、次の単語を選択するのに有用であり、生成されたテキストのトピックが現在のタスクに一致することを保証するのに役立つ。 共起情報を完全に探究するために,タスク固有のテキスト生成のためのグラフマックス関数を提案する。 グラフベースの正規化を使用して、graphmaxは、lmからのグローバル知識とシーン固有のコーパスからのローカル知識の両方で最終単語の選択を決定できる。 伝統的なソフトマックス関数はグラフ総変動(gtv)項で正規化され、局所的な知識をlmに取り入れ、モデルにシーン固有のコーパスにおける単語間の統計的関係を検討するように促す。 提案したグラフマックスは汎用的であり、テキスト生成や機械翻訳のために任意の大きな訓練済みLMに簡単にプラグインできる。 広範な実験を通じて,新しいgtvベースの正規化により,既存の手法と比較して様々な自然言語処理タスクの性能が向上することを示す。 さらに,人間実験により,参加者がgraphmaxやsoftmaxで生成されたテキストを容易に識別できることを確認した。

In text generation, a large language model (LM) makes a choice of each new word based only on the former selection of its context using the softmax function. Nevertheless, the link statistics information of concurrent words based on a scene-specific corpus is valuable in choosing the next word, which can help to ensure the topic of the generated text to be aligned with the current task. To fully explore the co-occurrence information,we propose a graphmax function for task-specific text generation. Using the graph-based regularization, graphmax enables the final word choice to be determined by both the global knowledge from the LM and the local knowledge from the scene-specific corpus. The traditional softmax function is regularized with a graph total variation (GTV) term, which incorporates the local knowledge into the LM and encourages the model to consider the statistical relationships between words in a scene-specific corpus. The proposed graphmax is versatile and can be readily plugged into any large pre-trained LM for text generation and machine translation. Through extensive experiments, we demonstrate that the new GTV-based regularization can improve performances in various natural language processing tasks in comparison with existing methods. Moreover, through human experiments, we observe that participants can easily distinguish the text generated by graphmax or softmax.
翻訳日:2023-12-21 03:48:23 公開日:2023-12-19
# 階層的自己回帰モデルによるニューラルビデオ圧縮

Hierarchical Autoregressive Modeling for Neural Video Compression ( http://arxiv.org/abs/2010.10258v3 )

ライセンス: Link先を確認
Ruihan Yang, Yibo Yang, Joseph Marino, Stephan Mandt(参考訳) marino et al. (2020) による最近の研究は、マスク付き自己回帰流と階層的潜在変数モデルを組み合わせた逐次密度推定の性能向上を示した。 我々は、このような自己回帰生成モデルと、損失のあるビデオ圧縮の課題とを関連づける。 具体的には,最近のニューラルビデオ圧縮手法(lu et al., 2019, yang et al., 2020b, agustssonet al., 2020)を一般化された確率的時間的自己回帰変換の例として捉え,この知見に基づく拡張のための道を提案する。 大規模ビデオデータに対する包括的評価では、最先端のニューラル圧縮法と従来のビデオ圧縮法の両方よりも、速度歪み性能が向上した。

Recent work by Marino et al. (2020) showed improved performance in sequential density estimation by combining masked autoregressive flows with hierarchical latent variable models. We draw a connection between such autoregressive generative models and the task of lossy video compression. Specifically, we view recent neural video compression methods (Lu et al., 2019; Yang et al., 2020b; Agustssonet al., 2020) as instances of a generalized stochastic temporal autoregressive transform, and propose avenues for enhancement based on this insight. Comprehensive evaluations on large-scale video data show improved rate-distortion performance over both state-of-the-art neural and conventional video compression methods.
翻訳日:2023-12-21 03:48:05 公開日:2023-12-19
# 強化学習における最大報酬定式化

Maximum Reward Formulation In Reinforcement Learning ( http://arxiv.org/abs/2010.03744v2 )

ライセンス: Link先を確認
Sai Krishna Gottipati, Yashaswi Pathak, Rohan Nuttall, Sahir, Raviteja Chunduru, Ahmed Touati, Sriram Ganapathi Subramanian, Matthew E. Taylor, Sarath Chandar(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは一般的に、期待累積戻り(カウント、未カウント、有限、無限水平)を最大化する。 しかし、薬物発見のような現実世界におけるいくつかの重要な応用はこの枠組みに適合しない、なぜなら、RLエージェントは軌道内で最も高い報酬を得る状態(分子)を識別するだけで、期待される累積リターンのために最適化する必要がないからである。 本研究では、軌道に沿った最大報酬を最大化する目的関数を定式化し、ベルマン方程式の新たな関数形式を導出し、対応するベルマン作用素を導入し、収束の証明を与える。 この定式化を用いて, 現実世界の創薬パイプラインを模倣した分子生成の課題について, 最先端の結果を得る。

Reinforcement learning (RL) algorithms typically deal with maximizing the expected cumulative return (discounted or undiscounted, finite or infinite horizon). However, several crucial applications in the real world, such as drug discovery, do not fit within this framework because an RL agent only needs to identify states (molecules) that achieve the highest reward within a trajectory and does not need to optimize for the expected cumulative return. In this work, we formulate an objective function to maximize the expected maximum reward along a trajectory, derive a novel functional form of the Bellman equation, introduce the corresponding Bellman operators, and provide a proof of convergence. Using this formulation, we achieve state-of-the-art results on the task of molecule generation that mimics a real-world drug discovery pipeline.
翻訳日:2023-12-21 03:47:51 公開日:2023-12-19
# CausalVAE: 変分オートエンコーダにおける構造的因果距離

CausalVAE: Structured Causal Disentanglement in Variational Autoencoder ( http://arxiv.org/abs/2004.08697v7 )

ライセンス: Link先を確認
Mengyue Yang, Furui Liu, Zhitang Chen, Xinwei Shen, Jianye Hao, Jun Wang(参考訳) 学習の絡み合いは、観測データの複数の説明的および生成的要素からなる低次元表現を見つけることを目的としている。 変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子を分離するために一般的に用いられる。 しかし、実際のシナリオでは、意味論的要因は必ずしも独立ではない。 代わりに、これらの要因に依存する因果構造が存在するかもしれない。 そこで我々は、CausalVAEという新しいVAEベースのフレームワークを提案する。Causal Layerは、独立な外因性要因を因果内因性要素に変換するためのCausal Layerを含んでいる。 さらに、観測結果から得られたモデルが、監視信号(例えば、特徴ラベル)を提供することで、真のモデルをある程度回復することを示す。 合成および実単語ベンチマークCelebAなど、さまざまなデータセットで実験が行われる。 その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。 さらに,提案したCausalVAEモデルにより,因果要因に対する「協調」を通じて,対実データを生成することができることを示す。

Learning disentanglement aims at finding a low dimensional representation which consists of multiple explanatory and generative factors of the observational data. The framework of variational autoencoder (VAE) is commonly used to disentangle independent factors from observations. However, in real scenarios, factors with semantics are not necessarily independent. Instead, there might be an underlying causal structure which renders these factors dependent. We thus propose a new VAE based framework named CausalVAE, which includes a Causal Layer to transform independent exogenous factors into causal endogenous ones that correspond to causally related concepts in data. We further analyze the model identifiabitily, showing that the proposed model learned from observations recovers the true one up to a certain degree by providing supervision signals (e.g. feature labels). Experiments are conducted on various datasets, including synthetic and real word benchmark CelebA. Results show that the causal representations learned by CausalVAE are semantically interpretable, and their causal relationship as a Directed Acyclic Graph (DAG) is identified with good accuracy. Furthermore, we demonstrate that the proposed CausalVAE model is able to generate counterfactual data through "do-operation" to the causal factors.
翻訳日:2023-12-21 03:47:36 公開日:2023-12-19
# 特異値変換による変圧器のトークン均一性への対処

Addressing Token Uniformity in Transformers via Singular Value Transformation ( http://arxiv.org/abs/2208.11790v2 )

ライセンス: Link先を確認
Hanqi Yan, Lin Gui, Wenjie Li, Yulan He(参考訳) トークンの均一性は、トランスフォーマーの複数のセルフアテンション層を積み重ねた後、異なるトークンが多くの類似情報を共有するトランスフォーマーモデルで一般的に見られる。 本稿では,各変圧器層の出力の特異値分布を用いてトークン一様現象を特徴付けることを提案し,より歪んだ特異値分布が「分岐一様性」問題を緩和できることを実証的に示す。 観測に基づいて特異値分布の望ましいいくつかの特性を定義し,特異値を更新するための新しい変換関数を提案する。 トークン一様性を緩和することとは別に、変換関数は元の埋め込み空間内の局所近傍構造を保存すべきである。 提案する特異値変換関数はBERT, ALBERT, RoBERTa, DistilBERTなどのトランスフォーマベース言語モデルに適用され, セマンティックテキスト類似性評価やGLUEタスクの範囲で性能改善が観察される。 ソースコードはhttps://github.com/hanqi-qi/tokenuni.gitで入手できます。

Token uniformity is commonly observed in transformer-based models, in which different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer. In this paper, we propose to use the distribution of singular values of outputs of each transformer layer to characterise the phenomenon of token uniformity and empirically illustrate that a less skewed singular value distribution can alleviate the `token uniformity' problem. Base on our observations, we define several desirable properties of singular value distributions and propose a novel transformation function for updating the singular values. We show that apart from alleviating token uniformity, the transformation function should preserve the local neighbourhood structure in the original embedding space. Our proposed singular value transformation function is applied to a range of transformer-based language models such as BERT, ALBERT, RoBERTa and DistilBERT, and improved performance is observed in semantic textual similarity evaluation and a range of GLUE tasks. Our source code is available at https://github.com/hanqi-qi/tokenUni.git.
翻訳日:2023-12-21 03:41:47 公開日:2023-12-19
# 不確実性に基づく行動品質評価

Uncertainty-Driven Action Quality Assessment ( http://arxiv.org/abs/2207.14513v2 )

ライセンス: Link先を確認
Caixia Zhou and Yaping Huang and Haibin Ling(参考訳) 自動行動品質評価(AQA)は、その幅広い応用により注目を集めている。 しかし、既存のAQA手法の多くは、各行動の最終スコアを予測するために決定論的モデルを採用しており、スコアリング過程において専門家審査員の主観性と多様性を見越している。 本稿では,不確実性駆動型AQA(Uncertainty-Driven AQA)と呼ばれる新しい確率モデルを提案する。 具体的には,条件付き変分自動エンコーダ(CVAE)ベースのモジュールを設計し,専門家評価における不確実性を符号化する。 この不確実性をさらに活用するために,aqa回帰損失の再重み付けに使用される各予測に対する不確実性の推定を行い,トレーニング中の不確実性サンプルの影響を効果的に低減する。 さらに,不確実性から高い不確実性までサンプルの学習順序を動的に調整する不確実性誘導学習戦略を考案する。 提案手法は, オリンピックイベントMTL-AQA, FineDiving, JIGSAWSデータセットの3つのベンチマークにおいて, 競合する結果が得られることを示す。

Automatic action quality assessment (AQA) has attracted increasing attention due to its wide applications. However, most existing AQA methods employ deterministic models to predict the final score for each action, while overlooking the subjectivity and diversity among expert judges during the scoring process. In this paper, we propose a novel probabilistic model, named Uncertainty-Driven AQA (UD-AQA), to utilize and capture the diversity among multiple judge scores. Specifically, we design a Conditional Variational Auto-Encoder (CVAE)-based module to encode the uncertainty in expert assessment, where multiple judge scores can be produced by sampling latent features from the learned latent space multiple times. To further utilize the uncertainty, we generate the estimation of uncertainty for each prediction, which is employed to re-weight AQA regression loss, effectively reducing the influence of uncertain samples during training. Moreover, we further design an uncertainty-guided training strategy to dynamically adjust the learning order of the samples from low uncertainty to high uncertainty. The experiments show that our proposed method achieves competitive results on three benchmarks including the Olympic events MTL-AQA and FineDiving, and the surgical skill JIGSAWS datasets.
翻訳日:2023-12-21 03:41:09 公開日:2023-12-19
# オープンソースコードレビューにおけるインキビティ検出と課題

Incivility Detection in Open Source Code Review and Issue Discussions ( http://arxiv.org/abs/2206.13429v2 )

ライセンス: Link先を確認
Isabella Ferreira, Ahlaam Rafiq, Jinghui Cheng(参考訳) オープンソース開発の民主的な性質を考えると、コードレビューと課題の議論は非現実的かもしれない。 不必要な無礼なトーンを伝える議論の特徴として定義されるインキビティは、オープンソースコミュニティに悪影響を及ぼす可能性がある。 これらのネガティブな結果を防ぐか、最小化するために、オープンソースプラットフォームには、議論から邪悪な言語を取り除くメカニズムが含まれている。 しかし、このような手法には手動検査が必要であり、多くの議論があるので圧倒的に多い。 本稿では,オープンソースのコミュニティがこの問題に対処するために,従来の6つの機械学習モデルとBERTを比較して,オープンソースのコードレビューと議論の課題を検出することを目的とする。 さらに,文脈情報の追加によってモデルの性能が向上するか,また,モデルがクロスプラットフォームでどのように機能するかを評価する。 BERTは従来の機械学習モデルよりも優れており、最高のF1スコアは0.95である。 さらに、古典的な機械学習モデルは、非技術的、民事的議論を検出するために性能が劣る傾向にある。 以上の結果から,BERT にコンテキスト情報を追加すると性能が向上せず,解析された分類器のいずれも,クロスプラットフォーム環境での優れた性能は得られなかった。 最後に、分類器が誤分類する音色に関する洞察を提供する。

Given the democratic nature of open source development, code review and issue discussions may be uncivil. Incivility, defined as features of discussion that convey an unnecessarily disrespectful tone, can have negative consequences to open source communities. To prevent or minimize these negative consequences, open source platforms have included mechanisms for removing uncivil language from the discussions. However, such approaches require manual inspection, which can be overwhelming given the large number of discussions. To help open source communities deal with this problem, in this paper, we aim to compare six classical machine learning models with BERT to detect incivility in open source code review and issue discussions. Furthermore, we assess if adding contextual information improves the models' performance and how well the models perform in a cross-platform setting. We found that BERT performs better than classical machine learning models, with a best F1-score of 0.95. Furthermore, classical machine learning models tend to underperform to detect non-technical and civil discussions. Our results show that adding the contextual information to BERT did not improve its performance and that none of the analyzed classifiers had an outstanding performance in a cross-platform setting. Finally, we provide insights into the tones that the classifiers misclassify.
翻訳日:2023-12-21 03:40:29 公開日:2023-12-19
# 高速政策伝達のための相対的政策移行最適化

Relative Policy-Transition Optimization for Fast Policy Transfer ( http://arxiv.org/abs/2206.06009v2 )

ライセンス: Link先を確認
Jiawei Xu, Cheng Zhou, Yizheng Zhang, Baoxiang Wang, Lei Han(参考訳) 我々は,2つのマルコフ決定過程(mdps)間の政策伝達の問題を考える。 本稿では,2つの任意のMDP間の相対性差を測定するための強化学習における既存の理論結果に基づく補題を導入する。 この補題に基づいて、我々は、それぞれ高速なポリシー伝達と動的モデリングを提供するRPO(Relative Policy Optimization)とRTO(Relative Transition Optimization)と呼ばれる2つの新しいアルゴリズムを提案する。 RPOは評価されたポリシーをある環境で転送し、別の環境でのリターンを最大化し、RTOはパラメータ化されたダイナミクスモデルを更新し、2つの環境のダイナミクス間のギャップを減らす。 2つのアルゴリズムを統合することで、ポリシーは2つの環境からのデータ収集、ポリシーと遷移の更新が1つのクローズドループで完了し、ポリシー転送のための原則学習フレームワークを形成する、完全な相対的ポリシー-遷移最適化(RPTO)アルゴリズムが実現される。 変動力学を用いてポリシー伝達問題を作成することで, MuJoCo の連続制御タスクに対する RPTO の有効性を示す。

We consider the problem of policy transfer between two Markov Decision Processes (MDPs). We introduce a lemma based on existing theoretical results in reinforcement learning to measure the relativity gap between two arbitrary MDPs, that is the difference between any two cumulative expected returns defined on different policies and environment dynamics. Based on this lemma, we propose two new algorithms referred to as Relative Policy Optimization (RPO) and Relative Transition Optimization (RTO), which offer fast policy transfer and dynamics modelling, respectively. RPO transfers the policy evaluated in one environment to maximize the return in another, while RTO updates the parameterized dynamics model to reduce the gap between the dynamics of the two environments. Integrating the two algorithms results in the complete Relative Policy-Transition Optimization (RPTO) algorithm, in which the policy interacts with the two environments simultaneously, such that data collections from two environments, policy and transition updates are completed in one closed loop to form a principled learning framework for policy transfer. We demonstrate the effectiveness of RPTO on a set of MuJoCo continuous control tasks by creating policy transfer problems via variant dynamics.
翻訳日:2023-12-21 03:40:09 公開日:2023-12-19
# データ効率ganトレーニングのための拡張認識自己スーパービジョン

Augmentation-Aware Self-Supervision for Data-Efficient GAN Training ( http://arxiv.org/abs/2205.15677v4 )

ライセンス: Link先を確認
Liang Hou, Qi Cao, Yige Yuan, Songtao Zhao, Chongyang Ma, Siyuan Pan, Pengfei Wan, Zhongyuan Wang, Huawei Shen, Xueqi Cheng(参考訳) 限定されたデータを持つgans(generative adversarial networks)のトレーニングは、判別器が過剰に適合し易いため難しい。 従来提案された差別化可能拡張は、訓練用GANのデータ効率の改善を示す。 しかし、データ変換によるラベル空間のセマンティクスの変化を無視し、識別器の表現学習能力を制限し、最終的にジェネレータの生成モデル性能に影響を及ぼすため、識別器の増大に対する望ましくない不変性を暗黙的に導入する。 データ拡張の利点を継承しながら、不変性の悪影響を軽減するために、拡張データの拡張パラメータを予測する新しい強化対応自己教師付き判別器を提案する。 特に、実際のデータと生成されたデータの予測対象は、トレーニング中に異なるため、区別する必要がある。 さらに,自己監督型判別器から,偽データではなく拡張予測可能な実データを生成することで,逆向きに学習することを推奨する。 この定式化は、ある仮定の下で生成元の学習目標と算術 $-$ harmonic mean divergence を結びつける。 我々は,データ制限付きCIFAR-10, CIFAR-100, FFHQ, LSUN-Catおよび5つの低ショットデータセット上で, クラス条件のBigGANおよび非条件のStyleGAN2アーキテクチャを用いたSOTA手法との比較を行った。 実験により,データ効率のよいGANの訓練において,SOTA法よりも優れた手法が得られた。

Training generative adversarial networks (GANs) with limited data is challenging because the discriminator is prone to overfitting. Previously proposed differentiable augmentation demonstrates improved data efficiency of training GANs. However, the augmentation implicitly introduces undesired invariance to augmentation for the discriminator since it ignores the change of semantics in the label space caused by data transformation, which may limit the representation learning ability of the discriminator and ultimately affect the generative modeling performance of the generator. To mitigate the negative impact of invariance while inheriting the benefits of data augmentation, we propose a novel augmentation-aware self-supervised discriminator that predicts the augmentation parameter of the augmented data. Particularly, the prediction targets of real data and generated data are required to be distinguished since they are different during training. We further encourage the generator to adversarially learn from the self-supervised discriminator by generating augmentation-predictable real and not fake data. This formulation connects the learning objective of the generator and the arithmetic $-$ harmonic mean divergence under certain assumptions. We compare our method with state-of-the-art (SOTA) methods using the class-conditional BigGAN and unconditional StyleGAN2 architectures on data-limited CIFAR-10, CIFAR-100, FFHQ, LSUN-Cat, and five low-shot datasets. Experimental results demonstrate significant improvements of our method over SOTA methods in training data-efficient GANs.
翻訳日:2023-12-21 03:39:48 公開日:2023-12-19
# 非マルコフ散逸から量子ナノデバイスの時空間制御へ

From Non-Markovian Dissipation to Spatiotemporal Control of Quantum Nanodevices ( http://arxiv.org/abs/2205.11247v4 )

ライセンス: Link先を確認
Thibaut Lacroix, Brendon W. Lovett, Alex W. Chin(参考訳) 量子効果を利用するナノデバイスは将来の量子技術(QT)の重要な要素であるが、その実世界の性能は局所的な「環境」相互作用から生じるデコヒーレンスによって強く制限されている。 複数の機能ユニットを含むデバイスが複雑化するにつれて、ローカルな環境が重なり始め、新しい時間と長さのスケールで環境に媒介するデコヒーレンス現象が発生する可能性がある。 このような複雑で本質的に非マルコフ力学は、QTのスケールアップに挑戦する可能性があるが、一方では、酵素や光合成タンパク質のような生物学的ナノマシンで起こることが示唆されるように、環境が「シグナル」とエネルギーを伝達する能力も、コンポーネント間プロセスの時空間的調整を可能にする可能性がある。 数値的に正確な多くのボディ・メソッド(テンソル・ネットワーク)を探索し、空間的に離れた非相互作用量子系の進化を伝播する環境力学をどのように推し進めるかを探求する。 本研究では, 環境に散逸するエネルギーを遠隔で収穫し, 過渡的な励起・反応性状態を生成することを実証し, また, 系の励起によって引き起こされる再編成が, 「機能」量子系の「ダウンストリーム」運動を質的かつ可逆的に変化させる可能性を明らかにする。 完全なシステム環境波動関数へのアクセスにより、これらの現象の基礎となる顕微鏡プロセスが解明され、エネルギー効率のよい量子デバイスにどのように活用できるかの新しい知見が得られた。

Nanodevices exploiting quantum effects are critically important elements of future quantum technologies (QT), but their real-world performance is strongly limited by decoherence arising from local `environmental' interactions. Compounding this, as devices become more complex, i.e. contain multiple functional units, the `local' environments begin to overlap, creating the possibility of environmentally mediated decoherence phenomena on new time-and-length scales. Such complex and inherently non-Markovian dynamics could present a challenge for scaling up QT, but -- on the other hand -- the ability of environments to transfer `signals' and energy might also enable sophisticated spatiotemporal coordination of inter-component processes, as is suggested to happen in biological nanomachines, like enzymes and photosynthetic proteins. Exploiting numerically exact many body methods (tensor networks) we study a fully quantum model that allows us to explore how propagating environmental dynamics can instigate and direct the evolution of spatially remote, non-interacting quantum systems. We demonstrate how energy dissipated into the environment can be remotely harvested to create transient excited/reactive states, and also identify how reorganisation triggered by system excitation can qualitatively and reversibly alter the `downstream' kinetics of a `functional' quantum system. With access to complete system-environment wave functions, we elucidate the microscopic processes underlying these phenomena, providing new insight into how they could be exploited for energy efficient quantum devices.
翻訳日:2023-12-21 03:37:29 公開日:2023-12-19
# COSMOS:ターゲット認識ドメイン翻訳と反復自己評価に基づく3次元医用画像分割のためのクロスモーダル非教師付きドメイン適応

COSMOS: Cross-Modality Unsupervised Domain Adaptation for 3D Medical Image Segmentation based on Target-aware Domain Translation and Iterative Self-Training ( http://arxiv.org/abs/2203.16557v2 )

ライセンス: Link先を確認
Hyungseob Shin, Hyeongyu Kim, Sewon Kim, Yohan Jun, Taejoon Eo and Dosik Hwang(参考訳) 深層学習に基づく医用画像分割研究の最近の進歩は、完全に監視された状態においてほぼ人間レベルの性能を達成する。 しかし, 医用画像の分野では, ピクセルレベルの専門家アノテーションの取得は非常に高価であり, 手間がかかる。 教師なしのドメイン適応はこの問題を緩和し、1つの画像モダリティで注釈付きデータを使用して、ラベルなしでターゲット画像モダリティのセグメンテーションを成功させるネットワークを訓練することができる。 本研究では,COSMOSと命名された3次元医用画像セグメンテーションのための自己学習に基づく教師なし領域適応フレームワークを提案し,高分解能T2磁気共鳴画像(MRI)を用いた前庭神経腫瘍(VS)とコクランの自動セグメンテーションによる評価を行った。 提案ネットワークは,T1 MRI に付加したソース領域を擬似的 T2 MRI に変換して,対象領域におけるセグメンテーショントレーニングを実現するとともに,変換画像に対する重要な解剖学的特徴を保存する。 反復的な自己学習に続いて、ラベルのないデータをトレーニングに取り入れ、擬似ラベルの品質を段階的に改善することで、セグメンテーションのパフォーマンスが向上する。 COSMOSは、第24回医用画像コンピューティングおよびコンピュータ支援介入会議(MICCAI 2021)と共同で開催されたクロスモダリティドメイン適応(cross-Modality Domain Adaptation,crossMoDA)チャレンジで1\textsuperscript{st}の座を獲得した。 平均サイススコアと平均対称表面距離は、vsでは 0.871(0.063) と 0.437(0.270)、cochleaでは 0.842(0.020) と 0.152(0.030) である。

Recent advances in deep learning-based medical image segmentation studies achieve nearly human-level performance when in fully supervised condition. However, acquiring pixel-level expert annotations is extremely expensive and laborious in medical imaging fields. Unsupervised domain adaptation can alleviate this problem, which makes it possible to use annotated data in one imaging modality to train a network that can successfully perform segmentation on target imaging modality with no labels. In this work, we propose a self-training based unsupervised domain adaptation framework for 3D medical image segmentation named COSMOS and validate it with automatic segmentation of Vestibular Schwannoma (VS) and cochlea on high-resolution T2 Magnetic Resonance Images (MRI). Our target-aware contrast conversion network translates source domain annotated T1 MRI to pseudo T2 MRI to enable segmentation training on target domain, while preserving important anatomical features of interest in the converted images. Iterative self-training is followed to incorporate unlabeled data to training and incrementally improve the quality of pseudo-labels, thereby leading to improved performance of segmentation. COSMOS won the 1\textsuperscript{st} place in the Cross-Modality Domain Adaptation (crossMoDA) challenge held in conjunction with the 24th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2021). It achieves mean Dice score and Average Symmetric Surface Distance of 0.871(0.063) and 0.437(0.270) for VS, and 0.842(0.020) and 0.152(0.030) for cochlea.
翻訳日:2023-12-21 03:36:33 公開日:2023-12-19
# FIRE:方向と符号付き距離関数を用いた高速逆レンダリング

FIRe: Fast Inverse Rendering using Directional and Signed Distance Functions ( http://arxiv.org/abs/2203.16284v3 )

ライセンス: Link先を確認
Tarun Yenamandra and Ayush Tewari and Nan Yang and Florian Bernard and Christian Theobalt and Daniel Cremers(参考訳) ニューラルな3D暗黙表現は、シングルビューや複数ビューの3D再構成のような多様なアプリケーションに有用な事前学習を行う。 イメージをレンダリングする既存のアプローチの大きな欠点は、高い計算時間が下流アプリケーションにとってボトルネックとなるように、カメラ光量当たりのネットワークを複数回評価する必要があることである。 本稿では,方向距離関数(DDF)と呼ばれるニューラルシーン表現を導入することで,この問題に対処する。 そこで我々は,DDFモデルとともに符号付き距離関数(SDF)を学習し,形状のクラスを表現する。 具体的には、DDFは単位球上で定義され、任意の方向に沿って表面までの距離を予測する。 したがって、ddfは1つのネットワーク評価で1つのカメラ光線で画像をレンダリングできる。 提案手法はDDFに基づいて,提案した深度マップから3次元形状を再構成する高速アルゴリズム (FIRe) を提案する。 提案手法は, 単視点深度画像からの3次元再構成において, アルゴリズムがより正確に3次元形状を再構成できることを実証的に示し, 競合する手法よりも15倍以上高速であることを示した。

Neural 3D implicit representations learn priors that are useful for diverse applications, such as single- or multiple-view 3D reconstruction. A major downside of existing approaches while rendering an image is that they require evaluating the network multiple times per camera ray so that the high computational time forms a bottleneck for downstream applications. We address this problem by introducing a novel neural scene representation that we call the directional distance function (DDF). To this end, we learn a signed distance function (SDF) along with our DDF model to represent a class of shapes. Specifically, our DDF is defined on the unit sphere and predicts the distance to the surface along any given direction. Therefore, our DDF allows rendering images with just a single network evaluation per camera ray. Based on our DDF, we present a novel fast algorithm (FIRe) to reconstruct 3D shapes given a posed depth map. We evaluate our proposed method on 3D reconstruction from single-view depth images, where we empirically show that our algorithm reconstructs 3D shapes more accurately and it is more than 15 times faster (per iteration) than competing methods.
翻訳日:2023-12-21 03:36:02 公開日:2023-12-19
# 活性化関数学習によるリプシッツ制約ニューラルネットワークの改良

Improving Lipschitz-Constrained Neural Networks by Learning Activation Functions ( http://arxiv.org/abs/2210.16222v2 )

ライセンス: Link先を確認
Stanislas Ducotterd, Alexis Goujon, Pakshal Bohra, Dimitris Perdios, Sebastian Neumayer, Michael Unser(参考訳) リプシッツに制約されたニューラルネットワークは、制約のないニューラルネットワークよりもいくつかの利点があり、さまざまな問題に適用できるため、ディープラーニングコミュニティでは注目の的となっている。 残念ながら、ReLUアクティベーション機能を備えた場合、理論上も経験上も性能が悪いことが示されている。 対照的に、学習可能な1-Lipschitz線形スプラインを持つニューラルネットワークはより表現力が高いことが知られている。 本稿では,1-Lipschitz線形層と1-Lipschitz自由形式活性化関数からなるニューラルネットワークの2次全変分正規化によるトレーニングを含む,制約付き関数最適化問題の大域的最適化に対応することを示す。 さらに,これらのニューラルネットワークを効率的に学習する手法を提案する。 シミュレーション実験により,既存の1-Lipschitzニューラルアーキテクチャと比較した。

Lipschitz-constrained neural networks have several advantages over unconstrained ones and can be applied to a variety of problems, making them a topic of attention in the deep learning community. Unfortunately, it has been shown both theoretically and empirically that they perform poorly when equipped with ReLU activation functions. By contrast, neural networks with learnable 1-Lipschitz linear splines are known to be more expressive. In this paper, we show that such networks correspond to global optima of a constrained functional optimization problem that consists of the training of a neural network composed of 1-Lipschitz linear layers and 1-Lipschitz freeform activation functions with second-order total-variation regularization. Further, we propose an efficient method to train these neural networks. Our numerical experiments show that our trained networks compare favorably with existing 1-Lipschitz neural architectures.
翻訳日:2023-12-21 03:29:49 公開日:2023-12-19
# sparse-reward long-horizon-conditioned reinforcement learningのための事前学習スキルによる目標探索強化

Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward Long-Horizon Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2210.16058v2 )

ライセンス: Link先を確認
Lisheng Wu and Ke Chen(参考訳) 強化学習(rl)は、複雑な環境で疎遠な長いホリゾンタスクを達成するのに苦労することが多い。 目標条件強化学習(gcrl)は、難解なサブゴールのカリキュラムを通じてこの問題に取り組むために採用されている。 gcrlでは、エージェントが最終的に望ましい目標への経路を見つけるためには、新しいサブゴールの探索が不可欠である。 新たなサブゴールを効率的に探索する方法は、GCRLの最も難しい問題の一つである。 この問題に対処するために、いくつかの目標探索手法が提案されているが、望ましい目標を効率的に見つけるのに苦労している。 本稿では,ゴール選択に基づくGCRLにおいて,達成目標と新たな目標のエントロピーを最適化し,より効率的な目標探索を実現するための新たな学習目標を提案する。 この目的を最適化するために、我々はまず、スキル学習を通じてスキルを構成するために、現在のタスクと同様の環境でしばしば発生するゴール遷移パターンを探索し、活用する。 そして、事前訓練されたスキルをゴール探索に適用する。 本手法をいくつかの最先端GCRLベースラインに組み込むことで, 探索効率を向上し, 性能を向上し, 維持することが示唆された。 ソースコードは、https://github.com/GEAPS/GEAPSで入手できる。

Reinforcement learning (RL) often struggles to accomplish a sparse-reward long-horizon task in a complex environment. Goal-conditioned reinforcement learning (GCRL) has been employed to tackle this difficult problem via a curriculum of easy-to-reach sub-goals. In GCRL, exploring novel sub-goals is essential for the agent to ultimately find the pathway to the desired goal. How to explore novel sub-goals efficiently is one of the most challenging issues in GCRL. Several goal exploration methods have been proposed to address this issue but still struggle to find the desired goals efficiently. In this paper, we propose a novel learning objective by optimizing the entropy of both achieved and new goals to be explored for more efficient goal exploration in sub-goal selection based GCRL. To optimize this objective, we first explore and exploit the frequently occurring goal-transition patterns mined in the environments similar to the current task to compose skills via skill learning. Then, the pretrained skills are applied in goal exploration. Evaluation on a variety of spare-reward long-horizon benchmark tasks suggests that incorporating our method into several state-of-the-art GCRL baselines significantly boosts their exploration efficiency while improving or maintaining their performance. The source code is available at: https://github.com/GEAPS/GEAPS.
翻訳日:2023-12-21 03:29:33 公開日:2023-12-19
# オンラインソーシャルメディアにおけるジェネレーティブ・アドバイサル・ネットワークによる偽アカウントの検出

Detecting fake accounts through Generative Adversarial Network in online social media ( http://arxiv.org/abs/2210.15657v3 )

ライセンス: Link先を確認
Jinus Bordbar, Mohammadreza Mohammadrezaie, Saman Ardalan, Mohammad Ebrahim Shiri(参考訳) オンラインソーシャルメディアは、プライバシーを維持しながら、メッセージング、情報共有、機密コミュニケーションを促進するために、人間生活に不可欠なものだ。 Twitter、Instagram、Facebookなどのプラットフォームはこの現象を実証している。 しかし、ユーザーはネットワークの異常により困難に直面し、多くの場合、金銭的利益や損害に対するアイデンティティ盗難などの悪意ある活動から生じる。 本稿では,twitter データセット内の偽ユーザアカウントを識別するために,ユーザ類似度尺度とgenerative adversarial network (gan) アルゴリズムを用いた新しい手法を提案する。 問題の複雑さにもかかわらず、偽アカウントの分類と検出において、AUCレートが80%に達する。 この研究は、オンラインソーシャルネットワークにおける異常検出の進化する状況に関する進歩と洞察に焦点を当てた以前の研究に基づいている。

Online social media is integral to human life, facilitating messaging, information sharing, and confidential communication while preserving privacy. Platforms like Twitter, Instagram, and Facebook exemplify this phenomenon. However, users face challenges due to network anomalies, often stemming from malicious activities such as identity theft for financial gain or harm. This paper proposes a novel method using user similarity measures and the Generative Adversarial Network (GAN) algorithm to identify fake user accounts in the Twitter dataset. Despite the problem's complexity, the method achieves an AUC rate of 80\% in classifying and detecting fake accounts. Notably, the study builds on previous research, highlighting advancements and insights into the evolving landscape of anomaly detection in online social networks.
翻訳日:2023-12-21 03:29:11 公開日:2023-12-19
# 人間中心型説明可能なAIを目指して : モデル説明のためのユーザスタディ

Towards Human-centered Explainable AI: A Survey of User Studies for Model Explanations ( http://arxiv.org/abs/2210.11584v4 )

ライセンス: Link先を確認
Yao Rong, Tobias Leemann, Thai-trang Nguyen, Lisa Fiedler, Peizhu Qian, Vaibhav Unhelkar, Tina Seidel, Gjergji Kasneci, Enkelejda Kasneci(参考訳) 説明可能なAI(XAI)は、拡張可能なAI研究の正当性として広く見なされている。 XAIユーザのニーズをよりよく理解すると同時に、説明可能なモデルの人間中心の評価も必要かつ課題である。 本稿では、系統的な文献レビューに基づいて、HCIとAI研究者がXAIアプリケーションでユーザ研究を行う方法について検討する。 過去5年間のXAI評価による97コア論文の同定と分析を行った結果,信頼,理解,ユーザビリティ,人間とAIのコラボレーション性能など,説明的手法の指標的特徴に沿って分類した。 我々の研究は、XAIが推奨システムなど特定のアプリケーション領域において他の分野よりも急速に普及していることを示しているが、ユーザ評価はいまだに疎外であり、認知科学や社会科学からの洞察をほとんど含まない。 ユーザ研究におけるベストプラクティス、すなわち共通モデル、設計選択、測定の包括的議論に基づいて、xai研究者や実践者のためにユーザー研究を設計・実施するための実践的ガイドラインを提案する。 最後に、この調査はいくつかのオープンな研究の方向性、特に心理学と人間中心のXAIの関連を強調している。

Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 97core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, usability, and human-AI collaboration performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.
翻訳日:2023-12-21 03:28:59 公開日:2023-12-19
# 不均一クライアントを用いたフェデレーションベストアーム識別

Federated Best Arm Identification with Heterogeneous Clients ( http://arxiv.org/abs/2210.07780v3 )

ライセンス: Link先を確認
Zhirui Chen, P. N. Karthik, Vincent Y. F. Tan, and Yeow Meng Chee(参考訳) 本研究は,各クライアントが腕の部分集合にアクセスでき,各アームが独立してガウス観測を行う場合に,中央サーバと複数のクライアントで連携した多腕バンディット設定における最適なアーム識別について検討する。 ここでは、最良のアームは、腕にアクセスしているすべてのクライアントで平均された平均値の最大値を持つものである。 我々の関心は、誤差確率が消えるにつれて漸近性にある。 任意のアルゴリズムの期待停止時間の成長速度に対する漸近的な下限を提供する。 さらに、期待停止時間上の上限が乗算定数まで下限と一致するようなアルゴリズム({\em almost-optimal} アルゴリズム)の場合、任意の2つの連続する通信時間の比率は、独立した関心を持つ結果である。 これにより,アルゴリズムがほぼ最適となるために,指数的なタイミングでしか通信できないことを推測する。 ほぼ最適なアルゴリズムのクラスでは、ストップページまで期待される「em通信ラウンド」の数の第一の漸近的下限を示す。 指数関数時間で通信する新しいアルゴリズムを提案し,漸近的にほぼ最適であることを示す。

We study best arm identification in a federated multi-armed bandit setting with a central server and multiple clients, when each client has access to a {\em subset} of arms and each arm yields independent Gaussian observations. The goal is to identify the best arm of each client subject to an upper bound on the error probability; here, the best arm is one that has the largest {\em average} value of the means averaged across all clients having access to the arm. Our interest is in the asymptotics as the error probability vanishes. We provide an asymptotic lower bound on the growth rate of the expected stopping time of any algorithm. Furthermore, we show that for any algorithm whose upper bound on the expected stopping time matches with the lower bound up to a multiplicative constant ({\em almost-optimal} algorithm), the ratio of any two consecutive communication time instants must be {\em bounded}, a result that is of independent interest. We thereby infer that an algorithm can communicate no more sparsely than at exponential time instants in order to be almost-optimal. For the class of almost-optimal algorithms, we present the first-of-its-kind asymptotic lower bound on the expected number of {\em communication rounds} until stoppage. We propose a novel algorithm that communicates at exponential time instants, and demonstrate that it is asymptotically almost-optimal.
翻訳日:2023-12-21 03:28:08 公開日:2023-12-19
# 雑音量子コンピュータにおけるグリーン関数の超解像

Super-resolution of Green's functions on noisy quantum computers ( http://arxiv.org/abs/2210.04919v2 )

ライセンス: Link先を確認
Diogo Cruz and Duarte Magano(参考訳) 効率的なハミルトニアン進化ルーチンを用いた量子コンピュータは、グリーン関数の古典的難解な量子系をシミュレートする可能性を秘めている。 しかし、近い将来の量子プロセッサのデコヒーレンス誤差は、スペクトル分解能の限界となる大きな進化時間を妨げる。 本研究では、よく知られた超解像技術であるAtomic Norm Minimizationが、正確なスペクトル再構成のための最小回路深さを著しく低減できることを示す。 我々は,IBM量子コンピュータ上でのグリーン関数の測定から不純物モデルのスペクトル関数を復元することにより,この手法を実証する。 原子ノルム最小化による再構成誤差は、より標準的な信号処理方法よりも1桁小さい。 超解像法は、大規模で未探索の量子系のシミュレーションを容易にし、近い将来に量子優位性を確立するために有用な非偏差ツールを構成することができる。

Quantum computers, using efficient Hamiltonian evolution routines, have the potential to simulate Green's functions of classically-intractable quantum systems. However, the decoherence errors of near-term quantum processors prohibit large evolution times, posing limits to the spectrum resolution. In this work, we show that Atomic Norm Minimization, a well-known super-resolution technique, can significantly reduce the minimum circuit depth for accurate spectrum reconstruction. We demonstrate this technique by recovering the spectral function of an impurity model from measurements of its Green's function on an IBM quantum computer. The reconstruction error with the Atomic Norm Minimization is one order of magnitude smaller than with more standard signal processing methods. Super-resolution methods can facilitate the simulation of large and previously unexplored quantum systems, and may constitute a useful non-variational tool to establish a quantum advantage in a nearer future.
翻訳日:2023-12-21 03:27:17 公開日:2023-12-19
# Polar Encoding: 欠落値の分類のためのシンプルなベースラインアプローチ

Polar Encoding: A Simple Baseline Approach for Classification with Missing Values ( http://arxiv.org/abs/2210.01905v3 )

ライセンス: Link先を確認
Oliver Urs Lenz, Daniel Peralta, Chris Cornelis(参考訳) 分類文脈で使用する値の欠如を伴う分類的および数値的な$[0,1]$値属性の表現である極符号化を提案する。 これは良いベースラインアプローチであり、どんな分類アルゴリズムでも使用でき、不足情報を保存でき、非常に簡単に適用でき、優れた性能を提供するからである。 特に、既存の欠落指標のアプローチとは異なり、計算を必要とせず、欠落した値が非欠落値と等価であることを保証し、決定木アルゴリズムが欠落した値を分割する方法を選択して、"属性に組み込まれた欠落"(MIA)提案を実践的に実現できるようにする。 さらに、分類的および$[0,1]$値の属性は、バリ中心座標の古典的な概念に対応する単一属性型の特別な場合と見なせることを示し、これは1ホット符号化のファジファイド形式として極符号化の自然な解釈を提供する。 値の欠落した20の実生活データセットに基づく実験では、結果の分類性能の観点から、極性エンコーディングが最先端の戦略 \e{multiple imputation by chained equation} (mice) や \e{multiple imputation with denoising autoencoders} (midas) や ----------------------または---indicator による平均/モードインプテーションよりも優れていることが示されている。

We propose polar encoding, a representation of categorical and numerical $[0,1]$-valued attributes with missing values to be used in a classification context. We argue that this is a good baseline approach, because it can be used with any classification algorithm, preserves missingness information, is very simple to apply and offers good performance. In particular, unlike the existing missing-indicator approach, it does not require imputation, ensures that missing values are equidistant from non-missing values, and lets decision tree algorithms choose how to split missing values, thereby providing a practical realisation of the "missingness incorporated in attributes" (MIA) proposal. Furthermore, we show that categorical and $[0,1]$-valued attributes can be viewed as special cases of a single attribute type, corresponding to the classical concept of barycentric coordinates, and that this offers a natural interpretation of polar encoding as a fuzzified form of one-hot encoding. With an experiment based on twenty real-life datasets with missing values, we show that, in terms of the resulting classification performance, polar encoding performs better than the state-of-the-art strategies \e{multiple imputation by chained equations} (MICE) and \e{multiple imputation with denoising autoencoders} (MIDAS) and -- depending on the classifier -- about as well or better than mean/mode imputation with missing-indicators.
翻訳日:2023-12-21 03:26:07 公開日:2023-12-19
# FAL-CUR:不確かさと代表性を用いたフェアクラスタリングによるフェアアクティブラーニング

FAL-CUR: Fair Active Learning using Uncertainty and Representativeness on Fair Clustering ( http://arxiv.org/abs/2209.12756v2 )

ライセンス: Link先を確認
Ricky Fajri, Akrati Saxena, Yulong Pei, Mykola Pechenizkiy(参考訳) アクティブラーニング(AL)技術は、機械学習タスクの範囲でデータラベリングコストを低減するのに非常に効果的であることが証明されている。 しかしながら、これらの手法の1つの既知の課題は、センシティブな属性に対して不公平を導入する可能性である。 最近のアプローチではalの公平性向上に重点が置かれているが、モデルの精度を低下させる傾向がある。 この問題を解決するために,フェアクラスタリング,不確実性,代表性(FAL-CUR)を用いたフェアアクティブラーニング(Fair Active Learning)という新たな戦略を提案し,ALのフェアネスを改善する。 fal-curは、フェアクラスタリングと、その不確実性と代表性スコアに基づいてクエリするサンプルを決定する取得関数を組み合わせることで、alのフェアネス問題に取り組む。 本研究では,4つの実世界のデータセットにおけるfal-curの性能を評価し,fal-curの公平性は,同等のオッズ値を維持しつつ,公平性が15%~20%向上することを示した。 さらに, フェアネス保存におけるフェアクラスタリングの重要な役割と, 精度の安定化における獲得機能を強調した。

Active Learning (AL) techniques have proven to be highly effective in reducing data labeling costs across a range of machine learning tasks. Nevertheless, one known challenge of these methods is their potential to introduce unfairness towards sensitive attributes. Although recent approaches have focused on enhancing fairness in AL, they tend to reduce the model's accuracy. To address this issue, we propose a novel strategy, named Fair Active Learning using fair Clustering, Uncertainty, and Representativeness (FAL-CUR), to improve fairness in AL. FAL-CUR tackles the fairness problem in AL by combining fair clustering with an acquisition function that determines which samples to query based on their uncertainty and representativeness scores. We evaluate the performance of FAL-CUR on four real-world datasets, and the results demonstrate that FAL-CUR achieves a 15% - 20% improvement in fairness compared to the best state-of-the-art method in terms of equalized odds while maintaining stable accuracy scores. Furthermore, an ablation study highlights the crucial roles of fair clustering in preserving fairness and the acquisition function in stabilizing the accuracy performance.
翻訳日:2023-12-21 03:25:32 公開日:2023-12-19
# 部分モジュラリティ、対独立および相関ギャップ

Submodularity, pairwise independence and correlation gap ( http://arxiv.org/abs/2209.08563v2 )

ライセンス: Link先を確認
Arjun Ramachandra and Karthik Natarajan(参考訳) 本稿では,単調部分モジュラー集合関数の期待値が$n$のペア独立なランダム入力を持つ場合のキャラクタリゼーションについて述べる。 相関ギャップ'という概念に触発されて,与えられた限界確率を持つランダム入力間の任意の依存性を持つ関数の最大期待値と,ペアワイズ独立なランダム入力と同じ限界確率を持つ関数の最大期待値の比率について検討した。 以上の結果から,この比率は下記の通りである。 (a)4/3$ for $n = 3$ 一般限界確率と任意の単調部分モジュラー集合関数 (b)小・大辺縁確率と任意の単調部分モジュラー集合関数を持つ一般のn$に対して4/3$ (c)$k/(4k-1)$ 一般の$n$、一般の同一確率、および $k$-uniform matroids のランク関数。 境界は3つのケースすべてで厳密である。 これは、互いに独立なランダム入力を持つ単調部分モジュラー集合関数の相関ギャップ比の$e/(e-1)$バウンドと対比する。 (b)) で、より弱い独立性の概念を持つ部分モジュラー関数の挙動の基本的な違いを示す。 これらの結果は、ペアの独立性を超えて、相関ランダムな入力に即座に拡張できる。 本稿では,分散的ロバストな最適化と機構設計の応用について論じる。

In this paper, we provide a characterization of the expected value of monotone submodular set functions with $n$ pairwise independent random inputs. Inspired by the notion of ``correlation gap'', we study the ratio of the maximum expected value of a function with arbitrary dependence among the random inputs with given marginal probabilities to the maximum expected value of the function with pairwise independent random inputs and the same marginal probabilities. Our results show that the ratio is upper bounded by: (a) $4/3$ for $n = 3$ with general marginal probabilities and any monotone submodular set function (b) $4/3$ for general $n$ with small and large marginal probabilities and any monotone submodular set function and (c) $4k/(4k-1)$ for general $n$, general identical probabilities and rank functions of $k$-uniform matroids. The bound is tight in all three cases. This contrasts with the $e/(e-1)$ bound on the correlation gap ratio for monotone submodular set functions with mutually independent random inputs (which is known to be tight in case (b)), and illustrates a fundamental difference in the behavior of submodular functions with weaker notions of independence. These results can be immediately extended beyond pairwise independence to correlated random inputs. We discuss applications in distributionally robust optimization and mechanism design and end the paper with a conjecture.
翻訳日:2023-12-21 03:24:34 公開日:2023-12-19
# 学習したベストレスポンスによる近似利用可能性最小化によるnash平衡の探索

Finding Nash equilibria by minimizing approximate exploitability with learned best responses ( http://arxiv.org/abs/2301.08830v2 )

ライセンス: Link先を確認
Carlos Martin, Tuomas Sandholm(参考訳) ゲーム理論平衡の発見にはかなりの進歩があった。 その作品のほとんどが、有限で離散的なアクション空間を持つゲームに焦点を当てている。 しかし、空間、時間、お金、その他の細かい量を含む多くのゲームは連続的なアクション空間を持つ(あるいはそのようなようにモデル化される)。 連続的なアクション集合を持つゲームの近似ナッシュ均衡を求める問題について検討する。 ナッシュ均衡の密接度に関する標準的な尺度は、プレイヤーが一方的に戦略を変更することでどれだけの利益を得ることができるかを計測するエクスプロイラビリティである。 本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。 第1の方法は学習した最善応答関数を使用し、現在の戦略プロファイルを入力として、各プレイヤーのベストレスポンス候補を返す。 戦略プロファイルとベストレスポンス関数は同時にトレーニングされ、前者はエクスプロイラビリティを最小化し、後者は最大化しようとする。 第2の方法は、各プレイヤーに対する候補ベストレスポンスのアンサンブルを保持する。 各イテレーションでは、各アンサンブルの最高のパフォーマンス要素を使用して、現在の戦略プロファイルを更新する。 戦略プロファイルと最善応答アンサンブルは、それぞれ、近似利用性を最小化し、最大化するために同時に訓練される。 各種連続ゲームにおいて,本手法が先行手法より優れていることを示す。

There has been substantial progress on finding game-theoretic equilibria. Most of that work has focused on games with finite, discrete action spaces. However, many games involving space, time, money, and other fine-grained quantities have continuous action spaces (or are best modeled as such). We study the problem of finding an approximate Nash equilibrium of games with continuous action sets. The standard measure of closeness to Nash equilibrium is exploitability, which measures how much players can benefit from unilaterally changing their strategy. We propose two new methods that minimize an approximation of the exploitability with respect to the strategy profile. The first method uses a learned best-response function, which takes the current strategy profile as input and returns candidate best responses for each player. The strategy profile and best-response functions are trained simultaneously, with the former trying to minimize exploitability while the latter tries to maximize it. The second method maintains an ensemble of candidate best responses for each player. In each iteration, the best-performing elements of each ensemble are used to update the current strategy profile. The strategy profile and best-response ensembles are simultaneously trained to minimize and maximize the approximate exploitability, respectively. We evaluate our methods on various continuous games, showing that they outperform prior methods.
翻訳日:2023-12-21 03:18:12 公開日:2023-12-19
# Word-Graph2vec:ランダムウォークサンプリングを用いた単語共起グラフへの効率的な単語埋め込み手法

Word-Graph2vec: An efficient word embedding approach on word co-occurrence graph using random walk sampling ( http://arxiv.org/abs/2301.04312v5 )

ライセンス: Link先を確認
Wenting Li and Jiahong Xue and Xi Zhang and Huacan Chen and Zeyu Chen and Yuanzhe Cai(参考訳) 単語の埋め込みはユビキタスになり、情報検索、意味分析、機械翻訳など、様々なテキストマイニングや自然言語処理(NLP)タスクで広く使われている。 残念ながら、比較的大きなコーパスに埋め込まれた単語を訓練するのは極めて高価である。 そこで本研究では,大小コーパスを単語共起グラフに変換し,ランダムに移動して単語列サンプルを取り,最後にこのサンプリングコーパスに埋め込まれた単語を訓練する,グラフベースの単語埋め込みアルゴリズムであるword-graph2vecを提案する。 英語における安定語彙,相対イディオム,固定表現により,単語共起グラフの大きさと密度は,学習コーパスの増加とともにわずかに変化することが示唆された。 したがって、Word-Graph2vecは大規模データセット上で安定したランタイムを持ち、そのパフォーマンス上の優位性は、トレーニングコーパスの成長とともにますます明確になる。 実世界のデータセットを用いた広範囲な実験により,提案アルゴリズムは従来のスキップグラムを4~5倍効率で上回り,ランダムウォークサンプリングによる誤差は小さいことがわかった。

Word embedding has become ubiquitous and is widely used in various text mining and natural language processing (NLP) tasks, such as information retrieval, semantic analysis, and machine translation, among many others. Unfortunately, it is prohibitively expensive to train the word embedding in a relatively large corpus. We propose a graph-based word embedding algorithm, called Word-Graph2vec, which converts the large corpus into a word co-occurrence graph, then takes the word sequence samples from this graph by randomly traveling and trains the word embedding on this sampling corpus in the end. We posit that because of the stable vocabulary, relative idioms, and fixed expressions in English, the size and density of the word co-occurrence graph change slightly with the increase in the training corpus. So that Word-Graph2vec has stable runtime on the large scale data set, and its performance advantage becomes more and more obvious with the growth of the training corpus. Extensive experiments conducted on real-world datasets show that the proposed algorithm outperforms traditional Skip-Gram by four-five times in terms of efficiency, while the error generated by the random walk sampling is small.
翻訳日:2023-12-21 03:17:51 公開日:2023-12-19
# pointvst: view-specific point-to-image translationによる3d point cloudsの自己教師付き事前学習

PointVST: Self-Supervised Pre-training for 3D Point Clouds via View-Specific Point-to-Image Translation ( http://arxiv.org/abs/2212.14197v4 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou(参考訳) 過去数年間、言語と2Dビジョンコミュニティにおける自己指導型表現学習の成功と普及を目撃してきた。 しかし、このような進歩は3Dポイントのクラウド学習分野に完全に移行していない。 本稿では,3次元の点群から3次元の点群へのクロスモーダル変換という,新たな自己教師付きプレテキストタスクを駆使して,生成的モデリングやコントラスト学習の領域に該当する,深部点群の特徴抽出器を設計した既存の事前学習パラダイムと異なり,翻訳事前学習フレームワークであるPointVSTを提案する。 より具体的には、視点インジケータを挿入することで視点条件付きポイントワイズ埋め込みを導出し、その後に画像生成のための2次元畳み込み変換ヘッドにさらに供給されるビュー固有のグローバルコードワードを適応的に集約することから始める。 様々なダウンストリームタスクシナリオに対する大規模な実験的評価により、PointVSTは、現在の最先端アプローチよりも一貫性があり、顕著なパフォーマンス上の優位性を示し、良好なドメイン転送能力を示します。 私たちのコードはhttps://github.com/keeganhk/PointVSTで公開されます。

The past few years have witnessed the great success and prevalence of self-supervised representation learning within the language and 2D vision communities. However, such advancements have not been fully migrated to the field of 3D point cloud learning. Different from existing pre-training paradigms designed for deep point cloud feature extractors that fall into the scope of generative modeling or contrastive learning, this paper proposes a translative pre-training framework, namely PointVST, driven by a novel self-supervised pretext task of cross-modal translation from 3D point clouds to their corresponding diverse forms of 2D rendered images. More specifically, we begin with deducing view-conditioned point-wise embeddings through the insertion of the viewpoint indicator, and then adaptively aggregate a view-specific global codeword, which can be further fed into subsequent 2D convolutional translation heads for image generation. Extensive experimental evaluations on various downstream task scenarios demonstrate that our PointVST shows consistent and prominent performance superiority over current state-of-the-art approaches as well as satisfactory domain transfer capability. Our code will be publicly available at https://github.com/keeganhk/PointVST.
翻訳日:2023-12-21 03:16:43 公開日:2023-12-19
# ベイズ脳の構成的説明のための数学的基礎

Mathematical Foundations for a Compositional Account of the Bayesian Brain ( http://arxiv.org/abs/2212.12538v3 )

ライセンス: Link先を確認
Toby St Clere Smithe(参考訳) この論文は、活発な推論とベイズ脳の構成的説明に向けた最初のステップを報告している。 具体的には、現代応用圏理論のツールを用いて、近似推論のための関手的意味論を提供する。 そのために、ベイズレンズの新しい概念である「シンタクティック」側で定義し、ベイズレンズの更新が構成レンズパターンに従って構成されることを示す。 ベイズレンズを用いて統計ゲームのフィブレーションを定義し、統計推論の様々な問題を対応するセクションとして分類する: 相対エントロピーの連鎖則は厳密なセクションとして形式化され、最大確率推定と自由エネルギーはラックス切断を与える。 この過程で,'copy-composition'という新たな概念を導入する。 一般開放力学系(特に決定論的、確率的、ランダム、離散的、連続時間)を多項式関手(英語版)のある種のコラージュとして新たに定式化し、モノイドのオピデックス付き圏(あるいは、一般化多項式関手(英語版)の多元圏(英語版)(multicategories for multicategories of generalized polynomial functors)にまとめる。 レンズを制御する動的システムと、我々の関門意味論のターゲットを提供するシステムである、シリアのモノイド双圏を定義するために、これらのオピニッジ付きカテゴリを使用する。 そこで我々は, 予測符号化ニューラルネットワークの双方向構成構造を自由エネルギー原理で説明し, 大脳皮質の双方向性に公式な数学的基盤を与える関手を構築した。 その過程で、線形回路図の多重カテゴリの代数を用いて、レートコードニューラルネットワークを構成する方法を説明し、その後、レンズと多項式関手によってこれを仮定することを示す。

This dissertation reports some first steps towards a compositional account of active inference and the Bayesian brain. Specifically, we use the tools of contemporary applied category theory to supply functorial semantics for approximate inference. To do so, we define on the `syntactic' side the new notion of Bayesian lens and show that Bayesian updating composes according to the compositional lens pattern. Using Bayesian lenses, and inspired by compositional game theory, we define fibrations of statistical games and classify various problems of statistical inference as corresponding sections: the chain rule of the relative entropy is formalized as a strict section, while maximum likelihood estimation and the free energy give lax sections. In the process, we introduce a new notion of `copy-composition'. On the `semantic' side, we present a new formalization of general open dynamical systems (particularly: deterministic, stochastic, and random; and discrete- and continuous-time) as certain coalgebras of polynomial functors, which we show collect into monoidal opindexed categories (or, alternatively, into algebras for multicategories of generalized polynomial functors). We use these opindexed categories to define monoidal bicategories of cilia: dynamical systems which control lenses, and which supply the target for our functorial semantics. Accordingly, we construct functors which explain the bidirectional compositional structure of predictive coding neural circuits under the free energy principle, thereby giving a formal mathematical underpinning to the bidirectionality observed in the cortex. Along the way, we explain how to compose rate-coded neural circuits using an algebra for a multicategory of linear circuit diagrams, showing subsequently that this is subsumed by lenses and polynomial functors.
翻訳日:2023-12-21 03:16:22 公開日:2023-12-19
# タイプレベルのインターベンショントレーニングを用いたサブワード型言語モデルにおける文字レベルの構造誘導

Inducing Character-level Structure in Subword-based Language Models with Type-level Interchange Intervention Training ( http://arxiv.org/abs/2212.09897v2 )

ライセンス: Link先を確認
Jing Huang, Zhengxuan Wu, Kyle Mahowald, and Christopher Potts(参考訳) 文字レベルの操作(スペル修正、算術演算、ワードゲームなど)を含む言語タスクは、サブワード単位で操作するモデルでは難しい。 これを解決するために,サブワードベースの言語モデルの中で,ロバストで解釈可能な文字表現を学習するための因果介入フレームワークを開発した。 本手法は,各キャラクタを因果モデルにおける型付き変数として扱い,geigerらによる相互介入訓練法(2021年)を適用してその因果構造を学習する。 さらに、意味やシーケンスレベルの文脈に依存して体系的に変化する文字レベルのタスク群も導入する。 文字レベルのモデルは、文字列の反転のような純粋にフォームベースのタスクで機能するが、この方法は、フォーム、意味、コンテキストをブレンドするより複雑なタスク、例えば、文脈における綴りの修正や単語検索ゲームにおいて、文字レベルのモデルよりも優れている。 また,従来のサブワードモデルと比較して,未知のトークン列のロバスト性を大幅に向上させ,文字の人間解釈可能な内部表現を実現する。

Language tasks involving character-level manipulations (e.g., spelling corrections, arithmetic operations, word games) are challenging for models operating on subword units. To address this, we develop a causal intervention framework to learn robust and interpretable character representations inside subword-based language models. Our method treats each character as a typed variable in a causal model and learns such causal structures by adapting the interchange intervention training method of Geiger et al. (2021). We additionally introduce a suite of character-level tasks that systematically vary in their dependence on meaning and sequence-level context. While character-level models still perform best on purely form-based tasks like string reversal, our method outperforms character-level models on more complex tasks that blend form, meaning, and context, such as spelling correction in context and word search games. Compared with standard subword-based models, our approach also significantly improves robustness on unseen token sequences and leads to human-interpretable internal representations of characters.
翻訳日:2023-12-21 03:15:27 公開日:2023-12-19
# 指数的基準を用いたリスク感応強化学習

Risk-Sensitive Reinforcement Learning with Exponential Criteria ( http://arxiv.org/abs/2212.09010v4 )

ライセンス: Link先を確認
Erfaun Noorani, Christos Mavridis, John Baras(参考訳) 強化学習は多くのアプリケーションで実験的に成功したが、システムのパラメータのノイズや摂動に敏感であることが知られており、わずかに異なる環境で異なるエピソード間での報酬全体のばらつきが高まる。 頑健性, サンプル効率, リスクに敏感な強化学習手法を徹底的に研究している。 本研究では,指数的基準に基づく修正目的に対する最適化問題を解くことにより,強固な強化学習方針を定義し,リスクに敏感な強化学習問題を近似する。 特に,広く使用されているモンテカルロ政策グラディエントアルゴリズムのモデルレスリスク感性変異について検討し,確率近似更新を用いた乗算ベルマン方程式の解法に基づく,新しいリスク感性オンラインアクター・クリティカルアルゴリズムを提案する。 分析結果から,指数的基準を用いることで,一般的なアドホック正規化アプローチが一般化され,サンプル効率が向上し,モデルパラメータや環境の摂動に対する堅牢性がもたらされることが示唆された。 提案手法の実装,性能,ロバスト性についてシミュレーション実験により評価した。

While reinforcement learning has shown experimental success in a number of applications, it is known to be sensitive to noise and perturbations in the parameters of the system, leading to high variance in the total reward amongst different episodes in slightly different environments. To introduce robustness, as well as sample efficiency, risk-sensitive reinforcement learning methods are being thoroughly studied. In this work, we provide a definition of robust reinforcement learning policies and formulate a risk-sensitive reinforcement learning problem to approximate them, by solving an optimization problem with respect to a modified objective based on exponential criteria. In particular, we study a model-free risk-sensitive variation of the widely-used Monte Carlo Policy Gradient algorithm and introduce a novel risk-sensitive online Actor-Critic algorithm based on solving a multiplicative Bellman equation using stochastic approximation updates. Analytical results suggest that the use of exponential criteria generalizes commonly used ad-hoc regularization approaches, improves sample efficiency, and introduces robustness with respect to perturbations in the model parameters and the environment. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
翻訳日:2023-12-21 03:15:05 公開日:2023-12-19
# 条件付き不変表現学習の効率化

Efficient Conditionally Invariant Representation Learning ( http://arxiv.org/abs/2212.08645v2 )

ライセンス: Link先を確認
Roman Pogodin, Namrata Deka, Yazhe Li, Danica J. Sutherland, Victor Veitch, Arthur Gretton(参考訳) 多変量連続値変数の条件独立度尺度であるCIRCE(Conditional Independence Regression CovariancE)を導入する。 CIRCEは、ニューラルネットワークの特徴を学習したい設定において、正規化ツールとして適用される。$\varphi(X)$ of data $X$ to estimated a target $Y$, and is conditionally independent of a distractor $Z$ given$Y$。 Z$ と $Y$ はともに連続値であるが比較的低次元であると仮定されるが、X$ とその特徴は複素かつ高次元である。 関連する設定には、ドメイン不変学習、公正性、因果学習が含まれる。 この手順は、$Y$から$Z$のカーネル化された機能への1つのリッジレグレッションだけを必要とする。 すると、この回帰の残余から$\varphi(X)$の独立性を強制するしかなく、これは魅力的な推定特性と整合性を保証することができる。 対照的に、条件付き特徴依存の以前の測定では、特徴学習の各ステップに複数の回帰を必要とするため、より深刻なバイアスと分散が生じ、計算コストが増大する。 十分にリッチな特徴が使われるとき、CIRCE が 0 であることと $\varphi(X) \perp \! \! \! \perp Z \mid Y$。 実験では,条件付き不変画像特徴の学習を含む,従来のベンチマーク手法よりも優れた性能を示す。

We introduce the Conditional Independence Regression CovariancE (CIRCE), a measure of conditional independence for multivariate continuous-valued variables. CIRCE applies as a regularizer in settings where we wish to learn neural features $\varphi(X)$ of data $X$ to estimate a target $Y$, while being conditionally independent of a distractor $Z$ given $Y$. Both $Z$ and $Y$ are assumed to be continuous-valued but relatively low dimensional, whereas $X$ and its features may be complex and high dimensional. Relevant settings include domain-invariant learning, fairness, and causal learning. The procedure requires just a single ridge regression from $Y$ to kernelized features of $Z$, which can be done in advance. It is then only necessary to enforce independence of $\varphi(X)$ from residuals of this regression, which is possible with attractive estimation properties and consistency guarantees. By contrast, earlier measures of conditional feature dependence require multiple regressions for each step of feature learning, resulting in more severe bias and variance, and greater computational cost. When sufficiently rich features are used, we establish that CIRCE is zero if and only if $\varphi(X) \perp \!\!\! \perp Z \mid Y$. In experiments, we show superior performance to previous methods on challenging benchmarks, including learning conditionally invariant image features.
翻訳日:2023-12-21 03:14:46 公開日:2023-12-19
# GANを用いた半教師付き学習による不均衡データセットのフェイク検出

Fake detection in imbalance dataset by Semi-supervised learning with GAN ( http://arxiv.org/abs/2212.01071v4 )

ライセンス: Link先を確認
Jinus Bordbar, Saman Ardalan, Mohammadreza Mohammadrezaie, Zahra Ghasemi(参考訳) ソーシャルメディアが急速に成長を続けるにつれ、これらのプラットフォームに対するハラスメントの流行も増加している。 これにより、偽検出の分野で研究者の関心が高まった。 ソーシャルメディアのデータは、多くのノードからなる複雑なグラフを形成することが多い。 これらの課題と制限には、行列における相当量の無関係な特徴に対処することや、高データ分散やデータセット内の不均衡クラス分散といった問題に対処することが含まれる。 これらの課題と限界を克服するために、研究者たちは自動エンコーダと、半教師付き学習と、SGANと呼ばれるGANアルゴリズムを組み合わせた。 提案手法は自動エンコーダを用いて特徴抽出を行い,SGANを組み込む。 ラベル付きデータセットを活用することで、SGANの教師なし層はラベル付きデータの限られた可用性を補償し、ラベル付きインスタンスの限られた数を効率的に利用する。 コンフュージョンマトリックスとROC曲線を含む複数の評価指標が採用された。 データセットはトレーニングとテストセットに分割され、100のラベル付きサンプルと1000のサンプルがテスト対象とされた。 我々の研究の新規性は、偽アカウント検出における不均衡データセットの問題に対処するためにSGANを適用することである。 より少ない数のラベル付きインスタンスの使用を最適化し、大規模な計算能力の必要性を減らすことにより、より効率的なソリューションを提供する。 さらに,100個のラベル付きサンプルを用いた偽アカウントの検出において,81%の精度を達成し,この分野に寄与する。 これは、sganがマイノリティクラスを扱い、偽アカウント検出でビッグデータの課題に対処する強力なツールになる可能性を示しています。

As social media continues to grow rapidly, the prevalence of harassment on these platforms has also increased. This has piqued the interest of researchers in the field of fake detection. Social media data, often forms complex graphs with numerous nodes, posing several challenges. These challenges and limitations include dealing with a significant amount of irrelevant features in matrices and addressing issues such as high data dispersion and an imbalanced class distribution within the dataset. To overcome these challenges and limitations, researchers have employed auto-encoders and a combination of semi-supervised learning with a GAN algorithm, referred to as SGAN. Our proposed method utilizes auto-encoders for feature extraction and incorporates SGAN. By leveraging an unlabeled dataset, the unsupervised layer of SGAN compensates for the limited availability of labeled data, making efficient use of the limited number of labeled instances. Multiple evaluation metrics were employed, including the Confusion Matrix and the ROC curve. The dataset was divided into training and testing sets, with 100 labeled samples for training and 1,000 samples for testing. The novelty of our research lies in applying SGAN to address the issue of imbalanced datasets in fake account detection. By optimizing the use of a smaller number of labeled instances and reducing the need for extensive computational power, our method offers a more efficient solution. Additionally, our study contributes to the field by achieving an 81% accuracy in detecting fake accounts using only 100 labeled samples. This demonstrates the potential of SGAN as a powerful tool for handling minority classes and addressing big data challenges in fake account detection.
翻訳日:2023-12-21 03:14:08 公開日:2023-12-19
# 誰がレビュアーをレビューする? 多段階の陪審問題

Who Reviews The Reviewers? A Multi-Level Jury Problem ( http://arxiv.org/abs/2211.08494v2 )

ライセンス: Link先を確認
Ben Abramowitz, Omer Lev, Nicholas Mattei(参考訳) 我々は、独立したレビュー者(専門家)のグループからのアドバイスを用いて二元基底真理を決定する問題を考察し、基底真理についての推測をある程度の独立確率(競合)で正しく表現する。 この設定では、すべてのレビュアーが能力(半数以上の能力)を持つ場合、コンドルチェットのJarry Theorem氏は、レビュアーを追加することで全体的な精度が向上し、すべてのコンピテンスが分かっている場合、レビュアーの最適な重み付けが存在すると言います。 しかし、実際的な場面では、レビュワーはうるさく、能力が半分以下であり、専門家の数は少ないため、漸近的なコンドルセト陪審定理は実際には関係しない。 そのような場合、各レビュアーの重みを決定する1つ以上の椅子(ジャッジ)を選定し、複数のレベルを作成します。 しかし、これらの椅子は、監督するレビュアーの能力を正確に識別できず、したがって最適な重み付けを計算することができない可能性がある。 一組の椅子がレビュアーを最適に重み付けできるような条件を与え、エージェントの能力分布に応じて、より多くの椅子やレビュアーを持つ方がよい時期について結果を与える。 数値シミュレーションにより、より多くの椅子を持つ方がよい場合もあるが、多くの場合、より多くのレビュアーを持つ方がよい。

We consider the problem of determining a binary ground truth using advice from a group of independent reviewers (experts) who express their guess about a ground truth correctly with some independent probability (competence). In this setting, when all reviewers are competent (competence greater than one-half), the Condorcet Jury Theorem tells us that adding more reviewers increases the overall accuracy, and if all competences are known, then there exists an optimal weighting of the reviewers. However, in practical settings, reviewers may be noisy or incompetent, i.e., competence below half, and the number of experts may be small, so the asymptotic Condorcet Jury Theorem is not practically relevant. In such cases we explore appointing one or more chairs (judges) who determine the weight of each reviewer for aggregation, creating multiple levels. However, these chairs may be unable to correctly identify the competence of the reviewers they oversee, and therefore unable to compute the optimal weighting. We give conditions when a set of chairs is able to weight the reviewers optimally, and depending on the competence distribution of the agents, give results about when it is better to have more chairs or more reviewers. Through numerical simulations we show that in some cases it is better to have more chairs, but in many cases it is better to have more reviewers.
翻訳日:2023-12-21 03:13:00 公開日:2023-12-19
# 連続可変量子状態設計:理論と応用

Continuous-variable quantum state designs: theory and applications ( http://arxiv.org/abs/2211.05127v2 )

ライセンス: Link先を確認
Joseph T. Iosue, Kunal Sharma, Michael J. Gullans, Victor V. Albert(参考訳) 量子状態設計の概念を無限次元空間に一般化する。 最初に、continuous-variable (CV) 状態の定義の下で、Comm から $t$-designs を証明します。 数学 Phys 326, 755 (2014), $t\geq2$の状態設計は存在しない。 同様に、CVユニタリ $t$-designs が $t\geq 2$ に対して存在しないことを証明する。 CV状態設計の代替的定義を提案し、これをrigged $t$-designsと呼び、$t=2$の明示的な構成を提供する。 剛体設計の応用として,CV状態のシャドウトモグラフィープロトコルを開発した。 エネルギー制約されたリグデザインを用いて、CV量子チャネルの平均忠実度を定義し、この忠実度とCVエンタングルメント忠実度を関連付ける。 独立性による追加的な結果として、トーラスの2ドル設計と相互に偏りのない基底の完全集合との接続を確立する。

We generalize the notion of quantum state designs to infinite-dimensional spaces. We first prove that, under the definition of continuous-variable (CV) state $t$-designs from Comm. Math. Phys. 326, 755 (2014), no state designs exist for $t\geq2$. Similarly, we prove that no CV unitary $t$-designs exist for $t\geq 2$. We propose an alternative definition for CV state designs, which we call rigged $t$-designs, and provide explicit constructions for $t=2$. As an application of rigged designs, we develop a design-based shadow-tomography protocol for CV states. Using energy-constrained versions of rigged designs, we define an average fidelity for CV quantum channels and relate this fidelity to the CV entanglement fidelity. As an additional result of independent interest, we establish a connection between torus $2$-designs and complete sets of mutually unbiased bases.
翻訳日:2023-12-21 03:12:33 公開日:2023-12-19
# グラフに基づく半教師あり学習のための擬似コントラスト学習

Pseudo Contrastive Learning for Graph-based Semi-supervised Learning ( http://arxiv.org/abs/2302.09532v3 )

ライセンス: Link先を確認
Weigang Lu, Ziyu Guan, Wei Zhao, Yaming Yang, Yuanhai Lv, Lining Xing, Baosheng Yu, Dacheng Tao(参考訳) Pseudo Labelingは、半教師付きグラフニューラルネットワーク(GNN)の性能を向上させるために、自信のある予測に基づいて追加の擬似ラベルを生成する手法である。 しかし,与えられたラベルに対する分類目標の感度から,生成する疑似ラベルの品質が長年の関心事となっている。 aノードが特定のクラスに属している'ことを示す信頼できない分類監督を避けるために、``2ノードは同じクラスに属していない'を示すフォールトトレラントなコントラスト監督を推奨する。 従って、高品質な擬似ラベルを生成する問題は、信頼性の高い負のペアを識別する緩和版に変換される。 そこで我々は,Pseudo Contrastive Learning (PCL) と呼ばれるGNNのための汎用フレームワークを提案する。 正と負の擬ラベルが同じクラスをターゲットとする2つのノードを分離する。 トポロジカルな知識を学習に取り入れるために、より小さなトポロジカルな距離を持つ負のペアを分離するのにより多くの労力を費やすトポロジカルに重み付けされた対照的な損失を考案する。 実験では,pclを様々なgnnに適用し,実世界の5つのグラフにおける他の一般的な手法と一貫して比較した。

Pseudo Labeling is a technique used to improve the performance of semi-supervised Graph Neural Networks (GNNs) by generating additional pseudo-labels based on confident predictions. However, the quality of generated pseudo-labels has been a longstanding concern due to the sensitivity of the classification objective with respect to the given labels. To avoid the untrustworthy classification supervision indicating ``a node belongs to a specific class,'' we favor the fault-tolerant contrasting supervision demonstrating ``two nodes do not belong to the same class.'' Thus, the problem of generating high-quality pseudo-labels is then transformed into a relaxed version, i.e., identifying reliable negative pairs. To achieve this, we propose a general framework for GNNs, termed Pseudo Contrastive Learning (PCL). It separates two nodes whose positive and negative pseudo-labels target the same class. To incorporate topological knowledge into learning, we devise a topologically weighted contrastive loss that spends more effort separating negative pairs with smaller topological distances. Experimentally, we apply PCL to various GNNs, which consistently outperform their counterparts using other popular general techniques on five real-world graphs.
翻訳日:2023-12-21 03:05:56 公開日:2023-12-19
# 分布ランダム林の信頼性と不確実性評価

Confidence and Uncertainty Assessment for Distributional Random Forests ( http://arxiv.org/abs/2302.05761v3 )

ライセンス: Link先を確認
Jeffrey N\"af, Corinne Emmenegger, Peter B\"uhlmann, Nicolai Meinshausen(参考訳) distributional random forest (drf) は、多変量条件分布を推定するために最近導入されたランダムフォレストアルゴリズムである。 一般的な推定手順のため、条件平均処理効果、条件量子量、条件相関など、幅広い対象を推定することができる。 しかし、DRF予測の一貫性と収束率についてのみ結果が得られている。 我々は,drfの漸近分布を特徴付け,そのブートストラップ近似を開発した。 これにより、標準誤差を定量化するための推論ツールと、漸近的カバレッジ保証を有する信頼領域の構築を導出できる。 シミュレーション研究では,低次元対象推定理論と2つの個体群間の分布差の検証を経験的に検証した。

The Distributional Random Forest (DRF) is a recently introduced Random Forest algorithm to estimate multivariate conditional distributions. Due to its general estimation procedure, it can be employed to estimate a wide range of targets such as conditional average treatment effects, conditional quantiles, and conditional correlations. However, only results about the consistency and convergence rate of the DRF prediction are available so far. We characterize the asymptotic distribution of DRF and develop a bootstrap approximation of it. This allows us to derive inferential tools for quantifying standard errors and the construction of confidence regions that have asymptotic coverage guarantees. In simulation studies, we empirically validate the developed theory for inference of low-dimensional targets and for testing distributional differences between two populations.
翻訳日:2023-12-21 03:05:34 公開日:2023-12-19
# STERling: 両部グラフによる相乗的表現学習

STERLING: Synergistic Representation Learning on Bipartite Graphs ( http://arxiv.org/abs/2302.05428v2 )

ライセンス: Link先を確認
Baoyu Jing, Yuchen Yan, Kaize Ding, Chanyoung Park, Yada Zhu, Huan Liu and Hanghang Tong(参考訳) 二部グラフ表現学習の基本的な課題は、情報的ノード埋め込みの抽出方法である。 自己監視学習(SSL)はこの課題に対処するための有望なパラダイムです。 最近の2部グラフssl法は、正のノード対と負のノード対を区別することで埋め込みを学習するコントラスト学習に基づいている。 対照的学習は通常、多くの負のノードペアを必要とするため、計算負荷や意味的誤りにつながる可能性がある。 本稿では,負のノード対を使わずにノード埋め込みを学ぶための新しい相乗的表現学習モデル(sterling)を提案する。 STERlingは二部グラフにおけるユニークな局所的および大域的シナジーを保存する。 局所的な相乗効果は、中間型および内型正のノード対の類似度を最大化し、大域的な相乗効果は、共クラスターの相互情報を最大化する。 理論的解析により、STERlingは埋め込み空間における異なるノードタイプ間の接続性を改善することができることを示した。 各種ベンチマークデータセットとタスクに対する広範囲な実験評価は,ノード埋め込み抽出における STERling の有効性を示す。

A fundamental challenge of bipartite graph representation learning is how to extract informative node embeddings. Self-Supervised Learning (SSL) is a promising paradigm to address this challenge. Most recent bipartite graph SSL methods are based on contrastive learning which learns embeddings by discriminating positive and negative node pairs. Contrastive learning usually requires a large number of negative node pairs, which could lead to computational burden and semantic errors. In this paper, we introduce a novel synergistic representation learning model (STERLING) to learn node embeddings without negative node pairs. STERLING preserves the unique local and global synergies in bipartite graphs. The local synergies are captured by maximizing the similarity of the inter-type and intra-type positive node pairs, and the global synergies are captured by maximizing the mutual information of co-clusters. Theoretical analysis demonstrates that STERLING could improve the connectivity between different node types in the embedding space. Extensive empirical evaluation on various benchmark datasets and tasks demonstrates the effectiveness of STERLING for extracting node embeddings.
翻訳日:2023-12-21 03:05:22 公開日:2023-12-19
# Mithridates: マシンラーニングパイプラインのバックドア抵抗の監査と向上

Mithridates: Auditing and Boosting Backdoor Resistance of Machine Learning Pipelines ( http://arxiv.org/abs/2302.04977v3 )

ライセンス: Link先を確認
Eugene Bagdasaryan and Vitaly Shmatikov(参考訳) 潜在的信頼できないソースのデータに基づいてトレーニングされた機械学習(ML)モデルは、毒に弱い。 トレーニング入力の小さな悪意ある部分集合は、モデルがメインタスクに加えて"バックドア"タスク(例えば、特定の機能で入力を誤分類する)を学ぶ原因となる可能性がある。 最近の研究では、ターゲットモデルの配置とトレーニングのハイパーパラメータに大きく依存する仮説上のバックドア攻撃が多数提案されている。 バックドア攻撃の可能性を考慮すれば、セキュリティの専門家でないMLエンジニアは、現在のトレーニングパイプラインがどれほど脆弱であるかを測定する方法も、より耐性のあるものを選択するためのトレーニング構成を比較する実用的な方法もない。 防衛の展開には、数十の研究論文の評価と選択と、トレーニングパイプラインの再設計が必要である。 本稿では,機械学習エンジニアに,トレーニングパイプラインのバックドア抵抗を監査する実用的なツールを提供し,異なるトレーニング構成を比較し,正確性とセキュリティを最良にバランスさせるツールの選択を支援することを目的とする。 まず,モデルがバックドアを学習する前に破らなければならない最小のトレーニング入力数に基づく,普遍的で攻撃非依存な抵抗指標を提案する。 第2に,トレーニング構成検索にバックドア耐性を統合する多段階アプローチを設計,実装,評価する。 ML開発者はモデルの精度を最大化する設定を見つけるためにすでにハイパーパラメータ検索に依存している。 mithridatesはこの標準ツールを拡張して、トレーニングパイプラインの変更を中断することなく、正確性と耐性のバランスをとる。 Mithridatesが検出したハイパーパラメータは,複数種類のバックドア攻撃に対する耐性を3~5倍増し,精度にわずかに影響を及ぼす。 また、AutoMLとフェデレーション学習の拡張についても論じる。

Machine learning (ML) models trained on data from potentially untrusted sources are vulnerable to poisoning. A small, maliciously crafted subset of the training inputs can cause the model to learn a "backdoor" task (e.g., misclassify inputs with a certain feature) in addition to its main task. Recent research proposed many hypothetical backdoor attacks whose efficacy heavily depends on the configuration and training hyperparameters of the target model. Given the variety of potential backdoor attacks, ML engineers who are not security experts have no way to measure how vulnerable their current training pipelines are, nor do they have a practical way to compare training configurations so as to pick the more resistant ones. Deploying a defense requires evaluating and choosing from among dozens of research papers and re-engineering the training pipeline. In this paper, we aim to provide ML engineers with pragmatic tools to audit the backdoor resistance of their training pipelines and to compare different training configurations, to help choose one that best balances accuracy and security. First, we propose a universal, attack-agnostic resistance metric based on the minimum number of training inputs that must be compromised before the model learns any backdoor. Second, we design, implement, and evaluate Mithridates a multi-stage approach that integrates backdoor resistance into the training-configuration search. ML developers already rely on hyperparameter search to find configurations that maximize the model's accuracy. Mithridates extends this standard tool to balance accuracy and resistance without disruptive changes to the training pipeline. We show that hyperparameters found by Mithridates increase resistance to multiple types of backdoor attacks by 3-5x with only a slight impact on accuracy. We also discuss extensions to AutoML and federated learning.
翻訳日:2023-12-21 03:05:06 公開日:2023-12-19
# パリティを持つ浅い回路による雑音復号:古典的および量子的

Noisy decoding by shallow circuits with parities: classical and quantum ( http://arxiv.org/abs/2302.02870v2 )

ライセンス: Link先を確認
Jop Bri\"et, Harry Buhrman, Davi Castro-Silva and Niels M. P. Neumann(参考訳) 古典的, 量子的設定において, NC$^0[\oplus]$回路で誤り訂正符号を復号する問題を考察する。 符号語が正の誤差率で雑音の多いチャネル上で送信される場合、そのような古典的回路は、わずかなメッセージのみを正確に復元できることを示す。 以前は、これは大きな双対距離を持つ線形コードでしか知られていなかったが、我々の結果はどんなコードにも当てはまる。 対照的に、コードワードの$(1/2 - \varepsilon)$-fractionが逆向きに破損しても、確率$\Omega(\varepsilon^2)$でアダマール符号を正しく復号する単純な量子回路を与える。 我々の古典的硬度結果は、偏りのある入力分布の有限体上の多変量多項式に対する等分散現象に基づいている。 これは独立興味を持つかもしれない高次元多項式写像の新しい階数の概念に基づく構造反転ランダム性戦略を用いて証明される。 我々の量子回路は、bernstein-vazirani問題の非局所バージョン、wattsらによって'poor man's cat states'を生成する技術、そして高橋と谷によるor関数の定数深さ量子回路から着想を得ている。

We consider the problem of decoding corrupted error correcting codes with NC$^0[\oplus]$ circuits in the classical and quantum settings. We show that any such classical circuit can correctly recover only a vanishingly small fraction of messages, if the codewords are sent over a noisy channel with positive error rate. Previously this was known only for linear codes with large dual distance, whereas our result applies to any code. By contrast, we give a simple quantum circuit that correctly decodes the Hadamard code with probability $\Omega(\varepsilon^2)$ even if a $(1/2 - \varepsilon)$-fraction of a codeword is adversarially corrupted. Our classical hardness result is based on an equidistribution phenomenon for multivariate polynomials over a finite field under biased input-distributions. This is proved using a structure-versus-randomness strategy based on a new notion of rank for high-dimensional polynomial maps that may be of independent interest. Our quantum circuit is inspired by a non-local version of the Bernstein-Vazirani problem, a technique to generate ``poor man's cat states'' by Watts et al., and a constant-depth quantum circuit for the OR function by Takahashi and Tani.
翻訳日:2023-12-21 03:04:35 公開日:2023-12-19
# ニューロシンボリック連続学習:知識、推論ショートカット、概念リハーサル

Neuro-Symbolic Continual Learning: Knowledge, Reasoning Shortcuts and Concept Rehearsal ( http://arxiv.org/abs/2302.01242v2 )

ライセンス: Link先を確認
Emanuele Marconato, Gianpaolo Bontempo, Elisa Ficarra, Simone Calderara, Andrea Passerini, Stefano Teso(参考訳) そこで我々は,モデルが一連のニューロシンボリックなタスク,すなわち,サブシンボリックな入力を高レベルな概念にマッピングし,先行知識に一貫した推論を行うことで予測を計算しなければならない,ニューロシンボリック連続学習を導入する。 私たちの重要な観察は、ニューロシンボリックなタスクは、異なるものの、時間とともにセマンティクスが安定し続ける概念を共有することが多いことです。 既存の継続的な戦略は知識を完全に無視し、ストックニューロシンボリックアーキテクチャは破滅的な忘れ込みに悩まされる。 神経シンボリックアーキテクチャと継続的な戦略の組み合わせによる事前知識の活用は、破滅的な忘れることを避けるのに役立つだけでなく、推論の近道によって影響を受けるモデルをもたらすことも示している。 これらのことは、詳細な事前知識が前もって提供され、推論が正確で、連続的なパフォーマンスであっても、獲得した概念の意味を損なう。 これらの問題を克服するために,我々は,高品質な概念を習得し,時間とともに記憶する神経象徴的連続問題に適した,認知レベルcOntinual Learning戦略であるCOOLを紹介した。 3つの新しいベンチマーク実験では、他の戦略が失敗するニューロシンボリックな連続学習タスクにおいて、COOLが高いパフォーマンスを維持する方法が示されている。

We introduce Neuro-Symbolic Continual Learning, where a model has to solve a sequence of neuro-symbolic tasks, that is, it has to map sub-symbolic inputs to high-level concepts and compute predictions by reasoning consistently with prior knowledge. Our key observation is that neuro-symbolic tasks, although different, often share concepts whose semantics remains stable over time. Traditional approaches fall short: existing continual strategies ignore knowledge altogether, while stock neuro-symbolic architectures suffer from catastrophic forgetting. We show that leveraging prior knowledge by combining neuro-symbolic architectures with continual strategies does help avoid catastrophic forgetting, but also that doing so can yield models affected by reasoning shortcuts. These undermine the semantics of the acquired concepts, even when detailed prior knowledge is provided upfront and inference is exact, and in turn continual performance. To overcome these issues, we introduce COOL, a COncept-level cOntinual Learning strategy tailored for neuro-symbolic continual problems that acquires high-quality concepts and remembers them over time. Our experiments on three novel benchmarks highlights how COOL attains sustained high performance on neuro-symbolic continual learning tasks in which other strategies fail.
翻訳日:2023-12-21 03:03:53 公開日:2023-12-19
# 差動小数点画像分類の有効性について

On the Efficacy of Differentially Private Few-shot Image Classification ( http://arxiv.org/abs/2302.01190v3 )

ライセンス: Link先を確認
Marlon Tobaben, Aliaksandra Shysheya, John Bronskill, Andrew Paverd, Shruti Tople, Santiago Zanella-Beguelin, Richard E Turner, Antti Honkela(参考訳) 最良の非プライベートモデルにアプローチする精度を達成するための差分プライベート(DP)モデルのトレーニングが、近年著しく進歩している。 これらのdpモデルは通常、大きなパブリックデータセットで事前トレーニングされ、その後、比較的大きく、プリトレーニングデータと分布が似ているプライベートなダウンストリームデータセットで微調整される。 しかし、パーソナライゼーションや連合学習など多くのアプリケーションでは、うまく機能することが重要である。 (i) 少ないショット設定では、大量のラベル付きデータの取得が問題となる場合があり得る。 (ii)様々な専門分野のデータセットについて。 少数ショットdpが効果的である条件を理解するために,クラス毎のショット数,プライバシレベル,モデルアーキテクチャ,ダウンストリームデータセット,モデルの学習可能なパラメータのサブセットなどによって,少数ショットdpイメージ分類モデルの攻撃の正確性と脆弱性がどう影響するかを明らかにするため,徹底的な実験を行う。 プライバシーレベルが向上するにつれて,非プライベートモデルと同等のDP精度を達成するためには,クラスごとのショットを増やさなければならない。 また、DP下での学習パラメータ効率の高いFiLMアダプタは、最終分類器層のみの学習やネットワークパラメータの学習と競合することを示した。 最後に,dpフェデレート学習システムを評価し,難解なflairベンチマークで最先端のパフォーマンスを確立する。

There has been significant recent progress in training differentially private (DP) models which achieve accuracy that approaches the best non-private models. These DP models are typically pretrained on large public datasets and then fine-tuned on private downstream datasets that are relatively large and similar in distribution to the pretraining data. However, in many applications including personalization and federated learning, it is crucial to perform well (i) in the few-shot setting, as obtaining large amounts of labeled data may be problematic; and (ii) on datasets from a wide variety of domains for use in various specialist settings. To understand under which conditions few-shot DP can be effective, we perform an exhaustive set of experiments that reveals how the accuracy and vulnerability to attack of few-shot DP image classification models are affected as the number of shots per class, privacy level, model architecture, downstream dataset, and subset of learnable parameters in the model vary. We show that to achieve DP accuracy on par with non-private models, the shots per class must be increased as the privacy level increases. We also show that learning parameter-efficient FiLM adapters under DP is competitive with learning just the final classifier layer or learning all of the network parameters. Finally, we evaluate DP federated learning systems and establish state-of-the-art performance on the challenging FLAIR benchmark.
翻訳日:2023-12-21 03:03:26 公開日:2023-12-19
# ミスから学ぶ:ポイントクラウドセマンティクスセグメンテーションにおける階層表現の自己表現

Learning from Mistakes: Self-Regularizing Hierarchical Representations in Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2301.11145v2 )

ライセンス: Link先を確認
Elena Camuffo, Umberto Michieli, Simone Milani(参考訳) 自律ロボット技術の最近の進歩は、正確な環境分析の必要性の高まりを浮き彫りにした。 lidarのセマンティクスセグメンテーションは、センサーが提供する生のコンテンツに直接作用することで、きめ細かなシーン理解を達成するために注目されている。 最近のソリューションでは、アーキテクチャやデータセットの変更なしに、異なる学習テクニックを使ってモデルのパフォーマンスを改善する方法が示されています。 この傾向に続いて、標準モデルから派生した分類ミスタケ(LEAK)からLEArnを分離する粗大な設定を示す。 まず,クラスは相互予測誤差に従ってマクログループにクラスタ化され,学習プロセスは(1)細かなクラスと粗いクラスの両方に対して,クラス条件の原型的特徴表現を整列させ,(2)クラスごとの公平度指数を重み付けする。 私たちのLEAKアプローチは非常に一般的なもので,任意のセグメンテーションアーキテクチャ上でシームレスに適用可能です。実際に実験結果から,さまざまなアーキテクチャやデータセット,タスク上での最先端のパフォーマンスを実現すると同時に,よりバランスの取れたクラスワイドな結果とより高速な収束を実現しています。

Recent advances in autonomous robotic technologies have highlighted the growing need for precise environmental analysis. LiDAR semantic segmentation has gained attention to accomplish fine-grained scene understanding by acting directly on raw content provided by sensors. Recent solutions showed how different learning techniques can be used to improve the performance of the model, without any architectural or dataset change. Following this trend, we present a coarse-to-fine setup that LEArns from classification mistaKes (LEAK) derived from a standard model. First, classes are clustered into macro groups according to mutual prediction errors; then, the learning process is regularized by: (1) aligning class-conditional prototypical feature representation for both fine and coarse classes, (2) weighting instances with a per-class fairness index. Our LEAK approach is very general and can be seamlessly applied on top of any segmentation architecture; indeed, experimental results showed that it enables state-of-the-art performances on different architectures, datasets and tasks, while ensuring more balanced class-wise results and faster convergence.
翻訳日:2023-12-21 03:02:25 公開日:2023-12-19
# gpt-4技術報告

GPT-4 Technical Report ( http://arxiv.org/abs/2303.08774v4 )

ライセンス: Link先を確認
OpenAI: Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, Red Avila, Igor Babuschkin, Suchir Balaji, Valerie Balcom, Paul Baltescu, Haiming Bao, Mo Bavarian, Jeff Belgum, Irwan Bello, Jake Berdine, Gabriel Bernadett-Shapiro, Christopher Berner, Lenny Bogdonoff, Oleg Boiko, Madelaine Boyd, Anna-Luisa Brakman, Greg Brockman, Tim Brooks, Miles Brundage, Kevin Button, Trevor Cai, Rosie Campbell, Andrew Cann, Brittany Carey, Chelsea Carlson, Rory Carmichael, Brooke Chan, Che Chang, Fotis Chantzis, Derek Chen, Sully Chen, Ruby Chen, Jason Chen, Mark Chen, Ben Chess, Chester Cho, Casey Chu, Hyung Won Chung, Dave Cummings, Jeremiah Currier, Yunxing Dai, Cory Decareaux, Thomas Degry, Noah Deutsch, Damien Deville, Arka Dhar, David Dohan, Steve Dowling, Sheila Dunning, Adrien Ecoffet, Atty Eleti, Tyna Eloundou, David Farhi, Liam Fedus, Niko Felix, Sim\'on Posada Fishman, Juston Forte, Isabella Fulford, Leo Gao, Elie Georges, Christian Gibson, Vik Goel, Tarun Gogineni, Gabriel Goh, Rapha Gontijo-Lopes, Jonathan Gordon, Morgan Grafstein, Scott Gray, Ryan Greene, Joshua Gross, Shixiang Shane Gu, Yufei Guo, Chris Hallacy, Jesse Han, Jeff Harris, Yuchen He, Mike Heaton, Johannes Heidecke, Chris Hesse, Alan Hickey, Wade Hickey, Peter Hoeschele, Brandon Houghton, Kenny Hsu, Shengli Hu, Xin Hu, Joost Huizinga, Shantanu Jain, Shawn Jain, Joanne Jang, Angela Jiang, Roger Jiang, Haozhun Jin, Denny Jin, Shino Jomoto, Billie Jonn, Heewoo Jun, Tomer Kaftan, {\L}ukasz Kaiser, Ali Kamali, Ingmar Kanitscheider, Nitish Shirish Keskar, Tabarak Khan, Logan Kilpatrick, Jong Wook Kim, Christina Kim, Yongjik Kim, Hendrik Kirchner, Jamie Kiros, Matt Knight, Daniel Kokotajlo, {\L}ukasz Kondraciuk, Andrew Kondrich, Aris Konstantinidis, Kyle Kosic, Gretchen Krueger, Vishal Kuo, Michael Lampe, Ikai Lan, Teddy Lee, Jan Leike, Jade Leung, Daniel Levy, Chak Ming Li, Rachel Lim, Molly Lin, Stephanie Lin, Mateusz Litwin, Theresa Lopez, Ryan Lowe, Patricia Lue, Anna Makanju, Kim Malfacini, Sam Manning, Todor Markov, Yaniv Markovski, Bianca Martin, Katie Mayer, Andrew Mayne, Bob McGrew, Scott Mayer McKinney, Christine McLeavey, Paul McMillan, Jake McNeil, David Medina, Aalok Mehta, Jacob Menick, Luke Metz, Andrey Mishchenko, Pamela Mishkin, Vinnie Monaco, Evan Morikawa, Daniel Mossing, Tong Mu, Mira Murati, Oleg Murk, David M\'ely, Ashvin Nair, Reiichiro Nakano, Rajeev Nayak, Arvind Neelakantan, Richard Ngo, Hyeonwoo Noh, Long Ouyang, Cullen O'Keefe, Jakub Pachocki, Alex Paino, Joe Palermo, Ashley Pantuliano, Giambattista Parascandolo, Joel Parish, Emy Parparita, Alex Passos, Mikhail Pavlov, Andrew Peng, Adam Perelman, Filipe de Avila Belbute Peres, Michael Petrov, Henrique Ponde de Oliveira Pinto, Michael (Rai) Pokorny, Michelle Pokrass, Vitchyr Pong, Tolly Powell, Alethea Power, Boris Power, Elizabeth Proehl, Raul Puri, Alec Radford, Jack Rae, Aditya Ramesh, Cameron Raymond, Francis Real, Kendra Rimbach, Carl Ross, Bob Rotsted, Henri Roussez, Nick Ryder, Mario Saltarelli, Ted Sanders, Shibani Santurkar, Girish Sastry, Heather Schmidt, David Schnurr, John Schulman, Daniel Selsam, Kyla Sheppard, Toki Sherbakov, Jessica Shieh, Sarah Shoker, Pranav Shyam, Szymon Sidor, Eric Sigler, Maddie Simens, Jordan Sitkin, Katarina Slama, Ian Sohl, Benjamin Sokolowsky, Yang Song, Natalie Staudacher, Felipe Petroski Such, Natalie Summers, Ilya Sutskever, Jie Tang, Nikolas Tezak, Madeleine Thompson, Phil Tillet, Amin Tootoonchian, Elizabeth Tseng, Preston Tuggle, Nick Turley, Jerry Tworek, Juan Felipe Cer\'on Uribe, Andrea Vallone, Arun Vijayvergiya, Chelsea Voss, Carroll Wainwright, Justin Jay Wang, Alvin Wang, Ben Wang, Jonathan Ward, Jason Wei, CJ Weinmann, Akila Welihinda, Peter Welinder, Jiayi Weng, Lilian Weng, Matt Wiethoff, Dave Willner, Clemens Winter, Samuel Wolrich, Hannah Wong, Lauren Workman, Sherwin Wu, Jeff Wu, Michael Wu, Kai Xiao, Tao Xu, Sarah Yoo, Kevin Yu, Qiming Yuan, Wojciech Zaremba, Rowan Zellers, Chong Zhang, Marvin Zhang, Shengjia Zhao, Tianhao Zheng, Juntang Zhuang, William Zhuk, Barret Zoph(参考訳) 本稿では,画像とテキストの入力を受け付け,テキスト出力を生成する大規模マルチモーダルモデルgpt-4の開発について報告する。 多くの実世界のシナリオでは人間よりも能力は低いが、GPT-4は様々な専門的、学術的なベンチマークで人間レベルのパフォーマンスを示しており、試験受験者の上位10%のスコアで模擬試験に合格している。 GPT-4は、文書内の次のトークンを予測するために事前訓練されたトランスフォーマーベースのモデルである。 トレーニング後のアライメントプロセスは,実効性と所望の行動への順応性の向上をもたらす。 このプロジェクトのコアコンポーネントは、幅広いスケールで予測可能な振る舞いをするインフラストラクチャと最適化手法の開発だった。 これにより、GPT-4の1/1000分の1以下のモデルに基づいて、GPT-4の性能のいくつかの側面を正確に予測できる。

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer-based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4's performance based on models trained with no more than 1/1,000th the compute of GPT-4.
翻訳日:2023-12-21 02:54:18 公開日:2023-12-19
# エデルシュタイン効果誘起超伝導ダイオード効果によるMoTe$_2$ジョセフソン接合の反転対称性

Edelstein effect induced superconducting diode effect in inversion symmetry breaking MoTe$_2$ Josephson junctions ( http://arxiv.org/abs/2303.07701v2 )

ライセンス: Link先を確認
Pingbo Chen, Gongqi Wang, Bicong Ye, Jinhua Wang, Liang Zhou, Zhenzhong Tang, Le Wang, Jiannong Wang, Wenqing Zhang, Jiawei Mei, Weiqiang Chen, Hongtao He(参考訳) 超伝導ダイオード効果(SDE)と非相反性超電流輸送は、その興味深い物理だけでなく、超伝導回路における大きな応用可能性にも注目されている。 この研究で、II型ワイル半金属 (WSM) MoTe$_2$ に基づく平面ジョセフソン接合 (JJs) は、垂直磁場における非対称ジョセフソン効果 (AJE) の出現により顕著なSDEを示すことが判明した。 ajeは、現在の方向に関して臨界超電流において非常に大きな非対称性を示す。 この非対称性の符号は、外部磁場によって効果的に変調することもできる。 MoTe$_2$の特別な非中心対称結晶対称性を考えると、このAJEは、接合の現在の位相関係において非自明な位相シフトを引き起こすエデルシュタイン効果によって理解される。 これらのことに加えて、超伝導エレクトロニクスにおけるWSMの優れた応用可能性を明らかにするため、改質効率が最大50.4%のMoTe$_2$JJの超電流の整流が証明された。

Superconducting diode effect (SDE) with nonreciprocal supercurrent transport has attracted intense attention recently, not only for its intriguing physics, but also for its great application potential in superconducting circuits. It is revealed in this work that planar Josephson junctions (JJs) based on type-II Weyl semimetal (WSM) MoTe$_2$ can exhibit a prominent SDE due to the emergence of asymmetric Josephson effect (AJE) in perpendicular magnetic fields. The AJE manifests itself in a very large asymmetry in the critical supercurrents with respect to the current direction. The sign of this asymmetry can also be effectively modulated by the external magnetic field. Considering the special noncentrosymmetric crystal symmetry of MoTe$_2$, this AJE is understood in terms of the Edelstein effect, which induces a nontrivial phase shift in the current phase relation of the junctions. Besides these, it is further demonstrated that the rectification of supercurrent in such MoTe$_2$ JJs with the rectification efficiency up to 50.4%, unveiling the great application potential of WSMs in superconducting electronics.
翻訳日:2023-12-21 02:54:06 公開日:2023-12-19
# 損失検査による物体検出データセットにおけるラベル誤りの同定

Identifying Label Errors in Object Detection Datasets by Loss Inspection ( http://arxiv.org/abs/2303.06999v3 )

ライセンス: Link先を確認
Marius Schubert, Tobias Riedlinger, Karsten Kahl, Daniel Kr\"oll, Sebastian Schoenen, Sini\v{s}a \v{S}egvi\'c, Matthias Rottmann(参考訳) 教師付きオブジェクト検出のためのデータセットのラベル付けは退屈で時間を要する作業である。 エラーはアノテーション中に簡単に導入でき、レビュー中に見落とされ、不正確なベンチマークとノイズラベルに基づいてトレーニングされたディープニューラルネットワークのパフォーマンス劣化をもたらす。 本稿では,まず,オブジェクト検出データセットにおけるラベル誤り検出手法のベンチマークとラベルエラー検出手法とベースラインをいくつか紹介する。 4種類のランダムに導入されたラベルエラーを列車上でシミュレートし,よくラベルされたオブジェクト検出データセットをテストセットとした。 ラベル誤り検出法では,2段階の物体検出器が与えられると仮定し,両者の分類と回帰損失の総和を考察する。 損失は、後者を検出することを目的として、予測とシミュレートされたラベルエラーを含むノイズラベルに対して計算される。 我々は,本手法を3つのベースラインと比較した。深層学習のないナイーブな手法,対象検出器のスコア,分類ソフトマックス分布のエントロピーである。 すべてのベースラインを上回り、検討したメソッドの中で、4つのタイプのラベルエラーを効率的に検出する唯一の方法であることを実証します。 さらに 実際のラベルエラーを検知し a) オブジェクト検出において一般的に使用されるテストデータセットについて b) プロプライエタリなデータセット。 いずれの場合も偽陽性率が低い、すなわちラベルエラーを精度良く検出する。 a)71.5%まで、及び b) 97%であった。

Labeling datasets for supervised object detection is a dull and time-consuming task. Errors can be easily introduced during annotation and overlooked during review, yielding inaccurate benchmarks and performance degradation of deep neural networks trained on noisy labels. In this work, we for the first time introduce a benchmark for label error detection methods on object detection datasets as well as a label error detection method and a number of baselines. We simulate four different types of randomly introduced label errors on train and test sets of well-labeled object detection datasets. For our label error detection method we assume a two-stage object detector to be given and consider the sum of both stages' classification and regression losses. The losses are computed with respect to the predictions and the noisy labels including simulated label errors, aiming at detecting the latter. We compare our method to three baselines: a naive one without deep learning, the object detector's score and the entropy of the classification softmax distribution. We outperform all baselines and demonstrate that among the considered methods, ours is the only one that detects label errors of all four types efficiently. Furthermore, we detect real label errors a) on commonly used test datasets in object detection and b) on a proprietary dataset. In both cases we achieve low false positives rates, i.e., we detect label errors with a precision for a) of up to 71.5% and for b) with 97%.
翻訳日:2023-12-21 02:53:46 公開日:2023-12-19
# 地震量子化

Earthquake Quantization ( http://arxiv.org/abs/2303.06158v2 )

ライセンス: Link先を確認
Benjamin Koch and Enrique Mu\~noz(参考訳) アインシュタインの144歳の誕生日の記念として、経路積分の経路がランダムではなく、ランダムな背景の測地方程式の解となるような新しい量子化処方則を提案する。 この視点の変化は、非相対論的量子力学の通常の定式化と数学的に等価であることを示す。 結論として、物質に結合した量子重力や量子同値原理のような概念的問題について述べる。

In this homage to Einstein's 144th birthday we propose a novel quantization prescription, where the paths of a path-integral are not random, but rather solutions of a geodesic equation in a random background. We show that this change of perspective can be made mathematically equivalent to the usual formulations of non-relativistic quantum mechanics. To conclude, we comment on conceptual issues, such as quantum gravity coupled to matter and the quantum equivalence principle.
翻訳日:2023-12-21 02:52:52 公開日:2023-12-19
# X線超蛍光の確率モデリング

Stochastic modeling of x-ray superfluorescence ( http://arxiv.org/abs/2303.00853v3 )

ライセンス: Link先を確認
Stasis Chuchurka and Andrei Benediktovitch and \v{S}pela Kru\v{s}i\v{c} and Aliaksei Halavanau and Nina Rohringer(参考訳) x線自由電子レーザーの激しいパルスによって引き起こされる集団x線放出現象であるx線増幅自発発光と超蛍光のダイナミクスをモデル化するアプローチを確率的偏微分方程式に基づいて開発した。 方程式は第一原理から導出され、関連する近似、導出ステップ、および励起x線放射に特有の拡張が提示される。 結果として得られる方程式は、場変数と原子変数の両方のノイズ項で拡張された3次元一般化マクスウェル・ブロッホ方程式の形をとる。 導出雑音項は、自然放射の正確な再構成を可能にする特定の相関特性を有する。 したがって、発達した理論形式は、自発放出、増幅自発放出、超蛍光といった、刺激されたX線放射のすべての段階を記述するのに普遍的に適している。 本研究では, 時空間コヒーレンス, スペクトル角, 偏光特性など, 放射界の様々な特性を示す数値例を示す。 提案手法は,励起X線放射分光法,X線レーザー発振器のモデリング,およびX線超蛍光を利用した他の実験の解釈のための堅牢な基盤を確立することを期待する。

An approach to modeling the dynamics of x-ray amplified spontaneous emission and superfluorescence -- the phenomenon of collective x-ray emission initiated by intense pulses of X-ray Free Electron Lasers -- is developed based on stochastic partial differential equations. The equations are derived from first principles, and the relevant approximations, derivation steps, and extensions specific to stimulated x-ray emission are presented. The resulting equations take the form of three-dimensional generalized Maxwell-Bloch equations augmented with noise terms for both field and atomic variables. The derived noise terms possess specific correlation properties that enable the correct reconstruction of spontaneous emission. Consequently, the developed theoretical formalism is universally suitable for describing all stages of stimulated x-ray emission: spontaneous emission, amplified spontaneous emission, and superfluorescence. We present numerical examples that illustrate various properties of the emitted field, including spatio-temporal coherence, spectral-angular and polarization characteristics. We anticipate that the proposed theoretical framework will establish a robust foundation for interpreting measurements in stimulated x-ray emission spectroscopy, modeling x-ray laser oscillators, and describing other experiments leveraging x-ray superfluorescence.
翻訳日:2023-12-21 02:52:13 公開日:2023-12-19
# UAV対応モバイル通信のためのアクションマスキングを用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Action Masking for UAV-enabled Mobile Communications ( http://arxiv.org/abs/2303.16737v2 )

ライセンス: Link先を確認
Danish Rizvi, David Boyle(参考訳) 無人航空機(UAV)は、アドホックな通信インフラを提供するために、航空基地局としてますます使われている。 本稿では, 静的ノード, 2次元軌道, 単一UAVシステムのいずれかを検討する先行研究に基づいて, 地上通信インフラのないモバイルユーザへの無線通信に複数のUAVを使用することに焦点を当てる。 特に,UAV3DトラジェクトリとNOMAパワーアロケーションを共同で最適化し,システムスループットを最大化する。 まず,重み付きk平均に基づくクラスタリングアルゴリズムにより,uavユーザアソシエーションを一定間隔で確立する。 次に、アクションマスキングによる新しい共有深度ネットワーク(SDQN)のトレーニングの有効性について検討する。 DQNを使用して個別にUAVを訓練するのとは異なり、SDQNは単一のエージェントではなく複数のUAVの経験を利用することでトレーニング時間を短縮する。 また,sdqnは異なる動作空間を持つマルチエージェントシステムのトレーニングに使用できることを示した。 シミュレーションの結果は以下のとおりである。 1)共有DQNのトレーニングは、最大システムスループット(20%)とトレーニング時間(-10%)で従来のDQNよりも優れている。 2)異なる動作空間を持つエージェントに対して収束し,相互学習アルゴリズムと比較してスループットが9%向上する。 3) NOMA と SDQN アーキテクチャを組み合わせることで,既存のベースライン方式と比較して,ネットワークの総和率が向上する。

Unmanned Aerial Vehicles (UAVs) are increasingly used as aerial base stations to provide ad hoc communications infrastructure. Building upon prior research efforts which consider either static nodes, 2D trajectories or single UAV systems, this paper focuses on the use of multiple UAVs for providing wireless communication to mobile users in the absence of terrestrial communications infrastructure. In particular, we jointly optimize UAV 3D trajectory and NOMA power allocation to maximize system throughput. Firstly, a weighted K-means-based clustering algorithm establishes UAV-user associations at regular intervals. The efficacy of training a novel Shared Deep Q-Network (SDQN) with action masking is then explored. Unlike training each UAV separately using DQN, the SDQN reduces training time by using the experiences of multiple UAVs instead of a single agent. We also show that SDQN can be used to train a multi-agent system with differing action spaces. Simulation results confirm that: 1) training a shared DQN outperforms a conventional DQN in terms of maximum system throughput (+20%) and training time (-10%); 2) it can converge for agents with different action spaces, yielding a 9% increase in throughput compared to mutual learning algorithms; and 3) combining NOMA with an SDQN architecture enables the network to achieve a better sum rate compared with existing baseline schemes.
翻訳日:2023-12-21 02:43:37 公開日:2023-12-19
# 不均一連続グラフニューラルネットワークによる将来的定量投資

Futures Quantitative Investment with Heterogeneous Continual Graph Neural Network ( http://arxiv.org/abs/2303.16532v2 )

ライセンス: Link先を確認
Min Hu, Zhizhong Tan, Bin Liu, Guosheng Yin(参考訳) 本研究では,高頻度取引における先物価格予測の課題を,グラフニューラルネットワークに基づく連続学習因子予測器を提案することで解決する。 このモデルは、多要素価格理論をリアルタイム市場ダイナミクスと統合し、金融理論のガイダンスを欠いている既存の手法の制限を効果的に回避し、様々なトレンド信号とその相互作用を無視する。 本研究では,価格移動平均回帰,価格ギャップ回帰,変化点検出という3つの異種タスクを提案し,データに含まれる短期的・中期的・長期的トレンド要因を追跡する。 さらに, 将来契約の相互相関特性についても検討し, 異なる契約契約の価格が強い動的相関を示すことが多かった。 各変数(将来の契約)は、その歴史的値(時間的)だけでなく、他の変数(横断的)の観察にも依存する。 これらの動的関係をより正確に捉えるために,時空間グラフニューラルネットワーク(STGNN)を用いて,モデルの予測能力を向上する。 このモデルは、これらのタスク(要素)を同時に考慮するための継続的学習戦略を採用している。 さらに,タスクの不均一性から,元々の観測と抽出された特徴との相互情報によるパラメータ重要度を算出し,破壊的忘れたり(cf)問題を緩和する。 中国の先物市場における49の商品先物に関する実証実験は、提案モデルが予測精度の点で他の最先端モデルよりも優れていることを示している。 この研究は、金融理論と深層学習の統合を促進するだけでなく、実際の貿易決定のための科学的基盤も提供する。

This study aims to address the challenges of futures price prediction in high-frequency trading (HFT) by proposing a continuous learning factor predictor based on graph neural networks. The model integrates multi-factor pricing theories with real-time market dynamics, effectively bypassing the limitations of existing methods that lack financial theory guidance and ignore various trend signals and their interactions. We propose three heterogeneous tasks, including price moving average regression, price gap regression and change-point detection to trace the short-, intermediate-, and long-term trend factors present in the data. In addition, this study also considers the cross-sectional correlation characteristics of future contracts, where prices of different futures often show strong dynamic correlations. Each variable (future contract) depends not only on its historical values (temporal) but also on the observation of other variables (cross-sectional). To capture these dynamic relationships more accurately, we resort to the spatio-temporal graph neural network (STGNN) to enhance the predictive power of the model. The model employs a continuous learning strategy to simultaneously consider these tasks (factors). Additionally, due to the heterogeneity of the tasks, we propose to calculate parameter importance with mutual information between original observations and the extracted features to mitigate the catastrophic forgetting (CF) problem. Empirical tests on 49 commodity futures in China's futures market demonstrate that the proposed model outperforms other state-of-the-art models in terms of prediction accuracy. Not only does this research promote the integration of financial theory and deep learning, but it also provides a scientific basis for actual trading decisions.
翻訳日:2023-12-21 02:43:11 公開日:2023-12-19
# 混合極角深部ニューラルネットワークを用いた内部測定からの導電率イメージング

Conductivity Imaging from Internal Measurements with Mixed Least-Squares Deep Neural Networks ( http://arxiv.org/abs/2303.16454v3 )

ライセンス: Link先を確認
Bangti Jin and Xiyao Li and Qimeng Quan and Zhi Zhou(参考訳) 本研究では,深層ニューラルネットワークを用いた新しい手法を開発し,領域全体の解の1つの測定から楕円問題における導電率分布を再構成する。 このアプローチは、支配方程式の混合再編成に基づいており、標準最小二乗目的を用いて、ディープニューラルネットワークをアンサッツ関数として、導電率とフラックスを同時に近似する。 本稿では,ノイズレベル,種々のペナルティパラメータ,ニューラルネットワークアーキテクチャパラメータ(深さ,幅,パラメータ境界)の観点から明示的な厳密な誤差推定を含む,連続的および経験的損失に対する導電率の深いニューラルネットワーク近似を徹底的に分析する。 また,2次元および複数次元における複数の数値実験を行い,データノイズに対する優れた安定性や高次元問題を解決する能力など,アプローチの特徴を明らかにした。

In this work we develop a novel approach using deep neural networks to reconstruct the conductivity distribution in elliptic problems from one measurement of the solution over the whole domain. The approach is based on a mixed reformulation of the governing equation and utilizes the standard least-squares objective, with deep neural networks as ansatz functions to approximate the conductivity and flux simultaneously. We provide a thorough analysis of the deep neural network approximations of the conductivity for both continuous and empirical losses, including rigorous error estimates that are explicit in terms of the noise level, various penalty parameters and neural network architectural parameters (depth, width and parameter bound). We also provide multiple numerical experiments in two- and multi-dimensions to illustrate distinct features of the approach, e.g., excellent stability with respect to data noise and capability of solving high-dimensional problems.
翻訳日:2023-12-21 02:42:45 公開日:2023-12-19
# 動的シーンにおけるマルチスケール特徴融合による複数フレーム自己監督深度推定

Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature Fusion in Dynamic Scenes ( http://arxiv.org/abs/2303.14628v2 )

ライセンス: Link先を確認
Jiquan Zhong, Xiaolin Huang, Xiao Yu(参考訳) 特徴マッチングにより時空間情報を集約することにより,単一フレームアプローチによる単眼深度推定を改善する。 しかし、時空間の特徴は動的シーンの精度を低下させる。 性能を向上させるため、最近の手法では特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。 本稿では,シンプルな学習フレームワークと機能拡張設計を組み合わせることで,優れた性能が得られることを示す。 1) 幾何学的説明性を持つ新しい動的物体検出法を提案する。 検出された動的オブジェクトはトレーニング中に除外され、静的環境の仮定を保証し、マルチフレーム深度推定の精度劣化問題を緩和する。 2)マルチフレーム深度ネットワークにおける特徴マッチングのために,多スケール特徴融合が提案されている。 3) 頑健な教師ネットワークと信頼性保証を備えた頑健な知識蒸留が提案され, テスト中に計算複雑性を増大させることなく多フレーム深度推定を改善する。 提案手法は,マルチフレーム深度推定において優れた性能向上を実現することを示す。

Multi-frame methods improve monocular depth estimation over single-frame approaches by aggregating spatial-temporal information via feature matching. However, the spatial-temporal feature leads to accuracy degradation in dynamic scenes. To enhance the performance, recent methods tend to propose complex architectures for feature matching and dynamic scenes. In this paper, we show that a simple learning framework, together with designed feature augmentation, leads to superior performance. (1) A novel dynamic objects detecting method with geometry explainability is proposed. The detected dynamic objects are excluded during training, which guarantees the static environment assumption and relieves the accuracy degradation problem of the multi-frame depth estimation. (2) Multi-scale feature fusion is proposed for feature matching in the multi-frame depth network, which improves feature matching, especially between frames with large camera motion. (3) The robust knowledge distillation with a robust teacher network and reliability guarantee is proposed, which improves the multi-frame depth estimation without computation complexity increase during the test. The experiments show that our proposed methods achieve great performance improvement on the multi-frame depth estimation.
翻訳日:2023-12-21 02:42:07 公開日:2023-12-19
# Poincar\'e ResNet

Poincar\'e ResNet ( http://arxiv.org/abs/2303.14027v3 )

ライセンス: Link先を確認
Max van Spengler, Erwin Berkhout, Pascal Mettes(参考訳) 本稿では,双曲空間のPoincar\'e球モデルで完全に動作するエンドツーエンド残差ネットワークを提案する。 双曲学習は近年、視覚的理解に大きな可能性を示しているが、現在はディープネットワークの最後尾層でのみ実施されている。 すべての視覚的表現は、標準ユークリッドネットワークを通じて学習される。 本稿では,視覚データの双曲表現をピクセルレベルから直接学習する方法を検討する。 我々は,Poincar\'e 2Dコンボリューションから,Poincar\'e残コネクションまで,有名な残留ネットワークの双曲的対向であるPoincar\'e ResNetを提案する。 畳み込みネットワークを完全に双曲空間で訓練するための3つの障害を特定し,それぞれに解を提案する。 (i)現在の双曲的ネットワークの初期化は原点に崩壊し、より深いネットワークでの適用性が制限される。 多くの層にまたがって標準を保存するアイデンティティベースの初期化を提供する。 (II)残差ネットワークは高額なFr'echet平均計算を双曲空間で行うバッチ正規化に大きく依存する。 poincar\'e 中間点バッチ正規化を高速かつ均等に有効な代替として導入する。 3) Poincar\'e 層における多くの中間処理により,ディープラーニングライブラリの計算グラフが爆発的に爆発し,深層双曲ネットワークのトレーニング能力が制限されることがわかった。 我々は、管理可能な計算グラフを維持するために、コア双曲演算を手動で逆向きに導出する。

This paper introduces an end-to-end residual network that operates entirely on the Poincar\'e ball model of hyperbolic space. Hyperbolic learning has recently shown great potential for visual understanding, but is currently only performed in the penultimate layer(s) of deep networks. All visual representations are still learned through standard Euclidean networks. In this paper we investigate how to learn hyperbolic representations of visual data directly from the pixel-level. We propose Poincar\'e ResNet, a hyperbolic counterpart of the celebrated residual network, starting from Poincar\'e 2D convolutions up to Poincar\'e residual connections. We identify three roadblocks for training convolutional networks entirely in hyperbolic space and propose a solution for each: (i) Current hyperbolic network initializations collapse to the origin, limiting their applicability in deeper networks. We provide an identity-based initialization that preserves norms over many layers. (ii) Residual networks rely heavily on batch normalization, which comes with expensive Fr\'echet mean calculations in hyperbolic space. We introduce Poincar\'e midpoint batch normalization as a faster and equally effective alternative. (iii) Due to the many intermediate operations in Poincar\'e layers, we lastly find that the computation graphs of deep learning libraries blow up, limiting our ability to train on deep hyperbolic networks. We provide manual backward derivations of core hyperbolic operations to maintain manageable computation graphs.
翻訳日:2023-12-21 02:41:36 公開日:2023-12-19
# 運用中の量子参照フレーム変換

Operational Quantum Reference Frame Transformations ( http://arxiv.org/abs/2303.14002v2 )

ライセンス: Link先を確認
Titouan Carette, Jan G{\l}owacki and Leon Loveridge(参考訳) 量子参照フレームは、古典的相対性理論における参照フレームとほとんど同じ理由で量子理論において必要であり、基本的な相対性理論に従って不変性を示す。 1960年代以降、広範囲のアプリケーションで使用されているが、最近になって異なるフレーム間の記述を詳細に変換する手段が与えられた。 このような変換は、内部的に一貫した量子参照フレームの理論のために必要である。 本研究では,局所コンパクト群を対象とし,量子参照フレームとその変換のための汎用的,運用的動機付けのあるフレームワークを提供する。 この研究は、物理的に区別できない理論対象を識別する操作同値の概念を中心に構築されている。 例えば、与えられたフレームに対する可観測性の集まりを、系とフレームの合成上の不変量の代数の部分空間として記述し、それゆえ、相対状態の集合は事前の凸部分集合として構成することができる。 不変性に加えて、相対観測可能度もフレーム化されており、選択したフレーム観測可能度で実現可能である。 フレーム変換は、初期フレームと最終フレームの両方で区別できる相対状態の同値類の間の写像である。 我々は、初期フレームが観測可能なフレームに対して高度に局所化された状態を持つという設定で明示的な実現を与える。 変換は、最終フレームがそのようなローカライズ性を持つとき、正確には可逆である。 私たちが提示する手続きは、共通の適用可能性の領域における他の非等価な構成と運用上の合意にあるが、我々が記述する多くの方法でそれらを拡張している。

Quantum reference frames are needed in quantum theory for much the same reasons as reference frames are in classical relativity theories: to manifest invariance in line with fundamental relativity principles. Though around since the 1960s, and used in a wide range of applications, only recently has the means for transforming descriptions between different frames been tackled in detail. Such transformations are needed for an internally consistent theory of quantum reference frames. In this work, we provide a general, operationally motivated framework for quantum reference frames and their transformations, holding for locally compact groups. The work is built around the notion of operational equivalence, in which theoretical objects that cannot be physically distinguished are identified. For example, we describe the collection of observables relative to a given frame as a subspace of the algebra of invariants on the composite of system and frame, and from here the set of relative states can be constructed as a convex subset of the predual. Besides being invariant, the relative observables are also framed, meaning that they can be realized with the chosen frame observable. The frame transformations are then maps between equivalence classes of relative states that can be distinguished by both initial and final frames. We give an explicit realisation in the setting that the initial frame admits a highly localized state with respect to the frame observable. The transformations are invertible exactly when the final frame also has such a localizability property. The procedure we present is in operational agreement with other recent inequivalent constructions on the domain of common applicability, but extends them in a number of ways which we describe.
翻訳日:2023-12-21 02:41:11 公開日:2023-12-19
# diffumask:拡散モデルを用いた意味セグメンテーションのためのピクセルレベルアノテーションによる画像合成

DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models ( http://arxiv.org/abs/2303.11681v3 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Mike Zheng Shou, Hong Zhou, Chunhua Shen(参考訳) ピクセルワイドラベルによる画像の収集と注釈付けは、時間と労力を要する。 対照的に、合成データは生成モデル(例えば、DALL-E、安定拡散)で自由に利用できる。 本稿では,トレーニング中にテキストイメージペアのみを使用するオフザシェルフ安定拡散モデルによって生成された合成画像の正確なセマンティックマスクを自動で取得可能であることを示す。 diffumaskと呼ばれるこのアプローチは、テキストと画像間の相互接続マップの可能性を利用しており、自然かつシームレスにテキスト駆動画像合成をセマンティックマスク生成に拡張する。 diffumaskは、テキストガイドによるクロスアテンション情報を使用して、クラス/単語固有の領域をローカライズする。 このメソッドは明らかにデータ収集とアノテーションのコストを削減するのに役立つ。 実験により、DiffuMaskの合成データに基づいて訓練された既存のセグメンテーション手法は、実際のデータ(VOC 2012 Cityscapes)と競合する性能を発揮することが示された。 いくつかのクラス(例えば鳥)では、DiffuMaskは実データ(3% mIoUギャップ)の最先端結果に近い、有望なパフォーマンスを示す。 さらに、開語彙セグメンテーション(ゼロショット)設定では、DiffuMaskはVOC 2012のUnseenクラスで新しいSOTA結果を達成する。 プロジェクトのWebサイトはhttps://weijiawu.github.io/DiffusionMask/にある。

Collecting and annotating images with pixel-wise labels is time-consuming and laborious. In contrast, synthetic data can be freely available using a generative model (e.g., DALL-E, Stable Diffusion). In this paper, we show that it is possible to automatically obtain accurate semantic masks of synthetic images generated by the Off-the-shelf Stable Diffusion model, which uses only text-image pairs during training. Our approach, called DiffuMask, exploits the potential of the cross-attention map between text and image, which is natural and seamless to extend the text-driven image synthesis to semantic mask generation. DiffuMask uses text-guided cross-attention information to localize class/word-specific regions, which are combined with practical techniques to create a novel high-resolution and class-discriminative pixel-wise mask. The methods help to reduce data collection and annotation costs obviously. Experiments demonstrate that the existing segmentation methods trained on synthetic data of DiffuMask can achieve a competitive performance over the counterpart of real data (VOC 2012, Cityscapes). For some classes (e.g., bird), DiffuMask presents promising performance, close to the stateof-the-art result of real data (within 3% mIoU gap). Moreover, in the open-vocabulary segmentation (zero-shot) setting, DiffuMask achieves a new SOTA result on Unseen class of VOC 2012. The project website can be found at https://weijiawu.github.io/DiffusionMask/.
翻訳日:2023-12-21 02:40:07 公開日:2023-12-19
# LossMixによるスーパービジョン補間:オブジェクト検出のための混合の一般化

Supervision Interpolation via LossMix: Generalizing Mixup for Object Detection and Beyond ( http://arxiv.org/abs/2303.10343v2 )

ライセンス: Link先を確認
Thanh Vu, Baochen Sun, Bodi Yuan, Alex Ngai, Yueqi Li, Jan-Michael Frahm(参考訳) 画像分類タスクにおけるデータ混合強化の成功は、よく認識されている。 しかし,これらの手法は,空間的ミスアライメント,前景/背景の区別,複数事例などの課題により,容易に物体検出に適用できない。 これらの課題に対処するため,我々はまず Supervision Interpolation (SI) という新しい概念フレームワークを紹介し,Mixup の緩和と一般化による補間に基づく拡張の新たな視点を提供する。 SIに基づいて,オブジェクト検出器の性能やロバスト性を向上する,シンプルで汎用的で効果的な正規化であるLossMixを提案する。 我々の重要な洞察は、地上の真理ラベルの代わりに損失エラーを補間することで、混合データのトレーニングを効果的に規則化できるということです。 PASCAL VOCとMS COCOデータセットの実証結果は、LossMixが検出に広く採用されている最先端の手法を一貫して上回っていることを示している。 さらに、LosMixと教師なしドメイン適応を併用することにより、既存のアプローチを改善し、クロスドメインオブジェクト検出のための新しい状態を設定する。

The success of data mixing augmentations in image classification tasks has been well-received. However, these techniques cannot be readily applied to object detection due to challenges such as spatial misalignment, foreground/background distinction, and plurality of instances. To tackle these issues, we first introduce a novel conceptual framework called Supervision Interpolation (SI), which offers a fresh perspective on interpolation-based augmentations by relaxing and generalizing Mixup. Based on SI, we propose LossMix, a simple yet versatile and effective regularization that enhances the performance and robustness of object detectors and more. Our key insight is that we can effectively regularize the training on mixed data by interpolating their loss errors instead of ground truth labels. Empirical results on the PASCAL VOC and MS COCO datasets demonstrate that LossMix can consistently outperform state-of-the-art methods widely adopted for detection. Furthermore, by jointly leveraging LossMix with unsupervised domain adaptation, we successfully improve existing approaches and set a new state of the art for cross-domain object detection.
翻訳日:2023-12-21 02:38:50 公開日:2023-12-19
# VVS:無関係フレーム抑圧によるビデオ間検索

VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression ( http://arxiv.org/abs/2303.08906v2 )

ライセンス: Link先を確認
Won Jo, Geuntaek Lim, Gwangjin Lee, Hyunwoo Kim, Byungsoo Ko, and Yukyung Choi(参考訳) 大規模コレクションを扱うコンテンツベースビデオ検索(cbvr)では,効率性は精度と同じくらい重要であるため,映像レベルの特徴量に基づく研究が盛んに行われている。 しかし、長めで未編集の動画を一つの特徴に埋め込むことの難しさから、これらの研究はフレームレベルの特徴に基づく研究に比べて正確な検索には不十分であった。 本稿では,無関係なフレームの適切な抑制が,ビデオレベルのアプローチの現在の障害に対する洞察を与えることを示す。 さらに,VVS(Video-to-Video Suppression Network)をソリューションとして提案する。 vvsはエンド・ツー・エンドのフレームワークであり、どのフレームを取り除くかを簡単に識別する気晴らし除去ステージと、残りのフレームを抑圧する程度を決定するための抑制重み生成ステージで構成される。 この構造は、様々なコンテンツと意味のない情報を持つ未トリミングな動画を効果的に記述することを目的としている。 提案手法は,ビデオレベルのアプローチでは最先端の手法であるだけでなく,フレームレベルのアプローチに近い検索能力を有するにもかかわらず,高速な推論時間を有することを示す。 コードはhttps://github.com/sejong-rcv/VVSで入手できる。

In content-based video retrieval (CBVR), dealing with large-scale collections, efficiency is as important as accuracy; thus, several video-level feature-based studies have actively been conducted. Nevertheless, owing to the severe difficulty of embedding a lengthy and untrimmed video into a single feature, these studies have been insufficient for accurate retrieval compared to frame-level feature-based studies. In this paper, we show that appropriate suppression of irrelevant frames can provide insight into the current obstacles of the video-level approaches. Furthermore, we propose a Video-to-Video Suppression network (VVS) as a solution. VVS is an end-to-end framework that consists of an easy distractor elimination stage to identify which frames to remove and a suppression weight generation stage to determine the extent to suppress the remaining frames. This structure is intended to effectively describe an untrimmed video with varying content and meaningless information. Its efficacy is proved via extensive experiments, and we show that our approach is not only state-of-the-art in video-level approaches but also has a fast inference time despite possessing retrieval capabilities close to those of frame-level approaches. Code is available at https://github.com/sejong-rcv/VVS
翻訳日:2023-12-21 02:38:31 公開日:2023-12-19
# テキスト・画像拡散モデルに対するFew-Shotバックドア攻撃のショートカットとしてのパーソナライゼーション

Personalization as a Shortcut for Few-Shot Backdoor Attack against Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.10701v2 )

ライセンス: Link先を確認
Yihao Huang, Felix Juefei-Xu, Qing Guo, Jie Zhang, Yutong Wu, Ming Hu, Tianlin Li, Geguang Pu, Yang Liu(参考訳) 最近のパーソナライズ手法は、最小限の例と軽量な計算で迅速な概念獲得を可能にすることで、高解像度画像合成を民主化してきたが、高アクセス性バックドアアタックのための悪用可能な手段も提示している。 本稿では,テキスト・ツー・イメージ(t2i)拡散モデルの批判的かつ未検討な側面について検討する。 従来のバックドアアタックと比較して,提案手法はより正確で効率的で容易にアクセス可能な攻撃が容易であり,参入障壁が低く,テキストインバージョンとドリームブートによって認識される2つのパーソナライゼーション手法に共通するゼロデイバックドア脆弱性に着目した。 我々は,t2i拡散モデルにおけるパーソナライゼーションの包括的レビューを行い,このバックドア脆弱性の操作と悪用の可能性を強調した。 具体的には,テキストインバージョンとドリームブートの迅速な処理について検討し,未知のトークンの扱い方に応じて専用のバックドアアタックを考案し,攻撃効果に対するトリガーとコンセプトイメージの影響を分析した。 総合的な実証研究を通じて,ヌーボートーケンバックドア攻撃の有効性,ステルス性,整合性を裏付け,従来のバックドア攻撃よりも優れていた。

Although recent personalization methods have democratized high-resolution image synthesis by enabling swift concept acquisition with minimal examples and lightweight computation, they also present an exploitable avenue for high accessible backdoor attacks. This paper investigates a critical and unexplored aspect of text-to-image (T2I) diffusion models - their potential vulnerability to backdoor attacks via personalization. Our study focuses on a zero-day backdoor vulnerability prevalent in two families of personalization methods, epitomized by Textual Inversion and DreamBooth.Compared to traditional backdoor attacks, our proposed method can facilitate more precise, efficient, and easily accessible attacks with a lower barrier to entry. We provide a comprehensive review of personalization in T2I diffusion models, highlighting the operation and exploitation potential of this backdoor vulnerability. To be specific, by studying the prompt processing of Textual Inversion and DreamBooth, we have devised dedicated backdoor attacks according to the different ways of dealing with unseen tokens and analyzed the influence of triggers and concept images on the attack effect. Through comprehensive empirical study, we endorse the utilization of the nouveau-token backdoor attack due to its impressive effectiveness, stealthiness, and integrity, markedly outperforming the legacy-token backdoor attack.
翻訳日:2023-12-21 02:32:25 公開日:2023-12-19
# マルチモードキャビティに強く結合したsu-schrieffer-heeger鎖の多極性エッジ状態

Multiple polaritonic edge states in a Su-Schrieffer-Heeger chain strongly coupled to a multimode cavity ( http://arxiv.org/abs/2305.06956v2 )

ライセンス: Link先を確認
Thomas F. Allard and Guillaume Weick(参考訳) 多モード光導波路キャビティに強く結合した双極子エミッタの二重鎖について検討した。 空洞のフォトニックな自由度を積分することにより、システムは効果的なカップリングを持つ2バンドモデルに再キャストされ、非自明な位相位相を特徴とし位相的エッジ状態をホストするパラダイム的なSu-Schrieffer-Heegerモデルの変動を模倣する。 強結合状態において、キャビティ光子は明るい双極子バルク帯を偏光子にハイブリダイズし、固有スペクトルを再正規化し、強いカイラル対称性を破る。 これにより、トポロジカルなバルクバンドに合流している間に、トポロジカルな相に存在するギャップ内エッジ状態が正式に失われる。 しかし興味深いことに、エッジ状態と共振するバルク偏光子はその局在特性の一部を継承し、複数の偏光性エッジ状態が観測される。 これらの状態は辺に完全に局在していないが、特異な性質を示す。 特に、非局在なバルク部分のため、偏光性のため、そのようなエッジ状態は効率的なエッジツーエッジ輸送特性を示す。 縮退する代わりにスペクトルの大部分を占め、広い駆動周波数範囲で観測することができる。 さらに、対称性が保護された位相的エッジ状態を連想させるため、位置障害に対する耐性が強い。

A dimerized chain of dipolar emitters strongly coupled to a multimode optical waveguide cavity is studied. By integrating out the photonic degrees of freedom of the cavity, the system is recast in a two-band model with an effective coupling, so that it mimics a variation of the paradigmatic Su-Schrieffer-Heeger model, which features a nontrivial topological phase and hosts topological edge states. In the strong-coupling regime, the cavity photons hybridize the bright dipolar bulk band into a polaritonic one, renormalizing the eigenspectrum and strongly breaking chiral symmetry. This leads to a formal loss of the in-gap edge states present in the topological phase while they merge into the polaritonic bulk band. Interestingly, however, we find that bulk polaritons entering in resonance with the edge states inherit part of their localization properties, so that multiple polaritonic edge states are observed. Although these states are not fully localized on the edges, they present unusual properties. In particular, due to their delocalized bulk part, owing from their polaritonic nature, such edge states exhibit efficient edge-to-edge transport characteristics. Instead of being degenerate, they occupy a large portion of the spectrum, allowing one to probe them in a wide driving frequency range. Moreover, being reminiscent of symmetry-protected topological edge states, they feature a strong tolerance to positional disorder.
翻訳日:2023-12-21 02:29:48 公開日:2023-12-19
# JaxPruner: 空間研究のための簡潔なライブラリ

JaxPruner: A concise library for sparsity research ( http://arxiv.org/abs/2304.14082v3 )

ライセンス: Link先を確認
Joo Hyung Lee, Wonpyo Park, Nicole Mitchell, Jonathan Pilault, Johan Obando-Ceron, Han-Byul Kim, Namhoon Lee, Elias Frantar, Yun Long, Amir Yazdanbakhsh, Shivani Agrawal, Suvinay Subramanian, Xin Wang, Sheng-Chun Kao, Xingyao Zhang, Trevor Gale, Aart Bik, Woohyun Han, Milen Ferev, Zhonglin Han, Hong-Seok Kim, Yann Dauphin, Gintare Karolina Dziugaite, Pablo Samuel Castro, Utku Evci(参考訳) 本稿では、オープンソースのJAXベースのプルーニングおよびスパーストレーニングライブラリであるJaxPrunerを紹介する。 jaxprunerは、メモリとレイテンシのオーバーヘッドを最小限に抑えながら、人気のあるpruningとsparseトレーニングアルゴリズムの簡潔な実装を提供することで、スパースニューラルネットワークの研究を加速することを目指している。 jaxprunerに実装されたアルゴリズムは共通のapiを使用して、人気のある最適化ライブラリであるopaxとシームレスに連携する。 この統合の容易さを4つの異なるコードベースで例示することで実証し、人気のあるベンチマークに関するベースライン実験を提供する。

This paper introduces JaxPruner, an open-source JAX-based pruning and sparse training library for machine learning research. JaxPruner aims to accelerate research on sparse neural networks by providing concise implementations of popular pruning and sparse training algorithms with minimal memory and latency overhead. Algorithms implemented in JaxPruner use a common API and work seamlessly with the popular optimization library Optax, which, in turn, enables easy integration with existing JAX based libraries. We demonstrate this ease of integration by providing examples in four different codebases: Scenic, t5x, Dopamine and FedJAX and provide baseline experiments on popular benchmarks.
翻訳日:2023-12-21 02:28:10 公開日:2023-12-19
# R'enyi divergencesの有効性

Sufficiency of R\'enyi divergences ( http://arxiv.org/abs/2304.12989v6 )

ライセンス: Link先を確認
Niklas Galke, Lauritz van Luijk, Henrik Wilming(参考訳) 古典的あるいは量子的状態の集合が、古典的または量子的チャネルのペアが他方にセットされた場合、別のものと同値である。 二コトミー(状態のペア)の場合、これは(古典的または量子的) R\'enyi divergences (RD) とデータ処理の不等式と密接に結びついている: チャネルが二コトミーに適用されたときにRDが変化しない場合、最初の二コトミーにイメージをマッピングする回復チャネルが存在する。 ここでは、古典的二分法について、RDs の等式だけでは、2つの方向のいずれかのチャネルの存在に十分であることを示すとともに、いくつかの応用について議論する。 量子の場合、量子 rd の全ての族は反ユニタリ変換を検出できないため不十分であると見られている。 したがって、アンチ・ユニタリを含め、我々は十分な家族を見つけるという問題を提起する。 このより一般的な意味では、ペッツと最大量子RDは依然として不十分であり、最小量子RDが十分であることを示す証拠を提供する。 この手法の副作用として、古典的、ペッツ量子、最大量子RDによって満たされる無限の不等式のリストを得る。 これらの不等式は最小量子rdsには当てはまらない。 さらに, 熱力学の資源理論における状態遷移の十分条件は, 時間反転を検出できなければならないことを示唆する。

A set of classical or quantum states is equivalent to another one if there exists a pair of classical or quantum channels mapping either set to the other one. For dichotomies (pairs of states), this is closely connected to (classical or quantum) R\'enyi divergences (RD) and the data-processing inequality: If a RD remains unchanged when a channel is applied to the dichotomy, then there is a recovery channel mapping the image back to the initial dichotomy. Here, we prove for classical dichotomies that equality of the RDs alone is already sufficient for the existence of a channel in any of the two directions and discuss some applications. In the quantum case, all families of quantum RDs are seen to be insufficient because they cannot detect anti-unitary transformations. Thus, including anti-unitaries, we pose the problem of finding a sufficient family. It is shown that the Petz and maximal quantum RD are still insufficient in this more general sense and we provide evidence for sufficiency of the minimal quantum RD. As a side result of our techniques, we obtain an infinite list of inequalities fulfilled by the classical, the Petz quantum, and the maximal quantum RDs. These inequalities are not true for the minimal quantum RDs. Our results further imply that any sufficient set of conditions for state transitions in the resource theory of athermality must be able to detect time-reversal.
翻訳日:2023-12-21 02:27:57 公開日:2023-12-19
# 人工ニューラルネットワークによるGDPの今 : 長期記憶はどれくらい重要か?

GDP nowcasting with artificial neural networks: How much does long-term memory matter? ( http://arxiv.org/abs/2304.05805v2 )

ライセンス: Link先を確認
Krist\'of N\'emeth, D\'aniel Hadh\'azi(参考訳) 本研究では、米国経済の四半期GDP成長を予測するために、人工知能ニューラルネットワーク(ANN)を適用した。 月刊のfred-mdデータベースを用いて,多層型パーセプトロン (mlp), 1次元畳み込みニューラルネットワーク (1d cnn), elman recurrent neural network (rnn), long short-term memory network (lstm), gated recurrent unit (gru) の5つのアーキテクチャの現在キャスト性能を比較した。 経験分析は、2つの異なる評価期間の結果を提示する。 第1期(2012:q1 -- 2019:q4)はバランスの取れた経済成長を特徴とし、第2期(2012:q1 -- 2022:q4)は新型コロナウイルスの景気後退の時期も含まれる。 以上の結果から、より長い入力シーケンスは、バランスの取れた経済成長の期間において、より正確な結果をもたらす。 しかし、この効果は比較的低いしきい値である約6/4(18ヶ月)以上で停止する。 経済の混乱(例えば、COVID-19の景気後退)の間、より長い入力シーケンスはモデルの予測性能に役立ちず、代わりに一般化能力を弱めるように思われる。 2つの評価期間の組合せの結果は、長期記憶が可能なアーキテクチャ上の特徴がより正確でないことを示している。 一方,1D CNN は GDP nowcasting に非常に適したモデルであることが証明されている。 ネットワークは,第1評価期間中の競技者間で良好な放送性能を示し,第2評価期間中の総合的精度を達成した。 そこで本研究では,まず,1D CNN の経済放送への応用を提案する。

In our study, we apply artificial neural networks (ANNs) to nowcast quarterly GDP growth for the U.S. economy. Using the monthly FRED-MD database, we compare the nowcasting performance of five different ANN architectures: the multilayer perceptron (MLP), the one-dimensional convolutional neural network (1D CNN), the Elman recurrent neural network (RNN), the long short-term memory network (LSTM), and the gated recurrent unit (GRU). The empirical analysis presents the results from two distinctively different evaluation periods. The first (2012:Q1 -- 2019:Q4) is characterized by balanced economic growth, while the second (2012:Q1 -- 2022:Q4) also includes periods of the COVID-19 recession. According to our results, longer input sequences result in more accurate nowcasts in periods of balanced economic growth. However, this effect ceases above a relatively low threshold value of around six quarters (eighteen months). During periods of economic turbulence (e.g., during the COVID-19 recession), longer input sequences do not help the models' predictive performance; instead, they seem to weaken their generalization capability. Combined results from the two evaluation periods indicate that architectural features enabling for long-term memory do not result in more accurate nowcasts. On the other hand, the 1D CNN has proved to be a highly suitable model for GDP nowcasting. The network has shown good nowcasting performance among the competitors during the first evaluation period and achieved the overall best accuracy during the second evaluation period. Consequently, first in the literature, we propose the application of the 1D CNN for economic nowcasting.
翻訳日:2023-12-21 02:27:30 公開日:2023-12-19
# ローカルリージョン学習モジュールによるポイントクラウド分類

Local region-learning modules for point cloud classification ( http://arxiv.org/abs/2303.17338v2 )

ライセンス: Link先を確認
Kaya Turgut and Helin Dutagaci(参考訳) ローカル領域の形成によるデータ編成は、3dポイントクラウドを階層的に処理するディープラーニングネットワークの不可欠な部分である。 各レベルにおいて、点雲をサンプリングして代表点を抽出し、これらの点を局所領域の中心とする。 特徴集約の特定の層における受容野の位置と大きさを決定するため、局所的な領域の組織は極めて重要である。 本稿では,各中心点に対する適切なシフトを推定するCenter Shift Moduleと,各局所点の半径を変更するRadius Update Moduleの2つのローカル領域学習モジュールを提案する。 モジュールのパラメータは、エンドツーエンドネットワーク内の特定のタスクに関連する損失を最適化することで学習される。 ポイントクラウドにおける3Dポイントの特徴と位置の相互作用をモデル化する様々な方法で,これらのモジュールの代替案を提案する。 我々はこれらのモジュールをpointnet++とpointcnnオブジェクトの分類アーキテクチャに独立して統合し、実際のオブジェクトのスキャンからなるscanobjectnnデータセットの分類精度が大幅に向上したことを示した。 ShapeNetデータセットのさらなる実験により,モジュールは3次元CADモデルにも有効であることがわかった。

Data organization via forming local regions is an integral part of deep learning networks that process 3D point clouds in a hierarchical manner. At each level, the point cloud is sampled to extract representative points and these points are used to be centers of local regions. The organization of local regions is of considerable importance since it determines the location and size of the receptive field at a particular layer of feature aggregation. In this paper, we present two local region-learning modules: Center Shift Module to infer the appropriate shift for each center point, and Radius Update Module to alter the radius of each local region. The parameters of the modules are learned through optimizing the loss associated with the particular task within an end-to-end network. We present alternatives for these modules through various ways of modeling the interactions of the features and locations of 3D points in the point cloud. We integrated both modules independently and together to the PointNet++ and PointCNN object classification architectures, and demonstrated that the modules contributed to a significant increase in classification accuracy for the ScanObjectNN data set consisting of scans of real-world objects. Our further experiments on ShapeNet data set showed that the modules are also effective on 3D CAD models.
翻訳日:2023-12-21 02:26:19 公開日:2023-12-19
# 銅酸化物及び関連材料における準粒子散乱速度とARPESのゼーマン依存性

Zeeman dependence of the quasiparticle scattering rate and ARPES in copper oxides and related materials ( http://arxiv.org/abs/2305.18083v2 )

ライセンス: Link先を確認
George Kastrinakis(参考訳) 強相互作用の強いフェルミ液体の枠組みの中では、フェルミ表面の前後に位置するファン・ホーブピークの密度の金属系において、有限磁場に対するゼーマンエネルギー$\omega_H$の効果を計算する。 化学ポテンシャルは$\omega_H$で増加する。 常およびd波超伝導状態の両方において、最大で$\omega_h$ と温度で線形な特性準粒子散乱速度を求める。 酸化銅および関連化合物におけるALPES実験は、散乱速度のこの挙動、特にスピンアップ電子とダウン電子の差を解明できるはずだと予測する。

Within a strongly interacting Fermi liquid framework, we calculate the effects of the Zeeman energy $\omega_H$ for a finite magnetic field, in a metallic system with a van Hove peak in the density of states, located close to and below the Fermi surface. We find that the chemical potential increases with the square of $\omega_H$. We obtain a characteristic quasiparticle scattering rate linear in the maximum of $\omega_H$ and temperature, both in the normal and the d-wave superconducting state. We predict that ARPES experiments in copper oxides, and related compounds, should be able to elucidate this behavior of the scattering rate, and in particular, the difference between spin up and down electrons.
翻訳日:2023-12-21 02:18:08 公開日:2023-12-19
# マルチコンテキスト合成データによる画像キャプション

Image Captioning with Multi-Context Synthetic Data ( http://arxiv.org/abs/2305.18072v2 )

ライセンス: Link先を確認
Feipeng Ma, Yizhou Zhou, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun(参考訳) 画像キャプションは多くの注釈付き画像テキストペアを必要とするため、かなりのアノテーションコストがかかる。 近年、大きなモデル(拡散モデルや大きな言語モデルなど)は高品質な画像やテキストの作成に長けている。 このポテンシャルを利用して、キャプションモデルをトレーニングするための合成画像テキストペアを作成することができる。 合成データは、データ収集のコストと時間効率の改善、特定のドメインのカスタマイズ、ゼロショットパフォーマンスのブートストラップ一般化機能、現実世界のデータに関連するプライバシー問題を回避することができる。 しかし,既存の手法は,合成データのみで満足な性能を得るのに苦労している。 単純な記述から生成された画像として問題を特定し,実世界のイメージに多く見られる複雑なシーンと一致しない,限定的なコンテキストで孤立した視点を捉えている。 そこで本研究では,マルチコンテキストデータ生成を実現する革新的なパイプラインを提案する。 最初のテキストコーパスから始めると、様々な視点から同じシーンを表現した複数の文を抽出するために、大きな言語モデルを採用する。 これらの文は、複数のコンテキストを持つ単一の文に凝縮される。 その後,拡散モデルを用いて凝縮キャプションを用いて複雑な画像を生成する。 我々のモデルは、このプロセスを通して作られた合成画像テキストペアにのみ訓練されている。 このパイプラインの有効性は,mscoco,flickr30k,nocapsなどのよく知られたデータセット上で最先端のパフォーマンスを実現するための,ドメイン内およびドメイン間設定の実験的結果を通じて検証される。

Image captioning requires numerous annotated image-text pairs, resulting in substantial annotation costs. Recently, large models (e.g. diffusion models and large language models) have excelled in producing high-quality images and text. This potential can be harnessed to create synthetic image-text pairs for training captioning models. Synthetic data can improve cost and time efficiency in data collection, allow for customization to specific domains, bootstrap generalization capability for zero-shot performance, and circumvent privacy concerns associated with real-world data. However, existing methods struggle to attain satisfactory performance solely through synthetic data. We identify the issue as generated images from simple descriptions mostly capture a solitary perspective with limited context, failing to align with the intricate scenes prevalent in real-world imagery. To tackle this, we present an innovative pipeline that introduces multi-context data generation. Beginning with an initial text corpus, our approach employs a large language model to extract multiple sentences portraying the same scene from diverse viewpoints. These sentences are then condensed into a single sentence with multiple contexts. Subsequently, we generate intricate images using the condensed captions through diffusion models. Our model is exclusively trained on synthetic image-text pairs crafted through this process. The effectiveness of our pipeline is validated through experimental results in both the in-domain and cross-domain settings, where it achieves state-of-the-art performance on well-known datasets such as MSCOCO, Flickr30k, and NoCaps.
翻訳日:2023-12-21 02:17:51 公開日:2023-12-19
# ディープニューラルネットワークの正則化のためのゴーストノイズ

Ghost Noise for Regularizing Deep Neural Networks ( http://arxiv.org/abs/2305.17205v2 )

ライセンス: Link先を確認
Atli Kosson, Dongyang Fan, Martin Jaggi(参考訳) バッチ正規化(BN)は、最適化プロセスを安定化し、ディープニューラルネットワークのテスト性能を改善するために広く用いられている。 BNの正規化効果はバッチサイズに依存しており、Ghost Batch Normalization (GBN) と呼ばれる手法である Batch Normalization を用いたより小さなバッチサイズを明示的に用いている。 正規化から誘導される「ゴーストノイズ」を解き放つことにより,GBNの有効性を検証し,ノイズの分布とモデル性能への影響を定量的に分析する。 そこで本研究では,gbnの雑音を模倣したgni(ghost noise injection)と呼ばれる新しい正規化手法を提案する。 GNI が GBN よりも優れた一般化の恩恵をもたらすことを示す。 ゴーストノイズ注入は、層正規化ネットワークのような非ノイズの環境でも有効であり、正規化におけるゴーストノイズが正則化として有用であることを示す追加の証拠となる。

Batch Normalization (BN) is widely used to stabilize the optimization process and improve the test performance of deep neural networks. The regularization effect of BN depends on the batch size and explicitly using smaller batch sizes with Batch Normalization, a method known as Ghost Batch Normalization (GBN), has been found to improve generalization in many settings. We investigate the effectiveness of GBN by disentangling the induced ``Ghost Noise'' from normalization and quantitatively analyzing the distribution of noise as well as its impact on model performance. Inspired by our analysis, we propose a new regularization technique called Ghost Noise Injection (GNI) that imitates the noise in GBN without incurring the detrimental train-test discrepancy effects of small batch training. We experimentally show that GNI can provide a greater generalization benefit than GBN. Ghost Noise Injection can also be beneficial in otherwise non-noisy settings such as layer-normalized networks, providing additional evidence of the usefulness of Ghost Noise in Batch Normalization as a regularizer.
翻訳日:2023-12-21 02:17:29 公開日:2023-12-19
# 変圧器の効率的な訓練のためのアダムのマニフォールドへの一般化

Generalizing Adam to Manifolds for Efficiently Training Transformers ( http://arxiv.org/abs/2305.16901v2 )

ライセンス: Link先を確認
Benedikt Brantner(参考訳) ニューラルネットワークが成功した主な理由の1つは、新しい、非常に成功したオプティマイザ、おそらく最も重要なのはadamオプティマイザの出現だった。 ニューラルネットワークのトレーニングによく使われているが、解釈が難しい。 明快な物理的直観を欠くため、アダムは多様体への一般化が難しい。 アダムアルゴリズムの一部を多様体に直接適用したり、基礎構造を見つけようとする試みもあるが、完全な一般化はいまだに解明されていない。 本稿では、スティフェル多様体、シンプレクティックスティーフェル多様体、グラスマン多様体、シンプレクティックグラスマン多様体などのニューラルネットワークの最適化に関連する多様体の特殊構造を利用する新しいアプローチを提案する。 このグローバル接空間表現は、アダム最適化器のすべてのステップを実行するために使われる。 得られたアルゴリズムは、直交制約を機械の精度まで強制する変圧器の訓練に適用され、トレーニングプロセスにおいてかなりのスピードアップが観察される。 重みが多様体上にないニューラルネットワークの最適化は、提示されたフラムクワークの特別な場合として同定される。 これにより、一般多様体やベクトル空間の要素であるかどうかに関わらず、学習率を全てのパラメータに同時に適用できる柔軟な実装が可能になる。

One of the primary reasons behind the success of neural networks has been the emergence of an array of new, highly-successful optimizers, perhaps most importantly the Adam optimizer. It is wiedely used for training neural networks, yet notoriously hard to interpret. Lacking a clear physical intuition, Adam is difficult to generalize to manifolds. Some attempts have been made to directly apply parts of the Adam algorithm to manifolds or to find an underlying structure, but a full generalization has remained elusive. In this work a new approach is presented that leverages the special structure of the manifolds which are relevant for optimization of neural networks, such as the Stiefel manifold, the symplectic Stiefel manifold, the Grassmann manifold and the symplectic Grassmann manifold: all of these are homogeneous spaces and as such admit a global tangent space representation. This global tangent space representation is used to perform all of the steps in the Adam optimizer. The resulting algorithm is then applied to train a transformer for which orthogonality constraints are enforced up to machine precision and we observe significant speed-ups in the training process. Optimization of neural networks where they weights do not lie on a manifold is identified as a special case of the presented framkework. This allows for a flexible implementation in which the learning rate is adapted simultaneously for all parameters, irrespective of whether they are an element of a general manifold or a vector space.
翻訳日:2023-12-21 02:17:01 公開日:2023-12-19
# NISQと量子インスピレーションドコンピューティングのコラテラル最適化へのアプローチ

Approaching Collateral Optimization for NISQ and Quantum-Inspired Computing ( http://arxiv.org/abs/2305.16395v2 )

ライセンス: Link先を確認
Megan Giron and Georgios Korpas and Waqas Parvaiz and Prashant Malik and Johannes Aspman(参考訳) 担保最適化(Collateral optimization)とは、債務や担保取引を充足するための金融資産の体系的な配分であり、同時にコストを最小化し、利用可能な資源の使用を最適化する。 { これは、所定の取引又は取引の集合から生じる露出をカバーするために投じられる最適の担保量を確認するために、資金のコストや基礎資産の品質などの特徴の数を評価することを含む。 共通の目的の1つは、特定の取引又は取引のポートフォリオに関連するリスクを軽減するために必要な担保コストを最小化し、関連する当事者の十分な保護を確保することである。 多くの場合、これは大規模な組合せ最適化問題をもたらす。 本研究では、まず、並列最適化問題に対するMILP(Mixed Integer Linear Programming)の定式化と、ハイブリッド量子およびNISQ-ready方式でこの問題にアプローチする道を開くための2次非制約バイナリ最適化(QUBO)の定式化について述べる。 様々なソフトウェア開発キット (SDK) を用いて局所的な小規模テストを行い, 定式化の挙動と性能向上の可能性について議論する。 さらに, 並列最適化に適した組合せ最適化問題に対して, 代替手法を提案する最近の文献を調査する。

Collateral optimization refers to the systematic allocation of financial assets to satisfy obligations or secure transactions, while simultaneously minimizing costs and optimizing the usage of available resources. {This involves assessing number of characteristics, such as cost of funding and quality of the underlying assets to ascertain the optimal collateral quantity to be posted to cover exposure arising from a given transaction or a set of transactions. One of the common objectives is to minimise the cost of collateral required to mitigate the risk associated with a particular transaction or a portfolio of transactions while ensuring sufficient protection for the involved parties}. Often, this results in a large-scale combinatorial optimization problem. In this study, we initially present a Mixed Integer Linear Programming (MILP) formulation for the collateral optimization problem, followed by a Quadratic Unconstrained Binary optimization (QUBO) formulation in order to pave the way towards approaching the problem in a hybrid-quantum and NISQ-ready way. We conduct local computational small-scale tests using various Software Development Kits (SDKs) and discuss the behavior of our formulations as well as the potential for performance enhancements. We further survey the recent literature that proposes alternative ways to attack combinatorial optimization problems suitable for collateral optimization.
翻訳日:2023-12-21 02:16:38 公開日:2023-12-19
# 確率的指数積分器

Probabilistic Exponential Integrators ( http://arxiv.org/abs/2305.14978v2 )

ライセンス: Link先を確認
Nathanael Bosch, Philipp Hennig, Filip Tronarp(参考訳) 確率的解法は、力学系におけるシミュレーション、不確実性定量化、推論のための柔軟で効率的なフレームワークを提供する。 しかし、標準解法と同様に、数値精度のためではなく安定性のために小さなステップが必要となる特定の剛性系で性能上のペナルティを被る。 本稿では,確率指数積分器による半線形問題において,この問題を大幅に緩和する。 先行する高速線形ダイナミクスを組み込むことで、望ましい性質を持つ確率的積分器のクラスに到達する。 すなわち、それらはL安定であることが証明され、ある場合には古典的な指数積分器に還元され、数値誤差の確率的説明を与える利点が加わった。 この方法は、前回の推定でベクトル場のヤコビアンを通して、前者の半線型性を補足することで任意の非線形系に一般化され、確率的指数的ローゼンブロック法がもたらされる。 本研究では,複数の微分方程式に対する提案手法の評価を行い,確率的解法よりも安定性と効率が向上したことを示す。 この貢献により、確率的数値の中で効果的に取り組める問題の範囲が拡大される。

Probabilistic solvers provide a flexible and efficient framework for simulation, uncertainty quantification, and inference in dynamical systems. However, like standard solvers, they suffer performance penalties for certain stiff systems, where small steps are required not for reasons of numerical accuracy but for the sake of stability. This issue is greatly alleviated in semi-linear problems by the probabilistic exponential integrators developed in this paper. By including the fast, linear dynamics in the prior, we arrive at a class of probabilistic integrators with favorable properties. Namely, they are proven to be L-stable, and in a certain case reduce to a classic exponential integrator -- with the added benefit of providing a probabilistic account of the numerical error. The method is also generalized to arbitrary non-linear systems by imposing piece-wise semi-linearity on the prior via Jacobians of the vector field at the previous estimates, resulting in probabilistic exponential Rosenbrock methods. We evaluate the proposed methods on multiple stiff differential equations and demonstrate their improved stability and efficiency over established probabilistic solvers. The present contribution thus expands the range of problems that can be effectively tackled within probabilistic numerics.
翻訳日:2023-12-21 02:16:15 公開日:2023-12-19
# 頑健な多段階質問応答のための潜在回答を用いた問合せ連鎖訓練

Chain-of-Questions Training with Latent Answers for Robust Multistep Question Answering ( http://arxiv.org/abs/2305.14901v2 )

ライセンス: Link先を確認
Wang Zhu, Jesse Thomason, Robin Jia(参考訳) 我々は言語モデル(LM)を訓練し、サブクエストの生成と回答によって多段階の質問に頑健に答える。 本稿では,人間に注釈付き質問分解意味表現(qdmr)を活用し,質問と回答を同時生成するモデルを学習する枠組みであるchain-of-questionsを提案する。 重要な技術的課題は、QDMRはサブクエストのみを含むが、これらのサブクエストに応答しないため、サブアンサーを潜在変数として扱い、Hard-EMとMAPOの新しい動的混合を用いてそれらを最適化する。 DROPコントラストセットでは9.0F1,HOTPOTQA対向セットでは24.3F1でGPT-3.5より優れた9.0F1,強いニューロシンボリックメソッドでは高い性能を示し,本フレームワークの有効性とロバスト性を示す。

We train a language model (LM) to robustly answer multistep questions by generating and answering sub-questions. We propose Chain-of-Questions, a framework that trains a model to generate sub-questions and sub-answers one at a time by leveraging human annotated question decomposition meaning representation (QDMR). The key technical challenge is that QDMR only contains sub-questions but not answers to those sub-questions, so we treat sub-answers as latent variables and optimize them using a novel dynamic mixture of Hard-EM and MAPO. Chain-of-Questions greatly outperforms strong neuro-symbolic methods by 9.0 F1 on DROP contrast set, and outperforms GPT-3.5 by 24.3 F1 on HOTPOTQA adversarial set, thus demonstrating the effectiveness and robustness of our framework.
翻訳日:2023-12-21 02:15:55 公開日:2023-12-19
# 量子ジュンタチャネルのテストと学習について

On Testing and Learning Quantum Junta Channels ( http://arxiv.org/abs/2305.12097v4 )

ライセンス: Link先を確認
Zongbo Bao and Penghui Yao(参考訳) 我々は、$n$-qubitから$n$-qubitの量子チャネルである$n$-juntaチャネルのテストと学習の問題を、$n$-qubitsの少なくとも$k$で非自明に作用し、残りの量子ビットは変わらないと考える。 以下に示す。 1. $o\left(k\right)$-queryアルゴリズムは、与えられたチャンネルが$k$-juntaチャンネルか、あるいは$k$-juntaチャネルから遠く、下限の$\omega\left(\sqrt{k}\right)$をクエリ数で区別する; 2.$\widetilde{o}\left(4^k\right)$-queryアルゴリズムは$k$-juntaチャンネルを学習し、下限の$\omega\left(4^k/k\right)$はクエリ数で学習する。 これにより、最初のジャンタチャネルのテストと学習結果が得られ、Chenらによって提起されたオープンな問題に部分的に答える(2023年)。 これらの問題を解決するため、超作用素空間上のフーリエ解析フレームワークを開発し、モンタナロとオズボーンで導入された作用素の空間上でフーリエ解析を拡張するいくつかの基本的な性質を証明した(2010年)。 さらに、Atici and Servedio (2007) で提案された $\textit{Fourier-Sample}$ を置き換えるために $\textit{Influence-Sample}$ を導入する。 我々の$\textit{Influence-Sample}$はシングルキュービット演算のみを含み、結果として効率が一定に低下する。

We consider the problems of testing and learning quantum $k$-junta channels, which are $n$-qubit to $n$-qubit quantum channels acting non-trivially on at most $k$ out of $n$ qubits and leaving the rest of qubits unchanged. We show the following. 1. An $O\left(k\right)$-query algorithm to distinguish whether the given channel is $k$-junta channel or is far from any $k$-junta channels, and a lower bound $\Omega\left(\sqrt{k}\right)$ on the number of queries; 2. An $\widetilde{O}\left(4^k\right)$-query algorithm to learn a $k$-junta channel, and a lower bound $\Omega\left(4^k/k\right)$ on the number of queries. This gives the first junta channel testing and learning results, and partially answers an open problem raised by Chen et al. (2023). In order to settle these problems, we develop a Fourier analysis framework over the space of superoperators and prove several fundamental properties, which extends the Fourier analysis over the space of operators introduced in Montanaro and Osborne (2010). Besides, we introduce $\textit{Influence-Sample}$ to replace $\textit{Fourier-Sample}$ proposed in Atici and Servedio (2007). Our $\textit{Influence-Sample}$ includes only single-qubit operations and results in only constant-factor decrease in efficiency.
翻訳日:2023-12-21 02:15:35 公開日:2023-12-19
# 芸術訓練データなしのアートスタイルを創り出す

Inventing art styles with no artistic training data ( http://arxiv.org/abs/2305.12015v2 )

ライセンス: Link先を確認
Nilin Abrahamsen, Jiahao Yao(参考訳) 自然画像のみに基づいて訓練されたモデルを用いて絵画スタイルを作成するための2つの手法を提案する。 第1の手順では,芸術媒体からの帰納バイアスを用いて創造的な表現を実現する。 抽象化は再構築損失を用いて達成される。 第2の手順では、新たなスタイルを作成するために、追加の自然イメージをインスピレーションとして使用する。 これら2つの手順により、芸術的な訓練データなしで新しい絵画様式を創出することができる。 われわれのアプローチは、人間の創造者の独創性を侵害することなく、芸術における生成AIの倫理的雇用の道を開くのに役立つと信じている。

We propose two procedures to create painting styles using models trained only on natural images, providing objective proof that the model is not plagiarizing human art styles. In the first procedure we use the inductive bias from the artistic medium to achieve creative expression. Abstraction is achieved by using a reconstruction loss. The second procedure uses an additional natural image as inspiration to create a new style. These two procedures make it possible to invent new painting styles with no artistic training data. We believe that our approach can help pave the way for the ethical employment of generative AI in art, without infringing upon the originality of human creators.
翻訳日:2023-12-21 02:14:56 公開日:2023-12-19
# 循環システム工学

Circular Systems Engineering ( http://arxiv.org/abs/2306.17808v2 )

ライセンス: Link先を確認
Istvan David, Dominik Bork, Gerti Kappel(参考訳) 現代の技術者システムの価値と妥当性の認識は変化している。 機能的・機能的特性に加えて、現在のシステムもサステナビリティ特性によって評価されている。 次世代のシステムの特徴は、そのポストライフを含む全体的な持続可能性の向上であり、効率的な価値保持メカニズムによって駆動される。 現在のシステムエンジニアリングプラクティスは、これらの野心をサポートするには足りず、適切に修正する必要がある。 本稿では,システムサステナビリティの新たなパラダイムである循環システム工学の概念を導入し,それを実現するための2つの原則,すなわちエンドツーエンドサステナビリティと両パートサステナビリティを定義する。 循環原理の実装と導入につながる典型的な組織進化パターンを概説し、重要な課題と研究の機会を概説する。

The perception of the value and propriety of modern engineered systems is changing. In addition to their functional and extra-functional properties, nowadays' systems are also evaluated by their sustainability properties. The next generation of systems will be characterized by an overall elevated sustainability -- including their post-life, driven by efficient value retention mechanisms. Current systems engineering practices fall short of supporting these ambitions and need to be revised appropriately. In this paper, we introduce the concept of circular systems engineering, a novel paradigm for systems sustainability, and define two principles to successfully implement it: end-to-end sustainability and bipartite sustainability. We outline typical organizational evolution patterns that lead to the implementation and adoption of circularity principles, and outline key challenges and research opportunities.
翻訳日:2023-12-21 00:33:02 公開日:2023-12-19
# 信頼できる3dシーン知覚のためのプログレッシブ・マルチステップ容積確率学習

One at a Time: Progressive Multi-step Volumetric Probability Learning for Reliable 3D Scene Perception ( http://arxiv.org/abs/2306.12681v3 )

ライセンス: Link先を確認
Bohan Li, Yasheng Sun, Jingxin Dong, Zheng Zhu, Jinming Liu, Xin Jin, Wenjun Zeng(参考訳) マルチビューステレオ(MVS)やセマンティック・シーン・コンプリート(SSC)といったシーン認識タスクにおいて,信頼性の高い3次元ボリューム表現が果たす重要な役割について多くの研究がなされている。 通常は3d確率ボリュームを幾何学的対応で直接構築し、1回のフォワードパスでシーン知覚タスクを完全に取り組もうとする。 しかし、このような単一ステップの解法では、特に予期せぬ閉塞や複雑な光反射といった困難な領域において、正確で説得力のある体積確率を学ぶことが困難になる。 そこで本稿では,複雑な3次元容積表現学習を生成段階の系列に分解し,高精細かつ信頼性の高いシーン知覚を実現する。 強い生成拡散モデルにより達成された最近の進歩を踏まえ,拡散過程における容積確率の漸進的改善を目的とした,VPDと呼ばれる多段階学習フレームワークを導入する。 多視点ステレオ(mvs)やセマンティクスシーン補完(ssc)を含むシーン知覚タスクに関する広範な実験を行い,信頼性の高いボリューム表現の学習における本手法の有効性を検証した。 注目すべきなのは、sscタスクでは、semantickittiデータセット上のlidarベースのメソッドを初めて越えた成果です。

Numerous studies have investigated the pivotal role of reliable 3D volume representation in scene perception tasks, such as multi-view stereo (MVS) and semantic scene completion (SSC). They typically construct 3D probability volumes directly with geometric correspondence, attempting to fully address the scene perception tasks in a single forward pass. However, such a single-step solution makes it hard to learn accurate and convincing volumetric probability, especially in challenging regions like unexpected occlusions and complicated light reflections. Therefore, this paper proposes to decompose the complicated 3D volume representation learning into a sequence of generative steps to facilitate fine and reliable scene perception. Considering the recent advances achieved by strong generative diffusion models, we introduce a multi-step learning framework, dubbed as VPD, dedicated to progressively refining the Volumetric Probability in a Diffusion process. Extensive experiments are conducted on scene perception tasks including multi-view stereo (MVS) and semantic scene completion (SSC), to validate the efficacy of our method in learning reliable volumetric representations. Notably, for the SSC task, our work stands out as the first to surpass LiDAR-based methods on the SemanticKITTI dataset.
翻訳日:2023-12-21 00:31:42 公開日:2023-12-19
# 詩の融合 : 詩生成における意味的・韻律的操作の融合に向けて

PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in Poetry Generation ( http://arxiv.org/abs/2306.08456v3 )

ライセンス: Link先を確認
Zhiyuan Hu, Chumin Liu, Yue Feng, Anh Tuan Luu, Bryan Hooi(参考訳) 制御可能なテキスト生成は自然言語生成(NLG)において困難で意味のある分野である。 特に詩の生成はテキスト生成の条件が明確で厳密な典型的なものであり、現在の方法論を評価するのに理想的な場である。 以前の作品では詩生成の意味論的側面や計量的側面を制御できたが、同時に両者に対処することは困難である。 本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩を用いて,このような課題に対処する。 セマンティクスの観点からは,拡散モデルに基づいて構築された詩拡散モデルが文情報全体を包括的に考慮して文全体や詩を生成する。 このアプローチは意味表現を強化し、自己回帰型および大規模言語モデル(LLM)と区別する。 メトリクス制御のために、拡散生成とその制約制御モジュールの分離特徴により、新しいメトリックコントローラを柔軟に組み込んでメトリクス(フォーマットとリズム)を操作し評価することができる。 poetrydiffusionでは、意味論の段階的な拡張と、ターゲットの制御分布から著しく離れている状態に対してペナルティを計算し課すことができるメトリックコントローラの柔軟な統合を可能にする。 2つのデータセットに対する実験結果から,本モデルが既存のモデルより優れており,セマンティクス,計量,総合的な性能と人的評価が自動評価されることがわかった。

Controllable text generation is a challenging and meaningful field in natural language generation (NLG). Especially, poetry generation is a typical one with well-defined and strict conditions for text generation which is an ideal playground for the assessment of current methodologies. While prior works succeeded in controlling either semantic or metrical aspects of poetry generation, simultaneously addressing both remains a challenge. In this paper, we pioneer the use of the Diffusion model for generating sonnets and Chinese SongCi poetry to tackle such challenges. In terms of semantics, our PoetryDiffusion model, built upon the Diffusion model, generates entire sentences or poetry by comprehensively considering the entirety of sentence information. This approach enhances semantic expression, distinguishing it from autoregressive and large language models (LLMs). For metrical control, the separation feature of diffusion generation and its constraint control module enable us to flexibly incorporate a novel metrical controller to manipulate and evaluate metrics (format and rhythm). The denoising process in PoetryDiffusion allows for gradual enhancement of semantics and flexible integration of the metrical controller which can calculate and impose penalties on states that stray significantly from the target control distribution. Experimental results on two datasets demonstrate that our model outperforms existing models in automatic evaluation of semantic, metrical, and overall performance as well as human evaluation.
翻訳日:2023-12-21 00:30:57 公開日:2023-12-19
# Image Captionersはスケーラブルな視覚学習ツール

Image Captioners Are Scalable Vision Learners Too ( http://arxiv.org/abs/2306.07915v4 )

ライセンス: Link先を確認
Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer(参考訳) webからのイメージテキストペアでのコントラストプリトレーニングは、ビジョンバックボーン、特に大規模マルチモーダルモデルのコンテキストにおいて、最も一般的な大規模プリトレーニング戦略の1つです。 同時に、この種のデータに対する画像キャプションは、一般的に、劣等な事前訓練戦略とみなされる。 本稿では,この2つの事前学習戦略を公正に比較し,学習データ,計算量,モデル容量を慎重にマッチングする。 分類タスクにおいて、キャプションは、視覚と言語タスクでそれらを上回りながら、コントラスト的に事前学習されたエンコーダと競合する視覚エンコーダを生成します。 さらに,モデルアーキテクチャとスケール,および事前学習データが表現品質に与える影響を解析し,これらの軸に沿ってキャプションが同等かそれ以上のスケーリング行動を示すことを見出した。 その結果,画像の字幕化は従来考えられていたよりも強力な事前学習戦略であることが示唆された。

Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is commonly considered an inferior pretraining strategy. In this paper, we perform a fair comparison of these two pretraining strategies, carefully matching training data, compute, and model capacity. Using a standard encoder-decoder transformer, we find that captioning alone is surprisingly effective: on classification tasks, captioning produces vision encoders competitive with contrastively pretrained encoders, while surpassing them on vision & language tasks. We further analyze the effect of the model architecture and scale, as well as the pretraining data on the representation quality, and find that captioning exhibits the same or better scaling behavior along these axes. Overall our results show that plain image captioning is a more powerful pretraining strategy than was previously believed.
翻訳日:2023-12-21 00:30:21 公開日:2023-12-19
# 圧縮センシングによる量子位相推定

Quantum Phase Estimation by Compressed Sensing ( http://arxiv.org/abs/2306.07008v3 )

ライセンス: Link先を確認
Changhao Yi, Cunlu Zhou, and Jun Takahashi(参考訳) 信号回復アルゴリズムとして、圧縮センシングは、データが低複雑さでサンプルが稀な場合に特に有用であり、量子位相推定(QPE)のタスクと完全に一致する。 本研究では,圧縮センシングに基づく初期量子コンピュータのためのハイゼンベルク限定QPEアルゴリズムを提案する。 より具体的には、適切な初期状態のコピーといくつかのユニタリ演算子へのクエリが多数ある場合、アルゴリズムは全実行時$\mathcal{o}(\epsilon^{-1}\text{poly}\log(\epsilon^{-1}))$で周波数を回復することができ、ここで$\epsilon$が精度である。 さらに、最大実行時間は、最先端のアルゴリズムに匹敵する$T_{\max}\epsilon \ll \pi$を満足する。 また、より一般的な量子固有値推定問題(QEEP)を考察し、オフグリッド圧縮センシングがQEEPの解決の有力な候補であることを示す。

As a signal recovery algorithm, compressed sensing is particularly useful when the data has low-complexity and samples are rare, which matches perfectly with the task of quantum phase estimation (QPE). In this work we present a new Heisenberg-limited QPE algorithm for early quantum computers based on compressed sensing. More specifically, given many copies of a proper initial state and queries to some unitary operators, our algorithm is able to recover the frequency with a total runtime $\mathcal{O}(\epsilon^{-1}\text{poly}\log(\epsilon^{-1}))$, where $\epsilon$ is the accuracy. Moreover, the maximal runtime satisfies $T_{\max}\epsilon \ll \pi$, which is comparable to the state of art algorithms, and our algorithm is also robust against certain amount of noise from sampling. We also consider the more general quantum eigenvalue estimation problem (QEEP) and show numerically that the off-grid compressed sensing can be a strong candidate for solving the QEEP.
翻訳日:2023-12-21 00:29:48 公開日:2023-12-19
# HypLL: 双曲学習ライブラリ

HypLL: The Hyperbolic Learning Library ( http://arxiv.org/abs/2306.06154v3 )

ライセンス: Link先を確認
Max van Spengler, Philipp Wirth, Pascal Mettes(参考訳) 双曲空間におけるディープラーニングは、機械学習、マルチメディア、コンピュータビジョンの分野で急速に勢いを増している。 深層ネットワークは一般にユークリッド空間で動作し、データが正規格子上にあることを暗黙的に仮定する。 近年の進歩は、特にデータが階層的であり、埋め込み次元がほとんどない場合に、双曲幾何学がディープラーニングに有効な代替基盤を提供することを示している。 しかし、よく知られたディープラーニングライブラリと同様、ハイパーボリックネットワークモジュールを構築するためにアクセス可能なオープンソースライブラリは存在しない。 我々は,双曲学習ライブラリHypLLを紹介し,双曲深層学習の進歩を両立させる。 hypllはpytorch上に構築されており、この新しくてオープンな研究の方向性に広く観客を引き付けるために、使いやすさを重視している。 コードはhttps://github.com/maxvanspengler/hyperbolic_learning_libraryで入手できる。

Deep learning in hyperbolic space is quickly gaining traction in the fields of machine learning, multimedia, and computer vision. Deep networks commonly operate in Euclidean space, implicitly assuming that data lies on regular grids. Recent advances have shown that hyperbolic geometry provides a viable alternative foundation for deep learning, especially when data is hierarchical in nature and when working with few embedding dimensions. Currently however, no accessible open-source library exists to build hyperbolic network modules akin to well-known deep learning libraries. We present HypLL, the Hyperbolic Learning Library to bring the progress on hyperbolic deep learning together. HypLL is built on top of PyTorch, with an emphasis in its design for ease-of-use, in order to attract a broad audience towards this new and open-ended research direction. The code is available at: https://github.com/maxvanspengler/hyperbolic_learning_library.
翻訳日:2023-12-21 00:29:27 公開日:2023-12-19
# インジェクティブフローのアーキテクチャ上の制約の引き上げ

Lifting Architectural Constraints of Injective Flows ( http://arxiv.org/abs/2306.01843v3 )

ライセンス: Link先を確認
Peter Sorrenson, Felix Draxler, Armand Rousselot, Sander Hummerich, Lea Zimmermann and Ullrich K\"othe(参考訳) 正規化フローはトレーニングデータに対して全次元の確率を明示的に最大化する。 しかし、実際のデータは一般に低次元多様体上でのみサポートされ、モデルがモデリングノイズに大きな計算を出力する。 単射フローは、多様体とその上の分布を共同で学習することでこれを解決する。 これまでのところ、制限的なアーキテクチャや高い計算コストによって制限されている。 我々は、自由形式のボトルネックアーキテクチャと互換性のある最大可能性損失を推定する新しい効率的な推定器により、両方の制約を引き上げる。 さらに,データ多様体と分布の両方をナイーブに学習することで,分散解を導き出すことができ,この知見を活かして,最大確率トレーニング目標の安定化に寄与することを示した。 我々は,玩具,表,画像データについて広範な実験を行い,その結果の競争性能を実証した。

Normalizing Flows explicitly maximize a full-dimensional likelihood on the training data. However, real data is typically only supported on a lower-dimensional manifold leading the model to expend significant compute on modeling noise. Injective Flows fix this by jointly learning a manifold and the distribution on it. So far, they have been limited by restrictive architectures and/or high computational cost. We lift both constraints by a new efficient estimator for the maximum likelihood loss, compatible with free-form bottleneck architectures. We further show that naively learning both the data manifold and the distribution on it can lead to divergent solutions, and use this insight to motivate a stable maximum likelihood training objective. We perform extensive experiments on toy, tabular and image data, demonstrating the competitive performance of the resulting model.
翻訳日:2023-12-21 00:28:21 公開日:2023-12-19
# 無限範囲多体フロケスピン系における特異可解ダイナミクスと可積分性のシグネチャ

Exactly solvable dynamics and signatures of integrability in an infinite-range many-body Floquet spin system ( http://arxiv.org/abs/2307.14122v2 )

ライセンス: Link先を確認
Harshit Sharma, Udaysinh T. Bhosale(参考訳) n$ qubits は無限範囲イジング相互作用を持ち,外部磁場の周期パルスを受ける。 解析的に N=5$ から 11$ qubits のケースを解き、固有系、様々な初期状態の絡み合いのダイナミクス、およびユニタリ進化作用素を求める。 これらの量は量子可積分性のシグネチャを示す。 一般の場合、$N>11$ qubitsの場合、縮退スペクトルのような数値的なエビデンスと時間発展ユニタリ進化作用素の正確な周期的性質と絡み合い力学に基づく量子可積分性に関する予想を提供する。 線形エントロピーを用いて初期エンタングル状態のクラスに対して、エンタングルメントは周期的に最大かつゼロの値を示す。

We study $N$ qubits having infinite-range Ising interaction and subjected to periodic pulse of external magnetic field. We solve the cases of $N=5$ to $11$ qubits analytically, finding its eigensystem, the dynamics of the entanglement for various initial states, and the unitary evolution operator. These quantities shows signatures of quantum integrability. For the general case of $N>11$ qubits, we provide a conjecture on quantum integrability based on the numerical evidences like degenerate spectrum, and the exact periodic nature of the time-evolved unitary evolution operator and the entanglement dynamics. Using linear entropy we show that for class of initial unentangled state the entanglement displays periodically maximum and zero values.
翻訳日:2023-12-21 00:09:55 公開日:2023-12-19
# 単純グラフに対する最大傾きの最大数を計算する

Calculating the maximum number of maximum cliques for simple graphs ( http://arxiv.org/abs/2307.14120v4 )

ライセンス: Link先を確認
D\'aniel Pfeifer(参考訳) n$頂点上の単純なグラフは、多くの最大傾きを含むことができる。 しかし、その数はどれくらいあるのか? 素グラフと合成グラフを定義して、$n \ge 15$ ならば、最大クリムの最大数のグラーパは合成されなければならないことを示す。 さらに、合成グラフの任意の因子が $\omega(G_i) \ge 5$ を持つならば、最大クリッド数の最大値が得られないことを証明するエッジ境界を示す。 これを用いて、$3^{\lfloor n/3 \rfloor}c$maxum cliques を含むグラフは、$n$ vertices 上で最も多くの最大cliques を持ち、$c\in\{1,\frac{4}{3},2\}$ は$n \text{ mod } 3$ に依存する。

A simple graph on $n$ vertices may contain a lot of maximum cliques. But how many can it potentially contain? We will define prime and composite graphs, and we will show that if $n \ge 15$, then the grpahs with the maximum number of maximum cliques have to be composite. Moreover, we will show an edge bound from which we will prove that if any factor of a composite graph has $\omega(G_i) \ge 5$, then it cannot have the maximum number of maximum cliques. Using this we will show that the graph that contains $3^{\lfloor n/3 \rfloor}c$ maximum cliques has the most number of maximum cliques on $n$ vertices, where $c\in\{1,\frac{4}{3},2\}$, depending on $n \text{ mod } 3$.
翻訳日:2023-12-21 00:09:37 公開日:2023-12-19
# デコヒーレント歴史のエントロピーによる量子カオスの探索

Probing quantum chaos with the entropy of decoherent histories ( http://arxiv.org/abs/2307.10269v2 )

ライセンス: Link先を確認
Evgeny Polyakov, Nataliya Arefyeva(参考訳) 量子カオス(quantum chaos)は、前世紀に研究され始めた現象だが、いまだに厳密な理解を持っていない。 対応原理により、古典的なレベルでカオス力学をもたらす系の性質は、基礎となる量子系にも存在しなければならない。 古典的な場合、近傍の軌道の時間における指数的発散は、リアプノフ指数を用いて記述される。 しかし、量子の場合、カオスの同様の記述は、厳密に言えば、軌道がないため不可能である。 この状況を改善するには異なるアプローチがあるが、量子カオスの普遍的基準は欠落している。 量子カオス定義は, 軌道の量子アナログとしてデコヒーレント・ヒストリーを用いた古典的カオス定義と類似している。 この目的のために,開量子キックトップのモデルとボソニック浴場である環境との相互作用を考察し,その考え方を説明する。 ここでは、環境が軌道記録装置の役割を担う。 古典レベルでのキックトップモデルの場合、キック強度によっては、積分可能な状態とカオス的な状態の間でクロスオーバーが起こる。 このようなモデルでは、非コヒーレントな歴史のエントロピーの生成は、積分可能かつカオス的な状態において根本的に異なることを示す。 したがって、量子軌道のアンサンブルのエントロピーは量子カオスのシグネチャとして使うことができる。

Quantum chaos, a phenomenon that began to be studied in the last century, still does not have a rigorous understanding. By virtue of the correspondence principle, the properties of the system that lead to chaotic dynamics at the classical level must also be present in the underlying quantum system. In the classical case, the exponential divergence of nearby trajectories in time is described in terms of the Lyapunov exponent. However, in the quantum case, a similar description of chaos is, strictly speaking, impossible due to absence of trajectories. There are different approaches to remedy this situation, but the universal criterion of quantum chaos is absent. We propose the quantum chaos definition in the manner similar to the classical one using decoherent histories as a quantum analogue of trajectories. For this purpose, we consider the model of an open quantum kicked top interacting with the environment, which is a bosonic bath, and illustrate this idea. Here, the environment plays the role of a trajectory recording device. For the kicked top model at the classical level, depending on the kick strength, crossover occurs between the integrable and chaotic regimes. We show that for such a model, the production of entropy of decoherent histories is radically different in integrable and chaotic regimes. Thus, the entropy of an ensemble of quantum trajectories can be used as a signature of quantum chaos.
翻訳日:2023-12-21 00:09:20 公開日:2023-12-19
# 変圧器外挿探究

Exploring Transformer Extrapolation ( http://arxiv.org/abs/2307.10156v2 )

ライセンス: Link先を確認
Zhen Qin, Yiran Zhong, Hui Deng(参考訳) 長尺外挿は、トレーニングで使用されるものよりも長いシーケンスでトランスフォーマーをテストできるため、近年注目されている。 従来の研究によれば、この特性はRPE(Relative Positional Encodings)として慎重に設計されている。 これらの方法は様々なコーパスでよく機能するが、長さ外挿条件はまだ検討されていない。 本稿では, 数学的および経験的解析により, 長さ外挿が可能なRPEの種類を決定することを試みる。 変換器は RPE の指数収束に対応する級数さえあれば、この性質を持つことは確実である。 2つのプラクティスは条件から導き出され、様々なコーパスの言語モデリングタスクで検討されている。 条件からのボーナスとして、rpesの受容場を測定するための新しい理論受容場(trf)を、トレーニングステップを踏まずに導出する。 Wikitext-103, Books, Github, WikiBookのデータセットを用いて, 発見された条件の生存可能性を示す実験を行った。 また、TRFとERF(Empirical Receptive Field)を異なるモデルで比較し、上記のデータセット上で一貫して一致する傾向を示す。 コードはhttps://github.com/opennlplab/rpeで入手できる。

Length extrapolation has attracted considerable attention recently since it allows transformers to be tested on longer sequences than those used in training. Previous research has shown that this property can be attained by using carefully designed Relative Positional Encodings (RPEs). While these methods perform well on a variety of corpora, the conditions for length extrapolation have yet to be investigated. This paper attempts to determine what types of RPEs allow for length extrapolation through a thorough mathematical and empirical analysis. We discover that a transformer is certain to possess this property as long as the series that corresponds to the RPE's exponential converges. Two practices are derived from the conditions and examined in language modeling tasks on a variety of corpora. As a bonus from the conditions, we derive a new Theoretical Receptive Field (TRF) to measure the receptive field of RPEs without taking any training steps. Extensive experiments are conducted on the Wikitext-103, Books, Github, and WikiBook datasets to demonstrate the viability of our discovered conditions. We also compare TRF to Empirical Receptive Field (ERF) across different models, showing consistently matched trends on the aforementioned datasets. The code is available at https://github.com/OpenNLPLab/Rpe.
翻訳日:2023-12-21 00:09:01 公開日:2023-12-19
# 超微細パスチェンバックレジームにおける電磁誘導透過性と光励起

Electromagnetically Induced Transparency and Optical Pumping in the Hyperfine Paschen-Back Regime ( http://arxiv.org/abs/2307.08545v2 )

ライセンス: Link先を確認
Roberto Mottola, Gianni Buser, Philipp Treutlein(参考訳) 電磁誘導透過(eit)および光ポンピング条件下での高磁場中におけるルビジウム蒸気の分光実験について報告する。 1.1tの静磁場は核と電子のスピンを分離し、ゼーマン効果を介して各磁気状態をシフトさせ、ドップラー幅の広い媒体でd$_2$線の個々の光学遷移を解消する。 スペクトル分離された$\lambda$システムの片脚を駆動する制御レーザーパワーを変化させることで、eitレジームからオートラータウンスラインの分割条件に蒸気をチューニングする。 得られたスペクトルは、エネルギー構造を効果的に単純化した単純な3レベルモデルに適合する。 さらに、核スピン-forbidden遷移における光ポンピングによる状態形成の可否を定量化する。 このシステムの ‘cleanliness' は、熱蒸気における量子制御の能力を大幅に向上させ、光に対する原子量子メモリのような刺激的な光-物質相互作用プロセスに悩まされる幅広い量子アプリケーションに利点をもたらすと結論付けている。

We report spectroscopy experiments of rubidium vapor in a high magnetic field under conditions of electromagnetically induced transparency (EIT) and optical pumping. The 1.1 T static magnetic field decouples nuclear and electronic spins and shifts each magnetic state via the Zeeman effect, allowing us to resolve individual optical transitions of the D$_2$ line in a Doppler-broadened medium. By varying the control laser power driving one leg of a spectrally isolated $\Lambda$ system we tune the vapor from the EIT regime to conditions of Autler-Townes line splitting. The resulting spectra conform to simple three-level models demonstrating the effective simplification of the energetic structure. Further, we quantify the viability of state preparation via optical pumping on nuclear spin-forbidden transitions. We conclude that the ``cleanliness'' of this system greatly enhances the capabilities of quantum control in hot vapor, offering advantages in a broad variety of quantum applications plagued by spurious light-matter interaction processes, such as atomic quantum memories for light.
翻訳日:2023-12-21 00:08:18 公開日:2023-12-19
# マイクロファブリック化ルビジウム蒸気セルにおける光メモリ

Optical Memory in a Microfabricated Rubidium Vapor Cell ( http://arxiv.org/abs/2307.08538v2 )

ライセンス: Link先を確認
Roberto Mottola, Gianni Buser, Philipp Treutlein(参考訳) スケーラビリティは、マイクロファブリケーション技術によって対処できる現在の量子ネットワーク実装のコンポーネントにとって、中心的なプラットフォーム課題である。 ウェハスケール製造に適合する微細な気相セルに温アルカリ原子アンサンブルを用いた高帯域光メモリを試作した。 外部のテラオーダー磁場を適用することで、ドップラー拡散媒体で個々の光遷移を処理できる超微細パスチェンバック系において、新しい基底状態量子メモリ方式を探索する。 決定論的量子ドット単一光子源が利用できる$^{87}$Rb D$_2$ラインで作業し、そのようなソースを念頭に置いて数百メガヘルツの広帯域光パルスで帯域幅マッチングを実演する。 80 ns のストレージ時間に対して、$\eta_{e2e}^{\text{80ns}} = 3.12(17)\%$、$\eta_{\text{int}}^{\text{0ns}} = 24(3)\%$ という内部効率に対応して、$\eta_{e2e}^{\text{80ns}} = 3.12(17)\%$$、$\text{snr} = 7.9(8)$ の信号対雑音比を単一光子レベルのコヒーレントパルスで達成する。

Scalability presents a central platform challenge for the components of current quantum network implementations that can be addressed by microfabrication techniques. We demonstrate a high-bandwidth optical memory using a warm alkali atom ensemble in a microfabricated vapor cell compatible with wafer-scale fabrication. By applying an external tesla-order magnetic field, we explore a novel ground-state quantum memory scheme in the hyperfine Paschen-Back regime, where individual optical transitions can be addressed in a Doppler-broadened medium. Working on the $^{87}$Rb D$_2$ line, where deterministic quantum dot single-photon sources are available, we demonstrate bandwidth-matching with hundreds of megahertz broad light pulses keeping such sources in mind. For a storage time of 80 ns we measure an end-to-end efficiency of $\eta_{e2e}^{\text{80ns}} = 3.12(17)\%$, corresponding to an internal efficiency of $\eta_{\text{int}}^{\text{0ns}} = 24(3)\%$, while achieving a signal-to-noise ratio of $\text{SNR} = 7.9(8)$ with coherent pulses at the single-photon level.
翻訳日:2023-12-21 00:08:00 公開日:2023-12-19
# ソフトウェア開発のためのコミュニケーションエージェント

Communicative Agents for Software Development ( http://arxiv.org/abs/2307.07924v4 )

ライセンス: Link先を確認
Chen Qian and Xin Cong and Wei Liu and Cheng Yang and Weize Chen and Yusheng Su and Yufan Dang and Jiahao Li and Juyuan Xu and Dahai Li and Zhiyuan Liu and Maosong Sun(参考訳) ソフトウェア工学は複雑な意思決定プロセスによって特徴づけられる領域であり、しばしば微妙な直観とコンサルティングに依存している。 ディープラーニングの最近の進歩は、ソフトウェア開発のさまざまなステージで実装された精巧な設計を通じて、ソフトウェアエンジニアリングプラクティスを革新し始めている。 本稿では,ソフトウェア開発プロセス全体を通じて大規模言語モデル(LLM)を活用し,自然言語通信によるキープロセスの合理化と統一を実現し,各フェーズにおける特化モデルの必要性を解消する,革新的なパラダイムを提案する。 このパラダイムの中核であるChatDevは、確立したウォーターフォールモデルを模倣し、開発プロセスを慎重に4つの異なる時系列ステージ(設計、コーディング、テスト、ドキュメント)に分割する仮想チャットベースのソフトウェア開発会社です。 各ステージはプログラマ、コードレビュアー、テストエンジニアといった"ソフトウェアエージェント"のチームが参加し、協調的な対話を促進し、シームレスなワークフローを促進する。 チャットチェーンはファシリテーターとして働き、各ステージをアトミックなサブタスクに分解する。 これによりデュアルロールが可能になり、コンテキスト認識通信によるソリューションの提案と検証が可能になり、特定のサブタスクの効率的な解決につながる。 ChatDevのインストゥルメンタル分析は、ソフトウェア生成における顕著な効果を強調し、1ドル以下のコストで、ソフトウェア開発プロセス全体の完了を7分以内で可能にする。 潜在的な脆弱性を特定し、緩和するだけでなく、満足できる効率とコスト効率を維持しながら、潜在的な幻覚を是正する。 ChatDevのポテンシャルは、LLMをソフトウェア開発領域に統合する新たな可能性を明らかにしている。 私たちのコードはhttps://github.com/openbmb/chatdev.comで利用可能です。

Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of "software agents", such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development. Our code is available at https://github.com/OpenBMB/ChatDev.
翻訳日:2023-12-21 00:07:30 公開日:2023-12-19
# 目標指向ltlf公式による行動木の設計

Designing Behavior Trees from Goal-Oriented LTLf Formulas ( http://arxiv.org/abs/2307.06399v2 )

ライセンス: Link先を確認
Aadesh Neupane, Eric G Mercer, Michael A. Goodrich(参考訳) 時間論理は、自律エージェントの目標を正式に指定するために用いられるが、目標満足度を保証するプランナーの合成は、計算的に禁止される。 本稿では,有限トレース線形時相論理(ltl)のサブセットを動作木(bt)とし,成功トレースがltl目標を満たすことを保証する。 達成目標のための有用なltl公式は、達成指向のタスクミッション文法を用いて導き出され、ltlオペレータを使ってタスクを組み合わせることで成るミッションへと繋がる。 LTL式からBTを構築することで、広範囲のプランナーがBT内のアクションノードを実装することができる緩和された振る舞い合成問題が発生する。 重要なことに、プランナーによって誘導される任意の成功トレースは対応するTLL式を満たす。 アプローチの有用性は2つの方法で示されています。 a)2つのプランナーとltl目標の調整を検討すること,及び b)フェッチロボットのシーケンシャルキードア問題を解決すること。

Temporal logic can be used to formally specify autonomous agent goals, but synthesizing planners that guarantee goal satisfaction can be computationally prohibitive. This paper shows how to turn goals specified using a subset of finite trace Linear Temporal Logic (LTL) into a behavior tree (BT) that guarantees that successful traces satisfy the LTL goal. Useful LTL formulas for achievement goals can be derived using achievement-oriented task mission grammars, leading to missions made up of tasks combined using LTL operators. Constructing BTs from LTL formulas leads to a relaxed behavior synthesis problem in which a wide range of planners can implement the action nodes in the BT. Importantly, any successful trace induced by the planners satisfies the corresponding LTL formula. The usefulness of the approach is demonstrated in two ways: a) exploring the alignment between two planners and LTL goals, and b) solving a sequential key-door problem for a Fetch robot.
翻訳日:2023-12-21 00:07:02 公開日:2023-12-19
# 衝突による長寿命粒子のトリガリングのためのFPGAの高速ニューラルネットワーク推論

Fast Neural Network Inference on FPGAs for Triggering on Long-Lived Particles at Colliders ( http://arxiv.org/abs/2307.05152v2 )

ライセンス: Link先を確認
Andrea Coccaro, Francesco Armando Di Bello, Stefano Giagu, Lucrezia Rambelli, Nicola Stocchetti(参考訳) 実験粒子物理学は、さらなる研究のために興味の衝突を効率的に維持できる洗練されたトリガー・取得システムを必要とする。 fpgaカードの雇用に伴う異種コンピューティングはcernの大型ハドロン衝突型加速器の高輝度プログラムのトリガー戦略のトレンド技術として出現するかもしれない。 そこで本研究では,Xilinx FPGAアクセラレーションカードにおいて,中性長寿命粒子が検出ボリューム内で崩壊する事象を選択するための2つの機械学習アルゴリズムを提案する。 推論時間は、CPUとGPUベースのハードウェアセットアップにも直面する。 提案アルゴリズムは, ベンチマークのシナリオにおいて有効であることが証明され, FPGAカード上での高速化では精度が劣化しないことがわかった。 その結果、テストされたアーキテクチャはすべて、第2レベルのトリガーファームのレイテンシ要件に適合し、粒子・物理衝突のリアルタイム処理にアクセラレータ技術を活用することは、特に多くのトレーニング可能なパラメータを持つ機械学習モデルにおいて、さらなる調査に値する有望な研究分野であることが示されている。

Experimental particle physics demands a sophisticated trigger and acquisition system capable to efficiently retain the collisions of interest for further investigation. Heterogeneous computing with the employment of FPGA cards may emerge as a trending technology for the triggering strategy of the upcoming high-luminosity program of the Large Hadron Collider at CERN. In this context, we present two machine-learning algorithms for selecting events where neutral long-lived particles decay within the detector volume studying their accuracy and inference time when accelerated on commercially available Xilinx FPGA accelerator cards. The inference time is also confronted with a CPU- and GPU-based hardware setup. The proposed new algorithms are proven efficient for the considered benchmark physics scenario and their accuracy is found to not degrade when accelerated on the FPGA cards. The results indicate that all tested architectures fit within the latency requirements of a second-level trigger farm and that exploiting accelerator technologies for real-time processing of particle-physics collisions is a promising research field that deserves additional investigations, in particular with machine-learning models with a large number of trainable parameters.
翻訳日:2023-12-21 00:06:18 公開日:2023-12-19
# 乱数生成器としてのプログラム可能な量子アニーラの解析

Analysis of a Programmable Quantum Annealer as a Random Number Generator ( http://arxiv.org/abs/2307.02573v2 )

ライセンス: Link先を確認
Elijah Pelofske(参考訳) 量子アニーリング(quantum annealing, qa)は、アディアバティック量子計算の緩和形であり、プログラム可能なイジングモデルの基底状態解を探索するために量子揺らぎを用いるアナログ量子計算の一種である。 ここでは、d-wave 2000q量子アニーラによる広範囲な実験的な乱数結果を示し、200億ビット以上のqa測定を行い、これは従来のd-wave qa乱数生成器の研究よりもはるかに大きい。 現在の量子アニーラは環境からのノイズや校正誤差に影響を受けやすく、一般に偏りのないサンプリング器ではない。 したがって、ノイズ量子アニールが非バイアスQRNGとして効果的に機能できるかどうかを定量化することは興味深い。 量子アニール器から収集されたデータの量は、NIST SP 800-22 Rev 1aテストスーツとNIST SP 800-90Bのミンエントロピー推定を用いてランダムビットの包括的な分析を可能にする。 ランダムネステストは、D-Wave 2000Qから生成されたランダムビットがバイアスを受けており、予測不可能なランダムビットシーケンスではないことを示す。 サーバー側のサンプリング後処理がなく、マイクロ秒のアニーリング時間の測定値は0.824ドルであった。

Quantum annealing (QA) is a type of analog quantum computation that is a relaxed form of adiabatic quantum computation and uses quantum fluctuations in order to search for ground state solutions of a programmable Ising model. Here we present extensive experimental random number results from a D-Wave 2000Q quantum annealer, totaling over 20 billion bits of QA measurements, which is significantly larger than previous D-Wave QA random number generator studies. Current quantum annealers are susceptible to noise from environmental sources and calibration errors, and are not in general unbiased samplers. Therefore, it is of interest to quantify whether noisy quantum annealers can effectively function as an unbiased QRNG. The amount of data that was collected from the quantum annealer allows a comprehensive analysis of the random bits to be performed using the NIST SP 800-22 Rev 1a testsuite, as well as min-entropy estimates from NIST SP 800-90B. The randomness tests show that the generated random bits from the D-Wave 2000Q are biased, and not unpredictable random bit sequences. With no server-side sampling post-processing, the $1$ microsecond annealing time measurements had a min-entropy of $0.824$.
翻訳日:2023-12-21 00:05:58 公開日:2023-12-19
# 非有界量子アドバンテージを用いた簡易情報処理タスク

Simple Information Processing Tasks with Unbounded Quantum Advantage ( http://arxiv.org/abs/2308.07727v3 )

ライセンス: Link先を確認
Teiko Heinosaari, Oskari Kerppo, Leevi Lepp\"aj\"arvi and Martin Pl\'avala(参考訳) 両者間の通信シナリオは、まず物理系の物理媒体として機能する物理系の状態にメッセージをエンコードし、次にシステムの状態を計測してメッセージの復号化を行うことによって実現される。 我々は、最も単純なシナリオでは、古典的システムよりも量子システムの定値、非有界な利点を検出できることを示した。 我々は,1つのキュービットだけで実装できるが,一方では古典的実装には無制限に大きい古典的システムを必要とする操作上有意義な通信タスク群を構築することにより,これを実現する。 さらに,共有ランダム性の付加的な資源により,提案する通信タスクは,同じ大きさの量子システムと古典システムの両方で実装できるが,古典的実装に必要な協調アクションの数も無制限に増加することを示した。 特に、古典的なシステムで可能なすべての量子通信タスクを実装するために必要なすべての協調アクションを格納するために、有限ストレージは使用できない。 その結果、共有ランダム性は自由資源と見なすことはできない。

Communication scenarios between two parties can be implemented by first encoding messages into some states of a physical system which acts as the physical medium of the communication and then decoding the messages by measuring the state of the system. We show that already in the simplest possible scenarios it is possible to detect a definite, unbounded advantage of quantum systems over classical systems. We do this by constructing a family of operationally meaningful communication tasks each of which on one hand can be implemented by using just a single qubit but which on the other hand require unboundedly larger classical system for classical implementation. Furthemore, we show that even though with the additional resource of shared randomness the proposed communication tasks can be implemented by both quantum and classical systems of the same size, the number of coordinated actions needed for the classical implementation also grows unboundedly. In particular, no finite storage can be used to store all the coordinated actions needed to implement all the possible quantum communication tasks with classical systems. As a consequence, shared randomness cannot be viewed as a free resource.
翻訳日:2023-12-20 23:36:59 公開日:2023-12-19
# Color-NeuS:カラーによるニューラルインプリシト表面の再構成

Color-NeuS: Reconstructing Neural Implicit Surfaces with Color ( http://arxiv.org/abs/2308.06962v2 )

ライセンス: Link先を確認
Licheng Zhong, Lixin Yang, Kailin Li, Haoyu Zhen, Mei Han, Cewu Lu(参考訳) 多視点画像やモノクロ映像からの物体表面の再構成は、コンピュータビジョンの基本的な問題である。 しかし、最近の研究の多くは、暗黙的あるいは明示的な方法による幾何学の再構築に集中している。 本稿では,色に合わせてメッシュの再構築に焦点を移す。 我々は、リライトネットワークを介してボリュームレンダリング性能を維持しながら、ビュー依存色をニューラルボリュームレンダリングから除去する。 表面の符号付き距離関数(SDF)ネットワークからメッシュを抽出し、グローバルカラーネットワークから各表面頂点の色を描画する。 提案手法を評価するため,照明条件に多数の閉塞や劇的な変化を伴う手動物体スキャンタスクを考案した。 このタスクのためにいくつかのビデオを集めましたが、結果はメッシュをカラーで再構築できる既存の方法よりも優れています。 さらに,DTU,BlendedMVS,OmniObject3Dなどの公開データセットを用いて評価を行った。 その結果,本手法はすべてのデータセットに対して良好に動作することがわかった。 プロジェクトページ: https://colmar-zlicheng.github.io/color_neus。

The reconstruction of object surfaces from multi-view images or monocular video is a fundamental issue in computer vision. However, much of the recent research concentrates on reconstructing geometry through implicit or explicit methods. In this paper, we shift our focus towards reconstructing mesh in conjunction with color. We remove the view-dependent color from neural volume rendering while retaining volume rendering performance through a relighting network. Mesh is extracted from the signed distance function (SDF) network for the surface, and color for each surface vertex is drawn from the global color network. To evaluate our approach, we conceived a in hand object scanning task featuring numerous occlusions and dramatic shifts in lighting conditions. We've gathered several videos for this task, and the results surpass those of any existing methods capable of reconstructing mesh alongside color. Additionally, our method's performance was assessed using public datasets, including DTU, BlendedMVS, and OmniObject3D. The results indicated that our method performs well across all these datasets. Project page: https://colmar-zlicheng.github.io/color_neus.
翻訳日:2023-12-20 23:36:40 公開日:2023-12-19
# パラメトリックPDEを解く有限要素演算子ネットワーク

Finite Element Operator Network for Solving Parametric PDEs ( http://arxiv.org/abs/2308.04690v2 )

ライセンス: Link先を確認
Jae Yong Lee, Seungchan Ko, Youngjoon Hong(参考訳) 偏微分方程式(PDE)は、物理学、工学、金融など、様々な分野における自然現象の理解と予測の基盤となる。 しかし、パラメトリック pdes の解法は効率的な数値解法を必要とする複雑なタスクである。 本稿では,有限要素演算子ネットワーク(FEONet)を用いたパラメトリックPDEの解法を提案する。 提案手法は,従来の数値手法,特に有限要素法と組み合わせて深層学習の力を利用して,ペア入力出力トレーニングデータがない場合にパラメトリックPDEを解く。 我々は,いくつかのベンチマーク問題に対して様々な実験を行い,その手法が様々な設定と環境にまたがって優れた性能を示し,精度,一般化,計算柔軟性の観点からその汎用性を証明したことを確認した。 我々のFEONetフレームワークは、PDEが様々な境界条件と特異な振る舞いを持つ複雑なドメインのモデリングにおいて重要な役割を果たす様々な分野の応用の可能性を示している。 さらに, 数値解析における有限要素近似を利用して, 理論的収束解析を行った。

Partial differential equations (PDEs) underlie our understanding and prediction of natural phenomena across numerous fields, including physics, engineering, and finance. However, solving parametric PDEs is a complex task that necessitates efficient numerical methods. In this paper, we propose a novel approach for solving parametric PDEs using a Finite Element Operator Network (FEONet). Our proposed method leverages the power of deep learning in conjunction with traditional numerical methods, specifically the finite element method, to solve parametric PDEs in the absence of any paired input-output training data. We performed various experiments on several benchmark problems and confirmed that our approach has demonstrated excellent performance across various settings and environments, proving its versatility in terms of accuracy, generalization, and computational flexibility. Our FEONet framework shows potential for application in various fields where PDEs play a crucial role in modeling complex domains with diverse boundary conditions and singular behavior. Furthermore, we provide theoretical convergence analysis to support our approach, utilizing finite element approximation in numerical analysis.
翻訳日:2023-12-20 23:35:00 公開日:2023-12-19
# イジングマシンを用いた化学反応ネットワークにおける最適経路の探索

Finding Optimal Pathways in Chemical Reaction Networks Using Ising Machines ( http://arxiv.org/abs/2308.04544v2 )

ライセンス: Link先を確認
Yuta Mizuno and Tamiki Komatsuzaki(参考訳) 化学反応ネットワークにおける最適経路の発見は化学プロセスの解明と設計に不可欠であり、合成計画や代謝経路解析などの重要な応用がある。 このような化学経路探索問題は制約付き組合せ最適化問題として定式化することができ、出発物質とターゲット物質を所定のネットワーク内で接続する化学反応の最適な組み合わせを見つけることを目的としている。 組合せ爆発により、最適な経路を見つけるのに必要な計算時間はネットワークサイズによって指数関数的に増加する。 量子アニーリングデバイスやシミュレーションアニーリングデバイスを含むイジングマシンは、このようなハードコンビネーション最適化に特化した新しいコンピュータを約束している。 しかしながら、我々の知る限りでは、化学経路探索問題にイジングマシンを適用する試みはまだない。 本稿では,化学経路探索問題に対する最初の ising/quantum 計算応用について述べる。 化学経路フィニング問題から翻訳されたIsingモデルは、制約に違反するいくつかの種類のペナルティ項を含む。 異なるタイプの適切なペナルティ強度を設定する方法が明確ではない。 この課題に対処するために,パラメータチューニングにベイズ最適化を用いる。 さらに,基礎となる問題構造に応じてペナルティ項をグループ化し,チューニング性能を向上させる手法を提案する。 提案アルゴリズムの性能評価と解析は,D-Wave Advantageシステムとシミュレートアニーリングを用いて行った。 ベンチマークの結果,最適な経路を見つける上での課題が明らかになった。 同時に, コスト値の相対誤差がある程度許容できることを示すことにより, 最適経路の探索の可能性を示す。

Finding optimal pathways in chemical reaction networks is essential for elucidating and designing chemical processes, with significant applications such as synthesis planning and metabolic pathway analysis. Such a chemical pathway-finding problem can be formulated as a constrained combinatorial optimization problem, aiming to find an optimal combination of chemical reactions connecting starting materials to target materials in a given network. Due to combinatorial explosion, the computation time required to find an optimal pathway increases exponentially with the network size. Ising machines, including quantum and simulated annealing devices, are promising novel computers dedicated to such hard combinatorial optimization. However, to the best of our knowledge, there has yet to be an attempt to apply Ising machines to chemical pathway-finding problems. In this article, we present the first Ising/quantum computing application for chemical pathway-finding problems. The Ising model, translated from a chemical pathway-finding problem, involves several types of penalty terms for violating constraints. It is not obvious how to set appropriate penalty strengths of different types. To address this challenge, we employ Bayesian optimization for parameter tuning. Furthermore, we introduce a novel technique that enhances tuning performance by grouping penalty terms according to the underlying problem structure. The performance evaluation and analysis of the proposed algorithm were conducted using a D-Wave Advantage system and simulated annealing. The benchmark results reveal challenges in finding exact optimal pathways. Concurrently, the results indicate the feasibility of finding approximate optimal pathways, provided that a certain degree of relative error in cost value is acceptable.
翻訳日:2023-12-20 23:34:42 公開日:2023-12-19
# 音声の匿名化:話者匿名化手法の評価と設計

Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques ( http://arxiv.org/abs/2308.04455v3 )

ライセンス: Link先を確認
Pierre Champion(参考訳) 音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。 データ収集は、ほとんどの音声サービスを支える効率的なツールの開発を可能にするが、集中ストレージが個人の音声データをサイバー脅威に脆弱にするため、ユーザーにとって深刻なプライバシー問題を引き起こす。 AmazonのAlexa、GoogleのHome、AppleのSiriといった音声ベースのデジタルアシスタントの利用が増加し、パーソナル音声データの収集が容易になったことで、音声クローズとスピーカー/ジェンダー/病理/etcの悪意ある使用のリスクが高まった。 認識が高まりました 本論文は,音声の匿名化と匿名化の程度を評価するための解を提案する。 本研究において、匿名化とは、音声信号(例えば、言語コンテンツへのアクセス)の有用性(有効性)を維持しつつ、個人音声データをアイデンティティーと結びつかないものにすることを指す。 まず、評価プロトコルがプライバシー保護の程度を適切に評価するために考慮する必要があるいくつかの課題を特定することから始める。 評価のために匿名化システムをどのように構成するかを明確にし、多くの実用的なデプロイメント構成ではプライバシ評価が許されていないことを強調する。 さらに,最も一般的な音声変換に基づく匿名化システムについて検討し,いくつかの制限を克服するための新しい手法を提案する前に,その弱点を特定する。 匿名化システムのすべてのコンポーネントを分離し、各コンポーネントに関連付けられた話者PPIの度合いを評価する。 次に,各コンポーネントに対して,実用性を維持しながら話者ppiを可能な限り削減するための変換手法を提案する。 我々は、量子化に基づく変換に基づく匿名化アルゴリズムを、最もよく使われ、よく知られたノイズベースアプローチの代替として推奨する。 最後に,匿名化を回避すべく,新たな攻撃手法を提案する。

The growing use of voice user interfaces has led to a surge in the collection and storage of speech data. While data collection allows for the development of efficient tools powering most speech services, it also poses serious privacy issues for users as centralized storage makes private personal speech data vulnerable to cyber threats. With the increasing use of voice-based digital assistants like Amazon's Alexa, Google's Home, and Apple's Siri, and with the increasing ease with which personal speech data can be collected, the risk of malicious use of voice-cloning and speaker/gender/pathological/etc. recognition has increased. This thesis proposes solutions for anonymizing speech and evaluating the degree of the anonymization. In this work, anonymization refers to making personal speech data unlinkable to an identity while maintaining the usefulness (utility) of the speech signal (e.g., access to linguistic content). We start by identifying several challenges that evaluation protocols need to consider to evaluate the degree of privacy protection properly. We clarify how anonymization systems must be configured for evaluation purposes and highlight that many practical deployment configurations do not permit privacy evaluation. Furthermore, we study and examine the most common voice conversion-based anonymization system and identify its weak points before suggesting new methods to overcome some limitations. We isolate all components of the anonymization system to evaluate the degree of speaker PPI associated with each of them. Then, we propose several transformation methods for each component to reduce as much as possible speaker PPI while maintaining utility. We promote anonymization algorithms based on quantization-based transformation as an alternative to the most-used and well-known noise-based approach. Finally, we endeavor a new attack method to invert anonymization.
翻訳日:2023-12-20 23:34:19 公開日:2023-12-19
# 貯留層工学的キャビティマグノメカニクスによるマイクロ波出力場の強スキューズ

Strong squeezing of microwave output fields via reservoir-engineered cavity magnomechanics ( http://arxiv.org/abs/2308.02222v3 )

ライセンス: Link先を確認
Hang Qian, Xuan Zuo, Zhi-Yuan Fan, Jiong Cheng, Jie Li(参考訳) 本研究では,マイクロ波キャビティ,マグノンモード,機械振動モードからなるキャビティ磁気力学系を貯水池工学によりマイクロ波出力場の強スケズングを実現する方法を示す。 マグノンモードは、振動モードに関連する青と赤のサイドバンドの2つのマイクロ波場によって同時に駆動される。 この2音駆動は、キャビティ内フィールドに対して圧縮されたマグノニック貯水池を誘導し、キャビティ-マグノン状態のスワッピングによるスクイズドキャビティモードを生じさせ、さらに、スクイズドキャビティ出力フィールドを発生させる。 出力場のスクイーズは静止しており、キャビティ・マグノメカニクスで現在利用可能なパラメータを用いている。 この研究は、圧縮されたマイクロ波場の準備におけるキャビティマグノメカニカルシステムのポテンシャルを示し、量子情報科学と量子メトロロジーに有望な応用を見出すかもしれない。

We show how to achieve strong squeezing of a microwave output field by reservoir engineering a cavity magnomechanical system, consisting of a microwave cavity, a magnon mode, and a mechanical vibration mode. The magnon mode is simultaneously driven by two microwave fields at the blue and red sidebands associated with the vibration mode. The two-tone drive induces a squeezed magnonic reservoir for the intracavity field, leading to a squeezed cavity mode due to the cavity-magnon state swapping, which further yields a squeezed cavity output field. The squeezing of the output field is stationary and substantial using currently available parameters in cavity magnomechanics. The work indicates the potential of the cavity magnomechanical system in preparing squeezed microwave fields, and may find promising applications in quantum information science and quantum metrology.
翻訳日:2023-12-20 23:33:23 公開日:2023-12-19
# クロスモデル合意によるラベルデノーミング

Label Denoising through Cross-Model Agreement ( http://arxiv.org/abs/2308.13976v3 )

ライセンス: Link先を確認
Yu Wang, Xin Xin, Zaiqiao Meng, Joemon Jose, Fuli Feng(参考訳) 破損したラベルからの学習は、現実世界の機械学習アプリケーションで非常に一般的である。 このようなノイズのあるラベルを記憶することはモデルの学習に影響を与え、準最適性能をもたらす。 本研究では,雑音ラベルから頑健な機械学習モデルを学ぶための新しい枠組みを提案する。 実験的な研究では、異なるモデルがクリーンな例で比較的類似の予測をするのに対して、ノイズの多い例の予測は異なるモデルによって異なることがわかりました。 そこで本研究では,2つの機械学習モデルによってパラメータ化される真のラベル分布間のkl分布を最小化し,データ観測の可能性を最大化するクロスモデルアグリーメント \em (deca) を考案する。 提案したDeCAをバイナリラベルシナリオとマルチラベルシナリオの両方に適用する。 バイナリラベルのシナリオでは、下流タスクとして暗黙的なフィードバックレコメンデーションを選択し、4つのデータセット上で4つの最先端レコメンデーションモデルで実験を行う。 マルチラベルのシナリオでは、ダウンストリームアプリケーションは2つのベンチマークデータセットの画像分類である。 実験結果から,提案手法は通常の訓練法や,バイナリと複数ラベルの両方のシナリオにおける認知手法と比較して,モデル性能を著しく向上することが示された。

Learning from corrupted labels is very common in real-world machine-learning applications. Memorizing such noisy labels could affect the learning of the model, leading to sub-optimal performances. In this work, we propose a novel framework to learn robust machine-learning models from noisy labels. Through an empirical study, we find that different models make relatively similar predictions on clean examples, while the predictions on noisy examples vary much more across different models. Motivated by this observation, we propose \em denoising with cross-model agreement \em (DeCA) which aims to minimize the KL-divergence between the true label distributions parameterized by two machine learning models while maximizing the likelihood of data observation. We employ the proposed DeCA on both the binary label scenario and the multiple label scenario. For the binary label scenario, we select implicit feedback recommendation as the downstream task and conduct experiments with four state-of-the-art recommendation models on four datasets. For the multiple-label scenario, the downstream application is image classification on two benchmark datasets. Experimental results demonstrate that the proposed methods significantly improve the model performance compared with normal training and other denoising methods on both binary and multiple-label scenarios.
翻訳日:2023-12-20 23:25:17 公開日:2023-12-19
# アーティファクトの迅速除去とH&E-Stined tissue Segmentation

Rapid Artefact Removal and H&E-Stained Tissue Segmentation ( http://arxiv.org/abs/2308.13304v2 )

ライセンス: Link先を確認
B. A. Schreiber, J. Denholm, F. Jaeckle, M. J. Arends, K. M. Branson, C.-B. Sch\"onlieb, E. J. Soilleux(参考訳) ペンマークやスキャニングアーティファクトなどの好ましくないアーティファクトを広範囲に除去する全スライド画像(wsis)において、ヘマトキシリンとエオシン(h&e)を迅速に分割する革新的な方法を提案する。 本手法は,H&E染色組織を背景および多種多様な人工物と容易に区別できるように,画素値がバイモーダルに分散されたWSIの低磁化RGB概要を単一チャネルで表現することを含む。 本手法は,多種多様な組織およびWSIデジタルスキャナーから調製した30個のWSIに対して実測を行い,大津しきい値,ヒストラブ組織セグメンテーション,ペンフィルタリングツールによるセグメンテーションと比較した。 組織を分割し,30wsis中29個に全アーティファクトを完全除去したのに対し,大津閾値設定ではアーティファクト除去に失敗し,histolabペンフィルタリングツールではペンマークを部分的に除去しただけだった。 われわれのアプローチの美しさは単純さにある: RGB色空間を操作し、大津しきい値を用いたことにより、機械学習やパラメータチューニングを必要とせずに、H&E染色組織のセグメンテーションとアーティファクトの迅速な除去が可能になる。

We present an innovative method for rapidly segmenting hematoxylin and eosin (H&E)-stained tissue in whole-slide images (WSIs) that eliminates a wide range of undesirable artefacts such as pen marks and scanning artefacts. Our method involves taking a single-channel representation of a lowmagnification RGB overview of the WSI in which the pixel values are bimodally distributed such that H&E-stained tissue is easily distinguished from both background and a wide variety of artefacts. We demonstrate our method on 30 WSIs prepared from a wide range of institutions and WSI digital scanners, each containing substantial artefacts, and compare it to segmentations provided by Otsu thresholding and Histolab tissue segmentation and pen filtering tools. We found that our method segmented the tissue and fully removed all artefacts in 29 out of 30 WSIs, whereas Otsu thresholding failed to remove any artefacts, and the Histolab pen filtering tools only partially removed the pen marks. The beauty of our approach lies in its simplicity: manipulating RGB colour space and using Otsu thresholding allows for the segmentation of H&E-stained tissue and the rapid removal of artefacts without the need for machine learning or parameter tuning.
翻訳日:2023-12-20 23:24:54 公開日:2023-12-19
# LR-XFL:論理推論に基づく説明可能なフェデレーション学習

LR-XFL: Logical Reasoning-based Explainable Federated Learning ( http://arxiv.org/abs/2308.12681v2 )

ライセンス: Link先を確認
Yanci Zhang and Han Yu(参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、機械学習モデルを協調的にトレーニングするための、新たなアプローチである。 プライバシー保護の必要性は、flモデルがグローバル透明性と説明可能性を達成するのを困難にしている。 この制限に対処するために、論理推論に基づく eXplainable Federated Learning (LR-XFL) アプローチを提案し、論理に基づく説明をFLに組み込む。 LR-XFLでは、FLクライアントはローカルデータに基づいてローカルロジックルールを作成し、モデル更新とともにFLサーバに送信する。 flサーバは、生データへのアクセスを必要とせず、クライアントデータの性質に基づく適切な論理コネクタを介してローカル論理ルールを接続する。 さらにサーバは、アップロードされたロジックルールに反映されたクライアントのローカルデータの品質によって決定される重み値でローカルモデルのアップデートを集約する。 その結果,lr-xflは分類精度,ルール精度,ルール忠実度において,最も関連するベースラインを1.19%,5.81%,5.41%上回った。 LR-XFLの下での明示的なルール評価と表現により、人間の専門家はサーバ側のルールを検証および修正することが可能となり、グローバルFLモデルのエラーに対する堅牢性が改善される。 データプライバシと説明可能性の両方が重要である医療や金融といった分野におけるFLモデルの透明性を高める可能性がある。

Federated learning (FL) is an emerging approach for training machine learning models collaboratively while preserving data privacy. The need for privacy protection makes it difficult for FL models to achieve global transparency and explainability. To address this limitation, we incorporate logic-based explanations into FL by proposing the Logical Reasoning-based eXplainable Federated Learning (LR-XFL) approach. Under LR-XFL, FL clients create local logic rules based on their local data and send them, along with model updates, to the FL server. The FL server connects the local logic rules through a proper logical connector that is derived based on properties of client data, without requiring access to the raw data. In addition, the server also aggregates the local model updates with weight values determined by the quality of the clients' local data as reflected by their uploaded logic rules. The results show that LR-XFL outperforms the most relevant baseline by 1.19%, 5.81% and 5.41% in terms of classification accuracy, rule accuracy and rule fidelity, respectively. The explicit rule evaluation and expression under LR-XFL enable human experts to validate and correct the rules on the server side, hence improving the global FL model's robustness to errors. It has the potential to enhance the transparency of FL models for areas like healthcare and finance where both data privacy and explainability are important.
翻訳日:2023-12-20 23:23:38 公開日:2023-12-19
# 干渉局所状態をもつ2光子限界における全光スイッチング

All-optical switching at the two-photon limit with interference-localized states ( http://arxiv.org/abs/2308.08542v2 )

ライセンス: Link先を確認
Ville A. J. Pyykk\"onen, Grazia Salerno, Jaakko K\"ah\"ar\"a, and P\"aivi T\"orm\"a(参考訳) 格子上の干渉局在状態と相互作用による非局在化に基づく単一光子対単光子全光スイッチの概念を提案する。 開放」動作では、スイッチは単一光子を停止し、光子対はスイッチを通過することができる。 あるいは、「閉じた」操作では、スイッチは幾何学的に1光子と2光子の状態を分離する。 3サイトスタブユニットセルとダイヤモンド鎖を用いた概念を実証する。 システムはボース=ハバード・ハミルトニアンによってモデル化され、ダイナミクスはリンドブラッド・マスター方程式による正確な対角化によって解かれる。 非線形性を持つフォトニック格子,超伝導量子ビットアレイ,超低温原子を用いたスイッチの実現について論じる。 スイッチは任意の「オン/オフ」コントラストを許容し、同時に現代のフォトニック材料との単一光子切替エネルギーでピコ秒切替時間を実現する。

We propose a single-photon-by-single-photon all-optical switch concept based on interference-localized states on lattices and their delocalization by interaction. In its 'open' operation, the switch stops single photons while allows photon pairs to pass the switch. Alternatively, in the 'closed' operation, the switch geometrically separates single-photon and two-photon states. We demonstrate the concept using a three-site Stub unit cell and the diamond chain. The systems are modeled by Bose-Hubbard Hamiltonians, and the dynamics is solved by exact diagonalization with Lindblad master equation. We discuss realization of the switch using photonic lattices with nonlinearities, superconductive qubit arrays, and ultracold atoms. We show that the switch allows arbitrary 'ON'/'OFF' contrast while achieving picosecond switching time at the single-photon switching energy with contemporary photonic materials.
翻訳日:2023-12-20 23:20:21 公開日:2023-12-19
# 双方向生成による視聴覚セグメンテーションの改善

Improving Audio-Visual Segmentation with Bidirectional Generation ( http://arxiv.org/abs/2308.08288v2 )

ライセンス: Link先を確認
Dawei Hao, Yuxin Mao, Bowen He, Xiaodong Han, Yuchao Dai, Yiran Zhong(参考訳) 音声視覚分割(AVS)の目的は、ビデオ内の可聴物体をピクセルレベルまで正確に識別することである。 従来のアプローチでは、それぞれのモダリティの寄与が暗黙的あるいは明示的にモデル化される様々なモダリティからの情報を組み合わせることで、この課題に取り組むことが多い。 それでも、異なるモード間の相互接続は、オーディオ・ビジュアル・モデリングでは見過ごされがちである。 本稿では,物体の音とその視覚的外観を精神的にシミュレートする人間の能力に着想を得て,双方向生成フレームワークを提案する。 このフレームワークは、物体の視覚的特徴と関連する音との堅牢な相関を確立し、AVSの性能を高める。 これを実現するために,オブジェクトセグメンテーションマスクから音声特徴を再構成し,再構成誤差を最小化する視覚から聴覚への投影成分を用いる。 さらに,多くの音が物体の動きに結びついていることを認識し,従来の光学的フロー法で捉えるのが困難な時間的ダイナミクスを扱う暗黙の体積運動推定モジュールを導入する。 提案手法の有効性を示すため,広く知られているAVSBenchベンチマークで包括的な実験と分析を行った。 その結果、AVSベンチマークにおいて、特に複数の音源のセグメント化を伴う挑戦的なMS3サブセットにおいて、新しい最先端性能レベルを確立した。 再現性を高めるため,ソースコードと事前学習モデルの両方をリリースする計画である。

The aim of audio-visual segmentation (AVS) is to precisely differentiate audible objects within videos down to the pixel level. Traditional approaches often tackle this challenge by combining information from various modalities, where the contribution of each modality is implicitly or explicitly modeled. Nevertheless, the interconnections between different modalities tend to be overlooked in audio-visual modeling. In this paper, inspired by the human ability to mentally simulate the sound of an object and its visual appearance, we introduce a bidirectional generation framework. This framework establishes robust correlations between an object's visual characteristics and its associated sound, thereby enhancing the performance of AVS. To achieve this, we employ a visual-to-audio projection component that reconstructs audio features from object segmentation masks and minimizes reconstruction errors. Moreover, recognizing that many sounds are linked to object movements, we introduce an implicit volumetric motion estimation module to handle temporal dynamics that may be challenging to capture using conventional optical flow methods. To showcase the effectiveness of our approach, we conduct comprehensive experiments and analyses on the widely recognized AVSBench benchmark. As a result, we establish a new state-of-the-art performance level in the AVS benchmark, particularly excelling in the challenging MS3 subset which involves segmenting multiple sound sources. To facilitate reproducibility, we plan to release both the source code and the pre-trained model.
翻訳日:2023-12-20 23:20:04 公開日:2023-12-19
# 大規模言語モデルを用いた教師付き文表現学習と教師なし文表現のギャップを狭める

Narrowing the Gap between Supervised and Unsupervised Sentence Representation Learning with Large Language Model ( http://arxiv.org/abs/2309.06453v2 )

ライセンス: Link先を確認
Mingxin Li, Richong Zhang, Zhijie Nie, Yongyi Mao(参考訳) 文表現学習(srl)は自然言語処理(nlp)における基本課題であり、文章埋め込み(cse)の対比学習はその優れた性能のために主流の手法である。 CSEにおける興味深い現象は、教師付き手法と教師なし手法の間の重要なパフォーマンスギャップであり、その唯一の違いはトレーニングデータにある。 以前は、このパフォーマンスギャップは2つの表現特性(配向と均一性)の違いによるものであった。 しかし、アライメントと均一性は結果のみを測定するため、「トレーニングデータのどの側面がパフォーマンスギャップに寄与するのか?」「パフォーマンスギャップを狭めるにはどうすればよいのか?」という問いに答えられず、本稿ではこれらの「何」と「どのように」の問いに答えるために実証実験を実施している。 まず,各学習過程における教師なしCSEの挙動を徹底的に比較し,その「何」に答える。 比較から,類似度パターンを性能ギャップの鍵となる要因として同定し,類似度パターンの複雑さを測定するためにRFD(Relative Fitting Difficulty)と呼ばれるメトリクスを導入する。 次に,「何」質問から得られた洞察に基づいて,トレーニングデータのパターン複雑性を増大させることで,「どのように」質問に取り組む。 我々は,Large Language Model (LLM) の In-Context Learning (ICL) 機能を活用し,複雑なパターンをシミュレートするデータを生成する。 LLM生成データにおける階層パターンを利用して、教師なしCSEと教師なしCSEのギャップを効果的に狭める。 コードと付録はhttps://github.com/BDBC-KG-NLP/NGCSEで公開しています。

Sentence Representation Learning (SRL) is a fundamental task in Natural Language Processing (NLP), with the Contrastive Learning of Sentence Embeddings (CSE) being the mainstream technique due to its superior performance. An intriguing phenomenon in CSE is the significant performance gap between supervised and unsupervised methods, with their only difference lying in the training data. Previous works attribute this performance gap to differences in two representation properties (alignment and uniformity). However, since alignment and uniformity only measure the results, they fail to answer "What aspects of the training data contribute to the performance gap?" and "How can the performance gap be narrowed?", In this paper, we conduct empirical experiments to answer these "What" and "How" questions. We first answer the "What" question by thoroughly comparing the behavior of supervised and unsupervised CSE during their respective training processes. From the comparison, we identify the similarity pattern as a key factor to the performance gap, and introduce a metric, called Relative Fitting Difficulty (RFD), to measure the complexity of the similarity pattern. Then, based on the insights gained from the "What" question, we tackle the "How" question by increasing the pattern complexity of the training data. We achieve this by leveraging the In-Context Learning (ICL) capability of the Large Language Model (LLM) to generate data that simulates complex patterns. By utilizing the hierarchical patterns in the LLM-generated data, we effectively narrow the gap between supervised and unsupervised CSE. We release our codes and appendix at https://github.com/BDBC-KG-NLP/NGCSE.
翻訳日:2023-12-20 23:14:30 公開日:2023-12-19
# GenAIPABench:AIベースのプライバシアシスタントのベンチマーク

GenAIPABench: A Benchmark for Generative AI-based Privacy Assistants ( http://arxiv.org/abs/2309.05138v3 )

ライセンス: Link先を確認
Aamir Hamid, Hemanth Reddy Samidi, Tim Finin, Primal Pappachan, Roberto Yus(参考訳) ウェブサイトのプライバシーポリシーは、しばしば長く複雑である。 プライバシーアシスタントはポリシーをシンプルにし、よりアクセスしやすくユーザーフレンドリーにする。 生成AI(genAI)の出現は、プライバシポリシーに関するユーザの質問に答えることのできるプライバシアシスタントを構築する新たな機会を提供する。 しかし、GenAIの信頼性は不正確な情報を生み出す可能性があるため懸念されている。 本稿では、ジェネレーティブAIベースのプライバシアシスタント(GenAIPA)を評価するベンチマークであるGenAIPABenchを紹介する。 GenAIPABench には以下のものがある。 1)プライバシーポリシー及びデータ保護規則に関する一連の質問であって、様々な組織及び規則に対する注釈付き回答である。 2)応答の正確性,関連性,整合性を評価する尺度,及び 3) システムの堅牢性をテストするために,プライバシドキュメントやさまざまなプライバシ質問のプロンプトを生成するツール。 我々は、GenAIPABenchを用いて、ChatGPT-4、Bard、Bing AIの3つの主要なGenAIシステムを評価し、その効果をGenAIPAとして評価した。 以上の結果から,プライバシ領域のgenAI機能において,複雑なクエリの管理,一貫性の確保,ソース精度の検証といった課題も浮き彫りにしている。

Privacy policies of websites are often lengthy and intricate. Privacy assistants assist in simplifying policies and making them more accessible and user friendly. The emergence of generative AI (genAI) offers new opportunities to build privacy assistants that can answer users questions about privacy policies. However, genAIs reliability is a concern due to its potential for producing inaccurate information. This study introduces GenAIPABench, a benchmark for evaluating Generative AI-based Privacy Assistants (GenAIPAs). GenAIPABench includes: 1) A set of questions about privacy policies and data protection regulations, with annotated answers for various organizations and regulations; 2) Metrics to assess the accuracy, relevance, and consistency of responses; and 3) A tool for generating prompts to introduce privacy documents and varied privacy questions to test system robustness. We evaluated three leading genAI systems ChatGPT-4, Bard, and Bing AI using GenAIPABench to gauge their effectiveness as GenAIPAs. Our results demonstrate significant promise in genAI capabilities in the privacy domain while also highlighting challenges in managing complex queries, ensuring consistency, and verifying source accuracy.
翻訳日:2023-12-20 23:12:59 公開日:2023-12-19
# 多言語基盤モデルのためのSeaEval:言語横断的アライメントから文化的推論へ

SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning ( http://arxiv.org/abs/2309.04766v2 )

ライセンス: Link先を確認
Bin Wang, Zhengyuan Liu, Xin Huang, Fangkai Jiao, Yang Ding, Ai Ti Aw, Nancy F. Chen(参考訳) マルチ言語基盤モデルのベンチマークであるSeaEvalを紹介する。 これらのモデルが自然言語をどのように理解し、理由づけしているかを特徴づけるだけでなく、文化の実践やニュアンス、価値観をいかに理解しているかも調べる。 標準的な精度指標とともに,意味論と多言語性の次元における基礎モデルの脆さについて検討する。 我々の分析は、オープンソースのモデルとクローズドモデルの両方にまたがっており、古典的なNLPタスク、推論、文化的理解に経験的な結果をもたらす。 主要な知見は,(1)言い換え指示が与えられた場合,ほとんどのモデルは様々な行動を示す。 2)多くのモデルはまだ露出バイアス(位置バイアス、ラベルバイアスなど)に苦しんでいる。 3) 事実,科学的,常識的知識に根ざした質問に対しては,意味論的に等価な多言語クエリに対して一貫した応答が期待できる。 しかし、ほとんどのモデルは、これらのクエリで驚くほど不整合性能を示している。 (4)多言語学習モデルでは「バランスの取れた多言語」能力は得られていない。 我々の取り組みは、より一般化可能な意味表現と拡張された多言語文脈化の必要性を強調している。 SeaEvalは、多言語および多文化シナリオに対するより徹底的な調査と評価のための発射台として機能する。

We present SeaEval, a benchmark for multilingual foundation models. In addition to characterizing how these models understand and reason with natural language, we also investigate how well they comprehend cultural practices, nuances, and values. Alongside standard accuracy metrics, we investigate the brittleness of foundation models in the dimensions of semantics and multilinguality. Our analyses span both open-sourced and closed models, leading to empirical results across classic NLP tasks, reasoning, and cultural comprehension. Key findings indicate (1) Most models exhibit varied behavior when given paraphrased instructions. (2) Many models still suffer from exposure bias (e.g., positional bias, majority label bias). (3) For questions rooted in factual, scientific, and commonsense knowledge, consistent responses are expected across multilingual queries that are semantically equivalent. Yet, most models surprisingly demonstrate inconsistent performance on these queries. (4) Multilingually-trained models have not attained "balanced multilingual" capabilities. Our endeavors underscore the need for more generalizable semantic representations and enhanced multilingual contextualization. SeaEval can serve as a launchpad for more thorough investigations and evaluations for multilingual and multicultural scenarios.
翻訳日:2023-12-20 23:12:21 公開日:2023-12-19
# TiAVox: Sparse-view 4D DSAリコンストラクションのためのタイムアウェア減衰ボクセル

TiAVox: Time-aware Attenuation Voxels for Sparse-view 4D DSA Reconstruction ( http://arxiv.org/abs/2309.02318v2 )

ライセンス: Link先を確認
Zhenghong Zhou, Huangxuan Zhao, Jiemin Fang, Dongqiao Xiang, Lei Chen, Lingxia Wu, Feihong Wu, Wenyu Liu, Chuansheng Zheng and Xinggang Wang(参考訳) 4次元デジタルサブトラクション血管造影 (4D DSA) は, 動静脈奇形 (AVM) や動静脈奇形 (AVF) などの多くの疾患の診断において重要な役割を担っている。 その重要な応用価値にもかかわらず、4D DSAの再構築は複雑な容器と放射性コントラストの流れを効果的にモデル化するために多くの視点を必要とする。 この高放射能問題に対処するため,高画質4Dイメージングの道筋をたどるスパースビュー4D DSA再構成のためのTiAVox(Time-Aware Attenuation Voxel)アプローチを提案する。 さらに、再構成した4D DSA画像から2Dおよび3D DSAイメージング結果を生成することができる。 TiAVoxは空間次元と時間次元の両方の減衰特性を反映する4D減衰ボクセル格子を導入している。 レンダリング画像とスパース2D DSA画像との差を最小限にして最適化する。 ニューラルネットワークがなければ、TiAVoxは特定の物理的解釈性を楽しむことができる。 各学習可能なボクセルのパラメータは減衰係数を表す。 臨床およびシミュレートされたデータセットに対するTiAVoxアプローチの有効性を検証し,臨床から得られたデータセットの30ビューのみを用いて,31.23Peak Signal-to-Noise Ratio(PSNR)を新規ビュー合成するために達成した。 同様に、合成データセットからわずか10ビューで、tiavoxは34.32psnrを新規なビュー合成に、41.40psnrを3d再構成に用いた。 また,TiAVoxの本質成分の相関に関するアブレーション研究も行った。 コードは一般公開される予定だ。

Four-dimensional Digital Subtraction Angiography (4D DSA) plays a critical role in the diagnosis of many medical diseases, such as Arteriovenous Malformations (AVM) and Arteriovenous Fistulas (AVF). Despite its significant application value, the reconstruction of 4D DSA demands numerous views to effectively model the intricate vessels and radiocontrast flow, thereby implying a significant radiation dose. To address this high radiation issue, we propose a Time-aware Attenuation Voxel (TiAVox) approach for sparse-view 4D DSA reconstruction, which paves the way for high-quality 4D imaging. Additionally, 2D and 3D DSA imaging results can be generated from the reconstructed 4D DSA images. TiAVox introduces 4D attenuation voxel grids, which reflect attenuation properties from both spatial and temporal dimensions. It is optimized by minimizing discrepancies between the rendered images and sparse 2D DSA images. Without any neural network involved, TiAVox enjoys specific physical interpretability. The parameters of each learnable voxel represent the attenuation coefficients. We validated the TiAVox approach on both clinical and simulated datasets, achieving a 31.23 Peak Signal-to-Noise Ratio (PSNR) for novel view synthesis using only 30 views on the clinically sourced dataset, whereas traditional Feldkamp-Davis-Kress methods required 133 views. Similarly, with merely 10 views from the synthetic dataset, TiAVox yielded a PSNR of 34.32 for novel view synthesis and 41.40 for 3D reconstruction. We also executed ablation studies to corroborate the essential components of TiAVox. The code will be publically available.
翻訳日:2023-12-20 23:12:05 公開日:2023-12-19
# 条件付きリセットのランダム時間における密結合モデル

Tight-binding model subject to conditional resets at random times ( http://arxiv.org/abs/2308.14040v2 )

ライセンス: Link先を確認
Anish Acharya, Shamik Gupta(参考訳) 時間依存および条件付きリセットプロトコルによる量子システムのダイナミクスについて検討する。 リセット時にシステムの現在の構成に依存する確率で、指定されたリセット設定のセットに瞬時にリセットすることで、システムのユニタリな進化がランダムな時間に繰り返し中断されたとき、どうなるか? 1次元開格子において、量子粒子の最も近い位置へのホッピングを記述するいわゆる強結合モデル(tigh-binding model)の枠組みにおけるプロトコルの解析を行い、格子の異なる部位に粒子が見つかる確率に関する解析結果を得た。 本研究では,再セット時間間隔が指数関数分布から,またパワーロー分布からサンプリングされる場合や,外部周期強制を伴うフロッケ型ハミルトニアンを含む集合など,様々な力学シナリオを考察する。 指数的リセットの下では、外部の強制力の存在と欠如の両方において、系はリセット部位周辺の粒子の局在を特徴とする定常状態に緩和する。 リセットサイトの選択は、リセットサイトにおける粒子の相対的確率の決定や、サイト占有確率の全体的な空間的プロファイルの決定において、決定的な役割を担っている。 実際、素のダイナミクスがバイアスの影響を伴わない場合でも、空間プロファイルを高度に非対称にする単純な選択を設計することができる。 さらに、パワーロー再設定の場合の解析は、この量子問題における定常状態の達成が必ずしも明確ではないことを示すのに役立ち、リセット時間間隔の分布が有限か無限平均かに大きく依存する。

We investigate the dynamics of a quantum system subjected to a time-dependent and conditional resetting protocol. Namely, we ask: what happens when the unitary evolution of the system is repeatedly interrupted at random time instants with an instantaneous reset to a specified set of reset configurations taking place with a probability that depends on the current configuration of the system at the instant of reset? Analyzing the protocol in the framework of the so-called tight-binding model describing the hopping of a quantum particle to nearest-neighbour sites in a one-dimensional open lattice, we obtain analytical results for the probability of finding the particle on the different sites of the lattice. We explore a variety of dynamical scenarios, including the one in which the resetting time intervals are sampled from an exponential as well as from a power-law distribution, and a set-up that includes a Floquet-type Hamiltonian involving an external periodic forcing. Under exponential resetting, and in both presence and absence of the external forcing, the system relaxes to a stationary state characterized by localization of the particle around the reset sites. The choice of the reset sites plays a defining role in dictating the relative probability of finding the particle at the reset sites as well as in determining the overall spatial profile of the site-occupation probability. Indeed, a simple choice can be engineered that makes the spatial profile highly asymmetric even when the bare dynamics does not involve the effect of any bias. Furthermore, analyzing the case of power-law resetting serves to demonstrate that the attainment of the stationary state in this quantum problem is not always evident and depends crucially on whether the distribution of reset time intervals has a finite or an infinite mean.
翻訳日:2023-12-20 23:08:29 公開日:2023-12-19
# SEPT:動き予測のための効率的なシーン表現学習を目指して

SEPT: Towards Efficient Scene Representation Learning for Motion Prediction ( http://arxiv.org/abs/2309.15289v4 )

ライセンス: Link先を確認
Zhiqian Lan, Yuxuan Jiang, Yao Mu, Chen Chen, Shengbo Eben Li(参考訳) 運動予測は、自動運転車が複雑な交通環境下で安全に動作するために不可欠である。 交通要素間の効果的な時空間関係の抽出は正確な予測の鍵となる。 本稿では,事前学習された大規模言語モデルの実践に触発されて,自己教師付き学習を活用して複雑な交通シーンの時空間的強力な理解を実現するためのモデリングフレームワークSEPTを提案する。 具体的には,3つのマスキング・リコンストラクション・モデリングタスクを,エージェントのトラジェクタや道路網を含むシーン入力,軌道内の運動量をキャプチャするシーンエンコーダの事前学習,道路網の空間構造,道路とエージェント間のインタラクションなどに適用した。 プリトレーニングされたエンコーダは、下流予測タスクで微調整される。 大規模な実験により、SEPTは複雑なアーキテクチャ設計や手動の特徴工学を伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成し、すべての主要な指標に対する従来の手法よりも大きなマージンで優れていることが示された。

Motion prediction is crucial for autonomous vehicles to operate safely in complex traffic environments. Extracting effective spatiotemporal relationships among traffic elements is key to accurate forecasting. Inspired by the successful practice of pretrained large language models, this paper presents SEPT, a modeling framework that leverages self-supervised learning to develop powerful spatiotemporal understanding for complex traffic scenes. Specifically, our approach involves three masking-reconstruction modeling tasks on scene inputs including agents' trajectories and road network, pretraining the scene encoder to capture kinematics within trajectory, spatial structure of road network, and interactions among roads and agents. The pretrained encoder is then finetuned on the downstream forecasting task. Extensive experiments demonstrate that SEPT, without elaborate architectural design or manual feature engineering, achieves state-of-the-art performance on the Argoverse 1 and Argoverse 2 motion forecasting benchmarks, outperforming previous methods on all main metrics by a large margin.
翻訳日:2023-12-20 23:02:05 公開日:2023-12-19
# ICML 2023 トポロジカルディープラーニングチャレンジ : 設計と結果

ICML 2023 Topological Deep Learning Challenge : Design and Results ( http://arxiv.org/abs/2309.15188v3 )

ライセンス: Link先を確認
Mathilde Papillon, Mustafa Hajij, Helen Jenne, Johan Mathe, Audun Myers, Theodore Papamarkou, Ghada Zamzmi, Tolga Birdal, Tamal Dey, Tim Doster, Tegan Emerson, Gurusankar Gopalakrishnan, Devendra Govil, Aldo Guzm\'an-S\'aenz, Henry Kvinge, Neal Livesay, Soham Mukherjee, Shreyas N. Samaga, Karthikeyan Natesan Ramamurthy, Maneel Reddy Karri, Paul Rosen, Sophia Sanborn, Robin Walters, Jens Agerberg, Sadrodin Barikbin, Claudio Battiloro, Gleb Bazhenov, Guillermo Bernardez, Aiden Brent, Sergio Escalera, Simone Fiorellino, Dmitrii Gavrilev, Mohammed Hassanin, Paul H\"ausner, Odin Hoff Gardaa, Abdelwahed Khamis, Manuel Lecha, German Magai, Tatiana Malygina, Rub\'en Ballester, Kalyan Nadimpalli, Alexander Nikitin, Abraham Rabinowitz, Alessandro Salatiello, Simone Scardapane, Luca Scofano, Suraj Singh, Jens Sj\"olund, Pavel Snopov, Indro Spinelli, Lev Telyatnikov, Lucia Testa, Maosheng Yang, Yixiao Yue, Olga Zaghen, Ali Zia, Nina Miolane(参考訳) 本稿では、ICML 2023 Workshop on Topology and Geometry in Machine Learningにホストされたトポロジ的深層学習に関する計算課題について述べる。 コンペティションは参加者に対して、PythonパッケージのTopoNetX(データ処理)とTopoModelX(ディープラーニング)にコントリビュートすることで、文献からトポロジカルニューラルネットワークのオープンソース実装を提供するように求めた。 この挑戦は2ヶ月の期間で28の応募を惹きつけた。 本稿では,課題の設計について述べるとともに,その主な知見を概説する。

This paper presents the computational challenge on topological deep learning that was hosted within the ICML 2023 Workshop on Topology and Geometry in Machine Learning. The competition asked participants to provide open-source implementations of topological neural networks from the literature by contributing to the python packages TopoNetX (data processing) and TopoModelX (deep learning). The challenge attracted twenty-eight qualifying submissions in its two-month duration. This paper describes the design of the challenge and summarizes its main findings.
翻訳日:2023-12-20 23:01:47 公開日:2023-12-19
# 雑音の存在下での電磁界センシングと通信の最適絡み合い

Optimal entanglement-assisted electromagnetic sensing and communication in the presence of noise ( http://arxiv.org/abs/2309.12629v2 )

ライセンス: Link先を確認
Haowei Shi, Bingzhi Zhang, Jeffrey H. Shapiro, Zheshen Zhang and Quntao Zhuang(参考訳) 独立に分布する2モード圧縮真空(tmsv)状態からなる高時間幅製品信号とアイドラーパルスは自発的パラメトリックダウンコンバージョンにより容易に生成される。 これらのパルスは、損失とノイズが最初の絡み合いを損なうシナリオにおいて、最高の古典国家の競合相手よりも量子パフォーマンスの利点を提供するという点で、絡み合った状態の中で事実上ユニークである。 ブロードバンドTMSV状態の量子優位性は、その信号とアイドラーの強い非古典的な位相感受性の相互相関を持ち、同じ伝達エネルギーの古典状態系から得られるものよりも強い損失、雑音のシナリオのシグネチャを持つ情報をもたらす。 従来のブロードバンドTMSV受信アーキテクチャでは,位相依存性のクロス相関を位相非感度のクロス相関に変換することに重点を置いていた。 しかし、一般にこれらの受信機は、たとえ理想的な機器で実装されたとしても、ブロードバンドTMSV状態の完全な量子優位性を提供できない。 本稿では,広帯域tmsvが絡み合う損失やノイズに対して頑健な量子長所を提供する既知のセンシングおよび通信プロトコルにおいて,量子最適性能を達成するように構成可能な相関-転置変換器,プログラマブルモードセレクタ,コヒーレント状態情報抽出器からなる新しいアーキテクチャである相関-転置受信機を提案する。

High time-bandwidth product signal and idler pulses comprised of independent identically distributed two-mode squeezed vacuum (TMSV) states are readily produced by spontaneous parametric downconversion. These pulses are virtually unique among entangled states in that they offer quantum performance advantages -- over their best classical-state competitors -- in scenarios whose loss and noise break their initial entanglement. Broadband TMSV states' quantum advantage derives from its signal and idler having a strongly nonclassical phase-sensitive cross correlation, which leads to information bearing signatures in lossy, noisy scenarios stronger than what can be obtained from classical-state systems of the same transmitted energy. Previous broadband TMSV receiver architectures focused on converting phase-sensitive cross correlation into phase-insensitive cross correlation, which can be measured in second-order interference. In general, however, these receivers fail to deliver broadband TMSV states' full quantum advantage, even if they are implemented with ideal equipment. This paper introduces the correlation-to-displacement receiver -- a new architecture comprised of a correlation-to-displacement converter, a programmable mode selector, and a coherent-state information extractor -- that can be configured to achieve quantum optimal performance in known sensing and communication protocols for which broadband TMSV provides quantum advantage that is robust against entanglement-breaking loss and noise.
翻訳日:2023-12-20 23:01:24 公開日:2023-12-19
# LLMR:大規模言語モデルを用いた対話型世界のリアルタイムプロンプト

LLMR: Real-time Prompting of Interactive Worlds using Large Language Models ( http://arxiv.org/abs/2309.12276v2 )

ライセンス: Link先を確認
Fernanda De La Torre, Cathy Mengying Fang, Han Huang, Andrzej Banburski-Fahey, Judith Amores Fernandez, Jaron Lanier(参考訳) LLMを用いた対話型混合現実体験のリアルタイム作成と修正のためのフレームワークであるLarge Language Model for Mixed Reality (LLMR)を提案する。 llmrは、理想的なトレーニングデータが不足したり、設計目標が内部ダイナミクスの合成、直感的な分析、高度な対話性を必要とする難しいケースに対処するために、新しい戦略を利用する。 私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。 シーン理解、タスク計画、自己デバッグ、メモリ管理の技術を取り入れることで、LLMRは標準のGPT-4を平均エラー率で4倍に向上させる。 llmrのクロスプラットフォームの相互運用性をいくつかの例で示し、さまざまな作成および修正タスクで評価することで、さまざまなオブジェクト、ツール、シーンを生成および編集できることを示します。 最後に,ユーザビリティスタディ (N=11) を行い, 参加者がシステムに対して肯定的な経験をしており, 再び使用することを明らかにした。

We present Large Language Model for Mixed Reality (LLMR), a framework for the real-time creation and modification of interactive Mixed Reality experiences using LLMs. LLMR leverages novel strategies to tackle difficult cases where ideal training data is scarce, or where the design goal requires the synthesis of internal dynamics, intuitive analysis, or advanced interactivity. Our framework relies on text interaction and the Unity game engine. By incorporating techniques for scene understanding, task planning, self-debugging, and memory management, LLMR outperforms the standard GPT-4 by 4x in average error rate. We demonstrate LLMR's cross-platform interoperability with several example worlds, and evaluate it on a variety of creation and modification tasks to show that it can produce and edit diverse objects, tools, and scenes. Finally, we conducted a usability study (N=11) with a diverse set that revealed participants had positive experiences with the system and would use it again.
翻訳日:2023-12-20 23:00:55 公開日:2023-12-19
# 高次元RBMのドリフト制御:ニューラルネットワークに基づく計算法

Drift Control of High-Dimensional RBM: A Computational Method Based on Neural Networks ( http://arxiv.org/abs/2309.11651v2 )

ライセンス: Link先を確認
Baris Ata, J. Michael Harrison, Nian Si(参考訳) 待ち行列理論の応用に動機づけられ、状態空間が$d$-dimensional positive orthantである確率的制御問題を考える。 制御過程 $z$ は、オーサントの境界面からの反射方向と同様に、共分散行列が外在的に特定される反射ブラウン運動として発展する。 システムマネージャは、各時刻に$z$の履歴に基づいて$t$のドリフトベクトル$\theta(t)$を選択し、その時点のコストは$z(t)$と$\theta(t)$の両方に依存する。 最初の問題定式化では、無限の計画地平線上で期待される割引コストを最小化し、その後、対応するエルゴード制御問題を扱う。 han et al. (proceedings of the national academy of sciences, 2018, 8505-8510) による初期の研究を拡張し、深層ニューラルネットワーク技術に大きく依存するシミュレーションベースの計算手法を開発し、解説する。 これまでに検討したテスト問題では,提案手法は1パーセント以内の精度で,少なくとも$d=30$の次元で計算可能であった。

Motivated by applications in queueing theory, we consider a stochastic control problem whose state space is the $d$-dimensional positive orthant. The controlled process $Z$ evolves as a reflected Brownian motion whose covariance matrix is exogenously specified, as are its directions of reflection from the orthant's boundary surfaces. A system manager chooses a drift vector $\theta(t)$ at each time $t$ based on the history of $Z$, and the cost rate at time $t$ depends on both $Z(t)$ and $\theta(t)$. In our initial problem formulation, the objective is to minimize expected discounted cost over an infinite planning horizon, after which we treat the corresponding ergodic control problem. Extending earlier work by Han et al. (Proceedings of the National Academy of Sciences, 2018, 8505-8510), we develop and illustrate a simulation-based computational method that relies heavily on deep neural network technology. For test problems studied thus far, our method is accurate to within a fraction of one percent, and is computationally feasible in dimensions up to at least $d=30$.
翻訳日:2023-12-20 22:59:48 公開日:2023-12-19
# コンテンツ市場におけるオフポリシー学習による広告ロードバランシング

Ad-load Balancing via Off-policy Learning in a Content Marketplace ( http://arxiv.org/abs/2309.11518v2 )

ライセンス: Link先を確認
Hitesh Sagtani, Madan Jhawar, Rishabh Mehrotra, Olivier Jeunen(参考訳) 広告ロードバランシングは、オンライン広告システム、特にソーシャルメディアプラットフォームにおいて、満足のいくユーザーエクスペリエンスを維持しつつ、ユーザのエンゲージメントと収益を最大化することが目的である。 これはユーザーの満足度や広告収入といった相反する目的の最適化を必要とする。 従来のアドロードバランシングアプローチは静的アロケーションポリシに依存しており、ユーザの好みやコンテキスト要因の変更に適応できない。 本稿では,ログ付きバンディットフィードバックによるオフポリシー学習と評価を活用したアプローチを提案する。 まず,広告負荷分散問題に対する動機づけのある分析を行い,ユーザの満足度と広告収入の相反する目標を強調する。 我々は,ユーザの不均一性とセッション内のユーザ位置への依存に起因するニュアンスを強調した。 この分析に基づいて、この問題を特定のフィードフェッチに対して最適な広告負荷を決定するものとして定義する。 そこで本研究では,ips (inverse propensity scoring) やdr (doubly robust) といった偏りのない推定値を用いて,オフラインで収集した確率データを用いて,政策値の学習と推定を行うオフポリシー学習フレームワークを提案する。 2億以上のセッションを生成する8千万以上のユーザを対象に,大規模にデプロイされたオンラインa/b実験から得た知見を紹介する。

Ad-load balancing is a critical challenge in online advertising systems, particularly in the context of social media platforms, where the goal is to maximize user engagement and revenue while maintaining a satisfactory user experience. This requires the optimization of conflicting objectives, such as user satisfaction and ads revenue. Traditional approaches to ad-load balancing rely on static allocation policies, which fail to adapt to changing user preferences and contextual factors. In this paper, we present an approach that leverages off-policy learning and evaluation from logged bandit feedback. We start by presenting a motivating analysis of the ad-load balancing problem, highlighting the conflicting objectives between user satisfaction and ads revenue. We emphasize the nuances that arise due to user heterogeneity and the dependence on the user's position within a session. Based on this analysis, we define the problem as determining the optimal ad-load for a particular feed fetch. To tackle this problem, we propose an off-policy learning framework that leverages unbiased estimators such as Inverse Propensity Scoring (IPS) and Doubly Robust (DR) to learn and estimate the policy values using offline collected stochastic data. We present insights from online A/B experiments deployed at scale across over 80 million users generating over 200 million sessions, where we find statistically significant improvements in both user satisfaction metrics and ads revenue for the platform.
翻訳日:2023-12-20 22:59:24 公開日:2023-12-19
# 大規模言語モデルを用いたコンフォーメーショナル時相論理計画:いつ、いつ、いつ助けを求めるかを知る

Conformal Temporal Logic Planning using Large Language Models: Knowing When to Do What and When to Ask for Help ( http://arxiv.org/abs/2309.10092v2 )

ライセンス: Link先を確認
Jun Wang, Jiaming Tong, Kaiyuan Tan, Yevgeniy Vorobeychik, Yiannis Kantaros(参考訳) 本稿では,自然言語(NL)を用いて複数のハイレベルなサブタスクを遂行する移動ロボットの新しい動作計画問題に対処する。 これらのサブタスクは、時間的および論理的な順序で達成されるべきである。 これらのNLに基づくサブタスクをモデル化する原子述語上で定義された線形時間論理(LTL)を利用する。 これは、所望の低レベルシステム構成をキャプチャするアトミック述語よりもLTLタスクを定義する関連する計画手法とは対照的である。 我々の目標は、NLに基づく原子命題上で定義されたLTLタスクを満たすロボット計画を設計することである。 この設定で生じる新しい技術的課題は、そのようなltlエンコードされたタスクに関してロボット計画の正確性に関する推論である。 この問題に対処するため,我々は階層型共形自然言語プランナーであるheraclesを提案する。 (i)nl特定サブタスクを次に達成すべきものを決定するためのオートマトン理論 (二)これらのサブタスクを満たすロボット計画を設計するための大型言語モデル (iii)設計計画の正確性について確率論的に推論し、外部支援が必要かどうかを判断するための共形予測 我々は,モバイル操作タスクに関する広範な比較実験と同様に,理論的確率的ミッション満足度保証を提供する。

This paper addresses a new motion planning problem for mobile robots tasked with accomplishing multiple high-level sub-tasks, expressed using natural language (NL). These sub-tasks should be accomplished in a temporal and logical order. To formally define the overarching mission, we leverage Linear Temporal Logic (LTL) defined over atomic predicates modeling these NL-based sub-tasks. This is in contrast to related planning approaches that define LTL tasks over atomic predicates capturing desired low-level system configurations. Our goal is to design robot plans that satisfy LTL tasks defined over NL-based atomic propositions. A novel technical challenge arising in this setup lies in reasoning about correctness of a robot plan with respect to such LTL-encoded tasks. To address this problem, we propose HERACLEs, a hierarchical conformal natural language planner, that relies on (i) automata theory to determine what NL-specified sub-tasks should be accomplished next to make mission progress; (ii) Large Language Models to design robot plans satisfying these sub-tasks; and (iii) conformal prediction to reason probabilistically about correctness of the designed plans and to determine if external assistance is required. We provide theoretical probabilistic mission satisfaction guarantees as well as extensive comparative experiments on mobile manipulation tasks.
翻訳日:2023-12-20 22:57:35 公開日:2023-12-19
# IPMix:ロバスト分類器の学習のためのラベル保存データ拡張法

IPMix: Label-Preserving Data Augmentation Method for Training Robust Classifiers ( http://arxiv.org/abs/2310.04780v5 )

ライセンス: Link先を確認
Zhenglin Huang, Xianan Bao, Na Zhang, Qingqi Zhang, Xiaomei Tu, Biao Wu, Xi Yang(参考訳) データ拡張は、過剰フィッティングを防止し、高精度畳み込みニューラルネットワーク分類器のトレーニングに有効であることが証明されている。 しかし、現実世界のシナリオでディープニューラルネットワークを構築するには、クリーンなデータに対する高い精度だけでなく、データ分布が変化する際のロバスト性も必要となる。 従来の手法では精度とロバスト性の間にトレードオフがあることが提案されているが, クリーンな精度を損なうことなくロバスト性を改善するシンプルなデータ拡張手法であるIMMixを提案する。 ipmixは3つのレベルのデータ拡張(イメージレベル、パッチレベル、ピクセルレベル)をコヒーレントでラベル保存技術に統合し、計算オーバーヘッドの少ないトレーニングデータの多様性を高める。 堅牢性をさらに向上するため、IMMixは様々なレベルで構造的複雑さを導入し、より多様な画像を生成し、マルチスケール情報融合にランダム混合法を採用する。 実験により、IMMixはCIFAR-CとImageNet-Cで最先端の破損堅牢性を上回っていることが示された。 さらに, IPMixは, 対向摂動, キャリブレーション, 予測整合性, 異常検出の堅牢性, ImageNet-R, ImageNet-A, ImageNet-O など,いくつかのベンチマークにおいて, 最先端ないし同等の結果が得られた。

Data augmentation has been proven effective for training high-accuracy convolutional neural network classifiers by preventing overfitting. However, building deep neural networks in real-world scenarios requires not only high accuracy on clean data but also robustness when data distributions shift. While prior methods have proposed that there is a trade-off between accuracy and robustness, we propose IPMix, a simple data augmentation approach to improve robustness without hurting clean accuracy. IPMix integrates three levels of data augmentation (image-level, patch-level, and pixel-level) into a coherent and label-preserving technique to increase the diversity of training data with limited computational overhead. To further improve the robustness, IPMix introduces structural complexity at different levels to generate more diverse images and adopts the random mixing method for multi-scale information fusion. Experiments demonstrate that IPMix outperforms state-of-the-art corruption robustness on CIFAR-C and ImageNet-C. In addition, we show that IPMix also significantly improves the other safety measures, including robustness to adversarial perturbations, calibration, prediction consistency, and anomaly detection, achieving state-of-the-art or comparable results on several benchmarks, including ImageNet-R, ImageNet-A, and ImageNet-O.
翻訳日:2023-12-20 22:51:16 公開日:2023-12-19
# ヒューマンチュータスタイルプログラミングフィードバックの自動化:Hint生成のためのGPT-4チュータモデルとHint検証のためのGPT-3.5学生モデルを活用する

Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation ( http://arxiv.org/abs/2310.03780v2 )

ライセンス: Link先を確認
Tung Phung, Victor-Alexandru P\u{a}durean, Anjali Singh, Christopher Brooks, Jos\'e Cambronero, Sumit Gulwani, Adish Singla, Gustavo Soares(参考訳) 生成型AIと大規模言語モデルは、学生に対する個別のフィードバックを自動的に生成することにより、プログラミング教育の強化に大いに貢献する。 学習者型プログラミングヒントの提供における生成型aiモデルの役割について検討し,学生のバギープログラムにおけるエラー解決を支援する。 最近の研究は、様々なフィードバック生成シナリオの最先端モデルをベンチマークしているが、その全体的な品質は、人間のチューターに劣り、実際の展開の準備が整っていない。 本稿では,生成型AIモデルの限界を高品質なプログラミングヒントの提供に推し進め,新しい技術であるGPT4Hints-GPT3.5Valを開発する。 最初のステップとして、GPT-4 を ``tutor'' モデルとして利用してヒントを生成する -- 失敗するテストケースのシンボル情報とプロンプト修正を使用することで、生成品質を向上させる。 次のステップとして、より弱いモデルである GPT-3.5 を ``student'' モデルとして活用して、ヒントの品質をさらに検証します。 基礎アルゴリズムから正規表現, pandasライブラリを用いたデータ解析まで,様々な概念をカバーするpythonプログラムの3つの実世界データセットを用いて,本手法の有効性を示す。

Generative AI and large language models hold great promise in enhancing programming education by automatically generating individualized feedback for students. We investigate the role of generative AI models in providing human tutor-style programming hints to help students resolve errors in their buggy programs. Recent works have benchmarked state-of-the-art models for various feedback generation scenarios; however, their overall quality is still inferior to human tutors and not yet ready for real-world deployment. In this paper, we seek to push the limits of generative AI models toward providing high-quality programming hints and develop a novel technique, GPT4Hints-GPT3.5Val. As a first step, our technique leverages GPT-4 as a ``tutor'' model to generate hints -- it boosts the generative quality by using symbolic information of failing test cases and fixes in prompts. As a next step, our technique leverages GPT-3.5, a weaker model, as a ``student'' model to further validate the hint quality -- it performs an automatic quality validation by simulating the potential utility of providing this feedback. We show the efficacy of our technique via extensive evaluation using three real-world datasets of Python programs covering a variety of concepts ranging from basic algorithms to regular expressions and data analysis using pandas library.
翻訳日:2023-12-20 22:49:41 公開日:2023-12-19
# 必要な時に採用する: オークションベースのフェデレーションラーニングのための個人参加型リクルート

Hire When You Need to: Gradual Participant Recruitment for Auction-based Federated Learning ( http://arxiv.org/abs/2310.02651v2 )

ライセンス: Link先を確認
Xavier Tan and Han Yu(参考訳) FL(Federated Learning)の成功は、データ所有者(DO)の量と品質と、FLモデルトレーニングに参加する動機に依存する。 評価に基づくFL選択法が提案されている。 しかし、コールドスタート問題と高い信頼性を持つDOに対する潜在的な選択バイアスの課題に直面している。 このようなバイアスは、将来のflトレーニングラウンドから評価dosが早期に除外される結果となり、トレーニングデータの多様性と結果モデルの一般化性が低下する。 これらの課題に対処するために,オークションベース連合学習(gps-afl)のための段階的参加者選択方式を提案する。 FLタスクに必要な全てのDOを1回に選択する必要があると一般的に仮定する既存のAFLインセンティブメカニズムとは異なり、GPS-AFLは繰り返しの相互作用を通じてより多くの情報が明らかにされるため、複数の訓練ラウンドで必要なDOを徐々に選択する。 評価に基づくFLにおける選択バイアスの欠点を軽減しつつ、コスト削減と性能向上のバランスをとるように設計されている。 実世界のデータセットに基づく広範囲な実験により、gps-aflの重要な利点が示され、これはコストを33.65%削減し、平均で2.91%改善した。

The success of Federated Learning (FL) depends on the quantity and quality of the data owners (DOs) as well as their motivation to join FL model training. Reputation-based FL participant selection methods have been proposed. However, they still face the challenges of the cold start problem and potential selection bias towards highly reputable DOs. Such a bias can result in lower reputation DOs being prematurely excluded from future FL training rounds, thereby reducing the diversity of training data and the generalizability of the resulting models. To address these challenges, we propose the Gradual Participant Selection scheme for Auction-based Federated Learning (GPS-AFL). Unlike existing AFL incentive mechanisms which generally assume that all DOs required for an FL task must be selected in one go, GPS-AFL gradually selects the required DOs over multiple rounds of training as more information is revealed through repeated interactions. It is designed to strike a balance between cost saving and performance enhancement, while mitigating the drawbacks of selection bias in reputation-based FL. Extensive experiments based on real-world datasets demonstrate the significant advantages of GPS-AFL, which reduces costs by 33.65% and improved total utility by 2.91%, on average compared to the best-performing state-of-the-art approach.
翻訳日:2023-12-20 22:49:16 公開日:2023-12-19
# Mind the Gap: 診断AIモデルにおけるドメインの一般化を広めるフェデレーションラーニング

Mind the Gap: Federated Learning Broadens Domain Generalization in Diagnostic AI Models ( http://arxiv.org/abs/2310.00757v2 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Christiane Kuhl, Marwin-Jonathan Saehn, Peter Isfort, Daniel Truhn, Sven Nebelung(参考訳) 目に見えないデータセットに適切に一般化する堅牢な人工知能(AI)モデルの開発は困難であり、通常は大規模で可変なデータセットを必要とする。 フェデレーション学習(fl)では、モデルを交換せずにローカルデータセットを保持する多数のサイトで協調的にトレーニングする。 これまでのところ、胸部ラジオグラフィーを解釈するAIモデルのドメイン内診断とドメイン外性能に対するトレーニング戦略、すなわち局所的対協調的効果は評価されていない。 Consequently, using 610,000 chest radiographs from five institutions across the globe, we assessed diagnostic performance as a function of training strategy (i.e., local vs. collaborative), network architecture (i.e., convolutional vs. transformer-based), generalization performance (i.e., on-domain vs. off-domain), imaging finding (i.e., cardiomegaly, pleural effusion, pneumonia, atelectasis, consolidation, pneumothorax, and no abnormality), dataset size (i.e., from n=18,000 to 213,921 radiographs), and dataset diversity. 大規模なデータセットでは、flのパフォーマンスが最小限に向上するだけでなく、場合によっては低下も見られた。 対照的に、小さなデータセットでは顕著な改善が見られた。 したがって、オンドメインのパフォーマンスは主にデータサイズのトレーニングによって決まる。 しかし、ドメイン外のパフォーマンスはトレーニングの多様性により依存した。 さまざまな外部機関間で協調的にトレーニングされた場合、aiモデルは一貫してドメイン外のタスクのためにローカルにトレーニングされたモデルを超え、データ多様性を活用するflの可能性を強調した。 結論として、flは診断のプライバシ、再現性、aiモデルのドメイン外の信頼性、そして潜在的に医療結果の最適化を促進することができる。

Developing robust artificial intelligence (AI) models that generalize well to unseen datasets is challenging and usually requires large and variable datasets, preferably from multiple institutions. In federated learning (FL), a model is trained collaboratively at numerous sites that hold local datasets without exchanging them. So far, the impact of training strategy, i.e., local versus collaborative, on the diagnostic on-domain and off-domain performance of AI models interpreting chest radiographs has not been assessed. Consequently, using 610,000 chest radiographs from five institutions across the globe, we assessed diagnostic performance as a function of training strategy (i.e., local vs. collaborative), network architecture (i.e., convolutional vs. transformer-based), generalization performance (i.e., on-domain vs. off-domain), imaging finding (i.e., cardiomegaly, pleural effusion, pneumonia, atelectasis, consolidation, pneumothorax, and no abnormality), dataset size (i.e., from n=18,000 to 213,921 radiographs), and dataset diversity. Large datasets not only showed minimal performance gains with FL but, in some instances, even exhibited decreases. In contrast, smaller datasets revealed marked improvements. Thus, on-domain performance was mainly driven by training data size. However, off-domain performance leaned more on training diversity. When trained collaboratively across diverse external institutions, AI models consistently surpassed models trained locally for off-domain tasks, emphasizing FL's potential in leveraging data diversity. In conclusion, FL can bolster diagnostic privacy, reproducibility, and off-domain reliability of AI models and, potentially, optimize healthcare outcomes.
翻訳日:2023-12-20 22:48:31 公開日:2023-12-19
# GPT-Fathom: GPT-4以降への進化経路を理解するための大規模言語モデルのベンチマーク

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond ( http://arxiv.org/abs/2309.16583v5 )

ライセンス: Link先を確認
Shen Zheng, Yuyu Zhang, Yijie Zhu, Chenguang Xi, Pengyang Gao, Xun Zhou, Kevin Chen-Chuan Chang(参考訳) 大規模言語モデル(LLM)の急速な進歩により、その能力と限界を評価するための総合的な評価スイートの必要性が高まっている。 既存のLCMのリーダーボードは、一貫性のある設定やプロンプトのない他の論文で報告されたスコアを参照することが多い。 本稿では, OpenAI Evals 上に構築されたオープンソースかつ再現可能な LLM 評価スイートである GPT-Fathom を紹介する。 我々は,7つの機能カテゴリにまたがる20以上のベンチマークにおいて,10以上のLLMとOpenAIのレガシモデルを整列した設定で,体系的に評価した。 OpenAIの初期のモデルに関する我々の振り返り研究は、GPT-3からGPT-4への進化経路に関する貴重な洞察を提供する。 コードデータを追加することでLCMの推論能力が改善されるかどうか、SFTとRLHFによってLCMの能力のどの面が改善されるのか、アライメント税はいくらになるのか、といった技術的な詳細を含む。 我々の分析は、先進LLMの透明性向上を目的として、これらの疑問の多くに光を当てている。

With the rapid advancement of large language models (LLMs), there is a pressing need for a comprehensive evaluation suite to assess their capabilities and limitations. Existing LLM leaderboards often reference scores reported in other papers without consistent settings and prompts, which may inadvertently encourage cherry-picking favored settings and prompts for better results. In this work, we introduce GPT-Fathom, an open-source and reproducible LLM evaluation suite built on top of OpenAI Evals. We systematically evaluate 10+ leading LLMs as well as OpenAI's legacy models on 20+ curated benchmarks across 7 capability categories, all under aligned settings. Our retrospective study on OpenAI's earlier models offers valuable insights into the evolutionary path from GPT-3 to GPT-4. Currently, the community is eager to know how GPT-3 progressively improves to GPT-4, including technical details like whether adding code data improves LLM's reasoning capability, which aspects of LLM capability can be improved by SFT and RLHF, how much is the alignment tax, etc. Our analysis sheds light on many of these questions, aiming to improve the transparency of advanced LLMs.
翻訳日:2023-12-20 22:47:17 公開日:2023-12-19
# 負荷依存コストによる中国のポストマン問題を解決するためのグラフ注意に基づく深層強化学習

Graph Attention-based Deep Reinforcement Learning for solving the Chinese Postman Problem with Load-dependent costs ( http://arxiv.org/abs/2310.15516v3 )

ライセンス: Link先を確認
Cong Dao Tran, Truong Son Hy(参考訳) 近年,深い強化学習(DRL)モデルがルーティング問題を解く上で有望な結果を示している。 しかしながら、ほとんどのDRLソルバは、トラベリングセールスマン問題(TSP)のようなノードルーティング問題を解決するために一般的に提案されている。 一方、中国ポストマン問題(CPP)のようなアークルーティング問題に対するニューラルネットワークの適用については、TSPと比較して不規則で複雑な解空間がしばしばあるため、限定的な研究がなされている。 これらのギャップを埋めるために,負荷制約を伴う複雑なアークルーティング問題であるCPP-LC(Corberan et al., 2018)に対処する新しいDRLフレームワークを提案する。 この手法の目新しさは2つある。 まず、CPP-LCをマルコフ決定過程(MDP)シーケンシャルモデルとして定式化する。 次に、CPP-LC課題に効果的に対応するために、エンコーダとデコーダからなるDRL、すなわちArc-DRLに基づく自己回帰モデルを導入する。 このようなフレームワークにより、DRLモデルはルーティング問題に対して効率よく、かつ、辛抱強く動作する。 さらに,CPP-LCのための進化的アルゴリズム(EA)に基づくバイオインスパイアされた新しいメタヒューリスティックソリューションを提案する。 大規模な実験により、Arc-DRLは、(Corberanらによって提案された)CPP-LCの大規模なベンチマークデータセットにおいて、反復局所探索(ILS)や可変近傍探索(VNS)のような既存のメタヒューリスティックな手法よりも、ソリューションの品質と実行時間の両方に関して優れていることが示された。 EA、ILS、VNSといったメタヒューリスティクスのためのC++実装と、データ生成のためのコード、生成されたデータはhttps://github.com/HySonLab/ Chinese_Postman_Problemでリリースしています。

Recently, Deep reinforcement learning (DRL) models have shown promising results in solving routing problems. However, most DRL solvers are commonly proposed to solve node routing problems, such as the Traveling Salesman Problem (TSP). Meanwhile, there has been limited research on applying neural methods to arc routing problems, such as the Chinese Postman Problem (CPP), since they often feature irregular and complex solution spaces compared to TSP. To fill these gaps, this paper proposes a novel DRL framework to address the CPP with load-dependent costs (CPP-LC) (Corberan et al., 2018), which is a complex arc routing problem with load constraints. The novelty of our method is two-fold. First, we formulate the CPP-LC as a Markov Decision Process (MDP) sequential model. Subsequently, we introduce an autoregressive model based on DRL, namely Arc-DRL, consisting of an encoder and decoder to address the CPP-LC challenge effectively. Such a framework allows the DRL model to work efficiently and scalably to arc routing problems. Furthermore, we propose a new bio-inspired meta-heuristic solution based on Evolutionary Algorithm (EA) for CPP-LC. Extensive experiments show that Arc-DRL outperforms existing meta-heuristic methods such as Iterative Local Search (ILS) and Variable Neighborhood Search (VNS) proposed by (Corberan et al., 2018) on large benchmark datasets for CPP-LC regarding both solution quality and running time; while the EA gives the best solution quality with much more running time. We release our C++ implementations for metaheuristics such as EA, ILS and VNS along with the code for data generation and our generated data at https://github.com/HySonLab/Chinese_Postman_Problem
翻訳日:2023-12-20 22:40:15 公開日:2023-12-19
# graphgpt: 大きな言語モデルのためのグラフ命令チューニング

GraphGPT: Graph Instruction Tuning for Large Language Models ( http://arxiv.org/abs/2310.13023v2 )

ライセンス: Link先を確認
Jiabin Tang and Yuhao Yang and Wei Wei and Lei Shi and Lixin Su and Suqi Cheng and Dawei Yin and Chao Huang(参考訳) グラフニューラルネットワーク(GNN)は、再帰的な情報交換とグラフノード間の集約を通じてグラフ構造を理解する。 モデルロバスト性を改善するために、データ拡張のための有望なアプローチとして自己教師付き学習(SSL)が登場した。 しかしながら、トレーニング済みのグラフ埋め込みを生成する既存の方法は、特定のダウンストリームタスクラベルによる微調整に依存している場合が多いため、ラベル付きデータが不足したり、利用できない場合のユーザビリティが制限される。 そこで本研究では,ゼロショット学習シナリオに挑戦する上で,グラフモデルの一般化能力の向上に焦点をあてる。 大規模言語モデル(LLM)の成功に触発されて、下流のグラフデータから得られる情報なしに様々な下流のデータセットやタスクをまたいだ高度な一般化を実現するグラフ指向LLMの開発を目指す。 本稿では,LLMとグラフ構造知識をグラフ命令チューニングパラダイムに整合させるGraphGPTフレームワークを提案する。 本フレームワークでは,テキスト情報とグラフ構造との接続を確立するために,テキストグラウンドディングコンポーネントを組み込んでいる。 さらに,ライトウェイトなグラフテキストアライメントプロジェクタを伴って,2段階の命令チューニングパラダイムを提案する。 このパラダイムは、自己教師付きグラフ構造信号とタスク固有のグラフ命令を探索し、複雑なグラフ構造を理解するためのllmをガイドし、異なる下流タスク間の適応性を改善する。 本フレームワークは,教師付きおよびゼロショットグラフ学習タスクで評価され,より優れた一般化と最先端のベースラインを実現する。

Graph Neural Networks (GNNs) have advanced graph structure understanding via recursive information exchange and aggregation among graph nodes. To improve model robustness, self-supervised learning (SSL) has emerged as a promising approach for data augmentation. However, existing methods for generating pre-trained graph embeddings often rely on fine-tuning with specific downstream task labels, which limits their usability in scenarios where labeled data is scarce or unavailable. To address this, our research focuses on advancing the generalization capabilities of graph models in challenging zero-shot learning scenarios. Inspired by the success of large language models (LLMs), we aim to develop a graph-oriented LLM that can achieve high generalization across diverse downstream datasets and tasks, even without any information available from the downstream graph data. In this work, we present the GraphGPT framework that aligns LLMs with graph structural knowledge with a graph instruction tuning paradigm. Our framework incorporates a text-graph grounding component to establish a connection between textual information and graph structures. Additionally, we propose a dual-stage instruction tuning paradigm, accompanied by a lightweight graph-text alignment projector. This paradigm explores self-supervised graph structural signals and task-specific graph instructions, to guide LLMs in understanding complex graph structures and improving their adaptability across different downstream tasks. Our framework is evaluated on supervised and zero-shot graph learning tasks, demonstrating superior generalization and outperforming state-of-the-art baselines.
翻訳日:2023-12-20 22:38:53 公開日:2023-12-19
# MoConVQ: スケーラブル離散表現による統一物理に基づく運動制御

MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations ( http://arxiv.org/abs/2310.10198v3 )

ライセンス: Link先を確認
Heyuan Yao, Zhenhua Song, Yuyang Zhou, Tenglong Ao, Baoquan Chen, Libin Liu(参考訳) 本稿では,スケーラブルな離散表現を用いた物理ベースの運動制御のための新しい統一フレームワークであるmoconvqを提案する。 ベクトル量子化変分オートエンコーダ(vq-vae)とモデルに基づく強化学習に基づいて,数万時間の動作例にまたがる大規模非構造化データセットからの動作埋め込みを効果的に学習する。 結果として得られるモーション表現は、多様なモーションスキルをキャプチャするだけでなく、さまざまなアプリケーションに対して堅牢で直感的なインターフェースを提供する。 様々なモーションソースからのユニバーサルトラッキング制御、教師付き学習を用いた潜在モーション表現による対話型文字制御、gptフレームワークを用いた自然言語記述からの物理ベースのモーション生成、そして最も興味深いのは、複雑で抽象的なタスクに取り組むためのコンテキスト内学習を備えた大規模言語モデル(llm)とのシームレスな統合である。

In this work, we present MoConVQ, a novel unified framework for physics-based motion control leveraging scalable discrete representations. Building upon vector quantized variational autoencoders (VQ-VAE) and model-based reinforcement learning, our approach effectively learns motion embeddings from a large, unstructured dataset spanning tens of hours of motion examples. The resultant motion representation not only captures diverse motion skills but also offers a robust and intuitive interface for various applications. We demonstrate the versatility of MoConVQ through several applications: universal tracking control from various motion sources, interactive character control with latent motion representations using supervised learning, physics-based motion generation from natural language descriptions using the GPT framework, and, most interestingly, seamless integration with large language models (LLMs) with in-context learning to tackle complex and abstract tasks.
翻訳日:2023-12-20 22:37:16 公開日:2023-12-19
# vlis: ユニモーダル言語モデルがマルチモーダル言語生成をガイド

VLIS: Unimodal Language Models Guide Multimodal Language Generation ( http://arxiv.org/abs/2310.09767v2 )

ライセンス: Link先を確認
Jiwan Chung, Youngjae Yu(参考訳) 言語とビジョンのシナジーを活用したマルチモーダル言語生成は急速に拡大する分野である。 しかし、既存のビジョン言語モデルは複雑な言語理解を必要とする課題に直面している。 この問題を解決するために,視覚言語モデルの視覚条件付け能力と単調テキストのみの言語モデルの言語理解を組み合わせた新しいフレームワークである「重要サンプリング重み(vlis)」として視覚言語モデルを導入する。 視覚言語モデルから各画像とテキストのポイントワイズ情報を抽出し、その値を重要サンプリング重みとして使い、テキストのみのモデルからトークンの確率を調整する。 VLISは、共通理解(WHOOPS、OK-VQA、ScienceQA)や複雑なテキスト生成(Concadia、Image Paragraph Captioning、ROCStories)など、様々なタスクにおける視覚言語モデルを改善する。 以上の結果から,VLISは多モーダル言語生成の新たな方向性を示す可能性が示唆された。

Multimodal language generation, which leverages the synergy of language and vision, is a rapidly expanding field. However, existing vision-language models face challenges in tasks that require complex linguistic understanding. To address this issue, we introduce Visual-Language models as Importance Sampling weights (VLIS), a novel framework that combines the visual conditioning capability of vision-language models with the language understanding of unimodal text-only language models without further training. It extracts pointwise mutual information of each image and text from a visual-language model and uses the value as an importance sampling weight to adjust the token likelihood from a text-only model. VLIS improves vision-language models on diverse tasks, including commonsense understanding (WHOOPS, OK-VQA, and ScienceQA) and complex text generation (Concadia, Image Paragraph Captioning, and ROCStories). Our results suggest that VLIS represents a promising new direction for multimodal language generation.
翻訳日:2023-12-20 22:36:59 公開日:2023-12-19
# 粗粒林と多中心損失に基づく長山分類

Long-Tailed Classification Based on Coarse-Grained Leading Forest and Multi-Center Loss ( http://arxiv.org/abs/2310.08206v2 )

ライセンス: Link先を確認
Jinye Yang, Ji Xu, Di Wu, Jianhang Tang, Shaobo Li, Guoyin Wang(参考訳) ロングテール(lt)分類は現実の世界では避けられない挑戦的な問題である。 既存のロングテール分類法は、属性的不均衡を無視しながらクラス的不均衡を解決することだけに焦点を当てている。 分類モデルの偏差は、クラスと属性の両方の不均衡によって引き起こされる。 ほとんどのデータセットでは属性が暗黙的であり、属性の組み合わせは複雑であるので、属性に関する不均衡は扱いにくい。 そこで本研究では,不変特徴学習による多面的粒度分類モデルの構築を目的とした,新しいロングテール分類フレームワークを提案する。 この方法は、クラス内の属性の分布をよりよく特徴付けるために、最初に教師なしで粗粒林(clf)を構築する。 属性の分布に応じて、異なる不均衡データセットを構築するのに適切なサンプリング戦略をカスタマイズできる。 次に,特徴学習過程における混乱特性を徐々に排除することを目的としたマルチセンター・ロス(MCL)を導入する。 提案するフレームワークは,特定のLT分類モデル構造に必ずしも対応せず,既存のLTメソッドを独立したコンポーネントとして統合することができる。 大規模な実験により,既存のベンチマークである ImageNet-GLT と MSCOCO-GLT の両方で最先端の性能を実現し,既存の LT 手法の性能を向上させることができた。 私たちのコードはgithubで入手できる: \url{https://github.com/jinyery/cognisance}

Long-tailed (LT) classification is an unavoidable and challenging problem in the real world. Most existing long-tailed classification methods focus only on solving the class-wise imbalance while ignoring the attribute-wise imbalance. The deviation of a classification model is caused by both class-wise and attribute-wise imbalance. Due to the fact that attributes are implicit in most datasets and the combination of attributes is complex, attribute-wise imbalance is more difficult to handle. For this purpose, we proposed a novel long-tailed classification framework, aiming to build a multi-granularity classification model by means of invariant feature learning. This method first unsupervisedly constructs Coarse-Grained forest (CLF) to better characterize the distribution of attributes within a class. Depending on the distribution of attributes, one can customize suitable sampling strategies to construct different imbalanced datasets. We then introduce multi-center loss (MCL) that aims to gradually eliminate confusing attributes during feature learning process. The proposed framework does not necessarily couple to a specific LT classification model structure and can be integrated with any existing LT method as an independent component. Extensive experiments show that our approach achieves state-of-the-art performance on both existing benchmarks ImageNet-GLT and MSCOCO-GLT and can improve the performance of existing LT methods. Our codes are available on GitHub: \url{https://github.com/jinyery/cognisance}
翻訳日:2023-12-20 22:36:38 公開日:2023-12-19
# 確率的有限状態オートマトンとしてのリカレントニューラルネットワークモデル

Recurrent Neural Language Models as Probabilistic Finite-state Automata ( http://arxiv.org/abs/2310.05161v4 )

ライセンス: Link先を確認
Anej Svete, Ryan Cotterell(参考訳) 言語モデル(lms)を十分に理解された形式主義の観点から研究することで、その能力と限界を正確に特徴づけることができる。 前回の研究では、非重み付き形式言語を認識する能力の観点から、recurrent neural network (rnn) lmsの表現能力を調査した。 しかし、lms は非重み付き形式言語を記述せず、文字列上の \emph{probability distributions} を定義する。 本研究では,RNN LMが表現できる確率分布のクラスについて検討する。 単純RNNは確率的有限状態オートマトンの部分クラスと等価であり、したがって有限状態モデルで表現可能な確率分布の厳密な部分集合をモデル化できることを示す。 さらに, 有限状態LMをRNNで表現する空間複雑性について検討した。 任意の決定論的有限状態LMをアルファベット$\alphabet$上の$N$状態で表現するために、RNNは$\Omega\left(N |\Sigma|\right)$ニューロンを必要とする。 これらの結果は、RNN LMが表現できる分布のクラスを特徴付けるための第一歩を示し、その能力と限界を理解するのに役立ちます。

Studying language models (LMs) in terms of well-understood formalisms allows us to precisely characterize their abilities and limitations. Previous work has investigated the representational capacity of recurrent neural network (RNN) LMs in terms of their capacity to recognize unweighted formal languages. However, LMs do not describe unweighted formal languages -- rather, they define \emph{probability distributions} over strings. In this work, we study what classes of such probability distributions RNN LMs can represent, which allows us to make more direct statements about their capabilities. We show that simple RNNs are equivalent to a subclass of probabilistic finite-state automata, and can thus model a strict subset of probability distributions expressible by finite-state models. Furthermore, we study the space complexity of representing finite-state LMs with RNNs. We show that, to represent an arbitrary deterministic finite-state LM with $N$ states over an alphabet $\alphabet$, an RNN requires $\Omega\left(N |\Sigma|\right)$ neurons. These results present a first step towards characterizing the classes of distributions RNN LMs can represent and thus help us understand their capabilities and limitations.
翻訳日:2023-12-20 22:34:20 公開日:2023-12-19
# トポロジカル量子場理論を超えるトポロジカル秩序

Topological Orders Beyond Topological Quantum Field Theories ( http://arxiv.org/abs/2311.03353v2 )

ライセンス: Link先を確認
P. Vojta, G. Ortiz, and Z. Nussinov(参考訳) 量子トポロジカル順序を示すシステムは、量子コンピューティングスキームに非常に魅力的なロバストな特性を持つ。 位相場の量子論は、特にそのエノン励起を含む位相次数を示すシステムの基本的な特性を捉えるのに強力であることが証明されている。 ここでは、この共通パースペクティブの外にあるシステムについて検討し、距離依存相互作用性エノンを持つトポロジカル秩序を示すモデルの豊富なクラスを示す。 いくつかの例で示すように、ガッピングされた最低エネルギーの励起は、システム全体を密に覆うオンから成っている。 これは、一般に位相量子場理論では説明されない挙動に繋がる。 従来型(landau)命令を表示するシステムに対して双対性を行うことで,これらのモデルを検証した。 提案手法は,一般ランドウ型理論を同じ空間次元の位相次数を持つ双対モデルにマッピングする一般的な手法を可能にする。 我々のモデルの低エネルギー部分空間は、表面符号よりも熱効果に強い回復力を与えることができる。

Systems displaying quantum topological order feature robust characteristics that are very attractive to quantum computing schemes. Topological quantum field theories have proven to be powerful in capturing the quintessential attributes of systems displaying topological order including, in particular, their anyon excitations. Here, we investigate systems that lie outside this common purview, and present a rich class of models exhibiting topological orders with distance-dependent interacting anyons. As we illustrate, in some instances, the gapped lowest-energy excitations are comprised of anyons that densely cover the entire system. This leads to behaviors not typically described by topological quantum field theories. We examine these models by performing dualities to systems displaying conventional (i.e., Landau) orders. Our approach enables a general method for mapping generic Landau-type theories to dual models with topological order of the same spatial dimension. The low-energy subspaces of our models can be made more resilient to thermal effects than those of surface codes.
翻訳日:2023-12-20 22:27:30 公開日:2023-12-19
# FP8-LM: FP8大規模言語モデルのトレーニング

FP8-LM: Training FP8 Large Language Models ( http://arxiv.org/abs/2310.18313v2 )

ライセンス: Link先を確認
Houwen Peng and Kan Wu and Yixuan Wei and Guoshuai Zhao and Yuxiang Yang and Ze Liu and Yifan Xiong and Ziyue Yang and Bolin Ni and Jingcheng Hu and Ruihang Li and Miaosen Zhang and Chen Li and Jia Ning and Ruizhe Wang and Zheng Zhang and Shuguang Liu and Joe Chau and Han Hu and Peng Cheng(参考訳) 本稿では,大規模言語モデル(LLM)の効率的な学習のためのFP8低ビットデータフォーマットについて検討する。 我々の重要な洞察は、LLMトレーニングにおける勾配やオプティマイザ状態のようなほとんどの変数は、モデル精度を損なうことなく、ハイパーパラメータを変更することなく、低精度のデータフォーマットを使用することができるということです。 具体的には,LLMの学習のためのFP8自動混合精度フレームワークを提案する。 このフレームワークは、3段階のFP8利用を提供し、LLMの混合精度と分散並列トレーニングを効率化する。 徐々に8ビットの勾配、最適化状態、分散学習を段階的に取り入れている。 実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減を達成しただけでなく,広く採用されているBF16フレームワーク(Megatron-LM)よりも75%高速に動作し,Nvidia Transformer Engineの速度を37%超えた。 これにより、大規模な基礎モデルのトレーニングコストが大幅に削減される。 さらに、FP8混合精度訓練手法は汎用的である。 llm命令チューニングや人間フィードバックによる強化学習など、他のタスクにもシームレスに適用でき、微調整費用の節約が期待できる。 FP8の低精度トレーニングフレームワークは、https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}でオープンソース化されています。

In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 39% reduction in real memory usage but also ran 75% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 37%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
翻訳日:2023-12-20 22:25:39 公開日:2023-12-19
# マスク付き特徴アライメントを持つ平均教師DETR:ロバストドメイン適応検出トランスフレームワーク

Mean Teacher DETR with Masked Feature Alignment: A Robust Domain Adaptive Detection Transformer Framework ( http://arxiv.org/abs/2310.15646v4 )

ライセンス: Link先を確認
Weixi Weng, Chun Yuan(参考訳) 非教師付きドメイン適応オブジェクト検出(UDAOD)による検出変換(DETR)の研究は主に特徴アライメントに焦点を当てており、既存の手法は2つの種類に分けられる。 1段階の機能アライメント手法は、パフォーマンスの変動やトレーニングの停滞を容易に引き起こすことができる。 平均教師に基づく2段階特徴アライメント手法は、事前訓練段階に続き、自己訓練段階と、信頼性の高い事前訓練モデルの獲得と一貫した性能向上の達成に直面する課題を含む。 上述の手法では、ターゲットライクなドメインのような第3の関連ドメインをどのように活用して適応を支援するかはまだ検討されていない。 これらの問題に対処するため、我々はMTMと呼ばれる2段階のフレームワーク、すなわちMasked Feature Alignmentを用いた平均教師-DETRを提案する。 事前訓練段階では,画像スタイルの転送によって生成されたラベル付きターゲットライクな画像を用いて,性能変動を回避する。 自己学習の段階では、平均教師に基づく擬似ラベルによる未ラベルのターゲット画像を活用し、学生モデルの一貫した性能向上を保証するために、Object Queries Knowledge Transfer (OQKT)と呼ばれるモジュールを提案する。 最も重要なことは,Masked Domain Query-based Feature Alignment (MDQFA) やMasked Token-wise Feature Alignment (MTWFA) といったマスク付き機能アライメント手法によって,トレーニングの停滞を防止し,事前訓練段階における堅牢な事前訓練モデルを実現するとともに,自己学習段階におけるモデルの目標性能を向上させることにある。 3つの難解なシナリオの実験と理論的解析はmtmの有効性を検証する。

Unsupervised domain adaptation object detection (UDAOD) research on Detection Transformer(DETR) mainly focuses on feature alignment and existing methods can be divided into two kinds, each of which has its unresolved issues. One-stage feature alignment methods can easily lead to performance fluctuation and training stagnation. Two-stage feature alignment method based on mean teacher comprises a pretraining stage followed by a self-training stage, each facing problems in obtaining reliable pretrained model and achieving consistent performance gains. Methods mentioned above have not yet explore how to utilize the third related domain such as target-like domain to assist adaptation. To address these issues, we propose a two-stage framework named MTM, i.e. Mean Teacher-DETR with Masked Feature Alignment. In the pretraining stage, we utilize labeled target-like images produced by image style transfer to avoid performance fluctuation. In the self-training stage, we leverage unlabeled target images by pseudo labels based on mean teacher and propose a module called Object Queries Knowledge Transfer (OQKT) to ensure consistent performance gains of the student model. Most importantly, we propose masked feature alignment methods including Masked Domain Query-based Feature Alignment (MDQFA) and Masked Token-wise Feature Alignment (MTWFA) to alleviate domain shift in a more robust way, which not only prevent training stagnation and lead to a robust pretrained model in the pretraining stage, but also enhance the model's target performance in the self-training stage. Experiments on three challenging scenarios and a theoretical analysis verify the effectiveness of MTM.
翻訳日:2023-12-20 22:23:24 公開日:2023-12-19
# VLNは非感覚的または無関係な指示による作業の事前訓練を行っているか?

Does VLN Pretraining Work with Nonsensical or Irrelevant Instructions? ( http://arxiv.org/abs/2311.17280v3 )

ライセンス: Link先を確認
Wang Zhu, Ishika Singh, Yuan Huang, Robin Jia and Jesse Thomason(参考訳) バックトランスレーションによるデータ拡張は、生成した命令がノイズであっても、Vision-and-Language Navigation (VLN)モデルを事前訓練する場合に一般的である。 しかし、そのノイズは重要か? R2R上のHAMTとVLN-BERTの両方のダウンストリーム性能には,事前学習中の非感覚的あるいは無関係な言語命令がほとんど影響しないことがわかった。 これらの結果を評価するために、下流の性能を改善する非感覚的な命令を生成する効率的な拡張手法Unigram + Objectを考案した。 以上の結果から,VLN R2R事前訓練で重要なことは,指示の質ではなく,視線量であることが示唆された。

Data augmentation via back-translation is common when pretraining Vision-and-Language Navigation (VLN) models, even though the generated instructions are noisy. But: does that noise matter? We find that nonsensical or irrelevant language instructions during pretraining can have little effect on downstream performance for both HAMT and VLN-BERT on R2R, and is still better than only using clean, human data. To underscore these results, we concoct an efficient augmentation method, Unigram + Object, which generates nonsensical instructions that nonetheless improve downstream performance. Our findings suggest that what matters for VLN R2R pretraining is the quantity of visual trajectories, not the quality of instructions.
翻訳日:2023-12-20 22:16:26 公開日:2023-12-19
# 捕獲イオン結晶の非古典運動を利用した大域スピン回転と微分スピン回転の量子エンハンシングメトロロジー

Exploiting nonclassical motion of a trapped ion crystal for quantum-enhanced metrology of global and differential spin rotations ( http://arxiv.org/abs/2311.17275v2 )

ライセンス: Link先を確認
R. J. Lewis-Swan, J. C. Zu\~niga Castro, D. Barberena, A. M. Rey(参考訳) イオンの集団運動の圧縮状態と結合することにより、閉じ込められたイオン配列における非古典的スピン状態の生成を理論的に検討する。 生成したスピン状態の相関は、イオンアレイの特定の振動モードと相互作用してスピンのサブセンスの大域的または微分的な回転の量子エンハンスセンシングのために調整することができる。 本研究では,生成した状態を利用し,有限サイズ効果,スピンと運動の自由度と技術的ノイズとの不均質な結合の影響を判定するプロトコルを提案する。 本研究はスピンボーソン系における量子エンハンスド・メトロロジーの相関を調整した多体状態の生成に新たな機会を示唆する。

We theoretically investigate prospects for the creation of nonclassical spin states in trapped ion arrays by coupling to a squeezed state of the collective motion of the ions. The correlations of the generated spin states can be tailored for quantum-enhanced sensing of global or differential rotations of sub-ensembles of the spins by working with specific vibrational modes of the ion array. We propose a pair of protocols to utilize the generated states and determine the impact of finite size effects, inhomogeneous couplings between the spin and motional degrees of freedom and technical noise. Our work suggests new opportunities for the preparation of many-body states with tailored correlations for quantum-enhanced metrology in spin-boson systems.
翻訳日:2023-12-20 22:16:09 公開日:2023-12-19
# 超信頼性無線ネットワーク制御系における資源配分のための最適化理論に基づく深層強化学習

Optimization Theory Based Deep Reinforcement Learning for Resource Allocation in Ultra-Reliable Wireless Networked Control Systems ( http://arxiv.org/abs/2311.16895v2 )

ライセンス: Link先を確認
Hamida Qumber Ali, Amirhassan Babazadeh Darabi, Sinem Coleri(参考訳) 無線ネットワーク制御システム(WNCS)の設計は、超高信頼性を提供しながら、最小限の複雑さと通信オーバーヘッドで制御と通信システム間の重要な相互作用に対処する必要がある。 本稿では,制御系と通信系の結合設計のための新しい最適化理論に基づく深部強化学習(DRL)フレームワークを提案する。 有限ブロック長レジームにおける通信システムの分割可能性とレート制約と制御系の安定性制約を満足しつつ、最小消費電力の目標を目標とする。 決定変数は、制御システムにおけるサンプリング期間と、通信システムにおけるブロック長およびパケットエラー確率を含む。 提案手法は最適化理論とDRLの2段階を含む。 最適化理論の段階では、結合最適化問題の定式化に続いて、決定変数の最適値間の数学的関係を求めるために最適条件が導出される。 これらの関係により、問題を複数のビルディングブロックに分解することができる。 DRLの段階では、単純化されているが取り外せないブロックはDRLに置き換えられる。 広範なシミュレーションにより、最適化理論に基づくDRLアプローチは最適化理論と純粋なDRLベースのアプローチより優れ、最適性能に近く、複雑度もはるかに低い。

The design of Wireless Networked Control System (WNCS) requires addressing critical interactions between control and communication systems with minimal complexity and communication overhead while providing ultra-high reliability. This paper introduces a novel optimization theory based deep reinforcement learning (DRL) framework for the joint design of controller and communication systems. The objective of minimum power consumption is targeted while satisfying the schedulability and rate constraints of the communication system in the finite blocklength regime and stability constraint of the control system. Decision variables include the sampling period in the control system, and blocklength and packet error probability in the communication system. The proposed framework contains two stages: optimization theory and DRL. In the optimization theory stage, following the formulation of the joint optimization problem, optimality conditions are derived to find the mathematical relations between the optimal values of the decision variables. These relations allow the decomposition of the problem into multiple building blocks. In the DRL stage, the blocks that are simplified but not tractable are replaced by DRL. Via extensive simulations, the proposed optimization theory based DRL approach is demonstrated to outperform the optimization theory and pure DRL based approaches, with close to optimal performance and much lower complexity.
翻訳日:2023-12-20 22:15:54 公開日:2023-12-19
# ufda: 実用的な仮定によるユニバーサルフェデレーションドメイン適応

UFDA: Universal Federated Domain Adaptation with Practical Assumptions ( http://arxiv.org/abs/2311.15570v2 )

ライセンス: Link先を確認
Xinhui Liu, Zhenghao Chen, Luping Zhou, Dong Xu, Wei Xi, Gairui Bai, Yihan Zhao, and Jizhong Zhao(参考訳) 従来型のフェデレーションドメイン適応(FDA)アプローチでは、多くの仮定が要求されるため、現実の状況では実現しにくくなり、セキュリティ上のリスクも伴う。 本稿では、以前のFDAの仮定を緩和し、Universal Federated Domain Adaptation (UFDA)というより実践的なシナリオを研究する。 ブラックボックスモデルと各ソースドメインのラベルセット情報のみを必要とするが、異なるソースドメインのラベルセットは一貫性がなく、ターゲットドメインのラベルセットは完全に盲目である。 新たに提案したUFDAシナリオに対するより効果的な解決策として,HCLD(Hot-Learning with Contrastive Label Disambiguation)という方法論を提案する。 特に、さまざまなソースドメインのブラックボックスモデルから1ホット出力を使用することで、UFDAのドメインシフトとカテゴリギャップの問題に取り組む。 さらに、共有クラスと未知クラスをよりよく区別するために、Mutual-Voting Decision (MVD) と呼ばれるクラスタレベルの戦略を提案し、ソースドメインとターゲットドメインの両方からピアクラス間で堅牢なコンセンサス知識を抽出する。 3つのベンチマークデータセットに関する広範囲な実験により,本手法がufdaシナリオに匹敵する性能を,より少ない仮定で達成できることが証明された。

Conventional Federated Domain Adaptation (FDA) approaches usually demand an abundance of assumptions, which makes them significantly less feasible for real-world situations and introduces security hazards. This paper relaxes the assumptions from previous FDAs and studies a more practical scenario named Universal Federated Domain Adaptation (UFDA). It only requires the black-box model and the label set information of each source domain, while the label sets of different source domains could be inconsistent, and the target-domain label set is totally blind. Towards a more effective solution for our newly proposed UFDA scenario, we propose a corresponding methodology called Hot-Learning with Contrastive Label Disambiguation (HCLD). It particularly tackles UFDA's domain shifts and category gaps problems by using one-hot outputs from the black-box models of various source domains. Moreover, to better distinguish the shared and unknown classes, we further present a cluster-level strategy named Mutual-Voting Decision (MVD) to extract robust consensus knowledge across peer classes from both source and target domains. Extensive experiments on three benchmark datasets demonstrate that our method achieves comparable performance for our UFDA scenario with much fewer assumptions, compared to previous methodologies with comprehensive additional assumptions.
翻訳日:2023-12-20 22:15:10 公開日:2023-12-19
# 分布シフト下における基礎モデルの正確な解析能力のベースライン解析

A Baseline Analysis of Reward Models' Ability To Accurately Analyze Foundation Models Under Distribution Shift ( http://arxiv.org/abs/2311.14743v5 )

ライセンス: Link先を確認
Will LeVine, Ben Pikus, Tony Chen, Sean Hendryx(参考訳) 基礎モデル、特にLarge Language Models (LLM)は近年広く注目を集め、採用されている。 Reinforcement Learning with Human Feedback (RLHF) は、所望の行動を捉えるために報酬モデルを訓練し、LLMの調整に使用される。 これらの報酬モデルは、所望の行動に対するLLM応答の順守を推定するために、推論時にさらに使用される。 しかしながら、これらの報酬モデルが分散シフトに対してどれほど堅牢かを測定する作業はほとんどありません。 本研究では,精度とキャリブレーションによる報奨モデルの性能評価(すなわち,精度と信頼性の整合性)が分布変化にどのように影響するかを評価する。 我々は、OODプロンプトと応答による新しいキャリブレーションパターンと精度低下を示し、報酬モデルがプロンプトよりも応答の変化に敏感であることを示す。 さらに,報奨モデル設定に分類によく用いられるOOD検出手法を適用し,これらの分布変化をプロンプトや応答で検出する。

Foundation models, specifically Large Language Models (LLM's), have lately gained wide-spread attention and adoption. Reinforcement Learning with Human Feedback (RLHF) involves training a reward model to capture desired behaviors, which is then used to align LLM's. These reward models are additionally used at inference-time to estimate LLM responses' adherence to those desired behaviors. However, there is little work measuring how robust these reward models are to distribution shifts. In this work, we evaluate how reward model performance - measured via accuracy and calibration (i.e. alignment between accuracy and confidence) - is affected by distribution shift. We show novel calibration patterns and accuracy drops due to OOD prompts and responses, and that the reward model is more sensitive to shifts in responses than prompts. Additionally, we adapt an OOD detection technique commonly used in classification to the reward model setting to detect these distribution shifts in prompts and responses.
翻訳日:2023-12-20 22:14:46 公開日:2023-12-19
# Taiyi: バイオメディカルタスクのためのバイリンガル微調整大言語モデル

Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse Biomedical Tasks ( http://arxiv.org/abs/2311.11608v2 )

ライセンス: Link先を確認
Ling Luo, Jinzhong Ning, Yingwen Zhao, Zhijun Wang, Zeyuan Ding, Peng Chen, Weiru Fu, Qinyu Han, Guangtao Xu, Yunzhi Qiu, Dinghao Pan, Jiru Li, Hao Li, Wenduo Feng, Senbo Tu, Yuqi Liu, Zhihao Yang, Jian Wang, Yuanyuan Sun, Hongfei Lin(参考訳) 目的: 既存の微調整バイオメディカル大規模言語モデル(LLM)は, 単言語バイオメディカル質問応答や会話タスクの性能向上に重点を置いている。 各種言語における多言語生物医学的NLPタスクに対する微調整LDMの有効性を検討するために,多言語生物医学的タスクのための多言語微調整LDMであるTaiyiを提案する。 Materials and Methods: 10以上のタスクタイプで140の既存の生物医学的テキストマイニングデータセット(102の英語と38の中国語データセット)を総合的に収集した。 その後、教師付き微調整のための2段階戦略を提案し、様々なタスクにおけるモデル性能を最適化する。 結果: 名前付きエンティティ認識, 関係抽出, テキスト分類, 質問応答タスクを含む13種類の実験結果から, タイイが一般LLMよりも優れた性能を示した。 追加のバイオメディカルNLPタスクを含むケーススタディは、タイイのバイリンガルなバイオメディカルマルチタスクの可能性をさらに示している。 結論: 高品質なバイオメディカルコーパスの活用と効果的な微調整戦略の開発は, バイオメディカルドメイン内のLCMの性能を著しく向上させる。 taiyiは教師付き微調整によるバイリンガルのマルチタスク機能を示している。 しかし,LLMに基づく生成手法では,生成タスクではない情報抽出のようなタスクは依然として困難であり,より小さな言語モデルの従来の差別的アプローチよりも優れている。

Objective: Most existing fine-tuned biomedical large language models (LLMs) focus on enhancing performance in monolingual biomedical question answering and conversation tasks. To investigate the effectiveness of the fine-tuned LLMs on diverse biomedical NLP tasks in different languages, We present Taiyi, a bilingual fine-tuned LLM for diverse biomedical tasks. Materials and Methods: We first curated a comprehensive collection of 140 existing biomedical text mining datasets (102 English and 38 Chinese datasets) across over 10 task types. Subsequently, a two-stage strategy is proposed for supervised fine-tuning to optimize the model performance across varied tasks. Results: Experimental results on 13 test sets covering named entity recognition, relation extraction, text classification, question answering tasks demonstrate that Taiyi achieves superior performance compared to general LLMs. The case study involving additional biomedical NLP tasks further shows Taiyi's considerable potential for bilingual biomedical multi-tasking. Conclusion: Leveraging rich high-quality biomedical corpora and developing effective fine-tuning strategies can significantly improve the performance of LLMs within the biomedical domain. Taiyi shows the bilingual multi-tasking capability through supervised fine-tuning. However, those tasks such as information extraction that are not generation tasks in nature remain challenging for LLM-based generative approaches, and they still underperform the conventional discriminative approaches of smaller language models.
翻訳日:2023-12-20 22:14:07 公開日:2023-12-19
# JaxMARL:JAXにおけるマルチエージェントRL環境

JaxMARL: Multi-Agent RL Environments in JAX ( http://arxiv.org/abs/2311.10090v4 )

ライセンス: Link先を確認
Alexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu, Jakob Nicolaus Foerster(参考訳) ベンチマークは、機械学習アルゴリズムの開発において重要な役割を果たす。 例えば、強化学習(RL)の研究は利用可能な環境やベンチマークに大きく影響されている。 しかし、RL環境は伝統的にCPU上で動作しており、典型的な学術計算ではスケーラビリティを制限している。 JAXの最近の進歩は、これらの計算ハードルを克服するためにハードウェアアクセラレーションを広く利用し、非常に並列なRLトレーニングパイプラインと環境を可能にしました。 これは特にマルチエージェント強化学習(MARL)研究に有用である。 第一に、複数のエージェントを各環境ステップで考慮し、計算負荷を加算し、第二に、非定常性、分散部分観測性、その他のMARL課題によりサンプルの複雑さが増大する。 本稿では,使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLについて紹介し,多くの一般的なMARL環境と一般的なベースラインアルゴリズムをサポートする。 ウォールクロック時間を考慮すると、JAXベースのトレーニングパイプラインの実行は既存のアプローチよりも最大で12500倍高速です。 これにより、効率よく徹底的な評価が可能となり、分野の評価危機を緩和する可能性がある。 また、スタークラフト・マルチエージェントチャレンジのベクトル化された簡易バージョンであるSMAXを導入し、ベンチマークを行い、スタークラフトIIのゲームエンジンを走らせる必要をなくした。 これはGPUアクセラレーションを可能にするだけでなく、より柔軟なMARL環境を提供する。 コードはhttps://github.com/flairox/jaxmarlで提供します。

Benchmarks play an important role in the development of machine learning algorithms. For example, research in reinforcement learning (RL) has been heavily influenced by available environments and benchmarks. However, RL environments are traditionally run on the CPU, limiting their scalability with typical academic compute. Recent advancements in JAX have enabled the wider use of hardware acceleration to overcome these computational hurdles, enabling massively parallel RL training pipelines and environments. This is particularly useful for multi-agent reinforcement learning (MARL) research. First of all, multiple agents must be considered at each environment step, adding computational burden, and secondly, the sample complexity is increased due to non-stationarity, decentralised partial observability, or other MARL challenges. In this paper, we present JaxMARL, the first open-source code base that combines ease-of-use with GPU enabled efficiency, and supports a large number of commonly used MARL environments as well as popular baseline algorithms. When considering wall clock time, our experiments show that per-run our JAX-based training pipeline is up to 12500x faster than existing approaches. This enables efficient and thorough evaluations, with the potential to alleviate the evaluation crisis of the field. We also introduce and benchmark SMAX, a vectorised, simplified version of the popular StarCraft Multi-Agent Challenge, which removes the need to run the StarCraft II game engine. This not only enables GPU acceleration, but also provides a more flexible MARL environment, unlocking the potential for self-play, meta-learning, and other future applications in MARL. We provide code at https://github.com/flairox/jaxmarl.
翻訳日:2023-12-20 22:13:40 公開日:2023-12-19
# モダリティ間のギャップを埋める方法:マルチモーダル大言語モデルに関する総合的な調査

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model ( http://arxiv.org/abs/2311.07594v2 )

ライセンス: Link先を確認
Shezheng Song, Xiaopeng Li, Shasha Li, Shan Zhao, Jie Yu, Jun Ma, Xiaoguang Mao, Weimin Zhang(参考訳) 本稿では,GPT-4のような大規模言語モデル(LLM)を統合し,テキストやビジョンなどのマルチモーダルデータを処理するMLLMについて述べる。 MLLMは、イメージナラティブの生成や、イメージベースの質問への回答、現実の人間とコンピュータの相互作用へのギャップを埋めること、人工知能への潜在的な道筋を示唆する機能を示す。 しかし、MLLMは多様性のセマンティックギャップの処理において依然として課題に直面しており、これは誤生成を招き、社会に潜在的なリスクをもたらす可能性がある。 適切なモダリティアライメント方法を選択することは重要であり、不適切なメソッドは性能改善に制限のあるより多くのパラメータを必要とする可能性がある。 本稿では,LLMのモーダリティアライメント手法とその既存機能について検討する。 モダリティアライメントの実装により、llmは環境問題に対処し、アクセシビリティを高めることができる。 本研究は,MLLMの既存のモーダルアライメント手法を,(1) LLMが理解できるようなデータにデータを変換するマルチモーダルコンバータ,(2) LLMが異なるタイプのデータをどのように認識するかを改善するマルチモーダルパーシーバー,(3) データの1つの共通形式(通常テキスト)への変換を支援するツール,(4) LLMにデータセット内の特定のタイプのデータを理解するように教えるデータ駆動手法の4つのグループに分けた。 この分野はまだ調査と実験の段階にあり、マルチモーダル情報アライメントのための様々な既存の研究方法を整理し、更新する。

This review paper explores Multimodal Large Language Models (MLLMs), which integrate Large Language Models (LLMs) like GPT-4 to handle multimodal data such as text and vision. MLLMs demonstrate capabilities like generating image narratives and answering image-based questions, bridging the gap towards real-world human-computer interactions and hinting at a potential pathway to artificial general intelligence. However, MLLMs still face challenges in processing the semantic gap in multimodality, which may lead to erroneous generation, posing potential risks to society. Choosing the appropriate modality alignment method is crucial, as improper methods might require more parameters with limited performance improvement. This paper aims to explore modality alignment methods for LLMs and their existing capabilities. Implementing modality alignment allows LLMs to address environmental issues and enhance accessibility. The study surveys existing modal alignment methods in MLLMs into four groups: (1) Multimodal Converters that change data into something LLMs can understand; (2) Multimodal Perceivers to improve how LLMs perceive different types of data; (3) Tools Assistance for changing data into one common format, usually text; and (4) Data-Driven methods that teach LLMs to understand specific types of data in a dataset. This field is still in a phase of exploration and experimentation, and we will organize and update various existing research methods for multimodal information alignment.
翻訳日:2023-12-20 22:12:28 公開日:2023-12-19
# 形状とファンネル効果を考慮したメディア混合モデリングのためのベイズ法

Bayesian Methods for Media Mix Modelling with shape and funnel effects ( http://arxiv.org/abs/2311.05587v4 )

ライセンス: Link先を確認
Javier Marin(参考訳) 近年、生成AIの大きな進歩は、基礎物理学の原理に基づく高度な数学的概念を応用し、人工知能の能力を高める物理にインスパイアされたモデルの重要な役割を強調している。 これらのモデルの中で、拡散方程式に基づくモデルは画像品質を大幅に改善した。 本研究は, 気体の運動論の基礎となるマクスウェル・ボルツマン方程式と, マーケティング・ミックス・モデリング(MMM)応用におけるミカエル・メンテンモデルの可能性を検討することを目的とする。 本稿では,これらの方程式を階層ベイズモデルに組み込んで,消費者行動の分析を行う。 これらの方程式セットは、社会的相互作用や消費者広告的相互作用のような複雑なシステムのランダムなダイナミクスを正確に記述する上で優れている。

In recent years, significant progress in generative AI has highlighted the important role of physics-inspired models that utilize advanced mathematical concepts based on fundamental physics principles to enhance artificial intelligence capabilities. Among these models, those based on diffusion equations have greatly improved image quality. This study aims to explore the potential uses of Maxwell-Boltzmann equation, which forms the basis of the kinetic theory of gases, and the Michaelis-Menten model in Marketing Mix Modelling (MMM) applications. We propose incorporating these equations into Hierarchical Bayesian models to analyse consumer behaviour in the context of advertising. These equation sets excel in accurately describing the random dynamics in complex systems like social interactions and consumer-advertising interactions.
翻訳日:2023-12-20 22:11:46 公開日:2023-12-19
# 時間関連スコーリングシステムにおける対向強化学習に基づくカウンター・エミュラル・アタック

Counter-Empirical Attacking based on Adversarial Reinforcement Learning for Time-Relevant Scoring System ( http://arxiv.org/abs/2311.05144v2 )

ライセンス: Link先を確認
Xiangguo Sun, Hong Cheng, Hang Dong, Bo Qiao, Si Qin, Qingwei Lin(参考訳) スコアリングシステムはビッグデータ時代のプラットフォームで一般的に見られる。 金融サービスのクレジットスコアシステムからeコマースショッピングプラットフォームの会員スコアに至るまで、プラットフォームマネージャはこのようなシステムを使用して、奨励されたアクティビティパターンに向かってユーザーをガイドし、リソースをより効果的かつ効率的に管理する。 このようなスコアリングシステムを確立するために、まずいくつかの"empirical criteria"が決定され、その後にスコアの要素ごとに専用のトップダウン設計が行われ、新しいアプリケーションシナリオにおけるスコアリング機能の調整とチューニングに多大な労力がかかる。 さらに悪いことに、多くの新プロジェクトは通常、合理的なスコアリングシステムを評価するための基盤や経験を持っていません。 新たなスコアリングシステムにおけるスコアリング機能を手動で調整する作業の軽減を図るため,事前に設定した実験基準からスコアリングシステムを革新的に研究し,ゼロからシステムを改善するための新しい枠組みを提案する。 本稿では, 「攻撃」 行動トレースを生成し, スコアリングシステムの経験則を破ろうとする「カウンタ-empirical attack」メカニズムを提案する。 そして、相手の「エンハンサー」を適用してスコアシステムを評価し、改善戦略を見出す。 対人学習問題を訓練することにより、経験的基準を破ろうとする攻撃活動トレースに対して、適切なスコアリング機能が堅牢であることを学ぶことができる。 共有コンピューティングリソースプラットフォームと金融クレジットシステムを含む2つのスコアリングシステムに関する広範な実験が行われた。 実験により,提案手法の有効性が検証された。

Scoring systems are commonly seen for platforms in the era of big data. From credit scoring systems in financial services to membership scores in E-commerce shopping platforms, platform managers use such systems to guide users towards the encouraged activity pattern, and manage resources more effectively and more efficiently thereby. To establish such scoring systems, several "empirical criteria" are firstly determined, followed by dedicated top-down design for each factor of the score, which usually requires enormous effort to adjust and tune the scoring function in the new application scenario. What's worse, many fresh projects usually have no ground-truth or any experience to evaluate a reasonable scoring system, making the designing even harder. To reduce the effort of manual adjustment of the scoring function in every new scoring system, we innovatively study the scoring system from the preset empirical criteria without any ground truth, and propose a novel framework to improve the system from scratch. In this paper, we propose a "counter-empirical attacking" mechanism that can generate "attacking" behavior traces and try to break the empirical rules of the scoring system. Then an adversarial "enhancer" is applied to evaluate the scoring system and find the improvement strategy. By training the adversarial learning problem, a proper scoring function can be learned to be robust to the attacking activity traces that are trying to violate the empirical criteria. Extensive experiments have been conducted on two scoring systems including a shared computing resource platform and a financial credit system. The experimental results have validated the effectiveness of our proposed framework.
翻訳日:2023-12-20 22:11:32 公開日:2023-12-19
# 埋め込みに基づくエンティティアライメントの理解と修復のための説明の生成

Generating Explanations to Understand and Repair Embedding-based Entity Alignment ( http://arxiv.org/abs/2312.04877v2 )

ライセンス: Link先を確認
Xiaobin Tian and Zequn Sun and Wei Hu(参考訳) エンティティアライメント(EA)は、データベース研究における長年の課題である異なる知識グラフで同一のエンティティを求める。 最近の研究は、ディープラーニングを利用してベクトル空間にエンティティを埋め込み、近隣の探索によってそれらを整列させる。 近年、組み込みベースのEAは大きな成功を収めていますが、アライメントの決定に関する説明はありません。 本稿では,埋め込み型EA結果の理解と修復を行うための,最初のフレームワークを提案する。 埋め込みモデルによって生成されたEAペアを前提として、まずその近傍のエンティティと関係を比較し、局所的な説明として一致する部分グラフを構築する。 次に、抽象的な観点からペアを理解するためにアライメント依存グラフを構築します。 最後に,依存性グラフに基づく3種類のアライメント競合を解決することで,ペアを修復する。 各種EAデータセットの実験は、埋め込み型EA結果の説明と修復におけるフレームワークの有効性、一般化、堅牢性を示している。

Entity alignment (EA) seeks identical entities in different knowledge graphs, which is a long-standing task in the database research. Recent work leverages deep learning to embed entities in vector space and align them via nearest neighbor search. Although embedding-based EA has gained marked success in recent years, it lacks explanations for alignment decisions. In this paper, we present the first framework that can generate explanations for understanding and repairing embedding-based EA results. Given an EA pair produced by an embedding model, we first compare its neighbor entities and relations to build a matching subgraph as a local explanation. We then construct an alignment dependency graph to understand the pair from an abstract perspective. Finally, we repair the pair by resolving three types of alignment conflicts based on dependency graphs. Experiments on a variety of EA datasets demonstrate the effectiveness, generalization, and robustness of our framework in explaining and repairing embedding-based EA results.
翻訳日:2023-12-20 22:04:30 公開日:2023-12-19
# iDesigner: 内部設計のためのテキスト・画像拡散モデルによる高分解能・複雑プロンプト

iDesigner: A High-Resolution and Complex-Prompt Following Text-to-Image Diffusion Model for Interior Design ( http://arxiv.org/abs/2312.04326v2 )

ライセンス: Link先を確認
Ruyi Gan, Xiaojun Wu, Junyu Lu, Yuanhe Tian, Dixiang Zhang, Ziwei Wu, Renliang Sun, Chang Liu, Jiaxing Zhang, Pingjian Zhang, Yan Song(参考訳) 安定拡散 (SD) や安定拡散 XL (SD-XL) などのテキスト・ツー・イメージ・モデル (T2I) のオープンソース化により、アニメやキャラクター・ポートレートなどのオープンソースSDモデルに基づいて特定の領域で微調整されたモデルが流入する。 しかし、インテリアデザインのような特定の領域には、複雑なテキスト記述や、デザインに固有の詳細な視覚要素に起因し、適応可能な解像度を必要とするような特別なモデルがほとんど存在しない。 したがって、インテリアデザインのためのテキスト対イメージモデルは、望ましい結果を達成するためにデザイン専門家との反復的なコラボレーションだけでなく、優れたプロンプトフォロー機能を持つ必要がある。 本稿では,設計分野におけるテキスト画像データの収集と最適化を行い,オープンソースCLIPモデルに基づく英語と中国語のトレーニングを継続する。 また,カリキュラム学習とクリップフィードバックによる強化学習による微調整戦略を提案し,提案手法の迅速な追従能力を高め,画像生成の質を向上させる。 得られたデータセットにおける実験結果から,提案手法の有効性が示され,印象的な結果が得られ,強いベースラインを上回った。

With the open-sourcing of text-to-image models (T2I) such as stable diffusion (SD) and stable diffusion XL (SD-XL), there is an influx of models fine-tuned in specific domains based on the open-source SD model, such as in anime, character portraits, etc. However, there are few specialized models in certain domains, such as interior design, which is attributed to the complex textual descriptions and detailed visual elements inherent in design, alongside the necessity for adaptable resolution. Therefore, text-to-image models for interior design are required to have outstanding prompt-following capabilities, as well as iterative collaboration with design professionals to achieve the desired outcome. In this paper, we collect and optimize text-image data in the design field and continue training in both English and Chinese on the basis of the open-source CLIP model. We also proposed a fine-tuning strategy with curriculum learning and reinforcement learning from CLIP feedback to enhance the prompt-following capabilities of our approach so as to improve the quality of image generation. The experimental results on the collected dataset demonstrate the effectiveness of the proposed approach, which achieves impressive results and outperforms strong baselines.
翻訳日:2023-12-20 22:04:15 公開日:2023-12-19
# 量子加速限界

Quantum Acceleration Limit ( http://arxiv.org/abs/2312.00864v2 )

ライセンス: Link先を確認
Arun Kumar Pati(参考訳) 速度制限は量子系の動的進化時間に上限を与える。 ここでは、時間依存ハミルトニアンの下での量子系の単位時間発展に対する量子加速限界の概念を紹介する。 量子加速度はハミルトニアンの微分のゆらぎによって上界であることが証明される。 量子系が任意の初期状態から最終状態へ加速されるのに必要な最小時間は何ですか? 2段階の量子系の量子加速限界を説明し、境界が本当にタイトであることを示す。 この概念は、断熱量子コンピューティング、量子制御、量子熱力学において重要な応用をすることができる。

The speed limit provides an upper bound for the dynamical evolution time of a quantum system. Here, we introduce the notion of quantum acceleration limit for unitary time evolution of quantum systems under time-dependent Hamiltonian. We prove that the quantum acceleration is upper bounded by the fluctuation in the derivative of the Hamiltonian. This leads to a universal quantum acceleration limit (QAL) which answers the question: What is the minimum time required for a quantum system to be accelerated from arbitrary initial state to final state? We illustrate the quantum acceleration limit for a two-level quantum system and show that the bound is indeed tight. This notion can have important applications in adiabatic quantum computing, quantum control and quantum thermodynamics.
翻訳日:2023-12-20 22:01:41 公開日:2023-12-19
# 医用画像分割用視覚変換器に関する最近の調査

A Recent Survey of Vision Transformers for Medical Image Segmentation ( http://arxiv.org/abs/2312.00634v2 )

ライセンス: Link先を確認
Asifullah Khan, Zunaira Rauf, Abdul Rehman Khan, Saima Rathore, Saddam Hussain Khan, Najmus Saher Shah, Umair Farooq, Hifsa Asif, Aqsa Asif, Umme Zahoora, Rafi Ullah Khalil, Suleman Qamar, Umme Hani Asif, Faiza Babar Khan, Abdul Majid and Jeonghwan Gwak(参考訳) 医療画像分割は、診断、治療計画、疾患のモニタリングを可能にする様々な医療アプリケーションにおいて重要な役割を果たす。 伝統的に畳み込みニューラルネットワーク(cnns)がこの領域を支配し、局所的な特徴抽出に優れていた。 しかし、画像領域にまたがる長距離依存関係をキャプチャする際の制限は、医療データでしばしば発生する複雑な相互接続構造をセグメント化するための課題を引き起こす。 近年,ビジョントランスフォーマー (ViT) は医用画像セグメンテーションの課題に対処するための有望な手法として登場している。 マルチスケールの注意機構により、画像にまたがる臓器や病変の分断に不可欠な、遠方構造間の長距離依存関係の効果的なモデリングが可能になる。 さらに、微妙なパターンの不均一性を識別するViTsの能力は、正確な医用画像セグメンテーションの重要な側面である、複雑な境界と縁の正確な明細化を可能にする。 しかし、画像に関連した帰納バイアスや翻訳的不変性が欠如しており、性能に影響を及ぼす可能性がある。 近年、研究者らはCNNをアーキテクチャに組み込んだ様々なViTベースのアプローチ、HVT(Hybrid Vision Transformers)を考案し、画像のグローバル情報に加えて局所的相関を捉えている。 本研究は, 医用画像セグメンテーションにおけるViTsおよびHVTsの最近の進歩について, 概説する。 ViTとHVTをベースとした医用画像分割手法の分類とともに,複数の医用画像モダリティにおけるリアルタイム応用の概要を述べる。 この調査は、ViTベースの医療画像セグメンテーションの最先端のアプローチを理解する上で、研究者、医療実践者、学生にとって貴重なリソースとなる可能性がある。

Medical image segmentation plays a crucial role in various healthcare applications, enabling accurate diagnosis, treatment planning, and disease monitoring. Traditionally, convolutional neural networks (CNNs) dominated this domain, excelling at local feature extraction. However, their limitations in capturing long-range dependencies across image regions pose challenges for segmenting complex, interconnected structures often encountered in medical data. In recent years, Vision Transformers (ViTs) have emerged as a promising technique for addressing the challenges in medical image segmentation. Their multi-scale attention mechanism enables effective modeling of long-range dependencies between distant structures, crucial for segmenting organs or lesions spanning the image. Additionally, ViTs' ability to discern subtle pattern heterogeneity allows for the precise delineation of intricate boundaries and edges, a critical aspect of accurate medical image segmentation. However, they do lack image-related inductive bias and translational invariance, potentially impacting their performance. Recently, researchers have come up with various ViT-based approaches that incorporate CNNs in their architectures, known as Hybrid Vision Transformers (HVTs) to capture local correlation in addition to the global information in the images. This survey paper provides a detailed review of the recent advancements in ViTs and HVTs for medical image segmentation. Along with the categorization of ViT and HVT-based medical image segmentation approaches, we also present a detailed overview of their real-time applications in several medical image modalities. This survey may serve as a valuable resource for researchers, healthcare practitioners, and students in understanding the state-of-the-art approaches for ViT-based medical image segmentation.
翻訳日:2023-12-20 22:00:57 公開日:2023-12-19
# 最適因果推論のためのWasserstein流れの幾何学的正規化

Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal Inference ( http://arxiv.org/abs/2311.18826v3 )

ライセンス: Link先を確認
Kaiwen Hou(参考訳) この原稿は、因果推論における連続正規化フロー(CNF)の枠組みを強化し、主に目標最大推定(TMLE)に使用されるパラメトリックサブモデルの幾何学的性質を増大させる。 CNFの革新的な応用を導入することにより、先行分布の$p_0$と経験分布の$p_1$との直接補間を可能にする改良されたパラメトリックサブモデルを構築する。 提案手法は, Wsserstein勾配流に整合するようにCNFを編成することにより, 因果推論における半パラメトリック効率を最適化する。 提案手法は, 推定における平均二乗誤差を最小限に抑えるだけでなく, 幾何的高度化による推定器にも適用し, 誤特定に対する堅牢性を高める。 この頑健性は、tmle における二重ロバスト摂動方向の標準 $n^{\frac{1}{4}}$ の依存性を緩和するため重要である。 強固な最適化原理と微分幾何学を推定器に組み込むことにより、開発された幾何対応のcnfは二重に強固な因果推論の追求において重要な進歩を示している。

This manuscript enriches the framework of continuous normalizing flows (CNFs) within causal inference, primarily to augment the geometric properties of parametric submodels used in targeted maximum likelihood estimation (TMLE). By introducing an innovative application of CNFs, we construct a refined series of parametric submodels that enable a directed interpolation between the prior distribution $p_0$ and the empirical distribution $p_1$. This proposed methodology serves to optimize the semiparametric efficiency bound in causal inference by orchestrating CNFs to align with Wasserstein gradient flows. Our approach not only endeavors to minimize the mean squared error in the estimation but also imbues the estimators with geometric sophistication, thereby enhancing robustness against misspecification. This robustness is crucial, as it alleviates the dependence on the standard $n^{\frac{1}{4}}$ rate for a doubly-robust perturbation direction in TMLE. By incorporating robust optimization principles and differential geometry into the estimators, the developed geometry-aware CNFs represent a significant advancement in the pursuit of doubly robust causal inference.
翻訳日:2023-12-20 21:59:43 公開日:2023-12-19
# BOTH2Hands: テキストプロンプトとボディダイナミクスの両方から3Dハンドを推測する

BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics ( http://arxiv.org/abs/2312.07937v2 )

ライセンス: Link先を確認
Wenqian Zhang, Molin Huang, Yuxuan Zhou, Juze Zhang, Jingyi Yu, Jingya Wang, Lan Xu(参考訳) 最近登場したテキスト・トゥ・モーションの進歩は、便利で対話的な人間のモーション生成に多くの試みを巻き起こした。 しかし、既存の方法は、ボディダイナミクスやテキストといった様々な条件を扱わずに、リッチな両手の動きを考慮せずに体の動きを生成することに限られている。 データボトルネックを解消するために,両手動生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。 我々のデータセットには、人体と手の動きの正確な追跡が含まれており、一対の指レベルのアノテーションと身体の記述を提供する。 さらに、暗黙の身体力学と明示的なテキストプロンプトから鮮明な両手の動きを生成する、新しいタスクのための強力なベースライン手法BOTH2Handsを提供する。 まず2つの並列体-手-テキスト-手間の拡散モデルをウォームアップし,次にクロス・アテンショントランスを動作混合に利用する。 広範にわたる実験とクロスバリデーションにより,提案手法とデータセットが,身体と文のハイブリッド条件から説得力のある2手動作を生成することの有効性を実証した。 私たちのデータセットとコードは、将来の研究のためにコミュニティに配布されます。

The recently emerging text-to-motion advances have spired numerous attempts for convenient and interactive human motion generation. Yet, existing methods are largely limited to generating body motions only without considering the rich two-hand motions, let alone handling various conditions like body dynamics or texts. To break the data bottleneck, we propose BOTH57M, a novel multi-modal dataset for two-hand motion generation. Our dataset includes accurate motion tracking for the human body and hands and provides pair-wised finger-level hand annotations and body descriptions. We further provide a strong baseline method, BOTH2Hands, for the novel task: generating vivid two-hand motions from both implicit body dynamics and explicit text prompts. We first warm up two parallel body-to-hand and text-to-hand diffusion models and then utilize the cross-attention transformer for motion blending. Extensive experiments and cross-validations demonstrate the effectiveness of our approach and dataset for generating convincing two-hand motions from the hybrid body-and-textual conditions. Our dataset and code will be disseminated to the community for future research.
翻訳日:2023-12-20 21:53:44 公開日:2023-12-19
# proxydet: オープンボカブラリオブジェクト検出のためのクラス別ミックスアップによるプロキシ新規クラス合成

ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2312.07266v2 )

ライセンス: Link先を確認
Joonhyun Jeong, Geondo Park, Jayeon Yoo, Hyungsik Jung, Heesu Kim(参考訳) open-vocabulary object detection (ovod)は、トレーニングセットにカテゴリが含まれていない新しいオブジェクトを認識することを目的としている。 トレーニング中にこれらの見えないクラスを分類するために、多くのOVODフレームワークは、CLIPのような主に事前訓練されたビジョンと言語モデルのゼロショット機能を利用する。 未確認の新規クラスにおける一般化をさらに向上するため,既存のトレーニングデータ以外にも,かなりの数の新規カテゴリラベルを含む外部データソースに擬似領域ラベルを付加する手法が提案されている。 その単純さにもかかわらず、これらの擬似ラベル付け手法は、疑似ラベル化されていない真に目に見えない新しいクラスに関して、依然として限定的な改善を示している。 本稿では,新しいクラス全体の分布を一般化するための新しい,かつ単純な手法を提案する。 クリップ埋め込み空間における基底 (seen) クラスによって構築された凸包内に多数の新規クラスが存在するという観測に触発されて, 1対の基底クラス間の線形混合により新規クラスを近似するプロキシ・ノベルクラスを合成する。 これらの合成プロキシーノベルクラスで検出器を訓練することにより、新しいクラスの埋め込み空間を効果的に探索する。 LVIS や COCO などの様々な OVOD ベンチマークによる実験結果は、他の最先端手法と比較して、新しいクラスにおいて優れた性能を示した。 コードはhttps://github.com/clovaai/proxydetで入手できる。

Open-vocabulary object detection (OVOD) aims to recognize novel objects whose categories are not included in the training set. In order to classify these unseen classes during training, many OVOD frameworks leverage the zero-shot capability of largely pretrained vision and language models, such as CLIP. To further improve generalization on the unseen novel classes, several approaches proposed to additionally train with pseudo region labeling on the external data sources that contain a substantial number of novel category labels beyond the existing training data. Albeit its simplicity, these pseudo-labeling methods still exhibit limited improvement with regard to the truly unseen novel classes that were not pseudo-labeled. In this paper, we present a novel, yet simple technique that helps generalization on the overall distribution of novel classes. Inspired by our observation that numerous novel classes reside within the convex hull constructed by the base (seen) classes in the CLIP embedding space, we propose to synthesize proxy-novel classes approximating novel classes via linear mixup between a pair of base classes. By training our detector with these synthetic proxy-novel classes, we effectively explore the embedding space of novel classes. The experimental results on various OVOD benchmarks such as LVIS and COCO demonstrate superior performance on novel classes compared to the other state-of-the-art methods. Code is available at https://github.com/clovaai/ProxyDet.
翻訳日:2023-12-20 21:52:01 公開日:2023-12-19
# 可視赤外人物再識別のためのモダリティを考慮した歩行者注意学習

Transferring Modality-Aware Pedestrian Attentive Learning for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2312.07021v2 )

ライセンス: Link先を確認
Yuwei Guo, Wenhao Zhang, Licheng Jiao, Shuang Wang, Shuo Wang, and Fang Liu(参考訳) Visible-infrared person re-identification (VI-ReID) は、視覚的および赤外線のモダリティを越えて同じ歩行者を探索することを目的としている。 既存のモデルは、モダリティの変動を減らすためにモダリティ固有の情報を補償することに焦点を当てている。 しかし、これらの手法は計算オーバーヘッドが高くなり、対応する画像や特徴を生成する際に干渉情報を導入することがある。 この問題に対処するためには,歩行者指向の特徴を活用し,モダリティ完全かつ一貫性のある表現を学ぶことが重要である。 本稿では,トランスファーリング・モダリティを意識した歩行者注意学習(TMPA)モデルを提案する。 具体的には,異なるモダリティから対応する領域を混合することにより歩行者領域のコヒーレンスを高めるために,地域ベースのデータ拡張モジュールpedmixを提案する。 軽量なハイブリッド補償モジュールであるmodality feature transfer (mft) は、最小の計算オーバーヘッドで識別的モダリティ完全機能を完全に探求するために、クロスアテンションと畳み込みネットワークを統合するために考案された。 ベンチマークSYSU-MM01とRegDBデータセットを用いた大規模な実験により,提案したTMPAモデルの有効性が示された。

Visible-infrared person re-identification (VI-ReID) aims to search the same pedestrian of interest across visible and infrared modalities. Existing models mainly focus on compensating for modality-specific information to reduce modality variation. However, these methods often lead to a higher computational overhead and may introduce interfering information when generating the corresponding images or features. To address this issue, it is critical to leverage pedestrian-attentive features and learn modality-complete and -consistent representation. In this paper, a novel Transferring Modality-Aware Pedestrian Attentive Learning (TMPA) model is proposed, focusing on the pedestrian regions to efficiently compensate for missing modality-specific features. Specifically, we propose a region-based data augmentation module PedMix to enhance pedestrian region coherence by mixing the corresponding regions from different modalities. A lightweight hybrid compensation module, i.e., the Modality Feature Transfer (MFT), is devised to integrate cross attention and convolution networks to fully explore the discriminative modality-complete features with minimal computational overhead. Extensive experiments conducted on the benchmark SYSU-MM01 and RegDB datasets demonstrated the effectiveness of our proposed TMPA model.
翻訳日:2023-12-20 21:51:37 公開日:2023-12-19
# 前房炎症診断のための共同的・暗黙的クロスモーダル相互作用ネットワーク

Jointly Explicit and Implicit Cross-Modal Interaction Network for Anterior Chamber Inflammation Diagnosis ( http://arxiv.org/abs/2312.06171v2 )

ライセンス: Link先を確認
Qian Shao, Ye Dai, Haochao Ying, Kan Xu, Jinhong Wang, Wei Chi, Jian Wu(参考訳) ぶどう膜炎は最適な治療のために前房炎症(aci)の正確な診断を要求する。 しかし、現在の診断方法は限定的な単一モード疾患の視点のみに依存しているため、パフォーマンスが低下する。 本稿では,ACI診断のための多モードデータを融合する,有望かつ挑戦的な手法について検討する。 既存の融合パラダイムは、暗黙のモダリティ相互作用(すなわち自己注意とその変種)の強化に重点を置いているが、特に臨床知識や画像特性から明示的なモダリティ相互作用を注入することを無視している。 そこで本研究では,前領域光コヒーレンス断層像,スリットランプ画像,臨床データを用いた,前室炎症診断のための協調的かつ暗黙的なクロスモーダル・インタラクション・ネットワーク(eici-net)を提案する。 具体的には、まずcnnベースのエンコーダと表処理モジュール(tpm)を開発し、異なるモダリティの効率的な特徴表現を抽出する。 次に,表型特徴マップに基づく明示的な臨床知識の一種として注意マップを生成するために,明示的なクロスモーダルインタラクションモジュール(ecim)を考案し,それをスリット・ランプ特徴マップに統合することで,cnnベースのエンコーダがスリット・ランプ画像のより効果的な情報に焦点を合わせられるようにした。 その後、トランスフォーマーベースのネットワークであるImplicit Cross-Modal Interaction Module (ICIM)は、モダリティインタラクションをさらに暗黙的に強化する。 最後に、我々の共同病院からかなりの実世界のデータセットを構築し、提案したE EiCI-Netの優れた性能を様々な指標の最先端分類法と比較する十分な実験を行った。

Uveitis demands the precise diagnosis of anterior chamber inflammation (ACI) for optimal treatment. However, current diagnostic methods only rely on a limited single-modal disease perspective, which leads to poor performance. In this paper, we investigate a promising yet challenging way to fuse multimodal data for ACI diagnosis. Notably, existing fusion paradigms focus on empowering implicit modality interactions (i.e., self-attention and its variants), but neglect to inject explicit modality interactions, especially from clinical knowledge and imaging property. To this end, we propose a jointly Explicit and implicit Cross-Modal Interaction Network (EiCI-Net) for Anterior Chamber Inflammation Diagnosis that uses anterior segment optical coherence tomography (AS-OCT) images, slit-lamp images, and clinical data jointly. Specifically, we first develop CNN-Based Encoders and Tabular Processing Module (TPM) to extract efficient feature representations in different modalities. Then, we devise an Explicit Cross-Modal Interaction Module (ECIM) to generate attention maps as a kind of explicit clinical knowledge based on the tabular feature maps, then integrated them into the slit-lamp feature maps, allowing the CNN-Based Encoder to focus on more effective informativeness of the slit-lamp images. After that, the Implicit Cross-Modal Interaction Module (ICIM), a transformer-based network, further implicitly enhances modality interactions. Finally, we construct a considerable real-world dataset from our collaborative hospital and conduct sufficient experiments to demonstrate the superior performance of our proposed EiCI-Net compared with the state-of-the-art classification methods in various metrics.
翻訳日:2023-12-20 21:50:12 公開日:2023-12-19
# パラメータ効率のよい算数推論を実現するシンボリック・ソルバーの訓練

Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning ( http://arxiv.org/abs/2312.05571v2 )

ライセンス: Link先を確認
Subhabrata Dutta, Joykirat Singh, Ishan Pandey, Sunny Manchanda, Soumen Chakrabarti, Tanmoy Chakraborty(参考訳) 大規模言語モデル(llm)は、スケールで創発的な行動としてゼロショット数学的推論能力を示し、一般にcot(chain-of-thoughts)推論として表される。 しかし、複数の実験結果から、この傾向は、500億のパラメータを超える、軌道サイズを持つllmのみであることが示唆されている。 一方、教育神経科学者は、言語から形式へのモジュラー化、定式化の記号的操作、エンドゲーム演算をモジュール化する算術語問題と同時期に記号的代数的操作を導入することを示唆している。 本稿では,多段階推論において弱い最小のLMが,算術語問題を正規化課題として仮定した場合に合理的な算術的推論を達成できるという仮説から始める。 我々がSYRELMと呼ぶアーキテクチャにおいて、LMは自然言語の算術的質問を形式言語(FL)記述にマッピングする翻訳者の役割を担っている。 そして、記号解法がFL式を評価して解を求める。 効率的な低ランクアダプタを備えた小型の冷凍LMは、算術問題(変数名とその目的、変数を組み合わせた公式表現など)の自然言語記述を含むFL式を生成することができる。 我々は、適応されたLMを訓練するためにポリシー段階の強化学習を採用する。 このことは、外部ツール(電卓、Web検索など)がLMの学習段階から本質的に切り離されているツール拡張LDMの最近の発展から著しく離れている。 syrelm はベース lms に対して大きな改善(例えば +30.65 絶対点改善(gpt-j 6b モデルを用いた svamp データセットの精度向上)を示しつつ、テストベッドの診断、解釈、そしてほとんどの研究者の到達範囲内でも容易である。

Large Language Models (LLM) exhibit zero-shot mathematical reasoning capacity as a behavior emergent with scale, commonly manifesting as chain-of-thoughts (CoT) reasoning. However, multiple empirical findings suggest that this prowess is exclusive to LLMs with exorbitant sizes (beyond 50 billion parameters). Meanwhile, educational neuroscientists suggest that symbolic algebraic manipulation be introduced around the same time as arithmetic word problems to modularize language-to-formulation, symbolic manipulation of the formulation, and endgame arithmetic. In this paper, we start with the hypothesis that much smaller LMs, which are weak at multi-step reasoning, can achieve reasonable arithmetic reasoning if arithmetic word problems are posed as a formalize-then-solve task. In our architecture, which we call SYRELM, the LM serves the role of a translator to map natural language arithmetic questions into a formal language (FL) description. A symbolic solver then evaluates the FL expression to obtain the answer. A small frozen LM, equipped with an efficient low-rank adapter, is capable of generating FL expressions that incorporate natural language descriptions of the arithmetic problem (e.g., variable names and their purposes, formal expressions combining variables, etc.). We adopt policy-gradient reinforcement learning to train the adapted LM, informed by the non-differentiable symbolic solver. This marks a sharp departure from the recent development in tool-augmented LLMs, in which the external tools (e.g., calculator, Web search, etc.) are essentially detached from the learning phase of the LM. SYRELM shows massive improvements (e.g., +30.65 absolute point improvement in accuracy on the SVAMP dataset using GPT-J 6B model) over base LMs, while keeping our testbed easy to diagnose, interpret and within reach of most researchers.
翻訳日:2023-12-20 21:49:01 公開日:2023-12-19
# X2-Softmax:顔認識のためのMargin Adaptive Loss関数

X2-Softmax: Margin Adaptive Loss Function for Face Recognition ( http://arxiv.org/abs/2312.05281v2 )

ライセンス: Link先を確認
Jiamu Xu, Xiaoxiang Liu, Xinyuan Zhang, Yain-Whar Si, Xiaofan Li, Zheng Shi, Ke Wang, Xueyuan Gong(参考訳) 異なる顔の識別特性を学ぶことは、顔認識において重要なタスクである。 ニューラルネットワークで顔の特徴を抽出することにより、異なる顔画像の類似性を測定しやすくなり、顔認識が可能となる。 トレーニング中に角マージンを取り入れて、ニューラルネットワークの顔特徴分離性を高めることが一般的である。 最先端の損失関数 cosface と arcface はクラスの重み間に固定マージンを適用し、顔の特徴のクラス間分離を強化する。 トレーニングセット内のサンプルの分布は不均衡であるため、異なるアイデンティティ間の類似性は不等である。 したがって、不適切な固定角マージンを使用することで、モデルが収束しにくいか、顔の特徴が十分に判別できないという問題を引き起こす可能性がある。 マージンが角適応型であることは,クラス間の角度が大きくなるにつれて増加するかも知れない,という直観と一致しています。 本稿では,X2-Softmaxという新しい角縁損失を提案する。 x2-softmaxの損失は適応角マージンを持ち、異なるクラス間の角度が大きくなるにつれてマージンが増加する。 角適応マージンはモデルの柔軟性を確保し、顔認識の効果を効果的に改善する。 我々は、MS1Mv3データセット上でX2-Softmax損失でニューラルネットワークをトレーニングし、損失関数の有効性と優位性を示すために、いくつかの評価ベンチマークでテストした。

Learning the discriminative features of different faces is an important task in face recognition. By extracting face features in neural networks, it becomes easy to measure the similarity of different face images, which makes face recognition possible. To enhance the neural network's face feature separability, incorporating an angular margin during training is common practice. State-of-the-art loss functions CosFace and ArcFace apply fixed margins between weights of classes to enhance the inter-class separation of face features. Since the distribution of samples in the training set is imbalanced, similarities between different identities are unequal. Therefore, using an inappropriately fixed angular margin may lead to the problem that the model is difficult to converge or the face features are not discriminative enough. It is more in line with our intuition that the margins are angular adaptive, which could increase with the angles between classes growing. In this paper, we propose a new angular margin loss named X2-Softmax. X2-Softmax loss has adaptive angular margins, which provide the margin that increases with the angle between different classes growing. The angular adaptive margin ensures model flexibility and effectively improves the effect of face recognition. We have trained the neural network with X2-Softmax loss on the MS1Mv3 dataset and tested it on several evaluation benchmarks to demonstrate the effectiveness and superiority of our loss function.
翻訳日:2023-12-20 21:48:24 公開日:2023-12-19
# 視聴覚音声認識における欠落映像のロバスト性について

On Robustness to Missing Video for Audiovisual Speech Recognition ( http://arxiv.org/abs/2312.10088v2 )

ライセンス: Link先を確認
Oscar Chang, Otavio Braga, Hank Liao, Dmitriy Serdyuk, Olivier Siohan(参考訳) 視聴覚機能を学ぶことで、特に雑音の多い音声に対して、音声認識性能が向上することが示されている。 しかし、多くの一般的なアプリケーションでは、視覚的特徴は部分的に、または完全に欠落している。 ビデオフレームの欠如は、オーディオヴィジュアルモデルの性能が単一モダリティのオーディオオンリーモデルよりも悪くなるように劣化させるべきではない。 堅牢なモデルを構築する試みは数多くあったが、いかに堅牢性を評価するべきかについてのコンセンサスはほとんどない。 これに対処するために,ロバスト性に関するクレームを正確かつテスト可能な方法で評価するフレームワークを提案する。 また,様々な音響雑音条件とテストスイートに基づいて,一般的な音声視覚音声認識アーキテクチャの頑健性に関する系統的研究を行った。 最後に,ドロップアウトなどの既存のロバスト化技術が不足している場合でも,カスケードに基づくアーキテクチャ非依存のソリューションは,ビデオの欠落に対して一貫してロバスト性を実現することができることを示す。

It has been shown that learning audiovisual features can lead to improved speech recognition performance over audio-only features, especially for noisy speech. However, in many common applications, the visual features are partially or entirely missing, e.g.~the speaker might move off screen. Multi-modal models need to be robust: missing video frames should not degrade the performance of an audiovisual model to be worse than that of a single-modality audio-only model. While there have been many attempts at building robust models, there is little consensus on how robustness should be evaluated. To address this, we introduce a framework that allows claims about robustness to be evaluated in a precise and testable way. We also conduct a systematic empirical study of the robustness of common audiovisual speech recognition architectures on a range of acoustic noise conditions and test suites. Finally, we show that an architecture-agnostic solution based on cascades can consistently achieve robustness to missing video, even in settings where existing techniques for robustness like dropout fall short.
翻訳日:2023-12-20 21:39:25 公開日:2023-12-19
# ニューラル音声認識におけるエントロピーセミナーの再検討

Revisiting the Entropy Semiring for Neural Speech Recognition ( http://arxiv.org/abs/2312.10087v2 )

ライセンス: Link先を確認
Oscar Chang, Dongseong Hwang, Olivier Siohan(参考訳) ストリーミング設定では、音声認識モデルは全音声ストリームが利用可能になる前に、音声のサブシーケンスをテキストにマッピングする必要がある。 しかし、音声とテキストのアライメント情報はトレーニング中にはほとんど利用できないため、モデルが完全に自己教師ありの方法で学習する必要がある。 実際には、考えられるアライメントの指数的な数は非常に難しく、モデルはしばしばピークあるいは準最適アライメントを学習する。 プリマ・ファシエ(prima facie)、アライメント空間の指数的性質は、モデルのアライメント分布の不確かさを定量化することさえ困難である。 幸運なことに、確率的有限状態トランスデューサのエントロピーは半環に基づく動的プログラミング還元により、トランスデューサのサイズに線形に時間で計算できることは数十年前から知られている。 本研究では,ニューラル音声認識モデルのエントロピーセミリングを再検討し,アライメントエントロピーが正規化や蒸留によってモデルを監視できることを示す。 また,ctc と rnn-t のオープンソース実装を,エントロピーセミリングの数値的安定かつ高並列な変種を含むセミリングフレームワークに寄贈した。 実験により,アライメント蒸留の追加により,すでに最適化された教師学生蒸留モデルの精度とレイテンシが向上し,ストリーミングシナリオにおけるLibrispeechデータセットの最先端性能が達成されることがわかった。

In streaming settings, speech recognition models have to map sub-sequences of speech to text before the full audio stream becomes available. However, since alignment information between speech and text is rarely available during training, models need to learn it in a completely self-supervised way. In practice, the exponential number of possible alignments makes this extremely challenging, with models often learning peaky or sub-optimal alignments. Prima facie, the exponential nature of the alignment space makes it difficult to even quantify the uncertainty of a model's alignment distribution. Fortunately, it has been known for decades that the entropy of a probabilistic finite state transducer can be computed in time linear to the size of the transducer via a dynamic programming reduction based on semirings. In this work, we revisit the entropy semiring for neural speech recognition models, and show how alignment entropy can be used to supervise models through regularization or distillation. We also contribute an open-source implementation of CTC and RNN-T in the semiring framework that includes numerically stable and highly parallel variants of the entropy semiring. Empirically, we observe that the addition of alignment distillation improves the accuracy and latency of an already well-optimized teacher-student distillation model, achieving state-of-the-art performance on the Librispeech dataset in the streaming scenario.
翻訳日:2023-12-20 21:39:05 公開日:2023-12-19
# 物理に変形したニューラルネットワークlyapunov関数--pdeのキャラクタリゼーション、学習、検証

Physics-Informed Neural Network Lyapunov Functions: PDE Characterization, Learning, and Verification ( http://arxiv.org/abs/2312.09131v2 )

ライセンス: Link先を確認
Jun Liu and Yiming Meng and Maxwell Fitzsimmons and Ruikun Zhou(参考訳) 本稿では,Lyapunov関数の計算に物理インフォームドニューラルネットワークを用いる方法を提案する。 我々は、Lyapunov条件を偏微分方程式(PDE)としてエンコードし、これをニューラルネットワークLyapunov関数のトレーニングに使用する。 Lyapunov および Zubov PDE に対する解の解析的性質を解析した。 特に、神経リアプノフ関数の訓練にzubov方程式を用いると、真のアトラクション領域に近いアトラクション領域が近似的に得られることが示されている。 また,zubov方程式の一意解に対する近似誤差と神経近似の収束についても検討した。 次に,学習した神経リアプノフ関数に対して十分条件を与え,smtソルバによって容易に検証可能とし,局所安定性解析と大規模領域抽出推定の両方の形式的検証を可能にした。 低次元から高次元まで、多くの非線形例を通して、提案フレームワークは半定値プログラミング(SDP)を用いて得られる従来の和(SOS)リャプノフ関数より優れていることを示した。

We provide a systematic investigation of using physics-informed neural networks to compute Lyapunov functions. We encode Lyapunov conditions as a partial differential equation (PDE) and use this for training neural network Lyapunov functions. We analyze the analytical properties of the solutions to the Lyapunov and Zubov PDEs. In particular, we show that employing the Zubov equation in training neural Lyapunov functions can lead to approximate regions of attraction close to the true domain of attraction. We also examine approximation errors and the convergence of neural approximations to the unique solution of Zubov's equation. We then provide sufficient conditions for the learned neural Lyapunov functions that can be readily verified by satisfiability modulo theories (SMT) solvers, enabling formal verification of both local stability analysis and region-of-attraction estimates in the large. Through a number of nonlinear examples, ranging from low to high dimensions, we demonstrate that the proposed framework can outperform traditional sums-of-squares (SOS) Lyapunov functions obtained using semidefinite programming (SDP).
翻訳日:2023-12-20 21:37:22 公開日:2023-12-19
# 因果的連続処理における時間空間エントロピーバランス

Temporal-Spatial Entropy Balancing for Causal Continuous Treatment-Effect Estimation ( http://arxiv.org/abs/2312.08670v2 )

ライセンス: Link先を確認
Tao Hu and Honglong Zhang and Fan Zeng and Min Du and XiangKun Du and Yue Zheng and Quanqi Li and Mengran Zhang and Dan Yang and Jihao Wu(参考訳) 都市内貨物輸送の分野では、順序量の変化は時間的・空間的要因に大きく影響される。 補助金と価格戦略を構築する場合、これらの戦略の注文量に対する因果効果を予測することが重要である。 因果効果を計算する過程において、共起変数は影響を受けうる。 連結変数を制御する伝統的な方法は、特定の時間的および空間的次元における因果効果の精度を保証することができない、全体論的観点からのデータを扱う。 しかし、時間的・空間的次元は物流分野において極めて重要であり、この制限は補助金と価格戦略の精度に直接影響する可能性がある。 そこで本研究では,フレキシブルな時空間グリッドパーティショニングに基づく手法を提案する。 さらに, 柔軟なグリッド分割手法に基づき, ts-ebct (temporal-spatial entropy balancing for causal continue treatments) と呼ばれる時間空間領域における連続エントロピーバランス法を提案する。 提案手法は2つのシミュレーションデータセットと2つの実データセットで検証され,いずれも優れた性能を示した。 実際、TS-EBCT法を都市内貨物輸送分野に適用したことにより、因果効果の予測精度が大幅に向上した。 それは会社の補助金と価格戦略に良いビジネス利益をもたらす。

In the field of intracity freight transportation, changes in order volume are significantly influenced by temporal and spatial factors. When building subsidy and pricing strategies, predicting the causal effects of these strategies on order volume is crucial. In the process of calculating causal effects, confounding variables can have an impact. Traditional methods to control confounding variables handle data from a holistic perspective, which cannot ensure the precision of causal effects in specific temporal and spatial dimensions. However, temporal and spatial dimensions are extremely critical in the logistics field, and this limitation may directly affect the precision of subsidy and pricing strategies. To address these issues, this study proposes a technique based on flexible temporal-spatial grid partitioning. Furthermore, based on the flexible grid partitioning technique, we further propose a continuous entropy balancing method in the temporal-spatial domain, which named TS-EBCT (Temporal-Spatial Entropy Balancing for Causal Continue Treatments). The method proposed in this paper has been tested on two simulation datasets and two real datasets, all of which have achieved excellent performance. In fact, after applying the TS-EBCT method to the intracity freight transportation field, the prediction accuracy of the causal effect has been significantly improved. It brings good business benefits to the company's subsidy and pricing strategies.
翻訳日:2023-12-20 21:37:01 公開日:2023-12-19
# auto-sktime: 時系列の自動予測

auto-sktime: Automated Time Series Forecasting ( http://arxiv.org/abs/2312.08528v2 )

ライセンス: Link先を確認
Marc-Andr\'e Z\"oller and Marius Lindauer and Marco F. Huber(参考訳) 今日のデータ駆動の状況では、時系列予測はさまざまな分野における意思決定において重要である。 しかし、より多様な時系列データの増加は、利用可能な予測手法の広がりと相まって、予測者にとって大きな課題となっている。 効率的な予測の需要の高まりに対応するため,自動時系列予測のための新しいフレームワークであるauto-sktimeを導入する。 提案するフレームワークは、自動機械学習(AutoML)技術を使用して、予測パイプライン全体の生成を自動化する。 このフレームワークはベイズ最適化を採用し、統計、機械学習(ML)、ディープニューラルネットワーク(DNN)モデルからパイプラインを自動的に構築する。 さらに我々は,AutoMLを時系列データに適用するための3つの重要な改良点を提案する。 第二に、以前の最適化実行から最適化を開始するための新しいウォームスタート技術である。 第3に,統計モデル,MLモデル,DNNモデルを含む探索空間に適用できるように,多要素最適化を適用する。 64種類の実世界の時系列データセットに対する実験結果は、フレームワークの有効性と効率を実証し、人間の関与を最小限に抑えながら従来の手法より優れている。

In today's data-driven landscape, time series forecasting is pivotal in decision-making across various sectors. Yet, the proliferation of more diverse time series data, coupled with the expanding landscape of available forecasting methods, poses significant challenges for forecasters. To meet the growing demand for efficient forecasting, we introduce auto-sktime, a novel framework for automated time series forecasting. The proposed framework uses the power of automated machine learning (AutoML) techniques to automate the creation of the entire forecasting pipeline. The framework employs Bayesian optimization, to automatically construct pipelines from statistical, machine learning (ML) and deep neural network (DNN) models. Furthermore, we propose three essential improvements to adapt AutoML to time series data: First, pipeline templates to account for the different supported forecasting models. Second, a novel warm-starting technique to start the optimization from prior optimization runs. Third, we adapt multi-fidelity optimizations to make them applicable to a search space containing statistical, ML and DNN models. Experimental results on 64 diverse real-world time series datasets demonstrate the effectiveness and efficiency of the framework, outperforming traditional methods while requiring minimal human involvement.
翻訳日:2023-12-20 21:36:39 公開日:2023-12-19
# MISA: 分散フェデレーション学習における脆弱性の解明

MISA: Unveiling the Vulnerabilities in Split Federated Learning ( http://arxiv.org/abs/2312.11026v2 )

ライセンス: Link先を確認
Wei Wan, Yuxuan Ning, Shengshan Hu, Lulu Xue, Minghui Li, Leo Yu Zhang, and Hai Jin(参考訳) textit{federated learning} (fl) と \textit{split learning} (sl) は近年、分散パラダイムが普及している。 どちらも、ユーザのデバイスにデータをローカライズしながら、グローバルモデルトレーニングの共有を可能にする。 前者は並列実行能力に優れ、後者はエッジコンピューティングリソースへの依存度が低く、プライバシ保護が強い。 \textit{Split Federated Learning} (SFL)はFLとSLの長所を組み合わせたもので、最も人気のある分散アーキテクチャの1つである。 さらに、最近の研究では、SFLは毒性攻撃に対する堅牢性を示しており、FLと比較して堅牢性は5倍改善されていると主張している。 本稿では,ミサと呼ばれる新規な毒殺攻撃について述べる。 これは上層と下層の両方のモデルに毒を与え、大域モデルにおいて \textbf{\underline{misa}} の分解を引き起こし、最終的に劇的な精度の崩壊に繋がる。 この攻撃はSFLの脆弱性を明らかにし、SFLが毒殺攻撃に対して堅牢であるという従来の信念に挑戦する。 広範囲にわたる実験の結果,提案したMISAはSFLの有効性に重大な脅威をもたらすことが示され,学術・産業が留意すべき課題となっている。

\textit{Federated learning} (FL) and \textit{split learning} (SL) are prevailing distributed paradigms in recent years. They both enable shared global model training while keeping data localized on users' devices. The former excels in parallel execution capabilities, while the latter enjoys low dependence on edge computing resources and strong privacy protection. \textit{Split federated learning} (SFL) combines the strengths of both FL and SL, making it one of the most popular distributed architectures. Furthermore, a recent study has claimed that SFL exhibits robustness against poisoning attacks, with a fivefold improvement compared to FL in terms of robustness. In this paper, we present a novel poisoning attack known as MISA. It poisons both the top and bottom models, causing a \textbf{\underline{misa}}lignment in the global model, ultimately leading to a drastic accuracy collapse. This attack unveils the vulnerabilities in SFL, challenging the conventional belief that SFL is robust against poisoning attacks. Extensive experiments demonstrate that our proposed MISA poses a significant threat to the availability of SFL, underscoring the imperative for academia and industry to accord this matter due attention.
翻訳日:2023-12-20 20:39:54 公開日:2023-12-19
# 大規模言語モデルによる分割と再帰

Split and Rephrase with Large Language Models ( http://arxiv.org/abs/2312.11075v2 )

ライセンス: Link先を確認
David Ponce, Thierry Etchegoyhen, Jes\'us Calleja P\'erez, Harritxu Gete(参考訳) Split and Rephraseタスクは、複雑な文を短い文法文の列に分割し、本来の意味を保ちながら、人間や機械などの複雑なテキストの処理を容易にする。 本研究では,大規模言語モデルに基づくアプローチについて述べる。この手法は,公開データセット上で,タスクのすべての主要な指標に対する大きなマージンによって,最先端の技術を向上する。 また,大規模言語モデルによる大幅な改善と,その実現可能性を示す2つの人的評価の結果についても述べる。 パラメータサイズが異なる微調整済み言語モデルや、ゼロショットと少数ショットのインコンテキスト学習の両方をインストラクションチューニング言語モデルに適用するなど、さまざまな戦略を評価する。 後者は微調整されたモデルで顕著に優れていたが、全体としては有望な結果を得た。 そこで本研究では,比較的少量のトレーニングサンプルとモデルパラメータを用いて,スプライトとリフレーズタスクのための大規模言語モデルのバリエーションの強い可能性を示す。

The Split and Rephrase task, which consists in splitting complex sentences into a sequence of shorter grammatical sentences, while preserving the original meaning, can facilitate the processing of complex texts for humans and machines alike. In this work, we describe an approach based on large language models, which improves over the state of the art by large margins on all the major metrics for the task, on publicly available datasets. We also describe results from two human evaluations that further establish the significant improvements obtained with large language models and the viability of the approach. We evaluate different strategies, including fine-tuning pretrained language models of varying parameter size, and applying both zero-shot and few-shot in-context learning on instruction-tuned language models. Although the latter were markedly outperformed by fine-tuned models, they still achieved promising results overall. Our results thus demonstrate the strong potential of different variants of large language models for the Split and Rephrase task, using relatively small amounts of training samples and model parameters overall.
翻訳日:2023-12-20 20:29:36 公開日:2023-12-19
# 良いこと、悪いこと、なぜか:生成AIにおける感情の流出

The Good, The Bad, and Why: Unveiling Emotions in Generative AI ( http://arxiv.org/abs/2312.11111v2 )

ライセンス: Link先を確認
Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Xinyi Wang, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie(参考訳) 感情は日々の行動や相互作用に大きく影響します。 最近の大きな言語モデルのような生成型aiモデルは、様々なタスクで印象的なパフォーマンスを示しているが、それらが本当に感情を理解するかどうかは不明だ。 本稿では,生成型aiモデルにおける感情の総合的理解を得るために,心理理論を取り入れることで,このギャップに対処することを目的とする。 具体的には3つのアプローチを提案します 1)AIモデルの性能を高めるための感情プロンプト。 2)AIモデルの性能を損なう感情アタック 3) 良性および悪性の情動刺激の効果を説明するための感情デコード。 セマンティック理解、論理的推論、生成タスクに関する言語モデルとマルチモーダルモデルを含む広範な実験を通じて、テキストと視覚の両方のEmotionPromptがAIモデルの性能を向上し、EmotionAttackはそれを妨げうることを示した。 さらにemotiondecodeは、aiモデルが人間の脳におけるドーパミンのメカニズムに似た感情的な刺激を理解できることを明らかにしている。 我々の研究は、生成的AIモデルの理解を深めるために心理学を探求するための新しい道筋である。 本論文は、これまでのEmotionPrompt(arXiv:2307.11760)の拡張版である。

Emotion significantly impacts our daily behaviors and interactions. While recent generative AI models, such as large language models, have shown impressive performance in various tasks, it remains unclear whether they truly comprehend emotions. This paper aims to address this gap by incorporating psychological theories to gain a holistic understanding of emotions in generative AI models. Specifically, we propose three approaches: 1) EmotionPrompt to enhance AI model performance, 2) EmotionAttack to impair AI model performance, and 3) EmotionDecode to explain the effects of emotional stimuli, both benign and malignant. Through extensive experiments involving language and multi-modal models on semantic understanding, logical reasoning, and generation tasks, we demonstrate that both textual and visual EmotionPrompt can boost the performance of AI models while EmotionAttack can hinder it. Additionally, EmotionDecode reveals that AI models can comprehend emotional stimuli akin to the mechanism of dopamine in the human brain. Our work heralds a novel avenue for exploring psychology to enhance our understanding of generative AI models. This paper is an extended version of our previous work EmotionPrompt (arXiv:2307.11760).
翻訳日:2023-12-20 20:16:53 公開日:2023-12-19
# 原文のパラフレーズ化」による高精度長文QA

"Paraphrasing The Original Text" Makes High Accuracy Long-Context QA ( http://arxiv.org/abs/2312.11193v2 )

ライセンス: Link先を確認
Yijiong Yu(参考訳) LLMは繰り返し改善され続けているが、ほとんどのオープンソースモデルは4k未満のコンテキストウィンドウを持ち、長いコンテキストの問題に対処する能力を制限する。 既存のオープンソースモデルの多くは、まだ十分な精度を欠いている。 この問題に対処するために、私はデータをトレーニングする観点からアプローチし、長いコンテキストを扱う能力のトレーニングには「長い」データではなく「効果的」が必要であることを理論的に証明します。 そこで,本論文では,「原文パラフレーズ」タスクを用いて,既存モデルのコンテキストウインドウを低コストかつ効果的に32kに拡張し,マルチドキュメントQAにおいて極めて高い精度を達成し,同一規模の既存のオープンソースモデルを超越する手法を提案する。 モデルとトレーニングデータはHuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k)とWiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k)でオープンソース化された。

Although LLMs continue to iterate and improve, most open-source models still have a context window of no more than 4k, limiting their ability to handle long-context problems. Most existing open-source models for long-context chat still lack satisfactory accuracy. To address this issue, I approach it from the perspective of training data and theoretically prove that training the capability to handle long contexts requires "effective" rather than "long" data. Based on this, I propose using the "original text paraphrase" task, and successfully extend the context window of the existing model to 32k by a low-cost and effective method, achieving extremely high accuracy in multi-document-QA and surpassing all existing open-source models of the same scale. The model and training data have been open-sourced on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k).
翻訳日:2023-12-20 19:52:45 公開日:2023-12-19
# 複数ラベルテキスト分類のための合成一般化:データ拡張アプローチ

Compositional Generalization for Multi-label Text Classification: A Data-Augmentation Approach ( http://arxiv.org/abs/2312.11276v2 )

ライセンス: Link先を確認
Yuyang Chai, Zhuang Li, Jiahui Liu, Lei Chen, Fei Li, Donghong Ji and Chong Teng(参考訳) マルチラベルテキスト分類の大幅な進歩にもかかわらず、既存のモデルが新規で稀な複雑な概念を一般化する能力は、基礎的な概念の合成である。 この研究はこのギャップに対処する。 3つのベンチマークで独自のデータ分割を作成することにより、既存のマルチラベルテキスト分類モデルの合成一般化能力を評価する。 以上の結果から,これらのモデルでは,学習中に頻繁に発生する構成概念を一般化できない場合が多く,新しい組み合わせを用いたテストでは性能が劣ることがわかった。 そこで本稿では,合成一般化のための分類モデルの能力向上を目的とした,2つの革新的なテキスト生成モデルを活用するデータ拡張手法を提案する。 実験の結果,このデータ拡張手法は,テキスト生成ベースラインを上回り,ベンチマーク上での分類モデルの合成一般化能力を著しく向上させることがわかった。

Despite significant advancements in multi-label text classification, the ability of existing models to generalize to novel and seldom-encountered complex concepts, which are compositions of elementary ones, remains underexplored. This research addresses this gap. By creating unique data splits across three benchmarks, we assess the compositional generalization ability of existing multi-label text classification models. Our results show that these models often fail to generalize to compositional concepts encountered infrequently during training, leading to inferior performance on tests with these new combinations. To address this, we introduce a data augmentation method that leverages two innovative text generation models designed to enhance the classification models' capacity for compositional generalization. Our experiments show that this data augmentation approach significantly improves the compositional generalization capabilities of classification models on our benchmarks, with both generation models surpassing other text generation baselines.
翻訳日:2023-12-20 19:45:04 公開日:2023-12-19
# CaRe-CNN : 微小血管閉塞による心筋梗塞分節に対するCascading Refinement CNN

CaRe-CNN: Cascading Refinement CNN for Myocardial Infarct Segmentation with Microvascular Obstructions ( http://arxiv.org/abs/2312.11315v2 )

ライセンス: Link先を確認
Franz Thaler, Matthias A.F. Gsell, Gernot Plank, Martin Urschler(参考訳) 急性心筋梗塞(mi)後の患者の心筋組織の生存率を評価するために,後期gadolinium enhanced (lge) magnetic resonance (mr) 画像が広く確立されている。 本稿では,CaRe-CNN (Cascading Refinement CNN) を提案する。CaRe-CNNは完全3次元,エンドツーエンドで訓練された3段階のCNNカスケードで,そのようなラベル付き心臓データの階層構造を利用する。 カスケードの3段階を通して、ラベル定義が変化し、CaRe-CNNはその中間予測を徐々に洗練する。 さらに,より一貫した定性予測を得るため,解剖学的制約を考慮した一連の後処理手順を提案する。 私たちのCaRe-CNNはFIMH 2023 MYOSAIQチャレンジに提出され、18チーム中2位にランクインしました。 care-cnnは難治であるが臨床的に最も関連する心筋梗塞組織 (mit) と微小血管閉塞 (mvo) を分画するときに特に大きな改善を示した。 平均スコアを全てのラベルで計算すると,10項目中8項目でベストスコアが得られた。 以上より, 急性MI後の正確な心分画は, パーソナライズ医療への重要な一歩として, 患者固有の心臓モデルの作成を可能にする。

Late gadolinium enhanced (LGE) magnetic resonance (MR) imaging is widely established to assess the viability of myocardial tissue of patients after acute myocardial infarction (MI). We propose the Cascading Refinement CNN (CaRe-CNN), which is a fully 3D, end-to-end trained, 3-stage CNN cascade that exploits the hierarchical structure of such labeled cardiac data. Throughout the three stages of the cascade, the label definition changes and CaRe-CNN learns to gradually refine its intermediate predictions accordingly. Furthermore, to obtain more consistent qualitative predictions, we propose a series of post-processing steps that take anatomical constraints into account. Our CaRe-CNN was submitted to the FIMH 2023 MYOSAIQ challenge, where it ranked second out of 18 participating teams. CaRe-CNN showed great improvements most notably when segmenting the difficult but clinically most relevant myocardial infarct tissue (MIT) as well as microvascular obstructions (MVO). When computing the average scores over all labels, our method obtained the best score in eight out of ten metrics. Thus, accurate cardiac segmentation after acute MI via our CaRe-CNN allows generating patient-specific models of the heart serving as an important step towards personalized medicine.
翻訳日:2023-12-20 19:32:09 公開日:2023-12-19
# データログ推論のための最適化ストレージ

Optimised Storage for Datalog Reasoning ( http://arxiv.org/abs/2312.11297v2 )

ライセンス: Link先を確認
Xinyue Zhang, Pan Hu, Yavor Nenov, Ian Horrocks(参考訳) 物質化は、事実とルールのすべての結果を事前計算することで、データログの推論を促進する。 しかし、実際にはすべての事実を保存することは不可能であり、特に規則が複雑で与えられた事実の集合が大きい場合である。 ルールの組み合わせによっては、推論結果をコンパクトに表現し、必要に応じて効率的にクエリできるデータ構造が存在することを観察する。 本稿では,このような最適化ストレージスキームと標準実現アルゴリズムの統合を可能にする汎用フレームワークを提案する。 さらに, 現実に一般的に発生する2種類の(組み合わせ)ルールである, 推移規則と連合規則を対象とする最適記憶方式を考案した。 実験により,クエリ応答時間の面では競争力を維持しながら,メモリ使用量を大幅に改善することが示された。

Materialisation facilitates Datalog reasoning by precomputing all consequences of the facts and the rules so that queries can be directly answered over the materialised facts. However, storing all materialised facts may be infeasible in practice, especially when the rules are complex and the given set of facts is large. We observe that for certain combinations of rules, there exist data structures that compactly represent the reasoning result and can be efficiently queried when necessary. In this paper, we present a general framework that allows for the integration of such optimised storage schemes with standard materialisation algorithms. Moreover, we devise optimised storage schemes targeting at transitive rules and union rules, two types of (combination of) rules that commonly occur in practice. Our experimental evaluation shows that our approach significantly improves memory consumption, sometimes by orders of magnitude, while remaining competitive in terms of query answering time.
翻訳日:2023-12-20 19:30:19 公開日:2023-12-19
# CLIM: 地域表現のためのコントラスト言語画像モザイク

CLIM: Contrastive Language-Image Mosaic for Region Representation ( http://arxiv.org/abs/2312.11376v2 )

ライセンス: Link先を確認
Size Wu, Wenwei Zhang, Lumin Xu, Sheng Jin, Wentao Liu, Chen Change Loy(参考訳) 大語彙または開語彙から正確に物体を検出するには、領域表現の視覚言語アライメントが必要である。 しかし、テキストラベルや記述で高品質なボックスアノテーションを得ることで、このような地域テキストアライメントを学ぶことは高価で実現不可能である。 対照的に、画像テキストペアの収集は簡単であるが、領域とテキストを関連付ける正確なオブジェクト位置情報がない。 本稿では,大規模画像テキストペアを効果的に活用し,領域やテキスト表現の整合性を実現するContrastive Language- Image Mosaic(CLIM)を提案する。 CLIMは複数の画像をモザイク画像に結合し、各画像を「擬似領域」として扱う。 各疑似領域の特徴を抽出し、対照的な損失によって他と異なるテキスト埋め込みと類似するように訓練し、コストのかかるボックスアノテーションを伴わずに領域テキストアライメントを学習できるようにする。 一般に適用可能なアプローチとして、CLIMはキャプションインスペクションを使用する異なるオープン語彙オブジェクト検出方法を一貫して改善する。 さらに、CLIMは視覚言語モデルの領域表現を効果的に強化し、オープン語彙オブジェクト検出器のための強力なバックボーンを提供する。 実験結果から,CLIMはOV-COCOおよびOV-LVISベンチマークにおいて,異なるベースライン開語彙オブジェクト検出器を大きなマージンで改善することが示された。 コードはhttps://github.com/wusize/CLIMで公開されている。

Detecting objects accurately from a large or open vocabulary necessitates the vision-language alignment on region representations. However, learning such a region-text alignment by obtaining high-quality box annotations with text labels or descriptions is expensive and infeasible. In contrast, collecting image-text pairs is simpler but lacks precise object location information to associate regions with texts. In this paper, we propose a novel approach called Contrastive Language-Image Mosaic (CLIM), which leverages large-scale image-text pairs effectively for aligning region and text representations. CLIM combines multiple images into a mosaicked image and treats each image as a `pseudo region'. The feature of each pseudo region is extracted and trained to be similar to the corresponding text embedding while dissimilar from others by a contrastive loss, enabling the model to learn the region-text alignment without costly box annotations. As a generally applicable approach, CLIM consistently improves different open-vocabulary object detection methods that use caption supervision. Furthermore, CLIM can effectively enhance the region representation of vision-language models, thus providing stronger backbones for open-vocabulary object detectors. Our experimental results demonstrate that CLIM improves different baseline open-vocabulary object detectors by a large margin on both OV-COCO and OV-LVIS benchmarks. The code is available at https://github.com/wusize/CLIM.
翻訳日:2023-12-20 19:05:31 公開日:2023-12-19
# ギャップを埋める:サハラ以南のアフリカ人人口に対する最先端のU-Netモデル

Bridging the Gap: Generalising State-of-the-Art U-Net Models to Sub-Saharan African Populations ( http://arxiv.org/abs/2312.11770v1 )

ライセンス: Link先を確認
Alyssa R. Amod, Alexandra Smith, Pearly Joubert, Confidence Raymond, Dong Zhang, Udunna C. Anazodo, Dodzi Motchon, Tinashe E.M. Mutsvangwa, and S\'ebastien Quetin(参考訳) 腫瘍のセグメンテーションモデルにおける重要な課題は、特に低品質の神経画像データに適用する場合に、様々な臨床設定に適応できる能力である。 この適応にまつわる不確実性は、代表的データセットの欠如に起因しており、サブサハラアフリカ(SSA)全体でMRIデータに見られる共通の人工物に露出することなく、最高のパフォーマンスのモデルを残している。 2022年のBraTSコンペティションにおける第2位を確保したフレームワークを再現し、データセット合成がモデル性能に与える影響を調査し、モデルを用いたトレーニングを通じて4つの異なるアプローチを追求した。 1) BraTS-Africa データのみ(train_SSA, N=60) 2)brats-adult gliomaデータのみ(train_gli,n=1251) 3) 両方のデータセット(train_ALL, N=1311)と 4)brats-africaデータ(train_ftssa)によるtrain_gliモデルのさらなるトレーニングを行う。 特に,低品質データセットのみのトレーニング(train_SSA)では,下位結果が得られ,高品質データセットのみのトレーニング(train_GLI)では,低品質検証セットでのエフェデマトーデス組織のデライン化に苦慮した。 最も有望なアプローチ(train_ftSSA)は、高品質なニューロイメージングのモデルを事前トレーニングし、より小さく、低品質なデータセットで微調整することであった。 このアプローチは他を上回り、miccai brats africa global challengeの外部テストフェーズで2位となった。 これらの結果は、セグメント化性能を改善するために、より大きなサンプルサイズと幅広いデータへの露出の重要性を強調する。 さらに,より広い範囲のデータをローカルに微調整することで,これらのモデルを改善する可能性が示された。

A critical challenge for tumour segmentation models is the ability to adapt to diverse clinical settings, particularly when applied to poor-quality neuroimaging data. The uncertainty surrounding this adaptation stems from the lack of representative datasets, leaving top-performing models without exposure to common artifacts found in MRI data throughout Sub-Saharan Africa (SSA). We replicated a framework that secured the 2nd position in the 2022 BraTS competition to investigate the impact of dataset composition on model performance and pursued four distinct approaches through training a model with: 1) BraTS-Africa data only (train_SSA, N=60), 2) BraTS-Adult Glioma data only (train_GLI, N=1251), 3) both datasets together (train_ALL, N=1311), and 4) through further training the train_GLI model with BraTS-Africa data (train_ftSSA). Notably, training on a smaller low-quality dataset alone (train_SSA) yielded subpar results, and training on a larger high-quality dataset alone (train_GLI) struggled to delineate oedematous tissue in the low-quality validation set. The most promising approach (train_ftSSA) involved pre-training a model on high-quality neuroimages and then fine-tuning it on the smaller, low-quality dataset. This approach outperformed the others, ranking second in the MICCAI BraTS Africa global challenge external testing phase. These findings underscore the significance of larger sample sizes and broad exposure to data in improving segmentation performance. Furthermore, we demonstrated that there is potential for improving such models by fine-tuning them with a wider range of data locally.
翻訳日:2023-12-20 17:37:58 公開日:2023-12-19
# 最適分離下における有界共分散分布のクラスタリング混合

Clustering Mixtures of Bounded Covariance Distributions Under Optimal Separation ( http://arxiv.org/abs/2312.11769v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Jasper C. H. Lee, Thanasis Pittas(参考訳) 境界共分散分布の混合に対するクラスタリング問題をきめ細かい分離仮定の下で検討する。 具体的には、$k$-コンポーネントの混合分散 $d = \sum_{i =1}^k w_i p_i$, ここで、既知のパラメータ $\alpha$ に対して各$w_i \ge \alpha$, そして、各$p_i$ は未知の共分散 $\sigma_i \preceq \sigma^2_i \cdot i_d$ を持つ。 我々の貢献は以下の通りである: ほぼ均一な混合の場合、このクラスタリングタスクのための最初のポリ時間アルゴリズムを与える。 以前の作業では、最大クラスタ標準偏差による分離スケーリング(例えば、$\max_i \sigma_i$) [DKK+22b] が必要か、あるいは1/\alpha$ [BKK22] の高次多項式として追加の構造仮定と平均分離スケーリングの両方が必要であった。 一般質量混合では, 正確なクラスタリングは, 詳細な平均分離仮定の下では情報理論的に不可能である。 我々は,類似した分離を満足し,基底真理を近似するクラスタリングにマージ可能な,比較的小さなサブセットのリストであるクラスタリング改良の概念を導入し,サンプルの正確なクラスタリング改良を効率的に計算できることを示す。 さらに,先行研究 [bkk22] による "no large sub-cluster'' 条件の変種において,本アルゴリズムが単に改良しただけでなく,一般重量混合においても正確なクラスタリングを出力することを示す。 コーナリーとして、よく条件付き高次元対数凹分布の混合に対する効率的なクラスタリングアルゴリズムを得る。 さらに,我々のアルゴリズムは,逆数外乱の$\Omega(\alpha)$-fractionに対して頑健である。

We study the clustering problem for mixtures of bounded covariance distributions, under a fine-grained separation assumption. Specifically, given samples from a $k$-component mixture distribution $D = \sum_{i =1}^k w_i P_i$, where each $w_i \ge \alpha$ for some known parameter $\alpha$, and each $P_i$ has unknown covariance $\Sigma_i \preceq \sigma^2_i \cdot I_d$ for some unknown $\sigma_i$, the goal is to cluster the samples assuming a pairwise mean separation in the order of $(\sigma_i+\sigma_j)/\sqrt{\alpha}$ between every pair of components $P_i$ and $P_j$. Our contributions are as follows: For the special case of nearly uniform mixtures, we give the first poly-time algorithm for this clustering task. Prior work either required separation scaling with the maximum cluster standard deviation (i.e. $\max_i \sigma_i$) [DKK+22b] or required both additional structural assumptions and mean separation scaling as a large degree polynomial in $1/\alpha$ [BKK22]. For general-weight mixtures, we point out that accurate clustering is information-theoretically impossible under our fine-grained mean separation assumptions. We introduce the notion of a clustering refinement -- a list of not-too-small subsets satisfying a similar separation, and which can be merged into a clustering approximating the ground truth -- and show that it is possible to efficiently compute an accurate clustering refinement of the samples. Furthermore, under a variant of the "no large sub-cluster'' condition from in prior work [BKK22], we show that our algorithm outputs an accurate clustering, not just a refinement, even for general-weight mixtures. As a corollary, we obtain efficient clustering algorithms for mixtures of well-conditioned high-dimensional log-concave distributions. Moreover, our algorithm is robust to $\Omega(\alpha)$-fraction of adversarial outliers.
翻訳日:2023-12-20 17:37:29 公開日:2023-12-19
# マルチエージェント強化学習における協調のためのカリキュラム学習

Curriculum Learning for Cooperation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2312.11768v1 )

ライセンス: Link先を確認
Rupali Bhati and Sai Krishna Gottipati and Clod\'eric Mars and Matthew E. Taylor(参考訳) 単エージェント強化学習の文脈において、学習エージェントが様々な環境にまたがって一般化するためのカリキュラム学習や継続的学習が著しく進歩しているが、これらのアルゴリズムがマルチエージェント環境でも有効かどうかは不明である。 競争環境では、ますます熟練した相手のカリキュラムと競合させることで、学習エージェントを訓練することができる。 しかし、汎用的な知的エージェントは、他のエージェントに対して行動し、共通の目標を達成するために彼らと協力できることも学べるべきである。 他のエージェントと協力する場合、学習エージェントは、 (a)そのタスク(またはサブタスク)の実行方法を学び、 (b)チーム全体の報酬を増やす。 本稿では,協調的なチームメートと,これら2つの目標を達成するために,学習エージェントを訓練すべきチームメートのカリキュラムに関する質問に答えることを目的としている。 ゲームOvercookedの結果は、トレーニング済みのチームメイトがスキルの低いチームメイトはチーム全体の報酬に最適なチームメイトであるが、エージェントの学習には最悪のものであることを示している。 さらに,スキルレベルが低いチームメイトのカリキュラムは,他のタイプのカリキュラムよりも優れています。

While there has been significant progress in curriculum learning and continuous learning for training agents to generalize across a wide variety of environments in the context of single-agent reinforcement learning, it is unclear if these algorithms would still be valid in a multi-agent setting. In a competitive setting, a learning agent can be trained by making it compete with a curriculum of increasingly skilled opponents. However, a general intelligent agent should also be able to learn to act around other agents and cooperate with them to achieve common goals. When cooperating with other agents, the learning agent must (a) learn how to perform the task (or subtask), and (b) increase the overall team reward. In this paper, we aim to answer the question of what kind of cooperative teammate, and a curriculum of teammates should a learning agent be trained with to achieve these two objectives. Our results on the game Overcooked show that a pre-trained teammate who is less skilled is the best teammate for overall team reward but the worst for the learning of the agent. Moreover, somewhat surprisingly, a curriculum of teammates with decreasing skill levels performs better than other types of curricula.
翻訳日:2023-12-20 17:36:32 公開日:2023-12-19
# 一般テンソル分解のためのADMM-MMアルゴリズム

ADMM-MM Algorithm for General Tensor Decomposition ( http://arxiv.org/abs/2312.11763v1 )

ライセンス: Link先を確認
Manabu Mukai, Hidekata Hontani, Tatsuya Yokota(参考訳) 本稿では,一般線形観測モデルにおける低ランクテンソルの逆問題として定式化された一般テンソル分解のための新しい統一最適化アルゴリズムを提案する。 提案アルゴリズムは,3つの基本損失関数 (\ell_2$-loss, $\ell_1$-loss, KL divergence) と,様々な低ランクテンソル分解モデル (CP, Tucker, TT, TR) をサポートする。 乗算器の交互方向法(ADMM)と最大化最小化法(MM)を階層的に組み合わせた最適化アルゴリズムを導出する。 提案手法により広域応用が解くことができ, 任意の確立されたテンソル分解モデルに対して, {plug-and-play} 方式で容易に拡張できることを示す。

In this paper, we propose a new unified optimization algorithm for general tensor decomposition which is formulated as an inverse problem for low-rank tensors in the general linear observation models. The proposed algorithm supports three basic loss functions ($\ell_2$-loss, $\ell_1$-loss and KL divergence) and various low-rank tensor decomposition models (CP, Tucker, TT, and TR decompositions). We derive the optimization algorithm based on hierarchical combination of the alternating direction method of multiplier (ADMM) and majorization-minimization (MM). We show that wide-range applications can be solved by the proposed algorithm, and can be easily extended to any established tensor decomposition models in a {plug-and-play} manner.
翻訳日:2023-12-20 17:36:12 公開日:2023-12-19
# MineObserver 2.0:Minecraftイメージの自然言語記述を評価するためのディープラーニングとゲーム内フレームワーク

MineObserver 2.0: A Deep Learning & In-Game Framework for Assessing Natural Language Descriptions of Minecraft Imagery ( http://arxiv.org/abs/2312.11761v1 )

ライセンス: Link先を確認
Jay Mahajan, Samuel Hum, Jack Henhapl, Diya Yunus, Matthew Gadbury, Emi Brown, Jeff Ginger, H. Chad Lane(参考訳) MineObserver 2.0は、コンピュータビジョンと自然言語処理を使用して、科学的な内容を含むMinecraftイメージの学習者が生成した記述の精度を評価するAIフレームワークである。 このシステムは、マインクラフトで行われている科学学習活動中に、自然言語で書かれた観察者の観察精度を自動的に評価する。 我々は,リアルタイムで作業するシステムを実演し,教師支援ダッシュボードを記述し,観察結果を示す。 本稿では,システムの生成した記述の正確さとフィードバックの有用性の両方において,前者よりも mineobserver 2.0 が改善することを示す研究結果を示す。 今後の課題として,システム生成記述の改善,教師の制御の強化,継続的学習の効率化,学習者による新たな観察への迅速な対応などについて検討する。

MineObserver 2.0 is an AI framework that uses Computer Vision and Natural Language Processing for assessing the accuracy of learner-generated descriptions of Minecraft images that include some scientifically relevant content. The system automatically assesses the accuracy of participant observations, written in natural language, made during science learning activities that take place in Minecraft. We demonstrate our system working in real-time and describe a teacher support dashboard to showcase observations, both of which advance our previous work. We present the results of a study showing that MineObserver 2.0 improves over its predecessor both in perceived accuracy of the system's generated descriptions as well as in usefulness of the system's feedback. In future work we intend improve system-generated descriptions, give teachers more control and upgrade the system to perform continuous learning to more effectively and rapidly respond to novel observations made by learners.
翻訳日:2023-12-20 17:35:56 公開日:2023-12-19
# たった1つの時空は、wignerの友人全員にとって小さすぎる

A single space-time is too small for all of Wigner's friends ( http://arxiv.org/abs/2312.11759v1 )

ライセンス: Link先を確認
Jacques L. Pienaar(参考訳) 観測事象の絶対性」 (AOE) を仮定した量子論の解釈に関する最近のノーゴーの定理は、予期しないほど強い系を持つことが示されている: AOE を拒絶することはできず、同時に、問題の 'オブザーブドイベント' はすべての観測者に共通する単一の背景空間時間内に埋め込むことができると仮定する。 したがって、aoeを拒絶する全ての解釈は、時空の「ブロック宇宙」を拒絶するqb主義に従う必要がある。

Recent no-go theorems on interpretations of quantum theory featuring an assumption of `Absoluteness of Observed Events' (AOE) are shown to have an unexpectedly strong corollary: one cannot reject AOE and at the same time assume that the `observed events' in question can all be embedded within a single background space-time common to all observers. Consequently, all interpretations that reject AOE must follow QBism in rejecting a `block universe' view of space-time.
翻訳日:2023-12-20 17:35:41 公開日:2023-12-19
# Gemini: 高機能マルチモーダルモデルのファミリー

Gemini: A Family of Highly Capable Multimodal Models ( http://arxiv.org/abs/2312.11805v1 )

ライセンス: Link先を確認
Gemini Team Google: Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M. Dai, Anja Hauth, Katie Millican, David Silver, Slav Petrov, Melvin Johnson, Ioannis Antonoglou, Julian Schrittwieser, Amelia Glaese, Jilin Chen, Emily Pitler, Timothy Lillicrap, Angeliki Lazaridou, Orhan Firat, James Molloy, Michael Isard, Paul R. Barham, Tom Hennigan, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, Ryan Doherty, Eli Collins, Clemens Meyer, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, George Tucker, Enrique Piqueras, Maxim Krikun, Iain Barr, Nikolay Savinov, Ivo Danihelka, Becca Roelofs, Ana\"is White, Anders Andreassen, Tamara von Glehn, Lakshman Yagati, Mehran Kazemi, Lucas Gonzalez, Misha Khalman, Jakub Sygnowski, Alexandre Frechette, Charlotte Smith, Laura Culp, Lev Proleev, Yi Luan, Xi Chen, James Lottes, Nathan Schucher, Federico Lebron, Alban Rrustemi, Natalie Clay, Phil Crone, Tomas Kocisky, Jeffrey Zhao, Bartek Perz, Dian Yu, Heidi Howard, Adam Bloniarz, Jack W. Rae, Han Lu, Laurent Sifre, Marcello Maggioni, Fred Alcober, Dan Garrette, Megan Barnes, Shantanu Thakoor, Jacob Austin, Gabriel Barth-Maron, William Wong, Rishabh Joshi, Rahma Chaabouni, Deeni Fatiha, Arun Ahuja, Ruibo Liu, Yunxuan Li, Sarah Cogan, Jeremy Chen, Chao Jia, Chenjie Gu, Qiao Zhang, Jordan Grimstad, Ale Jakse Hartman, Martin Chadwick, Gaurav Singh Tomar, Xavier Garcia, Evan Senter, Emanuel Taropa, Thanumalayan Sankaranarayana Pillai, Jacob Devlin, Michael Laskin, Diego de Las Casas, Dasha Valter, Connie Tao, Lorenzo Blanco, Adri\`a Puigdom\`enech Badia, David Reitter, Mianna Chen, Jenny Brennan, Clara Rivera, Sergey Brin, Shariq Iqbal, Gabriela Surita, Jane Labanowski, Abhi Rao, Stephanie Winkler, Emilio Parisotto, Yiming Gu, Kate Olszewska, Yujing Zhang, Ravi Addanki, Antoine Miech, Annie Louis, Laurent El Shafey, Denis Teplyashin, Geoff Brown, Elliot Catt, Nithya Attaluri, Jan Balaguer, Jackie Xiang, Pidong Wang, Zoe Ashwood, Anton Briukhov, Albert Webson, Sanjay Ganapathy, Smit Sanghavi, Ajay Kannan, Ming-Wei Chang, Axel Stjerngren, Josip Djolonga, Yuting Sun, Ankur Bapna, Matthew Aitchison, Pedram Pejman, Henryk Michalewski, Tianhe Yu, Cindy Wang, Juliette Love, Junwhan Ahn, Dawn Bloxwich, Kehang Han, Peter Humphreys, Thibault Sellam, James Bradbury, Varun Godbole, Sina Samangooei, Bogdan Damoc, Alex Kaskasoli, S\'ebastien M. R. Arnold, Vijay Vasudevan, Shubham Agrawal, Jason Riesa, Dmitry Lepikhin, Richard Tanburn, Srivatsan Srinivasan, Hyeontaek Lim, Sarah Hodkinson, Pranav Shyam, Johan Ferret, Steven Hand, Ankush Garg, Tom Le Paine, Jian Li, Yujia Li, Minh Giang, Alexander Neitz, Zaheer Abbas, Sarah York, Machel Reid, Elizabeth Cole, Aakanksha Chowdhery, Dipanjan Das, Dominika Rogozi\'nska, Vitaly Nikolaev, Pablo Sprechmann, Zachary Nado, Lukas Zilka, Flavien Prost, Luheng He, Marianne Monteiro, Gaurav Mishra, Chris Welty, Josh Newlan, Dawei Jia, Miltiadis Allamanis, Clara Huiyi Hu, Raoul de Liedekerke, Justin Gilmer, Carl Saroufim, Shruti Rijhwani, Shaobo Hou, Disha Shrivastava, Anirudh Baddepudi, Alex Goldin, Adnan Ozturel, Albin Cassirer, Yunhan Xu, Daniel Sohn, Devendra Sachan, Reinald Kim Amplayo, Craig Swanson, Dessie Petrova, Shashi Narayan, Arthur Guez, Siddhartha Brahma, Jessica Landon, Miteyan Patel, Ruizhe Zhao, Kevin Villela, Luyu Wang, Wenhao Jia, Matthew Rahtz, Mai Gim\'enez, Legg Yeung, Hanzhao Lin, James Keeling, Petko Georgiev, Diana Mincu, Boxi Wu, Salem Haykal, Rachel Saputro, Kiran Vodrahalli, James Qin, Zeynep Cankara, Abhanshu Sharma, Nick Fernando, Will Hawkins, Behnam Neyshabur, Solomon Kim, Adrian Hutter, Priyanka Agrawal, Alex Castro-Ros, George van den Driessche, Tao Wang, Fan Yang, Shuo-yiin Chang, Paul Komarek, Ross McIlroy, Mario Lu\v{c}i\'c, Guodong Zhang, Wael Farhan, Michael Sharman, Paul Natsev, Paul Michel, Yong Cheng, Yamini Bansal, Siyuan Qiao, Kris Cao, Siamak Shakeri, Christina Butterfield, Justin Chung, Paul Kishan Rubenstein, Shivani Agrawal, Arthur Mensch, Kedar Soparkar, Karel Lenc, Timothy Chung, Aedan Pope, Loren Maggiore, Jackie Kay, Priya Jhakra, Shibo Wang, Joshua Maynez, Mary Phuong, Taylor Tobin, Andrea Tacchetti, Maja Trebacz, Kevin Robinson, Yash Katariya, Sebastian Riedel, Paige Bailey, Kefan Xiao, Nimesh Ghelani, Lora Aroyo, Ambrose Slone, Neil Houlsby, Xuehan Xiong, Zhen Yang, Elena Gribovskaya, Jonas Adler, Mateo Wirth, Lisa Lee, Music Li, Thais Kagohara, Jay Pavagadhi, Sophie Bridgers, Anna Bortsova, Sanjay Ghemawat, Zafarali Ahmed, Tianqi Liu, Richard Powell, Vijay Bolina, Mariko Iinuma, Polina Zablotskaia, James Besley, Da-Woon Chung, Timothy Dozat, Ramona Comanescu, Xiance Si, Jeremy Greer, Guolong Su, Martin Polacek, Rapha\"el Lopez Kaufman, Simon Tokumine, Hexiang Hu, Elena Buchatskaya, Yingjie Miao, Mohamed Elhawaty, Aditya Siddhant, Nenad Tomasev, Jinwei Xing, Christina Greer, Helen Miller, Shereen Ashraf, Aurko Roy, Zizhao Zhang, Ada Ma, Angelos Filos, Milos Besta, Rory Blevins, Ted Klimenko, Chih-Kuan Yeh, Soravit Changpinyo, Jiaqi Mu, Oscar Chang, Mantas Pajarskas, Carrie Muir, Vered Cohen, Charline Le Lan, Krishna Haridasan, Amit Marathe, Steven Hansen, Sholto Douglas, Rajkumar Samuel, Mingqiu Wang, Sophia Austin, Chang Lan, Jiepu Jiang, Justin Chiu, Jaime Alonso Lorenzo, Lars Lowe Sj\"osund, S\'ebastien Cevey, Zach Gleicher, Thi Avrahami, Anudhyan Boral, Hansa Srinivasan, Vittorio Selo, Rhys May, Konstantinos Aisopos, L\'eonard Hussenot, Livio Baldini Soares, Kate Baumli, Michael B. Chang, Adri\`a Recasens, Ben Caine, Alexander Pritzel, Filip Pavetic, Fabio Pardo, Anita Gergely, Justin Frye, Vinay Ramasesh, Dan Horgan, Kartikeya Badola, Nora Kassner, Subhrajit Roy, Ethan Dyer, V\'ictor Campos, Alex Tomala, Yunhao Tang, Dalia El Badawy, Elspeth White, Basil Mustafa, Oran Lang, Abhishek Jindal, Sharad Vikram, Zhitao Gong, Sergi Caelles, Ross Hemsley, Gregory Thornton, Fangxiaoyu Feng, Wojciech Stokowiec, Ce Zheng, Phoebe Thacker, \c{C}a\u{g}lar \"Unl\"u, Zhishuai Zhang, Mohammad Saleh, James Svensson, Max Bileschi, Piyush Patil, Ankesh Anand, Roman Ring, Katerina Tsihlas, Arpi Vezer, Marco Selvi, Toby Shevlane, Mikel Rodriguez, Tom Kwiatkowski, Samira Daruki, Keran Rong, Allan Dafoe, Nicholas FitzGerald, Keren Gu-Lemberg, Mina Khan, Lisa Anne Hendricks, Marie Pellat, Vladimir Feinberg, James Cobon-Kerr, Tara Sainath, Maribeth Rauh, Sayed Hadi Hashemi, Richard Ives, Yana Hasson, YaGuang Li, Eric Noland, Yuan Cao, Nathan Byrd, Le Hou, Qingze Wang, Thibault Sottiaux, Michela Paganini, Jean-Baptiste Lespiau, Alexandre Moufarek, Samer Hassan, Kaushik Shivakumar, Joost van Amersfoort, Amol Mandhane, Pratik Joshi, Anirudh Goyal, Matthew Tung, Andrew Brock, Hannah Sheahan, Vedant Misra, Cheng Li, Nemanja Raki\'cevi\'c, Mostafa Dehghani, Fangyu Liu, Sid Mittal, Junhyuk Oh, Seb Noury, Eren Sezener, Fantine Huot, Matthew Lamm, Nicola De Cao, Charlie Chen, Gamaleldin Elsayed, Ed Chi, Mahdis Mahdieh, Ian Tenney, Nan Hua, Ivan Petrychenko, Patrick Kane, Dylan Scandinaro, Rishub Jain, Jonathan Uesato, Romina Datta, Adam Sadovsky, Oskar Bunyan, Dominik Rabiej, Shimu Wu, John Zhang, Gautam Vasudevan, Edouard Leurent, Mahmoud Alnahlawi, Ionut Georgescu, Nan Wei, Ivy Zheng, Betty Chan, Pam G Rabinovitch, Piotr Stanczyk, Ye Zhang, David Steiner, Subhajit Naskar, Michael Azzam, Matthew Johnson, Adam Paszke, Chung-Cheng Chiu, Jaume Sanchez Elias, Afroz Mohiuddin, Faizan Muhammad, Jin Miao, Andrew Lee, Nino Vieillard, Sahitya Potluri, Jane Park, Elnaz Davoodi, Jiageng Zhang, Jeff Stanway, Drew Garmon, Abhijit Karmarkar, Zhe Dong, Jong Lee, Aviral Kumar, Luowei Zhou, Jonathan Evens, William Isaac, Zhe Chen, Johnson Jia, Anselm Levskaya, Zhenkai Zhu, Chris Gorgolewski, Peter Grabowski, Yu Mao, Alberto Magni, Kaisheng Yao, Javier Snaider, Norman Casagrande, Paul Suganthan, Evan Palmer, Geoffrey Irving, Edward Loper, Manaal Faruqui, Isha Arkatkar, Nanxin Chen, Izhak Shafran, Michael Fink, Alfonso Casta\~no, Irene Giannoumis, Wooyeol Kim, Miko{\l}aj Rybi\'nski, Ashwin Sreevatsa, Jennifer Prendki, David Soergel, Adrian Goedeckemeyer, Willi Gierke, Mohsen Jafari, Meenu Gaba, Jeremy Wiesner, Diana Gage Wright, Yawen Wei, Harsha Vashisht, Yana Kulizhskaya, Jay Hoover, Maigo Le, Lu Li, Chimezie Iwuanyanwu, Lu Liu, Kevin Ramirez, Andrey Khorlin, Albert Cui, Tian LIN, Marin Georgiev, Marcus Wu, Ricardo Aguilar, Keith Pallo, Abhishek Chakladar, Alena Repina, Xihui Wu, Tom van der Weide, Priya Ponnapalli, Caroline Kaplan, Jiri Simsa, Shuangfeng Li, Olivier Dousse, Fan Yang, Jeff Piper, Nathan Ie, Minnie Lui, Rama Pasumarthi, Nathan Lintz, Anitha Vijayakumar, Lam Nguyen Thiet, Daniel Andor, Pedro Valenzuela, Cosmin Paduraru, Daiyi Peng, Katherine Lee, Shuyuan Zhang, Somer Greene, Duc Dung Nguyen, Paula Kurylowicz, Sarmishta Velury, Sebastian Krause, Cassidy Hardin, Lucas Dixon, Lili Janzer, Kiam Choo, Ziqiang Feng, Biao Zhang, Achintya Singhal, Tejasi Latkar, Mingyang Zhang, Quoc Le, Elena Allica Abellan, Dayou Du, Dan McKinnon, Natasha Antropova, Tolga Bolukbasi, Orgad Keller, David Reid, Daniel Finchelstein, Maria Abi Raad, Remi Crocker, Peter Hawkins, Robert Dadashi, Colin Gaffney, Sid Lall, Ken Franko, Egor Filonov, Anna Bulanova, R\'emi Leblond, Vikas Yadav, Shirley Chung, Harry Askham, Luis C. Cobo, Kelvin Xu, Felix Fischer, Jun Xu, Christina Sorokin, Chris Alberti, Chu-Cheng Lin, Colin Evans, Hao Zhou, Alek Dimitriev, Hannah Forbes, Dylan Banarse, Zora Tung, Jeremiah Liu, Mark Omernick, Colton Bishop, Chintu Kumar, Rachel Sterneck, Ryan Foley, Rohan Jain, Swaroop Mishra, Jiawei Xia, Taylor Bos, Geoffrey Cideron, Ehsan Amid, Francesco Piccinno, Xingyu Wang, Praseem Banzal, Petru Gurita, Hila Noga, Premal Shah, Daniel J. Mankowitz, Alex Polozov, Nate Kushman, Victoria Krakovna, Sasha Brown, MohammadHossein Bateni, Dennis Duan, Vlad Firoiu, Meghana Thotakuri, Tom Natan, Anhad Mohananey, Matthieu Geist, Sidharth Mudgal, Sertan Girgin, Hui Li, Jiayu Ye, Ofir Roval, Reiko Tojo, Michael Kwong, James Lee-Thorp, Christopher Yew, Quan Yuan, Sumit Bagri, Danila Sinopalnikov, Sabela Ramos, John Mellor, Abhishek Sharma, Aliaksei Severyn, Jonathan Lai, Kathy Wu, Heng-Tze Cheng, David Miller, Nicolas Sonnerat, Denis Vnukov, Rory Greig, Jennifer Beattie, Emily Caveness, Libin Bai, Julian Eisenschlos, Alex Korchemniy, Tomy Tsai, Mimi Jasarevic, Weize Kong, Phuong Dao, Zeyu Zheng, Frederick Liu, Fan Yang, Rui Zhu, Mark Geller, Tian Huey Teh, Jason Sanmiya, Evgeny Gladchenko, Nejc Trdin, Andrei Sozanschi, Daniel Toyama, Evan Rosen, Sasan Tavakkol, Linting Xue, Chen Elkind, Oliver Woodman, John Carpenter, George Papamakarios, Rupert Kemp, Sushant Kafle, Tanya Grunina, Rishika Sinha, Alice Talbert, Abhimanyu Goyal, Diane Wu, Denese Owusu-Afriyie, Cosmo Du, Chloe Thornton, Jordi Pont-Tuset, Pradyumna Narayana, Jing Li, Sabaer Fatehi, John Wieting, Omar Ajmeri, Benigno Uria, Tao Zhu, Yeongil Ko, Laura Knight, Am\'elie H\'eliou, Ning Niu, Shane Gu, Chenxi Pang, Dustin Tran, Yeqing Li, Nir Levine, Ariel Stolovich, Norbert Kalb, Rebeca Santamaria-Fernandez, Sonam Goenka, Wenny Yustalim, Robin Strudel, Ali Elqursh, Balaji Lakshminarayanan, Charlie Deck, Shyam Upadhyay, Hyo Lee, Mike Dusenberry, Zonglin Li, Xuezhi Wang, Kyle Levin, Raphael Hoffmann, Dan Holtmann-Rice, Olivier Bachem, Summer Yue, Sho Arora, Eric Malmi, Daniil Mirylenka, Qijun Tan, Christy Koh, Soheil Hassas Yeganeh, Siim P\~oder, Steven Zheng, Francesco Pongetti, Mukarram Tariq, Yanhua Sun, Lucian Ionita, Mojtaba Seyedhosseini, Pouya Tafti, Ragha Kotikalapudi, Zhiyu Liu, Anmol Gulati, Jasmine Liu, Xinyu Ye, Bart Chrzaszcz, Lily Wang, Nikhil Sethi, Tianrun Li, Ben Brown, Shreya Singh, Wei Fan, Aaron Parisi, Joe Stanton, Chenkai Kuang, Vinod Koverkathu, Christopher A. Choquette-Choo, Yunjie Li, TJ Lu, Abe Ittycheriah, Prakash Shroff, Pei Sun, Mani Varadarajan, Sanaz Bahargam, Rob Willoughby, David Gaddy, Ishita Dasgupta, Guillaume Desjardins, Marco Cornero, Brona Robenek, Bhavishya Mittal, Ben Albrecht, Ashish Shenoy, Fedor Moiseev, Henrik Jacobsson, Alireza Ghaffarkhah, Morgane Rivi\`ere, Alanna Walton, Cl\'ement Crepy, Alicia Parrish, Yuan Liu, Zongwei Zhou, Clement Farabet, Carey Radebaugh, Praveen Srinivasan, Claudia van der Salm, Andreas Fidjeland, Salvatore Scellato, Eri Latorre-Chimoto, Hanna Klimczak-Pluci\'nska, David Bridson, Dario de Cesare, Tom Hudson, Piermaria Mendolicchio, Lexi Walker, Alex Morris, Ivo Penchev, Matthew Mauger, Alexey Guseynov, Alison Reid, Seth Odoom, Lucia Loher, Victor Cotruta, Madhavi Yenugula, Dominik Grewe, Anastasia Petrushkina, Tom Duerig, Antonio Sanchez, Steve Yadlowsky, Amy Shen, Amir Globerson, Adam Kurzrok, Lynette Webb, Sahil Dua, Dong Li, Preethi Lahoti, Surya Bhupatiraju, Dan Hurt, Haroon Qureshi, Ananth Agarwal, Tomer Shani, Matan Eyal, Anuj Khare, Shreyas Rammohan Belle, Lei Wang, Chetan Tekur, Mihir Sanjay Kale, Jinliang Wei, Ruoxin Sang, Brennan Saeta, Tyler Liechty, Yi Sun, Yao Zhao, Stephan Lee, Pandu Nayak, Doug Fritz, Manish Reddy Vuyyuru, John Aslanides, Nidhi Vyas, Martin Wicke, Xiao Ma, Taylan Bilal, Evgenii Eltyshev, Daniel Balle, Nina Martin, Hardie Cate, James Manyika, Keyvan Amiri, Yelin Kim, Xi Xiong, Kai Kang, Florian Luisier, Nilesh Tripuraneni, David Madras, Mandy Guo, Austin Waters, Oliver Wang, Joshua Ainslie, Jason Baldridge, Han Zhang, Garima Pruthi, Jakob Bauer, Feng Yang, Riham Mansour, Jason Gelman, Yang Xu, George Polovets, Ji Liu, Honglong Cai, Warren Chen, XiangHai Sheng, Emily Xue, Sherjil Ozair, Adams Yu, Christof Angermueller, Xiaowei Li, Weiren Wang, Julia Wiesinger, Emmanouil Koukoumidis, Yuan Tian, Anand Iyer, Madhu Gurumurthy, Mark Goldenson, Parashar Shah, MK Blake, Hongkun Yu, Anthony Urbanowicz, Jennimaria Palomaki, Chrisantha Fernando, Kevin Brooks, Ken Durden, Harsh Mehta, Nikola Momchev, Elahe Rahimtoroghi, Maria Georgaki, Amit Raul, Sebastian Ruder, Morgan Redshaw, Jinhyuk Lee, Komal Jalan, Dinghua Li, Ginger Perng, Blake Hechtman, Parker Schuh, Milad Nasr, Mia Chen, Kieran Milan, Vladimir Mikulik, Trevor Strohman, Juliana Franco, Tim Green, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals(参考訳) 本報告では,画像,音声,ビデオ,テキスト理解の両面で優れた機能を示す,新しいマルチモーダルモデルであるGeminiを紹介する。 GeminiファミリーはUltra、Pro、Nanoサイズで構成されており、複雑な推論タスクからオンデバイスメモリ制約のユースケースまで幅広い用途に適している。 幅広いベンチマークの評価から、我々の最も能力の高いgemini ultraモデルは、これらのベンチマークのうち、32つのうち30つでアートの状態を進歩させています。特に、よく研究された試験ベンチマークmmluで人間に熟練したパフォーマンスを達成する最初のモデルであり、我々が調査した20のマルチモーダルベンチマークのうちの1つでアートの状態を改善しました。 クロスモーダル推論と言語理解におけるgeminiモデルの新しい機能によって、さまざまなユースケースが可能になると考えています。

This report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from complex reasoning tasks to on-device memory-constrained use-cases. Evaluation on a broad range of benchmarks shows that our most-capable Gemini Ultra model advances the state of the art in 30 of 32 of these benchmarks - notably being the first model to achieve human-expert performance on the well-studied exam benchmark MMLU, and improving the state of the art in every one of the 20 multimodal benchmarks we examined. We believe that the new capabilities of Gemini models in cross-modal reasoning and language understanding will enable a wide variety of use cases and we discuss our approach toward deploying them responsibly to users.
翻訳日:2023-12-20 17:27:29 公開日:2023-12-19
# 医療のためのnlp指導原則の設計--母性保健を事例として

Designing Guiding Principles for NLP for Healthcare: A Case Study of Maternal Health ( http://arxiv.org/abs/2312.11803v1 )

ライセンス: Link先を確認
Maria Antoniak, Aakanksha Naik, Carla S. Alvarado, Lucy Lu Wang, Irene Y. Chen(参考訳) 目的: 医療アプリケーションに自然言語処理(NLP)ツールをどのように使用するかを形成するために、大規模言語モデル(LLM)を使用するための倫理的フレームワークが緊急必要である。 医療におけるNLPの活用の指針として,母体保健の応用を例として,最も影響の大きい者の声から直接,NLPを医療に活用するための一連の原則を提案する。 資料と方法: 39名の参加者によるフルデイワークショップにおいて,LLMベースのチャットボットのデモを中心とした対話的なセッションを主導し,AIとLLMの価値観,ニーズ,認識について,30名の医療従事者と30名の出生者を対象に調査を行った。 我々は,対話的議論の定量的,質的な分析を行い,研究結果を指針の集合に集約した。 結果:母体保健のケーススタディを用いて,LLMの倫理的利用に関する9つの原則を3つのカテゴリに分類する。 (一)文脈上の意義 (ii)測定、及び (iii)誰/何に価値があるか。 これらの原則の基礎となる理性を説明し、実践的なアドバイスを提供する。 議論: 医療は、臨床医と患者の関係における力のバランス、体系的な健康格差、歴史的不正、経済的制約など、既存の課題に直面している。 我々の原則は、医学におけるLSMの展開における重要な考慮事項を克服するための枠組みとして機能し、他の研究者が従うための方法論パターンを提供する。 結論: この原則は, 臨床現場で使用するLSMの開発において, 技術的ニュアンス, 歴史的文脈, 包括的設計の重要性を強調するために, 母体保健や他の医療分野に取り組む実践者の資源として機能する。

Objective: An ethical framework for the use of large language models (LLMs) is urgently needed to shape how natural language processing (NLP) tools are used for healthcare applications. Drawing directly from the voices of those most affected, we propose a set of guiding principles for the use of NLP in healthcare, with examples based on applications in maternal health. Materials and Methods: We led an interactive session centered on an LLM-based chatbot demonstration during a full-day workshop with 39 participants, and additionally surveyed 30 healthcare workers and 30 birthing people about their values, needs, and perceptions of AI and LLMs. We conducted quantitative and qualitative analyses of the interactive discussions to consolidate our findings into a set of guiding principles. Results: Using the case study of maternal health, we propose nine principles for ethical use of LLMs, grouped into three categories: (i) contextual significance, (ii) measurements, and (iii) who/what is valued. We describe rationales underlying these principles and provide practical advice. Discussion: Healthcare faces existing challenges including the balance of power in clinician-patient relationships, systemic health disparities, historical injustices, and economic constraints. Our principles serve as a framework for surfacing key considerations when deploying LLMs in medicine, as well as providing a methodological pattern for other researchers to follow. Conclusion: This set of principles can serve as a resource to practitioners working on maternal health and other healthcare fields to emphasize the importance of technical nuance, historical context, and inclusive design when developing LLMs for use in clinical settings.
翻訳日:2023-12-20 17:27:14 公開日:2023-12-19
# スペクトルバンドルとスケッチによる高速でスケーラブルで温かい半定型プログラミング

Fast, Scalable, Warm-Start Semidefinite Programming with Spectral Bundling and Sketching ( http://arxiv.org/abs/2312.11801v1 )

ライセンス: Link先を確認
Rico Angell and Andrew McCallum(参考訳) 半定値プログラミング(SDP)は伝統的に中程度の問題に限られてきたが、近年、行列スケッチ技術で拡張されたアルゴリズムにより、より大きなSDPを解けるようになった。 しかし、これらの手法は必要なイテレーション数の増加を犠牲にしてスケーラビリティを実現し、問題のサイズが大きくなると収束が遅くなる。 さらに、インクリメンタルアレーブデータや混合インテガープログラミングで実用上重要なウォームスタート初期化の有効利用を禁止するイテレーション依存パラメータスケジュールが必要となる。 提案するSpecBMは,暖化開始初期化を利用して収束をさらに加速する,大規模SDPを解くための,証明可能な正確かつ高速でスケーラブルなアルゴリズムである。 提案アルゴリズムは,等式制約と不等式制約の両方を含む一般SDPを解くためのスペクトル束法である。 さらに,任意の行列スケッチ手法で拡張すると,コンバージェンス速度を維持しつつ,従来の作業のスケーラビリティを劇的に向上させる。 大規模インスタンスを持つ複数のアプリケーションに対して,本手法の有効性を実証的に実証した。 例えば、6億の意思決定変数を持つ問題において、SpecBMは7分以内で標準精度のソリューションを達成し、以前の最先端のスケーラブルなSDPソルバは16時間以上を要する。 提案手法は,16コアで128GBのRAMを持つ1台のマシン上で10^13以上の決定変数を持つSDPを解く。 私たちは純粋なJAXで実装を公開しています。

While semidefinite programming (SDP) has traditionally been limited to moderate-sized problems, recent algorithms augmented with matrix sketching techniques have enabled solving larger SDPs. However, these methods achieve scalability at the cost of an increase in the number of necessary iterations, resulting in slower convergence as the problem size grows. Furthermore, they require iteration-dependent parameter schedules that prohibit effective utilization of warm-start initializations important in practical applications with incrementally-arriving data or mixed-integer programming. We present SpecBM, a provably correct, fast and scalable algorithm for solving massive SDPs that can leverage a warm-start initialization to further accelerate convergence. Our proposed algorithm is a spectral bundle method for solving general SDPs containing both equality and inequality constraints. Moveover, when augmented with an optional matrix sketching technique, our algorithm achieves the dramatically improved scalability of previous work while sustaining convergence speed. We empirically demonstrate the effectiveness of our method, both with and without warm-starting, across multiple applications with large instances. For example, on a problem with 600 million decision variables, SpecBM achieved a solution of standard accuracy in less than 7 minutes, where the previous state-of-the-art scalable SDP solver requires more than 16 hours. Our method solves an SDP with more than 10^13 decision variables on a single machine with 16 cores and no more than 128GB RAM; the previous state-of-the-art method had not achieved an accurate solution after 72 hours on the same instance. We make our implementation in pure JAX publicly available.
翻訳日:2023-12-20 17:26:46 公開日:2023-12-19
# 不完全市場におけるマートンの戦略学習:再帰的エントロピー正規化とバイアスドガウス探索

Learning Merton's Strategies in an Incomplete Market: Recursive Entropy Regularization and Biased Gaussian Exploration ( http://arxiv.org/abs/2312.11797v1 )

ライセンス: Link先を確認
Min Dai, Yuchao Dong, Yanwei Jia, and Xun Yu Zhou(参考訳) 不完全市場におけるMertonの予測効用最大化問題について検討し,すべてのモデルプリミティブが不明な株価プロセスに加えて因子プロセスが特徴である。 我々は、モデルパラメーターを見積もることなく、未知の市場を探索し、最適ポートフォリオポリシーを直接学習する強化学習(RL)アプローチを採用する。 Wang et al. (2020) で定式化された一般連続時間RLのエントロピー規則化フレームワークに基づいて,過去の累積探査量による現在の探査報酬を不均一に割引する再帰重み付け手法を提案する。 このような再帰正規化はガウス探索の最適性を取り戻す。 しかし、既存の結果とは対照的に、最適なガウスの政策は、ヘッジや探検の必要性から、一般に偏っていることが判明した。 本稿では,結果の誤りを漸近的に分析し,探索のレベルが学習方針にどのように影響するかを示す。 さらに,政策改善定理を確立し,マートンの最適戦略を学ぶためのrlアルゴリズムをいくつか設計する。 最後に,従来のプラグイン法と比較して,RLアルゴリズムの効率性とロバスト性を実証するために,確率的ボラティリティ環境を用いたシミュレーションおよび実験的検討を行った。

We study Merton's expected utility maximization problem in an incomplete market, characterized by a factor process in addition to the stock price process, where all the model primitives are unknown. We take the reinforcement learning (RL) approach to learn optimal portfolio policies directly by exploring the unknown market, without attempting to estimate the model parameters. Based on the entropy-regularization framework for general continuous-time RL formulated in Wang et al. (2020), we propose a recursive weighting scheme on exploration that endogenously discounts the current exploration reward by the past accumulative amount of exploration. Such a recursive regularization restores the optimality of Gaussian exploration. However, contrary to the existing results, the optimal Gaussian policy turns out to be biased in general, due to the interwinding needs for hedging and for exploration. We present an asymptotic analysis of the resulting errors to show how the level of exploration affects the learned policies. Furthermore, we establish a policy improvement theorem and design several RL algorithms to learn Merton's optimal strategies. At last, we carry out both simulation and empirical studies with a stochastic volatility environment to demonstrate the efficiency and robustness of the RL algorithms in comparison to the conventional plug-in method.
翻訳日:2023-12-20 17:26:10 公開日:2023-12-19
# MELO: ニューロンインデクシング動的ロラによるモデル編集の強化

MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA ( http://arxiv.org/abs/2312.11795v1 )

ライセンス: Link先を確認
Lang Yu, Qin Chen, Jie Zhou, Liang He(参考訳) 大規模な言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクで大きな成功を収めている。 研究者らはモデル編集のような問題を定式化し、編集特性の異なる軸に着目した様々なエディタを開発した。 しかし、現在のエディタはすべてのプロパティをサポートできず、重い計算リソースに依存している。 本稿では、内部ベクトルデータベースに構築されたインデックスに基づいて特定のLoRAブロックを動的に活性化することにより言語モデルの振る舞いを変化させる、ニューロンインデクシング動的LoRA(MELO)に基づくプラグインモデル編集手法を提案する。 本手法は,様々な編集特性を高い効率で満たし,複数のllmバックボーンに容易に統合できる。 実験の結果,提案手法は3つの逐次編集タスク(文書分類,質問応答,幻覚修正)において最先端の編集性能を達成でき,しかも最小の学習パラメータと計算コストが要求されることがわかった。

Large language models (LLMs) have shown great success in various Natural Language Processing (NLP) tasks, whist they still need updates after deployment to fix errors or keep pace with the changing knowledge in the world. Researchers formulate such problem as Model Editing and have developed various editors focusing on different axes of editing properties. However, current editors can hardly support all properties and rely on heavy computational resources. In this paper, we propose a plug-in Model Editing method based on neuron-indexed dynamic LoRA (MELO), which alters the behavior of language models by dynamically activating certain LoRA blocks according to the index built in an inner vector database. Our method satisfies various editing properties with high efficiency and can be easily integrated into multiple LLM backbones. Experimental results show that our proposed MELO achieves state-of-the-art editing performance on three sequential editing tasks (document classification, question answering and hallucination correction), while requires the least trainable parameters and computational cost.
翻訳日:2023-12-20 17:25:29 公開日:2023-12-19
# エントロピー画像を用いた効率的な画像複写偽造検出

An effective image copy-move forgery detection using entropy image ( http://arxiv.org/abs/2312.11793v1 )

ライセンス: Link先を確認
Zhaowei Lu, Li Jiang(参考訳) 画像鑑識は私たちの日常生活でますます重要になっています。 Copy-Move Forgery Detection (CMFD) は基本的なフォージェリーとして学術界で注目されている。 キーポイントベースのアルゴリズム、特にSIFTに基づくアルゴリズムはCMFDで良い結果を得た。 しかし、ほとんどのキーポイント検出アルゴリズムは、スムーズな領域にパッチを改ざんした場合に十分なマッチングを生成できないことが多い。 この問題に対処するために,キーポイントの座標やスケールを決定するエントロピー画像を導入し,キーポイントの数を著しく増加させる。 さらに,キーポイントにおけるグレースケール値の非理想分布によるマッチング複雑性の増大を回避するために,エントロピーレベルクラスタリングアルゴリズムを開発した。 実験の結果,本アルゴリズムは性能と時間効率のバランスが良好であることが判明した。

Image forensics has become increasingly important in our daily lives. As a fundamental type of forgeries, Copy-Move Forgery Detection (CMFD) has received significant attention in the academic community. Keypoint-based algorithms, particularly those based on SIFT, have achieved good results in CMFD. However, the most of keypoint detection algorithms often fail to generate sufficient matches when tampered patches are present in smooth areas. To tackle this problem, we introduce entropy images to determine the coordinates and scales of keypoints, resulting significantly increasing the number of keypoints. Furthermore, we develop an entropy level clustering algorithm to avoid increased matching complexity caused by non-ideal distribution of grayscale values in keypoints. Experimental results demonstrate that our algorithm achieves a good balance between performance and time efficiency.
翻訳日:2023-12-20 17:24:59 公開日:2023-12-19
# COOPER: 複雑な対話目標に向けた特別エージェントの調整

COOPER: Coordinating Specialized Agents towards a Complex Dialogue Goal ( http://arxiv.org/abs/2312.11792v1 )

ライセンス: Link先を確認
Yi Cheng, Wenge Liu, Jian Wang, Chak Tou Leong, Yi Ouyang, Wenjie Li, Xian Wu, Yefeng Zheng(参考訳) 近年,従来のサービス中心の対話システムを超えて,交渉や説得,情緒的支援など,より複雑な目標を持つ対話への関心が高まっている。 より洗練された戦略的推論とコミュニケーションのスキルの要求とは別に、これらのタスクの重要な課題は、目標の達成を客観的に定量化することの困難さであり、既存の研究が対話手順を直接最適化することは困難である。 本研究では,複雑な対話目標の多面的性質を強調し,それらの異なる側面を包括的に検討し,共同で推進することによって達成することがより実現可能であると主張する。 そこで本稿では,複雑な目的にアプローチするために,個別の対話目標の側面をそれぞれ別々に扱う複数の専門エージェントを協調させる対話フレームワークであるcooperを提案する。 この分割と結合によって、複雑な対話の目標がより親しみやすくなり、個々のエージェントの協力によってより深い知性がもたらされる。 説得と感情支援の対話実験は,一連の競争的ベースラインよりも本手法が優れていることを示す。

In recent years, there has been a growing interest in exploring dialogues with more complex goals, such as negotiation, persuasion, and emotional support, which go beyond traditional service-focused dialogue systems. Apart from the requirement for much more sophisticated strategic reasoning and communication skills, a significant challenge of these tasks lies in the difficulty of objectively measuring the achievement of their goals in a quantifiable way, making it difficult for existing research to directly optimize the dialogue procedure towards them. In our work, we emphasize the multifaceted nature of complex dialogue goals and argue that it is more feasible to accomplish them by comprehensively considering and jointly promoting their different aspects. To this end, we propose a novel dialogue framework, Cooper, which coordinates multiple specialized agents, each dedicated to a specific dialogue goal aspect separately, to approach the complex objective. Through this divide-and-conquer manner, we make complex dialogue goals more approachable and elicit greater intelligence via the collaboration of individual agents. Experiments on persuasion and emotional support dialogues demonstrate the superiority of our method over a set of competitive baselines.
翻訳日:2023-12-20 17:24:38 公開日:2023-12-19
# マルチウェイ優先によるより高速な収束

Faster Convergence with Multiway Preferences ( http://arxiv.org/abs/2312.11788v1 )

ライセンス: Link先を確認
Aadirupa Saha, Vitaly Feldman, Tomer Koren, Yishay Mansour(参考訳) 本稿では,比較クエリの弱い形式を与えられた凸関数を最小化することを目的として,選好フィードバックによる凸最適化の問題に対処する。 各クエリは2つのポイントで構成され、デュエルフィードバックは2つのクエリポイントの関数値の(ノイズの多い)単一ビットバイナリ比較を返す。 ここでは、符号関数に基づく比較フィードバックモデルを検討し、バッチおよびマルチウェイ比較による収束率の解析を行う。 我々の主な目標は、符号フィードバックに基づく最適化問題の並列化による収束率の向上を理解することである。 本研究は,マルチウェイ選好による凸最適化の問題を初めて研究し,最適収束率を解析するものである。 最初のコントリビューションは効率の良いアルゴリズムを設計することであり、コンバージェンスレートは$\smash{\widetilde O}(\frac{d}{\min\{m,d\} \epsilon})$ for $m$-batched preference feedback ここで学習者は$m$-pairsを並列にクエリできる。 次に、$m$-multiway comparison (`battling') フィードバックについて研究し、そこでは、学習者がクエリされた点の$m$-subsetのargminフィードバックを見て、$\smash{\widetilde o}(\frac{d}{ \min\{\log m,d\}\epsilon })$の収束率を示すことができる。 より強い凸性を仮定して収束率をさらに向上させる。 最後に,収束率w.r.t.$m$の最適性を示すバッチ選択の収束下限とマルチウェイフィードバック最適化についても検討した。

We address the problem of convex optimization with preference feedback, where the goal is to minimize a convex function given a weaker form of comparison queries. Each query consists of two points and the dueling feedback returns a (noisy) single-bit binary comparison of the function values of the two queried points. Here we consider the sign-function-based comparison feedback model and analyze the convergence rates with batched and multiway (argmin of a set queried points) comparisons. Our main goal is to understand the improved convergence rates owing to parallelization in sign-feedback-based optimization problems. Our work is the first to study the problem of convex optimization with multiway preferences and analyze the optimal convergence rates. Our first contribution lies in designing efficient algorithms with a convergence rate of $\smash{\widetilde O}(\frac{d}{\min\{m,d\} \epsilon})$ for $m$-batched preference feedback where the learner can query $m$-pairs in parallel. We next study a $m$-multiway comparison (`battling') feedback, where the learner can get to see the argmin feedback of $m$-subset of queried points and show a convergence rate of $\smash{\widetilde O}(\frac{d}{ \min\{\log m,d\}\epsilon })$. We show further improved convergence rates with an additional assumption of strong convexity. Finally, we also study the convergence lower bounds for batched preferences and multiway feedback optimization showing the optimality of our convergence rates w.r.t. $m$.
翻訳日:2023-12-20 17:23:52 公開日:2023-12-19
# セマンティックトリプルと知識グラフを用いたゼロショットファクトチェッキング

Zero-Shot Fact-Checking with Semantic Triples and Knowledge Graphs ( http://arxiv.org/abs/2312.11785v1 )

ライセンス: Link先を確認
Zhangdie Yuan and Andreas Vlachos(参考訳) 自動ファクトチェックの進歩にもかかわらず、ほとんどのシステムは大量のラベル付きトレーニングデータを必要とする。 本稿では,主張文や証拠文を直接操作する代わりに,外部知識グラフを用いた意味的三分法に分解し,自然言語推論のために訓練された大規模言語モデルを用いたゼロショット手法を提案する。 これにより、監視されたモデルに特定のトレーニングデータを必要とする敵のデータセットやドメインに一般化することができる。 実験結果から,我々のアプローチは,従来の熱,熱対称性,熱 2.0,気候変化に対するゼロショットアプローチよりも優れており,逆およびドメイン外データセットの教師付きモデルよりも優れていた。

Despite progress in automated fact-checking, most systems require a significant amount of labeled training data, which is expensive. In this paper, we propose a novel zero-shot method, which instead of operating directly on the claim and evidence sentences, decomposes them into semantic triples augmented using external knowledge graphs, and uses large language models trained for natural language inference. This allows it to generalize to adversarial datasets and domains that supervised models require specific training data for. Our empirical results show that our approach outperforms previous zero-shot approaches on FEVER, FEVER-Symmetric, FEVER 2.0, and Climate-FEVER, while being comparable or better than supervised models on the adversarial and the out-of-domain datasets.
翻訳日:2023-12-20 17:22:45 公開日:2023-12-19
# ビデオでオブジェクトの状態変化を学ぶ: オープンワールドの視点から

Learning Object State Changes in Videos: An Open-World Perspective ( http://arxiv.org/abs/2312.11782v1 )

ライセンス: Link先を確認
Zihui Xue, Kumar Ashutosh, Kristen Grauman(参考訳) オブジェクト状態変化(OSC)は、ビデオ理解において重要な要素である。 人間は未知の物体へのosc理解を無力に一般化することができるが、現在のアプローチは閉じた語彙に限定されている。 このギャップに対処し,ビデオosc問題に対する新しいオープンワールド定式化を提案する。 目標は、トレーニング中にオブジェクトが観察されたかどうかに関わらず、OSCの3つのステージ -- オブジェクトの初期状態、遷移状態、および最終状態 -- を時間的にローカライズすることだ。 この目的に向けて,(1)oscトレーニングデータの手作業によるラベル付けを回避し,(2)オブジェクトからのきめ細かい共有状態表現を抽象化し,一般化を促進する,総合的な学習手法であるvidoscを開発した。 さらに,ビデオOSCローカライゼーションのための最初のオープンワールドベンチマークであるHowToChangeについて述べる。 実験により,従来のクローズドワールドシナリオとオープンワールドシナリオの両方において,我々のアプローチの有効性が示された。

Object State Changes (OSCs) are pivotal for video understanding. While humans can effortlessly generalize OSC understanding from familiar to unknown objects, current approaches are confined to a closed vocabulary. Addressing this gap, we introduce a novel open-world formulation for the video OSC problem. The goal is to temporally localize the three stages of an OSC -- the object's initial state, its transitioning state, and its end state -- whether or not the object has been observed during training. Towards this end, we develop VidOSC, a holistic learning approach that: (1) leverages text and vision-language models for supervisory signals to obviate manually labeling OSC training data, and (2) abstracts fine-grained shared state representations from objects to enhance generalization. Furthermore, we present HowToChange, the first open-world benchmark for video OSC localization, which offers an order of magnitude increase in the label space and annotation volume compared to the best existing benchmark. Experimental results demonstrate the efficacy of our approach, in both traditional closed-world and open-world scenarios.
翻訳日:2023-12-20 17:22:28 公開日:2023-12-19
# あなたは ['xem'] か ['x', 'em'] と話していますか。 固有化パリティを持つLLMにおけるトークン化と対処ミス

Are you talking to ['xem'] or ['x', 'em']? On Tokenization and Addressing Misgendering in LLMs with Pronoun Tokenization Parity ( http://arxiv.org/abs/2312.11779v1 )

ライセンス: Link先を確認
Anaelia Ovalle, Ninareh Mehrabi, Palash Goyal, Jwala Dhamala, Kai-Wei Chang, Richard Zemel, Aram Galstyan, Yuval Pinter, Rahul Gupta(参考訳) 多くのnlp研究は、大規模な言語モデル(llm)の中でジェンダーバイアスが顕在化し、増幅する方法を文書化しているが、この研究は主にジェンダーのバイナリ中心の文脈で行われている。 多くのLDMは、特に新名詞を使用する場合、性別のバイナリ以外の人について正しく一貫して言及することはできない。 データ不足が原因として特定されているが、LSMの誤認に影響を及ぼす正確なメカニズムは未解明のままである。 我々の研究は、サブワードトークン化におけるデータ不足の役割を研究した結果、LLMワード表現の形成によって、このギャップに対処する。 Byte-Pair Encoding (BPE) トークンライザは,多くのLLMのバックボーンであり,語彙外動作によるニュープロノウン誤認識にどのように貢献するかを明らかにする。 代名詞トークン化パリティ (PTP) は, トークンの機能的構造を保ち, LLMネオプロノウン誤認を減らすための新しいアプローチである。 代名詞整合性に基づく尺度と新しい構文に基づく尺度を用いて,PTPの有効性を評価する。 いくつかの制御された実験を通じて、LPMをPTPで微調整することで、新生ニューロンの一貫性が14.5%から58.4%に向上し、LLM代名詞の一貫性において重要な役割を担っている。

A large body of NLP research has documented the ways gender biases manifest and amplify within large language models (LLMs), though this research has predominantly operated within a gender binary-centric context. A growing body of work has identified the harmful limitations of this gender-exclusive framing; many LLMs cannot correctly and consistently refer to persons outside the gender binary, especially if they use neopronouns. While data scarcity has been identified as a possible culprit, the precise mechanisms through which it influences LLM misgendering remain underexplored. Our work addresses this gap by studying data scarcity's role in subword tokenization and, consequently, the formation of LLM word representations. We uncover how the Byte-Pair Encoding (BPE) tokenizer, a backbone for many popular LLMs, contributes to neopronoun misgendering through out-of-vocabulary behavior. We introduce pronoun tokenization parity (PTP), a novel approach to reduce LLM neopronoun misgendering by preserving a token's functional structure. We evaluate PTP's efficacy using pronoun consistency-based metrics and a novel syntax-based metric. Through several controlled experiments, finetuning LLMs with PTP improves neopronoun consistency from 14.5% to 58.4%, highlighting the significant role tokenization plays in LLM pronoun consistency.
翻訳日:2023-12-20 17:22:08 公開日:2023-12-19
# 2色レーザーパルスによるリニア分子の無電界アライメントと配向

Field-free alignment and orientation of linear molecules by two-color trapezoidal laser pulses ( http://arxiv.org/abs/2312.11777v1 )

ライセンス: Link先を確認
Eugene A. Koval(参考訳) 2色レーザーパルスによる無電界アライメントと線形分子の配向について検討した。 パルス分子アライメントは, 断熱型と非断熱型の両方で生じる。 分子配向度と配向度はレーザーパルス持続時間によって最適化される。 単色プリパルスを用いたZhang~[Phys. Rev. A 83, 043410 (2011)]のバイパルス戦略を適用し, 短周期の台形パルスの配向度を向上させる。

The field-free alignment and orientation of linear molecules by two-color laser pulses with trapezoidal shape are investigated. We show that after pulse molecular alignment is produced both in both adiabatic and non-adiabatic regimes. The degrees of molecular alignment and orientation are optimized by the laser pulse durations. The bipulse strategy of Zhang~[Phys. Rev. A 83, 043410 (2011)] with monochromatic prepulse is applied to enhance the orientation degree for the trapezoidal pulses with short durations.
翻訳日:2023-12-20 17:21:41 公開日:2023-12-19
# SAMBAに向けて:サブシャランアフリカにおける脳腫瘍分離のセグメンテーションモデル

Towards SAMBA: Segment Anything Model for Brain Tumor Segmentation in Sub-Sharan African Populations ( http://arxiv.org/abs/2312.11775v1 )

ライセンス: Link先を確認
Mohannad Barakat, Noha Magdy, Jjuuko George William, Ethel Phiri, Raymond Confidence, Dong Zhang and Udunna C Anazodo(参考訳) 最も一般的な脳腫瘍であるグリオーマは、診断と治療計画のために正確な分割を必要とする。 しかし、この課題は、特にアフリカの人口において、高品質な画像データハッパーアルゴリズムのパフォーマンスに制限されるという重大な課題を引き起こしている。 本研究では,Segment Anything Model(SAM)とマルチモーダルグリオーマセグメンテーションのための投票ネットワークを組み合わせた革新的なアプローチを提案する。 SAMBA(bounding box-guided prompts)を用いてSAMを微調整することにより、アフリカのデータセットの複雑さにモデルを適用する。 複数のモダリティとビューを利用するアンサンブル戦略は,腫瘍内不均一性に対処する,堅牢なコンセンサスセグメンテーションを生み出す。 低品質のスキャンは困難を呈するが,我々の手法は,アフリカなどの資源制限された環境での臨床実践に大きな影響を与える可能性がある。 さらに、将来他の脳腫瘍のタイプや病変への応用が成功すれば、神経画像の広範な変化が期待でき、すべての設定で医療結果が改善される。 この研究はBraTS Challenge Africa (BraTS-Africa)データセット上で行われ、資源制限された設定、特にアフリカ人集団に特有の課題に対処し、効果的でより一般化可能なセグメンテーションアルゴリズムの開発を促進するための貴重なリソースを提供する。 アプローチの可能性を説明するため,BraTS-Africaデータセットを用いた実験では,二分法ではDice係数が86.6,複数クラスのセグメンテーションでは60.4に達した。

Gliomas, the most prevalent primary brain tumors, require precise segmentation for diagnosis and treatment planning. However, this task poses significant challenges, particularly in the African population, were limited access to high-quality imaging data hampers algorithm performance. In this study, we propose an innovative approach combining the Segment Anything Model (SAM) and a voting network for multi-modal glioma segmentation. By fine-tuning SAM with bounding box-guided prompts (SAMBA), we adapt the model to the complexities of African datasets. Our ensemble strategy, utilizing multiple modalities and views, produces a robust consensus segmentation, addressing intra-tumoral heterogeneity. Although the low quality of scans presents difficulties, our methodology has the potential to profoundly impact clinical practice in resource-limited settings such as Africa, improving treatment decisions and advancing neuro-oncology research. Furthermore, successful application to other brain tumor types and lesions in the future holds promise for a broader transformation in neurological imaging, improving healthcare outcomes across all settings. This study was conducted on the Brain Tumor Segmentation (BraTS) Challenge Africa (BraTS-Africa) dataset, which provides a valuable resource for addressing challenges specific to resource-limited settings, particularly the African population, and facilitating the development of effective and more generalizable segmentation algorithms. To illustrate our approach's potential, our experiments on the BraTS-Africa dataset yielded compelling results, with SAM attaining a Dice coefficient of 86.6 for binary segmentation and 60.4 for multi-class segmentation.
翻訳日:2023-12-20 17:21:32 公開日:2023-12-19
# 一貫したテキスト対3d生成のためのテキスト画像条件付き拡散

Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation ( http://arxiv.org/abs/2312.11774v1 )

ライセンス: Link先を確認
Yuze He, Yushi Bai, Matthieu Lin, Jenny Sheng, Yubin Hu, Qi Wang, Yu-Hui Wen, Yong-Jin Liu(参考訳) トレーニング済みの2次元拡散モデルからニューラルラジアンス場(NeRF)に引き上げることにより,テキスト・ツー・3次元生成法は大きな進歩を遂げた。 多くの最先端のアプローチでは、通常はスコア蒸留サンプリング(SDS)を用いてNeRF表現を最適化し、Imagenのような事前訓練されたテキスト条件の2D拡散モデルでNeRF最適化を監督する。 しかし、事前訓練された拡散モデルによって提供される監視信号は、テキストプロンプトにのみ依存し、多視点一貫性を制約しない。 拡散優先にクロスビュー一貫性を注入するために、最近のいくつかの研究は、マルチビューデータで2次元拡散モデルを微調整しているが、細粒度のビューコヒーレンスを欠いている。 この課題に取り組むために,多視点画像条件をnrf最適化の監督信号に取り入れ,細粒度ビュー一貫性を明示的に強制する。 このような強い監督により,提案手法はフローターの発生(過剰密度による)と空き空間(不十分密度による)を効果的に緩和する。 t$^3$benchデータセットの定量的評価により,既存のtext-to-3d法よりも最先端の性能が得られた。 私たちはそのコードを公開します。

By lifting the pre-trained 2D diffusion models into Neural Radiance Fields (NeRFs), text-to-3D generation methods have made great progress. Many state-of-the-art approaches usually apply score distillation sampling (SDS) to optimize the NeRF representations, which supervises the NeRF optimization with pre-trained text-conditioned 2D diffusion models such as Imagen. However, the supervision signal provided by such pre-trained diffusion models only depends on text prompts and does not constrain the multi-view consistency. To inject the cross-view consistency into diffusion priors, some recent works finetune the 2D diffusion model with multi-view data, but still lack fine-grained view coherence. To tackle this challenge, we incorporate multi-view image conditions into the supervision signal of NeRF optimization, which explicitly enforces fine-grained view consistency. With such stronger supervision, our proposed text-to-3D method effectively mitigates the generation of floaters (due to excessive densities) and completely empty spaces (due to insufficient densities). Our quantitative evaluations on the T$^3$Bench dataset demonstrate that our method achieves state-of-the-art performance over existing text-to-3D methods. We will make the code publicly available.
翻訳日:2023-12-20 17:21:02 公開日:2023-12-19
# CAManim: エンドツーエンドのネットワークアクティベーションマップのアニメーション

CAManim: Animating end-to-end network activation maps ( http://arxiv.org/abs/2312.11772v1 )

ライセンス: Link先を確認
Emily Kaczmarek and Olivier X. Miguel and Alexa C. Bowie and Robin Ducharme and Alysha L.J. Dingwall-Harvey and Steven Hawken and Christine M. Armour and Mark C. Walker and Kevin Dick(参考訳) ディープニューラルネットワークは、開発者やアプリケーション固有のエンドユーザへの高いパフォーマンスとアクセシビリティのため、多くのドメインで広く採用されている。 画像ベースのアプリケーションの基本は、データから自動的に特徴を抽出する能力を持つ畳み込みニューラルネットワーク(cnns)の開発である。 しかし、これらの複雑なモデルとその学習された表現の理解は、一般的に数百万のパラメータと多数のレイヤで構成されており、開発者とエンドユーザの両方にとって課題となっている。 この課題はブラックボックスモデルを理解するための解釈可能で透明なツールがないためである。 クラスアクティベーションマップ(cams:class activation maps)と呼ばれるメソッドの集合は、モデルがデータからどのような表現を学んでいるか、それがどのような予測を知らせるか、そしてなぜ特定のタスクでパフォーマンスが悪いのかを解明しようとするものだ。 本稿では,CAMベースのネットワークアクティベーションマップを全層を通してアニメーションすることで,CNN予測のエンドユーザー理解を同時に拡張し,集中させることを目的とした,CAManimと呼ばれる新しいXAI可視化手法を提案する。 本稿では,CAManimが任意のCAMベースのメソッドと各種CNNアーキテクチャで動作することを示す。 さらに, 質的モデル評価以外にも, 道路とデビアス(道路)のメートル法を拡張する新しい定量的評価法を提案し, 質的エンドツーエンドネットワークの視覚的説明評価と, 新たな量的「黄色いレンガ道路」評価 (ybroad) を組み合わせる。 これは、解釈可能でロバストで透明なモデル評価方法論の需要の増加に対処するための以前の研究に基づいており、最終的に、あるモデルの予測に対するエンドユーザの信頼を高める。

Deep neural networks have been widely adopted in numerous domains due to their high performance and accessibility to developers and application-specific end-users. Fundamental to image-based applications is the development of Convolutional Neural Networks (CNNs), which possess the ability to automatically extract features from data. However, comprehending these complex models and their learned representations, which typically comprise millions of parameters and numerous layers, remains a challenge for both developers and end-users. This challenge arises due to the absence of interpretable and transparent tools to make sense of black-box models. There exists a growing body of Explainable Artificial Intelligence (XAI) literature, including a collection of methods denoted Class Activation Maps (CAMs), that seek to demystify what representations the model learns from the data, how it informs a given prediction, and why it, at times, performs poorly in certain tasks. We propose a novel XAI visualization method denoted CAManim that seeks to simultaneously broaden and focus end-user understanding of CNN predictions by animating the CAM-based network activation maps through all layers, effectively depicting from end-to-end how a model progressively arrives at the final layer activation. Herein, we demonstrate that CAManim works with any CAM-based method and various CNN architectures. Beyond qualitative model assessments, we additionally propose a novel quantitative assessment that expands upon the Remove and Debias (ROAD) metric, pairing the qualitative end-to-end network visual explanations assessment with our novel quantitative "yellow brick ROAD" assessment (ybROAD). This builds upon prior research to address the increasing demand for interpretable, robust, and transparent model assessment methodology, ultimately improving an end-user's trust in a given model's predictions.
翻訳日:2023-12-20 17:20:38 公開日:2023-12-19
# 視覚中心自律運転のための中間3次元特徴の制御

Regulating Intermediate 3D Features for Vision-Centric Autonomous Driving ( http://arxiv.org/abs/2312.11837v1 )

ライセンス: Link先を確認
Junkai Xu, Liang Peng, Haoran Cheng, Linxuan Xia, Qi Zhou, Dan Deng, Wei Qian, Wenxiao Wang, Deng Cai(参考訳) マルチカメラ認識タスクは自動運転の分野で大きな注目を集めている。 しかし,マルチカメラ環境でのリフトプレートシュート(lss)に基づく既存のフレームワークでは,投影性や制御不能なデンシフィケーションプロセスなどにより,密集した3d特徴が得られない。 この問題を解決するために,ボリュームレンダリングを用いて,中間密度の3次元特徴量を制御することを提案する。 具体的には、ボリュームレンダリングを用いて密度の高い3d特徴を処理し、トレーニングで関連するラベルによって監督される対応する2d特徴(深度マップ、意味マップなど)を得る。 この方法では、機能レベルで密度の高い3d特徴の生成を規制し、複数の知覚タスクに適切な密度と統一的な特徴を提供する。 したがって,本手法は Vampire と呼ばれ,"Volume rendering As Multi-camera Perception Intermediate Feature Regulator" の略である。 Occ3DとnuScenesデータセットの実験結果によると、Vampireは高密度な3D特徴のきめ細かい抽出を容易にし、3D占有率予測、LiDARセグメンテーション、および3Dオブジェクト検出など、さまざまな下流認識タスクにまたがる既存のSOTAメソッドと競合し、適度なGPUリソースを活用する。 補足資料のデモビデオを提供し、github.com/cskkxjk/Vampire.comでコードを提供している。

Multi-camera perception tasks have gained significant attention in the field of autonomous driving. However, existing frameworks based on Lift-Splat-Shoot (LSS) in the multi-camera setting cannot produce suitable dense 3D features due to the projection nature and uncontrollable densification process. To resolve this problem, we propose to regulate intermediate dense 3D features with the help of volume rendering. Specifically, we employ volume rendering to process the dense 3D features to obtain corresponding 2D features (e.g., depth maps, semantic maps), which are supervised by associated labels in the training. This manner regulates the generation of dense 3D features on the feature level, providing appropriate dense and unified features for multiple perception tasks. Therefore, our approach is termed Vampire, stands for "Volume rendering As Multi-camera Perception Intermediate feature REgulator". Experimental results on the Occ3D and nuScenes datasets demonstrate that Vampire facilitates fine-grained and appropriate extraction of dense 3D features, and is competitive with existing SOTA methods across diverse downstream perception tasks like 3D occupancy prediction, LiDAR segmentation and 3D objection detection, while utilizing moderate GPU resources. We provide a video demonstration in the supplementary materials and Codes are available at github.com/cskkxjk/Vampire.
翻訳日:2023-12-20 17:14:01 公開日:2023-12-19
# マルチビット・大規模ベクトル行列乗算のための全アナログインメモリコンピューティングアーキテクチャ

An All-Analog in-Memory Computing Architecture for Multi-Bit and Large-Scale Vector Matrix Multiplication ( http://arxiv.org/abs/2312.11836v1 )

ライセンス: Link先を確認
Zihao Xuan, Song Chen, Yi Kang(参考訳) analog in-memory computing (aimc) はニューラルネットワークの高速化に素晴らしい性能を示す新しい技術である。 しかし、計算ビット幅とスケールの増加に伴い、高精度データ変換と長距離データルーティングは、AIMCシステムにおいて許容できないエネルギーと遅延オーバーヘッドをもたらす。 本研究では,(1)AiDACがマルチビットコンピューティング効率を向上し,キャパシタ技術をグループ化することでデータ変換時間を短縮する,(2)AiDACはまず行ドライバと列時間アキュムレータを採用し,データ移動のエネルギーコストを最小化しながら,大規模AiMCアレイの統合を実現する,という3つの重要な貢献により,インチャージコンピューティングとインタイムインターコネクトの可能性に注目した。 (3) AiDACは, 大規模全アナログマルチビットベクトル行列乗算(VMM)演算をサポートする最初の研究である。 評価の結果、AiDACは高い並列性(26.2TOPSまで)、低レイテンシ(20ns/VMM)、高エネルギー効率(123.8TOPS/W)などの優れた性能を備え、1024の入力チャネルを持つ8ビットVMMに対して高速計算(0.79%の総計算誤差)を維持している。

Analog in-memory computing (AiMC) is an emerging technology that shows fantastic performance superiority for neural network acceleration. However, as the computational bit-width and scale increase, high-precision data conversion and long-distance data routing will result in unacceptable energy and latency overheads in the AiMC system. In this work, we focus on the potential of in-charge computing and in-time interconnection and show an innovative AiMC architecture, named AiDAC, with three key contributions: (1) AiDAC enhances multibit computing efficiency and reduces data conversion times by grouping capacitors technology; (2) AiDAC first adopts row drivers and column time accumulators to achieve large-scale AiMC arrays integration while minimizing the energy cost of data movements. (3) AiDAC is the first work to support large-scale all-analog multibit vector-matrix multiplication (VMM) operations. The evaluation shows that AiDAC maintains high-precision calculation (less than 0.79% total computing error) while also possessing excellent performance features, such as high parallelism (up to 26.2TOPS), low latency (<20ns/VMM), and high energy efficiency (123.8TOPS/W), for 8bits VMM with 1024 input channels.
翻訳日:2023-12-20 17:13:35 公開日:2023-12-19
# 有理収束型フェデレート三段階学習

Provably Convergent Federated Trilevel Learning ( http://arxiv.org/abs/2312.11835v1 )

ライセンス: Link先を確認
Yang Jiao, Kai Yang, Tiancheng Wu, Chengtao Jian, Jianwei Huang(参考訳) trilevel learning、別名trilevel optimization(tlo)は、階層的意思決定プロセスのための強力なモデリングツールとして認識されており、ロバストなニューラルネットワーク探索、ハイパーパラメータ最適化、ドメイン適応など、多くの機械学習アプリケーションで広く使われている。 TLO問題に取り組むことは、ネストした意思決定構造のために大きな課題となっている。 さらに、TLOに関する既存の研究は、以下の大きな課題に直面している。 1) いずれも,プライバシー侵害につながる可能性のある非分散設定に焦点を当てている。 2) アルゴリズムの収束速度を特徴付ける非漸近収束解析は提供していない。 上記の課題に対処するため,本稿では,tlo問題を解くための非同期連帯三レベル最適化手法を提案する。 提案手法は,TLO問題に対する超多面体近似を構築し,非同期に解くために$\mu$-cutsを利用する。 提案された$\mu$-cutsは、凸関数だけでなく、$\mu$-weakly convexの仮定を満たす幅広い非凸関数にも適用可能であることを示す。 さらに,提案手法の非漸近収束率を理論的に解析し,その反復複雑性を示すことにより,$\epsilon$-定常点を$\mathcal{o}(\frac{1}{\epsilon^2})$で有界とする。 提案手法の優位性を明らかにするために, 実世界のデータセットに対する大規模な実験が行われ, 最大速度約80$\%$の収束速度が向上した。

Trilevel learning, also called trilevel optimization (TLO), has been recognized as a powerful modelling tool for hierarchical decision process and widely applied in many machine learning applications, such as robust neural architecture search, hyperparameter optimization, and domain adaptation. Tackling TLO problems has presented a great challenge due to their nested decision-making structure. In addition, existing works on TLO face the following key challenges: 1) they all focus on the non-distributed setting, which may lead to privacy breach; 2) they do not offer any non-asymptotic convergence analysis which characterizes how fast an algorithm converges. To address the aforementioned challenges, this paper proposes an asynchronous federated trilevel optimization method to solve TLO problems. The proposed method utilizes $\mu$-cuts to construct a hyper-polyhedral approximation for the TLO problem and solve it in an asynchronous manner. We demonstrate that the proposed $\mu$-cuts are applicable to not only convex functions but also a wide range of non-convex functions that meet the $\mu$-weakly convex assumption. Furthermore, we theoretically analyze the non-asymptotic convergence rate for the proposed method by showing its iteration complexity to obtain $\epsilon$-stationary point is upper bounded by $\mathcal{O}(\frac{1}{\epsilon^2})$. Extensive experiments on real-world datasets have been conducted to elucidate the superiority of the proposed method, e.g., it has a faster convergence rate with a maximum acceleration of approximately 80$\%$.
翻訳日:2023-12-20 17:13:03 公開日:2023-12-19
# エコー状態ネットワークを用いたマルチエージェント強化学習と歩行者ダイナミクスへの応用

Multi-agent reinforcement learning using echo-state network and its application to pedestrian dynamics ( http://arxiv.org/abs/2312.11834v1 )

ライセンス: Link先を確認
Hisato Komatsu(参考訳) 近年,マルチエージェント強化学習(MARL)を用いた歩行者のシミュレーションが研究されている。 本研究は, グリッドワールド環境における道路を考察し, エコー状態ネットワークと最小二乗ポリシー反復法を用いて歩行者をMARLエージェントとして実装した。 この環境下では,これらのエージェントが他のエージェントを避けて前進する能力について検討した。 具体的には,狭い直進経路と広い遠回り経路の選択と,廊下における双方向歩行者流の2種類の課題を検討した。 シミュレーションの結果,エージェントの濃度がそれほど高くなかった場合,学習が成功したことがわかった。

In recent years, simulations of pedestrians using the multi-agent reinforcement learning (MARL) have been studied. This study considered the roads on a grid-world environment, and implemented pedestrians as MARL agents using an echo-state network and the least squares policy iteration method. Under this environment, the ability of these agents to learn to move forward by avoiding other agents was investigated. Specifically, we considered two types of tasks: the choice between a narrow direct route and a broad detour, and the bidirectional pedestrian flow in a corridor. The simulations results indicated that the learning was successful when the density of the agents was not that high.
翻訳日:2023-12-20 17:12:38 公開日:2023-12-19
# 5歳から12歳児における注意欠陥多動性障害の客観的スクリーニングにおける機械学習型ビデオゲームの有効性

The Validity of a Machine Learning-Based Video Game in the Objective Screening of Attention Deficit Hyperactivity Disorder in Children Aged 5 to 12 Years ( http://arxiv.org/abs/2312.11832v1 )

ライセンス: Link先を確認
Zeinab Zakani, Hadi Moradi, Sogand Ghasemzadeh, Maryam Riazi, and Fatemeh Mortazavi(参考訳) 目的: 適時治療の機会を提供するにはadhdの早期同定が必要である。 しかし,ADHDの症状を大規模にスクリーニングすることは容易ではない。 本研究の目的は,ADHDのスクリーニングのためのビデオゲーム(FishFinder)を,本疾患のコア症状の客観的測定により検証することであった。 方法:ゲーム内パフォーマンスを通して注意と衝動を計測し,スマートフォンのモーションセンサを用いて子供の過敏性を評価する。 本ゲームは5歳から12歳までのadhd児26名と健常児26名を対象に行った。 adhd児の検出にはサポートベクターマシンが用いられた。 結果: 本システムは, 92.3%の精度, 90%の感度, 93.7%の特異性を示した。 結論: FishFinderは小児のADHDを同定する強力な能力を示した。 したがって、このゲームはADHDの客観的スクリーニングのための、手頃で、アクセスしやすく、楽しい方法として使用できる。

Objective: Early identification of ADHD is necessary to provide the opportunity for timely treatment. However, screening the symptoms of ADHD on a large scale is not easy. This study aimed to validate a video game (FishFinder) for the screening of ADHD using objective measurement of the core symptoms of this disorder. Method: The FishFinder measures attention and impulsivity through in-game performance and evaluates the child's hyperactivity using smartphone motion sensors. This game was tested on 26 children with ADHD and 26 healthy children aged 5 to 12 years. A Support Vector Machine was employed to detect children with ADHD. results: This system showed 92.3% accuracy, 90% sensitivity, and 93.7% specificity using a combination of in-game and movement features. Conclusions: The FishFinder demonstrated a strong ability to identify ADHD in children. So, this game can be used as an affordable, accessible, and enjoyable method for the objective screening of ADHD.
翻訳日:2023-12-20 17:12:27 公開日:2023-12-19
# 局所最小確率的説明

Locally-Minimal Probabilistic Explanations ( http://arxiv.org/abs/2312.11831v1 )

ライセンス: Link先を確認
Yacine Izza, Kuldeep S. Meel, Joao Marques-Silva(参考訳) 形式的帰納的説明は厳密性の重要な保証を提供するので、機械学習(ML)の高用法に関心がある。 誘惑的な説明の欠点は、人間の意思決定者の認知的限界によって正当化される説明のサイズである。 確率的帰納的説明(PAXps)は、この制限に対処するが、理論的かつ実践的な複雑さは、その正確な計算をしばしば非現実的にする。 本稿では,PXApsの高精度な近似を行うローカル最小PXApsの計算アルゴリズムを提案する。 実験の結果,提案アルゴリズムの有効性が示された。

Formal abductive explanations offer crucial guarantees of rigor and so are of interest in high-stakes uses of machine learning (ML). One drawback of abductive explanations is explanation size, justified by the cognitive limits of human decision-makers. Probabilistic abductive explanations (PAXps) address this limitation, but their theoretical and practical complexity makes their exact computation most often unrealistic. This paper proposes novel efficient algorithms for the computation of locally-minimal PXAps, which offer high-quality approximations of PXAps in practice. The experimental results demonstrate the practical efficiency of the proposed algorithms.
翻訳日:2023-12-20 17:12:12 公開日:2023-12-19
# RadOcc:Rendering Assisted Distillationを通じてモダリティの知識を学ぶ

RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation ( http://arxiv.org/abs/2312.11829v1 )

ライセンス: Link先を確認
Haiming Zhang, Xu Yan, Dongfeng Bai, Jiantao Gao, Pan Wang, Bingbing Liu, Shuguang Cui, Zhen Li(参考訳) マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新しい課題である。 しかし、画像に基づくシーン認識は、幾何学的事前の欠如により正確な予測を行う上で大きな課題に遭遇する。 本稿では,この課題におけるクロスモーダル知識の蒸留,すなわち,より強固なマルチモーダルモデルを活用して,トレーニング中の視覚モデルを導くことにより,この問題に対処する。 実際に,鳥眼視(BEV)知覚において提案され広く用いられている特徴やロジットアライメントを直接適用しても,良好な結果が得られない。 この問題を克服するために,3次元占有予測のためのレンダリング支援蒸留パラダイムであるradoccを紹介する。 微分可能なボリュームレンダリングを用いることで,教師モデルと生徒モデルの出力間の深さと意味マップを生成し,2つの新しい一貫性基準を提案する。 具体的には、深度一貫性損失はレンダリングされた光線の終端分布と一致し、セマンティック一貫性損失は視覚基礎モデル(VLM)によって導かれるセグメンテーション内類似性を模倣する。 nuScenes データセットの実験結果から,提案手法は,mIoU の計量で2.2% 向上し,Occ3D ベンチマークで50% 向上するなど,様々な3D 占有率予測手法の改善に有効であることが示された。

3D occupancy prediction is an emerging task that aims to estimate the occupancy states and semantics of 3D scenes using multi-view images. However, image-based scene perception encounters significant challenges in achieving accurate prediction due to the absence of geometric priors. In this paper, we address this issue by exploring cross-modal knowledge distillation in this task, i.e., we leverage a stronger multi-modal model to guide the visual model during training. In practice, we observe that directly applying features or logits alignment, proposed and widely used in bird's-eyeview (BEV) perception, does not yield satisfactory results. To overcome this problem, we introduce RadOcc, a Rendering assisted distillation paradigm for 3D Occupancy prediction. By employing differentiable volume rendering, we generate depth and semantic maps in perspective views and propose two novel consistency criteria between the rendered outputs of teacher and student models. Specifically, the depth consistency loss aligns the termination distributions of the rendered rays, while the semantic consistency loss mimics the intra-segment similarity guided by vision foundation models (VLMs). Experimental results on the nuScenes dataset demonstrate the effectiveness of our proposed method in improving various 3D occupancy prediction approaches, e.g., our proposed methodology enhances our baseline by 2.2% in the metric of mIoU and achieves 50% in Occ3D benchmark.
翻訳日:2023-12-20 17:12:02 公開日:2023-12-19
# tess: 分散自然言語理解モデルを用いた対話型マルチエージェントシステムのためのマルチインテントパーサ

TESS: A Multi-intent Parser for Conversational Multi-Agent Systems with Decentralized Natural Language Understanding Models ( http://arxiv.org/abs/2312.11828v1 )

ライセンス: Link先を確認
Burak Aksar, Yara Rizk and Tathagata Chakraborti(参考訳) チャットボットは、ビジネス自動化ツールのデリバリの主要な経路の1つになっています。 マルチエージェントシステムは、チャットボットを大規模に設計するためのフレームワークを提供し、複数のドメインにまたがる複雑な会話を容易にサポートし、開発者が徐々に機能を維持し拡張することができる。 しかしながら、マルチエージェントシステムは、ユーザ意図の自然言語理解(NLU)を複雑にし、特に分散NLUモデルに依存している場合: ある発話(終端シングルインテント)は単一のエージェントを、他の発話(終端マルチインテント)は明示的に複数のエージェントを起動する。 マルチインテント入力を正しく解析しなければ、分散nluアプローチは高い予測精度を達成できない。 本稿では,マルチエージェントシステムのコンテキストにおいて,ユーザからのマルチインテント発話を提供する効率的な解析・オーケストレーションパイプラインアルゴリズムを提案する。 提案手法は,最大48倍高速な3つのデータセット上での競合ディープラーニングモデルに匹敵する性能を達成した。

Chatbots have become one of the main pathways for the delivery of business automation tools. Multi-agent systems offer a framework for designing chatbots at scale, making it easier to support complex conversations that span across multiple domains as well as enabling developers to maintain and expand their capabilities incrementally over time. However, multi-agent systems complicate the natural language understanding (NLU) of user intents, especially when they rely on decentralized NLU models: some utterances (termed single intent) may invoke a single agent while others (termed multi-intent) may explicitly invoke multiple agents. Without correctly parsing multi-intent inputs, decentralized NLU approaches will not achieve high prediction accuracy. In this paper, we propose an efficient parsing and orchestration pipeline algorithm to service multi-intent utterances from the user in the context of a multi-agent system. Our proposed approach achieved comparable performance to competitive deep learning models on three different datasets while being up to 48 times faster.
翻訳日:2023-12-20 17:11:34 公開日:2023-12-19
# カスタマイズ画像生成のための分離テキスト埋め込み

Decoupled Textual Embeddings for Customized Image Generation ( http://arxiv.org/abs/2312.11826v1 )

ライセンス: Link先を確認
Yufei Cai, Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hu Han and Wangmeng Zuo(参考訳) ユーザが指定した概念を少数の画像で学習することを目的としたカスタマイズされたテキスト・ツー・イメージ生成が近年注目されている。 しかし、既存の手法は通常、問題を過度に満たし、学習された概念と主題非関連情報(例えば背景やポーズ)を絡め込み、概念を新しい場面に構成する可能性を制限する。 これらの問題に対処するため,我々は,フレキシブルなテキスト対画像生成のための概念埋め込みを学習する新しい手法であるdetexを提案する。 与えられた画像から1つの概念の埋め込みを学ぶ従来の方法とは異なり、私たちのDETEXは訓練中に複数の単語の埋め込みを用いて各画像を表現する。 非関連属性(背景とポーズ)を対象埋め込みから切り離すため、さらに、各画像を複数の画像固有の対象非関連埋め込みとしてエンコードする属性マッパーをいくつか提示する。 これらの非関係な埋め込みが無関係な情報を捉えることを奨励するため、対応する属性語を組み込んだ共同学習戦略を提案する。 推論中は画像生成にのみ被写体埋め込みを使用し、画像固有の埋め込みを用いて画像特定属性を保持する。 広範な実験により,本手法で得られた被写体埋め込みは,最先端の手法と比較して編集性に優れながら,対象概念を忠実に表現できることを示した。 私たちのコードは公開されます。

Customized text-to-image generation, which aims to learn user-specified concepts with a few images, has drawn significant attention recently. However, existing methods usually suffer from overfitting issues and entangle the subject-unrelated information (e.g., background and pose) with the learned concept, limiting the potential to compose concept into new scenes. To address these issues, we propose the DETEX, a novel approach that learns the disentangled concept embedding for flexible customized text-to-image generation. Unlike conventional methods that learn a single concept embedding from the given images, our DETEX represents each image using multiple word embeddings during training, i.e., a learnable image-shared subject embedding and several image-specific subject-unrelated embeddings. To decouple irrelevant attributes (i.e., background and pose) from the subject embedding, we further present several attribute mappers that encode each image as several image-specific subject-unrelated embeddings. To encourage these unrelated embeddings to capture the irrelevant information, we incorporate them with corresponding attribute words and propose a joint training strategy to facilitate the disentanglement. During inference, we only use the subject embedding for image generation, while selectively using image-specific embeddings to retain image-specified attributes. Extensive experiments demonstrate that the subject embedding obtained by our method can faithfully represent the target concept, while showing superior editability compared to the state-of-the-art methods. Our code will be made published available.
翻訳日:2023-12-20 17:11:17 公開日:2023-12-19
# 形状対称性エンコードデータ拡張による粒子形状系の複雑な局所環境の分類

Classification of complex local environments in systems of particle shapes through shape-symmetry encoded data augmentation ( http://arxiv.org/abs/2312.11822v1 )

ライセンス: Link先を確認
Shih-Kuang (Alex) Lee, Sun-Ting Tsai and Sharon Glotzer(参考訳) 局所環境の検出と解析は結晶核生成と形状コロイド粒子自己組織化の動的過程を調べる上で重要である。 機械学習の最近の進歩は、従来のアプローチで研究することの難しい複雑なシステムにおいて、より優れた順序パラメータのための有望な道のりを提供する。 しかし, 粒子形状のシステムに対する機械学習の自己組立への応用はいまだ未検討である。 このギャップに対処するために,粒子形状の局所環境分類器として多層パーセプトロン(mlp)を訓練し,粒子距離や配向などの入力特性を用いた,単純で物理学に依存しない強力なアプローチを提案する。 我々のMLP分類器は、従来のロト変換不変対称性関数を必要とせずに、形状対称性符号化データ拡張技術を用いて教師あり方式で訓練されている。 我々は,立方体の自己組立,2次元および3次元の粒子形状系,異なるアスペクト比を持つ六角形ビピラミド,異なるトランケーションの形状を含む4つの異なるシナリオにおいて,分類器の性能を評価する。 提案されたトレーニングプロセスとデータ拡張技術は、単純で柔軟性があり、粒子配向を含む他のプロセスへの分類器の適用が容易である。 本研究は, 粒子形状の系における自己組織化過程の解明に有用なツールであり, 配向を定義可能な粒子系, 分子系の構造同定への応用の可能性を示す。

Detecting and analyzing the local environment is crucial for investigating the dynamical processes of crystal nucleation and shape colloidal particle self-assembly. Recent developments in machine learning provide a promising avenue for better order parameters in complex systems that are challenging to study using traditional approaches. However, the application of machine learning to self-assembly on systems of particle shapes is still underexplored. To address this gap, we propose a simple, physics-agnostic, yet powerful approach that involves training a multilayer perceptron (MLP) as a local environment classifier for systems of particle shapes, using input features such as particle distances and orientations. Our MLP classifier is trained in a supervised manner with a shape symmetry-encoded data augmentation technique without the need for any conventional roto-translations invariant symmetry functions. We evaluate the performance of our classifiers on four different scenarios involving self-assembly of cubic structures, 2-dimensional and 3-dimensional patchy particle shape systems, hexagonal bipyramids with varying aspect ratios, and truncated shapes with different degrees of truncation. The proposed training process and data augmentation technique are both straightforward and flexible, enabling easy application of the classifier to other processes involving particle orientations. Our work thus presents a valuable tool for investigating self-assembly processes on systems of particle shapes, with potential applications in structure identification of any particle-based or molecular system where orientations can be defined.
翻訳日:2023-12-20 17:10:48 公開日:2023-12-19
# RLHF訓練の高速化のための適応配置と並列化フレームワーク

An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training ( http://arxiv.org/abs/2312.11819v1 )

ライセンス: Link先を確認
Youshao Xiao, Weichang Wu, Zhenglei Zhou, Fagui Mao, Shangchun Zhao, Lin Ju, Lei Liang, Xiaolu Zhang, Jun Zhou(参考訳) 最近、ChatGPTやInstructGPTのような大きな言語モデル(LLM)がAIの世界に大きな影響を与えている。 これらのモデルは非常に多機能で、人間の専門家の能力に匹敵する言語タスクを実行できます。 多くの研究が複雑なInstructGPTのRLHF(Reinforcement Learning with Human Feedback)トレーニングパイプラインを再現しようと試みている。 しかし、主流の分散RLHFトレーニング手法は一般にフラッテニング戦略と呼ばれる固定モデル配置戦略を採用する。 この戦略は、RLHFに関わる4つのモデルを1つのエンティティとして扱い、その違いに関係なく、それらをすべてのデバイスに配置する。 残念ながら、この戦略はRLHFトレーニングにおける生成ボトルネックを悪化させ、全体的なトレーニング効率を低下させる。 これらの問題に対処するために,2つの柔軟なモデル配置戦略を提供する適応型モデル配置フレームワークを提案する。 これらの戦略により、詳細な方法でデバイス間でモデルをアジャイルに割り当てることが可能になる。 インターリービング戦略は、RLHFトレーニング時のメモリ冗長性と通信コストを低減するのに役立つ。 一方、分離戦略は、rlhfパイプラインのトレーニングと生成段階を分離することにより、モデルのトレーニングのスループットを向上させる。 特にこのフレームワークは、他の主流のアクセラレーション技術とシームレスに統合され、ハイパーパラメータの自動検索を可能にする。 大規模な実験により、我々のインターリービングと分離戦略は、現在のSOTA(State-of-the-art)アプローチと比較して、最大11倍の顕著な改善を達成できることが示された。 これらの実験は、さまざまなサイズのモデルと異なるスケールのデバイスを含む、幅広いトレーニングシナリオを包含していた。 その結果、分散RLHFの訓練を加速する上で、我々のアプローチの有効性と優位性を強調した。

Recently, ChatGPT or InstructGPT like large language models (LLM) has made a significant impact in the AI world. These models are incredibly versatile, capable of performing language tasks on par or even exceeding the capabilities of human experts. Many works have attempted to reproduce the complex InstructGPT's RLHF (Reinforcement Learning with Human Feedback) training pipeline. However, the mainstream distributed RLHF training methods typically adopt a fixed model placement strategy, referred to as the Flattening strategy. This strategy treats all four models involved in RLHF as a single entity and places them on all devices, regardless of their differences. Unfortunately, this strategy exacerbates the generation bottlenecks in the RLHF training and degrades the overall training efficiency. To address these issues, we propose an adaptive model placement framework that offers two flexible model placement strategies. These strategies allow for the agile allocation of models across devices in a fine-grained manner. The Interleaving strategy helps reduce memory redundancy and communication costs during RLHF training. On the other hand, the Separation strategy improves the throughput of model training by separating the training and generation stages of the RLHF pipeline. Notably, this framework seamlessly integrates with other mainstream techniques for acceleration and enables automatic hyperparameter search. Extensive experiments have demonstrated that our Interleaving and Separation strategies can achieve notable improvements up to 11x, compared to the current state-of-the-art (SOTA) approaches. These experiments encompassed a wide range of training scenarios, involving models of varying sizes and devices of different scales. The results highlight the effectiveness and superiority of our approaches in accelerating the training of distributed RLHF.
翻訳日:2023-12-20 17:10:25 公開日:2023-12-19
# 騒音下での異常値の根本原因説明

Root Cause Explanation of Outliers under Noisy Mechanisms ( http://arxiv.org/abs/2312.11818v1 )

ライセンス: Link先を確認
Phuoc Nguyen, Truyen Tran, Sunil Gupta, Thin Nguyen, Svetha Venkatesh(参考訳) 因果過程における異常の根本原因の特定は分野によって重要である。 一度特定すれば、根本原因を分離し、正常な操作を回復するために必要な措置を実行することができる。 因果プロセスは、しばしば、エンティティがノードであり、パス/相互接続がエッジであるグラフとしてモデル化される。 既存の作業では生成過程におけるノードの寄与しか考慮していないため、接続に異常が発生した場合、アウトリアースコアをメカニズムのエッジに分類することはできない。 本稿では,根本原因を特定する際,各メカニズムの個々のエッジとノードについて考察する。 この目的を考慮に入れたノイズ機能因果モデルを提案する。 次に,ノードとエッジの雑音を推定するためにベイズ学習法と推論法を用いる。 次に,ノードとエッジノイズの関数として目標外れリーフの機能形式を表現する。 最後に,ノード数やエッジ数と線形にスケールする異常帰属スコアを計算するための,効率的な勾配に基づく帰属法を提案する。 シミュレーションデータセットと2つの実世界のシナリオデータセットを用いた実験により,提案手法の異常帰属性能がベースラインと比較された。 我々の方法は、より多くのノードとエッジを持つ大きなグラフにスケールする。

Identifying root causes of anomalies in causal processes is vital across disciplines. Once identified, one can isolate the root causes and implement necessary measures to restore the normal operation. Causal processes are often modelled as graphs with entities being nodes and their paths/interconnections as edge. Existing work only consider the contribution of nodes in the generative process, thus can not attribute the outlier score to the edges of the mechanism if the anomaly occurs in the connections. In this paper, we consider both individual edge and node of each mechanism when identifying the root causes. We introduce a noisy functional causal model to account for this purpose. Then, we employ Bayesian learning and inference methods to infer the noises of the nodes and edges. We then represent the functional form of a target outlier leaf as a function of the node and edge noises. Finally, we propose an efficient gradient-based attribution method to compute the anomaly attribution scores which scales linearly with the number of nodes and edges. Experiments on simulated datasets and two real-world scenario datasets show better anomaly attribution performance of the proposed method compared to the baselines. Our method scales to larger graphs with more nodes and edges.
翻訳日:2023-12-20 17:09:56 公開日:2023-12-19
# マルチモーダルエンティティリンクのためのテキストマッチングの観点からの双方向拡張フレームワーク

A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking ( http://arxiv.org/abs/2312.11816v1 )

ライセンス: Link先を確認
Shezheng Song, Shan Zhao, Chengyu Wang, Tianwei Yan, Shasha Li, Xiaoguang Mao, Meng Wang(参考訳) MEL(Multimodal Entity Linking)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及とマルチモーダル情報をリンクすることを目的としている。 しかし、既存の手法では、生画像のノイズや、MELに障害を与える曖昧なテキスト実体表現など、モダリティの不純物などの欠点に悩まされている。 本稿では、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題としてリンクするマルチモーダルエンティティを定式化し、各クエリから関連するエンティティへのマッピングを候補エンティティから学習する。 本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。(1)本モデルではマルチモーダルデータを用いてクエリを洗練し,テキストと画像情報間のクロスモーダルエンハンサーを用いてセマンティックギャップに対処する。 さらにDWEは、顔の特徴やシーンの特徴を含むきめ細かい画像特性を革新的に活用して、視覚的特徴の強化と洗練を実現している。 2) ウィキペディアの記述を用いて、DWEはエンティティのセマンティクスを強化し、より包括的なテキスト表現を得る。 3つの公開ベンチマークによる大規模な実験により,本手法がSOTA(State-of-the-art)性能を達成することを示す。 コードはhttps://github.com/season1blue/DWEで公開されている。

Multimodal Entity Linking (MEL) aims at linking ambiguous mentions with multimodal information to entity in Knowledge Graph (KG) such as Wikipedia, which plays a key role in many applications. However, existing methods suffer from shortcomings, including modality impurity such as noise in raw image and ambiguous textual entity representation, which puts obstacles to MEL. We formulate multimodal entity linking as a neural text matching problem where each multimodal information (text and image) is treated as a query, and the model learns the mapping from each query to the relevant entity from candidate entities. This paper introduces a dual-way enhanced (DWE) framework for MEL: (1) our model refines queries with multimodal data and addresses semantic gaps using cross-modal enhancers between text and image information. Besides, DWE innovatively leverages fine-grained image attributes, including facial characteristic and scene feature, to enhance and refine visual features. (2)By using Wikipedia descriptions, DWE enriches entity semantics and obtains more comprehensive textual representation, which reduces between textual representation and the entities in KG. Extensive experiments on three public benchmarks demonstrate that our method achieves state-of-the-art (SOTA) performance, indicating the superiority of our model. The code is released on https://github.com/season1blue/DWE
翻訳日:2023-12-20 17:09:40 公開日:2023-12-19
# 都市生成情報(ugi:urban generative intelligence) : 都市環境におけるエージェントの基盤プラットフォーム

Urban Generative Intelligence (UGI): A Foundational Platform for Agents in Embodied City Environment ( http://arxiv.org/abs/2312.11813v1 )

ライセンス: Link先を確認
Fengli Xu, Jun Zhang, Chen Gao, Jie Feng, Yong Li(参考訳) 都市環境は、物理的、社会的、経済的、環境的な側面を包含する複雑な多層ネットワークによって特徴づけられ、急速な都市化に直面して重大な課題に直面している。 これらの課題は、交通渋滞や汚染から社会的不平等まで、高度な技術介入を要求する。 最近のビッグデータ、人工知能、都市コンピューティング、デジタル双子の発展は、洗練された都市モデリングとシミュレーションの基礎を築いた。 しかしながら、これらの技術能力と、その実践的実装との間には、システム的知性的な方法で都市課題に取り組むためのギャップが持続する。 本稿では,大規模言語モデル(LLM)を都市システムに統合し,新たな都市情報パラダイムを育成する基盤プラットフォームである都市生成知能(UGI)を提案する。 UGIは、都市固有のマルチソースデータに基づいてトレーニングされた基盤モデルであるCityGPTを活用して、様々な都市タスクのためのエンボディエージェントを作成する。 これらのエージェントは、都市シミュレータと都市知識グラフによってエミュレートされたテキスト都市環境内で動作し、自然言語インターフェースを介して相互作用し、多様なインテリジェントで具体化されたエージェント開発のためのオープンなプラットフォームを提供する。 このプラットフォームは、特定の都市問題に対処するだけでなく、複雑な都市システムをシミュレートし、都市の複雑さを理解し管理するための多分野のアプローチを提供する。 この研究は都市科学と都市知能の変革的なステップを示し、LLMの力を利用して都市システムの複雑なダイナミクスを解き明かし、解決する。 デモ付きのコードリポジトリは近く、https://github.com/tsinghua-fib-lab/ugiでリリースされる。

Urban environments, characterized by their complex, multi-layered networks encompassing physical, social, economic, and environmental dimensions, face significant challenges in the face of rapid urbanization. These challenges, ranging from traffic congestion and pollution to social inequality, call for advanced technological interventions. Recent developments in big data, artificial intelligence, urban computing, and digital twins have laid the groundwork for sophisticated city modeling and simulation. However, a gap persists between these technological capabilities and their practical implementation in addressing urban challenges in an systemic-intelligent way. This paper proposes Urban Generative Intelligence (UGI), a novel foundational platform integrating Large Language Models (LLMs) into urban systems to foster a new paradigm of urban intelligence. UGI leverages CityGPT, a foundation model trained on city-specific multi-source data, to create embodied agents for various urban tasks. These agents, operating within a textual urban environment emulated by city simulator and urban knowledge graph, interact through a natural language interface, offering an open platform for diverse intelligent and embodied agent development. This platform not only addresses specific urban issues but also simulates complex urban systems, providing a multidisciplinary approach to understand and manage urban complexity. This work signifies a transformative step in city science and urban intelligence, harnessing the power of LLMs to unravel and address the intricate dynamics of urban systems. The code repository with demonstrations will soon be released here https://github.com/tsinghua-fib-lab/UGI.
翻訳日:2023-12-20 17:09:13 公開日:2023-12-19
# アラビア語光文字認識の進歩と課題 : 包括的調査

Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey ( http://arxiv.org/abs/2312.11812v1 )

ライセンス: Link先を確認
Mahmoud SalahEldin Kasem, Mohamed Mahmoud, Hyun-Soo Kang(参考訳) 光文字認識(OCR)は、スキャンされた画像や印刷された画像から手書きまたは印刷されたテキストを抽出し、それを機械が理解し処理できるフォーマットに変換する、重要なプロセスである。 これにより、検索や編集などのさらなるデータ処理アクティビティが可能になる。 ocrによるテキストの自動抽出は、ドキュメントのデジタル化、生産性の向上、アクセシビリティ向上、履歴保存において重要な役割を果たす。 本稿では,アラビア語光文字認識(OCR)の現代的応用,方法論,課題を概観する。 OCRプロセスを通じて広く利用されている技術について、徹底的な分析を行い、改善された成果を示す最も効果的なアプローチを識別する。 徹底的な評価を確保するために、アラビア語のOCRに関連する記事の総合的な分析を包括的に含む、厳密なキーワード検索手法が採用されている。 本稿では,最先端技術と手法の提示に加えて,アラビアOCRの領域における研究ギャップを批判的に識別する。 これらのギャップを強調することによって、将来の探査と開発のための潜在的な領域に光を当て、アラブのOCR分野における有望な道へと向かわせた。 この研究の結果は、アラビア語のOCRに関わる研究者、実践者、ステークホルダーに貴重な洞察を与え、最終的にこの分野の進歩を促進し、アラビア語のより正確で効率的なOCRシステムの構築を促進する。

Optical character recognition (OCR) is a vital process that involves the extraction of handwritten or printed text from scanned or printed images, converting it into a format that can be understood and processed by machines. This enables further data processing activities such as searching and editing. The automatic extraction of text through OCR plays a crucial role in digitizing documents, enhancing productivity, improving accessibility, and preserving historical records. This paper seeks to offer an exhaustive review of contemporary applications, methodologies, and challenges associated with Arabic Optical Character Recognition (OCR). A thorough analysis is conducted on prevailing techniques utilized throughout the OCR process, with a dedicated effort to discern the most efficacious approaches that demonstrate enhanced outcomes. To ensure a thorough evaluation, a meticulous keyword-search methodology is adopted, encompassing a comprehensive analysis of articles relevant to Arabic OCR, including both backward and forward citation reviews. In addition to presenting cutting-edge techniques and methods, this paper critically identifies research gaps within the realm of Arabic OCR. By highlighting these gaps, we shed light on potential areas for future exploration and development, thereby guiding researchers toward promising avenues in the field of Arabic OCR. The outcomes of this study provide valuable insights for researchers, practitioners, and stakeholders involved in Arabic OCR, ultimately fostering advancements in the field and facilitating the creation of more accurate and efficient OCR systems for the Arabic language.
翻訳日:2023-12-20 17:08:44 公開日:2023-12-19
# StarCraft IIをプレイする大規模言語モデル - 要約アプローチのベンチマークとチェーン

Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach ( http://arxiv.org/abs/2312.11865v1 )

ライセンス: Link先を確認
Weiyu Ma, Qirui Mi, Xue Yan, Yuqiao Wu, Runji Lin, Haifeng Zhang, Jun Wang(参考訳) StarCraft IIは、正確なマイクロレベルの操作と戦略的マクロ認識の両方を必要とするため、AIエージェントにとって困難なベンチマークである。 しかし、AlphastarやSCCといった以前の研究は、StarCraft IIに対処する上で素晴らしい成果を上げているが、長期的な戦略計画と戦略解釈性には欠点がある。 VoyageやMetaGPTといった新たな大規模言語モデル(LLM)エージェントは、複雑なタスクを解決する大きな可能性を示している。 そこで我々は,高度に複雑なRTSゲームであるStarCraft IIにおけるLLMの能力を検証することを目指しており,LLMの推論能力を最大限活用するために,LLMエージェントと対話可能なテキストStratCraft II環境を開発する。 第2に,生観察処理のための単一フレーム要約,ゲーム情報解析のためのマルチフレーム要約,コマンドレコメンデーションの提供,戦略決定の生成など,一連の要約手法を提案する。 実験は、まず、人間の専門家による評価と、ゲームにおけるLLMエージェントの熟達度の評価と、ゲーム内のLLMエージェントのパフォーマンス、そして、LLMエージェントのゲームパフォーマンスと、勝利率や要約の連鎖の影響といった側面を含む2つの部から成っている。 1. LLMは、スタークラフトIIのシナリオに対応するために必要な知識及び複雑な計画能力を有する。 2. 人間の専門家は、LLMエージェントの演奏は、スタークラフトIIを8年間プレイした平均的な選手の演奏に近いものとみなす。 3. LLMエージェントは、Harder(Lv5)の難易度で構築されたAIを倒すことができる。 コードをオープンソース化し、LLMエージェントがStarCraft IIをプレイするデモビデオを公開しました。

StarCraft II is a challenging benchmark for AI agents due to the necessity of both precise micro level operations and strategic macro awareness. Previous works, such as Alphastar and SCC, achieve impressive performance on tackling StarCraft II , however, still exhibit deficiencies in long term strategic planning and strategy interpretability. Emerging large language model (LLM) agents, such as Voyage and MetaGPT, presents the immense potential in solving intricate tasks. Motivated by this, we aim to validate the capabilities of LLMs on StarCraft II, a highly complex RTS game.To conveniently take full advantage of LLMs` reasoning abilities, we first develop textual StratCraft II environment, called TextStarCraft II, which LLM agent can interact. Secondly, we propose a Chain of Summarization method, including single frame summarization for processing raw observations and multi frame summarization for analyzing game information, providing command recommendations, and generating strategic decisions. Our experiment consists of two parts: first, an evaluation by human experts, which includes assessing the LLMs`s mastery of StarCraft II knowledge and the performance of LLM agents in the game; second, the in game performance of LLM agents, encompassing aspects like win rate and the impact of Chain of Summarization.Experiment results demonstrate that: 1. LLMs possess the relevant knowledge and complex planning abilities needed to address StarCraft II scenarios; 2. Human experts consider the performance of LLM agents to be close to that of an average player who has played StarCraft II for eight years; 3. LLM agents are capable of defeating the built in AI at the Harder(Lv5) difficulty level. We have open sourced the code and released demo videos of LLM agent playing StarCraft II.
翻訳日:2023-12-20 17:04:20 公開日:2023-12-19
# 交差光キャビティによる磁性マグノンと原子のマクロな絡み合い

Macroscopic entanglement between ferrimagnetic magnons and atoms via crossed optical cavity ( http://arxiv.org/abs/2312.11864v1 )

ライセンス: Link先を確認
Ke Di, Xi Wang, Huarong Xia, Yinxue Zhao, Anyu Cheng, Yu Liu, and Jiajia Du(参考訳) 2つの光キャビティモード、マグノンモード、フォノンモード、および2レベル原子の集合を含む2次元光磁気力学(OMM)システムを考える。 本研究では,2つの光学キャビティを用いて実装した2レベル原子とマグノン間の定常的な絡み合いを生成する手法を実証する。 さらに,原子-フォノンエンタングルメントから原子-マグノンエンタングルメントへのエンタングルメントの変換効率について検討した。 マグノンはバイアス磁場とマイクロ波磁場の両方によって刺激され、磁歪相互作用のメカニズムを通じてフォノンと相互作用する。 この相互作用は、放射圧を介して光学キャビティと結合するマグノメカニカル変位を生成する。 光学キャビティの周波数デチューニングを慎重に選択することにより、両部交絡の増大を実現することができることを示す。 さらに, この改良は温度変化に耐性があることが判明した。 原子とマグノンの絡み合いは、ハイブリッド量子ネットワークの構築において重要な役割を果たす。 我々のモデリング手法は磁気トラップシステムの分野でも応用可能性を示している。

We consider a two-dimensional opto-magnomechanical (OMM) system including two optical cavity modes, a magnon mode, a phonon mode, and a collection of two-level atoms. In this study, we demonstrate the methodology for generating stationary entanglement between two-level atoms and magnons, which are implemented using two optical cavities inside the setup. Additionally, we investigate the efficiency of transforming entanglement from atom-phonon entanglement to atom-magnon entanglement. The magnons are stimulated by both a bias magnetic field and a microwave magnetic field, and they interact with phonons through the mechanism of magnetostrictive interaction. This interaction generates magnomechanical displacement, which couples to an optical cavity via radiation pressure. We demonstrate that by carefully selecting the frequency detuning of an optical cavity, it is possible to achieve an increase in bipartite entanglements. Furthermore, this improvement is found to be resistant to changes in temperature. The entanglement between atoms and magnons plays a crucial role in the construction of hybrid quantum networks. Our modeling approach exhibits potential applications in the field of magneto-optical trap systems as well.
翻訳日:2023-12-20 17:03:50 公開日:2023-12-19
# 悲観的オフライン強化学習のためのニューラルネットワーク近似

Neural Network Approximation for Pessimistic Offline Reinforcement Learning ( http://arxiv.org/abs/2312.11863v1 )

ライセンス: Link先を確認
Di Wu, Yuling Jiao, Li Shen, Haizhao Yang, Xiliang Lu(参考訳) deep reinforcement learning (rl)は、特定のオフライン意思決定シナリオで顕著な成功を収めているが、理論的保証はまだ開発中である。 オフラインRL理論に関する既存の研究は、線形 MDP や強い仮定と独立したデータを持つ一般関数近似など、実用上のガイダンスが欠如しているいくつかの自明な設定を強調している。 ディープラーニングとベルマン残差の結合は、データ依存の難しさに加えて、この問題を難しくする。 本稿では,ネットワーク構造,データセットの次元,データカバレッジの集中性に関するデータと,$\mathcal{c}$-mixingデータとの一般ニューラルネットワーク近似を用いて,悲観的オフラインrlの非漸近的推定誤差を,軽度な仮定の下で確立する。 その結果, 推定誤差は2つの部分から構成されることが明らかとなった。第1は, 部分的に制御可能な集中性を持つサンプルサイズにおいて, 所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。 この結果は、deep adversarial offline rlフレームワークの明示的な効率を示す。 我々は,$\mathcal{c}$-mixing 列に対する経験的プロセスツールと,h\"{o}lder クラスのニューラルネットワーク近似理論を用いてこれを実現する。 また,経験的ベルマン制約摂動による関数近似によるベルマン推定誤差の束縛手法も開発した。 さらに,本研究では,低内在次元データと低複雑性関数クラスを用いて,次元の呪いを軽減する結果を示す。 我々の推定は、ディープオフラインRLの開発とアルゴリズムモデル設計のガイダンスに関する貴重な洞察を提供する。

Deep reinforcement learning (RL) has shown remarkable success in specific offline decision-making scenarios, yet its theoretical guarantees are still under development. Existing works on offline RL theory primarily emphasize a few trivial settings, such as linear MDP or general function approximation with strong assumptions and independent data, which lack guidance for practical use. The coupling of deep learning and Bellman residuals makes this problem challenging, in addition to the difficulty of data dependence. In this paper, we establish a non-asymptotic estimation error of pessimistic offline RL using general neural network approximation with $\mathcal{C}$-mixing data regarding the structure of networks, the dimension of datasets, and the concentrability of data coverage, under mild assumptions. Our result shows that the estimation error consists of two parts: the first converges to zero at a desired rate on the sample size with partially controllable concentrability, and the second becomes negligible if the residual constraint is tight. This result demonstrates the explicit efficiency of deep adversarial offline RL frameworks. We utilize the empirical process tool for $\mathcal{C}$-mixing sequences and the neural network approximation theory for the H\"{o}lder class to achieve this. We also develop methods to bound the Bellman estimation error caused by function approximation with empirical Bellman constraint perturbations. Additionally, we present a result that lessens the curse of dimensionality using data with low intrinsic dimensionality and function classes with low complexity. Our estimation provides valuable insights into the development of deep offline RL and guidance for algorithm model design.
翻訳日:2023-12-20 17:03:34 公開日:2023-12-19
# Topo-MLP : メッセージパスのない単純なネットワーク

Topo-MLP : A Simplicial Network Without Message Passing ( http://arxiv.org/abs/2312.11862v1 )

ライセンス: Link先を確認
Karthikeyan Natesan Ramamurthy, Aldo Guzm\'an-S\'aenz, Mustafa Hajij(参考訳) エンティティセット間の有意義な高次関係をモデル化する能力により、近年、二元関係をモデル化できるグラフベースのネットワークモデルの強力な代替として高次ネットワークモデルが登場している。 メッセージパッシングパラダイムは、高次ネットワークモデルでも表現を学ぶために依然として優勢に使われている。 メッセージパッシングは強力だが、特に高次接続情報が欠落したり、破損した場合は、推論時に不利となることがある。 このような制限を克服するために、メッセージパッシングを明示的に依存することなく、単純複合体内の要素の表現を学習する、純粋にMLPベースの単純なニューラルネットワークアルゴリズムであるTopo-MLPを提案する。 本フレームワークは,単純構造を表現学習に暗黙的に組み込んだ,新しい高次近傍コントラスト(honc)損失を用いる。 提案するモデルの単純さは推論中に高速になる。 さらに,接続構造の欠如や破損に直面した場合には,モデルが堅牢であることを示す。

Due to their ability to model meaningful higher order relations among a set of entities, higher order network models have emerged recently as a powerful alternative for graph-based network models which are only capable of modeling binary relationships. Message passing paradigm is still dominantly used to learn representations even for higher order network models. While powerful, message passing can have disadvantages during inference, particularly when the higher order connectivity information is missing or corrupted. To overcome such limitations, we propose Topo-MLP, a purely MLP-based simplicial neural network algorithm to learn the representation of elements in a simplicial complex without explicitly relying on message passing. Our framework utilizes a novel Higher Order Neighborhood Contrastive (HONC) loss which implicitly incorporates the simplicial structure into representation learning. Our proposed model's simplicity makes it faster during inference. Moreover, we show that our model is robust when faced with missing or corrupted connectivity structure.
翻訳日:2023-12-20 17:03:02 公開日:2023-12-19
# MG-Skip:非平滑分散最適化のためのランダムマルチゴシップスキー法

MG-Skip: Random Multi-Gossip Skipping Method for Nonsmooth Distributed Optimization ( http://arxiv.org/abs/2312.11861v1 )

ライセンス: Link先を確認
Luyao Guo, Luqing Wang, Xinli Shi, Jinde Cao(参考訳) 確率的局所的な更新を伴う分散最適化手法は,近年,通信高速化の実現可能性に注目が集まっている。 しかしながら、この機能は損失関数が滑らかでネットワークが十分に接続されている場合にのみ有効である。 本稿では,非スムース分散最適化のための確率的局所更新を伴う最初の線形収束法mg-skipを提案する。 ネットワーク接続の余分な条件がなければ、mg-skipは、ほとんどのイテレーションでマルチラウンドゴシップ通信をスキップできるが、その反復複雑性は$\mathcal{o}\left(\kappa \log \frac{1}{\epsilon}\right)$であり、通信複雑性は$\mathcal{o}\left(\sqrt{\frac{\kappa}{(1-\rho)}} \log \frac{1}{\epsilon}\right)$であり、$\kappa$は損失関数の条件番号であり、$\rho$はネットワークトポロジーの接続を反映している。 我々の知る限り、MG-Skipは損失関数が滑らかな(強い凸)+非滑らかな(凸)合成形式を持つとき、最高の通信複雑性を達成する。

Distributed optimization methods with probabilistic local updates have recently gained attention for their provable ability to communication acceleration. Nevertheless, this capability is effective only when the loss function is smooth and the network is sufficiently well-connected. In this paper, we propose the first linear convergent method MG-Skip with probabilistic local updates for nonsmooth distributed optimization. Without any extra condition for the network connectivity, MG-Skip allows for the multiple-round gossip communication to be skipped in most iterations, while its iteration complexity is $\mathcal{O}\left(\kappa \log \frac{1}{\epsilon}\right)$ and communication complexity is only $\mathcal{O}\left(\sqrt{\frac{\kappa}{(1-\rho)}} \log \frac{1}{\epsilon}\right)$, where $\kappa$ is the condition number of the loss function and $\rho$ reflects the connectivity of the network topology. To the best of our knowledge, MG-Skip achieves the best communication complexity when the loss function has the smooth (strongly convex)+nonsmooth (convex) composite form.
翻訳日:2023-12-20 17:02:45 公開日:2023-12-19
# SimCalib: ノード間の類似性に基づくグラフニューラルネットワークキャリブレーション

SimCalib: Graph Neural Network Calibration based on Similarity between Nodes ( http://arxiv.org/abs/2312.11858v1 )

ライセンス: Link先を確認
Boshi Tang, Zhiyong Wu, Xixin Wu, Qiaochu Huang, Jun Chen, Shun Lei, Helen Meng(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなアプリケーションで実証されたグラフデータのモデリングにおいて、優れたパフォーマンスを示している。 近年,特にコストに敏感なシナリオにおいて,GNNキャリブレーション問題に注目が集まっている。 以前の研究は、この問題に関する実証的な洞察を得て、それに対する効果的なアプローチを考案したが、理論的サポートはまだ不足している。 本稿では,gnnのキャリブレーションとノードワイズ類似性との関係を理論的解析により明らかにする。 SimCalibと名付けられた新しい校正フレームワークは、グローバルレベルとローカルレベルのノード間の類似性を検討するために提案されている。 グローバルレベルでは、現在のノードとクラスプロトタイプの間のマハラノビス距離が統合され、同じクラスの全てのノードと現在のノード間の類似性が暗黙的に考慮される。 局所レベルでは,ノード配置運動ダイナミクスの類似性は,ノードワイズホモフィリーと相対次数で定量化される。 オーバースムーシング問題におけるノードワイズ動作解析におけるノードワイズ移動パターンの適用について,オーバースムーシング問題とgnnキャリブレーション問題との関係を実証的に示す。 実験では,ノードワイズ類似度とモデルキャリブレーション改善の相関関係を理論的結果と一致させた。 さらに,様々な設計因子について広範な実験を行い,提案手法であるsimcalibフレームワークによるgnn校正の有効性を,16ベンチマーク中14ベンチマークで実証した。

Graph neural networks (GNNs) have exhibited impressive performance in modeling graph data as exemplified in various applications. Recently, the GNN calibration problem has attracted increasing attention, especially in cost-sensitive scenarios. Previous work has gained empirical insights on the issue, and devised effective approaches for it, but theoretical supports still fall short. In this work, we shed light on the relationship between GNN calibration and nodewise similarity via theoretical analysis. A novel calibration framework, named SimCalib, is accordingly proposed to consider similarity between nodes at global and local levels. At the global level, the Mahalanobis distance between the current node and class prototypes is integrated to implicitly consider similarity between the current node and all nodes in the same class. At the local level, the similarity of node representation movement dynamics, quantified by nodewise homophily and relative degree, is considered. Informed about the application of nodewise movement patterns in analyzing nodewise behavior on the over-smoothing problem, we empirically present a possible relationship between over-smoothing and GNN calibration problem. Experimentally, we discover a correlation between nodewise similarity and model calibration improvement, in alignment with our theoretical results. Additionally, we conduct extensive experiments investigating different design factors and demonstrate the effectiveness of our proposed SimCalib framework for GNN calibration by achieving state-of-the-art performance on 14 out of 16 benchmarks.
翻訳日:2023-12-20 17:02:13 公開日:2023-12-19
# 双曲格子上のアンダーソン転移とモビリティエッジ

Anderson transition and mobility edges on hyperbolic lattices ( http://arxiv.org/abs/2312.11857v1 )

ライセンス: Link先を確認
Tianyu Li, Yi Peng, Yucheng Wang, and Haiping Hu(参考訳) 双曲格子は、双曲平面を正多角形で四角形にすることで形成され、従来のユークリッド格子を超える様々な異種な物理現象を示す。 本研究では, 異常が双曲格子に与える影響について検討し, アンダーソン局在が運動端の存在に伴う強い障害強度で起こることを明らかにする。 双曲型 $\{p,q\}=\{3,8\}$ および $\{p,q\}=\{4,8\}$ 格子を例として、遷移点と臨界指数をピンポイントするためにスペクトル統計量と逆参加比の両方の有限サイズスケーリングを用いる。 以上の結果から,遷移点がより大きい値の$\{p,q\}$または曲率で増加する傾向が示唆された。 $\{\infty, q\}$ の極限の場合、アンダーソン遷移をキャビティ法を用いてさらに決定し、ランダム正則グラフと平行に描く。 我々の研究は、非ユークリッド格子におけるアンダーソン転移とモビリティエッジの包括的理解の基盤となる。

Hyperbolic lattices, formed by tessellating the hyperbolic plane with regular polygons, exhibit a diverse range of exotic physical phenomena beyond conventional Euclidean lattices. Here, we investigate the impact of disorder on hyperbolic lattices and reveal that the Anderson localization occurs at strong disorder strength, accompanied by the presence of mobility edges. Taking the hyperbolic $\{p,q\}=\{3,8\}$ and $\{p,q\}=\{4,8\}$ lattices as examples, we employ finite-size scaling of both spectral statistics and the inverse participation ratio to pinpoint the transition point and critical exponents. Our findings indicate that the transition points tend to increase with larger values of $\{p,q\}$ or curvature. In the limiting case of $\{\infty, q\}$, we further determine its Anderson transition using the cavity method, drawing parallels with the random regular graph. Our work lays the cornerstone for a comprehensive understanding of Anderson transition and mobility edges in non-Euclidean lattices.
翻訳日:2023-12-20 17:01:50 公開日:2023-12-19
# 自己教師型学習による3次元認識型生成逆数ネットワークにおける幾何学的モデリングの強化

Self-supervised Learning for Enhancing Geometrical Modeling in 3D-Aware Generative Adversarial Network ( http://arxiv.org/abs/2312.11856v1 )

ライセンス: Link先を確認
Jiarong Guo, Xiaogang Xu, Hengshuang Zhao(参考訳) 3D-GAN(Generative Adversarial Networks, 3D-GANs)は現在、メッシュの不完全性や穴などの3D幾何学的モデリングに成果物を展示している。 これらの欠点は、主に注釈付き3dデータの可用性が限られているため、十分なモデリングのために制限された「有価な潜在領域」に繋がる。 これを解決するために,3次元幾何学的モデリング能力を改善するために設計された任意の3次元GANに対して補助的損失として調整された自己監督学習(SSL)技術を提案する。 提案手法は,適応的な空間変動範囲演算を行うエンコーダを組み込んだ3D-GANのインバージョン手法である。 この反転を利用して,有効な潜在空間の密度化を目的とした循環生成制約(cgc)を導入する。 CGCは、同じ幾何学形式を保持する拡張局所潜在ベクトルを介して動作し、サイクルパス出力、特にジェネレータ-エンコーダ-ジェネレータシーケンスに制約を課す。 このSSL方法論は、固有のGAN損失とシームレスに統合し、変更を必要とせずに既存の3D-GANアーキテクチャの整合性を保証する。 さまざまなデータセットやアーキテクチャにわたる包括的な実験でアプローチを検証することで,その効果を実証する。 プロジェクトWebサイト: https://3dgan-ssl.github.io

3D-aware Generative Adversarial Networks (3D-GANs) currently exhibit artifacts in their 3D geometrical modeling, such as mesh imperfections and holes. These shortcomings are primarily attributed to the limited availability of annotated 3D data, leading to a constrained "valid latent area" for satisfactory modeling. To address this, we present a Self-Supervised Learning (SSL) technique tailored as an auxiliary loss for any 3D-GAN, designed to improve its 3D geometrical modeling capabilities. Our approach pioneers an inversion technique for 3D-GANs, integrating an encoder that performs adaptive spatially-varying range operations. Utilizing this inversion, we introduce the Cyclic Generative Constraint (CGC), aiming to densify the valid latent space. The CGC operates via augmented local latent vectors that maintain the same geometric form, and it imposes constraints on the cycle path outputs, specifically the generator-encoder-generator sequence. This SSL methodology seamlessly integrates with the inherent GAN loss, ensuring the integrity of pre-existing 3D-GAN architectures without necessitating alterations. We validate our approach with comprehensive experiments across various datasets and architectures, underscoring its efficacy. Our project website: https://3dgan-ssl.github.io
翻訳日:2023-12-20 17:01:27 公開日:2023-12-19
# 強化学習による非マルコフ開量子系の再探索制御法

Re-exploring Control Strategies in a Non-Markovian Open Quantum System by Reinforcement Learning ( http://arxiv.org/abs/2312.11853v1 )

ライセンス: Link先を確認
Amine Jaouadi, Etienne Mangaud, and Mich\`ele Desouter-Lecomte(参考訳) 本研究では, 複素分子系におけるUV領域における2つの励起電子状態の重ね合わせを目標とした最近の最適制御シミュレーションを再検討する。 我々は、この制御を強化学習の観点から再考し、従来の量子制御法に代わる効率的な代替手段を提供する。 2つの励起状態は直交分極によって対応でき、それらの重ね合わせは電子密度の左右の局在に対応する。 パルス持続時間は、核運動による強い摂動につながる高励起の明るい状態の励起を防ぐために、数十フェムト秒に及ぶ。 我々はL. Giannelliらによるオープンソースソフトウェアを修正した。 Lett! A, 434, 128054 (2022) はリンドブラッド力学を用いて強化学習を行い、QuTiP-BoFiNパッケージを用いた階層的な運動方程式を用いて、時間依存率またはより正確に周囲のマルコビアン性を導入する。 この拡張は、特にアクティブシステムが高度に構造化されたノイズと相互作用する場合、非マルコフ環境に対するより広い応用への道を開く。

In this study, we reexamine a recent optimal control simulation targeting the preparation of a superposition of two excited electronic states in the UV range in a complex molecular system. We revisit this control from the perspective of reinforcement learning, offering an efficient alternative to conventional quantum control methods. The two excited states are addressable by orthogonal polarizations and their superposition corresponds to a right or left localization of the electronic density. The pulse duration spans tens of femtoseconds to prevent excitation of higher excited bright states what leads to a strong perturbation by the nuclear motions. We modify an open source software by L. Giannelli et al., Phys. Lett. A, 434, 128054 (2022) that implements reinforcement learning with Lindblad dynamics, to introduce non-Markovianity of the surrounding either by timedependent rates or more exactly by using the hierarchical equations of motion with the QuTiP-BoFiN package. This extension opens the way to wider applications for non-Markovian environments, in particular when the active system interacts with a highly structured noise.
翻訳日:2023-12-20 17:01:02 公開日:2023-12-19
# ニューラルマシン翻訳による人間の翻訳困難度予測

Predicting Human Translation Difficulty with Neural Machine Translation ( http://arxiv.org/abs/2312.11852v1 )

ライセンス: Link先を確認
Zheng Wei Lim, Ekaterina Vylomova, Charles Kemp, and Trevor Cohn(参考訳) 人間の翻訳者は、他の言葉やフレーズよりも多くを話し、この変化を予測することは、基礎となる認知過程を説明するためのステップである。 本稿では,critt翻訳プロセス研究データベースのデータを用いて,ニューラルマシン翻訳(nmt)モデルから導出した超越的特徴と注意的特徴が,人間の翻訳者の読解時間および生産時間に与える影響を評価する。 また,NMTモデルから得られた推定値が,生産期間の予測値として唯一成功したものであることも確認した。 この分析は、13言語対で動作する数百の翻訳者のデータに基づいており、人間の翻訳の難しさに関する最も包括的な調査である。

Human translators linger on some words and phrases more than others, and predicting this variation is a step towards explaining the underlying cognitive processes. Using data from the CRITT Translation Process Research Database, we evaluate the extent to which surprisal and attentional features derived from a Neural Machine Translation (NMT) model account for reading and production times of human translators. We find that surprisal and attention are complementary predictors of translation difficulty, and that surprisal derived from a NMT model is the single most successful predictor of production duration. Our analyses draw on data from hundreds of translators operating across 13 language pairs, and represent the most comprehensive investigation of human translation difficulty to date.
翻訳日:2023-12-20 17:00:43 公開日:2023-12-19
# GCNext:人間の動き予測のためのグラフ畳み込みの統一を目指して

GCNext: Towards the Unity of Graph Convolutions for Human Motion Prediction ( http://arxiv.org/abs/2312.11850v1 )

ライセンス: Link先を確認
Xinshun Wang, Qiongjie Cui, Chen Chen, Mengyuan Liu(参考訳) 近年,人の動き予測に対するGCN(Graph Convolutional Networks)の優位性を目の当たりにしてきた。グラフ畳み込みのさまざまなスタイルが提案され,それぞれが慎重に設計され,慎重に構築されたネットワークアーキテクチャに組み込まれている。 本稿では,異なるグラフ畳み込みを特殊ケースとして再概念化する新しいグラフ畳み込み概念であるユニバーサルグラフ畳み込み(UniGC)を提案する。 ネットワークレベルでunigcを活用することで、サンプルとレイヤの両方で最適なグラフ畳み込みを動的に決定する、新しいgcn構築パラダイムであるgcnextを提案する。 GCNextは、スクラッチから新しいGCNをトレーニングしたり、既存のGCNを書き換えたりするなど、複数のユースケースを提供する。 Human3.6M、AMASS、および3DPWデータセットの実験により、GCNextは、ユニークなモジュール・ツー・ネットワークの設計を取り入れることで、最先端の性能を達成する上で、既存のGCNメソッドよりも最大9倍低い計算コストが得られることが示された。

The past few years has witnessed the dominance of Graph Convolutional Networks (GCNs) over human motion prediction.Various styles of graph convolutions have been proposed, with each one meticulously designed and incorporated into a carefully-crafted network architecture. This paper breaks the limits of existing knowledge by proposing Universal Graph Convolution (UniGC), a novel graph convolution concept that re-conceptualizes different graph convolutions as its special cases. Leveraging UniGC on network-level, we propose GCNext, a novel GCN-building paradigm that dynamically determines the best-fitting graph convolutions both sample-wise and layer-wise. GCNext offers multiple use cases, including training a new GCN from scratch or refining a preexisting GCN. Experiments on Human3.6M, AMASS, and 3DPW datasets show that, by incorporating unique module-to-network designs, GCNext yields up to 9x lower computational cost than existing GCN methods, on top of achieving state-of-the-art performance.
翻訳日:2023-12-20 17:00:28 公開日:2023-12-19
# 局所および大域的強度フィットエネルギーにより駆動されるアクティブ輪郭とsar画像セグメンテーションとその応用とその高速解法

Active contours driven by local and global intensity fitting energy with application to SAR image segmentation and its fast solvers ( http://arxiv.org/abs/2312.11849v1 )

ライセンス: Link先を確認
Guangming Liu, Qi Liu, Jing Liang, Quanying Sun(参考訳) 本稿では,エッジ(awe)モデルのないアクティブ輪郭と測地アクティブ輪郭(gac)モデルをハイブリッド化し,乗算ガンマノイズにより劣化した画像のセグメント化に使用できる,aubert-aujol(aa)除音モデルに基づく新しい変分アクティブ輪郭モデルを提案する。 提案したモデルを近接項を追加して古典的ROFモデルに変換する。 最近、Jia-Zhaoによって提案された高速デノシングアルゴリズムに着想を得て、SAR画像分割問題の解法として2つの高速固定点アルゴリズムを提案する。 実SAR画像に対する実験結果から,提案した画像セグメンテーションモデルは,弱あるいはぼやけたエッジで輪郭を効率よく停止し,乗算ガンマノイズで画像の外界と内界を自動的に検出できることがわかった。 提案した高速固定点アルゴリズムは初期化輪郭に対して頑健であり、ゴールドスタイン・オッシャーが提案したアルゴリズムの約15%の時間を短縮することができる。

In this paper, we propose a novel variational active contour model based on Aubert-Aujol (AA) denoising model, which hybrides geodesic active contour (GAC) model with active contours without edges (ACWE) model and can be used to segment images corrupted by multiplicative gamma noise. We transform the proposed model into classic ROF model by adding a proximity term. Inspired by a fast denosing algorithm proposed by Jia-Zhao recently, we propose two fast fixed point algorithms to solve SAR image segmentation question. Experimental results for real SAR images show that the proposed image segmentation model can efficiently stop the contours at weak or blurred edges, and can automatically detect the exterior and interior boundaries of images with multiplicative gamma noise. The proposed fast fixed point algorithms are robustness to initialization contour, and can further reduce about 15% of the time needed for algorithm proposed by Goldstein-Osher.
翻訳日:2023-12-20 17:00:03 公開日:2023-12-19
# 対話型MLシステムにおけるリバースユーザ向け初期化サービス

Initializing Services in Interactive ML Systems for Diverse Users ( http://arxiv.org/abs/2312.11846v1 )

ライセンス: Link先を確認
Avinandan Bose, Mihaela Curmei, Daniel L. Jiang, Jamie Morgenstern, Sarah Dean, Lillian J.Ratliff, Maryam Fazel(参考訳) 本稿では,異種データ分布を持つ複数のサブポピュレーションでユーザから対話的に学習するMLシステムについて検討する。 主な目的は、ユーザーの好みを予測しながら、異なるユーザーグループ向けに専門サービスを提供することである。 ユーザがサービスがどれだけ好まれるかに基づいてサービスを選択すると、サービスは、蓄積したユーザデータに基づいて順応し、自らを洗練し、ユーザとサービスの間の反復的かつ交代的な最小化プロセス(学習ダイナミクス)を生み出す。 このような調整されたアプローチを採用するには2つの大きな課題があります。 (i)未知のユーザー選好:典型的には、ユーザ選好のデータはインタラクションなしでは利用できず、大規模で多様なユーザーベースで統一されたデータ収集は禁止的に高価である。 (II) 最適部分解: 単一サービスにおける個々の損失が凸である場合でも、全体の損失(全ユーザおよび全サービスにわたる損失関数の仮定)は凸ではなく、学習ダイナミクスが局所的なミニマムで立ち往生する可能性が高い。 上記の学習力学の最終結果は、ユーザに提供するサービスの初期セットの影響を強く受けており、グローバルな最適結果に近いことが保証されていない。 そこで本研究では,サービス群を初期化しながら,ユーザを適応的に選択して選好データを収集するランダム化アルゴリズムを提案する。 損失関数の軽度な仮定の下では、初期化直後のアルゴリズムが達成した総損失は、全ユーザの選好データによる世界的最適総損失の係数の範囲内であり、この係数はサービス数において対数的にしかスケールしない。 我々の理論は、実および半合成データセットの実験によって補完される。

This paper studies ML systems that interactively learn from users across multiple subpopulations with heterogeneous data distributions. The primary objective is to provide specialized services for different user groups while also predicting user preferences. Once the users select a service based on how well the service anticipated their preference, the services subsequently adapt and refine themselves based on the user data they accumulate, resulting in an iterative, alternating minimization process between users and services (learning dynamics). Employing such tailored approaches has two main challenges: (i) Unknown user preferences: Typically, data on user preferences are unavailable without interaction, and uniform data collection across a large and diverse user base can be prohibitively expensive. (ii) Suboptimal Local Solutions: The total loss (sum of loss functions across all users and all services) landscape is not convex even if the individual losses on a single service are convex, making it likely for the learning dynamics to get stuck in local minima. The final outcome of the aforementioned learning dynamics is thus strongly influenced by the initial set of services offered to users, and is not guaranteed to be close to the globally optimal outcome. In this work, we propose a randomized algorithm to adaptively select very few users to collect preference data from, while simultaneously initializing a set of services. We prove that under mild assumptions on the loss functions, the expected total loss achieved by the algorithm right after initialization is within a factor of the globally optimal total loss with complete user preference data, and this factor scales only logarithmically in the number of services. Our theory is complemented by experiments on real as well as semi-synthetic datasets.
翻訳日:2023-12-20 16:58:58 公開日:2023-12-19
# MixRT:リアルタイムNeRFレンダリングのための混合ニューラル表現

MixRT: Mixed Neural Representations For Real-Time NeRF Rendering ( http://arxiv.org/abs/2312.11841v1 )

ライセンス: Link先を確認
Chaojian Li, Bichen Wu, Peter Vajda, Yingyan (Celine) Lin(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、その印象的なフォトリアリスティックな再構成とレンダリング能力により、新しいビュー合成の先駆的な技術として登場した。 それでも、大規模なシーンでリアルタイムのNeRFレンダリングを実現することは課題を示しており、しばしば、相当数の三角形を持つ複雑な焼成メッシュ表現や、焼成表現におけるリソース集約光線マーチングの採用につながっている。 我々はこれらの慣習に挑戦し、実質的な三角形を持つメッシュで表される高品質な幾何学は、フォトリアリスティックなレンダリング品質を達成するために必要ではないと観察する。 その結果、低品質メッシュ、ビュー依存変位マップ、圧縮されたNeRFモデルを含む新しいNeRF表現であるMixRTを提案する。 この設計は、既存のグラフィックスハードウェアの機能を活用し、エッジデバイス上でリアルタイムのNeRFレンダリングを可能にする。 高度に最適化されたwebglベースのレンダリングフレームワークを利用することで、mixrtはエッジデバイス(macbook m1 proラップトップで解像度180 x 720で30fps以上)でリアルタイムレンダリング速度を実現し、レンダリング品質(非バウンド360データセットの屋内シーンでは0.2psnr)、ストレージサイズ(最先端のメソッドと比較して80%未満)を向上した。

Neural Radiance Field (NeRF) has emerged as a leading technique for novel view synthesis, owing to its impressive photorealistic reconstruction and rendering capability. Nevertheless, achieving real-time NeRF rendering in large-scale scenes has presented challenges, often leading to the adoption of either intricate baked mesh representations with a substantial number of triangles or resource-intensive ray marching in baked representations. We challenge these conventions, observing that high-quality geometry, represented by meshes with substantial triangles, is not necessary for achieving photorealistic rendering quality. Consequently, we propose MixRT, a novel NeRF representation that includes a low-quality mesh, a view-dependent displacement map, and a compressed NeRF model. This design effectively harnesses the capabilities of existing graphics hardware, thus enabling real-time NeRF rendering on edge devices. Leveraging a highly-optimized WebGL-based rendering framework, our proposed MixRT attains real-time rendering speeds on edge devices (over 30 FPS at a resolution of 1280 x 720 on a MacBook M1 Pro laptop), better rendering quality (0.2 PSNR higher in indoor scenes of the Unbounded-360 datasets), and a smaller storage size (less than 80% compared to state-of-the-art methods).
翻訳日:2023-12-20 16:58:07 公開日:2023-12-19
# k$-可換性と期待値の測定値の低減

$k$-commutativity and measurement reduction for expectation values ( http://arxiv.org/abs/2312.11840v1 )

ライセンス: Link先を確認
Ben DalFavero, Rahul Sarkar, Daan Camps, Nicolas Sawaya, Ryan LaRose(参考訳) テンソル積空間上の作用素同士の可換性の概念、すなわち qubits 上のポーリ弦は、qubit-wise 可換性と (full) 可換性の間に補間される。 我々は、量子回路における可観測物の期待値の測定に$k$-commutativity(英語版)と呼ぶこの概念を適用し、回路深度の増加による測定回数の減少を示す。 最後に、n$-キュービットハミルトニアンのいくつかの族に対して、k$-可換性の漸近的測定の複雑さについて論じ、例えば、$o(1)$、$o(\sqrt{n})$、$o(n)$スケーリングを示す。

We introduce a notion of commutativity between operators on a tensor product space, nominally Pauli strings on qubits, that interpolates between qubit-wise commutativity and (full) commutativity. We apply this notion, which we call $k$-commutativity, to measuring expectation values of observables in quantum circuits and show a reduction in the number measurements at the cost of increased circuit depth. Last, we discuss the asymptotic measurement complexity of $k$-commutativity for several families of $n$-qubit Hamiltonians, showing examples with $O(1)$, $O(\sqrt{n})$, and $O(n)$ scaling.
翻訳日:2023-12-20 16:57:16 公開日:2023-12-19
# 長文映像理解のためのテキストコンディショニングリサンプラー

Text-Conditioned Resampler For Long Form Video Understanding ( http://arxiv.org/abs/2312.11897v1 )

ライセンス: Link先を確認
Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari(参考訳) ビデオは極めて冗長なデータソースであり、特定のタスクを解決するために重要な瞬間を特定するのに十分であることが多い。 本稿では,学習済みで凍結したビジュアルエンコーダと大規模言語モデル(LLM)を用いて,タスクの長いビデオシーケンスを処理するテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。 TCRはテキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、LLMに提供してテキスト応答を生成する。 軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。 私たちは次のような貢献をします i) タスクを条件とした長時間ビデオの処理が可能なトランスフォーマティブベースのサンプリングアーキテクチャと,事前学習された視覚および言語モデルのブリッジ化が可能なトレーニング手法をデザインする。 (ii)幅広い評価課題においてその効果を実証的に検証し,nextqa, egoschema, ego4d-ltaチャレンジに新たな最新技術を設定した。 (iii)より長い映像コンテキストを必要とするタスクを判断し、長距離映像モデルのさらなる評価に効果的に使用できる。

Videos are highly redundant data source and it is often enough to identify a few key moments to solve any given task. In this paper, we present a text-conditioned video resampler (TCR) module that uses a pre-trained and frozen visual encoder and large language model (LLM) to process long video sequences for a task. TCR localises relevant visual features from the video given a text condition and provides them to a LLM to generate a text response. Due to its lightweight design and use of cross-attention, TCR can process more than 100 frames at a time allowing the model to use much longer chunks of video than earlier works. We make the following contributions: (i) we design a transformer-based sampling architecture that can process long videos conditioned on a task, together with a training method that enables it to bridge pre-trained visual and language models; (ii) we empirically validate its efficacy on a wide variety of evaluation tasks, and set a new state-of-the-art on NextQA, EgoSchema, and the EGO4D-LTA challenge; and (iii) we determine tasks which require longer video contexts and that can thus be used effectively for further evaluation of long-range video models.
翻訳日:2023-12-20 16:51:00 公開日:2023-12-19
# MPoxアウトブレイク時の公開反応・知覚・態度の分析:つぶやきのトピックモデリングから

Analyzing Public Reactions, Perceptions, and Attitudes during the MPox Outbreak: Findings from Topic Modeling of Tweets ( http://arxiv.org/abs/2312.11895v1 )

ライセンス: Link先を確認
Nirmalya Thakur, Yuvraj Nihal Duggal, and Zihui Liu(参考訳) 最近のmpoxウイルスの流行により、twitterの利用は大幅に増加した。 この分野での以前の研究は、主にこれらのツイートの感情分析とコンテンツ分析に焦点を合わせており、トピックモデリングに焦点を絞った研究は、いくつかの制限がある。 本稿では,この研究ギャップに対処し,この分野に2つの科学的貢献を行う。 まず、2022年5月7日から2023年3月3日までにtwitterに投稿された2022 mpoxのアウトブレイクに関する601,432ツイートのトピックモデリング結果を示す。 その結果、この期間にMpoxに関連するTwitter上の会話は、Mpoxに関するビューとパースペクティブ、Mpox、Mpox、LGBTQIA+コミュニティに関するアップデートと調査、MpoxとCOVID-19の4つの異なるテーマに大別される可能性が示唆された。 第2に,これらのつぶやきの分析から得られた知見について述べる。 その結果、この期間に(投稿されたツイート数の観点から)twitterで最も人気があったテーマは、mpoxに関するビューと視点であった。 この後、Mpox と LGBTQIA+ Community がテーマとなり、それぞれ Mpox と COVID-19 のテーマと、Mpox に関する事例と調査の更新がテーマとなった。 最後に,本研究の新規性と意義を明らかにするために,本研究分野における関連研究との比較を行った。

The recent outbreak of the MPox virus has resulted in a tremendous increase in the usage of Twitter. Prior works in this area of research have primarily focused on the sentiment analysis and content analysis of these Tweets, and the few works that have focused on topic modeling have multiple limitations. This paper aims to address this research gap and makes two scientific contributions to this field. First, it presents the results of performing Topic Modeling on 601,432 Tweets about the 2022 Mpox outbreak that were posted on Twitter between 7 May 2022 and 3 March 2023. The results indicate that the conversations on Twitter related to Mpox during this time range may be broadly categorized into four distinct themes - Views and Perspectives about Mpox, Updates on Cases and Investigations about Mpox, Mpox and the LGBTQIA+ Community, and Mpox and COVID-19. Second, the paper presents the findings from the analysis of these Tweets. The results show that the theme that was most popular on Twitter (in terms of the number of Tweets posted) during this time range was Views and Perspectives about Mpox. This was followed by the theme of Mpox and the LGBTQIA+ Community, which was followed by the themes of Mpox and COVID-19 and Updates on Cases and Investigations about Mpox, respectively. Finally, a comparison with related studies in this area of research is also presented to highlight the novelty and significance of this research work.
翻訳日:2023-12-20 16:50:37 公開日:2023-12-19
# 3d-lfm:リフトファンデーションモデル

3D-LFM: Lifting Foundation Model ( http://arxiv.org/abs/2312.11894v1 )

ライセンス: Link先を確認
Mosam Dabhi and Laszlo A. Jeni and Simon Lucey(参考訳) 3D構造とカメラを2Dランドマークから持ち上げることは、コンピュータビジョンのすべての分野の基礎となっている。 従来の手法は、パースペクティブ-n-Point(PnP)問題のような特定の剛性オブジェクトに限られてきたが、ディープラーニングは、ノイズ、オクルージョン、パースペクティブ歪みに対する耐性を持つ幅広いオブジェクトクラス(例えば、C3PDOやPAUL)を再構成する能力を拡大した。 しかし、これらすべての技術は、3Dトレーニングデータ全体にわたる対応を確立するための基本的な必要性によって制限されている。 提案手法は変圧器の固有置換等式を利用して,3次元データインスタンスあたりの点数の変動を管理し,オクルージョンに耐え,未知のカテゴリに一般化する。 2D-3Dリフトタスクベンチマークにおけるアートパフォーマンスの状況を示す。 私たちのアプローチは、このような幅広い種類の構造でトレーニングできるので、単に3D Lifting Foundation Model(3D-LFM)と呼びます。

The lifting of 3D structure and camera from 2D landmarks is at the cornerstone of the entire discipline of computer vision. Traditional methods have been confined to specific rigid objects, such as those in Perspective-n-Point (PnP) problems, but deep learning has expanded our capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL) with resilience to noise, occlusions, and perspective distortions. All these techniques, however, have been limited by the fundamental need to establish correspondences across the 3D training data -- significantly limiting their utility to applications where one has an abundance of "in-correspondence" 3D data. Our approach harnesses the inherent permutation equivariance of transformers to manage varying number of points per 3D data instance, withstands occlusions, and generalizes to unseen categories. We demonstrate state of the art performance across 2D-3D lifting task benchmarks. Since our approach can be trained across such a broad class of structures we refer to it simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.
翻訳日:2023-12-20 16:50:09 公開日:2023-12-19
# 非教師付き社会事象検出のための階層構造エントロピー最小化

Hierarchical and Incremental Structural Entropy Minimization for Unsupervised Social Event Detection ( http://arxiv.org/abs/2312.11891v1 )

ライセンス: Link先を確認
Yuwei Cao, Hao Peng, Zhengtao Yu, Philip S. Yu(参考訳) ソーシャルイベント検出のトレンドとして、グラフニューラルネットワーク(GNN)ベースの手法は、自然言語の意味論と複雑なソーシャルネットワーク構造情報の融合を可能にし、SOTAのパフォーマンスを示す。 しかし、GNNベースの手法は、有用なメッセージ相関を見逃す可能性がある。 さらに、トレーニングや予測イベント数の決定には手動でラベル付けする必要がある。 本稿では,グラフ構造エントロピー(SE)最小化による社会事象の検出について述べる。 GNNベースの手法の利点を維持しながら、提案するフレームワークであるHISEventは、より情報のあるメッセージグラフを構築し、教師なしであり、事前のイベント数を必要としない。 具体的には、1次元(1D)SE最小化を用いてグラフ近傍を漸進的に探索し、既存のメッセージグラフを意味的関連メッセージ間のエッジで補う。 次に,2次元(2D)SEを階層的に最小化することにより,メッセージグラフからイベントを検出する。 提案する1Dおよび2D SE最小化アルゴリズムは,ソーシャルイベント検出のためにカスタマイズされ,既存のSE最小化アルゴリズムの効率問題に効果的に対処する。 HISEventは、GNNベースの手法を一貫して上回り、効率的かつ堅牢なクローズドおよびオープンセット設定の両方でソーシャルイベント検出のための新しいSOTAを実現する。

As a trending approach for social event detection, graph neural network (GNN)-based methods enable a fusion of natural language semantics and the complex social network structural information, thus showing SOTA performance. However, GNN-based methods can miss useful message correlations. Moreover, they require manual labeling for training and predetermining the number of events for prediction. In this work, we address social event detection via graph structural entropy (SE) minimization. While keeping the merits of the GNN-based methods, the proposed framework, HISEvent, constructs more informative message graphs, is unsupervised, and does not require the number of events given a priori. Specifically, we incrementally explore the graph neighborhoods using 1-dimensional (1D) SE minimization to supplement the existing message graph with edges between semantically related messages. We then detect events from the message graph by hierarchically minimizing 2-dimensional (2D) SE. Our proposed 1D and 2D SE minimization algorithms are customized for social event detection and effectively tackle the efficiency problem of the existing SE minimization algorithms. Extensive experiments show that HISEvent consistently outperforms GNN-based methods and achieves the new SOTA for social event detection under both closed- and open-set settings while being efficient and robust.
翻訳日:2023-12-20 16:49:49 公開日:2023-12-19
# 大きな言語モデルに基づく難易度予測を用いた知識追跡のための難易度強調学習

Difficulty-Focused Contrastive Learning for Knowledge Tracing with a Large Language Model-Based Difficulty Prediction ( http://arxiv.org/abs/2312.11890v1 )

ライセンス: Link先を確認
Unggi Lee, Sungjun Yoon, Joon Seo Yun, Kyoungsoo Park, YoungHoon Jung, Damji Stratton, Hyeoncheol Kim(参考訳) 本稿では,質問と概念難易度の重要要因に着目し,知識トレースモデル(kt)の性能向上のための新しい手法を提案する。 難易度の顕著さにもかかわらず、これまでのKT研究はモデル最適化の可能性を生かしておらず、未知のデータから難易度を予測するのに苦戦している。 これらの問題に対処するために,KTモデルのための難易度中心のコントラスト学習手法と,難易度予測のためのLarge Language Model(LLM)ベースのフレームワークを提案する。 これらの革新的な手法は、ktモデルの性能を改善し、見えないデータの正確な難易度推定を提供する。 本研究は,ktモデルの性能向上を実証し,その効果を実証する。 それにもかかわらず、言語と難易度の間の複雑な関係はさらなる調査に値する。

This paper presents novel techniques for enhancing the performance of knowledge tracing (KT) models by focusing on the crucial factor of question and concept difficulty level. Despite the acknowledged significance of difficulty, previous KT research has yet to exploit its potential for model optimization and has struggled to predict difficulty from unseen data. To address these problems, we propose a difficulty-centered contrastive learning method for KT models and a Large Language Model (LLM)-based framework for difficulty prediction. These innovative methods seek to improve the performance of KT models and provide accurate difficulty estimates for unseen data. Our ablation study demonstrates the efficacy of these techniques by demonstrating enhanced KT model performance. Nonetheless, the complex relationship between language and difficulty merits further investigation.
翻訳日:2023-12-20 16:49:27 公開日:2023-12-19
# 階層変換器によるコードコンテキストのキャプチャによるラインレベル欠陥の予測

Predicting Line-Level Defects by Capturing Code Contexts with Hierarchical Transformers ( http://arxiv.org/abs/2312.11889v1 )

ライセンス: Link先を確認
Parvez Mahbub and Mohammad Masudur Rahman(参考訳) ソフトウェア欠陥はソフトウェア開発の総予算の40%を消費し、毎年数十億ドルを世界経済に費やしている。 残念なことに、多くのソフトウェア品質保証(SQA)プラクティスがソフトウェア開発(例えば、コードレビュー、継続的インテグレーション)で使用されているにもかかわらず、ソフトウェア製品の公式リリースにはまだ欠陥が存在する可能性がある。 したがって、コードベースの脆弱な領域に対するSQAの取り組みの優先順位付けは、ソフトウェアリリースの高品質を保証するために不可欠である。 ソフトウェア欠陥をラインレベルで予測することは、SQAの作業の優先順位付けに役立ちますが、コードベースの3%程度しか欠陥がないため、非常に難しい作業です。 ラインレベルの欠陥予測に関する既存の作業は、しばしば不足し、ラインレベルの欠陥情報を完全に活用できない。 本稿では,ラインレベルの欠陥予測のための新しいディープラーニング手法であるbugsplorerを提案する。 トランスフォーマーモデルの階層構造を利用して、コードトークンとコードラインの2つのタイプのコード要素を表現する。 ファイルレベルの欠陥予測に最適化された既存の技術とは異なり、bugsplorerはラインレベルの欠陥予測目的に最適化されている。 5つのパフォーマンス指標による評価から,bugsplorerは最先端技術よりも26~72%高い精度で欠陥ラインを予測できる有望な性能を示している。 上位1~3%の疑わしい線のうち、最初の20%の欠陥線をランク付けできる。 したがって、Bugsplorerは欠陥線を高くランク付けすることでSQAコストを大幅に削減する可能性がある。

Software defects consume 40% of the total budget in software development and cost the global economy billions of dollars every year. Unfortunately, despite the use of many software quality assurance (SQA) practices in software development (e.g., code review, continuous integration), defects may still exist in the official release of a software product. Therefore, prioritizing SQA efforts for the vulnerable areas of the codebase is essential to ensure the high quality of a software release. Predicting software defects at the line level could help prioritize the SQA effort but is a highly challenging task given that only ~3% of lines of a codebase could be defective. Existing works on line-level defect prediction often fall short and cannot fully leverage the line-level defect information. In this paper, we propose Bugsplorer, a novel deep-learning technique for line-level defect prediction. It leverages a hierarchical structure of transformer models to represent two types of code elements: code tokens and code lines. Unlike the existing techniques that are optimized for file-level defect prediction, Bugsplorer is optimized for a line-level defect prediction objective. Our evaluation with five performance metrics shows that Bugsplorer has a promising capability of predicting defective lines with 26-72% better accuracy than that of the state-of-the-art technique. It can rank the first 20% defective lines within the top 1-3% suspicious lines. Thus, Bugsplorer has the potential to significantly reduce SQA costs by ranking defective lines higher.
翻訳日:2023-12-20 16:49:13 公開日:2023-12-19
# 異なる地理的領域に由来する疾患xに関連する検索関心の大規模データセット

A Large-Scale Dataset of Search Interests Related to Disease X Originating from Different Geographic Regions ( http://arxiv.org/abs/2312.11885v1 )

ライセンス: Link先を確認
Nirmalya Thakur, Shuqi Cui, Kesha A. Patel, Isabella Hall, and Yuvraj Nihal Duggal(参考訳) 世界保健機関(WHO)は、将来の流行を引き起こす可能性のある仮説上の未知の病原体を表すために、疾病Xをブループリント優先疾患のリストに追加した。 新型コロナウイルス(COVID-19)、インフルエンザ、ライム病、ジカウイルスなど、過去のさまざまなウイルスの流行の中で、さまざまな分野の研究者がGoogle Trendsを使って、Web行動のマルチモーダルなコンポーネントをマイニングし、研究、調査、分析し、それぞれのウイルスの発生に関連する世界的な認識、準備、反応を分析した。 世界が病原体Xを準備するにつれ、病原体Xに関連するWeb行動のデータセットが、この分野の研究のタイムリーな進歩に寄与することが重要である。 さらに、これらの研究課題に対処するため、2018年2月から2023年8月にかけて、世界の異なる地域から出現した病的Xに関連するWeb行動のデータセットを提示する。 特に、このデータセットは94の地理的地域から疾患xに関する検索の関心を示す。 このデータセットは、google trendsを使ってデータを収集して開発された。 この期間の毎月、これらのリージョンの関連する検索関心は、このデータセットで利用可能である。 本稿では,このデータセットが科学データ管理のFAIR原則に適合していることについても論じる。 最後に,ビッグデータ,データマイニング,医療,疫学,データ分析などの関連分野におけるさまざまな研究課題の調査において,このデータセットの適用性,妥当性,有用性について,疾患xに焦点をあてた分析を行った。

The World Health Organization added Disease X to their shortlist of blueprint priority diseases to represent a hypothetical, unknown pathogen that could cause a future epidemic. During different virus outbreaks of the past, such as COVID-19, Influenza, Lyme Disease, and Zika virus, researchers from various disciplines utilized Google Trends to mine multimodal components of web behavior to study, investigate, and analyze the global awareness, preparedness, and response associated with these respective virus outbreaks. As the world prepares for Disease X, a dataset on web behavior related to Disease X would be crucial to contribute towards the timely advancement of research in this field. Furthermore, none of the prior works in this field have focused on the development of a dataset to compile relevant web behavior data, which would help to prepare for Disease X. To address these research challenges, this work presents a dataset of web behavior related to Disease X, which emerged from different geographic regions of the world, between February 2018 and August 2023. Specifically, this dataset presents the search interests related to Disease X from 94 geographic regions. The dataset was developed by collecting data using Google Trends. The relevant search interests for all these regions for each month in this time range are available in this dataset. This paper also discusses the compliance of this dataset with the FAIR principles of scientific data management. Finally, an analysis of this dataset is presented to uphold the applicability, relevance, and usefulness of this dataset for the investigation of different research questions in the interrelated fields of Big Data, Data Mining, Healthcare, Epidemiology, and Data Analysis with a specific focus on Disease X.
翻訳日:2023-12-20 16:48:46 公開日:2023-12-19
# 未来のソフトウェアエンジニアにソフトウェア倫理を教える

Teaching Software Ethics to Future Software Engineers ( http://arxiv.org/abs/2312.11884v1 )

ライセンス: Link先を確認
Aastha Pant, Simone V. Spiegler, Rashina Hoda, Jeremy Yoon, Nabeeb Yusuf, Tian Er, Shenyi Hu(参考訳) ソフトウェア倫理をソフトウェア工学(SE)の学生に教えることの重要性は、ソフトウェアに関する倫理的問題が社会に脅威を与え続けるにつれ、これまで以上に重要になっている。 伝統的な教室の手法、ウィグネット、ロールプレイゲーム、クイズが、SE学生にソフトウェア倫理を教えるために長年使われてきた。 ソフトウェア倫理知識をSE教育に取り入れることの重要性と、SE倫理の教育と学習分野におけるさらなる努力の必要性を認識し、我々はインタラクティブなシナリオベースのソフトウェア倫理クイズを開発した。 我々のゴールは、オンライン講義の総合的、オープンで、エンゲージメントなやり方で、SE学生に倫理を教えることであり、その後、クイズと対話的なワークショップと報告セッションが続いた。 匿名のクイズ回答は、講義とクイズの有効性に関する有望な結果を示し、インタラクティブクイズに対する評価はわずかに向上した。 自発的な学生からのフィードバックは、参加者の大多数が、クイズシナリオに関する議論が、ソフトウェア倫理について学ぶのに非常に有益であることが示唆された。 本報告では,我々は,我々の経験,クイズを含む関連教育資源,およびより広範な教育コミュニティから学んだ教訓のレコメンデーションを共有し,この重要なトピックを前進させる。

The importance of teaching software ethics to software engineering (SE) students is more critical now than ever before as software related ethical issues continue to impact society at an alarming rate. Traditional classroom methods, vignettes, role-play games, and quizzes have been employed over the years to teach SE students about software ethics. Recognising the significance of incorporating software ethics knowledge in SE education and the continued need for more efforts in the area of the teaching and learning of SE ethics, we developed an interactive, scenario-based Software Ethics Quiz. Our goal was to teach SE students about ethics in a comprehensive, open, and engaging manner through a combined approach of an online lecture followed by an interactive workshop with the quiz and a debriefing session. The anonymous quiz responses collected showed promising results regarding the engagement and efficacy of the lecture and quiz, with a slightly better rating for the interactive quiz. The voluntary student feedback collected suggested that a majority of the participants found the debrief discussion on the quiz scenarios to be very beneficial for learning about software ethics. In this experience report, we share our experiences, related educational resources including the quiz, and recommendations from lessons learned with the wider education community to keep driving this critical topic forward
翻訳日:2023-12-20 16:48:16 公開日:2023-12-19
# ConsistentEE: 言語モデル推論の高速化のための一貫性と硬度をガイドした早期実行方法

ConsistentEE: A Consistent and Hardness-Guided Early Exiting Method for Accelerating Language Models Inference ( http://arxiv.org/abs/2312.11882v1 )

ライセンス: Link先を確認
Ziqian Zeng, Yihuai Hong, Hongliang Dai, Huiping Zhuang, Cen Chen(参考訳) Early Exitingは効率的な推論を実現する最も一般的な方法の1つである。 現在の早期出口法では、訓練中のすべての内部分類器のクロスエントロピー損失の(重み付けされた)和を採用し、これらすべての分類器を正しく予測する。 しかし、推論の間、ある内部分類器がインスタンスを正しく予測する限り、精度を損なうことなく加速することができる。 したがって、トレーニングと推論の間には顕著なギャップがある。 本稿では,トレーニングや推論において一貫した早期終了手法であるConsistentEEを提案する。 consistenteeは、強化学習問題として、早期退出プロセスを定式化する。 インスタンスが終了するか継続するかを決定するためにポリシーネットワークが追加される。 ConsistentEEのトレーニング目的は、各インスタンスを1つの内部分類器で正しく予測することのみである。 さらに,インスタンスの硬度を測定するために,概念記憶層を導入する。 記憶層を報酬関数設計に組み込むことにより, ``easy'' インスタンスがよりアクセラレーションに, ``hard'' インスタンスが精度に重点を置くことができる。 実験の結果,本手法は様々な自然言語理解と生成タスクにおいて,他のベースラインよりも優れていることがわかった。

Early Exiting is one of the most popular methods to achieve efficient inference. Current early exiting methods adopt the (weighted) sum of the cross entropy loss of all internal classifiers during training, imposing all these classifiers to predict all instances correctly. However, during inference, as long as one internal classifier predicts an instance correctly, it can accelerate without losing accuracy. Thus, there is a notable gap between training and inference. We propose ConsistentEE, an early exiting method that is consistent in training and inference. ConsistentEE formulates the early exiting process as a reinforcement learning problem. A policy network is added to decide whether an instance should exit or continue. The training objective of ConsistentEE only require each instance to be predicted correctly by one internal classifier. Additionally, we introduce the concept Memorize Layer to measure the hardness of an instance. We incorporate memorized layer into reward function design, which allows ``easy'' instances to focus more on acceleration while ``hard'' instances to focus more on accuracy. Experimental results show that our method outperforms other baselines on various natural language understanding and generation tasks.
翻訳日:2023-12-20 16:47:54 公開日:2023-12-19
# 朝鮮古文書の句読回復モデルと間隔モデル

Punctuation restoration Model and Spacing Model for Korean Ancient Document ( http://arxiv.org/abs/2312.11881v1 )

ライセンス: Link先を確認
Taehong Jang, Joonmo Ahn, Sojung Lucia Kim(参考訳) 朝鮮古文書には間隔や句読点はなく、古典文で書かれている。 これにより、現代の個人や翻訳モデルが正確な解釈と翻訳を困難にしている。 中国には句読点と間隔を予測するモデルがあるが、データの違いにより韓国のテキストに直接適用することは問題となる。 そこで,韓国の歴史文献の句読や間隔を予測する最初のモデルを開発し,その性能評価を行った。 我々の句読点復元モデルはF1スコアが0.84、スペーシングモデルが0.96を記録した。 非常に高い精度を維持しながら、より少ないVRAMで低パフォーマンスGPUでの推論を可能にするという利点がある。

In Korean ancient documents, there is no spacing or punctuation, and they are written in classical Chinese characters. This makes it challenging for modern individuals and translation models to accurately interpret and translate them. While China has models predicting punctuation and spacing, applying them directly to Korean texts is problematic due to data differences. Therefore, we developed the first models which predict punctuation and spacing for Korean historical texts and evaluated their performance. Our punctuation restoration model achieved an F1 score of 0.84, and Spacing model achieved a score of 0.96. It has the advantage of enabling inference on low-performance GPUs with less VRAM while maintaining quite high accuracy.
翻訳日:2023-12-20 16:47:35 公開日:2023-12-19
# RandLA-Netを用いた移動学習によるポイントクラウドセグメンテーション:都市部を事例として

Point Cloud Segmentation Using Transfer Learning with RandLA-Net: A Case Study on Urban Areas ( http://arxiv.org/abs/2312.11880v1 )

ライセンス: Link先を確認
Alperen Enes Bayar, Ufuk Uyan, Elif Toprak, Cao Yuheng, Tang Juncheng and Ahmet Alp Kindiroglu(参考訳) 都市環境は複雑な構造と多様な特徴によって特徴づけられ、ポイントクラウドデータの正確なセグメンテーションが困難な課題となっている。 本稿では,都市における大規模ポイントクラウドデータの3次元セグメンテーションのための最先端ニューラルネットワークアーキテクチャであるrandra-netの適用に関する包括的研究を行う。 この研究は中国三大都市、Chengdu、Jiaoda、Shnzhenに焦点を当て、セグメンテーション性能を高めるためにその特徴を活用している。 これらの特定都市におけるラベル付きデータの可用性の制限に対処するために,転送学習手法を採用した。 我々は、LandLA-Netモデルの初期化のために、Sensat UrbanとTrontoの3Dデータセットから学習重量を転送した。 さらに,対象都市部にモデルを適応させ,正確なセグメンテーション結果を確保するためにクラスリマッピングを行った。 実験結果は,提案手法が3dポイントクラウドセグメンテーションの各領域で80\%のf1スコアを達成することの有効性を示した。 トランスファーラーニング戦略は、データの不足を克服するために重要であり、アーバンポイントクラウド分析のための堅牢なソリューションを提供する。 この結果は、特に急速に発展する中国都市部の文脈において、ポイントクラウドセグメンテーション手法の進歩に寄与している。

Urban environments are characterized by complex structures and diverse features, making accurate segmentation of point cloud data a challenging task. This paper presents a comprehensive study on the application of RandLA-Net, a state-of-the-art neural network architecture, for the 3D segmentation of large-scale point cloud data in urban areas. The study focuses on three major Chinese cities, namely Chengdu, Jiaoda, and Shenzhen, leveraging their unique characteristics to enhance segmentation performance. To address the limited availability of labeled data for these specific urban areas, we employed transfer learning techniques. We transferred the learned weights from the Sensat Urban and Toronto 3D datasets to initialize our RandLA-Net model. Additionally, we performed class remapping to adapt the model to the target urban areas, ensuring accurate segmentation results. The experimental results demonstrate the effectiveness of the proposed approach achieving over 80\% F1 score for each areas in 3D point cloud segmentation. The transfer learning strategy proves to be crucial in overcoming data scarcity issues, providing a robust solution for urban point cloud analysis. The findings contribute to the advancement of point cloud segmentation methods, especially in the context of rapidly evolving Chinese urban areas.
翻訳日:2023-12-20 16:47:24 公開日:2023-12-19
# Sparseは、微調整済みの大規模言語モデルで十分である

Sparse is Enough in Fine-tuning Pre-trained Large Language Model ( http://arxiv.org/abs/2312.11875v1 )

ライセンス: Link先を確認
Weixi Song, Zuchao Li, Lefei Zhang, Hai Zhao, Bo Du(参考訳) 事前学習-微調整パラダイムの普及に伴い、学習済みモデルを下流タスクに効率的に適応させる方法が興味深い問題となっている。 パラメータ効率の良いファインチューニング (PEFT) 法は, 適応器, Bia のみ, 最近広く用いられている低ランク適応など, 低コストな適応法として提案されている。 これらの手法はある程度有効性を実証し、広く適用されてきたが、基礎となる原則はまだ不明である。 本稿では,下流領域における損失景観のランダム初期化から事前学習初期化,すなわち低振幅発振から高振幅発振への移行を明らかにする。 パラメータ勾配はスパーシティに類似した性質を示し、例えば、部品の1%が勾配全体の99%を占める。 この特性により、事前訓練されたモデルは、訓練可能なパラメータの少ないモデルでも、モデルを一般化する能力を保証する平坦な最小化器を容易に見つけることができる。 そこで本研究では,sparse incremental fine-tuning (sift) という,勾配に基づくsparse fine-tuningアルゴリズムを提案し,glueベンチマークや命令チューニングなどのタスクでの有効性を検証する。 コードはhttps://github.com/song-wx/SIFT/でアクセスできる。

With the prevalence of pre-training-fine-tuning paradigm, how to efficiently adapt the pre-trained model to the downstream tasks has been an intriguing issue. Parameter-Efficient Fine-Tuning (PEFT) methods have been proposed for low-cost adaptation, including Adapters, Bia-only, and the recently widely used Low-Rank Adaptation. Although these methods have demonstrated their effectiveness to some extent and have been widely applied, the underlying principles are still unclear. In this paper, we reveal the transition of loss landscape in the downstream domain from random initialization to pre-trained initialization, that is, from low-amplitude oscillation to high-amplitude oscillation. The parameter gradients exhibit a property akin to sparsity, where a small fraction of components dominate the total gradient norm, for instance, 1% of the components account for 99% of the gradient. This property ensures that the pre-trained model can easily find a flat minimizer which guarantees the model's ability to generalize even with a low number of trainable parameters. Based on this, we propose a gradient-based sparse fine-tuning algorithm, named Sparse Increment Fine-Tuning (SIFT), and validate its effectiveness on a range of tasks including the GLUE Benchmark and Instruction-tuning. The code is accessible at https://github.com/song-wx/SIFT/.
翻訳日:2023-12-20 16:47:03 公開日:2023-12-19
# beyond prototypes: より良い表現学習のためのセマンティックアンカー正規化

Beyond Prototypes: Semantic Anchor Regularization for Better Representation Learning ( http://arxiv.org/abs/2312.11872v1 )

ライセンス: Link先を確認
Yanqi Ge, Qiang Nie, Ye Huang, Yong Liu, Chengjie Wang, Feng Zheng, Wen Li, Lixin Duan(参考訳) 表現学習の究極の目標の1つは、クラス内のコンパクト性とクラス間の親和性を達成することである。 期待最大化パラダイムに従う多くの優れたメトリックベースおよびプロトタイプベース手法が提案されている。 しかし、彼らは必然的に学習プロセス、特にロングテール分散トレーニングデータにバイアスを導入する。 本稿では,このクラスプロトタイプが必ずしもトレーニング機能から派生したものではないことを明らかにし,事前定義されたクラスアンカーを特徴センタとして使用して,一方向的特徴学習を導く新しい視点を提案する。 しかし、事前定義されたアンカーはピクセルの特徴から大きな意味的距離を持つため、直接適用されない。 この問題に対処し,特徴学習から独立して機能セントロイドを生成するために,単純なセマンティックアンカー正規化(SAR)を提案する。 sarは、クラス化アウェアの補助的エントロピー損失を用いて、乱れ学習によるトレーニング中に意味空間における意味的アンカーのクラス間分離性を保証する。 これらのセマンティックアンカーに学習した特徴を引き付けることで、いくつかの利点が得られる。 1)クラス内コンパクト性と自然クラス間分離性 2 特徴学習から引き起こされたバイアス又は誤差を回避でき、かつ 3)長期化問題に対する堅牢性。 提案したSARは既存のモデルではプラグアンドプレイで使用することができる。 大規模な実験により、SARは以前の洗練されたプロトタイプベースの手法よりも優れた性能を示した。 実装はhttps://github.com/geyanqi/SARで公開されている。

One of the ultimate goals of representation learning is to achieve compactness within a class and well-separability between classes. Many outstanding metric-based and prototype-based methods following the Expectation-Maximization paradigm, have been proposed for this objective. However, they inevitably introduce biases into the learning process, particularly with long-tail distributed training data. In this paper, we reveal that the class prototype is not necessarily to be derived from training features and propose a novel perspective to use pre-defined class anchors serving as feature centroid to unidirectionally guide feature learning. However, the pre-defined anchors may have a large semantic distance from the pixel features, which prevents them from being directly applied. To address this issue and generate feature centroid independent from feature learning, a simple yet effective Semantic Anchor Regularization (SAR) is proposed. SAR ensures the interclass separability of semantic anchors in the semantic space by employing a classifier-aware auxiliary cross-entropy loss during training via disentanglement learning. By pulling the learned features to these semantic anchors, several advantages can be attained: 1) the intra-class compactness and naturally inter-class separability, 2) induced bias or errors from feature learning can be avoided, and 3) robustness to the long-tailed problem. The proposed SAR can be used in a plug-and-play manner in the existing models. Extensive experiments demonstrate that the SAR performs better than previous sophisticated prototype-based methods. The implementation is available at https://github.com/geyanqi/SAR.
翻訳日:2023-12-20 16:46:37 公開日:2023-12-19
# ChatGPTによるFact-checkによるフェイクニュースデータセットの再検討

A Revisit of Fake News Dataset with Augmented Fact-checking by ChatGPT ( http://arxiv.org/abs/2312.11870v1 )

ライセンス: Link先を確認
Zizhong Li, Haopeng Zhang, Jiawei Zhang(参考訳) 近年、フェイクニュースの拡散が重要な問題として現れており、それを検出するためにかなりの努力を必要としている。 しかし、既存の偽ニュース検出データセットは、人間のジャーナリストから引用されており、このタスクの極めて主観的な性質から、固有のバイアス制限がある可能性が高い。 本稿では,大規模言語モデル(ChatGPT)によるファクトチェックを付加した既存の偽ニュースデータセットを再検討し,偽ニュースデータセットChatGPT-FCと命名する。 我々は,人間ジャーナリストとllmの区別と類似性を定量的に分析し,ニュース記事の信頼性,ニュースクリエーターの信頼性,時間感応性,政治フレーミングを評価する。 本稿は, LLMが予備スクリーニング手法として機能する可能性を強調し, ジャーナリストの偏見を緩和し, 偽ニュースの検出を向上する有望な手段を提供する。

The proliferation of fake news has emerged as a critical issue in recent years, requiring significant efforts to detect it. However, the existing fake news detection datasets are sourced from human journalists, which are likely to have inherent bias limitations due to the highly subjective nature of this task. In this paper, we revisit the existing fake news dataset verified by human journalists with augmented fact-checking by large language models (ChatGPT), and we name the augmented fake news dataset ChatGPT-FC. We quantitatively analyze the distinctions and resemblances between human journalists and LLM in assessing news subject credibility, news creator credibility, time-sensitive, and political framing. Our findings highlight LLM's potential to serve as a preliminary screening method, offering a promising avenue to mitigate the inherent biases of human journalists and enhance fake news detection.
翻訳日:2023-12-20 16:46:15 公開日:2023-12-19
# Point Cloud Partの編集 - セグメンテーション、生成、アセンブリ、選択

Point Cloud Part Editing: Segmentation, Generation, Assembly, and Selection ( http://arxiv.org/abs/2312.11867v1 )

ライセンス: Link先を確認
Kaiyi Zhang, Yang Chen, Ximing Yang, Weizhong Zhang, Cheng Jin(参考訳) 理想的な部分編集は、編集された部分の多様性、残りの部分への忠実さ、結果の品質を保証するべきである。 しかし、従来の方法では各部分を完全に切り離すことはできないため、編集された部分が他の部分に影響を与えるため、多様性や忠実度は低下する。 さらに、いくつかのメソッドは、品質を保証するために編集結果の手動選択を必要とする部分間の制約を欠いている。 そこで我々は,ポイントクラウド部分編集のための4段階プロセス,セグメンテーション,ジェネレーション,アセンブリ,セレクションを提案する。 このプロセスに基づいて,機能障害と制約という2つの戦略を利用する部分編集モデルであるSGASを紹介する。 部分レベルの特徴分布を独立に適合させることで,特徴分散を実現する。 オブジェクトレベルの分布から部分レベルの分布への変換を明示的にモデル化することにより,特徴制約を実現する。 異なるデータセットに関する考慮すべき実験は、ポイントクラウド部分編集におけるSGASの有効性と有効性を示している。 さらに、SGASをプルーニングして、教師なしの部分認識ポイントクラウド生成を実現し、最先端の結果を得ることができる。

Ideal part editing should guarantee the diversity of edited parts, the fidelity to the remaining parts, and the quality of the results. However, previous methods do not disentangle each part completely, which means the edited parts will affect the others, resulting in poor diversity and fidelity. In addition, some methods lack constraints between parts, which need manual selections of edited results to ensure quality. Therefore, we propose a four-stage process for point cloud part editing: Segmentation, Generation, Assembly, and Selection. Based on this process, we introduce SGAS, a model for part editing that employs two strategies: feature disentanglement and constraint. By independently fitting part-level feature distributions, we realize the feature disentanglement. By explicitly modeling the transformation from object-level distribution to part-level distributions, we realize the feature constraint. Considerable experiments on different datasets demonstrate the efficiency and effectiveness of SGAS on point cloud part editing. In addition, SGAS can be pruned to realize unsupervised part-aware point cloud generation and achieves state-of-the-art results.
翻訳日:2023-12-20 16:45:58 公開日:2023-12-19
# 高次累積量に基づく潜在変数による因果構造の同定

Identification of Causal Structure with Latent Variables Based on Higher Order Cumulants ( http://arxiv.org/abs/2312.11934v1 )

ライセンス: Link先を確認
Wei Chen, Zhiyi Huang, Ruichu Cai, Zhifeng Hao, Kun Zhang(参考訳) 潜在変数による因果的発見は重要だが困難なタスクである。 この課題に対処するために多くの方法が登場したにもかかわらず、2つの観測変数が1つの潜在変数に影響され、その間に有向エッジが存在するという構造を完全には特定できない。 興味深いことに、この構造は高次累積体の利用によって識別できる。 非ガウスデータの高次累積を活用し、因果係数またはそれらの比率を推定するための解析解を提供する。 因果係数の推定(比)を用いて,潜在変数の影響を受ける2つの観測変数間の因果縁の存在を同定する新しい手法を提案する。 このような因果エッジが流出した場合、因果方向を決定するための非対称性基準を導入する。 実験の結果,提案手法の有効性が示された。

Causal discovery with latent variables is a crucial but challenging task. Despite the emergence of numerous methods aimed at addressing this challenge, they are not fully identified to the structure that two observed variables are influenced by one latent variable and there might be a directed edge in between. Interestingly, we notice that this structure can be identified through the utilization of higher-order cumulants. By leveraging the higher-order cumulants of non-Gaussian data, we provide an analytical solution for estimating the causal coefficients or their ratios. With the estimated (ratios of) causal coefficients, we propose a novel approach to identify the existence of a causal edge between two observed variables subject to latent variable influence. In case when such a causal edge exits, we introduce an asymmetry criterion to determine the causal direction. The experimental results demonstrate the effectiveness of our proposed method.
翻訳日:2023-12-20 16:39:13 公開日:2023-12-19
# トラフィック予測のための動的周波数領域グラフ畳み込みネットワーク

Dynamic Frequency Domain Graph Convolutional Network for Traffic Forecasting ( http://arxiv.org/abs/2312.11933v1 )

ライセンス: Link先を確認
Yujie Li, Zezhi Shao, Yongjun Xu, Qiang Qiu, Zhaogang Cao, Fei Wang(参考訳) 交通ネットワークにおける複雑な空間依存は、交通予測を極めて困難にする。 既存の作業の多くはセンサー間の動的グラフ構造を学習することに集中しており、データ駆動と呼ばれる交通データから空間依存をマイニングする戦略は直感的で効果的なアプローチである。 しかし、ランダム要因による交通パターンや騒音の時間変化は、データ駆動型空間依存モデリングを妨げている。 本稿では,空間依存性を捉えるために,新しい動的周波数領域グラフ畳み込みネットワーク(DFDGCN)を提案する。 具体的には,フーリエ変換による時間シフトの影響を緩和し,ノイズを伴うトラヒックデータが完全に信頼できないため,グラフ学習のためのデータ取得時にセンサのアイデンティティ埋め込みと時間埋め込みを導入する。 このグラフは、グラフ畳み込み中の静的な事前定義グラフと自己適応グラフを組み合わせて、古典的な因果畳み込みを通じて将来のトラフィックデータを予測する。 4つの実世界のデータセットに対する大規模な実験により、我々のモデルは有効であり、ベースラインより優れています。

Complex spatial dependencies in transportation networks make traffic prediction extremely challenging. Much existing work is devoted to learning dynamic graph structures among sensors, and the strategy of mining spatial dependencies from traffic data, known as data-driven, tends to be an intuitive and effective approach. However, Time-Shift of traffic patterns and noise induced by random factors hinder data-driven spatial dependence modeling. In this paper, we propose a novel dynamic frequency domain graph convolution network (DFDGCN) to capture spatial dependencies. Specifically, we mitigate the effects of time-shift by Fourier transform, and introduce the identity embedding of sensors and time embedding when capturing data for graph learning since traffic data with noise is not entirely reliable. The graph is combined with static predefined and self-adaptive graphs during graph convolution to predict future traffic data through classical causal convolutions. Extensive experiments on four real-world datasets demonstrate that our model is effective and outperforms the baselines.
翻訳日:2023-12-20 16:38:59 公開日:2023-12-19
# 非拘束環境における多人数追跡・再同定のためのトランスネットワーク

Transformer Network for Multi-Person Tracking and Re-Identification in Unconstrained Environment ( http://arxiv.org/abs/2312.11929v1 )

ライセンス: Link先を確認
Hamza Mukhtar and Muhammad Usman Ghani Khan(参考訳) マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。 かなりの進歩にもかかわらず、既存のMOT手法は、物体の非一様運動、閉塞、出現・再出現のシナリオに直面すると混乱する傾向にある。 これを認識したmot法では,特異なエンドツーエンドのトレーニング可能なフレームワーク内でオブジェクト検出とアイデンティティのリンクをマージするだけでなく,長期間にわたってオブジェクトのアイデンティティリンクを維持できるモデルも備えている。 提案するSTMMOTは,4つのモジュールを中心に構築されている。 1) 映像中の各フレームからオブジェクトを検出する視覚変換器エンコーダデコーダアーキテクチャを介してオブジェクト提案を生成する候補提案生成 2)スケール変動ピラミッドは,マルチスケール特徴マップにおける自己スケールとクロススケールの類似性を学ぶための,進歩的ピラミッド構造である。 3)時空間メモリエンコーダ,追跡中の各オブジェクトに関連付けられたメモリから必須情報を抽出する。 4) 時空間メモリデコーダは、motのオブジェクト検出とアイデンティティアソシエーションのタスクを同時に解決する。 本システムでは,時空間記憶モジュールを強固に活用し,広範な歴史的観察を保ち,注意に基づくアグリゲータを用いて効果的にエンコードする。 stmmotのユニーク性は、連続的に更新される動的クエリ埋め込みとしてオブジェクトを表現することにある。

Multi-object tracking (MOT) has profound applications in a variety of fields, including surveillance, sports analytics, self-driving, and cooperative robotics. Despite considerable advancements, existing MOT methodologies tend to falter when faced with non-uniform movements, occlusions, and appearance-reappearance scenarios of the objects. Recognizing this inadequacy, we put forward an integrated MOT method that not only marries object detection and identity linkage within a singular, end-to-end trainable framework but also equips the model with the ability to maintain object identity links over long periods of time. Our proposed model, named STMMOT, is built around four key modules: 1) candidate proposal generation, which generates object proposals via a vision-transformer encoder-decoder architecture that detects the object from each frame in the video; 2) scale variant pyramid, a progressive pyramid structure to learn the self-scale and cross-scale similarities in multi-scale feature maps; 3) spatio-temporal memory encoder, extracting the essential information from the memory associated with each object under tracking; and 4) spatio-temporal memory decoder, simultaneously resolving the tasks of object detection and identity association for MOT. Our system leverages a robust spatio-temporal memory module that retains extensive historical observations and effectively encodes them using an attention-based aggregator. The uniqueness of STMMOT lies in representing objects as dynamic query embeddings that are updated continuously, which enables the prediction of object states with attention mechanisms and eradicates the need for post-processing.
翻訳日:2023-12-20 16:38:45 公開日:2023-12-19
# モチーフ発見によるデュアルレベルグラフ自己教師付き事前学習

Empowering Dual-Level Graph Self-Supervised Pretraining with Motif Discovery ( http://arxiv.org/abs/2312.11927v1 )

ライセンス: Link先を確認
Pengwei Yan, Kaisong Song, Zhuoren Jiang, Yangyang Kang, Tianqianjin Lin, Changlong Sun, Xiaozhong Liu(参考訳) 自己教師付きグラフ事前学習技術は、様々な領域で有望な結果を示しているが、そのアプリケーションは、限られたトポロジ学習、人間の知識依存、無能なマルチレベル相互作用といった課題を経験している。 これらの問題に対処するために、ノードレベルおよびサブグラフレベルのプリテキストタスクをオーケストレーションする独自のデュアルレベル事前トレーニング構造を導入するDGPM(Dual-level Graph Self-supervised Pretraining with Motif Discovery)を提案する。 従来のアプローチとは異なり、DGPMはエッジプーリングモジュールを通じて重要なグラフモチーフを自律的に発見し、学習されたモチーフの類似性をグラフカーネルベースの類似性と整合させる。 クロスマッチングタスクは、洗練されたノード-モチーフ相互作用と新しい表現学習を可能にする。 15のデータセットに関する広範囲な実験は、教師なし表現学習と転送学習の設定において、dgpmの有効性と一般化性を検証する。 自律的に発見されたモチーフは、堅牢性と解釈可能性を高めるためのDGPMの可能性を示している。

While self-supervised graph pretraining techniques have shown promising results in various domains, their application still experiences challenges of limited topology learning, human knowledge dependency, and incompetent multi-level interactions. To address these issues, we propose a novel solution, Dual-level Graph self-supervised Pretraining with Motif discovery (DGPM), which introduces a unique dual-level pretraining structure that orchestrates node-level and subgraph-level pretext tasks. Unlike prior approaches, DGPM autonomously uncovers significant graph motifs through an edge pooling module, aligning learned motif similarities with graph kernel-based similarities. A cross-matching task enables sophisticated node-motif interactions and novel representation learning. Extensive experiments on 15 datasets validate DGPM's effectiveness and generalizability, outperforming state-of-the-art methods in unsupervised representation learning and transfer learning settings. The autonomously discovered motifs demonstrate the potential of DGPM to enhance robustness and interpretability.
翻訳日:2023-12-20 16:38:20 公開日:2023-12-19
# 大規模学習期待最大化

Big Learning Expectation Maximization ( http://arxiv.org/abs/2312.11926v1 )

ライセンス: Link先を確認
Yulai Cong, Sijia Li(参考訳) 混合モデルは、汎用アプリケーションのための基本ツールとして機能する。 しかし、一般的な期待最大化(EM)アルゴリズムのようなトレーニング手法はパラメータの初期化に敏感であり、しばしば最適値よりも任意に悪い局所最適値に悩まされる。 長続きするローカル・オプティマ問題に対処するため、最近の基盤モデルからインスピレーションを得て、その基盤となるビッグデータ原則を活用してEMをアップグレードすることを提案する。 具体的にはBig Learning EM(BigLearn-EM)という,データとモデル分布の結合,辺縁,直交的に変換された辺縁マッチングを同時に行うEMアップグレードを提案する。 シミュレーション実験により,BigLearn-EMは高い確率で最適な結果が得られることを示した。 コードはhttps://github.com/YulaiCong/Big-Learning-Expectation-Maximizationで公開されている。

Mixture models serve as one fundamental tool with versatile applications. However, their training techniques, like the popular Expectation Maximization (EM) algorithm, are notoriously sensitive to parameter initialization and often suffer from bad local optima that could be arbitrarily worse than the optimal. To address the long-lasting bad-local-optima challenge, we draw inspiration from the recent ground-breaking foundation models and propose to leverage their underlying big learning principle to upgrade the EM. Specifically, we present the Big Learning EM (BigLearn-EM), an EM upgrade that simultaneously performs joint, marginal, and orthogonally transformed marginal matchings between data and model distributions. Through simulated experiments, we empirically show that the BigLearn-EM is capable of delivering the optimal with high probability; comparisons on benchmark clustering datasets further demonstrate its effectiveness and advantages over existing techniques. The code is available at https://github.com/YulaiCong/Big-Learning-Expectation-Maximization.
翻訳日:2023-12-20 16:38:02 公開日:2023-12-19
# QKD & 6 Tb/s (60x100G) DWDMチャネルと17dBmの全WDM電力の同時伝搬

Co-propagation of QKD & 6 Tb/s (60x100G) DWDM channels with ~17 dBm total WDM power in single and multi-span configurations ( http://arxiv.org/abs/2312.11924v1 )

ライセンス: Link先を確認
P. Gavignet, E. Pincemin, F. Herviou, Y. Loussouarn, F. Mondain, A. J. Grant, L. Johnson, R. I. Woodward, J. F. Dynes, B. Summers, A. J. Shields, K. Taira, H. Sato, R. Zink, V. Grempka, V. Castay, J. Zou(参考訳) 本稿では、1550nm帯におけるDWDM(Dense Wavelength Division Multiplexing)データチャネルを用いた量子鍵分布(QKD)系の量子チャネル(約1310nm)の共伝播実験について報告する。 2つの構成が評価される。 1つは、標準シングルモードファイバ(ssmf)の様々な長さ(20kmから70km)を使用し、全体のwdmチャネル電力が変化するシングルスパン構成である。 Secure Key Rate (SKR)とQuantum Bit Error Ratio (QBER)は、100Gb/sで30または60チャンネルの合計17dBmの電力が量子チャネルと共存可能であることを示す。 また,コープロパゲーション方式においてセキュアキーを提供するためのqkdシステムの能力を評価するために,コープロパゲーション効率を評価するための指標も提案されている。 2つ目の実験は、3つのQKDシステムと184kmの信頼された2つのノードのカスケードと3つのスパンリンクである。 我々は、QKDが確保した100GbEデータストリームを転送するコヒーレント400Gb/sデュアル偏光DP-16QAM(Quadrature Amplitude Modulation)チャネルと、他の54Gb/s WDMチャネルの送信を報告した。 暗号化はコプロパゲーションと同時に実証される。

We report co-propagation experiments of the quantum channel (at 1310 nm) of a Quantum Key Distribution (QKD) system with Dense Wavelength Division Multiplexing (DWDM) data channels in the 1550 nm range. Two configurations are assessed. The first one is a single span configuration where various lengths of Standard Single Mode Fiber (SSMF) (from 20 to 70 km) are used and the total WDM channels power is varied. The Secure Key Rate (SKR) and the Quantum Bit Error Ratio (QBER) are recorded showing that up to ~17 dBm total power of 30 or 60 channels at 100 Gb/s can coexist with the quantum channel. A metric to evaluate the co-propagation efficiency is also proposed to better evaluate the ability of a QKD system to provide secure keys in a co-propagation regime. The second experiment is a three spans link with a cascade of three QKD systems and two trusted nodes in a 184 km total link length. We report the transmission of a coherent 400 Gb/s Dual Polarization DP-16QAM (Quadrature Amplitude Modulation) channel that transports a QKD secured 100 GbE data stream, with other fifty-four 100 Gb/s WDM channels. Encryption is demonstrated at the same time as co-propagation.
翻訳日:2023-12-20 16:37:45 公開日:2023-12-19
# IPAD:シーンテキスト認識のための反復・並列・拡散型ネットワーク

IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition ( http://arxiv.org/abs/2312.11923v1 )

ライセンス: Link先を確認
Xiaomeng Yang, Zhi Qiao, Yu Zhou, Weiping Wang(参考訳) 近年,様々な用途でシーンテキスト認識が注目されている。 ほとんどの最先端のメソッドでは、注意機構を備えたエンコーダ-デコーダフレームワークを採用しており、自動的に左から右にテキストを生成する。 説得力のある性能にもかかわらず、このシーケンシャルデコード戦略は推論速度を制約する。 逆に、非自己回帰モデルは高速で同時予測を提供するが、しばしば精度を犠牲にする。 明示的な言語モデルを利用することでパフォーマンスは向上するが、計算負荷を負担する。 また,言語知識と視覚情報との分離は最終予測に影響を及ぼす可能性がある。 本稿では,並列かつ反復的なデコーダを用いて,簡単なデコーダ戦略を採用する方法を提案する。 さらに,テキスト認識を画像ベースの条件付きテキスト生成タスクとみなし,個別拡散戦略を活用し,双方向の文脈情報の徹底的な探索を確実にする。 広範な実験により、提案手法は、中国語と英語のテキスト画像の両方を含むベンチマークデータセットにおいて優れた結果が得られることを示した。

Nowadays, scene text recognition has attracted more and more attention due to its diverse applications. Most state-of-the-art methods adopt an encoder-decoder framework with the attention mechanism, autoregressively generating text from left to right. Despite the convincing performance, this sequential decoding strategy constrains inference speed. Conversely, non-autoregressive models provide faster, simultaneous predictions but often sacrifice accuracy. Although utilizing an explicit language model can improve performance, it burdens the computational load. Besides, separating linguistic knowledge from vision information may harm the final prediction. In this paper, we propose an alternative solution, using a parallel and iterative decoder that adopts an easy-first decoding strategy. Furthermore, we regard text recognition as an image-based conditional text generation task and utilize the discrete diffusion strategy, ensuring exhaustive exploration of bidirectional contextual information. Extensive experiments demonstrate that the proposed approach achieves superior results on the benchmark datasets, including both Chinese and English text images.
翻訳日:2023-12-20 16:37:17 公開日:2023-12-19
# 不均質な知識グラフに対する関係認識質問応答

Relation-Aware Question Answering for Heterogeneous Knowledge Graphs ( http://arxiv.org/abs/2312.11922v1 )

ライセンス: Link先を確認
Haowei Du, Quzhe Huang, Chen Li, Chen Zhang, Yang Li, Dongyan Zhao(参考訳) KBQA(Multi-hop Knowledge Base Question Answering)は、知識グラフ(KG)において、複数の推論ステップを必要とする回答エンティティを見つけることを目的としている。 既存の検索ベースアプローチは、異なるホップでの特定の関係に集中し、推論パス内の中間エンティティを予測することでこの課題を解決している。 これらの方法の推論過程において、関係表現は固定されるが、初期関係表現は最適でないかもしれない。 我々は,KGにおける関係情報を捉える能力を損なう現在の関係表現を強化するために,ヘッドテールエンティティや関係間の意味的関係からの情報を利用することができないと主張している。 この問題に対処するために、各ノードが元のKG(\textbf{primal entity graph})内の関係を表すような \textbf{dual relation graph を構築し、同じヘッドまたはテールエンティティを共有する関係間にエッジを構築する。 次に、基本エンティティグラフの推論、双対関係グラフの情報伝達、これら2つのグラフ間の相互作用を反復的に行う。 このように、実体と関係の相互作用が強化され、より優れた実体と関係表現が導出されます。 WebQSPとCWQの2つの公開データセットの実験により、我々のアプローチは従来の最先端よりも大きなパフォーマンス向上を実現していることが示された。 我々のコードは \url{https://github.com/yanmenxue/RAH-KBQA} で利用可能です。

Multi-hop Knowledge Base Question Answering(KBQA) aims to find the answer entity in a knowledge graph (KG), which requires multiple steps of reasoning. Existing retrieval-based approaches solve this task by concentrating on the specific relation at different hops and predicting the intermediate entity within the reasoning path. During the reasoning process of these methods, the representation of relations are fixed but the initial relation representation may not be optimal. We claim they fail to utilize information from head-tail entities and the semantic connection between relations to enhance the current relation representation, which undermines the ability to capture information of relations in KGs. To address this issue, we construct a \textbf{dual relation graph} where each node denotes a relation in the original KG (\textbf{primal entity graph}) and edges are constructed between relations sharing same head or tail entities. Then we iteratively do primal entity graph reasoning, dual relation graph information propagation, and interaction between these two graphs. In this way, the interaction between entity and relation is enhanced, and we derive better entity and relation representations. Experiments on two public datasets, WebQSP and CWQ, show that our approach achieves a significant performance gain over the prior state-of-the-art. Our code is available on \url{https://github.com/yanmenxue/RAH-KBQA}.
翻訳日:2023-12-20 16:37:03 公開日:2023-12-19
# 大規模言語モデルを用いた外部知識強化ポリフォンの曖昧化

External Knowledge Augmented Polyphone Disambiguation Using Large Language Model ( http://arxiv.org/abs/2312.11920v1 )

ライセンス: Link先を確認
Chen Li(参考訳) マンダリン中国語のテキスト音声変換システム(TTS)の重要な課題の1つは、G2P変換を行う際のポリフォンの曖昧さである。 本稿では,この問題を生成タスクとして解くための新しい手法を提案する。 大規模言語モデル(llm)とプロンプト学習のトレンド研究に続いて,提案手法は3つのモジュールからなる。 Retrievalモジュールは、中国語のポリフォニック文字の多レベル意味辞書である外部知識を組み込んで、文章をプロンプトにフォーマットする。 生成モジュールはデコーダのみのTransformerアーキテクチャを採用し、ターゲットテキストを誘導する。 Postprocessモジュールは、必要に応じて生成されたテキストを有効な結果に修正する。 実験の結果,提案手法はcppと呼ばれる公開データセットの既存メソッドよりも優れていた。 また,プロンプトのテンプレートが与える影響,トレーニングデータのサイズ,外部知識の導入の有無について実験的に検討した。

One of the key issues in Mandarin Chinese text-to-speech (TTS) systems is polyphone disambiguation when doing grapheme-to-phoneme (G2P) conversion. In this paper, we introduce a novel method to solve the problem as a generation task. Following the trending research of large language models (LLM) and prompt learning, the proposed method consists of three modules. Retrieval module incorporates external knowledge which is a multi-level semantic dictionary of Chinese polyphonic characters to format the sentence into a prompt. Generation module adopts the decoder-only Transformer architecture to induce the target text. Postprocess module corrects the generated text into a valid result if needed. Experimental results show that our method outperforms the existing methods on a public dataset called CPP. We also empirically study the impacts of different templates of the prompt, different sizes of training data, and whether to incorporate external knowledge.
翻訳日:2023-12-20 16:36:38 公開日:2023-12-19
# CUDA核融合における事例研究:CUTLASSライブラリを用いたNVIDIAホッパーアーキテクチャにおけるFlashAttention-2の実装

A Case Study in CUDA Kernel Fusion: Implementing FlashAttention-2 on NVIDIA Hopper Architecture using the CUTLASS Library ( http://arxiv.org/abs/2312.11918v1 )

ライセンス: Link先を確認
Ganesh Bikshandi and Jay Shah(参考訳) 我々は、NVIDIA HopperアーキテクチャをターゲットとしたカスタムフューズされたCUDAカーネルとして、メモリ対応のスケールドドット製品アテンションアルゴリズムであるFlashAttention-2の前方パスを最適化し、オープンソースのCUTLASSライブラリを使って記述する。 そこで我々は,オンラインソフトマックスとバック・ツー・バックのGEMMカーネルとの融合,ホッパー固有のテンソルメモリアクセラレータ(TMA)とワープグループマトリックス・マルチアキュメーション(WGMMA)命令の利用,CUTLASSレイアウトとテンソルの定義と変換,コピーとGEMM操作の重複,レジスタ圧力と共有メモリ利用のバランスを保ちつつ,Q,K,V注目行列の最適タイルサイズを選択することに関わる課題とテクニックを説明する。 単一H100 PCIe GPUにおけるハイパーパラメータの選択のためのベンチマークでは、最終世代のNVIDIA Ampereアーキテクチャに最適化されたFlashAttention-2よりも20~50%高いFLOP/sを観察する。

We provide an optimized implementation of the forward pass of FlashAttention-2, a popular memory-aware scaled dot-product attention algorithm, as a custom fused CUDA kernel targeting NVIDIA Hopper architecture and written using the open-source CUTLASS library. In doing so, we explain the challenges and techniques involved in fusing online-softmax with back-to-back GEMM kernels, utilizing the Hopper-specific Tensor Memory Accelerator (TMA) and Warpgroup Matrix-Multiply-Accumulate (WGMMA) instructions, defining and transforming CUTLASS Layouts and Tensors, overlapping copy and GEMM operations, and choosing optimal tile sizes for the Q, K and V attention matrices while balancing the register pressure and shared memory utilization. In head-to-head benchmarks on a single H100 PCIe GPU for some common choices of hyperparameters, we observe 20-50% higher FLOPs/s over a version of FlashAttention-2 optimized for last-generation NVIDIA Ampere architecture.
翻訳日:2023-12-20 16:36:21 公開日:2023-12-19
# likesの役割:オンラインフィードバックがユーザーのメンタルヘルスに与える影響

The Role of Likes: How Online Feedback Impacts Users' Mental Health ( http://arxiv.org/abs/2312.11914v1 )

ライセンス: Link先を確認
Angelina Voggenreiter (1), Sophie Brandt (1), Fabian Putterer (1), Andreas Frings (1), Juergen Pfeffer (1) ((1) School of Social Sciences and Technology, Technical University of Munich)(参考訳) ソーシャルメディアの利用は、ユーザーのメンタルヘルスにポジティブとネガティブの両方の結果をもたらすことが示されている。 いくつかの研究は、ピアフィードバックがソーシャルメディアの使用とメンタルヘルスの関係において重要な役割を担っていることを示している。 本研究では,オンラインフィードバックがユーザの感情経験,社会的つながり,自己評価に与える影響を分析する。 実験では、facebookのようなシステム上で1週間にわたって他のユーザーと対話し、仲間からのポジティブな反応の量を制御することができる。 他者からの反応がほとんどないし全くないことは、ユーザのネガティブな感情やストレスを誘発するだけでなく、低レベルの自尊心も引き起こす。 対照的に、非常にポジティブなオンラインフィードバックを受け、社会的つながりの感情を誘発し、全体的な孤独を減少させる。 社会的レベルでは、我々の研究は、ソーシャルメディアがメンタルヘルスにポジティブまたはネガティブな方法で影響を及ぼすメカニズムをよりよく理解するのに役立ちます。 方法論レベルでは,ソーシャルメディア実験を設計・実施するための新しいオープンソースツールを提供する。

Social media usage has been shown to have both positive and negative consequences for users' mental health. Several studies indicated that peer feedback plays an important role in the relationship between social media use and mental health. In this research, we analyse the impact of receiving online feedback on users' emotional experience, social connectedness and self-esteem. In an experimental study, we let users interact with others on a Facebook-like system over the course of a week while controlling for the amount of positive reactions they receive from their peers. We find that experiencing little to no reaction from others does not only elicit negative emotions and stress amongst users, but also induces low levels of self-esteem. In contrast, receiving much positive online feedback, evokes feelings of social connectedness and reduces overall loneliness. On a societal level, our study can help to better understand the mechanisms through which social media use impacts mental health in a positive or negative way. On a methodological level, we provide a new open-source tool for designing and conducting social media experiments.
翻訳日:2023-12-20 16:35:54 公開日:2023-12-19
# EVI-SAM:ロバスト、リアルタイム、タイトに結合したイベント-ビジュアル-慣性状態推定と3次元Dense Mapping

EVI-SAM: Robust, Real-time, Tightly-coupled Event-Visual-Inertial State Estimation and 3D Dense Mapping ( http://arxiv.org/abs/2312.11911v1 )

ライセンス: Link先を確認
Weipeng Guan, Peiyu Chen, Huibin Zhao, Yu Wang, and Peng Lu(参考訳) イベントカメラは、バイオインスパイアされたモーションアクティベーションセンサーであり、モーションぼけやハイダイナミックレンジといった困難な状況に対処する上で大きな可能性を示す。 本稿では,単眼イベントカメラを用いた6自由度ポーズトラッキングと3次元再構成の課題に対処するEVI-SAMを提案する。 新しいイベントベースのハイブリッドトラッキングフレームワークは、特徴マッチングの堅牢性と直接アライメントの精度を活用することで、ポーズを推定するように設計されている。 具体的には、光度制約を構成するイベントベースの2d-2dアライメントを開発し、イベントベースの再投影制約と密に統合する。 マッピングモジュールは、画像誘導イベントベースのマッピング手法により、シーンの濃密でカラフルな深さを復元する。 その後、切り欠き符号付き距離関数(tsdf)融合を用いて、複数の視点から密集した深度マップを用いて、3dシーンの外観、テクスチャ、表面メッシュを再構成することができる。 私たちの知る限りでは、これはイベントベースの密接なマッピングを実現する最初の非学習作業です。 本手法の優れた性能を定性的に定量的に示すために,公開データセットと自己収集データセットの両方で数値評価を行った。 evi-samは計算効率を維持しつつ精度とロバスト性を効果的にバランスさせ、優れたポーズトラッキングと密集したマッピング性能を示す。 ビデオデモ: https://youtu.be/nn40u4e5si8。

Event cameras are bio-inspired, motion-activated sensors that demonstrate substantial potential in handling challenging situations, such as motion blur and high-dynamic range. In this paper, we proposed EVI-SAM to tackle the problem of 6 DoF pose tracking and 3D reconstruction using monocular event camera. A novel event-based hybrid tracking framework is designed to estimate the pose, leveraging the robustness of feature matching and the precision of direct alignment. Specifically, we develop an event-based 2D-2D alignment to construct the photometric constraint, and tightly integrate it with the event-based reprojection constraint. The mapping module recovers the dense and colorful depth of the scene through the image-guided event-based mapping method. Subsequently, the appearance, texture, and surface mesh of the 3D scene can be reconstructed by fusing the dense depth map from multiple viewpoints using truncated signed distance function (TSDF) fusion. To the best of our knowledge, this is the first non-learning work to realize event-based dense mapping. Numerical evaluations are performed on both publicly available and self-collected datasets, which qualitatively and quantitatively demonstrate the superior performance of our method. Our EVI-SAM effectively balances accuracy and robustness while maintaining computational efficiency, showcasing superior pose tracking and dense mapping performance in challenging scenarios. Video Demo: https://youtu.be/Nn40U4e5Si8.
翻訳日:2023-12-20 16:35:36 公開日:2023-12-19
# 通信コスト低減型分散連系蒸留の収束可視化装置

Convergence Visualizer of Decentralized Federated Distillation with Reduced Communication Costs ( http://arxiv.org/abs/2312.11905v1 )

ライセンス: Link先を確認
Akihito Taya, Yuuki Nishiyama, Kaoru Sezaki(参考訳) フェデレートラーニング(FL)は、データ共有を必要とせずに協調学習を実現し、プライバシーの漏洩を防ぐ。 flを完全分散アルゴリズムに拡張するために、研究者は機械学習(ml)タスクをパラメータ最適化問題として考慮し、分散最適化アルゴリズムをflに適用した。 逆に、著者の以前の研究で提案されたコンセンサスベースのマルチホップ・フェデレーション蒸留(CMFD)は、ニューラルネットワーク(NN)モデルをパラメータ空間ではなく関数空間内で他者と近接させる。 そこで本研究では,(1)通信コストの低減と(2)モデル収束の可視化という,CMFDの未解決課題を解決した。 提案した動的通信コスト削減法(DCCR)により,ネットワークに転送されるデータ量は削減されるが,予測精度はわずかに低下する。 また,関数空間におけるnnモデル間の距離を可視化する手法も提案されている。 この手法は、無限次元関数を数値ベクトルとして近似することにより、分散学習アルゴリズムによってモデルがどのように変化するかの軌跡を可視化する。

Federated learning (FL) achieves collaborative learning without the need for data sharing, thus preventing privacy leakage. To extend FL into a fully decentralized algorithm, researchers have applied distributed optimization algorithms to FL by considering machine learning (ML) tasks as parameter optimization problems. Conversely, the consensus-based multi-hop federated distillation (CMFD) proposed in the authors' previous work makes neural network (NN) models get close with others in a function space rather than in a parameter space. Hence, this study solves two unresolved challenges of CMFD: (1) communication cost reduction and (2) visualization of model convergence. Based on a proposed dynamic communication cost reduction method (DCCR), the amount of data transferred in a network is reduced; however, with a slight degradation in the prediction accuracy. In addition, a technique for visualizing the distance between the NN models in a function space is also proposed. The technique applies a dimensionality reduction technique by approximating infinite-dimensional functions as numerical vectors to visualize the trajectory of how the models change by the distributed learning algorithm.
翻訳日:2023-12-20 16:35:11 公開日:2023-12-19
# ウェアラブルセンサと機械学習を用いた手話会話の解釈

Sign Language Conversation Interpretation Using Wearable Sensors and Machine Learning ( http://arxiv.org/abs/2312.11903v1 )

ライセンス: Link先を確認
Basma Kalandar and Ziemowit Dworakowski(参考訳) さまざまなレベルの難聴に苦しむ人の数は2019年に1557億人に達した。 この膨大な数は、多くの個人的および専門的なレベルに苦しむ傾向にあり、厳格に社会の他の部分に含まれる必要がある。 本稿では,3フレキシブルセンサのウェアラブルデバイスを用いて得られたデータをもとに,手話自動認識システムの概念の実証を行う。 このシステムは、実行された符号のシーケンスのデータを収集し、機械学習手法を用いて、選択したアメリカン手話(ASL)動的単語の集合を解釈するように設計されている。 ビルドされたモデルは、99%のRandom Forest、99%のSVM、98%のK-Nearest Neighbor、2つのK-Nearest Neighbor(KNN)など、高品質のパフォーマンスを達成した。 これは、本格的なシステム開発への多くの道のりを示している。

The count of people suffering from various levels of hearing loss reached 1.57 billion in 2019. This huge number tends to suffer on many personal and professional levels and strictly needs to be included with the rest of society healthily. This paper presents a proof of concept of an automatic sign language recognition system based on data obtained using a wearable device of 3 flex sensors. The system is designed to interpret a selected set of American Sign Language (ASL) dynamic words by collecting data in sequences of the performed signs and using machine learning methods. The built models achieved high-quality performances, such as Random Forest with 99% accuracy, Support Vector Machine (SVM) with 99%, and two K-Nearest Neighbor (KNN) models with 98%. This indicates many possible paths toward the development of a full-scale system.
翻訳日:2023-12-20 16:34:50 公開日:2023-12-19
# Attention-GCN-LSTM を用いた配電網の短期マルチ水平線損失率予測

Short-Term Multi-Horizon Line Loss Rate Forecasting of a Distribution Network Using Attention-GCN-LSTM ( http://arxiv.org/abs/2312.11898v1 )

ライセンス: Link先を確認
Jie Liu, Yijia Cao, Yong Li, Yixiu Guo, and Wei Deng(参考訳) 回線損失率を正確に予測することは、配電網、特に1時間から1週間の短期的マルチホリゾンの回線損失管理に不可欠である。 本研究では,グラフ畳み込みネットワーク(GCN),Long Short-Term Memory(LSTM)を組み合わせた新しい手法であるAttention-GCN-LSTMを提案する。 空間的および時間的依存性を捉えることにより,複数の地平線を横断する線損率を正確に予測することができる。 10kvフィード装置の実世界データを用いた包括的評価により,本モデルは既存のアルゴリズムを一貫して上回り,予測精度とマルチホライゾン予測の面で優れた性能を示す。 このモデルは,配電網におけるライン損失管理の強化に大きく貢献する。

Accurately predicting line loss rates is vital for effective line loss management in distribution networks, especially over short-term multi-horizons ranging from one hour to one week. In this study, we propose Attention-GCN-LSTM, a novel method that combines Graph Convolutional Networks (GCN), Long Short-Term Memory (LSTM), and a three-level attention mechanism to address this challenge. By capturing spatial and temporal dependencies, our model enables accurate forecasting of line loss rates across multiple horizons. Through comprehensive evaluation using real-world data from 10KV feeders, our Attention-GCN-LSTM model consistently outperforms existing algorithms, exhibiting superior performance in terms of prediction accuracy and multi-horizon forecasting. This model holds significant promise for enhancing line loss management in distribution networks.
翻訳日:2023-12-20 16:34:36 公開日:2023-12-19
# コンパクトエンコーディングによる正確な asp カウント

Exact ASP Counting with Compact Encodings ( http://arxiv.org/abs/2312.11936v1 )

ライセンス: Link先を確認
Mohimenul Kabir and Supratik Chakraborty and Kuldeep S Meel(参考訳) 解集合プログラミング(asp)は、多様なドメインから自然な方法でハードコンビネート問題を記述する能力により、知識表現と自動推論において有望なパラダイムとして登場してきた。 命題SAT解決の進歩に基づいて、過去20年にわたって、解集合が満足できる問題、すなわち与えられた解集合プログラムのモデルや解集合を見つけるための、よく設計されたシステムの出現を目撃してきた。 近年、asp.net mvcの文脈では、モデルカウントなどの満足度を超えた問題への関心が高まっている。 命題モデルカウントの初期と同様に、最先端の正確な答え集合カウンタは、小さなインスタンス以上にはスケールしない。 ASPカウンタは、より大きな入力式を扱うのに苦労します。 この論文の主な貢献は、より大きな入力公式を避けるための回答集合をカウントするsharpaspと呼ばれる新しいaspカウントフレームワークである。 これは、命題モデル数え上げの文脈で開発された重要なテクニックの持ち上げを可能にする解集合を定義する別の方法に依存する。 1470ベンチマークに対する我々の広範な実証分析は、現在の最先端の正解集合カウンタよりも大きなパフォーマンス向上を示している。 具体的には、シャープASPを使用することで、PAR2スコアが3082の1062ベンチマークを解くことができたが、先行技術を使用した場合、PAR2スコアが4205の895ベンチマークしか解決できなかった。

Answer Set Programming (ASP) has emerged as a promising paradigm in knowledge representation and automated reasoning owing to its ability to model hard combinatorial problems from diverse domains in a natural way. Building on advances in propositional SAT solving, the past two decades have witnessed the emergence of well-engineered systems for solving the answer set satisfiability problem, i.e., finding models or answer sets for a given answer set program. In recent years, there has been growing interest in problems beyond satisfiability, such as model counting, in the context of ASP. Akin to the early days of propositional model counting, state-of-the-art exact answer set counters do not scale well beyond small instances. Exact ASP counters struggle with handling larger input formulas. The primary contribution of this paper is a new ASP counting framework, called sharpASP, which counts answer sets avoiding larger input formulas. This relies on an alternative way of defining answer sets that allows for the lifting of key techniques developed in the context of propositional model counting. Our extensive empirical analysis over 1470 benchmarks demonstrates significant performance gain over current state-of-the-art exact answer set counters. Specifically, by using sharpASP, we were able to solve 1062 benchmarks with PAR2 score of 3082 whereas using prior state-of-the-art, we could only solve 895 benchmarks with a PAR2 score of 4205, all other experimental conditions being the same.
翻訳日:2023-12-20 16:30:25 公開日:2023-12-19
# 自律運転における多モード知覚を用いたパラメータ決定

Parameterized Decision-making with Multi-modal Perception for Autonomous Driving ( http://arxiv.org/abs/2312.11935v1 )

ライセンス: Link先を確認
Yuyang Xia, Shuncheng Liu, Quanlin Yu, Liwei Deng, You Zhang, Han Su and Kai Zheng(参考訳) 自動運転は、この10年間で急速に進歩した新興技術だ。 現代の交通は、移動性の向上やリスクの最小化、走行時間の短縮など、自動運転車の賢明な意思決定の枠組みから大きな恩恵を受けると予想されている。 しかし、既存の手法は、直線道路にのみ適合する環境の複雑さを無視するか、最適化段階における周囲の車両への影響を無視し、環境適応性の弱さと不完全な最適化目標をもたらす。 これらの制約に対処するため、AUTOと呼ばれる深層強化学習に基づくマルチモーダル認識を用いたパラメータ化意思決定フレームワークを提案する。 我々は、多モーダルなセマンティックな特徴の状態表現を学習するためのグラフベースモデルの設計に基づいて、自動運転車の周囲の様々な交通参加者の状況特徴を包括的に把握する。 車線追跡と車線変更を区別するため,まず車線変更を判断し,正確な動作を計算するパラメータ化動作構造に自動運転車の動作を分解する。 ハイブリッド報酬関数は、安全、交通効率、乗客の快適性、および最適な行動を生成するためのフレームワークを導く影響を考慮に入れている。 さらに、トレーニングを強化するために、正規化用語とマルチワーカーパラダイムを設計する。 大規模な実験は、AUTOがマクロ的効果と顕微鏡的効果の両面で最先端を推し進めることができることを示す証拠である。

Autonomous driving is an emerging technology that has advanced rapidly over the last decade. Modern transportation is expected to benefit greatly from a wise decision-making framework of autonomous vehicles, including the improvement of mobility and the minimization of risks and travel time. However, existing methods either ignore the complexity of environments only fitting straight roads, or ignore the impact on surrounding vehicles during optimization phases, leading to weak environmental adaptability and incomplete optimization objectives. To address these limitations, we propose a parameterized decision-making framework with multi-modal perception based on deep reinforcement learning, called AUTO. We conduct a comprehensive perception to capture the state features of various traffic participants around the autonomous vehicle, based on which we design a graph-based model to learn a state representation of the multi-modal semantic features. To distinguish between lane-following and lane-changing, we decompose an action of the autonomous vehicle into a parameterized action structure that first decides whether to change lanes and then computes an exact action to execute. A hybrid reward function takes into account aspects of safety, traffic efficiency, passenger comfort, and impact to guide the framework to generate optimal actions. In addition, we design a regularization term and a multi-worker paradigm to enhance the training. Extensive experiments offer evidence that AUTO can advance state-of-the-art in terms of both macroscopic and microscopic effectiveness.
翻訳日:2023-12-20 16:29:35 公開日:2023-12-19
# ロバストな視覚接地のためのコンテキストディスタングルとプロトタイプ継承

Context Disentangling and Prototype Inheriting for Robust Visual Grounding ( http://arxiv.org/abs/2312.11967v1 )

ライセンス: Link先を確認
Wei Tang, Liang Li, Xuejing Liu, Lu Jin, Jinhui Tang and Zechao Li(参考訳) ビジュアルグラウンドディング(VG)は、与えられた言語クエリに基づいて、画像内の特定のターゲットを特定することを目的としている。 文脈からの識別情報は、ターゲットを他のオブジェクトと区別するために重要であり、特に他のオブジェクトと同一のカテゴリを持つターゲットに対して重要である。 しかし、ほとんどの以前の手法はそのような情報を過小評価している。 さらに、通常は標準的なシーン(新しいオブジェクトは一切含まない)のために設計されており、その一般化はオープン語彙シーンに制限される。 本稿では,両シーンのロバストな視覚グランド化を実現するために,コンテキスト・アンテングリングとプロトタイプを継承した新しいフレームワークを提案する。 具体的には、コンテキストは参照特徴とコンテキスト特徴を分離し、それらの区別をより良くする。 プロトタイプは、特にオープン・ボキャブラリ・シーンにおいて、そのデータを完全に活用するために、プロトタイプバンクが切り離した視覚特徴から発見したプロトタイプを継承する。 両タイプの特徴間の重要度を鮮明に調整するのを避けるため,プロトタイプの言語的特徴と視覚的特徴にアダマール積を利用して得られた融合特徴を特別なトークンでアタッチし,ボックス回帰のための視覚トランスフォーマーエンコーダに供給する。 スタンダードシーンとオープンボキャブラリーシーンの両方で広範な実験が行われている。 性能比較の結果,本手法は両シナリオにおいて最先端の手法よりも優れていた。 コードはhttps://github.com/waynetomas/transcpで入手できる。

Visual grounding (VG) aims to locate a specific target in an image based on a given language query. The discriminative information from context is important for distinguishing the target from other objects, particularly for the targets that have the same category as others. However, most previous methods underestimate such information. Moreover, they are usually designed for the standard scene (without any novel object), which limits their generalization to the open-vocabulary scene. In this paper, we propose a novel framework with context disentangling and prototype inheriting for robust visual grounding to handle both scenes. Specifically, the context disentangling disentangles the referent and context features, which achieves better discrimination between them. The prototype inheriting inherits the prototypes discovered from the disentangled visual features by a prototype bank to fully utilize the seen data, especially for the open-vocabulary scene. The fused features, obtained by leveraging Hadamard product on disentangled linguistic and visual features of prototypes to avoid sharp adjusting the importance between the two types of features, are then attached with a special token and feed to a vision Transformer encoder for bounding box regression. Extensive experiments are conducted on both standard and open-vocabulary scenes. The performance comparisons indicate that our method outperforms the state-of-the-art methods in both scenarios. {The code is available at https://github.com/WayneTomas/TransCP.
翻訳日:2023-12-20 16:26:26 公開日:2023-12-19
# 垂直的記号回帰

Vertical Symbolic Regression ( http://arxiv.org/abs/2312.11955v1 )

ライセンス: Link先を確認
Nan Jiang, Md Nasim, Yexiang Xue(参考訳) 科学発見の自動化は人工知能(AI)の大目標であり、社会に多大な影響を及ぼすだろう。 実験データから記号表現を学ぶことは、AIによる科学的発見の重要なステップである。 エキサイティングな進歩にもかかわらず、ほとんどの試みは水平な発見経路、すなわち全ての独立変数を含む完全な仮説空間における最良の表現を直接探索することに焦点を当ててきた。 すべての独立変数を含む指数的に大きな仮説空間のため、水平経路は困難である。 本稿では,記号回帰を早めるための垂直的記号回帰(vsr)を提案する。 VSRは、残りの変数を一定に保持する制御実験において、いくつかの独立変数を含む単純な式を適合させることから始まる。 その後、新しい独立変数を追加し、これらの変数を変更できるように新しい制御変数実験を使用することで、以前のラウンドで学んだ式を拡張する。 垂直探索の最初の数ステップは水平経路よりもかなり安価であり、その探索は小さな変数のセットを含む縮小された仮説空間にある。 その結果、垂直発見は、多くの寄与因子を持つ複素方程式を扱う際に、最先端の象徴的回帰アプローチを重ね合わせる可能性がある。 理論的には、VSRの探索空間は、表現のクラスを学ぶ際に水平アプローチの探索空間よりも指数関数的に小さくなることを示す。 実験的に、VSRは多くの独立変数を含むシンボリック表現の学習においていくつかのベースラインを上回っている。

Automating scientific discovery has been a grand goal of Artificial Intelligence (AI) and will bring tremendous societal impact. Learning symbolic expressions from experimental data is a vital step in AI-driven scientific discovery. Despite exciting progress, most endeavors have focused on the horizontal discovery paths, i.e., they directly search for the best expression in the full hypothesis space involving all the independent variables. Horizontal paths are challenging due to the exponentially large hypothesis space involving all the independent variables. We propose Vertical Symbolic Regression (VSR) to expedite symbolic regression. The VSR starts by fitting simple expressions involving a few independent variables under controlled experiments where the remaining variables are held constant. It then extends the expressions learned in previous rounds by adding new independent variables and using new control variable experiments allowing these variables to vary. The first few steps in vertical discovery are significantly cheaper than the horizontal path, as their search is in reduced hypothesis spaces involving a small set of variables. As a consequence, vertical discovery has the potential to supercharge state-of-the-art symbolic regression approaches in handling complex equations with many contributing factors. Theoretically, we show that the search space of VSR can be exponentially smaller than that of horizontal approaches when learning a class of expressions. Experimentally, VSR outperforms several baselines in learning symbolic expressions involving many independent variables.
翻訳日:2023-12-20 16:26:02 公開日:2023-12-19
# Adversarial AutoMixup

Adversarial AutoMixup ( http://arxiv.org/abs/2312.11954v1 )

ライセンス: Link先を確認
Huafeng Qin, Xin Jin, Yun Jiang, Mounim A. El-Yacoubi, Xinbo Gao(参考訳) データ混合強化はディープニューラルネットワークの一般化能力向上に広く応用されている。 近年,ハンドクラフトやサリエンシー情報に基づくミックスアップなどのオフラインデータ混合が,自動混合方式に置き換えられつつある。 2つのサブタスク、すなわち混合サンプル生成と混合分類をエンドツーエンドで最小化することにより、AutoMixは画像分類タスクの精度を大幅に向上する。 しかし,2つのサブタスクに対して最適化の目的が一致しているため,多種多様な混合サンプルの代わりに一貫したタスクを生成する傾向があり,目標タスクトレーニングに過度に適合する。 本稿では,画像分類のための頑健な分類器を訓練するために,画像分類器と混合サンプル生成器を最適化する,逆方向の自動混合処理手法であるAdAutomixupを提案する。 AdAutomixupは2つのモジュール、混合例生成器とターゲット分類器で構成される。 混合サンプルジェネレータは、ターゲット分類器に挑戦するハードミックス例を生成することを目的としており、ターゲット分類器の目的は、ハードミックス例から堅牢な特徴を学習して一般化を改善することである。 さらに,画像固有の意味の崩壊を防止するために,指数的移動平均(EMA)教師とコサイン類似性を導入し,AdAutomixupをエンドツーエンドにトレーニングする。 7つの画像ベンチマークの大規模な実験は、様々な分類シナリオにおいて、我々のアプローチが技術の状態より優れていることを一貫して証明している。

Data mixing augmentation has been widely applied to improve the generalization ability of deep neural networks. Recently, offline data mixing augmentation, e.g. handcrafted and saliency information-based mixup, has been gradually replaced by automatic mixing approaches. Through minimizing two sub-tasks, namely, mixed sample generation and mixup classification in an end-to-end way, AutoMix significantly improves accuracy on image classification tasks. However, as the optimization objective is consistent for the two sub-tasks, this approach is prone to generating consistent instead of diverse mixed samples, which results in overfitting for target task training. In this paper, we propose AdAutomixup, an adversarial automatic mixup augmentation approach that generates challenging samples to train a robust classifier for image classification, by alternatively optimizing the classifier and the mixup sample generator. AdAutomixup comprises two modules, a mixed example generator, and a target classifier. The mixed sample generator aims to produce hard mixed examples to challenge the target classifier while the target classifier`s aim is to learn robust features from hard mixed examples to improve generalization. To prevent the collapse of the inherent meanings of images, we further introduce an exponential moving average (EMA) teacher and cosine similarity to train AdAutomixup in an end-to-end way. Extensive experiments on seven image benchmarks consistently prove that our approach outperforms the state of the art in various classification scenarios.
翻訳日:2023-12-20 16:25:42 公開日:2023-12-19
# 非冗長クラスタリングのためのパラメータ自動選択

Automatic Parameter Selection for Non-Redundant Clustering ( http://arxiv.org/abs/2312.11952v1 )

ライセンス: Link先を確認
Collin Leiber and Dominik Mautz and Claudia Plant and Christian B\"ohm(参考訳) 高次元データセットは、しばしば異なる部分空間に複数の有意義なクラスタリングを含む。 例えば、オブジェクトは色、重み、サイズによってクラスタ化され、与えられたデータセットの異なる解釈が明らかになる。 様々なアプローチにより、そのような非冗長なクラスタリングを特定できる。 しかし、これらのメソッドのほとんどは、各サブスペースに対して期待されるサブスペースとクラスタの数を指定する必要がある。 これらの値を述べることは自明な問題であり、通常、入力データセットの詳細な知識を必要とする。 本稿では,最小記述長原理(MDL)を用いて,サブスペース当たりのサブスペース数やクラスタ数を自動的に検出するフレームワークを提案する。 本稿では,部分空間とクラスタを分割・融合することにより,パラメータ空間をゆるやかに探索する効率的な手順について述べる。 さらに、各部分空間の外れ値を検出するエンコーディング戦略も導入されています。 広範な実験により,我々のアプローチは最先端の手法と高い競合性を示している。

High-dimensional datasets often contain multiple meaningful clusterings in different subspaces. For example, objects can be clustered either by color, weight, or size, revealing different interpretations of the given dataset. A variety of approaches are able to identify such non-redundant clusterings. However, most of these methods require the user to specify the expected number of subspaces and clusters for each subspace. Stating these values is a non-trivial problem and usually requires detailed knowledge of the input dataset. In this paper, we propose a framework that utilizes the Minimum Description Length Principle (MDL) to detect the number of subspaces and clusters per subspace automatically. We describe an efficient procedure that greedily searches the parameter space by splitting and merging subspaces and clusters within subspaces. Additionally, an encoding strategy is introduced that allows us to detect outliers in each subspace. Extensive experiments show that our approach is highly competitive to state-of-the-art methods.
翻訳日:2023-12-20 16:25:16 公開日:2023-12-19
# 拡張バイナリ分類器のためのトポロジーのUrysohn Lemmaの利用

Leveraging the Urysohn Lemma of Topology for an Enhanced Binary Classifier ( http://arxiv.org/abs/2312.11948v1 )

ライセンス: Link先を確認
Ernesto Lopez Fune(参考訳) 本稿では, urysohn分類器のバイナリ分類コンテキストにおける包括的解析について述べる。 urysohnのトポロジーの補題を利用して分離関数を構築し、厳密で適応可能な解を提供する。 数値実験では、95%から100%のスコアで異常な性能を示した。 特に、Urysohnの分類器は様々なシナリオでCatBoostとKNNを上回った。 p-metricパラメータに対する感度にもかかわらず、堅牢で適応可能であることが証明された。 Urysohnの分類器の数学的厳密さと適応性は、医学的診断、不正検出、サイバーセキュリティに応用する二項分類を約束する。 将来の研究にはパラメータ最適化と、ユリソーンの分類器と他の手法を組み合わせることが含まれる。 分類に対するエレガントで原則化されたアプローチを提供し、整合性と価値あるデータ洞察を保証します。

In this article we offer a comprehensive analysis of the Urysohn's classifier in a binary classification context. It utilizes Urysohn's Lemma of Topology to construct separating functions, providing rigorous and adaptable solutions. Numerical experiments demonstrated exceptional performance, with scores ranging from 95% to 100%. Notably, the Urysohn's classifier outperformed CatBoost and KNN in various scenarios. Despite sensitivity to the p-metric parameter, it proved robust and adaptable. The Urysohn's classifier's mathematical rigor and adaptability make it promising for binary classification, with applications in medical diagnosis, fraud detection and cyber security. Future research includes parameter optimization and combining the Urysohn's classifier with other techniques. It offers an elegant and principled approach to classification, ensuring integrity and valuable data insights.
翻訳日:2023-12-20 16:25:00 公開日:2023-12-19
# 不均一グラフに基づく文脈モデルを用いた会話音声合成のための感情表現

Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling ( http://arxiv.org/abs/2312.11947v1 )

ライセンス: Link先を確認
Rui Liu, Yifan Hu, Yi Ren, Xiang Yin, Haizhou Li(参考訳) 会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。 cssタスクの重要性を認識しつつ、感情対話型データセットの不足やステートフルな感情モデリングの難しさなど、感情表現性の問題を十分に検討していない。 本稿では,ecssと呼ばれる,2つの主成分を含む新しい感情的cssモデルを提案する。 1)感情理解を強化するために,多元対話履歴を入力とし,対話コンテキストをモデル化し,文脈から感情の手がかりを学習する,ヘテロジニアスグラフに基づく感情コンテキストモデリング機構を導入する。 2) 感情表現を実現するために, 目標発話の正確な感情スタイルを推定するために, コントラスト学習に基づく感情描画モジュールを用いる。 データ不足の問題に対処するため、カテゴリと強度の観点から感情ラベルを慎重に作成し、既存の会話データセット(DailyTalk)に付加的な感情情報を注釈する。 主観的評価と主観的評価の両方は、我々のモデルが感情の理解と表現においてベースラインモデルより優れていることを示唆している。 これらの評価は、包括的な感情的アノテーションの重要性も強調する。 コードとオーディオサンプルは、https://github.com/walker-hyf/ecssで見ることができる。

Conversational Speech Synthesis (CSS) aims to accurately express an utterance with the appropriate prosody and emotional inflection within a conversational setting. While recognising the significance of CSS task, the prior studies have not thoroughly investigated the emotional expressiveness problems due to the scarcity of emotional conversational datasets and the difficulty of stateful emotion modeling. In this paper, we propose a novel emotional CSS model, termed ECSS, that includes two main components: 1) to enhance emotion understanding, we introduce a heterogeneous graph-based emotional context modeling mechanism, which takes the multi-source dialogue history as input to model the dialogue context and learn the emotion cues from the context; 2) to achieve emotion rendering, we employ a contrastive learning-based emotion renderer module to infer the accurate emotion style for the target utterance. To address the issue of data scarcity, we meticulously create emotional labels in terms of category and intensity, and annotate additional emotional information on the existing conversational dataset (DailyTalk). Both objective and subjective evaluations suggest that our model outperforms the baseline models in understanding and rendering emotions. These evaluations also underscore the importance of comprehensive emotional annotations. Code and audio samples can be found at: https://github.com/walker-hyf/ECSS.
翻訳日:2023-12-20 16:24:48 公開日:2023-12-19
# スポラディックSICのさらなる取り組み

Further Exercises about Sporadic SICs ( http://arxiv.org/abs/2312.11946v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) 量子情報理論の最近の技術発展について,エクササイズの形で記述することで概観する。

I review some recent technical developments in quantum information theory by rephrasing them in the form of exercises.
翻訳日:2023-12-20 16:24:27 公開日:2023-12-19
# 不完全発話書き換えのための多面的情報インタラクションフレームワーク

Multi-Granularity Information Interaction Framework for Incomplete Utterance Rewriting ( http://arxiv.org/abs/2312.11945v1 )

ライセンス: Link先を確認
Haowei Du, Dingyu Zhang, Chen Li, Yang Li, Dongyan Zhao(参考訳) Incomplete Utterance Rewriting (IUR) の最近のアプローチでは、不完全な発話を編集し、無関係な発話から単語を導入する上で重要な重要な単語のソースを捕捉できない。 本稿では,コンテキスト選択,編集行列構築,関連づけを含む,新しい効果的なマルチタスク情報インタラクションフレームワークを提案する。 提案手法は,関連する発話の抽出と重要な単語の抽出に適しており,この分野ではRecovery-200KとCANANDの2つのベンチマークデータセット上で,既存の最先端モデルよりも優れている。 コードは \url{https://github.com/yanmenxue/QR} で提供される。

Recent approaches in Incomplete Utterance Rewriting (IUR) fail to capture the source of important words, which is crucial to edit the incomplete utterance, and introduce words from irrelevant utterances. We propose a novel and effective multi-task information interaction framework including context selection, edit matrix construction, and relevance merging to capture the multi-granularity of semantic information. Benefiting from fetching the relevant utterance and figuring out the important words, our approach outperforms existing state-of-the-art models on two benchmark datasets Restoration-200K and CANAND in this field. Code will be provided on \url{https://github.com/yanmenxue/QR}.
翻訳日:2023-12-20 16:24:24 公開日:2023-12-19
# 競合ネットワークにおけるマルチエージェント学習の安定性:カオスの開始を遅らせる

Stability of Multi-Agent Learning in Competitive Networks: Delaying the Onset of Chaos ( http://arxiv.org/abs/2312.11943v1 )

ライセンス: Link先を確認
Aamal Hussain and Francesco Belardinelli(参考訳) 競合ネットワークゲームにおけるマルチエージェント学習の振る舞いは、収束保証が得られるゼロサムゲームの文脈内でしばしば研究される。 しかし、このクラス以外では、学習の振る舞いは複雑な振る舞いを示すことが知られており、収束は常に保証されない。 それにもかかわらず、競争環境におけるマルチエージェント学習の行動の完全な図を作成するためには、ゼロサム仮定を解除する必要がある。 競争ネットワークゲームにおけるマルチエージェント学習における探索と活用の一般的なモデルであるQ-Learning dynamicsについて検討する。 コンペティション,探索,ネットワーク接続の程度がQラーニングの収束にどのように影響するかを決定する。 汎用競争ゲームを研究するために,エージェントペイオフ間の相関関係からネットワークゲームをパラメータ化し,このパラメータの選択から引き出された全てのゲームにおけるQラーニングダイナミクスの平均的挙動について検討する。 この統計的アプローチは、Q-ラーニング力学が安定な固定点に収束するパラメータの選択を確立する。 従来の研究とは異なり、q-learningの安定性はエージェントの総数ではなくネットワーク接続のみに依存することが判明した。 実験により, ネットワーク構造下では, 不安定な動作やカオスな動作の可能性を増大させることなく, エージェントの総数を増大させることができることが示された。

The behaviour of multi-agent learning in competitive network games is often studied within the context of zero-sum games, in which convergence guarantees may be obtained. However, outside of this class the behaviour of learning is known to display complex behaviours and convergence cannot be always guaranteed. Nonetheless, in order to develop a complete picture of the behaviour of multi-agent learning in competitive settings, the zero-sum assumption must be lifted. Motivated by this we study the Q-Learning dynamics, a popular model of exploration and exploitation in multi-agent learning, in competitive network games. We determine how the degree of competition, exploration rate and network connectivity impact the convergence of Q-Learning. To study generic competitive games, we parameterise network games in terms of correlations between agent payoffs and study the average behaviour of the Q-Learning dynamics across all games drawn from a choice of this parameter. This statistical approach establishes choices of parameters for which Q-Learning dynamics converge to a stable fixed point. Differently to previous works, we find that the stability of Q-Learning is explicitly dependent only on the network connectivity rather than the total number of agents. Our experiments validate these findings and show that, under certain network structures, the total number of agents can be increased without increasing the likelihood of unstable or chaotic behaviours.
翻訳日:2023-12-20 16:24:11 公開日:2023-12-19
# スキルかデグレか? AIとグリーンジョブのためのスキルベース採用の台頭

Skills or Degree? The Rise of Skill-Based Hiring for AI and Green Jobs ( http://arxiv.org/abs/2312.11942v1 )

ライセンス: Link先を確認
Eugenia Gonzalez Ehlinger, Fabian Stephany(参考訳) 人工知能(AI)や持続可能性(グリーン)の分野における仕事のような新興の職業では、労働供給は産業の需要を満たしない。 労働不足というシナリオでは、雇用者が採用の正式な資格よりも個々のスキルに注目し始めたかを理解することを目的としています。 2019年から2022年にかけて、英国から約100万のオンライン職種に関する大規模な時系列データセットを分析し、技術変革と労働市場のシグナリングに関するさまざまな文献を分析した結果、雇用主がAIとグリーンロールのいわゆる“スキルベースの雇用”を開始したという証拠が得られました。 観察期間中、AIの役割の需要は平均労働需要の2倍に増加した。 同時に、AI職の大学教育への言及は23%減少し、AI職は求職者の平均の5倍のスキルを宣伝した。 我々のレグレッション分析は、大学学位がもはやAIの役割の教育プレミアムを示していないことを示し、グリーンポジションでは教育プレミアムが持続していることを示している。 対照的に、AIスキルの賃金は16%であり、PhD(17%)と同様である。 私たちの研究は、見習い、現場でのトレーニング、mooc、職業教育とトレーニング、マイクロ認定、オンラインブートキャンプといった代替スキル構築フォーマットの利用を推奨しています。

For emerging professions, such as jobs in the field of Artificial Intelligence (AI) or sustainability (green), labour supply does not meet industry demand. In this scenario of labour shortages, our work aims to understand whether employers have started focusing on individual skills rather than on formal qualifications in their recruiting. By analysing a large time series dataset of around one million online job vacancies between 2019 and 2022 from the UK and drawing on diverse literature on technological change and labour market signalling, we provide evidence that employers have started so-called "skill-based hiring" for AI and green roles, as more flexible hiring practices allow them to increase the available talent pool. In our observation period the demand for AI roles grew twice as much as average labour demand. At the same time, the mention of university education for AI roles declined by 23%, while AI roles advertise five times as many skills as job postings on average. Our regression analysis also shows that university degrees no longer show an educational premium for AI roles, while for green positions the educational premium persists. In contrast, AI skills have a wage premium of 16%, similar to having a PhD (17%). Our work recommends making use of alternative skill building formats such as apprenticeships, on-the-job training, MOOCs, vocational education and training, micro-certificates, and online bootcamps to use human capital to its full potential and to tackle talent shortages.
翻訳日:2023-12-20 16:23:49 公開日:2023-12-19
# 深い神経量子状態における絡み合い遷移

Entanglement transition in deep neural quantum states ( http://arxiv.org/abs/2312.11941v1 )

ライセンス: Link先を確認
Giacomo Passetti and Dante M. Kennes(参考訳) 神経量子状態の巨大な理論的ポテンシャルにもかかわらず、汎用的で高相関の量子多体系を記述する上での使用は、実際的な困難を引き起こすことが多い。 カスタムネットワークアーキテクチャは、これらの問題に対処するために活発に調査されている。 適切なネットワークアーキテクチャのガイド付き検索では、ニューラルネットワークの特性と、記述しようとしている物理システムの属性とのリンクを深く理解することが不可欠である。 機械学習の分野からインスピレーションを得たこの研究は、ディープニューラルネットワークにおける情報の伝播がディープニューラルネットワーク量子状態の物理的絡み合い特性にどのように影響するかを示す。 実際、ニューラルネットワークの予め特定された情報伝達相転移と、神経量子状態におけるエンタングルメントの同様の遷移をリンクする。 このブリッジにより、領域と体積法が絡み合った状態を表すために最適な神経量子状態ハイパーパラメーターレギュレーションを特定できる。 前者はテンソルネットワーク表現のような別の方法によって、少なくとも低次元において容易にアクセスされ、後者は、その広範囲な量子的絡み合いのために一般的に記述することが困難である。 量子状態の正確な表現に対するネットワーク構成の理解の進歩は、体積則量子状態を扱う効果的な表現を開発するのに役立ち、これらの知見を次亜音速スピン-1/2ハイゼンベルク模型の基底状態(領域法状態)と励起状態(体積法状態)の性質を記述するために応用する。

Despite the huge theoretical potential of neural quantum states, their use in describing generic, highly-correlated quantum many-body systems still often poses practical difficulties. Customized network architectures are under active investigation to address these issues. For a guided search of suited network architectures a deepened understanding of the link between neural network properties and attributes of the physical system one is trying to describe, is imperative. Drawing inspiration from the field of machine learning, in this work we show how information propagation in deep neural networks impacts the physical entanglement properties of deep neural quantum states. In fact, we link a previously identified information propagation phase transition of a neural network to a similar transition of entanglement in neural quantum states. With this bridge we can identify optimal neural quantum state hyperparameter regimes for representing area as well as volume law entangled states. The former are easily accessed by alternative methods, such as tensor network representations, at least in low physical dimensions, while the latter are challenging to describe generally due to their extensive quantum entanglement. This advance of our understanding of network configurations for accurate quantum state representation helps to develop effective representations to deal with volume-law quantum states, and we apply these findings to describe the ground state (area law state) vs. the excited state (volume law state) properties of the prototypical next-nearest neighbor spin-1/2 Heisenberg model.
翻訳日:2023-12-20 16:23:22 公開日:2023-12-19
# 偽陰性とクラス不均衡に対する時系列コントラスト学習

Time-Series Contrastive Learning against False Negatives and Class Imbalance ( http://arxiv.org/abs/2312.11939v1 )

ライセンス: Link先を確認
Xiyuan Jin, Jing Wang, Lei Liu, Youfang Lin(参考訳) 表現学習における模範的な自己指導的アプローチとして、時系列コントラスト学習は現代研究において顕著な進歩を見せている。 近年のコントラスト学習戦略では,適切な正と負の構成に焦点が当てられているが,本研究では理論的分析を行い,情報損失ベースのフレームワークに内在する誤負とクラス不均衡という根本的な問題を見落としている。 そこで、インスタンス識別タスクに係わるモデルに普遍的に適応可能なsimclrフレームワークに基礎を置く簡単な修正を導入する。 インスタンス間の対話的学習を容易にするためにインスタンスグラフを構築することにより、複数インスタンス識別タスクを通じて教師付きコントラスト学習をエミュレートし、偽陰性の有害な影響を軽減する。 さらに,グラフ構造と少ないラベルデータを活用することで,半教師付き一貫性分類を行い,マイノリティクラスを代表する能力を高める。 本手法を4つの実世界の時系列データセットにおける最も一般的な時系列コントラスト学習手法と比較し,全体的な性能において有意な利点を実証した。

As an exemplary self-supervised approach for representation learning, time-series contrastive learning has exhibited remarkable advancements in contemporary research. While recent contrastive learning strategies have focused on how to construct appropriate positives and negatives, in this study, we conduct theoretical analysis and find they have overlooked the fundamental issues: false negatives and class imbalance inherent in the InfoNCE loss-based framework. Therefore, we introduce a straightforward modification grounded in the SimCLR framework, universally adaptable to models engaged in the instance discrimination task. By constructing instance graphs to facilitate interactive learning among instances, we emulate supervised contrastive learning via the multiple-instances discrimination task, mitigating the harmful impact of false negatives. Moreover, leveraging the graph structure and few-labeled data, we perform semi-supervised consistency classification and enhance the representative ability of minority classes. We compared our method with the most popular time-series contrastive learning methods on four real-world time-series datasets and demonstrated our significant advantages in overall performance.
翻訳日:2023-12-20 16:22:57 公開日:2023-12-19
# DMT : 複数の教師による包括的蒸留

DMT: Comprehensive Distillation with Multiple Self-supervised Teachers ( http://arxiv.org/abs/2312.11938v1 )

ライセンス: Link先を確認
Yuang Liu, Jing Wang, Qiang Zhou, Fan Wang, Jun Wang, Wei Zhang(参考訳) コントラスト学習やマスク画像モデリングなど,多くの自己指導型学習パラダイムが,ラベルのないデータから強力で汎用的な表現を取得するために提案されている。 しかしながら、これらのモデルは特定のフレームワーク内でのみ事前訓練されており、視覚表現の相補的な性質を考慮できない。 この課題に対処するために,本研究では,既訓練モデル圧縮のための包括的自己教師型教員 (DMT) を導入した。 評価実験の結果,提案手法は最先端の競争相手をはるかに上回り,効率の指標は良好であった。 分類タスクにおいて,3つの教師によるVT-Base教師を用いたDMTフレームワークは,小・小モデルとベースモデル自体の性能を向上させる。 密集タスクでは、DMTはMS-COCOおよびADE20Kデータセット上の標準SSLモデルのAP/mIoUを4.0%上昇させる。

Numerous self-supervised learning paradigms, such as contrastive learning and masked image modeling, have been proposed to acquire powerful and general representations from unlabeled data. However, these models are commonly pretrained within their specific framework alone, failing to consider the complementary nature of visual representations. To tackle this issue, we introduce Comprehensive Distillation with Multiple Self-supervised Teachers (DMT) for pretrained model compression, which leverages the strengths of multiple off-the-shelf self-supervised models. Our experimental results on prominent benchmark datasets exhibit that the proposed method significantly surpasses state-of-the-art competitors while retaining favorable efficiency metrics. On classification tasks, our DMT framework utilizing three different self-supervised ViT-Base teachers enhances the performance of both small/tiny models and the base model itself. For dense tasks, DMT elevates the AP/mIoU of standard SSL models on MS-COCO and ADE20K datasets by 4.0%.
翻訳日:2023-12-20 16:22:34 公開日:2023-12-19
# 言語モデルと確率論的推論を用いたアクティブな推論

Active Preference Inference using Language Models and Probabilistic Reasoning ( http://arxiv.org/abs/2312.12009v1 )

ライセンス: Link先を確認
Top Piriyakulkij, Volodymyr Kuleshov, Kevin Ellis(参考訳) 例えば、良い質問をすることで、ユーザーの好みを積極的に推測することは、人間向きの意思決定システムにとって重要である。 アクティブな推論により、そのようなシステムは個々の好みに適応し、パーソナライズすることができる。 インストラクションチューニングされた大規模言語モデル(LLM)のこの機能を実現するために、ユーザに好みを推測するよう求め、言語モデルをより堅牢でインタラクティブなシステムに変換する。 しかし、最初からこれらのモデルは好みを抽出するのに効率的ではなく、それらが生成する質問は情報的ではなく、多くのユーザインタラクションが必要であり、下流システムのユーザビリティを損なう。 本研究では,LLMがより情報に富んだ質問を用いて素早く選好を推測するのに役立つ推論時アルゴリズムを提案する。 提案アルゴリズムは, LLMを誘導することで条件分布が定義される確率モデルを用いて, 期待エントロピーと予測モデル変化を最適化する質問を返す。 その結果,実製品アイテムを用いた簡易な対話型 web ショッピング環境において,エントロピー削減アルゴリズムを備えた llm が,ユーザインタラクションを少なくしつつ,タスクパフォーマンスに同じ llm を持つベースラインよりも優れていることがわかった。

Actively inferring user preferences, for example by asking good questions, is important for any human-facing decision-making system. Active inference allows such systems to adapt and personalize themselves to nuanced individual preferences. To enable this ability for instruction-tuned large language models (LLMs), one may prompt them to ask users questions to infer their preferences, transforming the language models into more robust, interactive systems. However, out of the box, these models are not efficient at extracting preferences: the questions they generate are not informative, requiring a high number of user interactions and impeding the usability of the downstream system. In this work, we introduce an inference-time algorithm that helps LLMs quickly infer preferences by using more informative questions. Our algorithm uses a probabilistic model whose conditional distributions are defined by prompting an LLM, and returns questions that optimize expected entropy and expected model change. Results in a simplified interactive web shopping setting with real product items show that an LLM equipped with our entropy reduction algorithm outperforms baselines with the same underlying LLM on task performance while using fewer user interactions.
翻訳日:2023-12-20 16:15:43 公開日:2023-12-19
# ChatGPTはあなたのパーソナル医療アシスタントになれるか?

Can ChatGPT be Your Personal Medical Assistant? ( http://arxiv.org/abs/2312.12006v1 )

ライセンス: Link先を確認
Md. Rafiul Biswas, Ashhadul Islam, Zubair Shah, Wajdi Zaghouani, Samir Brahim Belhaouari(参考訳) 先進的な大言語モデル(LLM) ChatGPT は異なる領域でその可能性を示しており、他の LLM と比較するとその特性のため、まだ勝てない。 本研究の目的は、アラビア語の個人医療アシスタントとして、微調整ChatGPTモデルを使用することの可能性を評価することである。 そこで本研究では,インターネット上で公開されている質問や,アラビア語のデータセットに回答する。 約430万の質問と20の病種に対する回答がある。 GPT-3.5-turboモデルは、このデータセットの一部を微調整した。 この微調整モデルの性能は, 自動評価と人的評価により評価した。 自動評価には、パープレキシティ、コヒーレンス、類似性、トークン数が含まれる。 医療知識を持つアラビア語話者は、関連性、正確性、正確性、論理性、独創性を計算し、生成したテキストを評価した。 全体として、ChatGPTは医療支援において明るい未来があることを示している。

The advanced large language model (LLM) ChatGPT has shown its potential in different domains and remains unbeaten due to its characteristics compared to other LLMs. This study aims to evaluate the potential of using a fine-tuned ChatGPT model as a personal medical assistant in the Arabic language. To do so, this study uses publicly available online questions and answering datasets in Arabic language. There are almost 430K questions and answers for 20 disease-specific categories. GPT-3.5-turbo model was fine-tuned with a portion of this dataset. The performance of this fine-tuned model was evaluated through automated and human evaluation. The automated evaluations include perplexity, coherence, similarity, and token count. Native Arabic speakers with medical knowledge evaluated the generated text by calculating relevance, accuracy, precision, logic, and originality. The overall result shows that ChatGPT has a bright future in medical assistance.
翻訳日:2023-12-20 16:15:24 公開日:2023-12-19
# 低コストセンサを用いたブジュムラの微粒子物質動態のモデル化とキャラクタリゼーション

Modelling and characterization of fine Particulate Matter dynamics in Bujumbura using low cost sensors ( http://arxiv.org/abs/2312.12003v1 )

ライセンス: Link先を確認
Egide Ndamuzi, Rachel Akimana, Paterne Gahungu, and Elie Bimenyimana(参考訳) 大気汚染は自然と人為的な活動を含む複数の資源の結果として起こる。 ブジュンブラ経済首都ブルンジのような都市の急速な都市化は、これらの要因の1つである。 ブジュンブラ市におけるPM2.5の時空間変動とPM2.5濃度の予測を,8月2022日から8月2023日までの1年間に収集したデータを用いて,ブジュンブラ市に設置した低コストセンサを用いて行った。 各コミューンについて, 日毎, 季節毎の1時間分析を行い, 3市町村におけるPM2.5の大量濃度が他のコミューンと異なることを示した。 PM2.5濃度は世界保健機関の基準を超えている。 範囲は28.3から35.0マイクログラム/m3。 PM2.5濃度を予測するため,Long Short Term Memory (LSTM) を用いたRNNの検討が進められている。

Air pollution is a result of multiple sources including both natural and anthropogenic activities. The rapid urbanization of the cities such as Bujumbura economic capital of Burundi, is one of these factors. The very first characterization of the spatio-temporal variability of PM2.5 in Bujumbura and the forecasting of PM2.5 concentration have been conducted in this paper using data collected during a year, from august 2022 to august 2023, by low cost sensors installed in Bujumbura city. For each commune, an hourly, daily and seasonal analysis were carried out and the results showed that the mass concentrations of PM2.5 in the three municipalities differ from one commune to another. The average hourly and annual PM2.5 concentrations exceed the World Health Organization standards. The range is between 28.3 and 35.0 microgram/m3 . In order to make prediction of PM2.5 concentration, an investigation of RNN with Long Short Term Memory (LSTM) has been undertaken.
翻訳日:2023-12-20 16:15:09 公開日:2023-12-19
# エンタープライズマイクロサービスにおけるGoroutineリークの発見と回避 - 動的分析アプローチ

Unveiling and Vanquishing Goroutine Leaks in Enterprise Microservices: A Dynamic Analysis Approach ( http://arxiv.org/abs/2312.12002v1 )

ライセンス: Link先を確認
Georgian-Vlad Saioc, Dmitriy Shirchenko, Milind Chabbi(参考訳) Goは現代のプログラミング言語であり、エンタープライズマイクロサービスシステムで人気を博している。 ConcurrencyはGoの第一級市民で、軽量な‘goroutines’を並列実行のビルディングブロックとして持つ。 Goはメッセージパッシングを提唱し、Goroutine間で通信し、同期する。 これは、ブロックされた送信側(受信側)が対応する受信側(sender)を見つけず、ブロックされたgoroutineがそのコールスタックとスタックから到達可能なオブジェクトを介してメモリをリークする、微妙な並行性のバグである。 本稿では,2500以上のマイクロサービスをホストするuberのgo monorepoの7500万行において,メッセージパッシングと結果として生じる部分デッドロックの発生状況について体系的に検討する。 GoleakとLeakProfという,部分的なデッドロックを特定するための2つの軽量な動的解析ツールを開発しました。 goleakはユニットテスト中に部分的なデッドロックを検出し、新しいバグの発生を防ぐ。 逆にLeakProfは、運用環境にデプロイされたサービスから得られたゴロインプロファイルを使用して、複雑な制御フローや探索されていないインターリーブ、テストカバレッジの欠如に起因する複雑なバグを特定できる。 私たちは、これらのツールを大きな産業環境で開発者ワークフローにデプロイした経験と洞察を共有しています。 goleakを使って、レガシーコードの既存のgoroutineリークを857件発見し、1年間で約260件の新たなリークが発生するのを防いだ。 leakprofを使用することで,24と21のgoroutineリークが修正され,最大34%のスピードアップと9.2倍のメモリ削減を実現しました。

Go is a modern programming language gaining popularity in enterprise microservice systems. Concurrency is a first-class citizen in Go with lightweight ``goroutines'' as the building blocks of concurrent execution. Go advocates message-passing to communicate and synchronize among goroutines. Improper use of message passing in Go can result in ``partial deadlocks'' , a subtle concurrency bug where a blocked sender (receiver) never finds a corresponding receiver (sender), causing the blocked goroutine to leak memory, via its call stack and objects reachable from the stack. In this paper, we systematically study the prevalence of message passing and the resulting partial deadlocks in 75 million lines of Uber's Go monorepo hosting over 2500 microservices. We develop two lightweight, dynamic analysis tools: Goleak and LeakProf, designed to identify partial deadlocks. Goleak detects partial deadlocks during unit testing and prevents the introduction of new bugs. Conversely, LeakProf uses goroutine profiles obtained from services deployed in production to pinpoint intricate bugs arising from complex control flow, unexplored interleavings, or the absence of test coverage. We share our experience and insights deploying these tools in developer workflows in a large industrial setting. Using Goleak we unearthed 857 pre-existing goroutine leaks in the legacy code and prevented the introduction of around 260 new leaks over one year period. Using LeakProf we found 24 and fixed 21 goroutine leaks, which resulted in up to 34% speedup and 9.2x memory reduction in some of our production services.
翻訳日:2023-12-20 16:14:51 公開日:2023-12-19
# ラベリングを減らした半監督ドメイン適応のためのさらなるオブジェクトの拡散

Diffusing More Objects for Semi-Supervised Domain Adaptation with Less Labeling ( http://arxiv.org/abs/2312.12000v1 )

ライセンス: Link先を確認
Leander van den Heuvel, Gertjan Burghouts, David W. Zhang, Gwenn Englebienne, Sabina B. van Rooij(参考訳) 物体検出では、境界ボックスの予測を逆拡散過程として見ることができる。 拡散モデルを用いて、ランダムバウンディングボックスは、画像上に条件付けされたデノイジングステップで反復的に洗練される。 本稿では,確率的アキュムレータ関数を提案し,各実行をランダムなバウンディングボックスで開始する。 これが検出性能を向上させることを実証的に検証する。 改良された検出は、半教師付き学習のための重み付き擬似ラベルとして、ラベルなし画像に活用される。 本手法は,難解な領域外テストセット上で評価する。 提案手法は,人間の関与を必要とせず,人間の選択した擬似ラベルと同等な改善をもたらす。

For object detection, it is possible to view the prediction of bounding boxes as a reverse diffusion process. Using a diffusion model, the random bounding boxes are iteratively refined in a denoising step, conditioned on the image. We propose a stochastic accumulator function that starts each run with random bounding boxes and combines the slightly different predictions. We empirically verify that this improves detection performance. The improved detections are leveraged on unlabelled images as weighted pseudo-labels for semi-supervised learning. We evaluate the method on a challenging out-of-domain test set. Our method brings significant improvements and is on par with human-selected pseudo-labels, while not requiring any human involvement.
翻訳日:2023-12-20 16:14:22 公開日:2023-12-19
# マインドマップ生成のためのコリファレンスグラフガイダンス

Coreference Graph Guidance for Mind-Map Generation ( http://arxiv.org/abs/2312.11997v1 )

ライセンス: Link先を確認
Zhuowei Zhang, Mengting Hu, Yinhao Bai, Zhen Zhang(参考訳) mind-map生成は、ドキュメントを階層構造に処理して、その中心的なアイデアとブランチを示すことを目的としている。 このようなやり方は、平易なテキストよりも文書の論理や意味を理解するのに向いている。 近年、最先端の手法が文書の文を逐次エンコードし、シークエンス・トゥ・グラフを介して関係グラフに変換する。 この手法は並列にマインドマップを生成するのに効率的であるが、そのメカニズムは構造情報を取り込むことなくシーケンシャルな特徴に焦点を合わせている。 さらに、長距離意味関係をモデル化することは困難である。 本研究では,外部構造知識を取り入れたコア推論誘導マインドマップ生成ネットワーク(CMGN)を提案する。 具体的には、コリファレンス意味関係に基づくコリファレンスグラフを構築し、グラフ構造情報を導入する。 次にコア参照グラフエンコーダを用いて文間の潜在的支配関係を抽出する。 雑音を排除し、コア参照グラフの情報をよりよく活用するために、グラフ拡張モジュールを対照的な学習方法で採用する。 実験結果から,本モデルが既存手法より優れていることが示された。 このケーススタディは、我々のモデルが文書の構造と意味をより正確かつ簡潔に明らかにできることをさらに証明している。 コードとデータはhttps://github.com/cyno2232/cmgnで入手できる。

Mind-map generation aims to process a document into a hierarchical structure to show its central idea and branches. Such a manner is more conducive to understanding the logic and semantics of the document than plain text. Recently, a state-of-the-art method encodes the sentences of a document sequentially and converts them to a relation graph via sequence-to-graph. Though this method is efficient to generate mind-maps in parallel, its mechanism focuses more on sequential features while hardly capturing structural information. Moreover, it's difficult to model long-range semantic relations. In this work, we propose a coreference-guided mind-map generation network (CMGN) to incorporate external structure knowledge. Specifically, we construct a coreference graph based on the coreference semantic relationship to introduce the graph structure information. Then we employ a coreference graph encoder to mine the potential governing relations between sentences. In order to exclude noise and better utilize the information of the coreference graph, we adopt a graph enhancement module in a contrastive learning manner. Experimental results demonstrate that our model outperforms all the existing methods. The case study further proves that our model can more accurately and concisely reveal the structure and semantics of a document. Code and data are available at https://github.com/Cyno2232/CMGN.
翻訳日:2023-12-20 16:14:09 公開日:2023-12-19
# ユニバーサルモーションが先行する拡散騒音の最適化

Optimizing Diffusion Noise Can Serve As Universal Motion Priors ( http://arxiv.org/abs/2312.11994v1 )

ライセンス: Link先を確認
Korrawe Karunratanakul, Konpat Preechakul, Emre Aksan, Thabo Beeler, Supasorn Suwajanakorn, Siyu Tang(参考訳) 本研究では,既存の動き拡散モデルを動作優先として有効活用する新しい手法である拡散雑音最適化(dno)を提案する。 新しいタスクごとにタスク固有の拡散モデルをトレーニングする代わりに、dnoは既存の事前学習されたテキストとモーションモデルの拡散潜在ノイズを最適化する。 対応する人間の動きの潜在ノイズを仮定すると、拡散潜在ノイズを更新するために、動き空間で定義された目標基準から全ての消音過程を通じて勾配を伝搬する。 結果として、DNOは、基準を運動関数として定義できるあらゆるユースケースをサポートしている。 特に,モーション編集と制御では,dnoは目標達成とモーションコンテンツ保存の両方において既存の手法を上回っていることを示す。 dnoは、軌道変更、ポーズ変更、ジョイントロケーション、新しく追加された障害物回避など、さまざまな編集モードに対応している。 さらに、DNOは動きのデノゲーションと完了に有効であり、ノイズや部分的な入力から滑らかで現実的な動きを生み出す。 DNOは、モデル再訓練を必要とせずに、これらの結果を推論時に達成し、運動表現上の任意の定義された報酬や損失関数に対して大きな汎用性を提供する。

We propose Diffusion Noise Optimization (DNO), a new method that effectively leverages existing motion diffusion models as motion priors for a wide range of motion-related tasks. Instead of training a task-specific diffusion model for each new task, DNO operates by optimizing the diffusion latent noise of an existing pre-trained text-to-motion model. Given the corresponding latent noise of a human motion, it propagates the gradient from the target criteria defined on the motion space through the whole denoising process to update the diffusion latent noise. As a result, DNO supports any use cases where criteria can be defined as a function of motion. In particular, we show that, for motion editing and control, DNO outperforms existing methods in both achieving the objective and preserving the motion content. DNO accommodates a diverse range of editing modes, including changing trajectory, pose, joint locations, or avoiding newly added obstacles. In addition, DNO is effective in motion denoising and completion, producing smooth and realistic motion from noisy and partial inputs. DNO achieves these results at inference time without the need for model retraining, offering great versatility for any defined reward or loss function on the motion representation.
翻訳日:2023-12-20 16:13:49 公開日:2023-12-19
# Xpert: 大規模言語モデルによるクエリ勧告によるインシデント管理の強化

Xpert: Empowering Incident Management with Query Recommendations via Large Language Models ( http://arxiv.org/abs/2312.11988v1 )

ライセンス: Link先を確認
Yuxuan Jiang, Chaoyun Zhang, Shilin He, Zhihao Yang, Minghua Ma, Si Qin, Yu Kang, Yingnong Dang, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang(参考訳) 大規模クラウドシステムは、現代のITインフラにおいて重要な役割を果たす。 しかしながら、これらのシステム内で発生したインシデントは、サービスの障害を引き起こし、ユーザエクスペリエンスに悪影響を及ぼす可能性がある。 このようなインシデントを迅速に解決するには、オンコールエンジニアはテレメトリデータを分析するためにドメイン固有言語(DSL)クエリを作成する必要がある。 しかし、これらのクエリを書くのは困難で時間がかかります。 本稿では,Microsoft の大規模クラウド管理システムにおけるインシデント管理用 DSL である KQL のクエリ利用に関する実証的研究を行った。 その結果、インシデント管理を強化するため、KQLクエリレコメンデーションの重要性と実用性を強調した。 これらの貴重な洞察に基づいて、KQLレコメンデーションプロセスを自動化するエンドツーエンドの機械学習フレームワークであるXpertを紹介します。 過去のインシデントデータと大きな言語モデルを活用することで、Xpertは新しいインシデントに合わせてカスタマイズされたKQLクエリを生成する。 さらに、XpertはXcoreと呼ばれる新しいパフォーマンス指標を導入し、3つの総合的な視点からクエリ品質の徹底的な評価を可能にした。 我々はxpertを広範囲に評価し,オフライン環境での有効性を示す。 特に,microsoft の大規模インシデント管理システムの実運用環境に xpert をデプロイし,インシデント管理を支援する上での効率性を検証する。 我々の知る限り、本論文はこの種の実証的研究としては初めてのものであり、Xpertはインシデント管理用に設計されたDSLクエリレコメンデーションフレームワークである。

Large-scale cloud systems play a pivotal role in modern IT infrastructure. However, incidents occurring within these systems can lead to service disruptions and adversely affect user experience. To swiftly resolve such incidents, on-call engineers depend on crafting domain-specific language (DSL) queries to analyze telemetry data. However, writing these queries can be challenging and time-consuming. This paper presents a thorough empirical study on the utilization of queries of KQL, a DSL employed for incident management in a large-scale cloud management system at Microsoft. The findings obtained underscore the importance and viability of KQL queries recommendation to enhance incident management. Building upon these valuable insights, we introduce Xpert, an end-to-end machine learning framework that automates KQL recommendation process. By leveraging historical incident data and large language models, Xpert generates customized KQL queries tailored to new incidents. Furthermore, Xpert incorporates a novel performance metric called Xcore, enabling a thorough evaluation of query quality from three comprehensive perspectives. We conduct extensive evaluations of Xpert, demonstrating its effectiveness in offline settings. Notably, we deploy Xpert in the real production environment of a large-scale incident management system in Microsoft, validating its efficiency in supporting incident management. To the best of our knowledge, this paper represents the first empirical study of its kind, and Xpert stands as a pioneering DSL query recommendation framework designed for incident management.
翻訳日:2023-12-20 16:13:26 公開日:2023-12-19
# 大規模言語モデルからの気候変動

Climate Change from Large Language Models ( http://arxiv.org/abs/2312.11985v1 )

ライセンス: Link先を確認
Hongyin Zhu, Prayag Tiwari(参考訳) 気候変動は世界社会に重大な課題をもたらし、気候変動に対する広く認識を高め、低炭素生活をユーザに教育することが不可欠である。 人工知能、特に大規模言語モデル(LLM)は、気候危機を緩和し、その広範な知識、幅広いユーザーベース、自然言語相互作用能力を活用する強力なツールとして登場した。 しかし、気候変動に関する研究の活発化にもかかわらず、LLM内の気候危機知識に関する総合的な評価が欠如している。 本稿では,このギャップを解決するために,自動評価フレームワークを提案する。 我々は、データ合成と手作業による収集を組み合わせて、気候危機に関連するさまざまな質問をまとめるハイブリッドなアプローチを採用している。 これらの質問は、その原因、影響、緩和戦略、適応対策など、気候変動の様々な側面をカバーしている。 次に、収集した質問と生成した回答に基づいて、プロンプトエンジニアリングを通じてモデル知識を評価する。 10の異なる視点から指標を取り入れ,気候危機に関する知識を評価するための総合的な指標セットを提案する。 実験結果から,気候危機に関するLSMの知識を評価する上で,本手法が有効であることが示唆された。 我々は最先端llmをいくつか評価し,その知識が時間軸で不足していることを見いだした。

Climate change presents significant challenges to the global community, and it is imperative to raise widespread awareness of the climate crisis and educate users about low-carbon living. Artificial intelligence, particularly large language models (LLMs), have emerged as powerful tools in mitigating the climate crisis, leveraging their extensive knowledge, broad user base, and natural language interaction capabilities. However, despite the growing body of research on climate change, there is a lack of comprehensive assessments of climate crisis knowledge within LLMs. This paper aims to resolve this gap by proposing an automatic evaluation framework. We employ a hybrid approach to data acquisition that combines data synthesis and manual collection to compile a diverse set of questions related to the climate crisis. These questions cover various aspects of climate change, including its causes, impacts, mitigation strategies, and adaptation measures. We then evaluate the model knowledge through prompt engineering based on the collected questions and generated answers. We propose a set of comprehensive metrics to evaluate the climate crisis knowledge, incorporating indicators from 10 different perspectives. Experimental results show that our method is effective in evaluating the knowledge of LLMs regarding the climate crisis. We evaluate several state-of-the-art LLMs and find that their knowledge falls short in terms of timeliness.
翻訳日:2023-12-20 16:13:01 公開日:2023-12-19
# ゆらぎに基づく大規模言語モデルのための適応的pruning

Fluctuation-based Adaptive Structured Pruning for Large Language Models ( http://arxiv.org/abs/2312.11983v1 )

ライセンス: Link先を確認
Yongqi An, Xu Zhao, Tao Yu, Ming Tang, Jinqiao Wang(参考訳) Network Pruningは、LLM(Large Language Models)のデプロイメントと推論における巨大なコンピューティングリソース要求に対処する、有望な方法である。 LLMの刈り取りにはリトレーニングフリーが重要である。 しかし、LLMの既存のリトレーニングフリープルーニングアプローチのほとんどは、アクセラレーションのためのハードウェアサポートを必要とする非構造化プルーニングに焦点を当てている。 本稿では, FLAP (FLuctuation-based Adaptive Structured Pruning) という, LLM のための新しい学習不要な構造化プルーニングフレームワークを提案する。 ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。 llmの効果的な構造的プルーニングには,構造化重要度メトリクスの定式化,グローバル圧縮モデルの適応的探索,パフォーマンス損失を軽減するための補償機構の実装という,最も注意を要する3つの重要な要素が強調される。 まず、フラップは、ゆらぎプルーニング計量に基づいて、重みの列が取り除かれたときに出力特徴マップが容易に回復できるかどうかを判定する。 そして、重要度スコアを標準化し、グローバル圧縮モデル構造を適応的に決定する。 最後に、FLAPはベースライン値を使用して出力特徴写像を復元するためのバイアス項を追加する。 さまざまな言語ベンチマークに対するアプローチを徹底的に評価する。 LLM-Pruner や Wanda の拡張など,構造化プルーニングにおける最先端の手法よりも優れています。 コードはhttps://github.com/CASIA-IVA-Lab/FLAPで公開されている。

Network Pruning is a promising way to address the huge computing resource demands of the deployment and inference of Large Language Models (LLMs). Retraining-free is important for LLMs' pruning methods. However, almost all of the existing retraining-free pruning approaches for LLMs focus on unstructured pruning, which requires specific hardware support for acceleration. In this paper, we propose a novel retraining-free structured pruning framework for LLMs, named FLAP (FLuctuation-based Adaptive Structured Pruning). It is hardware-friendly by effectively reducing storage and enhancing inference speed. For effective structured pruning of LLMs, we highlight three critical elements that demand the utmost attention: formulating structured importance metrics, adaptively searching the global compressed model, and implementing compensation mechanisms to mitigate performance loss. First, FLAP determines whether the output feature map is easily recoverable when a column of weight is removed, based on the fluctuation pruning metric. Then it standardizes the importance scores to adaptively determine the global compressed model structure. At last, FLAP adds additional bias terms to recover the output feature maps using the baseline values. We thoroughly evaluate our approach on a variety of language benchmarks. Without any retraining, our method significantly outperforms the state-of-the-art methods, including LLM-Pruner and the extension of Wanda in structured pruning. The code is released at https://github.com/CASIA-IVA-Lab/FLAP.
翻訳日:2023-12-20 16:12:42 公開日:2023-12-19
# 教師なし時系列異常検出のためのテスト時間適応モデル

When Model Meets New Normals: Test-time Adaptation for Unsupervised Time-series Anomaly Detection ( http://arxiv.org/abs/2312.11976v1 )

ライセンス: Link先を確認
Dongmin Kim, Sunghyun Park, Jaegul Choo(参考訳) 時系列異常検出は、観測の順序から正規性を学習して異常な時間ステップを検出する問題に対処する。 しかし、正規性の概念は時間とともに進化し、トレーニングデータとテストデータの間の分布シフトによって正規性分布を変えることができる「新しい正規性問題」へと繋がる。 本稿では,教師なし時系列異常検出研究における新しい正規問題の有効性を明らかにする。 そこで本研究では,傾向推定に基づく簡易かつ効果的なテスト時間適応戦略と,推論中に新しい正規性を学ぶための自己教師ありアプローチを提案する。 実世界のベンチマークに関する大規模な実験は、提案された戦略を異常検知器に組み込むことで、ベースラインよりもモデルの性能が一貫して向上し、分散シフトの堅牢性をもたらすことを示した。

Time-series anomaly detection deals with the problem of detecting anomalous timesteps by learning normality from the sequence of observations. However, the concept of normality evolves over time, leading to a "new normal problem", where the distribution of normality can be changed due to the distribution shifts between training and test data. This paper highlights the prevalence of the new normal problem in unsupervised time-series anomaly detection studies. To tackle this issue, we propose a simple yet effective test-time adaptation strategy based on trend estimation and a self-supervised approach to learning new normalities during inference. Extensive experiments on real-world benchmarks demonstrate that incorporating the proposed strategy into the anomaly detector consistently improves the model's performance compared to the baselines, leading to robustness to the distribution shifts.
翻訳日:2023-12-20 16:12:17 公開日:2023-12-19
# 連続学習:ビデオ表現のための「忘れない勝利」サブネットワーク

Continual Learning: Forget-free Winning Subnetworks for Video Representations ( http://arxiv.org/abs/2312.11973v1 )

ライセンス: Link先を確認
Haeyong Kang, Jaehong Yoon, Sung Ju Hwang, and Chang D. Yoo(参考訳) RLTH(Regularized Lottery Ticket hypothesis)に触発されて、連続学習タスクのための高密度ネットワーク内での競合サブネットの存在を強調した上で、Winning Subnetworks(WSN)を紹介した。 このアプローチは、高密度ネットワークにおける再利用重みを利用して、タスクインクリメンタルラーニング(TIL)のシナリオにおける学習を強化する。 本稿では,Few-Shot Class Incremental Learning (FSCIL)におけるオーバーフィッティングを軽減するために,SoftNetと呼ばれるWSNの派生版を開発した。 さらに,ビデオインクリメンタルラーニング(VIL)におけるWSNの疎再利用重量制限に対処し,フーリエサブニューラル演算子(FSO)を提案する。 フーリエ空間で動作するFSOは、動画を適応的かつコンパクトにエンコードし、様々な帯域幅を持つ再利用可能なサブネットワークを発見する。 我々は,FSOのフーリエ表現を,VIL,TIL,FSCILなどの連続学習コンテキストに適用した。 これらのシナリオにわたる広範な実験は、FSOが連続学習において顕著な有効性を示し、様々な畳み込み表現レベルでタスク性能を著しく向上させ、TILとFSCILの上位層とVILの下位層のパフォーマンスを向上させる。

Inspired by the Regularized Lottery Ticket Hypothesis (RLTH), which highlights the presence of competitive subnetworks within dense networks for continual learning tasks, we introduce Winning Subnetworks (WSN). This approach utilizes reused weights in dense networks to enhance learning in Task Incremental Learning (TIL) scenarios. To mitigate overfitting in Few-Shot Class Incremental Learning (FSCIL), we have developed WSN variants referred to as the Soft subnetwork (SoftNet). Furthermore, addressing WSN's limitation of sparse reused weights in Video Incremental Learning (VIL), we propose the Fourier Subneural Operator (FSO). The FSO, operating in Fourier space, adaptively and compactly encodes videos, discovering reusable subnetworks with diverse bandwidths. We have applied FSO's Fourier representations to various continual learning contexts, including VIL, TIL, and FSCIL. Our extensive experiments across these scenarios demonstrate FSO's remarkable efficacy in continual learning, significantly enhancing task performance at various convolutional representational levels: it boosts performance in the higher layers for TIL and FSCIL and the lower layers for VIL.
翻訳日:2023-12-20 16:12:04 公開日:2023-12-19
# 3次元人体運動の表現的予測

Expressive Forecasting of 3D Whole-body Human Motions ( http://arxiv.org/abs/2312.11972v1 )

ライセンス: Link先を確認
Pengxiang Ding, Qiongjie Cui, Min Zhang, Mengyuan Liu, Haofan Wang, Donglin Wang(参考訳) 人間の動作予測は、時間をかけて将来の人間の行動を予測することを目的としており、多くの現実世界のアプリケーションにおいて基本的なタスクである。 しかし、既存の研究は通常、人間の手の繊細な動きを考慮せずに人体の主要な関節を予測することに集中している。 実践的な応用においては、実世界との人間コミュニケーションにおいて手振りが重要な役割を担い、人間の第一の意図を表現している。 本研究は,身体と手の動きを共同で予測する,全身のポーズ予測タスクを初めて定式化したものである。 そこで,本稿では,粗面(身体関節)と細粒(関節)の両方の活動を協調的に予測することを目的とした,新しいエンコーディング・アリゲーション・インタラクション(eai)フレームワークを提案する。 具体的には,クロスコンテキストアライメント(xca)とクロスコンテキストインタラクション(xci)という2つの重要な構成要素を含む。 全身の異種情報を考えると、XCAは様々な人間の成分の潜伏した特徴を整列することを目的としており、XCIは人間の成分間のコンテキスト相互作用を効果的に捉えることに焦点を当てている。 我々は,新たに導入した大規模ベンチマークの広範な実験を行い,最先端の性能を実現する。 コードは研究目的でhttps://github.com/dingpx/eaiで公開されている。

Human motion forecasting, with the goal of estimating future human behavior over a period of time, is a fundamental task in many real-world applications. However, existing works typically concentrate on predicting the major joints of the human body without considering the delicate movements of the human hands. In practical applications, hand gesture plays an important role in human communication with the real world, and expresses the primary intention of human beings. In this work, we are the first to formulate a whole-body human pose forecasting task, which jointly predicts the future body and hand activities. Correspondingly, we propose a novel Encoding-Alignment-Interaction (EAI) framework that aims to predict both coarse (body joints) and fine-grained (gestures) activities collaboratively, enabling expressive and cross-facilitated forecasting of 3D whole-body human motions. Specifically, our model involves two key constituents: cross-context alignment (XCA) and cross-context interaction (XCI). Considering the heterogeneous information within the whole-body, XCA aims to align the latent features of various human components, while XCI focuses on effectively capturing the context interaction among the human components. We conduct extensive experiments on a newly-introduced large-scale benchmark and achieve state-of-the-art performance. The code is public for research purposes at https://github.com/Dingpx/EAI.
翻訳日:2023-12-20 16:11:40 公開日:2023-12-19
# エージェントベースモデリングとシミュレーションによる大規模言語モデル--調査と展望

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives ( http://arxiv.org/abs/2312.11970v1 )

ライセンス: Link先を確認
Chen Gao, Xiaochong Lan, Nian Li, Yuan Yuan, Jingtao Ding, Zhilun Zhou, Fengli Xu, Yong Li(参考訳) エージェントベースのモデリングとシミュレーションは複雑なシステムをモデリングするための強力なツールとして進化し、様々なエージェント間の創発的な振る舞いと相互作用に関する洞察を提供する。 大きな言語モデルをエージェントベースのモデリングとシミュレーションに統合することは、シミュレーション能力を向上するための有望な道を示す。 本稿では,エージェントベースモデリングとシミュレーションにおける大規模言語モデル活用の展望を調査し,その課題と今後の展望について考察する。 本調査では,これが学際的な分野であるため,エージェントベースモデリングとシミュレーション,および大規模言語モデル駆動エージェントの背景を紹介する。 次に,大規模言語モデルをエージェントベースシミュレーションに適用する動機について論じ,環境認識,人間アライメント,行動生成,評価の課題を体系的に分析する。 最も重要なのは,複数のシナリオにおける大規模言語モデルによるエージェントベースモデリングとシミュレーションの最近の成果の概要を,サイバー,物理的,社会的,ハイブリッドの4つの領域に分けて,実環境と仮想環境の両方のシミュレーションをカバーする。 最後に、この分野は新しく、急速に進化しているため、オープンな問題と今後の方向性について議論する。

Agent-based modeling and simulation has evolved as a powerful tool for modeling complex systems, offering insights into emergent behaviors and interactions among diverse agents. Integrating large language models into agent-based modeling and simulation presents a promising avenue for enhancing simulation capabilities. This paper surveys the landscape of utilizing large language models in agent-based modeling and simulation, examining their challenges and promising future directions. In this survey, since this is an interdisciplinary field, we first introduce the background of agent-based modeling and simulation and large language model-empowered agents. We then discuss the motivation for applying large language models to agent-based simulation and systematically analyze the challenges in environment perception, human alignment, action generation, and evaluation. Most importantly, we provide a comprehensive overview of the recent works of large language model-empowered agent-based modeling and simulation in multiple scenarios, which can be divided into four domains: cyber, physical, social, and hybrid, covering simulation of both real-world and virtual environments. Finally, since this area is new and quickly evolving, we discuss the open problems and promising future directions.
翻訳日:2023-12-20 16:11:17 公開日:2023-12-19
# フェアモデル学習のためのGroupMixNormレイヤ

GroupMixNorm Layer for Learning Fair Models ( http://arxiv.org/abs/2312.11969v1 )

ライセンス: Link先を確認
Anubha Pandey, Aditi Rai, Maneet Singh, Deepak Bhatt, Tanmoy Bhowmik(参考訳) 近年の研究では、特定の保護属性(性別、民族、年齢グループなど)で特定されたグループに対する自動予測アルゴリズムの識別行動が特定されている。 現実のシナリオに展開する場合、このようなテクニックはバイアスのある予測を示し、不公平な結果をもたらす可能性がある。 近年の文献では、偏りのある振る舞いを緩和するためのアルゴリズムとして、人口統計学のパリティや損失関数の等化確率などのフェアネス指標の凸状サロゲートを主に追加している。 本研究では,ディープラーニングモデルからバイアスを緩和するための,内部処理に基づく新しいGroupMixNorm層を提案する。 GroupMixNormレイヤは、保護された属性に基づいて異なるグループにわたるサンプルのグループレベルの特徴統計を確率的に混合する。 提案手法は, 全体精度への影響を最小限に抑えながら, 公平度指標の改善を図る。 ベンチマーク表と画像データセットの分析により,提案手法の有効性が示された。 さらに,実験結果から,新たな保護属性に対するgroupmixnorm層のロバスト性,および事前学習したネットワークからのバイアス除去の有用性が示唆された。

Recent research has identified discriminatory behavior of automated prediction algorithms towards groups identified on specific protected attributes (e.g., gender, ethnicity, age group, etc.). When deployed in real-world scenarios, such techniques may demonstrate biased predictions resulting in unfair outcomes. Recent literature has witnessed algorithms for mitigating such biased behavior mostly by adding convex surrogates of fairness metrics such as demographic parity or equalized odds in the loss function, which are often not easy to estimate. This research proposes a novel in-processing based GroupMixNorm layer for mitigating bias from deep learning models. The GroupMixNorm layer probabilistically mixes group-level feature statistics of samples across different groups based on the protected attribute. The proposed method improves upon several fairness metrics with minimal impact on overall accuracy. Analysis on benchmark tabular and image datasets demonstrates the efficacy of the proposed method in achieving state-of-the-art performance. Further, the experimental analysis also suggests the robustness of the GroupMixNorm layer against new protected attributes during inference and its utility in eliminating bias from a pre-trained network.
翻訳日:2023-12-20 16:10:57 公開日:2023-12-19
# unruh放射によるガスの可逆的挙動

Irreversible behaviour of a gas owing to Unruh radiation ( http://arxiv.org/abs/2312.12048v1 )

ライセンス: Link先を確認
Andrew M. Steane(参考訳) ガス分子が衝突すると加速し、フリング・ダヴィーズ・ウンルー効果とムーア・デウィット効果に遭遇する。 これらの効果の大きさは、標準温度と圧力で約1ナノ秒後にガス分子の運動をランダム化するのに十分である。 そのような観測から、量子場理論は物理系を分離するのに必要なことを修正し、その振る舞いがユニタリになることを示した。 実際には、要求は正確に満たされない。 したがって、観測可能な宇宙の進化は非ユニタリかつ熱力学的に可逆的である。

When gas molecules collide, they accelerate, and therefore encounter the Fulling-Davies-Unruh and Moore-DeWitt effects. The size of these effects is sufficient to randomize the motion of the gas molecules after about 1 nanosecond at standard temperature and pressure. Such observations show that quantum field theory modifies what is required to isolate a physical system sufficiently for its behaviour to be unitary. In practice the requirements are never satisfied exactly. Therefore the evolution of the observable universe is non-unitary and thermodynamically irreversible.
翻訳日:2023-12-20 16:05:46 公開日:2023-12-19
# 量子力学のジョルダン代数的定式化と非可換ランダウ問題

Jordan Algebraic Formulation of Quantum Mechanics and The Non-commutative Landau Problem ( http://arxiv.org/abs/2312.12047v1 )

ライセンス: Link先を確認
Tekin Dereli, Ekin S{\i}la Y\"or\"uk(参考訳) 非可換ランダウ問題のジョルダン代数的定式化と調和ポテンシャルについて述べる。 これを達成するために、ヒルベルト空間版の量子力学の新しい定式化が仮定される。 この構成を用いて、非可換ランダウ問題に対応するヒルベルト空間を得る。 非可換パラメータは、ジョルダン代数的設定におけるアソシエータの項で記述される。 この問題から生じる純粋な状態と密度行列を特徴付ける。 これにより、この特定の問題に対する状態ベクトルに対するヨルダン=シュル=オディンガー時間発展方程式が導かれる。

We present a Jordan algebraic formulation of the non-commutative Landau problem coupled to a harmonic potential. To achieve this, a new formulation of the Hilbert space version of quantum mechanics is postulated. Using this construction, the Hilbert space corresponding to the non-commutative Landau problem is obtained. Non-commutative parameters are then described in terms of an associator in the Jordan algebraic setting. Pure states and density matrices arising from this problem are characterized. This in turn leads us to the Jordan-Schr\"odinger time-evolution equation for the state vectors for this specific problem.
翻訳日:2023-12-20 16:05:39 公開日:2023-12-19
# XLand-MiniGrid:JAXにおけるスケーラブルなメタ強化学習環境

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX ( http://arxiv.org/abs/2312.12044v1 )

ライセンス: Link先を確認
Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Artem Agarkov, Viacheslav Sinii, Sergey Kolesnikov(参考訳) 我々は,xland の多様性と深さ,minigrid の単純さと最小性に触発されたメタ強化学習研究のためのツールとグリッドワールド環境のスイートである xland-minigrid を提案する。 XLand-MinigridはJAXで書かれており、高度にスケーラブルに設計されており、GPUやTPUアクセラレータ上で実行できる可能性がある。 ライブラリの汎用性を示すため、我々はよく知られたシングルタスク環境と10^8$のタスクを生成可能な新しいメタ学習環境を実装した。 提案した環境はGPU上で最大2^{13}$並列インスタンスにスケールアップでき、毎秒数千万ステップに達することを実証的に示しています。

We present XLand-MiniGrid, a suite of tools and grid-world environments for meta-reinforcement learning research inspired by the diversity and depth of XLand and the simplicity and minimalism of MiniGrid. XLand-Minigrid is written in JAX, designed to be highly scalable, and can potentially run on GPU or TPU accelerators, democratizing large-scale experimentation with limited resources. To demonstrate the generality of our library, we have implemented some well-known single-task environments as well as new meta-learning environments capable of generating $10^8$ distinct tasks. We have empirically shown that the proposed environments can scale up to $2^{13}$ parallel instances on the GPU, reaching tens of millions of steps per second.
翻訳日:2023-12-20 16:05:31 公開日:2023-12-19
# Pose2Gaze:眼球座標モデルを用いた全身電位からのリアルな人間の視線行動の生成

Pose2Gaze: Generating Realistic Human Gaze Behaviour from Full-body Poses using an Eye-body Coordination Model ( http://arxiv.org/abs/2312.12042v1 )

ライセンス: Link先を確認
Zhiming Hu and Jiahui Xu and Syn Schmitt and Andreas Bulling(参考訳) 現実の身体の動き(例えば、バーチャルリアリティーにおけるアバター)は、コンピュータビジョンやグラフィックスで広く研究されているが、身体と現実的に協調する眼球運動の生成は未検討のままである。 まず,mogazeおよびgimoデータセットのデータをもとに,日常活動中の人間の眼球運動と全身運動の協調に関する包括的分析を行った。 その結果,目視は頭部方向と全身運動と強い相関があり,身体運動と眼球運動の間には明らかな時間遅延があることがわかった。 このモデルでは、まず畳み込みニューラルネットワークと時空間グラフ畳み込みニューラルネットワークを使用して、それぞれ頭部と全身のポーズから特徴を抽出し、その後、畳み込みニューラルネットワークを適用してリアルな目の動きを生成する。 提案手法を3つの異なる世代タスクの頭部の動きからのみ視線を予測できる最先端の手法と比較し,Pose2Gazeが両データセットにおいて平均26.4%,平均21.6%の精度でこれらのベースラインを大幅に上回ることを示した。 本研究は, 視線横断行動解析とモデリングの有意な可能性を示すものである。

While generating realistic body movements, e.g., for avatars in virtual reality, is widely studied in computer vision and graphics, the generation of eye movements that exhibit realistic coordination with the body remains under-explored. We first report a comprehensive analysis of the coordination of human eye and full-body movements during everyday activities based on data from the MoGaze and GIMO datasets. We show that eye gaze has strong correlations with head directions and also full-body motions and there exists a noticeable time delay between body and eye movements. Inspired by the analyses, we then present Pose2Gaze -- a novel eye-body coordination model that first uses a convolutional neural network and a spatio-temporal graph convolutional neural network to extract features from head directions and full-body poses respectively and then applies a convolutional neural network to generate realistic eye movements. We compare our method with state-of-the-art methods that predict eye gaze only from head movements for three different generation tasks and demonstrate that Pose2Gaze significantly outperforms these baselines on both datasets with an average improvement of 26.4% and 21.6% in mean angular error, respectively. Our findings underline the significant potential of cross-modal human gaze behaviour analysis and modelling.
翻訳日:2023-12-20 16:05:16 公開日:2023-12-19
# トランジティブな非ローカルゲーム

Transitive Nonlocal Games ( http://arxiv.org/abs/2312.12040v1 )

ライセンス: Link先を確認
Prem Nigam Kar, Jitendra Prakash, David E Roberson(参考訳) 我々は,完全戦略の集合が半群を形成するトランジッションゲームと呼ばれる非局所ゲームの研究を行う。 我々は、コンパクト量子群の理論による双同期推移ゲームに関するいくつかの興味深い対応を確立する。 特に、量子置換群を各双時間推移ゲームと関連付け、その逆も行う。 我々は、C*-ストラテジーの存在、量子通勤戦略の存在、古典的戦略の存在が、すべて双同期推移ゲームに等しいことを証明した。 次に、これらの対応のいくつかを使用して、推移型ゲームの完全な戦略として生じるいくつかの相関のクラスが非局所であるために必要な十分条件を確立する。

We study a class of nonlocal games, called transitive games, for which the set of perfect strategies forms a semigroup. We establish several interesting correspondences of bisynchronous transitive games with the theory of compact quantum groups. In particular, we associate a quantum permutation group with each bisynchronous transitive game and vice versa. We prove that the existence of a C*-strategy, the existence of a quantum commuting strategy, and the existence of a classical strategy are all equivalent for bisynchronous transitive games. We then use some of these correspondences to establish necessary and sufficient conditions for some classes of correlations, that arise as perfect strategies of transitive games, to be nonlocal.
翻訳日:2023-12-20 16:04:52 公開日:2023-12-19
# Founder-GPT:Founder-Ideaの適合性を評価するセルフプレイ

Founder-GPT: Self-play to evaluate the Founder-Idea fit ( http://arxiv.org/abs/2312.12037v1 )

ライセンス: Link先を確認
Sichao Xiong and Yigit Ihlamur(参考訳) 本研究は、先進的な大規模言語モデル技術を利用して、スタートアップのアイデアに対する創業者のプロファイルを評価し、意思決定を強化する「創始的イデア」の革新的評価手法を提案する。 埋め込み、自己プレイ、ツリー・オブ・シンク、そして批判に基づく洗練技術は、各アイデアの成功パターンがユニークであり、創業者の背景の文脈に基づいて評価されるべきであることを示す。

This research introduces an innovative evaluation method for the "founder-idea" fit in early-stage startups, utilizing advanced large language model techniques to assess founders' profiles against their startup ideas to enhance decision-making. Embeddings, self-play, tree-of-thought, and critique-based refinement techniques show early promising results that each idea's success patterns are unique and they should be evaluated based on the context of the founder's background.
翻訳日:2023-12-20 16:04:41 公開日:2023-12-19
# lhmanip: 乱雑なテーブル上環境におけるロングホリゾン言語操作タスクのためのデータセット

LHManip: A Dataset for Long-Horizon Language-Grounded Manipulation Tasks in Cluttered Tabletop Environments ( http://arxiv.org/abs/2312.12036v1 )

ライセンス: Link先を確認
Federico Ceola, Lorenzo Natale, Niko S\"underhauf and Krishan Rana(参考訳) 家庭内で日常的なタスクを完了させるロボットを指示することは、ロボット工学にとって長年の課題だった。 言語条件の模倣学習とオフライン強化学習の最近の進歩は、幅広いタスクにわたる印象的なパフォーマンスを示しているが、それらは通常、短期的なタスクに限られる。 既存のアーキテクチャはこれらの望ましい振る舞いを学習する可能性があるが、実際のロボットシステムに必要な長期的マルチステップデータセットが欠如していることは大きな課題である。 そこで本研究では,200エピソードからなる長方形操作(lhmanip)データセットを提示し,実ロボット遠隔操作による20種類の操作タスクを示す。 タスクには、非常に散らかった環境でオブジェクトの把握、プッシュ、積み重ね、投げなど、複数のサブタスクが含まれる。 各タスクは、ポイントクラウドまたはNeRF再構成のための自然言語命令とマルチカメラ視点とペアリングされる。 データセットは、Open X-Embodimentデータセットの一部である176,278の観測-アクションペアで構成されている。 lhmanipデータセットは、https://github.com/fedeceola/lhmanip}{here}で公開されている。

Instructing a robot to complete an everyday task within our homes has been a long-standing challenge for robotics. While recent progress in language-conditioned imitation learning and offline reinforcement learning has demonstrated impressive performance across a wide range of tasks, they are typically limited to short-horizon tasks -- not reflective of those a home robot would be expected to complete. While existing architectures have the potential to learn these desired behaviours, the lack of the necessary long-horizon, multi-step datasets for real robotic systems poses a significant challenge. To this end, we present the Long-Horizon Manipulation (LHManip) dataset comprising 200 episodes, demonstrating 20 different manipulation tasks via real robot teleoperation. The tasks entail multiple sub-tasks, including grasping, pushing, stacking and throwing objects in highly cluttered environments. Each task is paired with a natural language instruction and multi-camera viewpoints for point-cloud or NeRF reconstruction. In total, the dataset comprises 176,278 observation-action pairs which form part of the Open X-Embodiment dataset. The full LHManip dataset is made publicly available \href{https://github.com/fedeceola/LHManip}{here}.
翻訳日:2023-12-20 16:04:31 公開日:2023-12-19
# 散逸性超強結合系におけるスペクトル工学による量子デバイス間のエネルギー移動の促進

Boosting energy transfer between quantum devices through spectrum engineering in the dissipative ultrastrong coupling regime ( http://arxiv.org/abs/2312.12034v1 )

ライセンス: Link先を確認
Alba Crescente, Dario Ferraro, Maura Sassetti(参考訳) フォトニックキャビティによって媒介される2つの量子デバイス(量子チャージャーと量子電池)間のコヒーレントなエネルギー伝達について,超強結合系に特に焦点をあてる散逸環境の存在下で検討した。 ここで、非常に短い転送時間と高い充電電力は、通常対処された弱いカップリングケースと比較して達成できる。 このような現象学は、エネルギースペクトルに現れるレベルの交差の存在によってさらに拡大され、散逸する環境効果に対して非常に堅牢である。 さらに、物質放射結合やシステムの周波数などのモデルの物理パラメータを慎重に制御することにより、これらの交差を調整し、このデバイスをより柔軟で実験的に実現することができる。 最後に, 解析の幅を広げるために, フォックとキャビティの初期状態のコヒーレントが選択可能であり, 後者の方がエネルギッシュな性能を示すと仮定した。

The coherent energy transfer between two quantum devices (a quantum charger and a quantum battery) mediated by a photonic cavity is investigated, in presence of dissipative environments, with particular focus on the the ultrastrong coupling regime. Here, very short transfer times and high charging power can be achieved in comparison with the usually addressed weak coupling case. Such phenomenology is further magnified by the presence of level crossings appearing in the energy spectrum and which reveal very robust against dissipative environmental effects. Moreover, by carefully control the physical parameters of the model, e.g. the matter-radiation coupling and the frequencies of the system, it is possible to tune these crossings making this device more flexible and experimentally feasible. Finally to broaden our analysis, we assume the possibility of choosing between a Fock and a coherent initial state of the cavity, with the latter showing better energetic performances.
翻訳日:2023-12-20 16:03:56 公開日:2023-12-19
# シンプレクティック・アジョイント法による高精度誘導拡散サンプリングに向けて

Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method ( http://arxiv.org/abs/2312.12030v1 )

ライセンス: Link先を確認
Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan(参考訳) 拡散モデルにおけるトレーニング不要誘導サンプリングは、美的評価モデルのような既訓練の既訓練ネットワークを活用して生成プロセスを導く。 現在のトレーニング不要誘導サンプリングアルゴリズムはクリーン画像の一段階推定に基づいて誘導エネルギー関数を求める。 しかし、既成の事前学習されたネットワークはクリーン画像上で訓練されているため、クリーン画像のワンステップ推定手順は、特に拡散モデルにおける生成過程の初期段階において不正確である可能性がある。 これにより、早い段階での指導が不正確になる。 この問題を解決するために,2つの段階の勾配誘導を計算するシンプレクティック・アジョイント・ガイダンス(SAG)を提案する。 まず、SAGは$n$関数呼び出しによってクリーンなイメージを推定し、$n$は特定の画像品質要件を満たすように調整可能なフレキシブルなハイパーパラメータとして機能する。 第2に、SAGはシンプレクティック・アジョイント法を用いて、メモリ要求の観点で精度よく効率的に勾配を求める。 広汎な実験により、SAGはガイド画像および映像生成タスクのベースラインと比較して画質の高い画像を生成することが示された。

Training-free guided sampling in diffusion models leverages off-the-shelf pre-trained networks, such as an aesthetic evaluation model, to guide the generation process. Current training-free guided sampling algorithms obtain the guidance energy function based on a one-step estimate of the clean image. However, since the off-the-shelf pre-trained networks are trained on clean images, the one-step estimation procedure of the clean image may be inaccurate, especially in the early stages of the generation process in diffusion models. This causes the guidance in the early time steps to be inaccurate. To overcome this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates the gradient guidance in two inner stages. Firstly, SAG estimates the clean image via $n$ function calls, where $n$ serves as a flexible hyperparameter that can be tailored to meet specific image quality requirements. Secondly, SAG uses the symplectic adjoint method to obtain the gradients accurately and efficiently in terms of the memory requirements. Extensive experiments demonstrate that SAG generates images with higher qualities compared to the baselines in both guided image and video generation tasks.
翻訳日:2023-12-20 16:03:26 公開日:2023-12-19
# eyepreserve: アイデンティティ保存虹彩合成

EyePreserve: Identity-Preserving Iris Synthesis ( http://arxiv.org/abs/2312.12028v1 )

ライセンス: Link先を確認
Siamul Karim Khan, Patrick Tinsley, Mahsa Mitcheff, Patrick Flynn, Kevin W. Bowyer, Adam Czajka(参考訳) 瞳孔サイズの広い範囲にまたがる同一性を維持しつつ、既存および非既存の同一性のための同一の生体認証虹彩画像の合成は、複雑な虹彩筋収縮機構のために複雑であり、合成パイプラインに埋め込まれる虹彩非線型テクスチャ変形の正確なモデルを必要とする。 本稿では, iris画像の完全データ駆動, アイデンティティ保存, 瞳孔サイズ可変合成の最初の方法を提案する。 本手法は,対象虹彩画像のセグメンテーションマスクが与えられた既存被写体の虹彩画像のテクスチャを非線形に変形させるとともに,既存被写体を表す瞳孔の大きさの異なるアイライズ像を合成することができる。 iris認識実験により,提案する変形モデルは,瞳孔サイズ変更時の同一性を保持するだけでなく,瞳孔サイズに有意な差がある同一同一性虹彩試料間の類似性が向上することが示唆された。 提案手法の直接的な応用は次の2つである。 イ アイリスセンサで取得したものを模倣して、アイリス認識のための既存の生体計測データセットの合成又は強化 (b)瞳孔拡張に有意な差がある虹彩画像対を調べるための法医学的人間専門家の支援。 ソースコードとモデルの重みは、この論文で利用可能である。

Synthesis of same-identity biometric iris images, both for existing and non-existing identities while preserving the identity across a wide range of pupil sizes, is complex due to intricate iris muscle constriction mechanism, requiring a precise model of iris non-linear texture deformations to be embedded into the synthesis pipeline. This paper presents the first method of fully data-driven, identity-preserving, pupil size-varying s ynthesis of iris images. This approach is capable of synthesizing images of irises with different pupil sizes representing non-existing identities as well as non-linearly deforming the texture of iris images of existing subjects given the segmentation mask of the target iris image. Iris recognition experiments suggest that the proposed deformation model not only preserves the identity when changing the pupil size but offers better similarity between same-identity iris samples with significant differences in pupil size, compared to state-of-the-art linear and non-linear (bio-mechanical-based) iris deformation models. Two immediate applications of the proposed approach are: (a) synthesis of, or enhancement of the existing biometric datasets for iris recognition, mimicking those acquired with iris sensors, and (b) helping forensic human experts in examining iris image pairs with significant differences in pupil dilation. Source codes and weights of the models are made available with the paper.
翻訳日:2023-12-20 16:02:50 公開日:2023-12-19
# 腹腔鏡下デモーキング用プログレッシブ周波数認識ネットワーク

Progressive Frequency-Aware Network for Laparoscopic Image Desmoking ( http://arxiv.org/abs/2312.12023v1 )

ライセンス: Link先を確認
Jiale Zhang and Wenfeng Huang, Xiangyun Liao, and Qiong Wang(参考訳) 腹腔鏡下手術は、より優れた患者結果をもたらす最小限の侵襲的処置を提供するが、煙の存在は可視性と安全性に挑戦する。 既存の学習ベースの手法は大規模なデータセットと高い計算資源を必要とする。 本稿では,PFAN(Progressive Frequency-Aware Network)を提案し,CNNとTransformerの強みを組み合わせて周波数領域のプログレッシブ情報抽出を行う。 PFANは、ローカルな高周波情報を取得するためのCNNベースのMultiscale Bottleneck-Inverting (MBI)ブロックと、グローバルな低周波情報を効率的に扱うための局所強化軸アテンション変換器(LAT)を備えている。 pfanは限られたトレーニングデータでも効率的に腹腔鏡像をデモースする。 提案手法は,PSNR,SSIM,CIEDE2000の最先端手法とColec80データセットの視覚的品質に優れ,629Kパラメータしか保持しない。 私たちのコードとモデルは、https://github.com/jlzcode/PFAN.comで公開されています。

Laparoscopic surgery offers minimally invasive procedures with better patient outcomes, but smoke presence challenges visibility and safety. Existing learning-based methods demand large datasets and high computational resources. We propose the Progressive Frequency-Aware Network (PFAN), a lightweight GAN framework for laparoscopic image desmoking, combining the strengths of CNN and Transformer for progressive information extraction in the frequency domain. PFAN features CNN-based Multi-scale Bottleneck-Inverting (MBI) Blocks for capturing local high-frequency information and Locally-Enhanced Axial Attention Transformers (LAT) for efficiently handling global low-frequency information. PFAN efficiently desmokes laparoscopic images even with limited training data. Our method outperforms state-of-the-art approaches in PSNR, SSIM, CIEDE2000, and visual quality on the Cholec80 dataset and retains only 629K parameters. Our code and models are made publicly available at: https://github.com/jlzcode/PFAN.
翻訳日:2023-12-20 16:01:37 公開日:2023-12-19
# LightGCNet: データ駆動型ソフトセンサーのための軽量幾何構成型ニューラルネットワーク

LightGCNet: A Lightweight Geometric Constructive Neural Network for Data-Driven Soft sensors ( http://arxiv.org/abs/2312.12022v1 )

ライセンス: Link先を確認
Jing Nan, Yan Qin, Wei Dai, Chau Yuen(参考訳) データ駆動型ソフトセンサーは、機械工学的なアプローチと比較して、工業プロセスにおける測定の難しい指標を測定するための、コスト効率とより正確なモデリングアプローチを提供する。 ディープラーニングのような人工知能(AI)技術は、機械学習とビッグデータの分野で一般的なソフトセンサーモデリングアプローチとなっている。 しかし、ディープラーニングに基づくソフトセンサーモデルは、複雑なモデル構造と過剰なトレーニング時間につながる可能性がある。 加えて、産業プロセスは資源制約を特徴とする分散制御システム(DCS)に依存していることが多い。 そこで, 空間幾何学的に導かれる軽量な幾何構成型ニューラルネットワークであるLightGCNetが提案され, 動的間隔から隠れたパラメータを割り当てるために, コンパクト角度制約を利用する。 同時に、ノードプール戦略と空間幾何学的関係を用いて、隠れパラメータを割り当てるプロセスを可視化し、最適化し、解釈可能性を高める。 さらに、lightgcnetの普遍近似性は空間幾何学的解析によって証明される。 本稿では,LightGCNetのアルゴリズム実装について述べる。 ベンチマークデータセットと鉱石研削プロセスの両方に関するシミュレーション結果は、小さなネットワークサイズ、高速学習速度、音の一般化の観点から、LightGCNetの顕著なメリットを示している。

Data-driven soft sensors provide a potentially cost-effective and more accurate modeling approach to measure difficult-to-measure indices in industrial processes compared to mechanistic approaches. Artificial intelligence (AI) techniques, such as deep learning, have become a popular soft sensors modeling approach in the area of machine learning and big data. However, soft sensors models based deep learning potentially lead to complex model structures and excessive training time. In addition, industrial processes often rely on distributed control systems (DCS) characterized by resource constraints. Herein, guided by spatial geometric, a lightweight geometric constructive neural network, namely LightGCNet, is proposed, which utilizes compact angle constraint to assign the hidden parameters from dynamic intervals. At the same time, a node pool strategy and spatial geometric relationships are used to visualize and optimize the process of assigning hidden parameters, enhancing interpretability. In addition, the universal approximation property of LightGCNet is proved by spatial geometric analysis. Two versions algorithmic implementations of LightGCNet are presented in this article. Simulation results concerning both benchmark datasets and the ore grinding process indicate remarkable merits of LightGCNet in terms of small network size, fast learning speed, and sound generalization.
翻訳日:2023-12-20 16:00:53 公開日:2023-12-19
# ファウショット関係抽出のための相乗的アンコレッドコントラスト事前学習

Synergistic Anchored Contrastive Pre-training for Few-Shot Relation Extraction ( http://arxiv.org/abs/2312.12021v1 )

ライセンス: Link先を確認
DaLuo, Yanglei Gan, Rui Hou, Run Lin, Qiao Liu, Yuxiang Cai, Wannian Gao(参考訳) Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから関係事実を抽出することを目的としている。 近年の研究では、教師付きコントラスト学習の枠組みに事前学習言語モデル(PLM)を用いることで、FSREにおいて有望な結果が示されている。 しかし、この学習パラダイムにおける学習表現と意味豊かさを包含する大規模なインスタンスラベルペアを効果的に活用する方法は、十分に検討されていない。 このギャップに対処するために,新しい相乗的アンカー型コントラストプレトレーニングフレームワークを提案する。 このフレームワークは、インスタンスラベルペアを通じて伝達される多様な視点が不完全だが補完的な内在的なテキスト意味論を捉えているという洞察に動機づけられている。 特に,本フレームワークは,文長とラベル長の両比較損失を含む対称的コントラスト目的を含む。 これら2つの損失を組み合わせることで、モデルは堅牢で均一な表現空間を確立する。 この空間は、インスタンスとリレーショナル事実間の特徴分布の相互アライメントを効果的に捉え、同時に、同一関係内の様々な視点における相互情報の最大化を強化する。 実験の結果, 下流fsreタスクにおけるベースラインモデルと比較して, 性能が大幅に向上した。 さらに,本手法は,ドメインシフトやゼロショット関係抽出の課題に対処する上で,優れた適応性を示す。 私たちのコードはhttps://github.com/AONE-NLP/FSRE-SaConで公開されている。

Few-shot Relation Extraction (FSRE) aims to extract relational facts from a sparse set of labeled corpora. Recent studies have shown promising results in FSRE by employing Pre-trained Language Models (PLMs) within the framework of supervised contrastive learning, which considers both instances and label facts. However, how to effectively harness massive instance-label pairs to encompass the learned representation with semantic richness in this learning paradigm is not fully explored. To address this gap, we introduce a novel synergistic anchored contrastive pre-training framework. This framework is motivated by the insight that the diverse viewpoints conveyed through instance-label pairs capture incomplete yet complementary intrinsic textual semantics. Specifically, our framework involves a symmetrical contrastive objective that encompasses both sentence-anchored and label-anchored contrastive losses. By combining these two losses, the model establishes a robust and uniform representation space. This space effectively captures the reciprocal alignment of feature distributions among instances and relational facts, simultaneously enhancing the maximization of mutual information across diverse perspectives within the same relation. Experimental results demonstrate that our framework achieves significant performance enhancements compared to baseline models in downstream FSRE tasks. Furthermore, our approach exhibits superior adaptability to handle the challenges of domain shift and zero-shot relation extraction. Our code is available online at https://github.com/AONE-NLP/FSRE-SaCon.
翻訳日:2023-12-20 16:00:34 公開日:2023-12-19
# ソフトウェア工学における学生と専門家の創造性 : 比較研究

Students' and Professionals' Perceived Creativity In Software Engineering: A Comparative Study ( http://arxiv.org/abs/2312.12014v1 )

ライセンス: Link先を確認
Wouter Groeneveld, Laurens Luyten, Joost Vennekens, Kris Aerts(参考訳) 創造性は、プロのソフトウェアエンジニアが難しい問題に取り組むために利用する重要なスキルです。 高等教育では、工学生の創造力を高めるために複数の努力がなされている。 しかし、創造性は解釈にオープンな曖昧な概念である。 さらに、産業とアカデミックの間には、創造性に対する認識と実践のギャップがあることが研究によって示されている。 ソフトウェアエンジニアリング(SE)における創造性の役割をより深く理解するために、4つのフォーカスグループと10人のSE学生を通じて33人のプロフェッショナルにインタビューした。 その結果,創造性に関する45のトピックが明らかになった。 学生と専門家の知覚を比較すると,創造的環境,技術の適用,創造的コラボレーション,自然対育,創造性の価値という5つのテーマにグループ分けされた基本的差異が明らかになった。 本研究の目的は,これらの知見を高等教育における創造的問題解決のインストールと促進に活用することにある。

Creativity is a critical skill that professional software engineers leverage to tackle difficult problems. In higher education, multiple efforts have been made to spark creative skills of engineering students. However, creativity is a vague concept that is open to interpretation. Furthermore, studies have shown that there is a gap in perception and implementation of creativity between industry and academia. To better understand the role of creativity in software engineering (SE), we interviewed 33 professionals via four focus groups and 10 SE students. Our results reveal 45 underlying topics related to creativity. When comparing the perception of students versus professionals, we discovered fundamental differences, grouped into five themes: the creative environment, application of techniques, creative collaboration, nature vs nurture, and the perceived value of creativity. As our aim is to use these findings to install and further encourage creative problem solving in higher education, we have included a list of implications for educational practice.
翻訳日:2023-12-20 16:00:05 公開日:2023-12-19
# 形式的概念分析とデンプスター・シェーファー理論を用いたフレキシブル分類

Flexible categorization using formal concept analysis and Dempster-Shafer theory ( http://arxiv.org/abs/2312.12010v1 )

ライセンス: Link先を確認
Marcel Boersma, Krishna Manoorkar, Alessandra Palmigiano, Mattia Panettiere, Apostolos Tzimoulis, Nachoem Wijnberg(参考訳) ビジネスプロセスの分類は監査の重要な部分です。 監査における大量のトランザクションデータは、重み付き二部グラフを使用して財務口座間のトランザクションとして表現することができる。 このような二部グラフを多値形式的文脈と捉え、形式的概念分析の手法を用いて、ビジネスプロセスにかかわる財務会計の観点で、これらのビジネスプロセスの説明可能な分類を得る。 Dempster-Shaferマス関数を使用して、さまざまな金融口座に対する異なる関心を示すアジェンダを表現します。 また,質問アジェンダの異なるエージェント間の検討シナリオをモデル化し,アジェンダの集約と分類を行った。 本稿では,組織内の異なるエージェント(監査会社など)の議題に従って,二部グラフとして表されるデータから説明可能な分類を入手し,検討するための公式な基盤を提供する。 我々は,このフレームワークを用いて,異常検出と分類のための機械学習メタアルゴリズムを記述し,その結果を局所的および大域的に説明し,異常検出アルゴリズムを用いて実演する。

Categorization of business processes is an important part of auditing. Large amounts of transactional data in auditing can be represented as transactions between financial accounts using weighted bipartite graphs. We view such bipartite graphs as many-valued formal contexts, which we use to obtain explainable categorization of these business processes in terms of financial accounts involved in a business process by using methods in formal concept analysis. We use Dempster-Shafer mass functions to represent agendas showing different interest in different set of financial accounts. We also model some possible deliberation scenarios between agents with different interrogative agendas to reach an aggregated agenda and categorization. The framework developed in this paper provides a formal ground to obtain and study explainable categorizations from the data represented as bipartite graphs according to the agendas of different agents in an organization (e.g. an audit firm), and interaction between these through deliberation. We use this framework to describe a machine-leaning meta algorithm for outlier detection and classification which can provide local and global explanations of its result and demonstrate it through an outlier detection algorithm.
翻訳日:2023-12-20 15:59:49 公開日:2023-12-19
# 密度識別的特徴埋め込みによるLiDARセマンティックセマンティックセグメンテーションのドメイン一般化

Domain Generalization in LiDAR Semantic Segmentation Leveraged by Density Discriminative Feature Embedding ( http://arxiv.org/abs/2312.12098v1 )

ライセンス: Link先を確認
Jaeyeul Kim, Jungwan Woo, Jeonghoon Kim, Sunghoon Im(参考訳) LiDARベースの認識では大きな進歩を遂げているが、ドメインの一般化は課題を呈し続けており、しばしばドメインの相違により未知のデータセットに遭遇する場合にパフォーマンスが低下する。 主なハードルの1つは、LiDARセンサーの変動性から来ており、点雲密度分布の不整合をもたらす。 このような矛盾は知覚モデルの有効性を損なう可能性がある。 我々は,LiDARの基本的な特徴として,LiDARからシーンへの距離による点密度の変動と,視野に対するビームの数という,新たなアプローチを導入することで,この問題に対処する。 これを理解するために、各LiDARの点雲は異なる密度分布を持ち、異なるLiDARモデル間で一貫性があると見なす。 そこで本研究では,異なるLiDARセンサ間の領域不変性を確保しつつ,密度に関連する特徴を具体的に抽出するDDFEモジュールを提案する。 さらに,直感的だが効果的な密度向上手法を導入し,密度スペクトルの拡大とDDFEの性能向上を図る。 DDFEは汎用的で軽量なドメイン一般化モジュールである。 さまざまな3dバックボーンネットワークにシームレスに統合でき、既存の最先端のドメイン一般化アプローチを一貫して上回ることができる。 コミュニティのコラボレーションと進歩を促進するために、ソースコードを公開することを約束します。

While significant progress has been achieved in LiDAR-based perception, domain generalization continues to present challenges, often resulting in reduced performance when encountering unfamiliar datasets due to domain discrepancies. One of the primary hurdles stems from the variability of LiDAR sensors, leading to inconsistencies in point cloud density distribution. Such inconsistencies can undermine the effectiveness of perception models. We address this challenge by introducing a new approach that acknowledges a fundamental characteristic of LiDAR: the variation in point density due to the distance from the LiDAR to the scene, and the number of beams relative to the field of view. Understanding this, we view each LiDAR's point cloud at various distances as having distinct density distributions, which can be consistent across different LiDAR models. With this insight, we propose the Density Discriminative Feature Embedding (DDFE) module, crafted to specifically extract features related to density while ensuring domain invariance across different LiDAR sensors. In addition, we introduce a straightforward but effective density augmentation technique, designed to broaden the density spectrum and enhance the capabilities of the DDFE. The proposed DDFE stands out as a versatile and lightweight domain generalization module. It can be seamlessly integrated into various 3D backbone networks, consistently outperforming existing state-of-the-art domain generalization approaches. We commit to releasing the source code publicly to foster community collaboration and advancement.
翻訳日:2023-12-20 15:52:59 公開日:2023-12-19
# DLCA-Recon : モノクロ映像からの動的ルース着衣アバター再構成

DLCA-Recon: Dynamic Loose Clothing Avatar Reconstruction from Monocular Videos ( http://arxiv.org/abs/2312.12096v1 )

ライセンス: Link先を確認
Chunjie Luo, Fei Luo, Yusen Wang, Enxu Zhao, Chunxia Xiao(参考訳) ゆるい服でダイナミックな人間を再構築することは重要だが難しい。 この課題に対処するため,単眼ビデオからヒトアバターを作成するDLCA-Recon法を提案する。 ゆるい服から下半身までの距離は、人間が自由に動き、行動するとき、フレームごとに急速に変化する。 従来の手法では、この劇的な変化を説明するために変形の最適化を導くための効果的な幾何学的初期化と制約が欠如しており、不連続かつ不完全な復元面をもたらす。 変形場をSMPLより容易に学習できるので, 変形をより正確にモデル化するために, 標準空間で推定された3次元布地を初期化することを提案する。 明示的メッシュと暗黙的SDFの両方の表現を用いて、連続するフレーム間の物理的接続情報を利用し、変形場を最適化する動的変形場(DDF)を提案する。 DDFは、変形の解釈可能性を高め、ゆるい衣服の自由な動きを効果的に捉えるために、ゆるい衣服に寄与する力を担っている。 さらに,各個体にSMPLスキンウェイトを伝播させ,最適化中にポーズやスキンウェイトを洗練させ,スキントランスフォーメーションを改善する。 より合理的な初期化とddfに基づいて、現実世界の物理をより正確にシミュレートすることができる。 一般および自前のデータセットを用いた広範囲な実験により,soma法と比較して,ゆるい服装のヒトに対して優れた結果が得られることを確認した。

Reconstructing a dynamic human with loose clothing is an important but difficult task. To address this challenge, we propose a method named DLCA-Recon to create human avatars from monocular videos. The distance from loose clothing to the underlying body rapidly changes in every frame when the human freely moves and acts. Previous methods lack effective geometric initialization and constraints for guiding the optimization of deformation to explain this dramatic change, resulting in the discontinuous and incomplete reconstruction surface. To model the deformation more accurately, we propose to initialize an estimated 3D clothed human in the canonical space, as it is easier for deformation fields to learn from the clothed human than from SMPL. With both representations of explicit mesh and implicit SDF, we utilize the physical connection information between consecutive frames and propose a dynamic deformation field (DDF) to optimize deformation fields. DDF accounts for contributive forces on loose clothing to enhance the interpretability of deformations and effectively capture the free movement of loose clothing. Moreover, we propagate SMPL skinning weights to each individual and refine pose and skinning weights during the optimization to improve skinning transformation. Based on more reasonable initialization and DDF, we can simulate real-world physics more accurately. Extensive experiments on public and our own datasets validate that our method can produce superior results for humans with loose clothing compared to the SOTA methods.
翻訳日:2023-12-20 15:52:37 公開日:2023-12-19
# GazeMoDiff:確率的人間の動き予測のための注視誘導拡散モデル

GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction ( http://arxiv.org/abs/2312.12090v1 )

ライセンス: Link先を確認
Haodong Yan and Zhiming Hu and Syn Schmitt and Andreas Bulling(参考訳) 人間の動き予測は、現実のアバターアニメーションなど、仮想現実(vr)アプリケーションにとって重要である。 既存の方法は、人間の視線が身体の動きと強く相関していることが知られており、近年のVRヘッドセットで容易に利用できるにもかかわらず、過去の動きからのみ体の動きを合成している。 確率的人間の動きを生成するために、新しい視線誘導発声拡散モデル「gazagemodiff」を提案する。 まず,グラフアテンションネットワークを用いて眼球運動と眼球運動の時空間相関を学習し,それらをクロスモーダルな眼球運動に融合させる。 これらのクロスモーダル特徴は、クロスアテンション機構を介してノイズ予測ネットワークに注入され、徐々に消音され、現実的な人間の全身運動を生成する。 MoGaze および GIMO データセットの実験結果から,本手法は平均変位誤差(15.03%,GIMO 9.20%)において最先端手法よりも高い性能を示した。 さらに,提案手法を最先端手法と比較するオンラインユーザ調査を行い,23名からの回答から,提案手法が生成する動作が他の手法よりも現実的であることを検証した。 総合すると、われわれの研究は視線誘導の確率的人間の動き予測に向けて最初の重要な一歩を踏み出し、vr研究におけるこの重要なトピックに関する今後の研究を導く。

Human motion prediction is important for virtual reality (VR) applications, e.g., for realistic avatar animation. Existing methods have synthesised body motion only from observed past motion, despite the fact that human gaze is known to correlate strongly with body movements and is readily available in recent VR headsets. We present GazeMoDiff -- a novel gaze-guided denoising diffusion model to generate stochastic human motions. Our method first uses a graph attention network to learn the spatio-temporal correlations between eye gaze and human movements and to fuse them into cross-modal gaze-motion features. These cross-modal features are injected into a noise prediction network via a cross-attention mechanism and progressively denoised to generate realistic human full-body motions. Experimental results on the MoGaze and GIMO datasets demonstrate that our method outperforms the state-of-the-art methods by a large margin in terms of average displacement error (15.03% on MoGaze and 9.20% on GIMO). We further conducted an online user study to compare our method with state-of-the-art methods and the responses from 23 participants validate that the motions generated by our method are more realistic than those from other methods. Taken together, our work makes a first important step towards gaze-guided stochastic human motion prediction and guides future work on this important topic in VR research.
翻訳日:2023-12-20 15:52:14 公開日:2023-12-19
# プロの写真のアウトペイントによる被写体認識クロップの学習

Learning Subject-Aware Cropping by Outpainting Professional Photos ( http://arxiv.org/abs/2312.12080v1 )

ライセンス: Link先を確認
James Hong, Lu Yuan, Micha\"el Gharbi, Matthew Fisher, Kayvon Fatahalian(参考訳) 写真のフレーム(あるいは作物)の作り方は、画像の主題とその文脈、例えば人間の肖像画に依存することが多い。 近年の研究では、被写体認識画像トリミングタスクを、画像トリミングのニュアンスで実践的なバージョンとして定義している。 本稿では,プロのストックイメージから高品質な主観認識作物の作法を学ぶために,弱教師付きアプローチ(GenCrop)を提案する。 監督済みの以前の作業とは異なり、gencropは既存のストックイメージコレクション以外に新しい手動アノテーションを必要としない。 しかし、このデータから学ぶ上での重要な課題は、画像がすでに切り取られており、どの領域が削除されたのか分からないことだ。 私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。 ストック画像収集は、多様性を提供し、その画像は、良好な作物のための擬似ラベルとして機能し、テキスト画像拡散モデルは、現実的な(すなわち、外向きの塗布)非クロッピング画像に使用される。 この手法を用いることで、クロッピングモデルのトレーニングを行うために、クロッピングされていないトレーニングペアの大規模なデータセットを自動的に生成することができる。 GenCropは、弱教師付きであるにもかかわらず、最先端の教師付き手法と競合し、定量的および定性的な評価指標の弱教師付きベースラインよりもはるかに優れている。

How to frame (or crop) a photo often depends on the image subject and its context; e.g., a human portrait. Recent works have defined the subject-aware image cropping task as a nuanced and practical version of image cropping. We propose a weakly-supervised approach (GenCrop) to learn what makes a high-quality, subject-aware crop from professional stock images. Unlike supervised prior work, GenCrop requires no new manual annotations beyond the existing stock image collection. The key challenge in learning from this data, however, is that the images are already cropped and we do not know what regions were removed. Our insight is combine a library of stock images with a modern, pre-trained text-to-image diffusion model. The stock image collection provides diversity and its images serve as pseudo-labels for a good crop, while the text-image diffusion model is used to out-paint (i.e., outward inpainting) realistic uncropped images. Using this procedure, we are able to automatically generate a large dataset of cropped-uncropped training pairs to train a cropping model. Despite being weakly-supervised, GenCrop is competitive with state-of-the-art supervised methods and significantly better than comparable weakly-supervised baselines on quantitative and qualitative evaluation metrics.
翻訳日:2023-12-20 15:51:46 公開日:2023-12-19
# 農村開発途上国の若者に対するサイバーセキュリティ意識ソリューションの設計 : 多様性と包摂性の必要性

Designing Cybersecurity Awareness Solutions for the Young People in Rural Developing Countries: The Need for Diversity and Inclusion ( http://arxiv.org/abs/2312.12073v1 )

ライセンス: Link先を確認
Farzana Quayyum and Giske Naper Freberg(参考訳) サイバーセキュリティの課題と認識の必要性は先進国ではよく認識されているが、発展途上国では依然として注意が必要である。 テクノロジーが拡大するにつれ、セキュリティの懸念も世界中に広まっている。 本稿では,発展途上国の若者のためのサイバーセキュリティ意識ソリューションを設計する際に考慮すべき要素について検討する。 我々は,ミニサイバーセキュリティ意識アプリケーションのプロトタイプを開発し,ガンビア,エリトリア,シリアの参加者8名(年齢16~30歳)を対象にパイロット実験を行った。 本研究は,途上国のターゲットユーザを対象としたサイバーセキュリティ意識ソリューションの設計・開発において,文化や社会的構成,リテラシー,言語能力,サイバーセキュリティ用語や概念の導入方法,リフレクションの必要性といった要因が重要であることを示す。 この研究の成果は、将来の研究者が発展途上国のユーザーに対してより包括的なサイバーセキュリティ認識ソリューションを設計するための指針となるだろう。

Cybersecurity challenges and the need for awareness are well-recognized in developed countries, but this still needs attention in less-developed countries. With the expansion of technology, security concerns are also becoming more prevalent worldwide. This paper presents a design and creation research study exploring which factors we should consider when designing cybersecurity awareness solutions for young people in developing countries. We have developed prototypes of mini-cybersecurity awareness applications and conducted a pilot study with eight participants (aged 16-30) from Gambia, Eritrea, and Syria. Our findings show that factors like the influence of culture and social constructs, literacy, and language competence, the way of introducing cybersecurity terms and concepts, and the need for reflection are essential to consider when designing and developing cybersecurity awareness solutions for target users in developing countries. The findings of this study will guide future researchers to design more inclusive cybersecurity awareness solutions for users in developing countries.
翻訳日:2023-12-20 15:51:24 公開日:2023-12-19
# PICNN: 解釈可能な畳み込みニューラルネットワークへの道

PICNN: A Pathway towards Interpretable Convolutional Neural Networks ( http://arxiv.org/abs/2312.12068v1 )

ライセンス: Link先を確認
Wengang Guo, Jiayi Yang, Huilin Yin, Qijun Chen, Wei Ye(参考訳) 畳み込みニューラルネットワーク(CNN)は、複雑な視覚タスクに対する識別的特徴学習において優れた性能を示した。 識別能力の他に、解釈可能性もまたCNNにとって重要で未探索な性質である。 CNNの解釈可能性の難しさの1つは、フィルタとイメージクラスが絡み合っていることである。 本稿では,フィルタと画像のクラス間の絡み合いを軽減する新しい経路を提案する。 提案する経路はcnnの後期conv層のフィルタをクラス特異的クラスタにグループ化する。 クラスタとクラスは1対1の関係にある。 具体的には,Bernoulliサンプリングを用いて,学習可能なフィルタクラス対応行列からフィルタクラスタ割り当て行列を生成する。 エンドツーエンドの最適化を実現するために,非微分可能ベルヌーイサンプリングを扱うための新しいパラメータ化手法を開発した。 提案手法の有効性を,9つのCNNと1つのViTを含む10のネットワークアーキテクチャと5つのベンチマークデータセットで評価した。 実験の結果,PICNN(標準CNNと提案経路の組み合わせ)は標準CNNよりも高い判定能力を示し,高い判定能力と同等の判定能力が得られることがわかった。

Convolutional Neural Networks (CNNs) have exhibited great performance in discriminative feature learning for complex visual tasks. Besides discrimination power, interpretability is another important yet under-explored property for CNNs. One difficulty in the CNN interpretability is that filters and image classes are entangled. In this paper, we introduce a novel pathway to alleviate the entanglement between filters and image classes. The proposed pathway groups the filters in a late conv-layer of CNN into class-specific clusters. Clusters and classes are in a one-to-one relationship. Specifically, we use the Bernoulli sampling to generate the filter-cluster assignment matrix from a learnable filter-class correspondence matrix. To enable end-to-end optimization, we develop a novel reparameterization trick for handling the non-differentiable Bernoulli sampling. We evaluate the effectiveness of our method on ten widely used network architectures (including nine CNNs and a ViT) and five benchmark datasets. Experimental results have demonstrated that our method PICNN (the combination of standard CNNs with our proposed pathway) exhibits greater interpretability than standard CNNs while achieving higher or comparable discrimination power.
翻訳日:2023-12-20 15:51:06 公開日:2023-12-19
# シングルコントローラを用いたマルチプレイヤーマルコフゲームにおける最適ポリシー勾配:ミニティプロパティを超えての収束

Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property ( http://arxiv.org/abs/2312.12067v1 )

ライセンス: Link先を確認
Ioannis Anagnostides, Ioannis Panageas, Gabriele Farina, Tuomas Sandholm(参考訳) ポリシーグラデーション手法は強化学習における多くのタスクにおいて強力な実用的性能を享受する。 しかし、マルチエージェント設定に関する理論的理解は、特に2人のプレイヤーの競争と潜在的なマルコフゲームを超えて、限定的のままである。 本論文では,マルチプレイヤーマルコフゲームにおける楽観的なポリシー勾配手法を単一コントローラで特徴付ける新しいフレームワークを開発する。 特に、ゲームが平衡崩壊を示すというさらに仮定の下では、粗相関平衡(CCE)の限界がナッシュ平衡(NE)を誘導するので、ゲームの自然パラメータの多項式因子を$O(\cdot)$が抑制するような固定的な$\epsilon$-NE in $O(1/\epsilon^2)$反復に収束することを示す。 このような平衡崩壊は、2つのプレイヤーゼロサムマルコフゲームでも現れることがよく知られているが、最近の研究で確立されたような、分離可能な相互作用を持つマルチプレイヤーマルコフゲームでも起こる。 その結果、仮定のいずれかが失敗すると、定常NEを計算するための既知の複雑性障壁を回避できる。 我々のアプローチは、導入した古典的なミンティの自然一般化に依存しており、マルコフゲーム以外の応用が期待できる。

Policy gradient methods enjoy strong practical performance in numerous tasks in reinforcement learning. Their theoretical understanding in multiagent settings, however, remains limited, especially beyond two-player competitive and potential Markov games. In this paper, we develop a new framework to characterize optimistic policy gradient methods in multi-player Markov games with a single controller. Specifically, under the further assumption that the game exhibits an equilibrium collapse, in that the marginals of coarse correlated equilibria (CCE) induce Nash equilibria (NE), we show convergence to stationary $\epsilon$-NE in $O(1/\epsilon^2)$ iterations, where $O(\cdot)$ suppresses polynomial factors in the natural parameters of the game. Such an equilibrium collapse is well-known to manifest itself in two-player zero-sum Markov games, but also occurs even in a class of multi-player Markov games with separable interactions, as established by recent work. As a result, we bypass known complexity barriers for computing stationary NE when either of our assumptions fails. Our approach relies on a natural generalization of the classical Minty property that we introduce, which we anticipate to have further applications beyond Markov games.
翻訳日:2023-12-20 15:50:51 公開日:2023-12-19
# PPO-Clipがグローバルな最適化を実現 - クリッピングの理解を深める

PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clipping ( http://arxiv.org/abs/2312.12065v1 )

ライセンス: Link先を確認
Nai-Chieh Huang, Ping-Chun Hsieh, Kuo-Hao Ho, I-Chen Wu(参考訳) クリッピングサロゲート目的(PPO-Clip)を用いたポリシ最適化アルゴリズムは、ポリシー最適化手法の顕著な例である。 しかし、その顕著な経験的成功にもかかわらず、PPO-Clipは理論的な実証を欠いている。 本稿では,PPO-Clip変種の最初の大域収束結果を表計算および神経機能近似設定で確立することにより,この分野に寄与する。 本研究は,特に神経関数近似の文脈において,$o(1/\sqrt{t})$ min-iterate 収束率に注目した。 PPO-Clipを3つの中心概念で分析する上で,本質的な課題に取り組む。 i) ヒンジ損失の関連性から照らされたPPO-Clip目標の一般化版を導入する。 (II) エントロピックミラー降下を利用して, 直接方針パラメータ化による表層PPO-Clipの漸近収束を確立する。 (iii) 表解析に触発され, 2段階の方針改善アプローチを導入することで収束分析を合理化する。 これにより、回帰ベースの更新スキームを用いて複雑なニューラルポリシーパラメータ化からポリシー探索を分離する。 さらに、これらの一般化された目的を解釈することにより、PPO-Clipの有効性について深い洞察を得る。 また, クリッピング機構がPPO-Clip収束に及ぼす影響を初めて明らかにした。 重要なことに、クリッピング範囲は収束率の予備定数のみに影響する。

Proximal Policy Optimization algorithm employing a clipped surrogate objective (PPO-Clip) is a prominent exemplar of the policy optimization methods. However, despite its remarkable empirical success, PPO-Clip lacks theoretical substantiation to date. In this paper, we contribute to the field by establishing the first global convergence results of a PPO-Clip variant in both tabular and neural function approximation settings. Our findings highlight the $O(1/\sqrt{T})$ min-iterate convergence rate specifically in the context of neural function approximation. We tackle the inherent challenges in analyzing PPO-Clip through three central concepts: (i) We introduce a generalized version of the PPO-Clip objective, illuminated by its connection with the hinge loss. (ii) Employing entropic mirror descent, we establish asymptotic convergence for tabular PPO-Clip with direct policy parameterization. (iii) Inspired by the tabular analysis, we streamline convergence analysis by introducing a two-step policy improvement approach. This decouples policy search from complex neural policy parameterization using a regression-based update scheme. Furthermore, we gain deeper insights into the efficacy of PPO-Clip by interpreting these generalized objectives. Our theoretical findings also mark the first characterization of the influence of the clipping mechanism on PPO-Clip convergence. Importantly, the clipping range affects only the pre-constant of the convergence rate.
翻訳日:2023-12-20 15:50:27 公開日:2023-12-19
# パルス型ToFカメラのMPI平面補正

MPI Planar Correction of Pulse Based ToF Cameras ( http://arxiv.org/abs/2312.12064v1 )

ライセンス: Link先を確認
Marian-Leontin Pop and Levente Tamas(参考訳) time-of(tof)カメラは、消費者級の電子機器から安全クリティカルな産業用ロボットまで幅広い分野で人気を集めている。 これは主にフレームレートが高く、相対的精度が良く、コストが低いためである。 tofカメラは、特にパルスベースで開発が続けられているが、点に対するスプリアスノイズやマルチパス推論(mpi)など、様々な問題に直面している。 後者は平面ではなく曲面上に変形した表面を現示させ、平面抽出のような標準的な空間データ前処理を困難にする。 本稿では,パルスベースのtofカメラにおけるこの種のアーティファクトの緩和を可能にする機能ピラミッドネットワーク(fpn)を用いたmpi削減問題に注目する。 エンド・ツー・エンドのネットワークでは、実際のToFデータに基づく学習手法を用いて、平面上のMPI効果を減衰することができた。 モデルのトレーニングに使用するカスタムデータセットとコードの両方が、著者のgithubホームページで利用可能です。

Time-of-Flight (ToF) cameras are becoming popular in a wide span of areas ranging from consumer-grade electronic devices to safety-critical industrial robots. This is mainly due to their high frame rate, relative good precision and the lowered costs. Although ToF cameras are in continuous development, especially pulse-based variants, they still face different problems, including spurious noise over the points or multipath inference (MPI). The latter can cause deformed surfaces to manifest themselves on curved surfaces instead of planar ones, making standard spatial data preprocessing, such as plane extraction, difficult. In this paper, we focus on the MPI reduction problem using Feature Pyramid Networks (FPN) which allow the mitigation of this type of artifact for pulse-based ToF cameras. With our end-to-end network, we managed to attenuate the MPI effect on planar surfaces using a learning-based method on real ToF data. Both the custom dataset used for our model training as well as the code is available on the author's Github homepage.
翻訳日:2023-12-20 15:50:10 公開日:2023-12-19
# 6G時代の資源効率の良いモバイルエッジネットワーク:基礎・枠組み・事例研究

Resource-efficient Generative Mobile Edge Networks in 6G Era: Fundamentals, Framework and Case Study ( http://arxiv.org/abs/2312.12063v1 )

ライセンス: Link先を確認
Bingkun Lai, Jinbo Wen, Jiawen Kang, Hongyang Du, Jiangtian Nie, Changyan Yi, Dong In Kim, Shengli Xie(参考訳) 次世代無線通信システムとして、第6世代(6g)技術が登場し、無線通信と接続に革命をもたらす様々なモバイルエッジネットワークを可能にしている。 生成人工知能(GAI)をモバイルエッジネットワークに統合することにより、生成する移動エッジネットワークは、無線通信ネットワークのインテリジェンスと効率を高める大きな可能性を持っている。 本稿では,創発的モバイルエッジネットワークの概念を提案し,gai技術とそのモバイルエッジネットワークへの応用について概説する。 次に、資源制約のあるシナリオにおいて、生成的モバイルエッジネットワークが直面する潜在的な課題について論じる。 これらの課題に対処するため,ネットワークオーバヘッド削減のための資源効率の高い手法を設計し,資源割り当て問題に対する適切なインセンティブメカニズムを定式化し,生成拡散モデル(GDM)を用いて最適インセンティブメカニズムの解を求める,汎用的なリソース効率な生成インセンティブメカニズムフレームワークを開発した。 さらに,リソース制約のあるモバイルエッジネットワークのケーススタディを行い,効率的なaiタスクオフロードのためのモデルパーティショニングと,モバイルエッジインテリジェンスのためのコンピューティングリソースに貢献するエッジデバイスを動機付けるためにgdmベースのstackelbergモデルを提案する。 最後に,生成するモバイルエッジネットワークの今後の普及に寄与するいくつかのオープンな方向を提案する。

As the next-generation wireless communication system, Sixth-Generation (6G) technologies are emerging, enabling various mobile edge networks that can revolutionize wireless communication and connectivity. By integrating Generative Artificial Intelligence (GAI) with mobile edge networks, generative mobile edge networks possess immense potential to enhance the intelligence and efficiency of wireless communication networks. In this article, we propose the concept of generative mobile edge networks and overview widely adopted GAI technologies and their applications in mobile edge networks. We then discuss the potential challenges faced by generative mobile edge networks in resource-constrained scenarios. To address these challenges, we develop a universal resource-efficient generative incentive mechanism framework, in which we design resource-efficient methods for network overhead reduction, formulate appropriate incentive mechanisms for the resource allocation problem, and utilize Generative Diffusion Models (GDMs) to find the optimal incentive mechanism solutions. Furthermore, we conduct a case study on resource-constrained mobile edge networks, employing model partition for efficient AI task offloading and proposing a GDM-based Stackelberg model to motivate edge devices to contribute computing resources for mobile edge intelligence. Finally, we propose several open directions that could contribute to the future popularity of generative mobile edge networks.
翻訳日:2023-12-20 15:49:53 公開日:2023-12-19
# クラウドでの監査可能な請求の監視

Monitoring Auditable Claims in the Cloud ( http://arxiv.org/abs/2312.12057v1 )

ライセンス: Link先を確認
Lev Sorokin, Ulrich Schoepp(参考訳) 逸脱が深刻な結果をもたらす可能性があるクラウドにミッションクリティカルなシステムをデプロイする場合、重要な決定の保証が不可欠になる。 一般的なクラウドシステムはサードパーティによって運用されており、Kubernetes、Istio、Kafkaなどの複雑なソフトウェアスタック上に構築されている。 それでも、ミッションクリティカルな選択が正しく行われるようにする必要がある。 本稿では,安全およびデータ関連特性の監視を可能にする観測システムの実装とは無関係な柔軟なランタイム監視手法を提案する。 提案手法は,Trillianに基づく分散Datalogベースのプログラムとタンパー保護ストレージを組み合わせることで,安全クリティカルな動作の前提を検証する。 このアプローチは、Certificate Transparencyプロジェクトの一般化と見なすことができる。 このアプローチを,無人航空機のオーケストレーションにクラウドインフラストラクチャを使用する産業用ユースケースに適用する。

When deploying mission-critical systems in the cloud, where deviations may have severe consequences, the assurance of critical decisions becomes essential. Typical cloud systems are operated by third parties and are built on complex software stacks consisting of e.g., Kubernetes, Istio, or Kafka, which due to their size are difficult to be verified. Nevertheless, one needs to make sure that mission-critical choices are made correctly. We propose a flexible runtime monitoring approach that is independent of the implementation of the observed system that allows to monitor safety and data-related properties. Our approach is based on combining distributed Datalog-based programs with tamper-proof storage based on Trillian to verify the premises of safety-critical actions. The approach can be seen as a generalization of the Certificate Transparency project. We apply our approach to an industrial use case that uses a cloud infrastructure for orchestrating unmanned air vehicles.
翻訳日:2023-12-20 15:49:28 公開日:2023-12-19
# 単語クロージャに基づく機械翻訳のためのメタモルフィックテスト

Word Closure-Based Metamorphic Testing for Machine Translation ( http://arxiv.org/abs/2312.12056v1 )

ライセンス: Link先を確認
Xiaoyuan Xie, Shuo Jin, Songqiang Chen, Shing-Chi Cheung(参考訳) 機械翻訳の幅広い応用により、機械翻訳システム(MTS)のテストが注目されている。 最近の研究は、MTテストにおけるオラクル問題に対処するためにメタモルフィックテスト(MT)を適用している。 mtsの既存のmt法は、一般的には入力変換と出力関係比較のワークフローに従っており、ソース入力をミュートして後続入力文を生成し、ソースと後続出力翻訳を比較してそれぞれ翻訳エラーを検出する。 これらの方法は様々な入力変換を使ってテストケースペアを生成し、多くの翻訳エラーを発生させた。 しかし、細粒度で厳密な出力関係の比較を行うには制限があり、誤ったアラームや真の誤りを報告できる。 本稿では,既存のmts mt法の制約に対処するために,ワードクロージャを用いた出力比較手法を提案する。 具体的には、まずword closureと呼ばれる新しい比較ユニットを構築し、各クロージャはテストケースペア内の入力語と出力語を関連付けたグループを含む。 ワードクロージャは、ソース出力翻訳の適切なフラグメントと、比較のための後続出力のフラグメントの間のリンクを示唆する。 次に,単語閉鎖レベルの意味論を比較し,翻訳誤りを識別する。 このようにして、出力に対してきめ細かな厳密なセマンティック比較を行い、より効果的な違反識別を実現する。 提案手法は,既存の5つの入力変換と3つのMSSからの変換出力によって生成されるテストケースを用いて評価する。 その結果,F1スコアの平均値が29.8%向上し,精度とリコールが向上し,既存の不正識別方法よりも優れていた。 また、翻訳エラーのF1スコアを35.9%向上させるのに役立つ。

With the wide application of machine translation, the testing of Machine Translation Systems (MTSs) has attracted much attention. Recent works apply Metamorphic Testing (MT) to address the oracle problem in MTS testing. Existing MT methods for MTS generally follow the workflow of input transformation and output relation comparison, which generates a follow-up input sentence by mutating the source input and compares the source and follow-up output translations to detect translation errors, respectively. These methods use various input transformations to generate test case pairs and have successfully triggered numerous translation errors. However, they have limitations in performing fine-grained and rigorous output relation comparison and thus may report false alarms and miss true errors. In this paper, we propose a word closure-based output comparison method to address the limitations of the existing MTS MT methods. Specifically, we first build a new comparison unit called word closure, where each closure includes a group of correlated input and output words in the test case pair. Word closures suggest the linkages between the appropriate fragment in the source output translation and its counterpart in the follow-up output for comparison. Next, we compare the semantics on the level of word closure to identify the translation errors. In this way, we perform a fine-grained and rigorous semantic comparison for the outputs and thus realize more effective violation identification. We evaluate our method with the test cases generated by five existing input transformations and translation outputs from three popular MTSs. Results show that our method significantly outperforms the existing works in violation identification by improving the precision and recall and achieving an average increase of 29.8% in F1 score. It also helps to increase the F1 score of translation error localization by 35.9%.
翻訳日:2023-12-20 15:49:15 公開日:2023-12-19
# 量子ドットから放出される光子対の偏光絡みに対する空洞媒介過程の影響

Effects of cavity-mediated processes on the polarization entanglement of photon pairs emitted from quantum dots ( http://arxiv.org/abs/2312.12054v1 )

ライセンス: Link先を確認
Mukesh Kumar Samal, Divya Mishra and Parvendra Kumar(参考訳) 半導体量子ドットはオンデマンドの絡み合った光子対の最良の源の1つである。 しかし、エンタングルメントの程度は一般的に励起子状態の微細構造分割によって制限される。 本稿では,2光子励起と共振器支援による2光子放出の下での偏光結合光子対の生成について理論的に検討する。 共振器と励起パルスとの結合が3つの異なる方法で絡み合いの程度を減少させることを示す。 第一に、強い結合状態において、キャビティは水平および垂直に偏極した励起子状態の不等なac-starkシフトを導入し、これにより励起子状態が効果的に分裂する。 第二に、弱いカップリング状態であっても励起子状態間の交差結合を誘導し、2光子状態が生成する。 最後に、キャビティモードのより高い励起状態は、絡み合いの低減にも寄与する。 したがって、ここで考慮された設定では、放出光子の効率的な収集に一般的に必要とされるキャビティカップリングは、弱結合と強結合の両方において絡み合いを劣化させる。

Semiconductor quantum dots are among the best sources of on-demand entangled photon pairs. The degree of entanglement, however, is generally limited by the fine structure splitting of exciton states. In this paper, we theoretically investigate the generation of polarisation-entangled photon pairs under two-photon excitation and cavity-assisted two-photon emission, both in the weak and strong cavity coupling regimes. We demonstrate and clarify that cavity coupling together with an excitation pulse reduces the degree of entanglement in three different ways. Firstly, in a strong coupling regime, cavity introduces the unequal ac-Stark shift of horizontally and vertically polarised exciton states, which results in the effective splitting of exciton states. Secondly, it induces the cross-coupling between the exciton states even in the weak coupling regime, causing the creation of unfavorable two-photon states. Finally, higher excited states of the cavity modes also contribute to the reduction of entanglement. Therefore, in the setting considered here, cavity coupling, which is generally required for the efficient collection of emitted photons, degrades the entanglement both in weak and strong coupling regimes.
翻訳日:2023-12-20 15:48:47 公開日:2023-12-19
# Dip-test Repertoireの拡張 --クラスタリングのための効率的かつ微分可能なp値計算

Extension of the Dip-test Repertoire -- Efficient and Differentiable p-value Calculation for Clustering ( http://arxiv.org/abs/2312.12050v1 )

ライセンス: Link先を確認
Lena G. M. Bauer and Collin Leiber and Christian B\"ohm and Claudia Plant(参考訳) 過去10年間で、一様性(unimodality)のディップテストは、1次元サンプルのモダリティを確実に評価するパラメータフリーな統計テストであるため、データマイニングコミュニティの関心が高まっている。 これはいわゆるディップ値とサンプルのユニモダリティ(dip-p-値)の対応する確率を返す。 これら2つの値はs状骨関係を共有している。 しかし、特定の変換はサンプルサイズに依存する。 多くのdipベースのクラスタリングアルゴリズムは、特定の限られた量のサンプルサイズでdipからdip-p値に変換するブートストラップされたルックアップテーブルを使用する。 そこで本稿では, 最先端のルックアップテーブルの代用として, 特別に設計されたsgmoid関数を提案する。 これにより計算が加速され、サンプルサイズごとにディップからディップp値への変換が近似される。 さらに、微分可能であり、従って勾配降下を用いた学習スキームに容易に統合できる。 我々は、dip'n'subと呼ばれる新しい部分空間クラスタリングアルゴリズムで、我々の機能を活用して、これを示す。 我々は、提案の様々な利点を広範囲に実験で強調する。

Over the last decade, the Dip-test of unimodality has gained increasing interest in the data mining community as it is a parameter-free statistical test that reliably rates the modality in one-dimensional samples. It returns a so called Dip-value and a corresponding probability for the sample's unimodality (Dip-p-value). These two values share a sigmoidal relationship. However, the specific transformation is dependent on the sample size. Many Dip-based clustering algorithms use bootstrapped look-up tables translating Dip- to Dip-p-values for a certain limited amount of sample sizes. We propose a specifically designed sigmoid function as a substitute for these state-of-the-art look-up tables. This accelerates computation and provides an approximation of the Dip- to Dip-p-value transformation for every single sample size. Further, it is differentiable and can therefore easily be integrated in learning schemes using gradient descent. We showcase this by exploiting our function in a novel subspace clustering algorithm called Dip'n'Sub. We highlight in extensive experiments the various benefits of our proposal.
翻訳日:2023-12-20 15:48:24 公開日:2023-12-19
# EncryIP: モデル知的財産保護のための実用的な暗号化ベースのフレームワーク

EncryIP: A Practical Encryption-Based Framework for Model Intellectual Property Protection ( http://arxiv.org/abs/2312.12049v1 )

ライセンス: Link先を確認
Xin Mu, Yu Wang, Zhengan Huang, Junzuo Lai, Yehong Zhang, Hui Wang, Yue Yu(参考訳) 急速に成長するデジタル経済では、デジタル製品に関連する知的財産権(IP)の保護がますます重要になっている。 この状況の中で、非常に価値の高いデジタル資産である機械学習(ML)モデルは、IP保護に大きな注目を集めている。 本稿では,公開鍵暗号方式をモデル学習プロセスにシームレスに統合した,実践的な暗号ベースのフレームワークである \textit{encryip} を提案する。 このアプローチにより、保護されたモデルはランダム化され、混乱したラベルを生成することができ、正確な秘密鍵を持つ個人だけが、認証されたユーザを識別し、真正なラベルを明らかにすることができる。 重要なことは、提案フレームワークは、元のMLモデルのIP保護手法による反復的なトレーニングを必要とせずに、保護されたモデルを複数の認証ユーザに対して促進するだけでなく、その精度を損なうことなく、モデルの性能を維持することである。 透かしベース,トリガベース,パスポートベースといった既存の手法と比較して, \textit{EncryIP} はトレーニング保護モデルともに優れた有効性を示し, MLモデルの不正な拡散を効率的に検出する。

In the rapidly growing digital economy, protecting intellectual property (IP) associated with digital products has become increasingly important. Within this context, machine learning (ML) models, being highly valuable digital assets, have gained significant attention for IP protection. This paper introduces a practical encryption-based framework called \textit{EncryIP}, which seamlessly integrates a public-key encryption scheme into the model learning process. This approach enables the protected model to generate randomized and confused labels, ensuring that only individuals with accurate secret keys, signifying authorized users, can decrypt and reveal authentic labels. Importantly, the proposed framework not only facilitates the protected model to multiple authorized users without requiring repetitive training of the original ML model with IP protection methods but also maintains the model's performance without compromising its accuracy. Compared to existing methods like watermark-based, trigger-based, and passport-based approaches, \textit{EncryIP} demonstrates superior effectiveness in both training protected models and efficiently detecting the unauthorized spread of ML models.
翻訳日:2023-12-20 15:48:09 公開日:2023-12-19
# 変圧器の残留流れの探索

Exploring the Residual Stream of Transformers ( http://arxiv.org/abs/2312.12141v1 )

ライセンス: Link先を確認
Zeping Yu, Kailai Yang, Zhiwei Liu, Sophia Ananiadou(参考訳) 近年、トランスフォーマーベースのモデルは大きなブレークスルーを遂げている。 しかし、モデルが強力な出力を持つ理由を説明する分野では、多くの重要な疑問が答えられていない。 我々は、次の単語を予測する知識を格納しているモデルの重要なパラメータの特定方法や、これらのパラメータが同じレイヤ/モジュールに格納されているかどうかを知らない。 さらに、次の単語予測のために知識を最終埋め込みにマージするメカニズムも理解していない。 本稿では,変圧器の残流を探索し,解釈可能性を高める。 残差接続のメカニズムは,前ソフトマックス値に対する直接加算関数であるため,前ソフトマックス値が大きいトークンの確率は増加する。 さらに,ログ確率を寄与点として用いることは合理的であり,これに基づいて重要なパラメータを同定できることを示す。 また,前層が上層層にどう影響するかを内層製品の比較により解析する手法を提案する。 実験結果とケーススタディにより,本研究はトランスフォーマーモデルの解釈性を高めることができることを示した。 コードはhttps://github.com/zepingyu0512/residualstreamでリリースします。

Transformer-based models have achieved great breakthroughs in recent years. However, there are many significant questions that have not been answered in the field of explaining the reason why the models have powerful outputs. We do not know how to locate the models' important parameters storing the knowledge for predicting the next word, and whether these parameters are stored on the same layer/module or different ones. Moreover, we do not understand the mechanism to merge the knowledge into the final embedding for next word prediction. In this paper, we explore the residual stream of transformers to increase the interpretability. We find the mechanism behind residual connection is a direct addition function on before-softmax values, so the probabilities of tokens with larger before-softmax values will increase. Moreover, we prove that using log probability increase as contribution scores is reasonable, and based on this we can locate important parameters. Besides, we propose a method to analyze how previous layers affect upper layers by comparing the inner products. The experimental results and case study show that our research can increase the interpretability of transformer-based models. We will release our code on https://github.com/zepingyu0512/residualstream.
翻訳日:2023-12-20 15:42:26 公開日:2023-12-19
# 固定予算を用いたベストアーム識別:大きな偏差視点

Best Arm Identification with Fixed Budget: A Large Deviation Perspective ( http://arxiv.org/abs/2312.12137v1 )

ライセンス: Link先を確認
Po-An Wang, Ruo-Chun Tzeng and Alexandre Proutiere(参考訳) 確率的マルチアーマッドバンド(MAB)における最適なアームを固定サンプリング予算を用いて同定する問題を考察する。 この問題に対する最小のインスタンス固有のエラー確率を特徴づけることは、MABにおける重要な未解決問題の1つである。 静的サンプリング戦略を用いてアームを選択すると、誤差確率は、大きな偏差技術によって明示的に導出できる速度でサンプル数で指数関数的に減少する。 しかし、適応サンプリング戦略を用いたアルゴリズムの性能解析の方がはるかに難しい。 本稿では,大偏差原理 (LDP) をアームドローの経験的割合で満たし, アームドローの経験的報酬で満たす関係を確立する。 この接続は任意の適応アルゴリズムを保持し、活用される (i)いくつかの既存アルゴリズムの誤差確率上限を改善するために、例えば、有名な \sr (successive rejects) アルゴリズム \citep{audibert2010best} や (ii)新しいアルゴリズムを考案し、分析すること。 特に,様々な武器の報酬の間に生じる経験的ギャップに基づいて,腕を拒絶できる真に適応的なアルゴリズムである \sred (Continuous Rejects) を提案する。 大偏差結果を適用することで、 \sredは既存のアルゴリズムである \sr よりも優れたパフォーマンス保証を享受できることを証明します。 大規模な数値実験でこの観測が確認された。

We consider the problem of identifying the best arm in stochastic Multi-Armed Bandits (MABs) using a fixed sampling budget. Characterizing the minimal instance-specific error probability for this problem constitutes one of the important remaining open problems in MABs. When arms are selected using a static sampling strategy, the error probability decays exponentially with the number of samples at a rate that can be explicitly derived via Large Deviation techniques. Analyzing the performance of algorithms with adaptive sampling strategies is however much more challenging. In this paper, we establish a connection between the Large Deviation Principle (LDP) satisfied by the empirical proportions of arm draws and that satisfied by the empirical arm rewards. This connection holds for any adaptive algorithm, and is leveraged (i) to improve error probability upper bounds of some existing algorithms, such as the celebrated \sr (Successive Rejects) algorithm \citep{audibert2010best}, and (ii) to devise and analyze new algorithms. In particular, we present \sred (Continuous Rejects), a truly adaptive algorithm that can reject arms in {\it any} round based on the observed empirical gaps between the rewards of various arms. Applying our Large Deviation results, we prove that \sred enjoys better performance guarantees than existing algorithms, including \sr. Extensive numerical experiments confirm this observation.
翻訳日:2023-12-20 15:42:06 公開日:2023-12-19
# ディープラーニングを用いた自動冠動脈の物体検出

Object Detection for Automated Coronary Artery Using Deep Learning ( http://arxiv.org/abs/2312.12135v1 )

ライセンス: Link先を確認
Hadis Keshavarz, Hossein Sadr(参考訳) デジタル医療の時代には、医療画像は早期疾患検出の幅広い技術として機能し、毎日大量の画像が生成され、電子的な患者記録に保存されている。 X線アンギオグラフィーは、冠動脈疾患を迅速診断する最も一般的な方法の1つである。 最近のディープラーニングアルゴリズムの顕著な成果は、電子健康記録と診断画像の利用の増加と一致している。 豊富なデータ、高度なアルゴリズム、強力な計算能力を利用するディープニューラルネットワークは、画像の分析と解釈に非常に効果的である。 この文脈では、オブジェクト検出手法は、特に畳み込みニューラルネットワーク(cnn)を通じて有望なアプローチとなり、手作業による特徴抽出をなくし、医用画像解析を合理化する。 これにより画像から直接の特徴抽出が可能になり、精度の高い結果が得られる。 そこで本研究では,x線血管造影画像の被写体検出法を用いて冠動脈狭窄部位を正確に同定した。 その結果, このモデルでは狭窄箇所の自動的およびリアルタイム検出が可能となり, 医療従事者にとって重要かつ敏感な意思決定プロセスを支援する。

In the era of digital medicine, medical imaging serves as a widespread technique for early disease detection, with a substantial volume of images being generated and stored daily in electronic patient records. X-ray angiography imaging is a standard and one of the most common methods for rapidly diagnosing coronary artery diseases. The notable achievements of recent deep learning algorithms align with the increased use of electronic health records and diagnostic imaging. Deep neural networks, leveraging abundant data, advanced algorithms, and powerful computational capabilities, prove highly effective in the analysis and interpretation of images. In this context, Object detection methods have become a promising approach, particularly through convolutional neural networks (CNN), streamlining medical image analysis by eliminating manual feature extraction. This allows for direct feature extraction from images, ensuring high accuracy in results. Therefore, in our paper, we utilized the object detection method on X-ray angiography images to precisely identify the location of coronary artery stenosis. As a result, this model enables automatic and real-time detection of stenosis locations, assisting in the crucial and sensitive decision-making process for healthcare professionals.
翻訳日:2023-12-20 15:41:44 公開日:2023-12-19
# オブジェクト検出のためのオブジェクト認識ドメインの一般化

Object-Aware Domain Generalization for Object Detection ( http://arxiv.org/abs/2312.12133v1 )

ライセンス: Link先を確認
Wooju Lee, Dasol Hong, Hyungtae Lim, and Hyun Myung(参考訳) single-domain generalization (s-dg) は、単一ソースドメインで未認識の環境にモデルを一般化することを目的としている。 しかし、ほとんどのS-DGアプローチは分類の分野で行われている。 これらのアプローチがオブジェクト検出に適用されると、いくつかのオブジェクトのセマンティックな特徴が損なわれ、不正確なオブジェクトのローカライゼーションと誤分類につながる可能性がある。 この問題に対処するために,オブジェクト検出における単一ドメイン一般化のためのオブジェクト認識ドメイン一般化(oa-dg)手法を提案する。 本手法は,OA-Mix と OA-Loss と呼ばれるデータ拡張と学習戦略から構成される。 oa-mixはマルチレベル変換とオブジェクト指向混合戦略を備えたマルチドメインデータを生成する。 oa-lossは、モデルがオリジナルおよびoa混合画像からオブジェクトと背景のドメイン不変表現を学習することを可能にする。 提案手法は,標準ベンチマークにおける最先端の作業よりも優れる。 私たちのコードはhttps://github.com/WoojuLee24/OA-DGで公開されています。

Single-domain generalization (S-DG) aims to generalize a model to unseen environments with a single-source domain. However, most S-DG approaches have been conducted in the field of classification. When these approaches are applied to object detection, the semantic features of some objects can be damaged, which can lead to imprecise object localization and misclassification. To address these problems, we propose an object-aware domain generalization (OA-DG) method for single-domain generalization in object detection. Our method consists of data augmentation and training strategy, which are called OA-Mix and OA-Loss, respectively. OA-Mix generates multi-domain data with multi-level transformation and object-aware mixing strategy. OA-Loss enables models to learn domain-invariant representations for objects and backgrounds from the original and OA-Mixed images. Our proposed method outperforms state-of-the-art works on standard benchmarks. Our code is available at https://github.com/WoojuLee24/OA-DG.
翻訳日:2023-12-20 15:41:27 公開日:2023-12-19
# 解釈可能性を考慮した運転不均一性を考慮した縦方向軌道の確率予測

Probabilistic Prediction of Longitudinal Trajectory Considering Driving Heterogeneity with Interpretability ( http://arxiv.org/abs/2312.12123v1 )

ライセンス: Link先を確認
Shuli Wang, Kun Gao, Lanfang Zhang, Yang Liu, Lei Chen(参考訳) 自動走行車は、人間の運転する車両と一緒に複雑な混成交通シナリオで安全に航行するように設計されている。 高い安全性を約束し、周囲の車両とその将来の位置の操作を正確に予測することが重要な課題であり、多くの注目を集める。 しかし、既存の研究のほとんどは、運転行動の多様性を十分に考慮せずに、客観的な歴史的軌跡に基づく位置情報の推論に焦点を当てている。 そこで本研究では,混合密度ネットワーク(MDN)を組み合わせた軌道予測フレームワークを提案する。 具体的には、一定期間の履歴軌道データに基づいて、キー駆動行動特徴ベクトルを抽出して異なるドライバ間の運転行動の不均一性を特徴付ける、各ドライバの状況固有の運転嗜好を識別する。 短期的履歴軌跡データとキー駆動行動特徴ベクトルの入力により、LSTMベースのエンコーダデコーダネットワークとMDN層を組み合わせた確率的LSTMMD-DBVモデルを用いて、パーソナライズされた予測を行う。 最後に, SHAP法を用いて, 学習した予測モデルの解釈を行う。 提案フレームワークは,広域車両軌道データセットに基づいてテストされる。 その結果,提案手法は,既存のベンチマークモデルと比較して予測精度が著しく向上した確率論的未来軌道を生成することができることがわかった。 さらに,運転行動の不均一性を表す運転行動特徴ベクトルの追加入力により,より多くの情報を提供し,予測精度の向上に寄与することが確認された。

Automated vehicles are envisioned to navigate safely in complex mixed-traffic scenarios alongside human-driven vehicles. To promise a high degree of safety, accurately predicting the maneuvers of surrounding vehicles and their future positions is a critical task and attracts much attention. However, most existing studies focused on reasoning about positional information based on objective historical trajectories without fully considering the heterogeneity of driving behaviors. Therefore, this study proposes a trajectory prediction framework that combines Mixture Density Networks (MDN) and considers the driving heterogeneity to provide probabilistic and personalized predictions. Specifically, based on a certain length of historical trajectory data, the situation-specific driving preferences of each driver are identified, where key driving behavior feature vectors are extracted to characterize heterogeneity in driving behavior among different drivers. With the inputs of the short-term historical trajectory data and key driving behavior feature vectors, a probabilistic LSTMMD-DBV model combined with LSTM-based encoder-decoder networks and MDN layers is utilized to carry out personalized predictions. Finally, the SHapley Additive exPlanations (SHAP) method is employed to interpret the trained model for predictions. The proposed framework is tested based on a wide-range vehicle trajectory dataset. The results indicate that the proposed model can generate probabilistic future trajectories with remarkably improved predictions compared to existing benchmark models. Moreover, the results confirm that the additional input of driving behavior feature vectors representing the heterogeneity of driving behavior could provide more information and thus contribute to improving the prediction accuracy.
翻訳日:2023-12-20 15:41:11 公開日:2023-12-19
# ZS-SRT:ニューラルネットワーク分野における効率的なゼロショット超解法学習法

ZS-SRT: An Efficient Zero-Shot Super-Resolution Training Method for Neural Radiance Fields ( http://arxiv.org/abs/2312.12122v1 )

ライセンス: Link先を確認
Xiang Feng, Yongbo He, Yubo Wang, Chengkai Wang, Zhenzhong Kuang, Jiajun Ding, Feiwei Qin, Jun Yu, Jianping Fan(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、トレーニング・ビューと同じ解像度を維持する新しいビューを合成するタスクにおいて大きな成功を収めた。 しかし、NeRFが低解像度のトレーニングデータを用いて高品質な高解像度の新規ビューを合成することは困難である。 この問題を解決するために,NRFのためのゼロショット超解像トレーニングフレームワークを提案する。 このフレームワークは、NeRFモデルを誘導し、外部の高解像度トレーニングデータを必要とせず、単一シーンの内部学習を通して高解像度の新規ビューを合成することを目的としている。 我々のアプローチは2つの段階からなる。 まず,事前学習された低分解能粗いnerf上で内部学習を行うことで,シーン固有の劣化マッピングを学習する。 第2に、低分解能2次元空間から超分解能3次元サンプリング空間への勾配をバックプロパゲートするために、マッピング関数で逆レンダリングを行うことにより、超分解能微細NeRFを最適化する。 さらに,シーン推定誤差を補償するために,推定フェーズにおいて時間的アンサンブル戦略を導入する。 本手法は,(1)高分解能のビューや追加のシーンデータを使用しない,(2)粗い対極戦略を採用することでトレーニングプロセスを高速化できる,という2点に特色がある。 公開データセットに関する広範囲な実験を行い,本手法の有効性を定量的に実証した。

Neural Radiance Fields (NeRF) have achieved great success in the task of synthesizing novel views that preserve the same resolution as the training views. However, it is challenging for NeRF to synthesize high-quality high-resolution novel views with low-resolution training data. To solve this problem, we propose a zero-shot super-resolution training framework for NeRF. This framework aims to guide the NeRF model to synthesize high-resolution novel views via single-scene internal learning rather than requiring any external high-resolution training data. Our approach consists of two stages. First, we learn a scene-specific degradation mapping by performing internal learning on a pretrained low-resolution coarse NeRF. Second, we optimize a super-resolution fine NeRF by conducting inverse rendering with our mapping function so as to backpropagate the gradients from low-resolution 2D space into the super-resolution 3D sampling space. Then, we further introduce a temporal ensemble strategy in the inference phase to compensate for the scene estimation errors. Our method is featured on two points: (1) it does not consume high-resolution views or additional scene data to train super-resolution NeRF; (2) it can speed up the training process by adopting a coarse-to-fine strategy. By conducting extensive experiments on public datasets, we have qualitatively and quantitatively demonstrated the effectiveness of our method.
翻訳日:2023-12-20 15:40:44 公開日:2023-12-19
# マインドフルな説明:XAI研究におけるマインドアトリビューションの状況と影響

Mindful Explanations: Prevalence and Impact of Mind Attribution in XAI Research ( http://arxiv.org/abs/2312.12119v1 )

ライセンス: Link先を確認
Susanne Hindennach, Lei Shi, Filip Mileti\'c and Andreas Bulling(参考訳) ユーザがAIシステムをマインドフルで独立したエージェントとして認識すると、これらのシステムを開発、設計したAI専門家の代わりに責任を負う。 これまでのところ、「考える」のような心的帰属動詞を用いることで、説明が責任の変化を支持するかどうかは研究されていない。 S2ORC(Semantic Scholar Open Research Corpus)の3,533の説明可能なAI(XAI)研究論文において、マインドアトリビュートの説明の妥当性をよりよく理解するために、AIの説明を分析した。 セマンティックシフト検出の手法を用いて、(1)比喩的(例えば「学習する」または「予測する」)、(2)意識(例えば「考える」)、(3)エージェンシー(例えば「決定する」)の3つの主要な属性を同定する。 次に,199名の参加者によるヴィグネット実験において,マインド属性説明が認知と責任に与える影響を分析した。 その結果、マインドアトリビュートした説明を受けた参加者は、AIシステムが引き起こした損害を認識できる確率が高いことがわかった。 さらに、マインド・アトリビュートの説明は、責任を負う効果があった。AI専門家の関与を考慮すると、非マインド・アトリビュートや説明を与えられた参加者に対するAI責任の評価が低下する。 対照的に、マインドアトリビュートの説明を読む参加者は、AI専門家の関与を考慮しても、依然としてAIシステムの責任を負っていた。 私たちの研究は、科学的執筆におけるAIシステムの説明を慎重に説明し、マインドアトリビューションを減らし、人間の責任を明確に伝達する必要性を強調します。

When users perceive AI systems as mindful, independent agents, they hold them responsible instead of the AI experts who created and designed these systems. So far, it has not been studied whether explanations support this shift in responsibility through the use of mind-attributing verbs like "to think". To better understand the prevalence of mind-attributing explanations we analyse AI explanations in 3,533 explainable AI (XAI) research articles from the Semantic Scholar Open Research Corpus (S2ORC). Using methods from semantic shift detection, we identify three dominant types of mind attribution: (1) metaphorical (e.g. "to learn" or "to predict"), (2) awareness (e.g. "to consider"), and (3) agency (e.g. "to make decisions"). We then analyse the impact of mind-attributing explanations on awareness and responsibility in a vignette-based experiment with 199 participants. We find that participants who were given a mind-attributing explanation were more likely to rate the AI system as aware of the harm it caused. Moreover, the mind-attributing explanation had a responsibility-concealing effect: Considering the AI experts' involvement lead to reduced ratings of AI responsibility for participants who were given a non-mind-attributing or no explanation. In contrast, participants who read the mind-attributing explanation still held the AI system responsible despite considering the AI experts' involvement. Taken together, our work underlines the need to carefully phrase explanations about AI systems in scientific writing to reduce mind attribution and clearly communicate human responsibility.
翻訳日:2023-12-20 15:40:22 公開日:2023-12-19
# cv-qkdにおける低コンプレックス鍵照合のためのイテレーション依存スケールドmin-sum復号

Iteration-Dependent Scaled Min-Sum Decoding for Low-Complexity Key Reconciliation in CV-QKD ( http://arxiv.org/abs/2312.12118v1 )

ライセンス: Link先を確認
Erdem Eray Cil and Laurent Schmalen(参考訳) CV-QKDの低レートLDPC符号に対する繰り返し依存性のスケールド・ミンサムデコードを導入し,複雑性を低減したニアサム製品アルゴリズムの性能を実現し,CV-QKDハードウェアの実装を容易にする。

We introduce an iteration-dependent scaled min-sum decoding for low-rate LDPC codes in CV-QKD, achieving near-sum product algorithm performance with reduced complexity, and facilitating CV-QKD hardware implementation.
翻訳日:2023-12-20 15:39:44 公開日:2023-12-19
# シェーピングアップシェープ:層別近傍選択による安定性の向上

Shaping Up SHAP: Enhancing Stability through Layer-Wise Neighbor Selection ( http://arxiv.org/abs/2312.12115v1 )

ライセンス: Link先を確認
Gwladys Kelodjou, Laurence Roz\'e, V\'eronique Masson, Luis Gal\'arraga, Romaric Gaudel, Maurice Tchuente, Alexandre Termier(参考訳) ディープラーニングやアンサンブル手法などの機械学習技術は、複雑な現実世界のタスクを処理できるため、様々な領域で広く使われている。 しかし、そのブラックボックスの性質は、コンピュータ支援意思決定の公平性、信頼性、透明性に多くの懸念を提起している。 これにより、ブラックボックスアルゴリズムによる個々の決定に対して説明を提供するローカルなポストホックな説明可能性メソッドが出現した。 これらの方法のうち、カーネルシェープはモデルに依存しない性質と確立された理論的枠組みのために広く使われている。 これらの強みにもかかわらず、kernel shapは高い不安定さに苦しんでいる。同じ入力を持つメソッドの実行が異なる説明につながり、ポストホックな説明可能性の有用性が低下する可能性がある。 この論文の貢献は2つある。 一方、カーネル・シャップの不安定性は確率的な隣接選択手順によって引き起こされ、説明の忠実さを損なうことなく完全な安定性を達成するために適応することを示している。 一方,第1層の連立と呼ばれるサイズ1の摂動に隣人生成を制限することにより,完全安定で効率的な計算が可能で,かつ有意義な新しい特徴分布法が得られた。

Machine learning techniques, such as deep learning and ensemble methods, are widely used in various domains due to their ability to handle complex real-world tasks. However, their black-box nature has raised multiple concerns about the fairness, trustworthiness, and transparency of computer-assisted decision-making. This has led to the emergence of local post-hoc explainability methods, which offer explanations for individual decisions made by black-box algorithms. Among these methods, Kernel SHAP is widely used due to its model-agnostic nature and its well-founded theoretical framework. Despite these strengths, Kernel SHAP suffers from high instability: different executions of the method with the same inputs can lead to significantly different explanations, which diminishes the utility of post-hoc explainability. The contribution of this paper is two-fold. On the one hand, we show that Kernel SHAP's instability is caused by its stochastic neighbor selection procedure, which we adapt to achieve full stability without compromising explanation fidelity. On the other hand, we show that by restricting the neighbors generation to perturbations of size 1 -- which we call the coalitions of Layer 1 -- we obtain a novel feature-attribution method that is fully stable, efficient to compute, and still meaningful.
翻訳日:2023-12-20 15:39:37 公開日:2023-12-19
# 時空間データに対する変分モード分解に基づく非定常コヒーレント構造解析

Variational Mode Decomposition-Based Nonstationary Coherent Structure Analysis for Spatiotemporal Data ( http://arxiv.org/abs/2312.12113v1 )

ライセンス: Link先を確認
Yuya Ohmichi(参考訳) モーダル解析技術は非定常現象を扱うのに困難に直面している。 本稿では,高次元時空間データから非定常現象の場合のコヒーレント構造の抽出と解析を可能にする変分モード分解に基づく非定常コヒーレント構造(VMD-NCS)解析を提案する。 VMD-NCS分析は、入力時空間データを非定常時空間パターンを表す固有コヒーレント構造(ICS)に分解し、空間的および時間的方向の両方でコヒーレンスを示す。 さらに,従来のモーダル解析手法とは異なり,時間的空間分布の時間的変化を考慮した手法を提案する。 VMD-NCS解析の性能はシリンダーまわりの流れの過渡的な成長現象に基づいて検証した。 その結果,遠ウェーク領域で発生する変動が徐々に近ウェーク領域に近づく渦流の過渡的成長を表わす空間分布の時間的変化は,単一のicとして表されることがわかった。 さらに, 投球翼まわりの準周期流場の解析において, 翼の投球運動の影響を受けながら, 翼後方の渦流の空間分布と振幅の時間的変化を単一のICSとして捉えた。 さらに,ICS数(K$)と時間的コヒーレンス(\alpha$)に関連するペナルティ要因(K$)を調整した2つのパラメータについて検討した。 その結果、$K$はVMD-NCS分析結果に大きな影響を及ぼすことがわかった。 比較的高いK$の場合、VMD-NCS分析は動的モード分解の結果に類似したより周期的な時空間パターンを抽出する傾向にあるが、小さな$K$の場合、この分析はより非定常時空間パターンを抽出する傾向にある。

The modal analysis techniques face difficulties in handling nonstationary phenomena. This paper presents a variational mode decomposition-based nonstationary coherent structure (VMD-NCS) analysis that enables the extraction and analysis of coherent structures in case of nonstationary phenomena from high-dimensional spatiotemporal data. The VMD-NCS analysis decomposes the input spatiotemporal data into intrinsic coherent structures (ICSs) that represent nonstationary spatiotemporal patterns and exhibit coherence in both the spatial and temporal directions. Furthermore, unlike many conventional modal analysis techniques, the proposed method accounts for the temporal changes in the spatial distribution with time. The performance of the VMD-NCS analysis was validated based on the transient growth phenomena in the flow around a cylinder. It was confirmed that the temporal changes in the spatial distribution, depicting the transient growth of vortex shedding where fluctuations arising in the far-wake region gradually approach the near-wake region, were represented as a single ICS. Further, in the analysis of the quasi-periodic flow field around a pitching airfoil, the temporal changes in the spatial distribution and the amplitude of vortex shedding behind the airfoil, influenced by the pitching motion of the airfoil, were captured as a single ICS. Additionally, the impact of two parameters, adjusting the number of ICSs ($K$) and the penalty factor related to the temporal coherence ($\alpha$), was investigated. The results revealed that $K$ has a significant impact on the VMD-NCS analysis results. In the case of a relatively high $K$, the VMD-NCS analysis tends to extract more periodic spatiotemporal patterns resembling the results of dynamic mode decomposition, whereas in the case of a small $K$, the analysis tends to extract more nonstationary spatiotemporal patterns.
翻訳日:2023-12-20 15:39:16 公開日:2023-12-19
# 計算LDM:超低データ体制における表層拡張のためのLCMの相乗効果とデータキュレーション

Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in ultra low-data regimes ( http://arxiv.org/abs/2312.12112v1 )

ライセンス: Link先を確認
Nabeel Seedat, Nicolas Huynh, Boris van Breugel, Mihaela van der Schaar(参考訳) 低データ設定での機械学習(ML)は、未承認だが重要な問題である。 この課題は、大規模なデータセットへのアクセスが制限されるか、あるいは欠落することが多い低中間所得国で顕著である。 したがって、MLに必要なデータセットのサンプルサイズを増やすためのデータ拡張方法は、データ削除されたリージョンやドメインにおけるMLの変換ポテンシャルを解放する鍵となる。 残念ながら、限定されたトレーニングセットは、mlタスクに必要な大規模で多様な拡張データセットを生成する能力において、従来の表型合成データジェネレータを制約している。 この技術的課題に対処するために,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを導入する。 多様性はあるが、LLMが生成したすべてのデータが、生成モデルのように下流タスクの実用性を高める助けになるわけではない。 そこで本研究では,学習のダイナミクスを活用し,信頼度と不確実性指標を併用した原則キュレーションプロセスを導入し,高品質なデータセットを得る。 実証的には、複数の実世界のデータセットにおいて、従来のジェネレータと比較して低データ状態におけるLLMの優れた性能を示す。 さらに,当社のキュレーション機構により,llmsを含む全ジェネレータの下流性能が向上することを示す。 さらに、LLM生成とキュレーションメカニズムに関する洞察と理解を提供し、高品質なデータセットを出力できる機能に光を当てています。 CLLMは、LLMの強みを堅牢なデータ中心のアプローチと結び付けることで、データ不足とリージョンにおけるMLのより広範な使用方法を舗装する。

Machine Learning (ML) in low-data settings remains an underappreciated yet crucial problem. This challenge is pronounced in low-to-middle income countries where access to large datasets is often limited or even absent. Hence, data augmentation methods to increase the sample size of datasets needed for ML are key to unlocking the transformative potential of ML in data-deprived regions and domains. Unfortunately, the limited training set constrains traditional tabular synthetic data generators in their ability to generate a large and diverse augmented dataset needed for ML tasks. To address this technical challenge, we introduce CLLM, which leverages the prior knowledge of Large Language Models (LLMs) for data augmentation in the low-data regime. While diverse, not all the data generated by LLMs will help increase utility for a downstream task, as for any generative model. Consequently, we introduce a principled curation process, leveraging learning dynamics, coupled with confidence and uncertainty metrics, to obtain a high-quality dataset. Empirically, on multiple real-world datasets, we demonstrate the superior performance of LLMs in the low-data regime compared to conventional generators. We further show our curation mechanism improves the downstream performance for all generators, including LLMs. Additionally, we provide insights and understanding into the LLM generation and curation mechanism, shedding light on the features that enable them to output high-quality augmented datasets. CLLM paves the way for wider usage of ML in data scarce domains and regions, by allying the strengths of LLMs with a robust data-centric approach.
翻訳日:2023-12-20 15:38:45 公開日:2023-12-19
# コントラスト信頼適応による知識グラフ誤り検出

Knowledge Graph Error Detection with Contrastive Confidence Adaption ( http://arxiv.org/abs/2312.12108v1 )

ライセンス: Link先を確認
Xiangyu Liu and Yang Liu and Wei Hu(参考訳) 知識グラフ(KG)は、しばしば様々な誤りを含む。 KGの誤り検出に関するこれまでの研究は主にグラフ構造からの三重項埋め込みに依存していた。 我々は経験的な研究を行い、これらの作品が、意味的に類似した正しい三重項からノイズを区別するのに苦労していることを発見した。 本稿では,テキストとグラフの構造情報を三重項再構成から統合し,セマンティクスをよりよく区別するKG誤り検出モデルCCAを提案する。 テキストと構造パターンの違いを捉えるために,対話型コントラスト学習を設計する。 さらに,意味的に類似する雑音や逆雑音を伴う現実的なデータセットを構築する。 実験結果から,CCAは最先端のベースライン,特に意味的相似ノイズや対向ノイズの検出に優れていた。

Knowledge graphs (KGs) often contain various errors. Previous works on detecting errors in KGs mainly rely on triplet embedding from graph structure. We conduct an empirical study and find that these works struggle to discriminate noise from semantically-similar correct triplets. In this paper, we propose a KG error detection model CCA to integrate both textual and graph structural information from triplet reconstruction for better distinguishing semantics. We design interactive contrastive learning to capture the differences between textual and structural patterns. Furthermore, we construct realistic datasets with semantically-similar noise and adversarial noise. Experimental results demonstrate that CCA outperforms state-of-the-art baselines, especially in detecting semantically-similar noise and adversarial noise.
翻訳日:2023-12-20 15:38:17 公開日:2023-12-19
# I-CEE: 画像分類モデルのユーザエキスパートへの説明

I-CEE: Tailoring Explanations of Image Classifications Models to User Expertise ( http://arxiv.org/abs/2312.12102v1 )

ライセンス: Link先を確認
Yao Rong, Peizhu Qian, Vaibhav Unhelkar, Enkelejda Kasneci(参考訳) ブラックボックス機械学習モデルの意思決定を効果的に説明することは、それらに依存するaiシステムの責任ある展開に不可欠である。 その重要性を認識して、説明可能なAI(XAI)の分野は、これらの説明を生成するためのいくつかの技術を提供している。 しかし、ユーザ(説明者)にはあまり重点を置いておらず、ほとんどのXAI技術は"ワンサイズフィット"な説明を生み出しています。 このギャップを埋め、人間中心のXAIに向けた一歩を踏み出すために、ユーザーエキスパートに適した画像分類説明を提供するフレームワークであるI-CEEを紹介します。 既存の研究から情報を得たi-ceeは、トレーニングデータ(例えば、画像)、対応するローカル説明、およびモデル決定の有益なサブセットをユーザに提供することで、画像分類モデルの意思決定を説明する。 しかし、以前の作業とは異なり、I-CEEはサンプル画像のインフォメーション性をユーザーの専門知識に依存するようにモデル化し、異なるユーザに対して異なる例をもたらす。 I-CEEは、ユーザの専門知識に設定した例を合わせることで、モデルの理解とシミュラビリティをより促進できると仮定する。 提案手法を評価するため,複数のデータセット上でシミュレーションと人間の参加者(N = 100)による詳細な実験を行った。 シミュレーションされたユーザによる実験では、I-CEEはベースラインと比較してモデルの判断(シミュラビリティ)を正確に予測する能力を改善し、期待できる予備結果を提供する。 被験者による実験により,本手法はユーザのシミュラビリティの精度を大幅に向上し,人中心型XAIの重要性を強調した。

Effectively explaining decisions of black-box machine learning models is critical to responsible deployment of AI systems that rely on them. Recognizing their importance, the field of explainable AI (XAI) provides several techniques to generate these explanations. Yet, there is relatively little emphasis on the user (the explainee) in this growing body of work and most XAI techniques generate "one-size-fits-all" explanations. To bridge this gap and achieve a step closer towards human-centered XAI, we present I-CEE, a framework that provides Image Classification Explanations tailored to User Expertise. Informed by existing work, I-CEE explains the decisions of image classification models by providing the user with an informative subset of training data (i.e., example images), corresponding local explanations, and model decisions. However, unlike prior work, I-CEE models the informativeness of the example images to depend on user expertise, resulting in different examples for different users. We posit that by tailoring the example set to user expertise, I-CEE can better facilitate users' understanding and simulatability of the model. To evaluate our approach, we conduct detailed experiments in both simulation and with human participants (N = 100) on multiple datasets. Experiments with simulated users show that I-CEE improves users' ability to accurately predict the model's decisions (simulatability) compared to baselines, providing promising preliminary results. Experiments with human participants demonstrate that our method significantly improves user simulatability accuracy, highlighting the importance of human-centered XAI
翻訳日:2023-12-20 15:38:05 公開日:2023-12-19
# 有限温度二重井戸ポテンシャルにおける量子トンネルと熱駆動遷移

Quantum Tunnelling and Thermally Driven Transitions in a Double Well Potential at Finite Temperature ( http://arxiv.org/abs/2312.12101v1 )

ライセンス: Link先を確認
Robson Christie, Jessica Eastman(参考訳) 種々の物理・化学過程に中心的な現象である散逸量子トンネルをダブルウェルポテンシャルモデルを用いて探究する。 本稿では、熱活性化から量子トンネルへのクロスオーバーを理解する上でのギャップを埋めることを目的としている。 カルデイラ・レゲットが導いた量子ブラウン運動のモデルについて検討し、リンドブラッドおよび確率的シュレーディンガーダイナミクスを数値的に研究し、クロスオーバー領域における遷移状態に関する新たな洞察を提供する。 我々の研究は、量子コンピューティングと基本的な自然過程の理解に影響を及ぼし、遷移速度とトンネルの温度の影響に対する量子効果の重要性を強調した。 さらに、リンドブラッド形式を取る量子ブラウン運動の新しいモデルを導入し、breuer と petruccione で広く知られているモデルの修正として定式化する。 提案手法では, 極小近傍の低温量子ブラウン運動をより良く記述するために, 零温度特異性を除去した。

We explore dissipative quantum tunnelling, a phenomenon central to various physical and chemical processes, using a double-well potential model. This paper aims to bridge gaps in understanding the crossover from thermal activation to quantum tunnelling, a domain still shrouded in mystery despite extensive research. We study a Caldeira-Leggett-derived model of quantum Brownian motion and investigate the Lindblad and stochastic Schr\"{o}dinger dynamics numerically, seeking to offer new insights into the transition states in the crossover region. Our study has implications for quantum computing and understanding fundamental natural processes, highlighting the significance of quantum effects on transition rates and temperature influences on tunnelling. Additionally, we introduce a new model for quantum Brownian motion which takes Lindblad form and is formulated as a modification of the widely known model found in Breuer and Petruccione. In our approach, we remove the zero-temperature singularity resulting in a better description of low-temperature quantum Brownian motion near a potential minima.
翻訳日:2023-12-20 15:37:15 公開日:2023-12-19
# VITA:「重みと体重が減る」は医薬勧告より優れている

VITA: 'Carefully Chosen and Weighted Less' Is Better in Medication Recommendation ( http://arxiv.org/abs/2312.12100v1 )

ライセンス: Link先を確認
Taeri Kim, Jiho Heo, Hongil Kim, Kijung Shin, Sang-Wook Kim(参考訳) 本稿では,患者の現在および過去の来院時の情報(診断・処置など)を活用することで,患者の現在訪問に有効な薬剤を推奨する薬剤推奨問題に対処する。 この問題を解決するために設計された推薦システムにはいくつか存在するが、現在の健康状態を得る際に、患者に対する現在と過去の訪問の各々との関係(種別、関連性の程度)を正確に把握することが課題であり、これは医薬品の推奨の基礎である。 この制限に対処するために,(1)関連視覚選択,(2)ターゲット認識注意という2つの新しい考え方に基づいて,VITAという新しい薬剤推奨フレームワークを提案する。 実世界のデータセットを用いた広範な実験を通じて、VITAの優位性(特に、ジャカードの点で最大5.56%の精度)と、2つの中核的概念の有効性を実証する。 コードはhttps://github.com/jhheo0123/VITAで公開されている。

We address the medication recommendation problem, which aims to recommend effective medications for a patient's current visit by utilizing information (e.g., diagnoses and procedures) given at the patient's current and past visits. While there exist a number of recommender systems designed for this problem, we point out that they are challenged in accurately capturing the relation (spec., the degree of relevance) between the current and each of the past visits for the patient when obtaining her current health status, which is the basis for recommending medications. To address this limitation, we propose a novel medication recommendation framework, named VITA, based on the following two novel ideas: (1) relevant-Visit selectIon; (2) Target-aware Attention. Through extensive experiments using real-world datasets, we demonstrate the superiority of VITA (spec., up to 5.56% higher accuracy, in terms of Jaccard, than the best competitor) and the effectiveness of its two core ideas. The code is available at https://github.com/jhheo0123/VITA.
翻訳日:2023-12-20 15:36:43 公開日:2023-12-19
# iotのための分散協調型機械学習フレームワーク

Decentralised and collaborative machine learning framework for IoT ( http://arxiv.org/abs/2312.12190v1 )

ライセンス: Link先を確認
Mart\'in Gonz\'alez-Soto and Rebeca P. D\'iaz-Redondo and Manuel Fern\'andez-Veiga and Bruno Rodr\'iguez-Castro and Ana Fern\'andez-Vilas(参考訳) 分散機械学習は、最近、正準連合学習アプローチのセキュリティ問題に対する潜在的な解決策として提案されている。 本稿では,iotデプロイメントにおいて普通に使用される,リソース制約のあるデバイスに特化した分散協調型機械学習フレームワークを提案する。 この目的により、以下の構成ブロックを提案する。 第一に、低パフォーマンスコンピューティング要素で動作するために特別に実装されたプロトタイプに基づく漸進学習アルゴリズム。 第二に、ネットワーク内のコンピューティング要素間でローカルモデルを交換するランダムベースのプロトコルが2つある。 最後に、予測とプロトタイプ作成のための2つのアルゴリズムアプローチ。 この提案は、精度、トレーニング時間、堅牢性、非常に有望な結果という観点から、典型的な集中型インクリメンタル学習アプローチと比較された。

Decentralised machine learning has recently been proposed as a potential solution to the security issues of the canonical federated learning approach. In this paper, we propose a decentralised and collaborative machine learning framework specially oriented to resource-constrained devices, usual in IoT deployments. With this aim we propose the following construction blocks. First, an incremental learning algorithm based on prototypes that was specifically implemented to work in low-performance computing elements. Second, two random-based protocols to exchange the local models among the computing elements in the network. Finally, two algorithmics approaches for prediction and prototype creation. This proposal was compared to a typical centralized incremental learning approach in terms of accuracy, training time and robustness with very promising results.
翻訳日:2023-12-20 15:29:32 公開日:2023-12-19
# spatialconfiguration-net と u-net を用いた cbct 画像における歯の局在と病変分割

Teeth Localization and Lesion Segmentation in CBCT Images using SpatialConfiguration-Net and U-Net ( http://arxiv.org/abs/2312.12189v1 )

ライセンス: Link先を確認
Arnela Hadzic and Barbara Kirnbauer and Darko Stern and Martin Urschler(参考訳) コーンビームCT(CBCT)画像における歯の局在と根尖部病変のセグメンテーションは臨床診断と治療計画にとって重要な課題であり,高い専門知識を必要とすることが多い。 しかし, 歯の形状, 大きさ, 向きの違い, 歯列の類似性から, これらの課題の自動化は困難である。 さらに,CBCT画像の病変が占める小ボリュームは,対処すべきクラス不均衡の問題を引き起こす。 本研究では,2つの畳み込みニューラルネットワーク,SpatialConfiguration-Net(SCN)とU-Netの修正版を用いた深層学習手法を提案する。 scnは画像中のすべての歯の座標を正確に予測し、u-netに供給された歯の体積を正確に切り取り、分節化によって病変を検出する。 クラス不均衡に対処するために、3つの再重み付け損失関数の性能を比較する。 144 CBCT画像の評価の結果, 歯の局所化には97.3%の精度, 有望な感度, 特異性には0.97, 0.88の精度が得られた。

The localization of teeth and segmentation of periapical lesions in cone-beam computed tomography (CBCT) images are crucial tasks for clinical diagnosis and treatment planning, which are often time-consuming and require a high level of expertise. However, automating these tasks is challenging due to variations in shape, size, and orientation of lesions, as well as similar topologies among teeth. Moreover, the small volumes occupied by lesions in CBCT images pose a class imbalance problem that needs to be addressed. In this study, we propose a deep learning-based method utilizing two convolutional neural networks: the SpatialConfiguration-Net (SCN) and a modified version of the U-Net. The SCN accurately predicts the coordinates of all teeth present in an image, enabling precise cropping of teeth volumes that are then fed into the U-Net which detects lesions via segmentation. To address class imbalance, we compare the performance of three reweighting loss functions. After evaluation on 144 CBCT images, our method achieves a 97.3% accuracy for teeth localization, along with a promising sensitivity and specificity of 0.97 and 0.88, respectively, for subsequent lesion detection.
翻訳日:2023-12-20 15:29:23 公開日:2023-12-19
# 階層型グラフ埋め込みのためのPoincar\'e差分プライバシー

Poincar\'e Differential Privacy for Hierarchy-aware Graph Embedding ( http://arxiv.org/abs/2312.12183v1 )

ライセンス: Link先を確認
Yuecen Wei, Haonan Yuan, Xingcheng Fu, Qingyun Sun, Hao Peng, Xianxian Li, Chunming Hu(参考訳) 階層性(Hierarchy)は現実世界のグラフにおいて重要かつよく見られるトポロジ的特性であり、監督者と部下の関係や人間のグループの組織行動を示す。 階層構造は、さまざまなタスクにおいてグラフニューラルネットワーク(GNN)に新たな帰納バイアスとして導入されるため、攻撃者が推論攻撃のパフォーマンスを改善するための潜在的なトポロジ的関係が、重大なプライバシー漏洩問題を引き起こしている。 さらに、既存のプライバシー保護フレームワークは、階層的摂動境界の適応的上界推定の欠如により、階層的伝播の保護能力が低下する。 プライバシーの保証を満足しながら、データの階層的特性を効果的に活用することは、非常に緊急である。 この問題を解決するため,双曲幾何学に基づく階層認識グラフの埋め込みを保護するため,Poincar\'e Differential Privacy Framework(PoinDP)を提案する。 特に、PoinDPは双曲空間におけるPoincar\'eモデルに基づいて各エンティティの階層重みを学習する。 そして、階層構造の感度を計測し、プライバシ保護強度を適応的にアロケートするように、パーソナライズされた階層認識感度を設計する。 さらに、双曲空間のガウス機構(HGM)は、双曲空間のガウス機構を双曲空間に拡張し、双曲空間計量の下で微分プライバシーを満たすランダム摂動を実現する。 5つの実世界のデータセットに関する広範な実験の結果は、ノード分類タスクで優れたパフォーマンスを維持しつつ、効果的なプライバシ保護というpoindpの利点を実証している。

Hierarchy is an important and commonly observed topological property in real-world graphs that indicate the relationships between supervisors and subordinates or the organizational behavior of human groups. As hierarchy is introduced as a new inductive bias into the Graph Neural Networks (GNNs) in various tasks, it implies latent topological relations for attackers to improve their inference attack performance, leading to serious privacy leakage issues. In addition, existing privacy-preserving frameworks suffer from reduced protection ability in hierarchical propagation due to the deficiency of adaptive upper-bound estimation of the hierarchical perturbation boundary. It is of great urgency to effectively leverage the hierarchical property of data while satisfying privacy guarantees. To solve the problem, we propose the Poincar\'e Differential Privacy framework, named PoinDP, to protect the hierarchy-aware graph embedding based on hyperbolic geometry. Specifically, PoinDP first learns the hierarchy weights for each entity based on the Poincar\'e model in hyperbolic space. Then, the Personalized Hierarchy-aware Sensitivity is designed to measure the sensitivity of the hierarchical structure and adaptively allocate the privacy protection strength. Besides, the Hyperbolic Gaussian Mechanism (HGM) is proposed to extend the Gaussian mechanism in Euclidean space to hyperbolic space to realize random perturbations that satisfy differential privacy under the hyperbolic space metric. Extensive experiment results on five real-world datasets demonstrate the proposed PoinDP's advantages of effective privacy protection while maintaining good performance on the node classification task.
翻訳日:2023-12-20 15:29:00 公開日:2023-12-19
# StyleSpeech: 音声合成のためのVQ-VAEに基づく事前学習による自己教師型スタイルエンハンシング

StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis ( http://arxiv.org/abs/2312.12181v1 )

ライセンス: Link先を確認
Xueyuan Chen, Xi Wang, Shaofei Zhang, Lei He, Zhiyong Wu, Xixin Wu, Helen Meng(参考訳) オーディオブックの合成音声の表現品質は、一般化されたモデルアーキテクチャとトレーニングデータにおけるアンバランスなスタイル分布によって制限される。 本稿では,vq-vaeに基づく音声合成のための事前学習による自己教師付きスタイル拡張手法を提案する。 まず、テキストスタイルエンコーダは、大量のラベルなしテキスト専用データで事前訓練される。 第二に、VQ-VAEに基づくスペクトログラムスタイル抽出器は、複雑なスタイルのバリエーションをカバーする多くのオーディオデータとともに、自己教師方式で事前訓練される。 次に、2つのエンコーダ・デコーダパスを持つ新しいアーキテクチャを、それぞれ、スタイル抽出器のガイダンスを用いて、発音とハイレベルなスタイル表現をモデル化するように特別に設計する。 目的的および主観的評価から,本手法は音声合成における合成音声の自然性と表現性を,特にドメイン外のシナリオにおいて効果的に改善できることを示す。

The expressive quality of synthesized speech for audiobooks is limited by generalized model architecture and unbalanced style distribution in the training data. To address these issues, in this paper, we propose a self-supervised style enhancing method with VQ-VAE-based pre-training for expressive audiobook speech synthesis. Firstly, a text style encoder is pre-trained with a large amount of unlabeled text-only data. Secondly, a spectrogram style extractor based on VQ-VAE is pre-trained in a self-supervised manner, with plenty of audio data that covers complex style variations. Then a novel architecture with two encoder-decoder paths is specially designed to model the pronunciation and high-level style expressiveness respectively, with the guidance of the style extractor. Both objective and subjective evaluations demonstrate that our proposed method can effectively improve the naturalness and expressiveness of the synthesized speech in audiobook synthesis especially for the role and out-of-domain scenarios.
翻訳日:2023-12-20 15:28:34 公開日:2023-12-19
# urbansyn datasetは、合成運転シーンの3人目のマスケット選手

All for One, and One for All: UrbanSyn Dataset, the third Musketeer of Synthetic Driving Scenes ( http://arxiv.org/abs/2312.12176v1 )

ライセンス: Link先を確認
Jose L. G\'omez, Manuel Silva, Antonio Seoane, Agn\`es Borr\'as, Mario Noriega, Germ\'an Ros, Jose A. Iglesias-Guitian, Antonio M. L\'opez(参考訳) 本稿では,半プロデューラルに生成した合成都市運転シナリオから得られたフォトリアリスティックデータセットであるUrbanSynを紹介する。 高品質な幾何学と材料を用いて開発されたUrbanSynは、深度、セマンティックセグメンテーション、オブジェクト境界ボックスによるインスタンスセグメンテーションを含むピクセルレベルの地上真実を提供する。 これはGTAVとSynscapesのデータセットを補完し、私たちが'Three Musketeers'と呼ぶものを形成する。 画像セマンティクスセグメンテーションのための教師なし領域適応における3つのマスケットの値を示す。 実際のデータセット、Cityscapes、Mapillary Vistas、BDD100Kの結果は、主にUrbanSynによる新しいベンチマークを確立した。 UrbanSynをオープンかつ自由に利用できるようにする(www.urbansyn.org)。

We introduce UrbanSyn, a photorealistic dataset acquired through semi-procedurally generated synthetic urban driving scenarios. Developed using high-quality geometry and materials, UrbanSyn provides pixel-level ground truth, including depth, semantic segmentation, and instance segmentation with object bounding boxes and occlusion degree. It complements GTAV and Synscapes datasets to form what we coin as the 'Three Musketeers'. We demonstrate the value of the Three Musketeers in unsupervised domain adaptation for image semantic segmentation. Results on real-world datasets, Cityscapes, Mapillary Vistas, and BDD100K, establish new benchmarks, largely attributed to UrbanSyn. We make UrbanSyn openly and freely accessible (www.urbansyn.org).
翻訳日:2023-12-20 15:28:18 公開日:2023-12-19
# 量子力学における不定因数順序の利点の再評価

Reassessing the advantage of indefinite causal orders for quantum metrology ( http://arxiv.org/abs/2312.12172v1 )

ライセンス: Link先を確認
Rapha\"el Mothe, Cyril Branciard and Alastair A. Abbott(参考訳) 不定因果順序を持つ過程の標準的例である量子スイッチは、量子メトロロジーの分野における特定の特定のタスクに対して決定的な因果順序を持つ過程に対して様々な利点をもたらすと主張されている。 この研究において、これらの利点のいくつかは、より公平な比較がなされても、実際には成り立たないと論じる。 この目的のために、量子フィッシャー情報によって定量化された性能と、不定因果順序過程の異なるクラスと、与えられたメトロロジータスクにおける因果戦略とを適切に比較できる枠組みを検討する。 より一般的には、最近提案された因果順序を古典的または量子的に制御する回路のクラスを考えることによって、不定因果順序を持つプロセスが、決定的因果順序を持つプロセスよりも有利である(またはそうではない)という異なる例を考え出す。 その結果、様々な例において、物理的に実現可能であることが知られている因果順序の量子制御を持つ量子回路のクラスは、因果重畳を持つ量子回路のクラスと同様に因果重畳を持つ因果順序の量子回路よりも厳密な優位性を持つことが示された。 したがって、このクラスを考えると、不定因数順序戦略が量子力学において明確な因数順序戦略より厳密に優れているという新たな証拠が得られる。 さらに, 因果順序を量子制御する量子回路の特徴である因果順序の動的制御は, 単に因果重ね合わせの量子回路ではなく, 因果順序を量子制御する量子回路の特徴であることを示す。

The quantum switch, the canonical example of a process with indefinite causal order, has been claimed to provide various advantages over processes with definite causal orders for some particular tasks in the field of quantum metrology. In this work, we argue that some of these advantages in fact do not hold if a fairer comparison is made. To this end, we consider a framework that allows for a proper comparison between the performance, quantified by the quantum Fisher information, of different classes of indefinite causal order processes and that of causal strategies on a given metrological task. More generally, by considering the recently proposed classes of circuits with classical or quantum control of the causal order, we come up with different examples where processes with indefinite causal order offer (or not) an advantage over processes with definite causal order, qualifying the interest of indefinite causal order regarding quantum metrology. As it turns out, for a range of examples, the class of quantum circuits with quantum control of causal order, which are known to be physically realizable, is shown to provide a strict advantage over causally ordered quantum circuits as well as over the class of quantum circuits with causal superposition. Thus, considering this class provides new evidence that indefinite causal order strategies can strictly outperform definite causal order strategies in quantum metrology. Moreover, it shows that the so-called dynamical control of causal order, a feature of quantum circuits with quantum control of the causal order but not of quantum circuits with mere causal superposition, can be a useful resource in quantum metrology.
翻訳日:2023-12-20 15:28:02 公開日:2023-12-19
# 高次光子相関関数を用いた非コヒーレント回折像の位相検索

Phase Retrieval in Incoherent Diffractive Imaging using higher-order photon correlation functions ( http://arxiv.org/abs/2312.12168v1 )

ライセンス: Link先を確認
M. Bojer, J. Eckert, S. Karl, S. Richter, and J. von Zanthier(参考訳) X線構造解析における任意の物体に関する空間情報を得るため、標準手法は遠距離場の強度を測定することであり、すなわち、コヒーレント散乱X線光子の1次光子相関関数(コヒーレント回折イメージング)である。 近年,不連続に散乱した光子を観測し,第2次光子相関関数を計測し,未知の物体の形状を再構成することが提案されている(非干渉回折イメージング)。 しかし,後者の手法の長所は多岐にわたるが,両者とも位相検索問題に苦しむ。 近年,3次光子相関関数に基づく散乱物体のいわゆる構造因子の位相を再構成するab-initio位相検索アルゴリズムが報告されている。 このアルゴリズムは、重要なが不完全な位相情報を含み、三重相関やスペックルマスクや天文学の応用でよく知られる、いわゆるクロージャフェーズを利用する。 ここでは、X線構造解析の文脈における基礎となるスキームと量について詳細に分析する。 特に、完全量子力学処理における3階光子相関関数を明示的に計算し、それから構成される閉相方程式の特異性について議論する。 この文脈では、閉鎖相の符号問題を再カプセル化し、冗長な情報を用いてそれを持ち上げる方法について述べる。 さらに, 4点相関関数などの高次光子相関関数を用いて, 4点相関関数に現れる新しい位相関係を導出することにより, アルゴリズムを改善できることを示す。

To obtain spatial information about an arbitrary object in x-ray structure analysis, the standard method is to measure the intensity in the far field, i.e., the first-order photon correlation function of the coherently scattered x-ray photons (coherent diffractive imaging). Recently, it was suggested to record alternatively the incoherently scattered photons and measure the second-order photon correlation function to reconstruct the geometry of the unknown object (incoherent diffractive imaging). Yet, besides various advantages of the latter method, both techniques suffer from the so-called phase retrieval problem. Lately, an ab-initio phase retrieval algorithm to reconstruct the phase of the so-called structure factor of the scattering objects based on the third-order photon correlation function was reported. The algorithm makes use of the so-called closure phase, which contains important, yet incomplete phase information, well-known from triple correlations and their bispectrum in speckle masking and astronomy applications. Here, we provide a detailed analysis of the underlying scheme and quantities in the context of x-ray structure analysis. In particular, we explicitly calculate the third-order photon correlation function in a full quantum mechanical treatment and discuss the uniqueness of the closure phase equations constructed from it. In this context, we recapitulate the sign problem of the closure phase and how it can be lifted using redundant information. We further show how the algorithm can be improved using even higher-order photon correlation functions, e.g., the fourth-order correlation function, delivering new phase relations appearing in the four-point correlations.
翻訳日:2023-12-20 15:27:30 公開日:2023-12-19
# 分散QCNNを用いたマルウェアの詳細な検出に向けて

Towards an in-depth detection of malware using distributed QCNN ( http://arxiv.org/abs/2312.12161v1 )

ライセンス: Link先を確認
Tony Quertier and Gr\'egoire Barru\'e(参考訳) マルウェア検出は、現在のサイバーセキュリティの重要なトピックであり、機械学習は新しいマルウェアに一般化する特定の問題が残っているとしても、主要なソリューションの1つと考えられている。 この領域での量子機械学習の可能性を探るため、これまでの研究では、数量子ビットを使用すると、画像ベースのマルウェア検出では量子ニューラルネットワークがうまく機能しないことを示した。 画像を用いたマルウェア検出のための量子アルゴリズムの性能を向上させるため、量子ビットで必要なリソースを増大させることなく、グレースケール法を用いてデータセットの新たな前処理を実装し、それを5つの分散量子畳み込みネットワークとスコアリング関数からなるモデルと組み合わせた。 テストの正確さとf1-scoreの両方に基づいて、結果の約20%を増加させました。

Malware detection is an important topic of current cybersecurity, and Machine Learning appears to be one of the main considered solutions even if certain problems to generalize to new malware remain. In the aim of exploring the potential of quantum machine learning on this domain, our previous work showed that quantum neural networks do not perform well on image-based malware detection when using a few qubits. In order to enhance the performances of our quantum algorithms for malware detection using images, without increasing the resources needed in terms of qubits, we implement a new preprocessing of our dataset using Grayscale method, and we couple it with a model composed of five distributed quantum convolutional networks and a scoring function. We get an increase of around 20 \% of our results, both on the accuracy of the test and its F1-score.
翻訳日:2023-12-20 15:27:05 公開日:2023-12-19
# バランスアライメントに向けて:ビデオモーメント検索のためのモーダル強化セマンティックモデリング

Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval ( http://arxiv.org/abs/2312.12155v1 )

ライセンス: Link先を確認
Zhihang Liu, Jun Li, Hongtao Xie, Pandeng Li, Jiannan Ge, Sun-Ao Liu, Guoqing Jin(参考訳) ビデオモーメント検索 (VMR) は、モーダルなアライメント戦略を構築することで、与えられた言語クエリに対応するビデオの時間セグメントを検索することを目的としている。 しかし、これらの既存の戦略は、モダリティの不均衡問題である \textit{i.e} を無視しているため、しばしば最適ではない。 したがって、より良いアライメントを求めるために、自然なアイデアは、ビデオモダリティを強化してクエリ非関連セマンティクスをフィルタリングし、テキストモダリティを強化して、より多くのセグメント関連知識を捉えることである。 本稿では,2段階の機能強化を通じて,よりバランスのとれたアライメントを実現するための新しいフレームワークであるModal-Enhanced Semantic Modeling (MESM)を紹介する。 まず,単語再構成によりフレームワードレベルでの映像のモダリティを向上させる。 この戦略は、フレームレベルの特徴におけるクエリワードに関連する部分を強調し、無関係な部分を抑制する。 したがって、拡張ビデオは冗長な意味論をあまり含んでおらず、テキストのモダリティとよりバランスが取れている。 第2に,文脈文や接地語節から相補的知識を学習することで,セグメント文レベルでのテキストのモダリティを高める。 クエリに知識を加えることで、テキストのモダリティはより意味のあるセマンティクスを保持し、ビデオのモダリティとよりバランスをとる。 2段階のMESMを実装することにより、両方のモダリティからのセマンティック情報がバランスよく整合し、モダリティギャップを埋める。 広く使われている3つのベンチマーク(例えば、charades-staとcharades-cgにおけるr1@0.7の平均値の4.42%と7.69%)の実験では、提案されたフレームワークが、注目すべき一般化能力を持つ新しい技術起動性能を達成していることを示している。 コードはhttps://github.com/lntzm/mesmで入手できる。

Video Moment Retrieval (VMR) aims to retrieve temporal segments in untrimmed videos corresponding to a given language query by constructing cross-modal alignment strategies. However, these existing strategies are often sub-optimal since they ignore the modality imbalance problem, \textit{i.e.}, the semantic richness inherent in videos far exceeds that of a given limited-length sentence. Therefore, in pursuit of better alignment, a natural idea is enhancing the video modality to filter out query-irrelevant semantics, and enhancing the text modality to capture more segment-relevant knowledge. In this paper, we introduce Modal-Enhanced Semantic Modeling (MESM), a novel framework for more balanced alignment through enhancing features at two levels. First, we enhance the video modality at the frame-word level through word reconstruction. This strategy emphasizes the portions associated with query words in frame-level features while suppressing irrelevant parts. Therefore, the enhanced video contains less redundant semantics and is more balanced with the textual modality. Second, we enhance the textual modality at the segment-sentence level by learning complementary knowledge from context sentences and ground-truth segments. With the knowledge added to the query, the textual modality thus maintains more meaningful semantics and is more balanced with the video modality. By implementing two levels of MESM, the semantic information from both modalities is more balanced to align, thereby bridging the modality gap. Experiments on three widely used benchmarks, including the out-of-distribution settings, show that the proposed framework achieves a new start-of-the-art performance with notable generalization ability (e.g., 4.42% and 7.69% average gains of R1@0.7 on Charades-STA and Charades-CG). The code will be available at https://github.com/lntzm/MESM.
翻訳日:2023-12-20 15:26:49 公開日:2023-12-19
# SoftCTM:ソフトインスタンスセグメンテーションによる細胞検出と細胞間相互作用の検討

SoftCTM: Cell detection by soft instance segmentation and consideration of cell-tissue interaction ( http://arxiv.org/abs/2312.12151v1 )

ライセンス: Link先を確認
Lydia A. Schoenpflug and Viktor H. Koelzer(参考訳) 病理組織学h\&e染色全スライド画像における細胞の検出と分類は,腫瘍微小環境に関する貴重な知見を提供するため,計算病理学において重要な課題である。 本研究では,真理形式がモデル性能に与える影響について検討する。 さらに、細胞検出モデルへの入力として組織分節予測を提供することにより、細胞間相互作用を考慮する。 や、確率マップインスタンスのセグメンテーションの根拠 真理が最良のモデルパフォーマンスをもたらすことが分かりました。 SoftCTM(Soft Cell-Tissue-Model)は,細胞間相互作用とテスト時間増強を組み合わせたオーバーラップした細胞組織(OCELOT)テストセットにおいて0.7172の平均F1スコアを達成し,OCELOT 2023 Challengeで3番目に優れたスコアを獲得した。 私たちのアプローチのソースコードはhttps://github.com/lely475/ocelot23algoで公開されています。

Detecting and classifying cells in histopathology H\&E stained whole-slide images is a core task in computational pathology, as it provides valuable insight into the tumor microenvironment. In this work we investigate the impact of ground truth formats on the models performance. Additionally, cell-tissue interactions are considered by providing tissue segmentation predictions as input to the cell detection model. We find that a "soft", probability-map instance segmentation ground truth leads to best model performance. Combined with cell-tissue interaction and test-time augmentation our Soft Cell-Tissue-Model (SoftCTM) achieves 0.7172 mean F1-Score on the Overlapped Cell On Tissue (OCELOT) test set, achieving the third best overall score in the OCELOT 2023 Challenge. The source code for our approach is made publicly available at https://github.com/lely475/ocelot23algo.
翻訳日:2023-12-20 15:26:12 公開日:2023-12-19
# 事前学習言語モデルのためのパラメータ効率の良い微調整法:批判的レビューと評価

Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment ( http://arxiv.org/abs/2312.12148v1 )

ライセンス: Link先を確認
Lingling Xu, Haoran Xie, Si-Zhao Joe Qin, Xiaohui Tao, Fu Lee Wang(参考訳) トランスフォーマーベース事前訓練言語モデル(PLM)のパラメータの連続的な増加、特に数十億のパラメータを持つ大規模言語モデル(LLM)の出現により、多くの自然言語処理(NLP)タスクが顕著に成功している。 しかし、これらのモデルの膨大なサイズと計算要求は、特に限られた計算資源を持つ環境において、特定の下流タスクに適応する上で大きな課題をもたらす。 パラメータ効率の良いファインチューニング(PEFT)は、完全なファインチューニングに匹敵する性能を保ちながら、ファインチューニングパラメータとメモリ使用量を削減し、効果的なソリューションを提供する。 微調整 PLM ,特に LLM の需要は,第1図に示すように,PEFT 法の発展に拍車を掛けている。 本稿では,PEFT法を包括的かつ体系的に検討する。 我々はこれらのPEFT手法を要約し、それらの応用について議論し、今後の方向性を概説する。 さらに,パラメータ効率とメモリ効率をよりよく理解するために,いくつかの代表的PEFT法を用いて実験を行った。 この調査は、最新の進歩と実践的応用に関する洞察を提供することによって、PEFTがPLMの文脈で提示した課題と機会をナビゲートしようとする研究者や実践者にとって、貴重な情報源となる。

With the continuous growth in the number of parameters of transformer-based pretrained language models (PLMs), particularly the emergence of large language models (LLMs) with billions of parameters, many natural language processing (NLP) tasks have demonstrated remarkable success. However, the enormous size and computational demands of these models pose significant challenges for adapting them to specific downstream tasks, especially in environments with limited computational resources. Parameter Efficient Fine-Tuning (PEFT) offers an effective solution by reducing the number of fine-tuning parameters and memory usage while achieving comparable performance to full fine-tuning. The demands for fine-tuning PLMs, especially LLMs, have led to a surge in the development of PEFT methods, as depicted in Fig. 1. In this paper, we present a comprehensive and systematic review of PEFT methods for PLMs. We summarize these PEFT methods, discuss their applications, and outline future directions. Furthermore, we conduct experiments using several representative PEFT methods to better understand their effectiveness in parameter efficiency and memory efficiency. By offering insights into the latest advancements and practical applications, this survey serves as an invaluable resource for researchers and practitioners seeking to navigate the challenges and opportunities presented by PEFT in the context of PLMs.
翻訳日:2023-12-20 15:25:55 公開日:2023-12-19
# OVD-Explorer:楽観主義はノイズの多い環境での探索の絶対的目的ではない

OVD-Explorer:Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments ( http://arxiv.org/abs/2312.12145v1 )

ライセンス: Link先を確認
Jinyi Liu, Zhi Wang, Yan Zheng, Jianye Hao, Chenjia Bai, Junjie Ye, Zhen Wang, Haiyin Piao, Yang Sun(参考訳) 強化学習において、不確実性(OFU)に直面した楽観主義は、調査の少ない領域への探索を指示する主要な原則であり、不確実性が高いことが特徴である。 しかし、環境確率性(noise)の存在下では、純粋に楽観的な探検は高音域の過剰な探索につながり、探検効率を損なう可能性がある。 したがって、ノイズの多い環境を探索する際には、楽観主義による探索が基礎となる一方で、高騒音領域における不要な過剰探索を緩和するための慎重な注意が益となる。 本研究では,連続制御のための雑音を考慮した楽観的な探索を実現するために,OVD-Explorer(Optimistic Value Distribution Explorer)を提案する。 OVD-Explorerは楽観的な視点でノイズを考慮した政策の探索能力を新たに測定し、勾配上昇を利用して探索を行う。 実際、OVD-Explorerは連続制御RLアルゴリズムと容易に統合できる。 MuJoCoおよびGridChaosタスクの広範囲な評価は、ノイズを考慮した楽観的な探索を実現する上で、OVD-Explorerの優位性を示している。

In reinforcement learning, the optimism in the face of uncertainty (OFU) is a mainstream principle for directing exploration towards less explored areas, characterized by higher uncertainty. However, in the presence of environmental stochasticity (noise), purely optimistic exploration may lead to excessive probing of high-noise areas, consequently impeding exploration efficiency. Hence, in exploring noisy environments, while optimism-driven exploration serves as a foundation, prudent attention to alleviating unnecessary over-exploration in high-noise areas becomes beneficial. In this work, we propose Optimistic Value Distribution Explorer (OVD-Explorer) to achieve a noise-aware optimistic exploration for continuous control. OVD-Explorer proposes a new measurement of the policy's exploration ability considering noise in optimistic perspectives, and leverages gradient ascent to drive exploration. Practically, OVD-Explorer can be easily integrated with continuous control RL algorithms. Extensive evaluations on the MuJoCo and GridChaos tasks demonstrate the superiority of OVD-Explorer in achieving noise-aware optimistic exploration.
翻訳日:2023-12-20 15:25:33 公開日:2023-12-19
# M-BEV:ロバストな自動運転のためのマスク付きのBEV知覚

M-BEV: Masked BEV Perception for Robust Autonomous Driving ( http://arxiv.org/abs/2312.12144v1 )

ライセンス: Link先を確認
Siran Chen, Yue Ma, Yu Qiao, Yali Wang(参考訳) 3D知覚は自動運転において重要な問題である。 近年,バードアイビュー (Bird-Eye-View, BEV) アプローチが注目されている。 しかし、既存のモデルは駆動手順中に現実的なシナリオを無視し、例えば1台以上のビューカメラが故障し、性能が大幅に低下する可能性がある。 この問題に対処するために,マスクをランダムにマスキングし,エンドツーエンドのトレーニングでカメラビューを再構成することにより,この難題に対する堅牢性を効果的に向上する汎用型マスク付きBEV(M-BEV)認識フレームワークを提案する。 より具体的には、M-BEVのための新しいMasked View Restruction (MVR)モジュールを開発する。 異なるカメラビューの特徴をランダムにマスキングし、これらのビューの本来の特徴を自己スーパービジョンとして活用し、ビューの異なる時空間コンテキストでマスクされたものを再構築する。 私たちのM-BEVは、プラグ&プレイのようなMVRによって、残りのものから見失ったビューを学習することができ、堅牢なビューリカバリとテストの正確な認識のために十分に一般化されています。 一般的なNuScenesベンチマークにおいて、バックビューがない場合、M-BEVは10.3%のmAPゲインを持つPETRv2モデルをプロモートするなど、最先端のモデルにおける3次元知覚性能を大幅に向上させることができる。

3D perception is a critical problem in autonomous driving. Recently, the Bird-Eye-View (BEV) approach has attracted extensive attention, due to low-cost deployment and desirable vision detection capacity. However, the existing models ignore a realistic scenario during the driving procedure, i.e., one or more view cameras may be failed, which largely deteriorates the performance. To tackle this problem, we propose a generic Masked BEV (M-BEV) perception framework, which can effectively improve robustness to this challenging scenario, by random masking and reconstructing camera views in the end-to-end training. More specifically, we develop a novel Masked View Reconstruction (MVR) module for M-BEV. It mimics various missing cases by randomly masking features of different camera views, then leverages the original features of these views as self-supervision, and reconstructs the masked ones with the distinct spatio-temporal context across views. Via such a plug-and-play MVR, our M-BEV is capable of learning the missing views from the resting ones, and thus well generalized for robust view recovery and accurate perception in the testing. We perform extensive experiments on the popular NuScenes benchmark, where our framework can significantly boost 3D perception performance of the state-of-the-art models on various missing view cases, e.g., for the absence of back view, our M-BEV promotes the PETRv2 model with 10.3% mAP gain.
翻訳日:2023-12-20 15:25:12 公開日:2023-12-19
# 廃棄物分類のための視覚トランスフォーマにおける人間の視覚知覚の統合

Integrating Human Vision Perception in Vision Transformers for Classifying Waste Items ( http://arxiv.org/abs/2312.12143v1 )

ライセンス: Link先を確認
Akshat Kishore Shrivastava, Tapan Kumar Gandhi(参考訳) 本稿では,データセットに差分ぼかしを適用し,ニスタグラムの学習現象をシミュレートすることを目的とした新しい手法を提案する。 ナイスタガムス(英語: nystagmus)は、人間の視覚に影響を及ぼす生物学的現象であり、特に幼児から成人までの頭部揺らぎを減少させる。 この概念を生かして, 廃棄物分類の問題に対処し, 世界的な懸念が高まっている。 提案するフレームワークは2つのモジュールから構成されており,第2のモジュールは分類タスクにおけるアートモデルモデルの状態であるビジョントランスフォーマーによく似ている。 このアプローチの背後にある主な動機は、人間の視覚システムが実行している実環境を反映して、モデルの精度と適応性を高めることである。 この手法は, 廃棄物分類作業における標準ビジョントランスフォーマーモデルを超え, 2%のマージンで改善を示す。 この改良は,人間の視覚知覚からインスピレーションを得ることによって,モデル精度を向上させる手法の可能性を示している。 提案手法のさらなる研究により、パフォーマンスが向上し、他のグローバルタスクに外挿することができる。

In this paper, we propose an novel methodology aimed at simulating the learning phenomenon of nystagmus through the application of differential blurring on datasets. Nystagmus is a biological phenomenon that influences human vision throughout life, notably by diminishing head shake from infancy to adulthood. Leveraging this concept, we address the issue of waste classification, a pressing global concern. The proposed framework comprises two modules, with the second module closely resembling the original Vision Transformer, a state of the art model model in classification tasks. The primary motivation behind our approach is to enhance the model's precision and adaptability, mirroring the real world conditions that the human visual system undergoes. This novel methodology surpasses the standard Vision Transformer model in waste classification tasks, exhibiting an improvement with a margin of 2%. This improvement underscores the potential of our methodology in improving model precision by drawing inspiration from human vision perception. Further research in the proposed methodology could yield greater performance results, and can extrapolated to other global tasks.
翻訳日:2023-12-20 15:24:44 公開日:2023-12-19
# fontdiffuser:マルチスケールコンテンツアグリゲーションとスタイルコントラスト学習による分節拡散によるワンショットフォント生成

FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning ( http://arxiv.org/abs/2312.12142v1 )

ライセンス: Link先を確認
Zhenhua Yang, Dezhi Peng, Yuxin Kong, Yuyi Zhang, Cong Yao, Lianwen Jin(参考訳) 自動フォント生成は、ソース画像からコンテンツを保存しながら参照画像のスタイルを模倣するフォントライブラリを作成することを目的とした模倣タスクである。 既存のフォント生成手法は良好な性能を保っているが、複雑な文字や大きなスタイルのバリエーションに苦戦している。 そこで本稿では,フォント模倣タスクをノイズ・ツー・デノイズパラダイムとして革新的にモデル化する拡散型画像から画像へのワンショットフォント生成手法であるfontdiffuserを提案する。 本手法では,マルチスケールコンテンツ集約(MCA)ブロックを導入し,グローバルなコンテンツキューとローカルなコンテンツキューを異なるスケールで効果的に組み合わせ,複雑な文字の複雑なストロークの保存を促進させる。 さらに,スタイル伝達における大きなバリエーションを管理するために,スタイル表現学習のための新しい構造であるスタイルコントラストリファインメント(Style Contrastive Refinement, SCR)モジュールを提案する。 画像からスタイルを分離するスタイル抽出器を使用し、細心の注意を払ってデザインされたスタイルコントラスト損失を介して拡散モデルを監督する。 広範な実験により、fontdiffuserが様々な文字やスタイルを生成する際の最先端のパフォーマンスを示す。 従来の方法に比べて、複雑な文字や大きなスタイル変更に一貫して優れている。 コードはhttps://github.com/yeungchenwa/fontdiffuserで入手できる。

Automatic font generation is an imitation task, which aims to create a font library that mimics the style of reference images while preserving the content from source images. Although existing font generation methods have achieved satisfactory performance, they still struggle with complex characters and large style variations. To address these issues, we propose FontDiffuser, a diffusion-based image-to-image one-shot font generation method, which innovatively models the font imitation task as a noise-to-denoise paradigm. In our method, we introduce a Multi-scale Content Aggregation (MCA) block, which effectively combines global and local content cues across different scales, leading to enhanced preservation of intricate strokes of complex characters. Moreover, to better manage the large variations in style transfer, we propose a Style Contrastive Refinement (SCR) module, which is a novel structure for style representation learning. It utilizes a style extractor to disentangle styles from images, subsequently supervising the diffusion model via a meticulously designed style contrastive loss. Extensive experiments demonstrate FontDiffuser's state-of-the-art performance in generating diverse characters and styles. It consistently excels on complex characters and large style changes compared to previous methods. The code is available at https://github.com/yeungchenwa/FontDiffuser.
翻訳日:2023-12-20 15:24:27 公開日:2023-12-19
# 一般化双対ユニタリ性を持つ量子回路における可解エンタングルメントダイナミクス

Solvable entanglement dynamics in quantum circuits with generalized dual unitarity ( http://arxiv.org/abs/2312.12239v1 )

ライセンス: Link先を確認
Chuan Liu, Wen Wei Ho(参考訳) 我々は,奇数結合と偶数結合の交互に相互作用する1+1$次元のキックイジングモデルの非平衡ダイナミクスについて検討した。 これらのモデルにより、三原子数の大域的性質(3つの「時間の矢印」)を持つ量子回路と、時空回転の下で回路の基底となる局所ゲートの挙動を制約する第二準双対ユニタリティーの局所的性質の両方を持つ量子回路と同等の時間発展がもたらされる。 我々は、小さなサブシステムに対する環境の影響を、単純なマルコフ構造を持つ影響行列によって正確に表現できる幅広い初期積状態のクラスを特定し、その結果、サブシステムのフルダイナミクスは効率的に計算可能である。 さらに,局所性によって許容される最大速度の半分の線形成長から,最大エントロピー(すなわち,無限温度への熱化)への飽和から最大エントロピーへの飽和を伴うエンタングルメント成長に至るまで,エンタングルメントのダイナミクスを常に解くことができるような条件も見いだせる。 本研究は, 積分モデル, クリフォード回路, デュアルユニタリ回路のよく知られた例を超えて, 熱化ダイナミクスを効率的に, 解析的に計算できる相互作用量子システムに関する我々の知識を拡張したものである。

We study the non-equilibrium dynamics of kicked Ising models in $1+1$ dimensions which have interactions alternating between odd and even bonds in time. These models give rise to time-evolution equivalent to quantum circuits having both the global property of tri-unitarity (three 'arrows of time') and also the local property of second-level dual-unitarity, which constrains the behavior of pairs of local gates underlying the circuit under a space-time rotation. We identify a broad class of initial product states wherein the effect of the environment on a small subsystem can be exactly represented by influence matrices with simple Markovian structures, resulting in the subsystem's full dynamics being efficiently computable. We further find additional conditions under which the dynamics of entanglement can be solved for all times, yielding rich phenomenology ranging from linear growth at half the maximal speed allowed by locality, followed by saturation to maximum entropy (i.e., thermalization to infinite temperature); to entanglement growth with saturation to extensive but sub-maximal entropy. Our findings extend our knowledge of interacting quantum systems whose thermalizing dynamics can be efficiently and analytically computed, going beyond the well-known examples of integrable models, Clifford circuits, and dual-unitary circuits.
翻訳日:2023-12-20 15:17:52 公開日:2023-12-19
# パンチ付きロール:半教師付き細粒学習におけるソフトラベル選択の拡張と縮小

Roll With the Punches: Expansion and Shrinkage of Soft Label Selection for Semi-supervised Fine-Grained Learning ( http://arxiv.org/abs/2312.12237v1 )

ライセンス: Link先を確認
Yue Duan, Zhen Zhao, Lei Qi, Luping Zhou, Lei Wang, Yinghuan Shi(参考訳) 半教師付き学習(SSL)は有望な結果を得たが、より現実的なSSLシナリオでは、ラベルのないデータは、SSL(SS-FGVC)のコンテキストにおけるきめ細かい視覚的分類など、極めて高い認識困難を示す。 細粒度の未ラベルデータに対する認識の難しさは、擬似ラベルの精度を犠牲にし、SSLモデルの性能が低下する。 そこで本研究では,ソフトラベル方式に基づく拡張目標と縮小目標を共同で最適化し,疑似ラベル選択プロセスを再構築することにより,クラス遷移追跡(soc)に基づく信頼度対応型ソフトラベル選択を提案する。 前者の目的は、ソフトラベルがより多くの候補クラスの吸収を奨励し、グラウント・トゥルースのクラスへの参加を保証する一方で、後者は、理論的にはエントロピーの最小化と同値であることが証明された、よりノイズの多いクラスを拒否することをソフトラベルが推奨する。 本手法は, SS-FGVCにおいて, 各種最先端手法と比較して, 優れた性能を示す。 チェックポイントとソースコードはhttps://github.com/NJUyued/SoC4SS-FGVCで入手できる。

While semi-supervised learning (SSL) has yielded promising results, the more realistic SSL scenario remains to be explored, in which the unlabeled data exhibits extremely high recognition difficulty, e.g., fine-grained visual classification in the context of SSL (SS-FGVC). The increased recognition difficulty on fine-grained unlabeled data spells disaster for pseudo-labeling accuracy, resulting in poor performance of the SSL model. To tackle this challenge, we propose Soft Label Selection with Confidence-Aware Clustering based on Class Transition Tracking (SoC) by reconstructing the pseudo-label selection process by jointly optimizing Expansion Objective and Shrinkage Objective, which is based on a soft label manner. Respectively, the former objective encourages soft labels to absorb more candidate classes to ensure the attendance of ground-truth class, while the latter encourages soft labels to reject more noisy classes, which is theoretically proved to be equivalent to entropy minimization. In comparisons with various state-of-the-art methods, our approach demonstrates its superior performance in SS-FGVC. Checkpoints and source code are available at https://github.com/NJUyued/SoC4SS-FGVC.
翻訳日:2023-12-20 15:17:26 公開日:2023-12-19
# 最悪のデータ生成確率測定による機械学習アルゴリズムの一般化解析

Generalization Analysis of Machine Learning Algorithms via the Worst-Case Data-Generating Probability Measure ( http://arxiv.org/abs/2312.12236v1 )

ライセンス: Link先を確認
Xinying Zou, Samir M. Perlaza, I\~naki Esnaola, Eitan Altman(参考訳) 本稿では,機械学習アルゴリズムの一般化能力を特徴付けるツールとして,データに対する最悪の確率尺度を導入する。 より具体的には、最悪の確率測度はギブス確率測度であり、基準確率測度に対する相対エントロピー制約の下での期待損失の最大化に対する唯一の解である。 予測損失の感度、経験的リスクの感度、一般化ギャップなどの基本的な一般化指標は、最悪のデータ生成確率測度を含む閉形式表現を持つことが示されている。 一般化ギャップを相互情報の和として特徴付けるようなギブズアルゴリズムの既存の結果と、定因子までのラウテン情報を復元する。 最悪のデータ生成確率測度とgibbsアルゴリズムの間に新たな並列性が確立される。 具体的には、ギブス確率測度はモデル空間と機械学習アルゴリズムのデータ空間の基本的な共通点として同定される。

In this paper, the worst-case probability measure over the data is introduced as a tool for characterizing the generalization capabilities of machine learning algorithms. More specifically, the worst-case probability measure is a Gibbs probability measure and the unique solution to the maximization of the expected loss under a relative entropy constraint with respect to a reference probability measure. Fundamental generalization metrics, such as the sensitivity of the expected loss, the sensitivity of the empirical risk, and the generalization gap are shown to have closed-form expressions involving the worst-case data-generating probability measure. Existing results for the Gibbs algorithm, such as characterizing the generalization gap as a sum of mutual information and lautum information, up to a constant factor, are recovered. A novel parallel is established between the worst-case data-generating probability measure and the Gibbs algorithm. Specifically, the Gibbs probability measure is identified as a fundamental commonality of the model space and the data space for machine learning algorithms.
翻訳日:2023-12-20 15:17:02 公開日:2023-12-19
# テキストのブラシ:拡散モデルによる画像上のあらゆるシーンテキストの合成

Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model ( http://arxiv.org/abs/2312.12232v1 )

ライセンス: Link先を確認
Lingjun Zhang, Xinyuan Chen, Yaohui Wang, Yue Lu, Yu Qiao(参考訳) 近年,多言語シーンのテキスト画像の正確な生成は困難でありながら,拡散に基づく画像生成手法が注目されている。 この問題に対処するために,任意の言語を対象としたトレーニング不要シーンテキスト生成フレームワークであるDiff-Textを提案する。 本モデルでは,シーンのテキスト記述とともに,任意の言語のテキストが与えられた写真リアリスティック画像を出力する。 このモデルは、描画されたスケッチ画像を先行として利用し、事前訓練された安定拡散の多言語生成能力を刺激する。 生成した画像のオブジェクト配置に対するクロスアテンションマップの影響から,シーンテキストにおける不合理な位置決め問題に対処するために,クロスアテンション層への局所的なアテンション制約を提案する。 さらに、コントラスト画像レベルのプロンプトを導入し、テキスト領域の位置をさらに洗練し、より正確なシーンテキスト生成を実現する。 提案手法は,テキスト認識の精度とフォアグラウンド・バックグラウンドブレンディングの自然性の両方において,既存の手法よりも優れることを示す。

Recently, diffusion-based image generation methods are credited for their remarkable text-to-image generation capabilities, while still facing challenges in accurately generating multilingual scene text images. To tackle this problem, we propose Diff-Text, which is a training-free scene text generation framework for any language. Our model outputs a photo-realistic image given a text of any language along with a textual description of a scene. The model leverages rendered sketch images as priors, thus arousing the potential multilingual-generation ability of the pre-trained Stable Diffusion. Based on the observation from the influence of the cross-attention map on object placement in generated images, we propose a localized attention constraint into the cross-attention layer to address the unreasonable positioning problem of scene text. Additionally, we introduce contrastive image-level prompts to further refine the position of the textual region and achieve more accurate scene text generation. Experiments demonstrate that our method outperforms the existing method in both the accuracy of text recognition and the naturalness of foreground-background blending.
翻訳日:2023-12-20 15:16:47 公開日:2023-12-19
# すべては混ざり合っている:wasserstein machine learning with mixed features

It's All in the Mix: Wasserstein Machine Learning with Mixed Features ( http://arxiv.org/abs/2312.12230v1 )

ライセンス: Link先を確認
Reza Belbasi and Aras Selvi and Wolfram Wiesemann(参考訳) 問題定義: さまざまなオペレーション管理分野にわたるデータ駆動とエンドツーエンドの意思決定の最近の出現により、マシンラーニングから予測モデル、オペレーションリサーチから最適化モデルがより緊密に統合されるようになった。 この文脈における重要な課題は、予測モデルにおける推定誤差の存在であり、これは次の最適化モデルによって増幅されがちであり、これはオプティマイザの呪いや最適化の誤差最大化効果と呼ばれる現象である。 方法論/再帰性: このような推定誤差に対処するための現代のアプローチは、歴史的サンプルから得られる経験的分布に近い全てのデータ生成分布をワッサーシュタイン距離で決定する、分布的に堅牢な問題定式化によって提供される。 これらの手法は、全ての入力特徴が連続している問題において有望であるが、バイナリや分類的特徴が存在する場合、指数関数的にスケールする。 本稿では,このような混合機能問題を多項式時間で解くことができることを示す。 本稿では,混合機能問題の解法として,提案手法を標準ベンチマークインスタンス上で理論的,実証的に比較する。 管理的意味: データ駆動型オペレーション管理の問題は、しばしば離散的な機能を持つ予測モデルを伴う。 我々は,離散的特徴の存在を忠実に考慮した方法論を開発し分析し,理論上および標準ベンチマークインスタンス間において,個別的特徴の存在に無依存な既存手法を著しく上回ることができることを示す。

Problem definition: The recent advent of data-driven and end-to-end decision-making across different areas of operations management has led to an ever closer integration of prediction models from machine learning and optimization models from operations research. A key challenge in this context is the presence of estimation errors in the prediction models, which tend to be amplified by the subsequent optimization model -- a phenomenon that is often referred to as the Optimizer's Curse or the Error-Maximization Effect of Optimization. Methodology/results: A contemporary approach to combat such estimation errors is offered by distributionally robust problem formulations that consider all data-generating distributions close to the empirical distribution derived from historical samples, where `closeness' is determined by the Wasserstein distance. While those techniques show significant promise in problems where all input features are continuous, they scale exponentially when binary and/or categorical features are present. This paper demonstrates that such mixed-feature problems can indeed be solved in polynomial time. We present a practically efficient algorithm to solve mixed-feature problems, and we compare our method against alternative techniques both theoretically and empirically on standard benchmark instances. Managerial implications: Data-driven operations management problems often involve prediction models with discrete features. We develop and analyze a methodology that faithfully accounts for the presence of discrete features, and we demonstrate that our approach can significantly outperform existing methods that are agnostic to the presence of discrete features, both theoretically and across standard benchmark instances.
翻訳日:2023-12-20 15:16:27 公開日:2023-12-19
# HuTuMotion:最小のフィードバックを持つ潜在運動拡散モデルの人間によるナビゲーション

HuTuMotion: Human-Tuned Navigation of Latent Motion Diffusion Models with Minimal Feedback ( http://arxiv.org/abs/2312.12227v1 )

ライセンス: Link先を確認
Gaoge Han, Shaoli Huang, Mingming Gong, Jinglei Tang(参考訳) HuTuMotionは自然な人間の動きを生成する革新的な手法で、人間からのわずかなフィードバックを生かして潜伏運動拡散モデルをナビゲートする。 通常の正規分布から潜伏変数をサンプリングする既存の手法とは異なり,本手法は,人間のフィードバックによって示されるように,データ特性に適合するように先行分布を適応させ,運動生成の質を高める。 さらに,この結果から,広範囲な人的フィードバックによって得られたものと同程度の性能を達成できることが判明した。 この発見は、パーソナライズされスタイルを認識できる人間のモーション生成アプリケーションのための潜在拡散モデルに、少数の人間誘導による最適化を組み込む可能性と効率性を強調している。 実験の結果,本手法は既存手法よりも優れた性能を示した。

We introduce HuTuMotion, an innovative approach for generating natural human motions that navigates latent motion diffusion models by leveraging few-shot human feedback. Unlike existing approaches that sample latent variables from a standard normal prior distribution, our method adapts the prior distribution to better suit the characteristics of the data, as indicated by human feedback, thus enhancing the quality of motion generation. Furthermore, our findings reveal that utilizing few-shot feedback can yield performance levels on par with those attained through extensive human feedback. This discovery emphasizes the potential and efficiency of incorporating few-shot human-guided optimization within latent diffusion models for personalized and style-aware human motion generation applications. The experimental results show the significantly superior performance of our method over existing state-of-the-art approaches.
翻訳日:2023-12-20 15:16:02 公開日:2023-12-19
# 無限幅に対する二階最適化のパラメータ化について

On the Parameterization of Second-Order Optimization Effective Towards the Infinite Width ( http://arxiv.org/abs/2312.12226v1 )

ライセンス: Link先を確認
Satoki Ishikawa and Ryo Karakida(参考訳) 深層ニューラルネットワークのトレーニングを加速するために2次最適化が開発されており、より大規模なモデルにも適用されている。 本研究では,より広いスケールでのトレーニングに向けて,ネットワーク幅が大幅に増加する場合でも,機能学習を安定的に促進する2次最適化のための特定のパラメータ化を同定する。 最大更新パラメータ化に触発されて,勾配を1段階更新し,ランダム初期化,学習率,減衰項を含むハイパーパラメータの適切なスケールを明らかにする。 提案手法では,K-FAC と Shampoo の2次最適化アルゴリズムについて検討し,パラメータ化が特徴学習における高次一般化性能を実現することを示す。 特に、異なる幅のモデル間でハイパーパラメータを転送することが可能です。

Second-order optimization has been developed to accelerate the training of deep neural networks and it is being applied to increasingly larger-scale models. In this study, towards training on further larger scales, we identify a specific parameterization for second-order optimization that promotes feature learning in a stable manner even if the network width increases significantly. Inspired by a maximal update parameterization, we consider a one-step update of the gradient and reveal the appropriate scales of hyperparameters including random initialization, learning rates, and damping terms. Our approach covers two major second-order optimization algorithms, K-FAC and Shampoo, and we demonstrate that our parameterization achieves higher generalization performance in feature learning. In particular, it enables us to transfer the hyperparameters across models with different widths.
翻訳日:2023-12-20 15:15:48 公開日:2023-12-19
# 完全および部分入力依存対称性の自己監視検出

Self-Supervised Detection of Perfect and Partial Input-Dependent Symmetries ( http://arxiv.org/abs/2312.12223v1 )

ライセンス: Link先を確認
Alonso Urbano, David W. Romero(参考訳) 群同分散は入力の群変換に対する一貫した応答を保証し、より堅牢なモデルと拡張された一般化能力をもたらす。 しかし、この性質は、群で見なされる対称性がデータで観察されたものと異なる場合、過度に制約されたモデルをもたらす可能性がある。 一般的な手法では、データセットレベルで適切な対称性のレベルを決定することでこの問題に対処するが、同じデータセットに複数の対称性が共存するシナリオは、教師付き設定と無視に限られる。 例えば、車と飛行機の写真は異なるレベルの回転を示すが、どちらもCIFAR-10データセットに含まれている。 本稿では,ラベルを使わずに各入力の対称性のレベルを検出する手法を提案する。 この目的のために、データ内の対称性の分布を学ぶのに十分かつ必要な条件を導出する。 学習した分布を用いて擬似ラベルを生成し,各入力の対称性のレベルを自己教師ありで学習する。 本研究では, クラスごとに異なる対称性を持つ合成データセット, 例えば mnistmultiple に対して, 数値がクラスに依存して一様回転する手法の有効性を検証する。 本手法は,対称性が存在しない標準データセットの生成や,推論中の分布外対称性の検出など,実用的な用途に応用できることを実証する。 これにより、非同変モデルの一般化と堅牢性の両方を改善することができる。 私たちのコードはhttps://github.com/aurban0/ssl-symで公開されています。

Group equivariance ensures consistent responses to group transformations of the input, leading to more robust models and enhanced generalization capabilities. However, this property can lead to overly constrained models if the symmetries considered in the group differ from those observed in data. While common methods address this by determining the appropriate level of symmetry at the dataset level, they are limited to supervised settings and ignore scenarios in which multiple levels of symmetry co-exist in the same dataset. For instance, pictures of cars and planes exhibit different levels of rotation, yet both are included in the CIFAR-10 dataset. In this paper, we propose a method able to detect the level of symmetry of each input without the need for labels. To this end, we derive a sufficient and necessary condition to learn the distribution of symmetries in the data. Using the learned distribution, we generate pseudo-labels that allow us to learn the levels of symmetry of each input in a self-supervised manner. We validate the effectiveness of our approach on synthetic datasets with different per-class levels of symmetries e.g. MNISTMultiple, in which digits are uniformly rotated within a class-dependent interval. We demonstrate that our method can be used for practical applications such as the generation of standardized datasets in which the symmetries are not present, as well as the detection of out-of-distribution symmetries during inference. By doing so, both the generalization and robustness of non-equivariant models can be improved. Our code is publicly available at https://github.com/aurban0/ssl-sym.
翻訳日:2023-12-20 15:15:34 公開日:2023-12-19
# earthvqa:リレーショナル推論に基づくリモートセンシングによる問合せ可能な地球に向けて

EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering ( http://arxiv.org/abs/2312.12222v1 )

ライセンス: Link先を確認
Junjue Wang, Zhuo Zheng, Zihang Chen, Ailong Ma, and Yanfei Zhong(参考訳) 地球視覚研究は通常、地理空間的な物体の位置とカテゴリーを抽出することに焦点を当てるが、対象と包括的推論の関係の探索は無視する。 都市計画の必要性に基づいて,関係推論に基づく分析,カウント,包括的分析を行うマルチモーダルマルチタスクVQAデータセット(EarthVQA)を開発した。 EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。 オブジェクトは複雑なリレーショナル推論の基礎となるため、オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。 空間的位置と意味を保存するために、SOBAはオブジェクトの意味論生成のためのセグメンテーションネットワークを利用する。 オブジェクト誘導アテンションは擬似マスクを介してオブジェクト内部の特徴を集約し、双方向のクロスアテンションはさらにオブジェクト外部関係を階層的にモデル化する。 オブジェクトのカウントを最適化するために,動的に差分ペナルティを加え,分類と回帰タスクを統合する数値差分損失を提案する。 実験の結果,SOBAは先進的な一般法とリモートセンシング法の両方に優れていた。 このデータセットとフレームワークは、地球ビジョンの複雑な分析に強力なベンチマークを提供すると信じています。 プロジェクトページはhttps://Junjue-Wang.github.io/homepage/EarthVQAにある。

Earth vision research typically focuses on extracting geospatial object locations and categories but neglects the exploration of relations between objects and comprehensive reasoning. Based on city planning needs, we develop a multi-modal multi-task VQA dataset (EarthVQA) to advance relational reasoning-based judging, counting, and comprehensive analysis. The EarthVQA dataset contains 6000 images, corresponding semantic masks, and 208,593 QA pairs with urban and rural governance requirements embedded. As objects are the basis for complex relational reasoning, we propose a Semantic OBject Awareness framework (SOBA) to advance VQA in an object-centric way. To preserve refined spatial locations and semantics, SOBA leverages a segmentation network for object semantics generation. The object-guided attention aggregates object interior features via pseudo masks, and bidirectional cross-attention further models object external relations hierarchically. To optimize object counting, we propose a numerical difference loss that dynamically adds difference penalties, unifying the classification and regression tasks. Experimental results show that SOBA outperforms both advanced general and remote sensing methods. We believe this dataset and framework provide a strong benchmark for Earth vision's complex analysis. The project page is at https://Junjue-Wang.github.io/homepage/EarthVQA.
翻訳日:2023-12-20 15:15:10 公開日:2023-12-19
# 共有は静かだ: 表データ合成のための普遍的プライバシー評価の原理と特性評価

Sharing is CAIRing: Characterizing Principles and Assessing Properties of Universal Privacy Evaluation for Synthetic Tabular Data ( http://arxiv.org/abs/2312.12216v1 )

ライセンス: Link先を確認
Tobias Hyrup, Anton Danholt Lautrup, Arthur Zimek, Peter Schneider-Kamp(参考訳) データ共有は、多くの分野、特に医療分野における革新的進歩に不可欠である。 しかし、データの共有は自然人のプライバシーを守る規制によって妨げられている。 合成表データは、データ共有の困難に対処する有望なソリューションを提供するが、本質的にプライバシーを保証しない。 それでも、合成データのプライバシー保護能力を評価するための適切な方法に関する合意がないため、研究間で結果を比較することは困難である。 私たちの知る限りでは、合成表データのための優れた普遍的プライバシー評価指標を構成するプロパティを識別する最初の作業です。 このようなメトリクスの目標は、研究間でのコンパラビリティの実現と、非技術ステークホルダがプライバシ保護の方法を理解することにある。 分析性,適用性,解釈性,代表性(cair)の4つの評価原則を特定した。 評価指標がCAIRの原則に適合する程度を定量化し、ランク付けするために、1-4スケールのルーリックを設計する。 4つの特性はそれぞれ4つのパラメータでスコアされ、合計16の次元が与えられる。 本研究は,CAIRの原則とルーブリックの適用性および有用性について,他の研究で広く普及している指標の選択を評価した。 結果は、メトリクスをランク付けするだけでなく、潜在的な改善の領域を強調する既存のメトリクスの強みと弱みに関する詳細な洞察を提供する。 我々は、CAIR原則が、総合的なプライバシー評価指標が合成表データに適切である研究者や組織間の合意を促進することを期待している。

Data sharing is a necessity for innovative progress in many domains, especially in healthcare. However, the ability to share data is hindered by regulations protecting the privacy of natural persons. Synthetic tabular data provide a promising solution to address data sharing difficulties but does not inherently guarantee privacy. Still, there is a lack of agreement on appropriate methods for assessing the privacy-preserving capabilities of synthetic data, making it difficult to compare results across studies. To the best of our knowledge, this is the first work to identify properties that constitute good universal privacy evaluation metrics for synthetic tabular data. The goal of such metrics is to enable comparability across studies and to allow non-technical stakeholders to understand how privacy is protected. We identify four principles for the assessment of metrics: Comparability, Applicability, Interpretability, and Representativeness (CAIR). To quantify and rank the degree to which evaluation metrics conform to the CAIR principles, we design a rubric using a scale of 1-4. Each of the four properties is scored on four parameters, yielding 16 total dimensions. We study the applicability and usefulness of the CAIR principles and rubric by assessing a selection of metrics popular in other studies. The results provide granular insights into the strengths and weaknesses of existing metrics that not only rank the metrics but highlight areas of potential improvements. We expect that the CAIR principles will foster agreement among researchers and organizations on which universal privacy evaluation metrics are appropriate for synthetic tabular data.
翻訳日:2023-12-20 15:14:44 公開日:2023-12-19
# 開放型量子系で接続された貯水池の過渡温度ダイナミクス

Transient Temperature Dynamics of Reservoirs Connected Through an Open Quantum System ( http://arxiv.org/abs/2312.12212v1 )

ライセンス: Link先を確認
I. V. Vovchenko, A. A. Zyablovsky, A. A. Pukhov, E. S. Andrianov(参考訳) いくつかの貯水池に接続された開放量子システムのダイナミクスは、量子光学、生物学、量子熱力学、輸送現象などにおいて重要であることから、大きな注目を集めている。 多くの問題においてボルン近似が適用でき、これは開量子系が貯水池に与える影響を無視できることを意味する。 しかし, 長期ダイナミクスやメゾスコピック貯水池の場合, 逆影響が重要となる。 本稿では,開量子系を介して接続されたいくつかのボソニック貯水池の過渡ダイナミクスについて検討する。 熱力学的平衡の緩和過程における貯水池の温度の時間的ダイナミクスを研究するために断熱的アプローチを用いる。 その結果, 散逸速度と初期温度の値に強く依存する様々な温度ダイナミクスが存在することがわかった。 貯水池の温度が非単調な挙動を示すことを示す。 また、初期中間温度の貯水池が最も高温または寒冷な貯水池となる時期がある。 その結果,メソスケールおよびナノスケールシステムにおけるエネルギーフローの管理方法が明らかになった。

The dynamics of open quantum systems connected with several reservoirs attract great attention due to its importance in quantum optics, biology, quantum thermodynamics, transport phenomena, etc. In many problems, the Born approximation is applicable which implies that the influence of the open quantum system on the reservoirs can be neglected. However, in the case of a long-time dynamics or mesoscopic reservoir, the reverse influence can be crucial. In this paper, we investigate the transient dynamics of several bosonic reservoirs connected through an open quantum system. We use an adiabatic approach to study the temporal dynamics of temperatures of the reservoirs during relaxation to thermodynamic equilibrium. We show that there are various types of temperature dynamics that strongly depend on the values of dissipative rates and initial temperatures. We demonstrate that temperatures of the reservoirs can exhibit non-monotonic behavior. Moreover, there are moments of time during which the reservoir with initially intermediate temperature becomes the hottest or coldest reservoir. The obtained results pave the way for managing energy flows in mesoscale and nanoscale systems.
翻訳日:2023-12-20 15:14:19 公開日:2023-12-19
# 付加雑音モデルによる欠落データの存在下での因果構造同定

Identification of Causal Structure in the Presence of Missing Data with Additive Noise Model ( http://arxiv.org/abs/2312.12206v1 )

ライセンス: Link先を確認
Jie Qiao, Zhengming Chen, Jianhua Yu, Ruichu Cai, Zhifeng Hao(参考訳) 欠落したデータは、多くの因果発見タスクでしばしば遭遇する避けられない合併症である。 欠落する過程が欠落値自身に依存する場合(セルフマスキングの欠落として知られる)、関節分布の回復は達成不可能となり、そのような自己マスキングの欠落の存在を検出することは難しい課題である。 その結果、元の分布を再構築できず、根本的な欠落機構を識別できないため、既存の因果発見法を適用するだけで間違った結論につながる。 本研究では,近年の付加雑音モデルにより,自己マスキングの欠如の存在下で因果構造を学習する可能性が示唆された。 そこで本研究では,「自己マスキングの欠如」という仮定を適切に排除できる付加的ノイズモデルを用いて,因果構造を学習する際の識別問題について検討する。 具体的には、まず、原因骨格の識別可能性の範囲を、弱い自己マスキングの欠如(つまり、自己マスキング指標自体を除く他の変数が原因ではない)に優雅に拡張する。 さらに, 付加雑音モデルに基づく因果方向の十分かつ必要な同定条件を提供し, 不等価パターンまで因果構造を同定できることを示す。 最後に, 因果骨格と因果方向を学習する上で, 上記の理論結果に基づく実用的なアルゴリズムを提案する。 合成および実データに関する大規模な実験は、提案アルゴリズムの有効性と有効性を示す。

Missing data are an unavoidable complication frequently encountered in many causal discovery tasks. When a missing process depends on the missing values themselves (known as self-masking missingness), the recovery of the joint distribution becomes unattainable, and detecting the presence of such self-masking missingness remains a perplexing challenge. Consequently, due to the inability to reconstruct the original distribution and to discern the underlying missingness mechanism, simply applying existing causal discovery methods would lead to wrong conclusions. In this work, we found that the recent advances additive noise model has the potential for learning causal structure under the existence of the self-masking missingness. With this observation, we aim to investigate the identification problem of learning causal structure from missing data under an additive noise model with different missingness mechanisms, where the `no self-masking missingness' assumption can be eliminated appropriately. Specifically, we first elegantly extend the scope of identifiability of causal skeleton to the case with weak self-masking missingness (i.e., no other variable could be the cause of self-masking indicators except itself). We further provide the sufficient and necessary identification conditions of the causal direction under additive noise model and show that the causal structure can be identified up to an IN-equivalent pattern. We finally propose a practical algorithm based on the above theoretical results on learning the causal skeleton and causal direction. Extensive experiments on synthetic and real data demonstrate the efficiency and effectiveness of the proposed algorithms.
翻訳日:2023-12-20 15:14:03 公開日:2023-12-19
# 画像セグメンテーション参照のためのマスク接地

Mask Grounding for Referring Image Segmentation ( http://arxiv.org/abs/2312.12198v1 )

ライセンス: Link先を確認
Yong Xien Chng, Henry Zheng, Yizeng Han, Xuchong Qiu, Gao Huang(参考訳) Referring Image Segmentation (RIS)は、自由形式の言語表現で参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。 近年の進歩にもかかわらず、ほとんどの最新技術(SOTA)手法は、画素やワードレベルでの言語と画像のモダリティの差がかなり大きい。 これらの方法全般 1) 文レベルの言語特徴を言語イメージアライメントに頼り、 2) きめ細かい視覚的接地のための明示的な訓練指導が欠如している。 その結果、視覚と言語の特徴の間のオブジェクトレベルの対応が弱い。 きちんとした特徴がなければ、事前の手法は複数のオブジェクト間の関係を強く推論する必要がある複雑な表現を理解するのに苦労する。 この課題に対処するために,マスク付きテキストトークンと一致する視覚オブジェクトとの微妙な対応をモデルに明示的に教えることにより,言語機能内の視覚的接地を著しく改善する新しいマスク接地補助タスクを提案する。 Mask Groundingは、以前のRISメソッドで直接使用することができ、一貫して改善をもたらす。 さらに,モダリティギャップに直感的に対処するために,クロスモーダルアライメント損失と付随アライメントモジュールを設計する。 これらの追加はマスクの接地と相乗的に機能する。 MagNet Mask-grounded Networkは3つの主要なベンチマーク(RefCOCO、RefCOCO+、G-Ref)で先行技術よりも優れており、RISアルゴリズムの現在の限界に対処する上での我々の手法の有効性を示している。 私たちのコードとトレーニング済みのウェイトがリリースされます。

Referring Image Segmentation (RIS) is a challenging task that requires an algorithm to segment objects referred by free-form language expressions. Despite significant progress in recent years, most state-of-the-art (SOTA) methods still suffer from considerable language-image modality gap at the pixel and word level. These methods generally 1) rely on sentence-level language features for language-image alignment and 2) lack explicit training supervision for fine-grained visual grounding. Consequently, they exhibit weak object-level correspondence between visual and language features. Without well-grounded features, prior methods struggle to understand complex expressions that require strong reasoning over relationships among multiple objects, especially when dealing with rarely used or ambiguous clauses. To tackle this challenge, we introduce a novel Mask Grounding auxiliary task that significantly improves visual grounding within language features, by explicitly teaching the model to learn fine-grained correspondence between masked textual tokens and their matching visual objects. Mask Grounding can be directly used on prior RIS methods and consistently bring improvements. Furthermore, to holistically address the modality gap, we also design a cross-modal alignment loss and an accompanying alignment module. These additions work synergistically with Mask Grounding. With all these techniques, our comprehensive approach culminates in MagNet Mask-grounded Network), an architecture that significantly outperforms prior arts on three key benchmarks (RefCOCO, RefCOCO+ and G-Ref), demonstrating our method's effectiveness in addressing current limitations of RIS algorithms. Our code and pre-trained weights will be released.
翻訳日:2023-12-20 15:13:37 公開日:2023-12-19
# 非線形力学のガウス過程学習

Gaussian process learning of nonlinear dynamics ( http://arxiv.org/abs/2312.12193v1 )

ライセンス: Link先を確認
Dongwei Ye, Mengwu Guo(参考訳) 科学機械学習における重要な課題の1つは、時系列データから基礎となる力学系を表現することである。 このような動的学習のための多くの方法は、直接利用できない状態データの微分を明示的に要求し、伝統的に有限差分で近似することができる。 しかし、時間微分の離散近似は、状態データがノイズによって不足したり、あるいは破損したりすると、低い推定結果となり、学習された力学モデルの予測性を損なう。 この技術的ハードルを克服するために,ベイズ的モデルパラメータのキャラクタリゼーションによる非線形力学の学習法を提案する。 この方法は状態のガウス過程表現を利用し、状態データとそれらの導関数との相関を利用して可能性関数を構築するが、時間微分の明示的な評価は避ける。 ベイズスキームにより、モデルパラメータの確率的推定は後部分布によって与えられ、ノイズの多い状態データや学習過程からの不確実性に対して定量化が促進される。 具体的には,システムのアフィン構造を用いたパラメータ同定と推定と,事前知識のない非線形パラメトリック近似の2つの典型的なシナリオに対する提案手法の適用性について論じる。

One of the pivotal tasks in scientific machine learning is to represent underlying dynamical systems from time series data. Many methods for such dynamics learning explicitly require the derivatives of state data, which are not directly available and can be approximated conventionally by finite differences. However, the discrete approximations of time derivatives may result in a poor estimation when state data are scarce and/or corrupted by noise, thus compromising the predictiveness of the learned dynamical models. To overcome this technical hurdle, we propose a new method that learns nonlinear dynamics through a Bayesian inference of characterizing model parameters. This method leverages a Gaussian process representation of states, and constructs a likelihood function using the correlation between state data and their derivatives, yet prevents explicit evaluations of time derivatives. Through a Bayesian scheme, a probabilistic estimate of the model parameters is given by the posterior distribution, and thus a quantification is facilitated for uncertainties from noisy state data and the learning process. Specifically, we will discuss the applicability of the proposed method to two typical scenarios for dynamical systems: parameter identification and estimation with an affine structure of the system, and nonlinear parametric approximation without prior knowledge.
翻訳日:2023-12-20 15:13:10 公開日:2023-12-19
# CUDC:オフライン強化学習のための適応時間距離を用いた好奇心駆動型教師なしデータ収集手法

CUDC: A Curiosity-Driven Unsupervised Data Collection Method with Adaptive Temporal Distances for Offline Reinforcement Learning ( http://arxiv.org/abs/2312.12191v1 )

ライセンス: Link先を確認
Chenyu Sun, Hangwei Qian, Chunyan Miao(参考訳) オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学ぶことを目的としている。 既存の作業の多くは、データ収集プロセスの改善に重点を置きながら、高度な学習アルゴリズムを開発することにある。 さらに、シングルタスク設定を拡張して、エージェントが複数のダウンストリームタスクを実行できるタスクに依存しないデータセットを収集することも難しい。 本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案し,タスクに依存しないデータ収集のための適応時間距離を用いて特徴空間を拡張し,最終的にはマルチタスクオフラインRLの学習効率と能力を向上させる。 これを達成するため、CUDCはk段階の将来の状態が現在の状態から到達可能な確率を推定し、力学モデルが予測すべき未来へのステップの数に適応する。 この適応的な到達性機構により、特徴表現は多様化し、エージェントは、好奇心を持って高品質なデータを集めることができる。 実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。

Offline reinforcement learning (RL) aims to learn an effective policy from a pre-collected dataset. Most existing works are to develop sophisticated learning algorithms, with less emphasis on improving the data collection process. Moreover, it is even challenging to extend the single-task setting and collect a task-agnostic dataset that allows an agent to perform multiple downstream tasks. In this paper, we propose a Curiosity-driven Unsupervised Data Collection (CUDC) method to expand feature space using adaptive temporal distances for task-agnostic data collection and ultimately improve learning efficiency and capabilities for multi-task offline RL. To achieve this, CUDC estimates the probability of the k-step future states being reachable from the current states, and adapts how many steps into the future that the dynamics model should predict. With this adaptive reachability mechanism in place, the feature representation can be diversified, and the agent can navigate itself to collect higher-quality data with curiosity. Empirically, CUDC surpasses existing unsupervised methods in efficiency and learning performance in various downstream offline RL tasks of the DeepMind control suite.
翻訳日:2023-12-20 15:12:50 公開日:2023-12-19
# XAIによる認知学習の充実に向けて

Toward enriched Cognitive Learning with XAI ( http://arxiv.org/abs/2312.12290v1 )

ライセンス: Link先を確認
Muhammad Suffian, Ulrike Kuhl, Jose M. Alonso-Moral, Alessandro Bogliolo(参考訳) 人工知能(AI)技術が支援する計算システムは、さまざまな領域で高い推奨事項や意思決定を行う上で、ますます重要な役割を担い続けているため、説明可能なAI(XAI)の需要は大幅に増加し、認知学習研究へのその影響が拡大している。 新たな概念の説明を提供することは,特に知識不足やスキル応用に起因する課題に対処する上で,学習プロセスの基本的な支援として認識される。 これらの困難に対処するには、学習プロセス全体を通してタイムリーな説明とガイダンスが伴い、説明モデルの開発にAI専門家の関心を喚起する。 本稿では,XAIが支援する認知学習のための知的システム(CL-XAI)を紹介し,人間の学習者がAIモデルの内部メカニズムをXAIツールを用いて理解し,そのようなツールの有効性を評価するという2つの研究目標について考察する。 CL-XAIの使用は、学習者が複合的な問題に取り組み、問題解決のスキルを高め、複雑な概念の理解を深め、認知学習やコラーニングにおける変革的進歩の可能性を強調するゲームインスパイアされた仮想ユースケースで説明される。

As computational systems supported by artificial intelligence (AI) techniques continue to play an increasingly pivotal role in making high-stakes recommendations and decisions across various domains, the demand for explainable AI (XAI) has grown significantly, extending its impact into cognitive learning research. Providing explanations for novel concepts is recognised as a fundamental aid in the learning process, particularly when addressing challenges stemming from knowledge deficiencies and skill application. Addressing these difficulties involves timely explanations and guidance throughout the learning process, prompting the interest of AI experts in developing explainer models. In this paper, we introduce an intelligent system (CL-XAI) for Cognitive Learning which is supported by XAI, focusing on two key research objectives: exploring how human learners comprehend the internal mechanisms of AI models using XAI tools and evaluating the effectiveness of such tools through human feedback. The use of CL-XAI is illustrated with a game-inspired virtual use case where learners tackle combinatorial problems to enhance problem-solving skills and deepen their understanding of complex concepts, highlighting the potential for transformative advances in cognitive learning and co-learning.
翻訳日:2023-12-20 15:07:24 公開日:2023-12-19
# 多元時系列適応のためのプロンプトベース領域識別

Prompt-based Domain Discrimination for Multi-source Time Series Domain Adaptation ( http://arxiv.org/abs/2312.12276v1 )

ライセンス: Link先を確認
Junxiang Wang, Guangji Bai, Wei Cheng, Zhengzhang Chen, Liang Zhao, and Haifeng Chen(参考訳) 時系列領域適応(time series domain adaptation)は、人間の活動認識、睡眠ステージ分類、機械障害診断など、さまざまな応用において重要かつ複雑な課題である。 この複雑な問題に対処するために提案された多くのドメイン適応手法にもかかわらず、その主な焦点は時系列データの共通表現である。 この濃度は、必然的に異なるソースドメインに由来する価値あるドメイン固有情報の監視につながる可能性がある。 このギャップを埋めるために,マルチソース時系列ドメイン適応のために設計された新しいプロンプトベースのディープラーニングモデルであるPONDを導入する。 PONDは、特に重要な課題に対処するように調整されています。 1)メタデータ情報と時系列分布の定量的関係の不有効性 2)ドメイン固有のメタデータ情報抽出への探究の要点。 本稿では,メタデータ情報の忠実な学習を容易にするために,インスタンスレベルのプロンプト生成器と忠実度損失機構を提案する。 さらに、複数のソースドメインからドメイン固有のメタデータ情報を識別するドメイン識別手法を提案する。 提案手法は,目的を効率的に最適化する簡易かつ効果的なメタラーニングアルゴリズムを含む。 さらに,Mixture of Expert (MoE) 技術を組み込むことで,モデルの性能を向上させる。 提案したPONDモデルの有効性とロバスト性は、5つのデータセットを含む50のシナリオにまたがる実験を通じて広く検証され、提案したPONDモデルはF1スコア上で6,6\%以上の最先端手法よりも優れていることを示す。

Time series domain adaptation stands as a pivotal and intricate challenge with diverse applications, including but not limited to human activity recognition, sleep stage classification, and machine fault diagnosis. Despite the numerous domain adaptation techniques proposed to tackle this complex problem, their primary focus has been on the common representations of time series data. This concentration might inadvertently lead to the oversight of valuable domain-specific information originating from different source domains. To bridge this gap, we introduce POND, a novel prompt-based deep learning model designed explicitly for multi-source time series domain adaptation. POND is tailored to address significant challenges, notably: 1) The unavailability of a quantitative relationship between meta-data information and time series distributions, and 2) The dearth of exploration into extracting domain-specific meta-data information. In this paper, we present an instance-level prompt generator and a fidelity loss mechanism to facilitate the faithful learning of meta-data information. Additionally, we propose a domain discrimination technique to discern domain-specific meta-data information from multiple source domains. Our approach involves a simple yet effective meta-learning algorithm to optimize the objective efficiently. Furthermore, we augment the model's performance by incorporating the Mixture of Expert (MoE) technique. The efficacy and robustness of our proposed POND model are extensively validated through experiments across 50 scenarios encompassing five datasets, which demonstrates that our proposed POND model outperforms the state-of-the-art methods by up to $66\%$ on the F1-score.
翻訳日:2023-12-20 15:06:29 公開日:2023-12-19
# 騒音蒸留によるインテクスト強化学習の創発

Emergence of In-Context Reinforcement Learning from Noise Distillation ( http://arxiv.org/abs/2312.12275v1 )

ライセンス: Link先を確認
Ilya Zisman, Vladislav Kurenkov, Alexander Nikulin, Viacheslav Sinii, Sergey Kolesnikov(参考訳) In-Context Reinforcement Learningは、人工知能を進化させる大きな可能性を持つ新興分野である。 その中核的な能力は、環境との相互作用を通じて見えないタスクを一般化することにある。 これらの能力を習得するために、エージェントは、アルゴリズムが抽出し、環境のコンテキストに適用しようとするポリシー改善を含む、特定のキュレーションされたデータに基づいて訓練されなければならない。 しかし、多くのタスクにおいて、RLエージェントの訓練は不可能であり、人間のデモンストレーションを得ることは比較的容易である。 さらに、最適ポリシーを与えられることはまれであり、通常は準最適デモンストレーションのみが利用可能である。 我々は,ポリシー改善を伴わずにデモを活用し,準最適デモンストレータの存在下でマルチタスク・イン・コンテキスト学習を可能にする手法である$ad^{\epsilon}$を提案する。 これは漸進的な改善の歴史を人工的に創造することで達成され、そこではノイズがデモ参加者のポリシーに体系的に導入される。 その結果、各遷移は以前の遷移よりも極端に良い軌道を示す。 提案手法はDark RoomとDark Key-to-Door環境でテストし,データ中の最良のポリシと比較して$\textbf{2}$xの改善を実現した。

In-Context Reinforcement Learning is an emerging field with great potential for advancing Artificial Intelligence. Its core capability lies in generalizing to unseen tasks through interaction with the environment. To master these capabilities, an agent must be trained on specifically curated data that includes a policy improvement that an algorithm seeks to extract and then apply in context in the environment. However, for numerous tasks, training RL agents may be unfeasible, while obtaining human demonstrations can be relatively easy. Additionally, it is rare to be given the optimal policy, typically, only suboptimal demonstrations are available. We propose $AD^{\epsilon}$, a method that leverages demonstrations without policy improvement and enables multi-task in-context learning in the presence of a suboptimal demonstrator. This is achieved by artificially creating a history of incremental improvement, wherein noise is systematically introduced into the demonstrator's policy. Consequently, each successive transition illustrates a marginally better trajectory than the previous one. Our approach was tested on the Dark Room and Dark Key-to-Door environments, resulting in over a $\textbf{2}$x improvement compared to the best available policy in the data.
翻訳日:2023-12-20 15:05:31 公開日:2023-12-19
# 単視点材料推定のための固有画像拡散

Intrinsic Image Diffusion for Single-view Material Estimation ( http://arxiv.org/abs/2312.12274v1 )

ライセンス: Link先を確認
Peter Kocsis (1), Vincent Sitzmann (2), Matthias Nie{\ss}ner (1) ((1) Technical University of Munich, (2) MIT EECS)(参考訳) 室内シーンの外観分解のための生成モデルIntrinsic Image Diffusionを提案する。 1つの入力ビューから、アルベド、粗さ、および金属地図として表される複数の材料説明をサンプリングする。 外観分解は、照明と材料特性のあいまいさと実際のデータセットの欠如により、コンピュータビジョンにおいて大きな課題となる。 この問題に対処するために、我々は確率論的定式化を提唱し、真の物質特性を直接予測するのではなく、解空間からサンプルするために条件付き生成モデルを用いる。 さらに, 大規模実世界画像にトレーニングされた拡散モデルに先行して, 強い学習値を用いることで, 物質推定に適応し, 実画像への一般化を高度に改善できることを示す。 提案手法は,PSNRで1.5dB$,アルベド予測で45\%のFIDスコアを達成し,よりシャープで,より一貫性があり,より詳細な資料を生成する。 合成および実世界の両方のデータセットに対する実験を通して,本手法の有効性を実証する。

We present Intrinsic Image Diffusion, a generative model for appearance decomposition of indoor scenes. Given a single input view, we sample multiple possible material explanations represented as albedo, roughness, and metallic maps. Appearance decomposition poses a considerable challenge in computer vision due to the inherent ambiguity between lighting and material properties and the lack of real datasets. To address this issue, we advocate for a probabilistic formulation, where instead of attempting to directly predict the true material properties, we employ a conditional generative model to sample from the solution space. Furthermore, we show that utilizing the strong learned prior of recent diffusion models trained on large-scale real-world images can be adapted to material estimation and highly improves the generalization to real images. Our method produces significantly sharper, more consistent, and more detailed materials, outperforming state-of-the-art methods by $1.5dB$ on PSNR and by $45\%$ better FID score on albedo prediction. We demonstrate the effectiveness of our approach through experiments on both synthetic and real-world datasets.
翻訳日:2023-12-20 15:05:11 公開日:2023-12-19
# VQA4CIR:ビジュアル質問応答による合成画像検索の強化

VQA4CIR: Boosting Composed Image Retrieval with Visual Question Answering ( http://arxiv.org/abs/2312.12273v1 )

ライセンス: Link先を確認
Chun-Mei Feng, Yang Bai, Tao Luo, Zhen Li, Salman Khan, Wangmeng Zuo, Xinxing Xu, Rick Siow Mong Goh, Yong Liu(参考訳) Composed Image Retrieval (CIR) では, 異常検索結果の一定の割合は, 相対的なキャプションと一致していないことが実証的に判明した。 この問題に対処するため、この研究は、CIRのパフォーマンスを高めるためのVisual Question Answering(VQA)の視点を提供する。 VQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。 CIR法によるトップC検索画像から、VQA4CIRは、相対キャプションと矛盾する故障検索結果の悪影響を低減することを目的としている。 検索した画像は相対的なキャプションと一致しないため、「VQAへのQA生成」自己検証パイプラインを利用する。 QA 生成では,LLaMA などの微調整 LLM を用いて,相対的なキャプションから質問や回答を複数生成する。 次に、VQAモデルを得るためにLVLM(例えばLLaVA)を微調整する。 検索した画像と質問をVQAモデルに入力することにより、VQAによる回答とQAペアの回答とが一致していない場合には、相対的なキャプションと矛盾した画像を見つけることができる。 これにより、不整合検索画像のランクを変更することにより、CIR性能を向上させることができる。 実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。

Albeit progress has been made in Composed Image Retrieval (CIR), we empirically find that a certain percentage of failure retrieval results are not consistent with their relative captions. To address this issue, this work provides a Visual Question Answering (VQA) perspective to boost the performance of CIR. The resulting VQA4CIR is a post-processing approach and can be directly plugged into existing CIR methods. Given the top-C retrieved images by a CIR method, VQA4CIR aims to decrease the adverse effect of the failure retrieval results being inconsistent with the relative caption. To find the retrieved images inconsistent with the relative caption, we resort to the "QA generation to VQA" self-verification pipeline. For QA generation, we suggest fine-tuning LLM (e.g., LLaMA) to generate several pairs of questions and answers from each relative caption. We then fine-tune LVLM (e.g., LLaVA) to obtain the VQA model. By feeding the retrieved image and question to the VQA model, one can find the images inconsistent with relative caption when the answer by VQA is inconsistent with the answer in the QA pair. Consequently, the CIR performance can be boosted by modifying the ranks of inconsistently retrieved images. Experimental results show that our proposed method outperforms state-of-the-art CIR methods on the CIRR and Fashion-IQ datasets.
翻訳日:2023-12-20 15:04:54 公開日:2023-12-19
# 自動音声測定:オープンソースの訓練済みKaldi-NL自動音声認識は有効か?

Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition? ( http://arxiv.org/abs/2312.12269v1 )

ライセンス: Link先を確認
Gloria Araiza-Illan, Luke Meyer, Khiet P. Truong and Deniz Baskent(参考訳) 実際の音声測定ツールとして,年齢や聴力の異なる個体群の聴力スクリーニングのためのDINテストがある。 テストは通常、リスナーが話す応答を得点する人間の監督者(臨床医など)や、リスナーが入力した応答をソフトウェアがスコア付けするオンラインによって行われる。 このテストでは24桁のトリプレットが適応階段手順で提示され、音声受信しきい値(srt)となる。 本稿では,オープンソースの自動音声認識ツールキットであるkaldi-nlを用いて,人間の監督なしに音声応答を評価可能な代替自動dinテストセットアップを提案する。 30人のオランダ成人(19-64歳)がDIN+カルディ-NL試験を完了した。 音声応答を録音し,Kaldi-NLによるデコード応答の転写評価に利用した。 研究1では, 単語誤り率(WER)によるカルディ-NLの性能評価を行い, 音声応答に含まれる数字の総数と比較して, 文字起こし中の数字のみに関する要約復号誤差の割合を調べた。 参加者の平均werは5.%(0~48%、sd=8.8%)で、平均復号誤差は参加者1人あたり3回であった。 研究2では、Kaldi-NLの復号誤りがDINテスト出力(SRT)に与える影響をブートストラップシミュレーションを用いて分析した。 前回の研究では、正常な成人のsrt変動性は0.70dbであった。 研究2では, 復号誤りを伴う最大4個の三重項がSRTの変動を生じ, 臨床応用の可能性が示唆された。

A practical speech audiometry tool is the digits-in-noise (DIN) test for hearing screening of populations of varying ages and hearing status. The test is usually conducted by a human supervisor (e.g., clinician), who scores the responses spoken by the listener, or online, where a software scores the responses entered by the listener. The test has 24 digit-triplets presented in an adaptive staircase procedure, resulting in a speech reception threshold (SRT). We propose an alternative automated DIN test setup that can evaluate spoken responses whilst conducted without a human supervisor, using the open-source automatic speech recognition toolkit, Kaldi-NL. Thirty self-reported normal-hearing Dutch adults (19-64 years) completed one DIN+Kaldi-NL test. Their spoken responses were recorded, and used for evaluating the transcript of decoded responses by Kaldi-NL. Study 1 evaluated the Kaldi-NL performance through its word error rate (WER), percentage of summed decoding errors regarding only digits found in the transcript compared to the total number of digits present in the spoken responses. Average WER across participants was 5.0% (range 0 - 48%, SD = 8.8%), with average decoding errors in three triplets per participant. Study 2 analysed the effect that triplets with decoding errors from Kaldi-NL had on the DIN test output (SRT), using bootstrapping simulations. Previous research indicated 0.70 dB as the typical within-subject SRT variability for normal-hearing adults. Study 2 showed that up to four triplets with decoding errors produce SRT variations within this range, suggesting that our proposed setup could be feasible for clinical applications.
翻訳日:2023-12-20 15:04:30 公開日:2023-12-19
# web 3.0と教育への分散アプローチ

Web 3.0 and a Decentralized Approach to Education ( http://arxiv.org/abs/2312.12268v1 )

ライセンス: Link先を確認
Sarah A. Flanery, Kamalesh Mohanasundar, Christiana Chamon, Srujan D. Kotikela, Francis K. Quek(参考訳) ウェブの自然な進化に伴い、分散化の必要性は現在の中央集権教育システムを時代遅れにした。 学生は、自分の業績が直接人間と結びついており、価値あるものとみなす唯一の方法は、高価な権威ある機関の切手の検証であるとして、資格を「所有」しない。 しかし、大学に行くことが教育を受ける唯一の方法ではなく、オープンソース学習教材はインターネットを通じて広く利用でき、アクセス可能である。 しかし、我々の社会は、これらの教育方法が学位や証明書を含まない場合に検証可能であるとは考えていない。 さらに、オープンソースコースの大部分に対する有効な証明書は、取得するのに数百ドルかかる。 中央集権的な教育の性格は、経済的に有利なコミュニティの学生と比べて、特権の低いコミュニティの生徒を不利にし、教育に対する分散的なアプローチは、そのような不一致の大部分を排除している。 本稿では,ユーザに直接リンクされた認証情報をアップロードするために,分散ID(DID)をWeb 3.0に統合する。 各クレデンシャルはEthereumブロックチェーンに付加され、設計上、一度アップロードしても変更できない。 候補のアップロード履歴と検証履歴を表示するためのDID文書ベースのアクセス制御を含む。 最後に,TLSプロトコルを用いてインターネットへのセキュアな接続を提供し,ユーザの認証や認証の信頼性を確保する。

With the natural evolution of the web, the need for decentralization has rendered the current centralized education system out of date. The student does not "own" their credentials, as the only way their accomplishments are directly linked to their person and considered valuable is by verification through a stamp of an expensive, prestigious institution. However, going to a university is no longer the only way to acquire an education; open-source learning material is widely available and accessible through the internet. However, our society does not deem these methods of education as verifiable if they do not include a degree or certificate. Additionally, a valid certificate for the vast majority of open-source courses costs a few hundred dollars to obtain. The centralized nature of education inadvertently places students in underprivileged communities at a disadvantage in comparison to students in economically advantaged communities, thus a decentralized approach to education would eliminate the vast majority of such discrepancies. In the present paper, we integrate Decentralized Identity (DID) with Web 3.0 to upload credentials linked directly to the user. Each credential is appended to an Ethereum blockchain that, by design, cannot be altered once uploaded. We include DID document based access controls to display the candidate's upload and verification history. Finally, we utilize TLS protocols to provide a secure connection to the internet for ensuring non-fungibility of credentials and authentication of users.
翻訳日:2023-12-20 15:03:59 公開日:2023-12-19
# feddiv: 雑音ラベルを用いた連合学習のための協調雑音フィルタリング

FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy Labels ( http://arxiv.org/abs/2312.12263v1 )

ライセンス: Link先を確認
Jichang Li, Guanbin Li, Hui Cheng, Zicheng Liao, Yizhou Yu(参考訳) F-LNL(Federated Learning with Noisy labels)は、ローカルノイズやクリーンサンプルでトレーニングされた複数のクライアントモデルを集約することで、協調的な分散学習を通じて最適なサーバモデルを求めることを目的としている。 フェデレーション学習の枠組みに基づき,近年では,各クライアントのクリーンサンプルとノイズサンプルを分離するラベルノイズフィルタリングを主に採用し,ラベルノイズの悪影響を軽減している。 しかし、これらの従来の手法は、全てのクライアントの知識を生かしてノイズフィルタを学習しないため、準最適かつ劣悪なノイズフィルタリング性能が得られ、訓練安定性を損なう。 本稿ではF-LNLの課題に取り組むためにFedDivを提案する。 具体的には,各クライアントのノイズラベル付きサンプルを効果的に識別し,局所的なトレーニングセッションの安定性を高めるための,フェデレートノイズフィルタというグローバルノイズフィルタを提案する。 データプライバシを犠牲にすることなく、すべてのクライアントに対するラベルノイズのグローバル分布をモデル化することで実現される。 そして,グローバルモデルを高い性能を達成するために,予測整合性に基づくサンプリングを導入し,局所モデルトレーニングのためのより信頼性の高いローカルデータを特定し,ノイズの記憶を防止し,トレーニング安定性を高める。 CIFAR-10, CIFAR-100, Clothing1Mの大規模な実験により, IIDおよび非IIDデータパーティションの異なるラベル設定下での最先端F-LNL法よりも優れた性能が得られた。 ソースコードはhttps://github.com/lijichang/FLNL-FedDiv.comで公開されている。

Federated learning with noisy labels (F-LNL) aims at seeking an optimal server model via collaborative distributed learning by aggregating multiple client models trained with local noisy or clean samples. On the basis of a federated learning framework, recent advances primarily adopt label noise filtering to separate clean samples from noisy ones on each client, thereby mitigating the negative impact of label noise. However, these prior methods do not learn noise filters by exploiting knowledge across all clients, leading to sub-optimal and inferior noise filtering performance and thus damaging training stability. In this paper, we present FedDiv to tackle the challenges of F-LNL. Specifically, we propose a global noise filter called Federated Noise Filter for effectively identifying samples with noisy labels on every client, thereby raising stability during local training sessions. Without sacrificing data privacy, this is achieved by modeling the global distribution of label noise across all clients. Then, in an effort to make the global model achieve higher performance, we introduce a Predictive Consistency based Sampler to identify more credible local data for local model training, thus preventing noise memorization and further boosting the training stability. Extensive experiments on CIFAR-10, CIFAR-100, and Clothing1M demonstrate that \texttt{FedDiv} achieves superior performance over state-of-the-art F-LNL methods under different label noise settings for both IID and non-IID data partitions. Source code is publicly available at https://github.com/lijichang/FLNL-FedDiv.
翻訳日:2023-12-20 15:03:37 公開日:2023-12-19
# 機械学習による土壌温度と正規化差植生指標の関係の推定

Inferring the relationship between soil temperature and the normalized difference vegetation index with machine learning ( http://arxiv.org/abs/2312.12258v1 )

ライセンス: Link先を確認
Steven Mortier, Amir Hamedpour, Bart Bussmann, Ruth Phoebe Tchana Wandji, Steven Latr\'e, Bjarni D. Sigurdsson, Tom De Schepper and Tim Verdonck(参考訳) 気候の変化は植物の表現学に大きな影響を与え、炭素循環の変化のような重要なフィードバック効果をもたらす。 これらの現象的フィードバック効果は、しばしば植物の生長期の開始または終了日の変化によって引き起こされる。 正規化差分植生指標(NDVI)は、緑植物の存在を評価するための直接的な指標であり、また、植物の成長時期を推定できる。 本研究では,2014年から2019年にかけての亜寒帯草地生態系における土壌温度が季節開始時期(SOS),季節ピーク時期(POS)および年間最大NDVI値(PEAK)に及ぼす影響を検討した。 また,植生現象の経年変化に対する気温,降水量,照度など他の気象変数の影響についても検討した。 機械学習(ML)手法とSHAP(SHapley Additive ExPlanations)値を用いて,各変数の表現論的予測に対する相対的重要性と寄与を分析した。 以上の結果から,土壌温度とsosおよびposの相関関係が明らかとなり,土壌温度が高いと生育期の早期開始とピークにつながることが示唆された。 しかし, 最大ndvi値は土壌温度の上昇とともにわずかに増加した。 他の気象変数の解析により、植生現象の経年変化にその影響が示された。 本研究は,土壌温度,気象変数,植生表現学との関係に関する我々の知識に寄与し,気候変動に直面した植生現象特性の予測と亜寒帯草原の管理に有用な知見を提供する。 さらに、この研究は将来のMLに基づく植生表現学研究の基盤となる。

Changes in climate can greatly affect the phenology of plants, which can have important feedback effects, such as altering the carbon cycle. These phenological feedback effects are often induced by a shift in the start or end dates of the growing season of plants. The normalized difference vegetation index (NDVI) serves as a straightforward indicator for assessing the presence of green vegetation and can also provide an estimation of the plants' growing season. In this study, we investigated the effect of soil temperature on the timing of the start of the season (SOS), timing of the peak of the season (POS), and the maximum annual NDVI value (PEAK) in subarctic grassland ecosystems between 2014 and 2019. We also explored the impact of other meteorological variables, including air temperature, precipitation, and irradiance, on the inter-annual variation in vegetation phenology. Using machine learning (ML) techniques and SHapley Additive exPlanations (SHAP) values, we analyzed the relative importance and contribution of each variable to the phenological predictions. Our results reveal a significant relationship between soil temperature and SOS and POS, indicating that higher soil temperatures lead to an earlier start and peak of the growing season. However, the Peak NDVI values showed just a slight increase with higher soil temperatures. The analysis of other meteorological variables demonstrated their impacts on the inter-annual variation of the vegetation phenology. Ultimately, this study contributes to our knowledge of the relationships between soil temperature, meteorological variables, and vegetation phenology, providing valuable insights for predicting vegetation phenology characteristics and managing subarctic grasslands in the face of climate change. Additionally, this work provides a solid foundation for future ML-based vegetation phenology studies.
翻訳日:2023-12-20 15:03:10 公開日:2023-12-19
# マイクロファブリケート原子蒸気セルにおけるスピン偏極の空洞共鳴検出

Cavity-resonated detection of spin polarization in a microfabricated atomic vapor cell ( http://arxiv.org/abs/2312.12256v1 )

ライセンス: Link先を確認
Mar\'ia Hern\'andez Ruiz, Yintao Ma, Hana Medhat, Vito Giovanni Lucivero and Morgan W. Mitchell(参考訳) 光共振器内のマイクロファブリケーション蒸気セルにおける原子蒸気の電子スピン分極の非破壊的モニタリングを連続的に実施する。 2つのチャンバーシリコン及びガラスセルは、n$_{2}$バッファガスの$^{87}$rb及び1.3アマガットを含み、二色誘電体コーティングを有する2枚のミラーにより形成された平面光共振器内に配置され、d$_2$線近傍の位相変調プローブ光への結合を780nmで共振的に強化する。 本稿では,スピン依存型複素屈折率,共振器光伝達関数,スピン偏光に対するPDH信号応答などの信号生成理論について述べる。 我々は、原子共鳴線を周回する波長200$GHzの共振器とPDH信号を観測する。 795 nm d$_1$ライン上の共鳴光ポンピングにより、スピン依存キャビティ線シフトを観測し、理論とよく一致した。 我々は、ラインシフトと光ポンピングパワーの飽和を利用して、光ポンピングの数密度と効率を校正する。 未解決のサイドバンド系では、スピン偏極密度の量子ノイズに制限されたPDH読み出しを観測し、700Hz以上の周波数に対して9×9のスピンs cm$^{-3}$ Hz$^{-1/2}$のフラットノイズフロアを観測した。 この手法の拡張の可能性に留意する。

We demonstrate continuous Pound-Drever-Hall (PDH) nondestructive monitoring of the electron spin polarization of an atomic vapor in a microfabricated vapor cell within an optical resonator. The two-chamber silicon and glass cell contains $^{87}$Rb and 1.3 amagat of N$_{2}$ buffer gas, and is placed within a planar optical resonator formed by two mirrors with dichroic dielectric coatings to resonantly enhance the coupling to phase-modulated probe light near the D$_2$ line at 780 nm. We describe the theory of signal generation in this system, including the spin-dependent complex refractive index, cavity optical transfer functions, and PDH signal response to spin polarization. We observe cavity transmission and PDH signals across $\approx 200$ GHz of detuning around the atomic resonance line. By resonant optical pumping on the 795 nm D$_1$ line, we observe spin-dependent cavity line shifts, in good agreement with theory. We use the saturation of the line shift vs. optical pumping power to calibrate the number density and efficiency of the optical pumping. In the unresolved sideband regime, we observe quantum-noise-limited PDH readout of the spin polarization density, with a flat noise floor of $9 \times 10^9$ spins cm$^{-3}$ Hz$^{-1/2}$ for frequencies above 700 Hz. We note possible extensions of the technique.
翻訳日:2023-12-20 15:02:42 公開日:2023-12-19
# 自動カリキュラム学習によるマルチエージェント追跡のためのタスクフレックスソルバ

TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum Learning ( http://arxiv.org/abs/2312.12255v1 )

ライセンス: Link先を確認
Jiayu Chen, Guosheng Li, Chao Yu, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang(参考訳) 本稿では,障害のある限られた環境下で,遅い追従者が高速避難者を捕まえるために協力するマルチエージェント追従の問題に対処する。 既存のヒューリスティックアルゴリズムは、しばしば表現的な調整戦略を欠き、タスク条件に非常に敏感であり、広範なハイパーパラメータチューニングを必要とする。 対照的に、この問題に強化学習(RL)を適用し、協調的追跡戦略を得ることができる。 しかし、RLベースの手法は、大量のトレーニングデータと、異なるシーンサイズ、障害物の数や速度、エスカレーターに対するフレキシブルな速度比など、様々なタスク条件への適応性に制限があるため、複雑なシナリオのトレーニングにおいて困難に直面している。 本研究では,rl とカリキュラム学習を組み合わせることで,マルチエージェント追従問題に対する柔軟な解法である taskflex solver (tfs) を導入する。 TFSは、トレーニングの進捗状況に基づいてタスク分布を構築し、トレーニング効率と最終的なパフォーマンスを向上させるカリキュラム学習手法を使用している。 提案手法は,課題成功率を評価し,カリキュラムアーカイブを維持するのに適度な難易度を持つタスクを選択するタスク評価器と,カリキュラムアーカイブからタスクをサンプリングしてトレーニング分布を構築するタスクサンプリング器の2つの主成分からなる。 実験により、tfsはベースラインよりもはるかに強力な性能を示し、2次元および3次元のマルチエージェント追従問題において、多様で動的に変化するシーンにおいて100%の捕獲率を達成した。 プロジェクトのwebサイトはhttps://sites.google.com/view/tfs-2023にある。

This paper addresses the problem of multi-agent pursuit, where slow pursuers cooperate to capture fast evaders in a confined environment with obstacles. Existing heuristic algorithms often lack expressive coordination strategies and are highly sensitive to task conditions, requiring extensive hyperparameter tuning. In contrast, reinforcement learning (RL) has been applied to this problem and is capable of obtaining cooperative pursuit strategies. However, RL-based methods face challenges in training for complex scenarios due to the vast amount of training data and limited adaptability to varying task conditions, such as different scene sizes, varying numbers and speeds of obstacles, and flexible speed ratios of the evader to the pursuer. In this work, we combine RL and curriculum learning to introduce a flexible solver for multiagent pursuit problems, named TaskFlex Solver (TFS), which is capable of solving multi-agent pursuit problems with diverse and dynamically changing task conditions in both 2-dimensional and 3-dimensional scenarios. TFS utilizes a curriculum learning method that constructs task distributions based on training progress, enhancing training efficiency and final performance. Our algorithm consists of two main components: the Task Evaluator, which evaluates task success rates and selects tasks of moderate difficulty to maintain a curriculum archive, and the Task Sampler, which constructs training distributions by sampling tasks from the curriculum archive to maximize policy improvement. Experiments show that TFS produces much stronger performance than baselines and achieves close to 100% capture rates in both 2-dimensional and 3-dimensional multi-agent pursuit problems with diverse and dynamically changing scenes. The project website is at https://sites.google.com/view/tfs-2023.
翻訳日:2023-12-20 15:02:11 公開日:2023-12-19
# 都市環境のクラウドソーシング評価のための地理位置情報ベース感性分析(ABSA)

Geo-located Aspect Based Sentiment Analysis (ABSA) for Crowdsourced Evaluation of Urban Environments ( http://arxiv.org/abs/2312.12253v1 )

ライセンス: Link先を確認
Demircan Tas, Rohit Priyadarshi Sanatani(参考訳) 都市環境のクラウドソース評価のために,都市設計・計画分野においてセンチメント分析手法が急速に採用されている。 しかし、この領域で使われるほとんどのモデルは、その領域に含まれる特定の都市的側面やそれらに関連する感情を推測することなく、テキスト全体の評価に関連する肯定的あるいは否定的な感情を識別することができる。 Aspect Based Sentiment Analysis (ABSA)はますます人気が高まっているが、既存のABSAモデルはレストラン、電子製品、消費者製品などの都市以外のテーマで訓練されている。 本研究は,地理位置のテクスト的都市評価に含まれる都市的側面を,対応するアスペクト感情分類とともに抽出できるabsaモデルを開発した。 公共公園のクラウドソースレビュー2500件のデータセットを注釈し、このデータに基づいて、ローカルコンテキストフォーカス(LCF)を用いて、変換器(BERT)モデルから双方向エンコーダ表現を訓練する。 本モデルは,Aspect Term extract (ATE) とAspect Sentiment Classification (ASC) の両タスクに対して,都市レビューにおける予測精度を大幅に向上させる。 実証分析では、ボストン全域の肯定的および否定的な都市的側面が空間的に可視化される。 このモデルが、きめ細かい都市感情評価のデザイナーやプランナーに役に立つことを願っています。

Sentiment analysis methods are rapidly being adopted by the field of Urban Design and Planning, for the crowdsourced evaluation of urban environments. However, most models used within this domain are able to identify positive or negative sentiment associated with a textual appraisal as a whole, without inferring information about specific urban aspects contained within it, or the sentiment associated with them. While Aspect Based Sentiment Analysis (ABSA) is becoming increasingly popular, most existing ABSA models are trained on non-urban themes such as restaurants, electronics, consumer goods and the like. This body of research develops an ABSA model capable of extracting urban aspects contained within geo-located textual urban appraisals, along with corresponding aspect sentiment classification. We annotate a dataset of 2500 crowdsourced reviews of public parks, and train a Bidirectional Encoder Representations from Transformers (BERT) model with Local Context Focus (LCF) on this data. Our model achieves significant improvement in prediction accuracy on urban reviews, for both Aspect Term Extraction (ATE) and Aspect Sentiment Classification (ASC) tasks. For demonstrative analysis, positive and negative urban aspects across Boston are spatially visualized. We hope that this model is useful for designers and planners for fine-grained urban sentiment evaluation.
翻訳日:2023-12-20 15:01:42 公開日:2023-12-19
# ST(OR)2:手術室における活動認識のための時空間オブジェクトレベル推論

ST(OR)2: Spatio-Temporal Object Level Reasoning for Activity Recognition in the Operating Room ( http://arxiv.org/abs/2312.12250v1 )

ライセンス: Link先を確認
Idris Hamoud, Muhammad Abdullah Jamal, Vinkle Srivastav, Didier Mutter, Nicolas Padoy, Omid Mohareri(参考訳) 手術ロボティクスは、オペレーティング・ルーム(OR)における患者の安全性と臨床経験を改善することを約束している。 しかし同時に、強力なチームの調整と効果的な管理を必要とする、新たな課題も伴う。 外科的活動の自動検出は、これらの課題に取り組むためにAIベースのインテリジェントツールを開発する上で重要な要件である。 しかし,現状の手術活動認識手法は画像に基づく表現に依存しており,収集に時間を要する大規模ラベル付きデータセットに依存している。 本研究は, orにおける手術活動認識のための新しいサンプル効率とオブジェクトベースアプローチを提案する。 本手法は, 臨床医と手術器具の幾何学的配置に着目し, ORにおける重要な物体相互作用のダイナミクスを活用する。 我々は,長時間映像活動認識のための低データレジーム実験を行う。 また,クリップレベルの動作分類における他のオブジェクト指向アプローチに対してベンチマークを行い,優れた性能を示す。

Surgical robotics holds much promise for improving patient safety and clinician experience in the Operating Room (OR). However, it also comes with new challenges, requiring strong team coordination and effective OR management. Automatic detection of surgical activities is a key requirement for developing AI-based intelligent tools to tackle these challenges. The current state-of-the-art surgical activity recognition methods however operate on image-based representations and depend on large-scale labeled datasets whose collection is time-consuming and resource-expensive. This work proposes a new sample-efficient and object-based approach for surgical activity recognition in the OR. Our method focuses on the geometric arrangements between clinicians and surgical devices, thus utilizing the significant object interaction dynamics in the OR. We conduct experiments in a low-data regime study for long video activity recognition. We also benchmark our method againstother object-centric approaches on clip-level action classification and show superior performance.
翻訳日:2023-12-20 15:01:19 公開日:2023-12-19
# mdd-unet: 理論保証による医用画像分割のためのドメイン適応,概念実証

MDD-UNet: Domain Adaptation for Medical Image Segmentation with Theoretical Guarantees, a Proof of Concept ( http://arxiv.org/abs/2312.12246v1 )

ライセンス: Link先を確認
Asbj{\o}rn Munk, Ao Ma, Mads Nielsen(参考訳) イメージセグメンテーションの最先端技術は、しばしばスキップ接続を備えたU字型エンコーダデコーダネットワークであるU-Netアーキテクチャに基づいている。 強力なパフォーマンスにもかかわらず、トレーニングされたデータとは異なる特性を持つデータに使用すると、アーキテクチャはよく機能しないことが多い。 ドメインシフトの存在下での性能向上のための多くの技術が開発されているが、一般的にはドメイン適応の理論にゆるい関係がある。 本稿では,MDD-UNet と呼ばれる Margin Disparity Discrepancy [1] に基づく理論的保証付き U-Net のための教師なしドメイン適応フレームワークを提案する。 海馬セグメンテーションの課題において提案手法を評価した結果,MDD-UNet は対象領域のラベルに関する知識が無く,ドメイン不変な特徴を学習できることが判明した。 MDD-UNetは12のデータセットのうち11の標準U-Netのパフォーマンスを改善している。 この研究は、標準的なU-Netの改良を現代的な拡張なしで証明することで概念実証として機能し、方法論的および実践的な観点から非常に大きな仮説空間を持つモデルに対する領域適応の研究の新たな道を開く。 コードはhttps://github.com/asbjrnmunk/mdd-unetで入手できる。

The current state-of-the art techniques for image segmentation are often based on U-Net architectures, a U-shaped encoder-decoder networks with skip connections. Despite the powerful performance, the architecture often does not perform well when used on data which has different characteristics than the data it was trained on. Many techniques for improving performance in the presence of domain shift have been developed, however typically only have loose connections to the theory of domain adaption. In this work, we propose an unsupervised domain adaptation framework for U-Nets with theoretical guarantees based on the Margin Disparity Discrepancy [1] called the MDD-UNet. We evaluate the proposed technique on the task of hippocampus segmentation, and find that the MDD-UNet is able to learn features which are domain-invariant with no knowledge about the labels in the target domain. The MDD-UNet improves performance over the standard U-Net on 11 out of 12 combinations of datasets. This work serves as a proof of concept by demonstrating an improvement on the U-Net in it's standard form without modern enhancements, which opens up a new avenue of studying domain adaptation for models with very large hypothesis spaces from both methodological and practical perspectives. Code is available at https://github.com/asbjrnmunk/mdd-unet.
翻訳日:2023-12-20 15:01:03 公開日:2023-12-19
# GeomVerse: 幾何学的推論のための大規模モデルの体系的評価

GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning ( http://arxiv.org/abs/2312.12241v1 )

ライセンス: Link先を確認
Mehran Kazemi, Hamidreza Alvari, Ankit Anand, Jialin Wu, Xi Chen, Radu Soricut(参考訳) 入力質問がテキストのみである場合、大規模言語モデルはマルチホップ数学的推論において印象的な結果を示した。 しかし、多くの数学的推論問題はテキストと画像の両方を含んでいる。 視覚言語モデル(VLM)の採用が絶え間なく増加する中、これらの問題に対する推論能力を理解することが重要である。 本稿では,幾何問題レンズを用いて,様々な軸に沿ったVLMの推論能力を評価する。 複数の軸に沿って制御可能な難易度を有する幾何学的質問の合成データセットを手続き的に作成し,体系的な評価を可能にする。 最新のvlmのベンチマークを用いて得られた実験結果から,従来のベンチマークで示唆したように,これらのモデルは幾何(および一般化によって,他のトピックが類似する推論を必要とする)のような主題では有能ではないことが示唆された。 これは、より深い問題を解決するには、追加の記憶された知識ではなく、長い推論の連鎖が必要であるため、様々な深さレベルでのベンチマークの構築によって特に明確にされる。 この分野のさらなる研究のためのデータセットをリリースする。

Large language models have shown impressive results for multi-hop mathematical reasoning when the input question is only textual. Many mathematical reasoning problems, however, contain both text and image. With the ever-increasing adoption of vision language models (VLMs), understanding their reasoning abilities for such problems is crucial. In this paper, we evaluate the reasoning capabilities of VLMs along various axes through the lens of geometry problems. We procedurally create a synthetic dataset of geometry questions with controllable difficulty levels along multiple axes, thus enabling a systematic evaluation. The empirical results obtained using our benchmark for state-of-the-art VLMs indicate that these models are not as capable in subjects like geometry (and, by generalization, other topics requiring similar reasoning) as suggested by previous benchmarks. This is made especially clear by the construction of our benchmark at various depth levels, since solving higher-depth problems requires long chains of reasoning rather than additional memorized knowledge. We release the dataset for further research in this area.
翻訳日:2023-12-20 15:00:41 公開日:2023-12-19
# ゴールベース移行学習のための値明示型事前学習

Value Explicit Pretraining for Goal-Based Transfer Learning ( http://arxiv.org/abs/2312.12339v1 )

ライセンス: Link先を確認
Kiran Lekkala, Henghui Bao, Sumedh Sontakke, Laurent Itti(参考訳) 本稿では,最終フレームが目標に対応する一連の観測から,価値関数推定に基づいてタスクに依存しない表現を学習する手法を提案する。 これらの表現は、外見の変化やダイナミクスに関係なく、時間的距離と目標状態に基づいて、異なるタスクをまたいだ状態を関連付けることを学習する。 この方法は、学習ポリシー/スキルを未認識の関連タスクに移すのに使うことができる。

We propose a method that allows for learning task-agnostic representations based on value function estimates from a sequence of observations where the last frame corresponds to a goal. These representations would learn to relate states across different tasks, based on the temporal distance to the goal state, irrespective of the appearance changes and dynamics. This method could be used to transfer learnt policies/skills to unseen related tasks.
翻訳日:2023-12-20 14:53:10 公開日:2023-12-19
# スマート・コネクテッド・ファームとネットワーク・ファーマーが農業生産に影響を及ぼす気候問題に取り組む

Smart Connected Farms and Networked Farmers to Tackle Climate Challenges Impacting Agricultural Production ( http://arxiv.org/abs/2312.12338v1 )

ライセンス: Link先を確認
Behzad J. Balabaygloo, Barituka Bekee, Samuel W. Blair, Suzanne Fey, Fateme Fotouhi, Ashish Gupta, Kevin Menke, Anusha Vangala, Jorge C. M. Palomares, Aaron Prestholt, Vishesh K. Tanwar, Xu Tao, Matthew E. Carroll, Sajal Das, Gil Depaula, Peter Kyveryga, Soumik Sarkar, Michelle Segovia, Simone Sylvestri, Corinne Valdivia(参考訳) 気候変動による農作物生産への影響など農業生産の大きな課題を満たすためには、農業を含む社会科学、技術、農業専門家の密接な統合が必要である。 情報通信技術、精密農業とデータ分析の急速な進歩により、スマート・コネクテッド・ファーム(scf)とネットワーク化されたファーマーズ(英語版)が誕生する。 ネットワークと協調したファーマーネットワークは、農業生産と収益性を高めるために農家にユニークな利点を与え、一方、悪質な気候イベントに取り組む。 本稿の目的は,工学,計算機科学,データ科学,社会科学,およびデータプライバシ,共有,技術導入を含む経済学の進歩を含む,scfにおける技術の現状を包括的に概観することである。

To meet the grand challenges of agricultural production including climate change impacts on crop production, a tight integration of social science, technology and agriculture experts including farmers are needed. There are rapid advances in information and communication technology, precision agriculture and data analytics, which are creating a fertile field for the creation of smart connected farms (SCF) and networked farmers. A network and coordinated farmer network provides unique advantages to farmers to enhance farm production and profitability, while tackling adverse climate events. The aim of this article is to provide a comprehensive overview of the state of the art in SCF including the advances in engineering, computer sciences, data sciences, social sciences and economics including data privacy, sharing and technology adoption.
翻訳日:2023-12-20 14:53:04 公開日:2023-12-19
# pixelSplat:スケーラブルな汎用3D再構成のためのイメージペアからの3Dガウススプラット

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction ( http://arxiv.org/abs/2312.12337v1 )

ライセンス: Link先を確認
David Charatan, Sizhe Li, Andrea Tagliasacchi, Vincent Sitzmann(参考訳) 画像から3次元ガウス原始体をパラメータ化した3次元放射界の再構成を学習するフィードフォワードモデルであるPixelSplatを導入する。 我々のモデルは、スケーラブルなトレーニングのためのリアルタイムおよびメモリ効率のレンダリングと、推論時の高速な3D再構成を備えている。 スパースおよび局所支持表現に固有な局所的極小を克服するために,その確率分布から3次元およびサンプルガウス平均上の密度確率分布を推定する。 我々はこのサンプリング操作をパラメータ化トリックで微分可能とし、ガウススプラッティング表現を通して勾配をバックプロパゲートすることができる。 我々は,実世界のRealEstate10kおよびACデータセット上での広義の新規ビュー合成をベンチマークし,解釈可能で編集可能な3Dラジアンスフィールドを再構成しながら,最先端の光電場変換器を上回り,2.5桁のレンダリングを高速化する。

We introduce pixelSplat, a feed-forward model that learns to reconstruct 3D radiance fields parameterized by 3D Gaussian primitives from pairs of images. Our model features real-time and memory-efficient rendering for scalable training as well as fast 3D reconstruction at inference time. To overcome local minima inherent to sparse and locally supported representations, we predict a dense probability distribution over 3D and sample Gaussian means from that probability distribution. We make this sampling operation differentiable via a reparameterization trick, allowing us to back-propagate gradients through the Gaussian splatting representation. We benchmark our method on wide-baseline novel view synthesis on the real-world RealEstate10k and ACID datasets, where we outperform state-of-the-art light field transformers and accelerate rendering by 2.5 orders of magnitude while reconstructing an interpretable and editable 3D radiance field.
翻訳日:2023-12-20 14:52:45 公開日:2023-12-19
# 光の同軸流体における光フィードバックループ:アナログ物理シミュレーションにおける新しい現象へのゲート

Optical Feedback Loop in Paraxial Fluids of Light: A Gate to new phenomena in analogue physical simulations ( http://arxiv.org/abs/2312.12336v1 )

ライセンス: Link先を確認
Tiago D. Ferreira, Ariel Guerreiro, Nuno A. Silva(参考訳) 非線形光学媒質内のレーザー伝搬に基づくテーブルトップ実験を通じて容易にアクセス可能となり, 量子様現象のシミュレーションと探索のための有望なプラットフォームとして光中性流体が出現している。 特に、このアナロジーは、平均場近似の下でのボース・アインシュタイン凝縮の制御モデルと、同軸近似下でのレーザー伝搬のモデルとの形式的等価性に基づいている。 しかし、光アナログ系における伝搬距離によって時間の役割が果たされるという事実は、非線形媒質の限られた長さによるアクセス可能な現象の範囲に強い拘束力を与える可能性がある。 本稿では,この限界を光フィードバックループという形で解くための新しい実験的手法を提案する。 結果は、このアプローチが前例のないダイナミクスにアクセスする可能性を示しており、これらのシステムにおける新しい現象の観察を可能にしている。

Easily accessible through tabletop experiments based on laser propagation inside nonlinear optical media, Paraxial Fluids of Light are emerging as promising platforms for the simulation and exploration of quantum-like phenomena. In particular, the analogy builds on a formal equivalence between the governing model for a Bose-Einstein Condensate under the mean-field approximation and the model of laser propagation under the paraxial approximation. Yet, the fact that the role of time is played by the propagation distance in the optical analogue system may impose strong bounds on the range of accessible phenomena due to the limited length of the nonlinear medium. In this manuscript, we present a novel experimental approach to solve this limitation in the form of an optical feedback loop, which consists of the reconstruction of the optical states at the end of the system followed by their subsequent re-injection exploiting wavefront shaping techniques. The results enclosed demonstrate the potential of this approach to access unprecedented dynamics, paving for the observation of novel phenomena in these systems.
翻訳日:2023-12-20 14:52:26 公開日:2023-12-19
# powmix:マルチモーダル感情分析のための汎用レギュレータ

PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2312.12334v1 )

ライセンス: Link先を確認
Efthymios Georgiou, Yannis Avrithis, Alexandros Potamianos(参考訳) マルチモーダル感情分析(MSA)は、異種データソースを利用して、人間の感情の複雑な性質を解釈する。 マルチモーダルアーキテクチャ設計の大幅な進歩にもかかわらず、この分野には包括的な正規化方法が欠けている。 本稿では,ユニモーダル混合に基づく正則化手法の強みを基盤とする多目的埋め込み空間正則化器 powmix を紹介し,マルチモーダルタスクに特化した新しいアルゴリズムコンポーネントを提案する。 PowMixは、マルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなど、モーダル内の混合を容易にする。 PowMixは5つのコンポーネントから構成される。 1) 生成した混合例の変動数 2)混合因子の重み付け 3)異方性混合 4)動的混合、及び 5)クロスモーダルラベル混合。 ベンチマークMSAデータセットと多種多様なアーキテクチャ設計の広範な実験は、ベースラインと既存の混合方法に対する一貫したパフォーマンス改善によって証明されたPowMixの有効性を示す。 詳細なアブレーション研究では、各powmixコンポーネントのクリティカルな貢献と、それらがパフォーマンスを相乗的に向上させる方法が強調されている。 さらにアルゴリズム解析により、powmixが様々なシナリオでどのように振る舞うかが示され、特に早期融合アーキテクチャと後期融合アーキテクチャを比較する。 特にpowmixは、モデルの堅牢性やテキストの優位性を犠牲にすることなく、全体的なパフォーマンスを向上させる。 限られたデータの状況でも、そのパフォーマンスは高い。 我々はpowmixをmsaの汎用正規化戦略として位置づけている。 コードは利用可能になる。

Multimodal sentiment analysis (MSA) leverages heterogeneous data sources to interpret the complex nature of human sentiments. Despite significant progress in multimodal architecture design, the field lacks comprehensive regularization methods. This paper introduces PowMix, a versatile embedding space regularizer that builds upon the strengths of unimodal mixing-based regularization approaches and introduces novel algorithmic components that are specifically tailored to multimodal tasks. PowMix is integrated before the fusion stage of multimodal architectures and facilitates intra-modal mixing, such as mixing text with text, to act as a regularizer. PowMix consists of five components: 1) a varying number of generated mixed examples, 2) mixing factor reweighting, 3) anisotropic mixing, 4) dynamic mixing, and 5) cross-modal label mixing. Extensive experimentation across benchmark MSA datasets and a broad spectrum of diverse architectural designs demonstrate the efficacy of PowMix, as evidenced by consistent performance improvements over baselines and existing mixing methods. An in-depth ablation study highlights the critical contribution of each PowMix component and how they synergistically enhance performance. Furthermore, algorithmic analysis demonstrates how PowMix behaves in different scenarios, particularly comparing early versus late fusion architectures. Notably, PowMix enhances overall performance without sacrificing model robustness or magnifying text dominance. It also retains its strong performance in situations of limited data. Our findings position PowMix as a promising versatile regularization strategy for MSA. Code will be made available.
翻訳日:2023-12-20 14:52:10 公開日:2023-12-19
# スパイクされたランダム多項式と有限ランク球面積分の位相複雑性

Topological complexity of spiked random polynomials and finite-rank spherical integrals ( http://arxiv.org/abs/2312.12323v1 )

ライセンス: Link先を確認
Vanessa Piccolo(参考訳) 固定単位ベクトルと外部パラメータに依存する決定論的多項式の存在下で、ランダムなガウス同次多項式のN$次元単位球面上のアニール付き複雑性について検討する。 特に,全臨界点の平均点数と局所最大点の平均の指数的漸近式について変分式を定式化する。 これはKac-Riceの公式とガウス・ウィグナー行列の有限ランク摂動の決定的漸近によって得られる。 より正確には、行列式解析は[guionnet, husson 2022] による有限ランク球面積分の最近の進歩に基づき、多ランクスパイクガウスウィグナー行列の大きな偏差を研究する。 変分問題の解析により位相相転移が特定される。 外部パラメータの正確なしきい値があり、一度超えると、複雑性関数は与えられたベクトルに臨界点が近い新しい領域に消える。 興味深いことに、これらの領域は臨界点が複数のベクトルに近くなる領域も含む。

We study the annealed complexity of a random Gaussian homogeneous polynomial on the $N$-dimensional unit sphere in the presence of deterministic polynomials that depend on fixed unit vectors and external parameters. In particular, we establish variational formulas for the exponential asymptotics of the average number of total critical points and of local maxima. This is obtained through the Kac-Rice formula and the determinant asymptotics of a finite-rank perturbation of a Gaussian Wigner matrix. More precisely, the determinant analysis is based on recent advances on finite-rank spherical integrals by [Guionnet, Husson 2022] to study the large deviations of multi-rank spiked Gaussian Wigner matrices. The analysis of the variational problem identifies a topological phase transition. There is an exact threshold for the external parameters such that, once exceeded, the complexity function vanishes into new regions in which the critical points are close to the given vectors. Interestingly, these regions also include those where critical points are close to multiple vectors.
翻訳日:2023-12-20 14:51:45 公開日:2023-12-19
# プライミングアタックによるオープンソースLDMの安全性トレーニングの回避

Bypassing the Safety Training of Open-Source LLMs with Priming Attacks ( http://arxiv.org/abs/2312.12321v1 )

ライセンス: Link先を確認
Jason Vega, Isha Chaudhary, Changming Xu and Gagandeep Singh(参考訳) 近年LLMの人気が高まっているため、LLMの安全訓練の必要性はますます高まっている。 本稿では,SOTA オープンソース LLM は,安全訓練からのアライメントを効果的に回避し,実行が容易な$\textit{priming attack}$ と呼ばれる,シンプルで最適化のない攻撃に対して脆弱であることを示す。 我々の提案した攻撃は、Llama Guardが測定した有害行動に対する攻撃成功率を、ベースラインと比較して最大3.3\times$で改善する。 ソースコードとデータはhttps://github.com/uiuc-focal-lab/llm-priming-attacksで入手できる。

With the recent surge in popularity of LLMs has come an ever-increasing need for LLM safety training. In this paper, we show that SOTA open-source LLMs are vulnerable to simple, optimization-free attacks we refer to as $\textit{priming attacks}$, which are easy to execute and effectively bypass alignment from safety training. Our proposed attack improves the Attack Success Rate on Harmful Behaviors, as measured by Llama Guard, by up to $3.3\times$ compared to baselines. Source code and data are available at https://github.com/uiuc-focal-lab/llm-priming-attacks .
翻訳日:2023-12-20 14:51:28 公開日:2023-12-19
# 量子コンピューティングによる二原子分子の高精度高調波振動周波数

Accurate harmonic vibrational frequencies for diatomic molecules via quantum computing ( http://arxiv.org/abs/2312.12320v1 )

ライセンス: Link先を確認
Shih-Kai Chou, Jyh-Pin Chou, Alice Hu, Yuan-Chung Cheng and Hsi-Sheng Goan(参考訳) ノイズの多い中間スケール量子(NISQ)時代には、限られた量子資源の課題を克服するために改良された量子計算アプローチは非常に貴重である。 しかし、今日の量子計算のほとんどで予測される分子特性の正確さは、対応する実験データと比べてまだ遠い(化学精度には至っていない)。 そこで本研究では,中性閉殻二原子分子集合の高調波振動周波数を計算するための有望な量子ビット効率量子計算手法を提案する。 この目的のために,電子相関を考慮した密度汎関数理論に基づく分子軌道を用いた正確なハミルトニアンを構築し,daubechiesのウェーブレット基底系で拡張することにより,最適化されたコンパクトな活性空間が選択される実空間格子点における正確な表現を可能にした。 提案手法を正当化するために,まず分子ハミルトニアンを立方体ハミルトニアンに変換し,次に正確な対角化法を用いて量子計算により得られる最良の結果とみなすことにより,選択された分子軌道にまたがるハミルトニアンの性能をベンチマークした。 さらに,化学インスパイアしたutcsdアンサッツを用いた変分量子回路は,マイヤー結合次数が2より大きい系を除き,正確な対角化法と同じ精度が得られることを示した。 これらのシステムでは,回路深度が短かったとしても,ヒューリスティックなハードウェア効率のよい実振幅アンサッツがutcsdアンサッツよりも大幅に改善できることを実証し,nisq時代の量子計算により高調波振動周波数を精度良く計算できることを検証した。

During the noisy intermediate-scale quantum (NISQ) era, quantum computational approaches refined to overcome the challenge of limited quantum resources are highly valuable. However, the accuracy of the molecular properties predicted by most of the quantum computations nowadays is still far off (not within chemical accuracy) compared to their corresponding experimental data. Here, we propose a promising qubit-efficient quantum computational approach to calculate the harmonic vibrational frequencies of a large set of neutral closed-shell diatomic molecules with results in great agreement with their experimental data. To this end, we construct the accurate Hamiltonian using molecular orbitals, derived from density functional theory to account for the electron correlation and expanded in the Daubechies wavelet basis set to allow an accurate representation in real space grid points, where an optimized compact active space is further selected so that only a reduced small number of qubits is sufficient to yield an accurate result. To justify the approach, we benchmark the performance of the Hamiltonians spanned by the selected molecular orbitals by first transforming the molecular Hamiltonians into qubit Hamiltonians and then using the exact diagonalization method to calculate the results, regarded as the best results achievable by quantum computation. Furthermore, we show that the variational quantum circuit with the chemistry-inspired UCCSD ansatz can achieve the same accuracy as the exact diagonalization method except for systems whose Mayer bond order indices are larger than 2. For those systems, we demonstrate that the heuristic hardware-efficient RealAmplitudes ansatz, even with a shorter circuit depth, can provide a significant improvement over the UCCSD ansatz, verifying that the harmonic vibrational frequencies could be calculated accurately by quantum computation in the NISQ era.
翻訳日:2023-12-20 14:51:17 公開日:2023-12-19
# RKHSにおける最適フィルタリングの代替的視点

An Alternate View on Optimal Filtering in an RKHS ( http://arxiv.org/abs/2312.12318v1 )

ライセンス: Link先を確認
Benjamin Colburn, Jose C. Principe, Luis G. Sanchez Giraldo(参考訳) カーネル適応フィルタリング(英: Kernel Adaptive Filtering, KAF)は、再生ケルネルヒルベルト空間内の関数を探索する数学的手法である。 時系列予測やシステム識別といったタスクではうまく機能するが、トレーニングサンプルの数とモデルサイズの間の線形関係に悩まされ、今日のデータ飽和世界で一般的な非常に大きなデータセットでの使用を妨げている。 以前の方法は、スパーシフィケーションによってこの問題を解決しようとする。 モデルサイズの線形成長を必ずしも持たないRKHSにおける解への経路を提供することができる最適フィルタリングの新たな視点について述べる。 我々は、確率過程の時間構造がまだ存在するRKHSを定義することでこれを行う。 共分散関数のアイデアの拡張であるcorrentropy [11]を用いて、いくつかの非線形所望の写像関数を記述する時間に基づく関数を作成する。 この解の形式は、より効率的な関数表現を RKHS で作成するための実りある研究ラインを提供する一方で、理論的にはウィナー解に似たテストセットで計算複雑性を提供する。

Kernel Adaptive Filtering (KAF) are mathematically principled methods which search for a function in a Reproducing Kernel Hilbert Space. While they work well for tasks such as time series prediction and system identification they are plagued by a linear relationship between number of training samples and model size, hampering their use on the very large data sets common in today's data saturated world. Previous methods try to solve this issue by sparsification. We describe a novel view of optimal filtering which may provide a route towards solutions in a RKHS which do not necessarily have this linear growth in model size. We do this by defining a RKHS in which the time structure of a stochastic process is still present. Using correntropy [11], an extension of the idea of a covariance function, we create a time based functional which describes some potentially nonlinear desired mapping function. This form of a solution may provide a fruitful line of research for creating more efficient representations of functionals in a RKHS, while theoretically providing computational complexity in the test set similar to Wiener solution.
翻訳日:2023-12-20 14:50:47 公開日:2023-12-19
# Celestial Machine Learning: AI Feynmanによる火星の平面性、ヘリオセンタリティ、軌道方程式の発見

Celestial Machine Learning: Discovering the Planarity, Heliocentricity, and Orbital Equation of Mars with AI Feynman ( http://arxiv.org/abs/2312.12315v1 )

ライセンス: Link先を確認
Zi-Yu Khoo, Gokul Rajiv, Abel Yang, Jonathan Sze Choong Low, St\'ephane Bressan(参考訳) 機械やアルゴリズムは、天文学的な観測だけで火星の楕円軌道を発見し、学べるか? ヨハネス・ケプラーは火星の楕円軌道に関する最初の法則を発見するために、2つのパラダイムシフトを必要とした。 まず、ジオセントリックからヘリオセントリックな参照フレームへのシフトである。 次に、火星の軌道を3次元空間から2次元空間に還元する。 我々は、物理学にヒントを得た記号回帰ツールであるAI Feynmanを拡張し、火星の軌道のヘリオセンタリティと平面性を発見し、ケプラーの最初の法則の発見をエミュレートする。

Can a machine or algorithm discover or learn the elliptical orbit of Mars from astronomical sightings alone? Johannes Kepler required two paradigm shifts to discover his First Law regarding the elliptical orbit of Mars. Firstly, a shift from the geocentric to the heliocentric frame of reference. Secondly, the reduction of the orbit of Mars from a three- to a two-dimensional space. We extend AI Feynman, a physics-inspired tool for symbolic regression, to discover the heliocentricity and planarity of Mars' orbit and emulate his discovery of Kepler's first law.
翻訳日:2023-12-20 14:50:28 公開日:2023-12-19
# オーストリアにおける自動運転のための深層学習視覚モデルYOLOとDETRの質的研究

First qualitative observations on deep learning vision model YOLO and DETR for automated driving in Austria ( http://arxiv.org/abs/2312.12314v1 )

ライセンス: Link先を確認
Stefan Schoder(参考訳) 本研究では, 自動物体検出のためのYou Only Look Once (YOLO), Real-Time Detection TRansformer (RT-DETR) アルゴリズムなど, 単段および二段2次元物体検出アルゴリズムの適用について検討した。 YOLOアルゴリズムは、その効率と精度で知られている最先端のリアルタイム物体検出システムである。 運転の文脈では、オブジェクトを迅速に識別し追跡する能力は、advanced driver assistance system(adas)とautonomous vehiclesにとって重要である。 この研究はオーストリアの道路事情と交通シナリオがもたらす固有の課題に焦点を当てている。 国の多様な景観、様々な気象条件、交通規制は、信頼できる物体検出のための調整されたアプローチを必要とする。 この研究は、オーストリアの道路で撮影された画像とビデオからなる選択的データセットを利用しており、都市、農村、アルプスの環境を含んでいる。

This study investigates the application of single and two-stage 2D-object detection algorithms like You Only Look Once (YOLO), Real-Time DEtection TRansformer (RT-DETR) algorithm for automated object detection to enhance road safety for autonomous driving on Austrian roads. The YOLO algorithm is a state-of-the-art real-time object detection system known for its efficiency and accuracy. In the context of driving, its potential to rapidly identify and track objects is crucial for advanced driver assistance systems (ADAS) and autonomous vehicles. The research focuses on the unique challenges posed by the road conditions and traffic scenarios in Austria. The country's diverse landscape, varying weather conditions, and specific traffic regulations necessitate a tailored approach for reliable object detection. The study utilizes a selective dataset comprising images and videos captured on Austrian roads, encompassing urban, rural, and alpine environments.
翻訳日:2023-12-20 14:50:16 公開日:2023-12-19
# 結合光学系における量子スクイージング誘起量子絡み合いとEPRステアリング

Quantum squeezing induced quantum entanglement and EPR steering in coupled optomechanical system ( http://arxiv.org/abs/2312.12310v1 )

ライセンス: Link先を確認
Shao-Xiong Wu, Cheng-Hua Bai, Gang Li, Chang-shui Yu, and Tiancai Zhang(参考訳) 量子スクイージングが量子エンタングルメントとアインシュタイン-ポドルスキー-ローゼンステアリングを誘導する理論的プロジェクトを提案する。 位相整合条件で$\chi^{(2)}$-非線形共振器を励起することにより、生成した圧縮共振器モードとオプトロメカニカル共振器の機械的モードが強い量子絡みとEPRステアリングを生成し、非線形共振器のスクイーズが重要な役割を果たす。 システムパラメータを適切に調整することにより、ゼロエンタングルメントから強いエンタングルメント、片道ステアリングから双方向ステアリングへの遷移を実現することができる。 また、駆動レーザの振幅を推定することにより、2つの共振器間の光子・光子絡みや操舵も得ることができる。 我々のプロジェクトは、極端に圧縮されたフィールドは必要とせず、オプティメカルと光子-光子の絡み合いとステアリングの両方に依存する様々な量子技術の様々な応用のために、操作とフレキシブルな道を提供するのが便利である。

We propose a theoretical project in which quantum squeezing induces quantum entanglement and Einstein-Podolsky-Rosen steering in a coupled whispering-gallery-mode optomechanical system. Through pumping the $\chi^{(2)}$-nonlinear resonator with the phase matching condition, the generated squeezed resonator mode and the mechanical mode of the optomechanical resonator can generate strong quantum entanglement and EPR steering, where the squeezing of the nonlinear resonator plays the vital role. The transitions from zero entanglement to strong entanglement and one-way steering to two-way steering can be realized by adjusting the system parameters appropriately. The photon-photon entanglement and steering between the two resonators can also be obtained by deducing the amplitude of the driving laser. Our project does not need an extraordinarily squeezed field, and it is convenient to manipulate and provides a novel and flexible avenue for diverse applications in quantum technology dependent on both optomechanical and photon-photon entanglement and steering.
翻訳日:2023-12-20 14:49:58 公開日:2023-12-19
# 命令-SCTG:命令によるシーケンス制御テキスト生成の誘導

Instruct-SCTG: Guiding Sequential Controlled Text Generation through Instructions ( http://arxiv.org/abs/2312.12299v1 )

ライセンス: Link先を確認
Yinhong Liu, Yixuan Su, Ehsan Shareghi and Nigel Collier(参考訳) インストラクションをチューニングした大規模言語モデルは、生成したテキストを様々なタスクにまたがってユーザ意図と整合する際、顕著な性能を示した。 しかし、生成したテキストにおける人間的な談話構造を維持することは、いまだに難しい研究課題である。 本稿では,命令型言語モデルを用いて,微調整とゼロショットの両方で構造的にコヒーレントなテキストを生成する,フレキシブルで効果的なシーケンシャルフレームワークinstruct-sctgを提案する。 本フレームワークは,自然言語命令を用いて,所望の人間構造と整合した記事を生成する。 さらに,ファジィな方法で談話の発散を測定する新しい自動測定器を導入する。 ニュースとレシピの代表的な領域から得られた3つのデータセットに対する大規模な実験は、自動評価と人的評価の両方で検証され、テキスト生成時の談話構造を示す枠組みの最先端性能を示す。 私たちのコードはgithubで入手できる。

Instruction-tuned large language models have shown remarkable performance in aligning generated text with user intentions across various tasks. However, maintaining human-like discourse structure in the generated text remains a challenging research question. In this paper, we propose Instruct-SCTG, a flexible and effective sequential framework that harnesses instruction-tuned language models to generate structurally coherent text in both fine-tuned and zero-shot setups. Our framework generates articles in a section-by-section manner, aligned with the desired human structure using natural language instructions. Furthermore, we introduce a new automatic metric that measures discourse divergence in a fuzzy manner. Extensive experiments on three datasets from representative domains of news and recipes demonstrate the state-of-the-art performance of our framework in imposing discourse structure during text generation, as verified by both automatic and human evaluation. Our code will be available on Github.
翻訳日:2023-12-20 14:49:34 公開日:2023-12-19
# 弱ケラー非線形性は周波数多重フォトニックエクストリーム学習機の性能を高める:多面的アプローチ

Weak Kerr Nonlinearity Boosts the Performance of Frequency-Multiplexed Photonic Extreme Learning Machines: A Multifaceted Approach ( http://arxiv.org/abs/2312.12296v1 )

ライセンス: Link先を確認
Marina Zajnulina, Alessandro Lupo and Serge Massar(参考訳) 本稿では,周波数多重学習装置(ELM)の性能に及ぼすKerr非線形性の影響について理論的,数値的,実験的に検討する。 このようなEMMでは、ニューロン信号は周波数コムの線に符号化される。 kerr非線形性は、効率的な情報混合を可能にするランダム化されたニューロン接続を促進する。 プログラム可能なスペクトルフィルタは出力重みを印加する。 このシステムは連続波方式で作動する。 低入力ピークパワーでも、結果として生じる弱いkerr非線形性は、いくつかのタスクのパフォーマンスを著しく向上させるのに十分である。 この強化は、20メートルのエルビウムドープファイバ増幅器に存在する非常に小さなKerr非線形性のみを使用する場合に既に発生している。 対照的に、単一モードファイバの540mにおける後続の伝搬は、わずかに性能を向上する一方、位相変調器との付加情報は、更なる改善をもたらすことはない。 周波数多重elmにおいて,kerr非線形性が自己位相変調やクロスフェーズ変調ではなく,4波混合によって情報を混合することを示すモデルを提案する。 低消費電力では、この効果はコムライン振幅においてクォートである。 数値シミュレーションは実験結果と解釈を検証する。

We provide a theoretical, numerical, and experimental investigation of the Kerr nonlinearity impact on the performance of a frequency-multiplexed Extreme Learning Machine (ELM). In such ELM, the neuron signals are encoded in the lines of a frequency comb. The Kerr nonlinearity facilitates the randomized neuron connections allowing for efficient information mixing. A programmable spectral filter applies the output weights. The system operates in a continuous-wave regime. Even at low input peak powers, the resulting weak Kerr nonlinearity is sufficient to significantly boost the performance on several tasks. This boost already arises when one uses only the very small Kerr nonlinearity present in a 20-meter long erbium-doped fiber amplifier. In contrast, a subsequent propagation in 540 meters of a single-mode fiber improves the performance only slightly, whereas additional information mixing with a phase modulator does not result in a further improvement at all. We introduce a model to show that, in frequency-multiplexed ELMs, the Kerr nonlinearity mixes information via four-wave mixing, rather than via self- or cross-phase modulation. At low powers, this effect is quartic in the comb-line amplitudes. Numerical simulations validate our experimental results and interpretation.
翻訳日:2023-12-20 14:49:15 公開日:2023-12-19
# 高次元ホルシュタインモデルにおけるクエンチダイナミクス:縮合ウィグナーアプローチからの考察

Quench dynamics in higher-dimensional Holstein models: Insights from Truncated Wigner Approaches ( http://arxiv.org/abs/2312.12291v1 )

ライセンス: Link先を確認
Eva Paprotzki, Alexander Osterkorn, Vibhu Misha, Stefan Kehrein(参考訳) 量子材料の電荷密度波位相は、電子と格子の自由度の複雑な相互作用に由来する。 今日では、様々な時間分解分光法技術により、これらの位相を積極的に操作し、そのダイナミクスをリアルタイムで監視することができる。 このような非平衡ダイナミクスを理論的にモデル化することは大きな課題であり、厳密な手法は通常少数の原子と有限個のフォノンしか扱えない。 2つの視点から電子ホッピングの突然のスイッチオン後のホルスタイン模型における電荷密度波の融解に接近する: 非相互作用と強い結合限界において、高次元の双立方格子上のcdw次パラメータは、長い時間因子化関係に従うことを証明し、そのダイナミクスを1次元の場合に還元することができる。 次に,二つの空間次元に対する切断ウィグナー近似に基づく半古典的手法による数値計算結果を示す。 ホルシュタイン連鎖で得られた正確なデータと比較すると、フォノンと電子の半古典的な扱いは音速力学を正確に記述するために必要である。 これに加えて、電子-フォノン結合強度のクエンチも確認される。

Charge-density wave phases in quantum materials stem from the complex interplay of electronic and lattice degrees of freedom. Nowadays, various time-resolved spectroscopy techniques allow to actively manipulate such phases and monitor their dynamics in real time. Modeling such nonequilibrium dynamics theoretically is a great challenge and exact methods can usually only treat a small number of atoms and finitely many phonons. We approach the melting of charge-density waves in a Holstein model after a sudden switch-on of the electronic hopping from two perspectives: We prove that in the non-interacting and in the strong-coupling limit, the CDW order parameter on high-dimensional hypercubic lattices obeys a factorization relation for long times, such that its dynamics can be reduced to the one-dimensional case. Secondly, we present numerical results from semiclassical techniques based on the Truncated Wigner Approximation for two spatial dimensions. A comparison with exact data obtained for a Holstein chain shows that a semiclassical treatment of both the electrons and phonons is required in order to correctly describe the phononic dynamics. This is confirmed, in addition, for a quench in the electron-phonon coupling strength.
翻訳日:2023-12-20 14:48:57 公開日:2023-12-19
# スパース線形バンディット問題における greedy-applicable arm feature distributions の新しいクラス

New classes of the greedy-applicable arm feature distributions in the sparse linear bandit problem ( http://arxiv.org/abs/2312.12400v1 )

ライセンス: Link先を確認
Koji Ichikawa, Shinji Ito, Daisuke Hatano, Hanna Sumita, Takuro Fukunaga, Naonori Kakimura, Ken-ichi Kawarabayashi(参考訳) スパースパラメータの内積を通じて腕の特徴が報酬に影響を与えるスパース文脈バンドイット問題を考える。 近年の研究では、グリーディアーム選択ポリシーに基づくスパーシリティ非依存アルゴリズムが開発されている。 しかし、これらのアルゴリズムの解析には、厳格に選択されたサンプルが十分に多様であることを保証するために、アーム特徴分布の強い仮定が必要であり、最も一般的な仮定の1つは、緩和された対称性であり、分布に近似原点対称性を課し、原点非対称な支持を持つ分布を許すことはできない。 本稿では,グリーディアルゴリズムが2つの側面からより広い範囲の腕の特徴分布に適用可能であることを示す。 まず,greedy-applicable成分を有する混合分布もgreedy-applicableであることを示す。 次に,ガウス混合,離散分布,放射分布に関連する新しい分布クラスを提案し,サンプルの多様性が保証される。 提案されたクラスは、原点非対称な支持を持つ分布を記述することができ、最初の主張と共に、非常に広い範囲のarm特徴分布に対する欲望ポリシーの理論的保証を提供する。

We consider the sparse contextual bandit problem where arm feature affects reward through the inner product of sparse parameters. Recent studies have developed sparsity-agnostic algorithms based on the greedy arm selection policy. However, the analysis of these algorithms requires strong assumptions on the arm feature distribution to ensure that the greedily selected samples are sufficiently diverse; One of the most common assumptions, relaxed symmetry, imposes approximate origin-symmetry on the distribution, which cannot allow distributions that has origin-asymmetric support. In this paper, we show that the greedy algorithm is applicable to a wider range of the arm feature distributions from two aspects. Firstly, we show that a mixture distribution that has a greedy-applicable component is also greedy-applicable. Second, we propose new distribution classes, related to Gaussian mixture, discrete, and radial distribution, for which the sample diversity is guaranteed. The proposed classes can describe distributions with origin-asymmetric support and, in conjunction with the first claim, provide theoretical guarantees of the greedy policy for a very wide range of the arm feature distributions.
翻訳日:2023-12-20 14:43:18 公開日:2023-12-19
# 短期量子コンピューティングにおける分子特性計算のための軌道最適化による量子運動方程式

Quantum Equation of Motion with Orbital Optimization for Computing Molecular Properties in Near-Term Quantum Computing ( http://arxiv.org/abs/2312.12386v1 )

ライセンス: Link先を確認
Phillip W. K. Jensen, Erik Rosendahl Kjellgren, Peter Reinholdt, Karl Michael Ziems, Sonia Coriani, Jacob Kongsted, Stephan P. A. Sauer(参考訳) 分子や物質の特性を決定することは、量子コンピューティングの第一の応用の一つである。 この分野の大きな疑問は、非完全で短期的な量子コンピュータを使って実用的価値の問題を解決する方法である。 最近開発されたqEOM法と軌道最適化変分量子固有解器(oo-VQE)の量子対の変種にインスパイアされ、量子コンピュータ上で期待値を計算することで分子特性の計算を行う量子アルゴリズム(oo-VQE-qEOM)を提案する。 sto-3g/6-31g/6-31g*基底集合、h$_4$とh$_2$oを6-31gの4つの電子と4つの空間軌道(8量子ビット)の活性空間を用いて雑音のない量子シミュレーションを行い、励起エネルギー、電子吸収、ツイストh$_4$、円二色性スペクトルを評価する。 これらの分子系に対する従来のCASSCF計算の結果を再現できることを示す。

Determining the properties of molecules and materials is one of the premier applications of quantum computing. A major question in the field is how to use imperfect near-term quantum computers to solve problems of practical value. Inspired by the recently developed variants of the quantum counterpart of the equation-of-motion (qEOM) approach and the orbital-optimized variational quantum eigensolver (oo-VQE), we present a quantum algorithm (oo-VQE-qEOM) for the calculation of molecular properties by computing expectation values on a quantum computer. We perform noise-free quantum simulations of BeH$_2$ in the series of STO-3G/6-31G/6-31G* basis sets, H$_4$ and H$_2$O in 6-31G using an active space of four electrons and four spatial orbitals (8 qubits) to evaluate excitation energies, electronic absorption, and for twisted H$_4$, circular dichroism spectra. We demonstrate that the proposed algorithm can reproduce the results of conventional classical CASSCF calculations for these molecular systems.
翻訳日:2023-12-20 14:42:56 公開日:2023-12-19
# 視覚言語インストラクションチューニングのためのクラスタ条件loraエキスパートの混合

Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning ( http://arxiv.org/abs/2312.12379v1 )

ライセンス: Link先を確認
Yunhao Gou, Zhili Liu, Kai Chen, Lanqing Hong, Hang Xu, Aoxue Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang(参考訳) LVLM(Large Vision-Language Models)のインストラクションチューニングは、幅広い下流視覚言語タスクにおいてゼロショットの一般化を伴う多目的モデルの開発に革命をもたらした。 しかし、異なるソースやフォーマットのトレーニングタスクの多様性は避けられないタスク競合につながり、異なるタスクが同じモデルパラメータのセットで競合し、結果として最適な命令追従能力となる。 そこで本研究では,タスクにカスタマイズされたモデルパラメータをアクティベートするために設計された,新しい混合型エキスパート (moe) アーキテクチャであるクラスタ条件型lora専門家 (mocle) の混合を提案する。 新たな命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートが組み込まれている。 10のゼロショットタスクに関する大規模な実験は、MoCLEの有効性を示している。

Instruction tuning of the Large Vision-language Models (LVLMs) has revolutionized the development of versatile models with zero-shot generalization across a wide range of downstream vision-language tasks. However, diversity of training tasks of different sources and formats would lead to inevitable task conflicts, where different tasks conflicts for the same set of model parameters, resulting in sub-optimal instruction-following abilities. To address that, we propose the Mixture of Cluster-conditional LoRA Experts (MoCLE), a novel Mixture of Experts (MoE) architecture designed to activate the task-customized model parameters based on the instruction clusters. A separate universal expert is further incorporated to improve the generalization capabilities of MoCLE for novel instructions. Extensive experiments on 10 zero-shot tasks demonstrate the effectiveness of MoCLE.
翻訳日:2023-12-20 14:42:30 公開日:2023-12-19
# 定常エンタングルメントの散逸発生に対する周波数分解パーセル効果

Frequency-resolved Purcell effect for the dissipative generation of steady-state entanglement ( http://arxiv.org/abs/2312.12372v1 )

ライセンス: Link先を確認
Alejandro Vivas-Via\~na, Diego Mart\'in-Cano, Carlos S\'anchez Mu\~noz(参考訳) 我々は,キャビティ内に配置された強い相互作用を持つ量子エミッタの間で,定常的に絡み合った$w$状態を生成する駆動拡散機構を報告する。 アンサンブルを最高エネルギー状態(コヒーレントにせよ非コヒーレントにせよ)へと駆動することで、その後のキャビティエンハンスド崩壊は、全てのエミッター間で共有される単一のデエキシテーションからなるエンタングル定常状態、すなわち、量子ビット損失に対するロバスト性でよく知られたw$状態へと変化する。 相互作用するアンサンブルの非調和エネルギー構造は、この遷移を共振器によって共鳴的に選択し、その後の非共鳴崩壊を焼成する。 この純粋に散逸するメカニズムの証拠は、固体状態の最先端空洞QEDシステムで観測可能であり、散逸する量子プラットフォームにおける量子状態のスケーラブルな安定化の新しい展望を可能にする。

We report a driven-dissipative mechanism to generate stationary entangled $W$ states among strongly-interacting quantum emitters placed within a cavity. Driving the ensemble into the highest energy state -- whether coherently or incoherently -- enables a subsequent cavity-enhanced decay into an entangled steady state consisting of a single de-excitation shared coherently among all emitters, i.e., a $W$ state, well known for its robustness against qubit loss. The non-harmonic energy structure of the interacting ensemble allows this transition to be resonantly selected by the cavity, while quenching subsequent off-resonant decays. Evidence of this purely dissipative mechanism should be observable in state-of-the-art cavity QED systems in the solid-state, enabling new prospects for the scalable stabilization of quantum states in dissipative quantum platforms.
翻訳日:2023-12-20 14:42:15 公開日:2023-12-19
# グラフにおけるカオスフェアネス: GNNアーキテクチャの展望

Chasing Fairness in Graphs: A GNN Architecture Perspective ( http://arxiv.org/abs/2312.12369v1 )

ライセンス: Link先を確認
Zhimeng Jiang, Xiaotian Han, Chao Fan, Zirui Liu, Na Zou, Ali Mostafavi, Xia Hu(参考訳) グラフデータ、モデルアーキテクチャ設計、トレーニング戦略の強化を通じて、グラフニューラルネットワーク(GNN)のパフォーマンスが大幅に向上した。 グラフの公平性について、最近の研究では、グラフデータ前処理(ノードの特徴マスキングやトポロジーのリウィリングなど)または公正なトレーニング戦略(正規化、対向的デバイアス、公正なコントラスト学習など)を通じて公正な表現と予測が達成されている。 モデルアーキテクチャの観点からグラフの公平性を達成する方法は、あまり検討されていない。 さらに、GNNはモデルアーキテクチャ(例えば、隣接する集約)がバイアスを増幅しているため、多層認識と比較して公平性が劣る。 そこで我々は,新しいGNNアーキテクチャによる公平性の実現を目指している。 本稿では,GNN の統一最適化フレームワーク内に設計した \textsf{F}air \textsf{M}essage \textsf{P}assing (FMP) を提案する。 特に、FMP \textit{explicitly} は、データ前処理なしでクロスエントロピー損失を使用してノード分類タスクに対する \textit{forward propagation} における機密属性の使用をレンダリングする。 FMPでは、アグリゲーションがまず隣人の情報を活用するために採用され、バイアス軽減ステップによって、人口集団ノードのプレゼンテーションセンタが明示的に統合される。 このようにして、FMPスキームは隣人から有用な情報を集約し、バイアスを緩和し、より良い公正性と予測トレードオフ性能を達成する。 ノード分類タスクの実験により、提案されたFMPは、実世界の3つのデータセットの公平性と精度において、いくつかのベースラインを上回っていることが示された。 コードは {\url{https://github.com/zhimengj0326/fmp}} で利用可能である。

There has been significant progress in improving the performance of graph neural networks (GNNs) through enhancements in graph data, model architecture design, and training strategies. For fairness in graphs, recent studies achieve fair representations and predictions through either graph data pre-processing (e.g., node feature masking, and topology rewiring) or fair training strategies (e.g., regularization, adversarial debiasing, and fair contrastive learning). How to achieve fairness in graphs from the model architecture perspective is less explored. More importantly, GNNs exhibit worse fairness performance compared to multilayer perception since their model architecture (i.e., neighbor aggregation) amplifies biases. To this end, we aim to achieve fairness via a new GNN architecture. We propose \textsf{F}air \textsf{M}essage \textsf{P}assing (FMP) designed within a unified optimization framework for GNNs. Notably, FMP \textit{explicitly} renders sensitive attribute usage in \textit{forward propagation} for node classification task using cross-entropy loss without data pre-processing. In FMP, the aggregation is first adopted to utilize neighbors' information and then the bias mitigation step explicitly pushes demographic group node presentation centers together. In this way, FMP scheme can aggregate useful information from neighbors and mitigate bias to achieve better fairness and prediction tradeoff performance. Experiments on node classification tasks demonstrate that the proposed FMP outperforms several baselines in terms of fairness and accuracy on three real-world datasets. The code is available in {\url{https://github.com/zhimengj0326/FMP}}.
翻訳日:2023-12-20 14:41:42 公開日:2023-12-19
# スポークスビス - 会話型ポーランド語のオープンなコーパス

SpokesBiz -- an Open Corpus of Conversational Polish ( http://arxiv.org/abs/2312.12364v1 )

ライセンス: Link先を確認
Piotr P\k{e}zik, Sylwia Karasi\'nska, Anna Cichosz, {\L}ukasz Ja{\l}owiecki, Konrad Kaczy\'nski, Ma{\l}gorzata Krawentek, Karolina Walkusz, Pawe{\l} Wilk, Mariusz Kle\'c, Krzysztof Szklanny, Szymon Marsza{\l}kowski(参考訳) 本稿では,CLARIN-BIZプロジェクトで開発された対話型ポーランド語コーパスであるSpokesBizの初期リリースについて報告する。 書き起こされた録音はダイアリゼーションされ、句読とケーシングのために手動で注釈が付された。 コーパスの構造と内容について概説し、言語研究における選択された応用、自動音声認識(ASR)システムの評価と改善を示す。

This paper announces the early release of SpokesBiz, a freely available corpus of conversational Polish developed within the CLARIN-BIZ project and comprising over 650 hours of recordings. The transcribed recordings have been diarized and manually annotated for punctuation and casing. We outline the general structure and content of the corpus, showcasing selected applications in linguistic research, evaluation and improvement of automatic speech recognition (ASR) systems
翻訳日:2023-12-20 14:40:58 公開日:2023-12-19
# 近似モデルカウントのための可聴性アルゴリズム

Auditable Algorithms for Approximate Model Counting ( http://arxiv.org/abs/2312.12362v1 )

ライセンス: Link先を確認
Kuldeep S. Meel, Supratik Chakraborty, S. Akshay(参考訳) モデルカウント、あるいはブール公式の満足する代入を数えることは、多様な応用において根本的な問題である。 この問題の#P硬度を考えると、近似カウントのためのアルゴリズムの開発は重要な研究領域である。 SAT-ソルバの実用的成功に基づいて、最近は理論から近似カウントアルゴリズムの実装へと焦点が移っている。 これにより、モデルカウントの近似を提供するだけでなく、計算能力の制限された検証者が、そのカウントが実際に約束された近似の限界内にあるかどうかをチェックするための証明を提供する監査可能な近似カウンタの設計など、新たな課題に焦点が当てられるようになった。 証明を生成するために、我々は、$\Sigma_2^P$ Oracleへの多項式的に多くの呼び出しを利用する最もよく知られた決定論的近似カウントアルゴリズムを調べることから始める。 元の式が$n$変数を持つ$n^2 \log^2 n$変数上に構築されたクエリで、$\Sigma_2^P$ Oracleで監査可能であることを示す。 n$はしばしば大きいので、証明書内の変数の数を減らせるかどうかを尋ねます -- 潜在的な実装にとって重要な質問です。 これは、カウントアルゴリズムの複雑さのトレードオフによって実現可能であることを示す。 具体的には、$\sigma_3^p$ oracleを呼び出すが、はるかに少ない変数の証明書を使って$\sigma_2^p$ oracleを使って認証することができる、決定論的近似カウントアルゴリズムを開発する。 我々の研究は、カウントアルゴリズムがもう少し強力なオラクルにアクセスできれば、監査を大幅に単純化できることを示した。 これは、監査の複雑さを近似計算の複雑さと交換する初めての方法である。

Model counting, or counting the satisfying assignments of a Boolean formula, is a fundamental problem with diverse applications. Given #P-hardness of the problem, developing algorithms for approximate counting is an important research area. Building on the practical success of SAT-solvers, the focus has recently shifted from theory to practical implementations of approximate counting algorithms. This has brought to focus new challenges, such as the design of auditable approximate counters that not only provide an approximation of the model count, but also a certificate that a verifier with limited computational power can use to check if the count is indeed within the promised bounds of approximation. Towards generating certificates, we start by examining the best-known deterministic approximate counting algorithm that uses polynomially many calls to a $\Sigma_2^P$ oracle. We show that this can be audited via a $\Sigma_2^P$ oracle with the query constructed over $n^2 \log^2 n$ variables, where the original formula has $n$ variables. Since $n$ is often large, we ask if the count of variables in the certificate can be reduced -- a crucial question for potential implementation. We show that this is indeed possible with a tradeoff in the counting algorithm's complexity. Specifically, we develop new deterministic approximate counting algorithms that invoke a $\Sigma_3^P$ oracle, but can be certified using a $\Sigma_2^P$ oracle using certificates on far fewer variables: our final algorithm uses only $n \log n$ variables. Our study demonstrates that one can simplify auditing significantly if we allow the counting algorithm to access a slightly more powerful oracle. This shows for the first time how audit complexity can be traded for complexity of approximate counting.
翻訳日:2023-12-20 14:40:39 公開日:2023-12-19
# CLIP-Dinoiser:CLIPにDINOのトリックを教える

CLIP-DINOiser: Teaching CLIP a few DINO tricks ( http://arxiv.org/abs/2312.12359v1 )

ライセンス: Link先を確認
Monika Wysocza\'nska, Oriane Sim\'eoni, Micha\"el Ramamonjisoa, Andrei Bursuc, Tomasz Trzci\'nski, Patrick P\'erez(参考訳) 人気のCLIPモデルは、任意のテキストプロンプトとのシームレスな相互作用のおかげで、印象的なゼロショット機能を示している。 しかし、空間認識の欠如は、例えばセマンティックセグメンテーションのような密集したコンピュータビジョンタスクには不向きであり、アノテーションを頻繁に使用し、オリジナルのボキャブラリープロパティを抑制できる追加の微調整ステップは不要である。 一方,自己教師あり表現法は,人為的なアノテーションや明示的な監督を伴わない,適切な局所化特性を示している。 本研究では,両世界の最善を尽くし,アノテーションを必要としないゼロショットのオープン語彙セマンティックセマンティックセマンティックセマンティクス法を提案する。 自己教師機能から抽出した局所化事前情報を統合することにより,CLIPの最終プーリング層を簡易に修正したMaskCLIP機能を局所的に改善することを提案する。 これにより、MaskCLIPの性能を大幅に改善し、スムーズな出力を生成する。 さらに,使用済みの自己教師付特徴特性をクリップ特徴から直接学習できることから,単一パススルークリップモデルで最高の結果を得ることができることを示した。 私たちの方法であるCLIP-DINOiserでは,COCO,Pascal Context,Cityscapes,ADE20kなどの難易度の高いベンチマークにおいて,CLIPの1つの前方パスと2つのライト畳み込み層,余分な監視と余分なメモリを必要とせず,最新かつ詳細な結果が得られる。 結果を再現するコードはhttps://github.com/wysoczanska/clip_dinoiserで閲覧できます。

The popular CLIP model displays impressive zero-shot capabilities thanks to its seamless interaction with arbitrary text prompts. However, its lack of spatial awareness makes it unsuitable for dense computer vision tasks, e.g., semantic segmentation, without an additional fine-tuning step that often uses annotations and can potentially suppress its original open-vocabulary properties. Meanwhile, self-supervised representation methods have demonstrated good localization properties without human-made annotations nor explicit supervision. In this work, we take the best of both worlds and propose a zero-shot open-vocabulary semantic segmentation method, which does not require any annotations. We propose to locally improve dense MaskCLIP features, computed with a simple modification of CLIP's last pooling layer, by integrating localization priors extracted from self-supervised features. By doing so, we greatly improve the performance of MaskCLIP and produce smooth outputs. Moreover, we show that the used self-supervised feature properties can directly be learnt from CLIP features therefore allowing us to obtain the best results with a single pass through CLIP model. Our method CLIP-DINOiser needs only a single forward pass of CLIP and two light convolutional layers at inference, no extra supervision nor extra memory and reaches state-of-the-art results on challenging and fine-grained benchmarks such as COCO, Pascal Context, Cityscapes and ADE20k. The code to reproduce our results is available at https://github.com/wysoczanska/clip_dinoiser.
翻訳日:2023-12-20 14:39:35 公開日:2023-12-19
# 関係イベントモデルにおけるニューラルネットワークによる非線形効果のモデル化

Modeling non-linear Effects with Neural Networks in Relational Event Models ( http://arxiv.org/abs/2312.12357v1 )

ライセンス: Link先を確認
Edoardo Filippi-Mazzola and Ernst C. Wit(参考訳) 動的ネットワークはリレーショナルシステムの進化に関する洞察を提供する。 しかし、これらのネットワークを効率的にモデリングすることは、主に計算上の制約のため、特に観測されたイベントの数が増えるにつれて困難である。 本稿では,Relational Event Additive Model (DREAM) を導入し,Relational Event Models (REM) における非線形効果をモデル化した計算問題に対する解法を提案する。 ドリームは、非線形効果をモデル化するために神経添加モデルに依存しており、それぞれの効果を独立したニューラルネットワークで捉えることができる。 メモリ管理の改善とグラフィカルプロセッサユニット(GPU)の計算能力を活用するために計算複雑性を戦略的に交換することにより、DREAMはデータ内の複雑な非線形関係を効率的に捉える。 このアプローチは、動的ネットワークのモデリングと大規模ネットワークへのスケーリングにおけるDREAMの能力を示す。 従来のremアプローチと比較すると、ドリームの優れた計算効率を示す。 モデルポテンシャルは、800万近いノードと1億のイベントを含む特許引用ネットワークの検証によってさらに実証される。

Dynamic networks offer an insight of how relational systems evolve. However, modeling these networks efficiently remains a challenge, primarily due to computational constraints, especially as the number of observed events grows. This paper addresses this issue by introducing the Deep Relational Event Additive Model (DREAM) as a solution to the computational challenges presented by modeling non-linear effects in Relational Event Models (REMs). DREAM relies on Neural Additive Models to model non-linear effects, allowing each effect to be captured by an independent neural network. By strategically trading computational complexity for improved memory management and leveraging the computational capabilities of Graphic Processor Units (GPUs), DREAM efficiently captures complex non-linear relationships within data. This approach demonstrates the capability of DREAM in modeling dynamic networks and scaling to larger networks. Comparisons with traditional REM approaches showcase DREAM superior computational efficiency. The model potential is further demonstrated by an examination of the patent citation network, which contains nearly 8 million nodes and 100 million events.
翻訳日:2023-12-20 14:39:04 公開日:2023-12-19
# アイドルレベルをもつ量子オットーサイクルにおける仕事と効率の変動

Work and efficiency fluctuations in a quantum Otto cycle with idle levels ( http://arxiv.org/abs/2312.12350v1 )

ライセンス: Link先を確認
Maron F. Anka, Thiago R. de Oliveira and Daniel Jonathan(参考訳) 2つのスピンをハイゼンベルク相互作用で結合した量子オットー熱エンジンの性能について検討し、仕事の平均値と効率の値だけでなく、その揺らぎも考慮した。 まず, このシステムにおいて, 出力仕事とそのゆらぎは, どちらの熱浴とも平衡する系の磁化および磁化率と直接関係していることを示す。 本研究では, 与えられた温度範囲において, 低い相対ゆらぎで作業抽出が可能な領域を解析し, 単一スピン系熱エンジンよりも高い効率を実現した。 特に「アイドル」レベルが存在するため、スピン間カップリングの増加は、他のパラメータによって、変動を増大または減少させる可能性がある。 しかし、いずれの場合も、作業や効率の相対的な変動は大きいままであり、これはこの微視的なエンジンが作業の源としてあまり信頼性がないことを意味する。

We study the performance of a quantum Otto heat engine with two spins coupled by a Heisenberg interaction, taking into account not only the mean values of work and efficiency but also their fluctuations. We first show that, for this system, the output work and its fluctuations are directly related to the magnetization and magnetic susceptibility of the system at equilibrium with either heat bath. We analyze the regions where the work extraction can be done with low relative fluctuation for a given range of temperatures, while still achieving an efficiency higher than that of a single spin system heat engine. In particular, we find that, due to the presence of `idle' levels, an increase in the inter-spin coupling can either increase or decrease fluctuations, depending on the other parameters. In all cases, however, we find that the relative fluctuations in work or efficiency remain large, implying that this microscopic engine is not very reliable as a source of work.
翻訳日:2023-12-20 14:38:46 公開日:2023-12-19
# SMC-NCA: 半教師型アクションセグメンテーションのための意味誘導型マルチレベルコントラスト

SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Action Segmentation ( http://arxiv.org/abs/2312.12347v1 )

ライセンス: Link先を確認
Feixiang Zhou, Zheheng Jiang, Huiyu Zhou and Xuelong Li(参考訳) 半教師付きアクションセグメンテーションは、トレーニングセット内のビデオのほんの一部にラベルがある長い未トリミングビデオでフレーム単位で分類することを目的としている。 近年,ラベルなしデータを用いた教師なし表現学習におけるコントラスト学習の可能性が示されている。 しかしながら、アクションセグメンテーションのための教師なしコントラスト学習による各フレームの表現の学習は、オープンかつ挑戦的な問題である。 本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたSemantic-Guided Multi-level Contrastスキームを提案する。 特に、表現学習のために、smcは、最初の入力、エンコードされた意味的および時間的特徴の動的なクラスタリングプロセスに基づいて、情報内および情報間のバリエーションを統一的かつ対比的に探求するために最初に使用される。 次に,NCAモジュールは,半教師付き学習のためのSMCと連携して,異なるフレームを中心とした周辺地域間の空間的整合性を確保する。 当社のsmcは3つのベンチマークで他の最先端手法よりも優れており、編集距離と精度でそれぞれ17.8%と12.6%改善しています。 さらに、NAAユニットは、わずか5%のラベル付きビデオの存在下で、他との大きなセグメンテーション性能が向上する。 また,提案手法の有効性をParkinson's Disease Mouse Behaviour (PDMB) データセットに示す。 コードとデータセットは一般公開される予定だ。

Semi-supervised action segmentation aims to perform frame-wise classification in long untrimmed videos, where only a fraction of videos in the training set have labels. Recent studies have shown the potential of contrastive learning in unsupervised representation learning using unlabelled data. However, learning the representation of each frame by unsupervised contrastive learning for action segmentation remains an open and challenging problem. In this paper, we propose a novel Semantic-guided Multi-level Contrast scheme with a Neighbourhood-Consistency-Aware unit (SMC-NCA) to extract strong frame-wise representations for semi-supervised action segmentation. Specifically, for representation learning, SMC is firstly used to explore intra- and inter-information variations in a unified and contrastive way, based on dynamic clustering process of the original input, encoded semantic and temporal features. Then, the NCA module, which is responsible for enforcing spatial consistency between neighbourhoods centered at different frames to alleviate over-segmentation issues, works alongside SMC for semi-supervised learning. Our SMC outperforms the other state-of-the-art methods on three benchmarks, offering improvements of up to 17.8% and 12.6% in terms of edit distance and accuracy, respectively. Additionally, the NCA unit results in significant better segmentation performance against the others in the presence of only 5% labelled videos. We also demonstrate the effectiveness of the proposed method on our Parkinson's Disease Mouse Behaviour (PDMB) dataset. The code and datasets will be made publicly available.
翻訳日:2023-12-20 14:38:31 公開日:2023-12-19
# マニピュレーションにおける検索・アライメント・再生の有効性について

On the Effectiveness of Retrieval, Alignment, and Replay in Manipulation ( http://arxiv.org/abs/2312.12345v1 )

ライセンス: Link先を確認
Norman Di Palo and Edward Johns(参考訳) 視覚観察による模倣学習は、エンド・ツー・エンドの行動クローン法で対処する場合に効率が悪いことで悪名高い。 本稿では,推論を3段階に分解する代替パラダイムを検討する。 まず、対象物に対して何ができるかをロボットに知らせる検索フェーズ。 第2のアライメントフェーズは、ロボットにオブジェクトとの相互作用の場所を知らせる。 そして3つ目は、ロボットにオブジェクトとのインタラクションの仕方を知らせる再生フェーズだ。 対象物をつかむ、注ぐ、挿入するといった日常的なタスクの一連の実世界実験を通じて、この分解は前例のない学習効率と効果的なクラス間およびクラス内一般化をもたらすことを示した。 ビデオはhttps://www.robot-learning.uk/retrieval-alignment-replayで閲覧できる。

Imitation learning with visual observations is notoriously inefficient when addressed with end-to-end behavioural cloning methods. In this paper, we explore an alternative paradigm which decomposes reasoning into three phases. First, a retrieval phase, which informs the robot what it can do with an object. Second, an alignment phase, which informs the robot where to interact with the object. And third, a replay phase, which informs the robot how to interact with the object. Through a series of real-world experiments on everyday tasks, such as grasping, pouring, and inserting objects, we show that this decomposition brings unprecedented learning efficiency, and effective inter- and intra-class generalisation. Videos are available at https://www.robot-learning.uk/retrieval-alignment-replay.
翻訳日:2023-12-20 14:38:03 公開日:2023-12-19
# 言語モデル評価におけるデータ汚染回避:最新の材料を用いた動的テスト構築

Avoiding Data Contamination in Language Model Evaluation: Dynamic Test Construction with Latest Materials ( http://arxiv.org/abs/2312.12343v1 )

ライセンス: Link先を確認
Yucheng Li, Frank Geurin, Chenghua Lin(参考訳) 評価におけるデータの汚染は、超大型で自動クロールしたコーパスで事前訓練された言語モデルの出現とともにますます広まっている。 この問題は、モデル能力と一般化の正確な評価において重大な課題をもたらす。 本稿では,最新のテキストを自動で活用し,非汚染読影理解評価を行う LatestEval を提案する。 最新Evalは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。 最新の自動化パイプラインを開発し 1) 最新のテキストを収集する。 2) キー情報を特定し, 3)既存の回答を文脈から取り除きながら情報を対象とした質問を構築する。 これにより、モデルは単にコピーペーストではなく、残りのコンテキストに基づいて回答を推論する。 実験の結果,従来のベンチマークと対照的に,言語モデルでは無視可能な記憶行動を示し,データ汚染のリスクを著しく低減し,より堅牢な評価につながることが示唆された。 データとコードは、https://github.com/liyucheng09/LatestEval.comで公開されている。

Data contamination in evaluation is getting increasingly prevalent with the emerge of language models pre-trained on super large, automatically-crawled corpora. This problem leads to significant challenges in accurate assessment of model capabilities and generalisations. In this paper, we propose LatestEval, an automatic method leverages the most recent texts to create uncontaminated reading comprehension evaluations. LatestEval avoids data contamination by only using texts published within a recent time window, ensuring no overlap with the training corpora of pre-trained language models. We develop LatestEval automated pipeline to 1) gather latest texts; 2) identify key information, and 3) construct questions targeting the information while removing the existing answers from the context. This encourages models to infer the answers themselves based on the remaining context, rather than just copy-paste. Our experiments demonstrate that language models exhibit negligible memorisation behaviours on LatestEval as opposed to previous benchmarks, suggesting a significantly reduced risk of data contamination and leading to a more robust evaluation. Data and code are publicly available at: https://github.com/liyucheng09/LatestEval.
翻訳日:2023-12-20 14:37:49 公開日:2023-12-19
# 擬似ブールモデルカウンタの工学

Engineering an Exact Pseudo-Boolean Model Counter ( http://arxiv.org/abs/2312.12341v1 )

ライセンス: Link先を確認
Suwei Yang and Kuldeep S. Meel(参考訳) モデルカウント(英: model counting)とは、コンピュータ科学における基本的なタスクであり、結合正規形(cnf)で表されるブール公式の割り当て数を決定することを含む。 CNF式に対するモデルカウントは幅広い用途で広く注目されているが、Pseudo-Boolean(PB)式に対するモデルカウントの研究は比較的見過ごされている。 擬ブール公式は命題のブール公式よりも簡潔であり、現実世界の問題を表現できる柔軟性を提供する。 その結果,PB式に対するモデルカウントの効率的な手法を検討する必要がある。 本研究では,代数的決定図による知識コンパイルアプローチに依拠する,最初の完全擬ボアリーンモデルカウンタpbcountを提案する。 pbcountは1513インスタンスのカウントを計算できるが、現在の最先端のアプローチでは1013インスタンスしか処理できない。 私たちの研究は,事前処理手法の開発や知識コンパイル以外のアプローチの探求など,pb公式のモデルカウントという文脈で,今後の作業へのいくつかの道を開いた。

Model counting, a fundamental task in computer science, involves determining the number of satisfying assignments to a Boolean formula, typically represented in conjunctive normal form (CNF). While model counting for CNF formulas has received extensive attention with a broad range of applications, the study of model counting for Pseudo-Boolean (PB) formulas has been relatively overlooked. Pseudo-Boolean formulas, being more succinct than propositional Boolean formulas, offer greater flexibility in representing real-world problems. Consequently, there is a crucial need to investigate efficient techniques for model counting for PB formulas. In this work, we propose the first exact Pseudo-Boolean model counter, PBCount, that relies on knowledge compilation approach via algebraic decision diagrams. Our extensive empirical evaluation shows that PBCount can compute counts for 1513 instances while the current state-of-the-art approach could only handle 1013 instances. Our work opens up several avenues for future work in the context of model counting for PB formulas, such as the development of preprocessing techniques and exploration of approaches other than knowledge compilation.
翻訳日:2023-12-20 14:37:33 公開日:2023-12-19
# アセンブラ間の共生成空間によるスケーラブルなフラクチャーアセンブリ

Scalable Geometric Fracture Assembly via Co-creation Space among Assemblers ( http://arxiv.org/abs/2312.12340v1 )

ライセンス: Link先を確認
Ruiyuan Zhang and Jiaxiang Liu and Zexi Li and Hao Dong and Jie Fu and Chao Wu(参考訳) 幾何学的破壊組立は考古学と3次元コンピュータビジョンにおいて挑戦的な実践課題である。 従来の手法では、意味情報に基づいたフラグメントの組み立てのみに重点を置いており、効果的に組み立てられるオブジェクトの量が制限されていた。 したがって, 意味情報に頼らずに, 幾何学的フラクチャーアセンブリのためのスケーラブルなフレームワークを開発する必要がある。 意味情報のない幾何的骨折を組み立てることの有効性を向上させるために, 徐々に, 曖昧に組み立てることのできる複数のアセンブラからなる共創空間を提案する。 さらに, フラクチャー組立過程における衝突問題に対処し, 結果を高めるために, 幾何に基づく衝突損失という新たな損失関数を導入する。 私たちのフレームワークは、既存の最先端フレームワークと比較して、partnetとbreaking bad datasetの両方で優れたパフォーマンスを示しています。 大規模実験と定量的比較により,線形計算複雑性,抽象化の強化,一般化の改善を特徴とするフレームワークの有効性が示された。 私たちのコードはhttps://github.com/ruiyuan-zhang/ccsで公開されています。

Geometric fracture assembly presents a challenging practical task in archaeology and 3D computer vision. Previous methods have focused solely on assembling fragments based on semantic information, which has limited the quantity of objects that can be effectively assembled. Therefore, there is a need to develop a scalable framework for geometric fracture assembly without relying on semantic information. To improve the effectiveness of assembling geometric fractures without semantic information, we propose a co-creation space comprising several assemblers capable of gradually and unambiguously assembling fractures. Additionally, we introduce a novel loss function, i.e., the geometric-based collision loss, to address collision issues during the fracture assembly process and enhance the results. Our framework exhibits better performance on both PartNet and Breaking Bad datasets compared to existing state-of-the-art frameworks. Extensive experiments and quantitative comparisons demonstrate the effectiveness of our proposed framework, which features linear computational complexity, enhanced abstraction, and improved generalization. Our code is publicly available at https://github.com/Ruiyuan-Zhang/CCS.
翻訳日:2023-12-20 14:37:14 公開日:2023-12-19
# 弱教師付きオープン語彙オブジェクト検出

Weakly Supervised Open-Vocabulary Object Detection ( http://arxiv.org/abs/2312.12437v1 )

ライセンス: Link先を確認
Jianghang Lin, Yunhang Shen, Bingquan Wang, Shaohui Lin, Ke Li, Liujuan Cao(参考訳) 弱い教師付きオブジェクト検出(WSOD)は、強力なインスタンスレベルのアノテーションを避けるための有望なステップであるが、その能力は単一のトレーニングデータセット内のクローズドセットカテゴリに限定されている。 本稿では、従来のWSODを拡張して新しい概念を検出し、画像レベルのアノテーションのみを用いた多様なデータセットを活用するための、弱制御型オープン語彙オブジェクト検出フレームワークであるWSOVODを提案する。 これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。 まず、データセットのバイアスを識別し、データセット間の一般化を実現するために、データセット属性のプロトタイプに活用される入力条件係数を生成する。 第二に, カテゴリ非依存セグメントモデルから高レベルな意味的レイアウトを利用するために, 位置指向の弱教師付き領域提案ネットワークを提案する。 最後に,概念のテキスト埋め込みに適合するオブジェクトを発見するために,オブジェクトマイニングとビジュアル・セマンティックアライメントによる改善を行う提案概念同期マルチインスタンスネットワークを提案する。 Pascal VOCとMS COCOの大規模な実験により、提案したWSOVODは、近接したオブジェクトのローカライゼーションと検出タスクの両方において、従来のWSOD法と比較して新しい最先端を実現することが示された。 一方、WSOVODは、完全教師付きオープンボキャブラリオブジェクト検出(FSOVOD)よりも、クロスデータセットおよびオープンボキャブラリ学習をオンパーまたはそれ以上の性能を達成することができる。

Despite weakly supervised object detection (WSOD) being a promising step toward evading strong instance-level annotations, its capability is confined to closed-set categories within a single training dataset. In this paper, we propose a novel weakly supervised open-vocabulary object detection framework, namely WSOVOD, to extend traditional WSOD to detect novel concepts and utilize diverse datasets with only image-level annotations. To achieve this, we explore three vital strategies, including dataset-level feature adaptation, image-level salient object localization, and region-level vision-language alignment. First, we perform data-aware feature extraction to produce an input-conditional coefficient, which is leveraged into dataset attribute prototypes to identify dataset bias and help achieve cross-dataset generalization. Second, a customized location-oriented weakly supervised region proposal network is proposed to utilize high-level semantic layouts from the category-agnostic segment anything model to distinguish object boundaries. Lastly, we introduce a proposal-concept synchronized multiple-instance network, i.e., object mining and refinement with visual-semantic alignment, to discover objects matched to the text embeddings of concepts. Extensive experiments on Pascal VOC and MS COCO demonstrate that the proposed WSOVOD achieves new state-of-the-art compared with previous WSOD methods in both close-set object localization and detection tasks. Meanwhile, WSOVOD enables cross-dataset and open-vocabulary learning to achieve on-par or even better performance than well-established fully-supervised open-vocabulary object detection (FSOVOD).
翻訳日:2023-12-20 14:30:41 公開日:2023-12-19
# GPT-4Vへの挑戦 ビジュアルスペシャライズにおけるジェミニの早期探索

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise ( http://arxiv.org/abs/2312.12436v1 )

ライセンス: Link先を確認
Chaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji(参考訳) OpenAIのGPT-4V(ision)のようなマルチモーダル大規模言語モデル(MLLM)への関心の高まりは、アカデミックと産業の両方において重要なトレンドとなっている。 大規模言語モデル(llm)に視覚理解の強力な能力を与え、多様なマルチモーダルタスクに取り組むことができる。 つい最近Googleは、マルチモダリティのためにゼロから構築された最新かつ最も有能なMLLMであるGeminiをリリースした。 優れた推論能力を考慮して、Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか? 本稿では,gemini proの視覚理解能力について予備的考察を行い,基本認識,高度な認知,挑戦的視覚課題,様々な熟練能力の4つの領域を包括的に扱う。 Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、手作業とブラックボックスシステムのギャップを明らかにする。 定性的なサンプルは、gpt-4vとgeminiは異なる応答スタイルと好みを示すが、同等の視覚的推論能力を示すことができることを示している。 特に、gpt-4vは詳細な説明と中間のステップに富む傾向があり、geminiは直接的で簡潔な回答を出力することを好む。 人気のMMEベンチマークにおける定量的評価は、GPT-4Vに対する強力な挑戦者になる可能性を示している。 Geminiの初期の調査では、MLLMの一般的な問題もいくつか観察されており、人工知能にはまだかなりの距離があることを示している。 MLLMの進捗を追跡するプロジェクトは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsで公開されています。

The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both academia and industry. They endow Large Language Models (LLMs) with powerful capabilities in visual understanding, enabling them to tackle diverse multi-modal tasks. Very recently, Google released Gemini, its newest and most capable MLLM built from the ground up for multi-modality. In light of the superior reasoning capabilities, can Gemini challenge GPT-4V's leading position in multi-modal learning? In this paper, we present a preliminary exploration of Gemini Pro's visual understanding proficiency, which comprehensively covers four domains: fundamental perception, advanced cognition, challenging vision tasks, and various expert capacities. We compare Gemini Pro with the state-of-the-art GPT-4V to evaluate its upper limits, along with the latest open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and black-box systems. The qualitative samples indicate that, while GPT-4V and Gemini showcase different answering styles and preferences, they can exhibit comparable visual reasoning capabilities, and Sphinx still trails behind them concerning domain generalizability. Specifically, GPT-4V tends to elaborate detailed explanations and intermediate steps, and Gemini prefers to output a direct and concise answer. The quantitative evaluation on the popular MME benchmark also demonstrates the potential of Gemini to be a strong challenger to GPT-4V. Our early investigation of Gemini also observes some common issues of MLLMs, indicating that there still remains a considerable distance towards artificial general intelligence. Our project for tracking the progress of MLLM is released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
翻訳日:2023-12-20 14:30:13 公開日:2023-12-19
# 任意のオブジェクトをAmodallyで追跡する

Tracking Any Object Amodally ( http://arxiv.org/abs/2312.12433v1 )

ライセンス: Link先を確認
Cheng-Yen Hsieh, Tarasha Khurana, Achal Dave, Deva Ramanan(参考訳) 部分的な視界から完全な物体構造を理解する能力であるアモーダル知覚は、幼児にとっても基本的な技術である。 その重要性は、密閉された物体の明確な理解が不可欠である自律運転のような応用にまで及ぶ。 しかし、現代の検出と追跡アルゴリズムは、おそらくほとんどのデータセットにおけるモダルアノテーションの普及により、この重要な能力を見落としていることが多い。 amodalデータの不足に対処するために,我々はtao-amodalベンチマークを紹介する。 私たちのデータセットには、部分的にフレーム外であるオブジェクトを含む、可視およびoccludedオブジェクトのためのamodalおよびmodalバウンディングボックスが含まれています。 オブジェクトの永続性によるamodalトラッキングを強化するために、軽量プラグインモジュールであるamodal expanderを利用して、データ拡張による数百のビデオシーケンスの微調整を行い、標準のmodalトラッカをamodalトラッカに変換する。 TAO-Amodal上での閉塞物体の検出・追跡における3.3\%および1.6\%の改善を実現した。 人に対して評価すると,最先端のモダルベースラインに比べて2倍の劇的な改善が得られた。

Amodal perception, the ability to comprehend complete object structures from partial visibility, is a fundamental skill, even for infants. Its significance extends to applications like autonomous driving, where a clear understanding of heavily occluded objects is essential. However, modern detection and tracking algorithms often overlook this critical capability, perhaps due to the prevalence of modal annotations in most datasets. To address the scarcity of amodal data, we introduce the TAO-Amodal benchmark, featuring 880 diverse categories in thousands of video sequences. Our dataset includes amodal and modal bounding boxes for visible and occluded objects, including objects that are partially out-of-frame. To enhance amodal tracking with object permanence, we leverage a lightweight plug-in module, the amodal expander, to transform standard, modal trackers into amodal ones through fine-tuning on a few hundred video sequences with data augmentation. We achieve a 3.3\% and 1.6\% improvement on the detection and tracking of occluded objects on TAO-Amodal. When evaluated on people, our method produces dramatic improvements of 2x compared to state-of-the-art modal baselines.
翻訳日:2023-12-20 14:29:40 公開日:2023-12-19
# 拡散モデルの推論安定性について

On Inference Stability for Diffusion Models ( http://arxiv.org/abs/2312.12431v1 )

ライセンス: Link先を確認
Viet Nguyen, Giang Vu, Tung Nguyen Thanh, Khoat Than, Toan Tran(参考訳) DPM(Denoising Probabilistic Models)は、多彩で高品質な画像を生成するのに優れた生成モデルの分野である。 しかし、現在のDPMのトレーニング手法の多くは、時間ステップ間の相関を無視することが多く、画像生成におけるモデルの性能を効果的に制限している。 理論的には、この問題は予測と実際の軌道の累積的な推定ギャップによって引き起こされる可能性がある。 このギャップを最小限に抑えるために,推定ギャップを削減してサンプリング品質を向上させることを目的とした,新しい \textit{sequence-aware} 損失を提案する。 さらに,提案する損失関数は,従来のdpmの損失と比較して,推定損失の上限がより狭いことを理論的に示す。 CIFAR10,CelebA,CelebA-HQなどのベンチマークデータセットによる実験結果から,FIDおよびInception Scoreによる画像一般化品質をDPMベースラインと比較した場合,提案手法の顕著な改善が得られた。 私たちのコードと事前訓練されたチェックポイントは、 \url{https://github.com/viettmab/SA-DPM}で利用可能です。

Denoising Probabilistic Models (DPMs) represent an emerging domain of generative models that excel in generating diverse and high-quality images. However, most current training methods for DPMs often neglect the correlation between timesteps, limiting the model's performance in generating images effectively. Notably, we theoretically point out that this issue can be caused by the cumulative estimation gap between the predicted and the actual trajectory. To minimize that gap, we propose a novel \textit{sequence-aware} loss that aims to reduce the estimation gap to enhance the sampling quality. Furthermore, we theoretically show that our proposed loss function is a tighter upper bound of the estimation loss in comparison with the conventional loss in DPMs. Experimental results on several benchmark datasets including CIFAR10, CelebA, and CelebA-HQ consistently show a remarkable improvement of our proposed method regarding the image generalization quality measured by FID and Inception Score compared to several DPM baselines. Our code and pre-trained checkpoints are available at \url{https://github.com/viettmab/SA-DPM}.
翻訳日:2023-12-20 14:29:19 公開日:2023-12-19
# 高速かつ改良された知識センスNLPのための効率的なタイトルリランカ

Efficient Title Reranker for Fast and Improved Knowledge-Intense NLP ( http://arxiv.org/abs/2312.12430v1 )

ライセンス: Link先を確認
Ziyi Chen, Heyi Tao, Daqian Zuo, Jize Jiang, Yang Jun, Yuxiang Wei(参考訳) 本稿では,放送クエリエンコーダを用いて,バニラパスリランカよりも20x-40倍高速なタイトルリランクを実現する新しいタイトルリランク技術を提案する。 しかしながら、効率的なタイトルリランカのトレーニングの課題の1つは不安定性である。 この問題を分析して,ノイズラベルとして振る舞う非常に難しい事実や,モデル確率アウトプットの極端な値がnanの原因であることが分かりました。 これらの問題に対処するため,我々はsgmoid trickを紹介する。sgmoid trickは,両症例の勾配更新を低減し,検索効率が向上する新しい手法である。 ETRとシグモイドのトリックの有効性を示す実験を行い,キルト知識ベンチマークで4つの最先端位置を達成した。

We introduce Efficient Title Reranker via Broadcasting Query Encoder, a novel title reranking technique to achieve efficient title reranking 20x-40x faster than vanilla passage reranker. However, one of the challenges with the training of Efficient Title Reranker is the instability. Analyzing the issue, we found some very difficult ground truths might act as noisy labels causing accuracy to drop as well as some extreme values in model probability output causing nan. To address these issues, we introduce the Sigmoid Trick, a novel technique that reduces the gradient update of both cases resulting in better retrieval efficacy. Experiments showed the effectiveness of ETR and sigmoid trick as we achieved four state-of-the-art positions on the kilt knowledge benchmark.
翻訳日:2023-12-20 14:29:01 公開日:2023-12-19
# 外科的シーンのセグメンテーション, 物体検出, 安全性評価の批判的視点のための内見的データセット: 公式スプリットとベンチマーク

The Endoscapes Dataset for Surgical Scene Segmentation, Object Detection, and Critical View of Safety Assessment: Official Splits and Benchmark ( http://arxiv.org/abs/2312.12429v1 )

ライセンス: Link先を確認
Aditya Murali, Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Guido Costamagna, Didier Mutter, Jacques Marescaux, Bernard Dallemagne, Nicolas Padoy(参考訳) 本技術報告は,CVS(Critical View of Safety)の自動評価を目的とした,高度に複雑なアノテーションを備えた腹腔鏡下胆嚢摘出術(LC)ビデオのデータセットであるEndoscapesの概要を詳述する。 内臓は201本のLCビデオからなり、フレームはわずかだが定期的にセグメンテーションマスク、バウンディングボックス、そして3つの異なる臨床専門家によるCVSアセスメントを備える。 また、CVSと1933のフレームに201ビデオのツールと解剖学的バウンディングボックスがアノテートされた11090フレームと、ツールと解剖学的セグメンテーションマスクがアノテートされた201ビデオの50の422フレームが追加されている。 この報告では、詳細なデータセット統計(サイズ、クラス分布、データセット分割など)と、セグメンテーション、オブジェクト検出、cvs予測のための包括的なパフォーマンスベンチマークを提供する。 データセットとモデルチェックポイントはhttps://github.com/camma-public/endoscapesで公開されている。

This technical report provides a detailed overview of Endoscapes, a dataset of laparoscopic cholecystectomy (LC) videos with highly intricate annotations targeted at automated assessment of the Critical View of Safety (CVS). Endoscapes comprises 201 LC videos with frames annotated sparsely but regularly with segmentation masks, bounding boxes, and CVS assessment by three different clinical experts. Altogether, there are 11090 frames annotated with CVS and 1933 frames annotated with tool and anatomy bounding boxes from the 201 videos, as well as an additional 422 frames from 50 of the 201 videos annotated with tool and anatomy segmentation masks. In this report, we provide detailed dataset statistics (size, class distribution, dataset splits, etc.) and a comprehensive performance benchmark for instance segmentation, object detection, and CVS prediction. The dataset and model checkpoints are publically available at https://github.com/CAMMA-public/Endoscapes.
翻訳日:2023-12-20 14:28:46 公開日:2023-12-19
# 量子ユーティリティの強化:超伝導量子コンピュータ上での大規模量子スピンチェーンのシミュレーション

Enhancing quantum utility: simulating large-scale quantum spin chains on superconducting quantum computers ( http://arxiv.org/abs/2312.12427v1 )

ライセンス: Link先を確認
Talal Ahmed Chowdhury, Kwangmin Yu, Mahmud Ashraf Shamim, M.L. Kabir and Raza Sabbir Sufian(参考訳) 量子スピンのフラストレーション-$\frac{1}{2}$反強磁性ハイゼンベルクスピンチェーンの量子シミュレーションを、100の量子ビットを持つ実超伝導量子コンピュータにおいて、最も近い隣り合う$(J_1)$とnext-nearest-neighbor$(J_2)$の交換相互作用で行う。 特に,IBMの超伝導量子コンピュータにおける近接する隣り合う相互作用と,隣り合う隣り合う隣り合う相互作用を持つハミルトニアンを初めて実装し,一階のトロッタライゼーションを用いてスピンチェーンの時間発展を行う。 さらに, 最寄り-neighbor交換相互作用のみを含む等方性ハイゼンベルクスピンチェーンの2次ロータライジングの新規実装により, 最大100量子ビットの範囲で観測可能なスタッガード磁化の期待値を正確に測定できる。 特に,いずれの場合においても,初期量子ビット数によらず,トロッターステップ毎に回路深さが一定となる。 超伝導量子コンピュータを用いた大規模量子システムの期待値の正確な測定の実証は、多体量子システムの様々な特性を研究するためのこれらの装置の量子ユーティリティを規定する。 これは、フォールトトレランス量子時代以前の量子システムをシミュレートする際の古典的よりも量子上の優位性を達成するための足掛かりとなる。

We present the quantum simulation of the frustrated quantum spin-$\frac{1}{2}$ antiferromagnetic Heisenberg spin chain with competing nearest-neighbor $(J_1)$ and next-nearest-neighbor $(J_2)$ exchange interactions in the real superconducting quantum computer with qubits ranging up to 100. In particular, we implement, for the first time, the Hamiltonian with the next-nearest neighbor exchange interaction in conjunction with the nearest neighbor interaction on IBM's superconducting quantum computer and carry out the time evolution of the spin chain by employing first-order Trotterization. Furthermore, our novel implementation of second-order Trotterization for the isotropic Heisenberg spin chain, involving only nearest-neighbor exchange interaction, enables precise measurement of the expectation values of staggered magnetization observable across a range of up to 100 qubits. Notably, in both cases, our approach results in a constant circuit depth in each Trotter step, independent of the initial number of qubits. Our demonstration of the accurate measurement of expectation values for the large-scale quantum system using superconducting quantum computers designates the quantum utility of these devices for investigating various properties of many-body quantum systems. This will be a stepping stone to achieving the quantum advantage over classical ones in simulating quantum systems before the fault tolerance quantum era.
翻訳日:2023-12-20 14:28:27 公開日:2023-12-19
# SegRefiner:離散拡散プロセスによるモデル非依存セグメンテーションリファインメントを目指して

SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process ( http://arxiv.org/abs/2312.12425v1 )

ライセンス: Link先を確認
Mengyu Wang, Henghui Ding, Jun Hao Liew, Jiajun Liu, Yao Zhao and Yunchao Wei(参考訳) 本稿では,異なるセグメンテーションモデルにより生成されたオブジェクトマスクの品質を高めるための主要な方法を検討する。 本稿では,セグメンテーションの洗練をデータ生成プロセスとして解釈することで,この問題に対する新たな視点を提供するSegRefinerというモデルに依存しないソリューションを提案する。 これにより、一連の消音拡散ステップを通じて微細化処理を円滑に行うことができる。 具体的には、segrefinerは粗いマスクを入力として、離散拡散プロセスを用いて精製する。 各画素のラベル及び対応する状態遷移確率を予測することにより、segrefinerは雑音マスクを条件付きで段階的に洗練する。 segrefinerの有効性を評価するために,セマンティクスセグメンテーション,インスタンスセグメンテーション,二分法画像セグメンテーションなどの様々なセグメンテーションタスクについて総合的な実験を行った。 その結果、複数の側面からSegRefinerの優位性が示された。 まず、さまざまな種類の粗いマスクにわたるセグメンテーションメトリクスとバウンダリメトリクスの両方を一貫して改善する。 第2に、従来のモデル非依存なリファインメントメソッドをかなりのマージンで上回っている。 最後に、高解像度画像を精細化する際、非常に細部を捉えることができる。 ソースコードとトレーニングされたモデルはhttps://github.com/mengyuwang826/segrefinerで入手できる。

In this paper, we explore a principal way to enhance the quality of object masks produced by different segmentation models. We propose a model-agnostic solution called SegRefiner, which offers a novel perspective on this problem by interpreting segmentation refinement as a data generation process. As a result, the refinement process can be smoothly implemented through a series of denoising diffusion steps. Specifically, SegRefiner takes coarse masks as inputs and refines them using a discrete diffusion process. By predicting the label and corresponding states-transition probabilities for each pixel, SegRefiner progressively refines the noisy masks in a conditional denoising manner. To assess the effectiveness of SegRefiner, we conduct comprehensive experiments on various segmentation tasks, including semantic segmentation, instance segmentation, and dichotomous image segmentation. The results demonstrate the superiority of our SegRefiner from multiple aspects. Firstly, it consistently improves both the segmentation metrics and boundary metrics across different types of coarse masks. Secondly, it outperforms previous model-agnostic refinement methods by a significant margin. Lastly, it exhibits a strong capability to capture extremely fine details when refining high-resolution images. The source code and trained models are available at https://github.com/MengyuWang826/SegRefiner.
翻訳日:2023-12-20 14:27:57 公開日:2023-12-19
# Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model

Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model ( http://arxiv.org/abs/2312.12423v1 )

ライセンス: Link先を確認
Shraman Pramanick, Guangxing Han, Rui Hou, Sayan Nag, Ser-Nam Lim, Nicolas Ballas, Qifan Wang, Rama Chellappa, Amjad Almahairi(参考訳) 視覚入力を処理するための大規模言語モデル(LLM)の能力は、汎用的な視覚システムを生み出し、インストラクションチューニングによって様々な視覚言語(VL)タスクを統合する。 しかし、視覚領域における入力出力フォーマットの膨大な多様性のため、既存の汎用モデルはセグメント化とマルチイメージ入力を粗いタスクでひとつのフレームワークに統合することに成功した。 本研究では,統一されたフレームワークを用いて,単一および複数入力画像上の粗大かつきめ細かなVLタスクに対処する強力なビジュアルシステムであるVistaLLMを紹介する。 vistallmは、タスク記述を使用してグローバル埋め込みをフィルタリングし、多数の画像から圧縮および洗練された特徴を抽出する命令誘導イメージトークンを使用する。 さらに、vistallmは勾配対応適応サンプリング技術を用いてバイナリセグメンテーションマスクをシーケンスとして表現し、従来の均一サンプリングよりも大幅に改善している。 所望のVistaLLM能力を強化するために,6.8Mサンプルを用いた包括的粗い命令チューニングデータセットであるCoinItをキュレートする。 また、複数の入力画像に対するモデルの推論と接地能力を高める新しいタスクであるattcoseg (attribute-level co-segmentation)を導入することで、マルチイメージ接地データセットの欠如に対処する。 幅広いV-およびVLタスクに対する広範な実験は、すべての下流タスクにわたる強いベースライン上で一貫した最先端性能を達成することにより、VistaLLMの有効性を示す。 プロジェクトのページはhttps://shramanpramanick.github.io/vistallm/で閲覧できます。

The ability of large language models (LLMs) to process visual inputs has given rise to general-purpose vision systems, unifying various vision-language (VL) tasks by instruction tuning. However, due to the enormous diversity in input-output formats in the vision domain, existing general-purpose models fail to successfully integrate segmentation and multi-image inputs with coarse-level tasks into a single framework. In this work, we introduce VistaLLM, a powerful visual system that addresses coarse- and fine-grained VL tasks over single and multiple input images using a unified framework. VistaLLM utilizes an instruction-guided image tokenizer that filters global embeddings using task descriptions to extract compressed and refined features from numerous images. Moreover, VistaLLM employs a gradient-aware adaptive sampling technique to represent binary segmentation masks as sequences, significantly improving over previously used uniform sampling. To bolster the desired capability of VistaLLM, we curate CoinIt, a comprehensive coarse-to-fine instruction tuning dataset with 6.8M samples. We also address the lack of multi-image grounding datasets by introducing a novel task, AttCoSeg (Attribute-level Co-Segmentation), which boosts the model's reasoning and grounding capability over multiple input images. Extensive experiments on a wide range of V- and VL tasks demonstrate the effectiveness of VistaLLM by achieving consistent state-of-the-art performance over strong baselines across all downstream tasks. Our project page can be found at https://shramanpramanick.github.io/VistaLLM/.
翻訳日:2023-12-20 14:27:35 公開日:2023-12-19
# シーンコンディショナル3dオブジェクトのスタイライゼーションと構成

Scene-Conditional 3D Object Stylization and Composition ( http://arxiv.org/abs/2312.12419v1 )

ライセンス: Link先を確認
Jinghao Zhou, Tomas Jakab, Philip Torr, Christian Rupprecht(参考訳) 近年、3D生成モデルは顕著な進歩を遂げており、テキストや画像からのほぼ任意の3Dアセットの生成を可能にしている。 しかし、これらのアプローチは、最終的に配置されるシーンを考慮せずに、独立したオブジェクトを生成する。 本稿では,既存の3dアセットのスタイライゼーションを所定の2dシーンに適合させるとともに,アセットを環境内に配置したかのようにフォトリアリスティックなコンポジションを作成するための枠組みを提案する。 これは、オブジェクトスタイリングの新しいレベルのコントロールを開放するだけでなく、例えば、夏から冬、幻想的な設定と未来的な設定といった環境の変化を反映するために、同じ資産をスタイリングすることができる。 本研究では,事前学習したテキストから画像への拡散モデルによる画像先行と微分可能なレイトレーシングによる物体のテクスチャと環境照明のモデル化と最適化を組み合わせることで,これを実現する。 本手法は屋内および屋外の様々なシーンや任意のオブジェクトに適用可能であることを実証する。

Recently, 3D generative models have made impressive progress, enabling the generation of almost arbitrary 3D assets from text or image inputs. However, these approaches generate objects in isolation without any consideration for the scene where they will eventually be placed. In this paper, we propose a framework that allows for the stylization of an existing 3D asset to fit into a given 2D scene, and additionally produce a photorealistic composition as if the asset was placed within the environment. This not only opens up a new level of control for object stylization, for example, the same assets can be stylized to reflect changes in the environment, such as summer to winter or fantasy versus futuristic settings-but also makes the object-scene composition more controllable. We achieve this by combining modeling and optimizing the object's texture and environmental lighting through differentiable ray tracing with image priors from pre-trained text-to-image diffusion models. We demonstrate that our method is applicable to a wide variety of indoor and outdoor scenes and arbitrary objects.
翻訳日:2023-12-20 14:27:02 公開日:2023-12-19
# lasa: 大規模アライメント型アノテーションデータセットを用いた実スキャンからのインスタンス再構成

LASA: Instance Reconstruction from Real Scans using A Large-scale Aligned Shape Annotation Dataset ( http://arxiv.org/abs/2312.12418v1 )

ライセンス: Link先を確認
Haolin Liu, Chongjie Ye, Yinyu Nie, Yingfan He, Xiaoguang Han(参考訳) 3dシーンからのインスタンス形状再構成では、セマンティックなインスタンスレベルで複数のオブジェクトの完全なジオメトリを復元する。 多くの方法は、シーンの複雑さと重要な屋内咬合の複雑さのためにデータ駆動学習を利用する。 これらの方法のトレーニングには,現実のスキャンと整列型とペア型アノテーションを備えた,大規模で高品質なデータセットが必要となることが多い。 既存のデータセットは合成または不整合であり、実際のデータに対するデータ駆動メソッドのパフォーマンスを制限している。 そこで我々は,ArkitScenesから920個の実世界のシーンスキャンを手作業で作成し,高品質CADアノテーション10,412個の大規模アラインド形状アノテーションデータセットであるLASAを紹介した。 本稿では,新しい拡散型クロスモーダル形状再構成法(disco)を提案する。 ハイブリッド機能アグリゲーション設計により、多モード入力を融合し、高忠実度オブジェクトジオメトリを復元する。 さらに,OccGOD法を提案するとともに,形状アノテーションが3次元物体検出をさらに改善するためのシーン占有手がかりを提供することを示す。 LASAによって支援された広汎な実験により,本手法はインスタンスレベルのシーン再構成と3次元オブジェクト検出の両タスクにおいて,最先端の性能を実現する。

Instance shape reconstruction from a 3D scene involves recovering the full geometries of multiple objects at the semantic instance level. Many methods leverage data-driven learning due to the intricacies of scene complexity and significant indoor occlusions. Training these methods often requires a large-scale, high-quality dataset with aligned and paired shape annotations with real-world scans. Existing datasets are either synthetic or misaligned, restricting the performance of data-driven methods on real data. To this end, we introduce LASA, a Large-scale Aligned Shape Annotation Dataset comprising 10,412 high-quality CAD annotations aligned with 920 real-world scene scans from ArkitScenes, created manually by professional artists. On this top, we propose a novel Diffusion-based Cross-Modal Shape Reconstruction (DisCo) method. It is empowered by a hybrid feature aggregation design to fuse multi-modal inputs and recover high-fidelity object geometries. Besides, we present an Occupancy-Guided 3D Object Detection (OccGOD) method and demonstrate that our shape annotations provide scene occupancy clues that can further improve 3D object detection. Supported by LASA, extensive experiments show that our methods achieve state-of-the-art performance in both instance-level scene reconstruction and 3D object detection tasks.
翻訳日:2023-12-20 14:26:46 公開日:2023-12-19
# テキストから画像への拡散モデルのためのプロンプト・インバージョン

Prompting Hard or Hardly Prompting: Prompt Inversion for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.12416v1 )

ライセンス: Link先を確認
Shweta Mahajan, Tanzila Rahman, Kwang Moo Yi, Leonid Sigal(参考訳) テキストから画像への拡散モデルに提供されるプロンプトの品質は、生成されたコンテンツがユーザの意図にどれほど忠実であるかを決定する。 ターゲットイメージからの視覚概念をプロンプトエンジニアリングなしで活用するために、現在のアプローチでは、最適化と擬似トケンへのマッピングによるインバージョン埋め込みに大きく依存している。 しかし、そのような高次元ベクトル表現を扱うことは、セマンティクスや解釈可能性に欠けており、それらを使用するときのみ単純なベクトル操作を許すため、難しい。 代わりに、本研究は拡散モデルを反転して解釈可能な言語プロンプトを直接獲得することに焦点を当てている。 これを行う上での課題は、結果として生じる最適化問題は基本的に離散的であり、プロンプトの空間は指数関数的に大きいという事実である。 この目的のために,モデル内の語彙空間を表すプロンプトを最適化するために,遅延プロジェクション方式を用いる。 さらに,拡散過程の異なる時間経過が,画像の様々な詳細レベルに及ぼすという知見を活用する。 後続のノイズ、前方拡散過程の時間ステップは意味情報に対応しており、この範囲での迅速な反転は、画像意味論を表すトークンを提供する。 提案手法は,類似コンテンツを用いた多様な画像の合成に使用できる対象画像に対して,意味論的に解釈可能かつ有意義なプロンプトを識別できることを示す。 さらに,進化的画像生成と概念除去における最適化プロンプトの適用について述べる。

The quality of the prompts provided to text-to-image diffusion models determines how faithful the generated content is to the user's intent, often requiring `prompt engineering'. To harness visual concepts from target images without prompt engineering, current approaches largely rely on embedding inversion by optimizing and then mapping them to pseudo-tokens. However, working with such high-dimensional vector representations is challenging because they lack semantics and interpretability, and only allow simple vector operations when using them. Instead, this work focuses on inverting the diffusion model to obtain interpretable language prompts directly. The challenge of doing this lies in the fact that the resulting optimization problem is fundamentally discrete and the space of prompts is exponentially large; this makes using standard optimization techniques, such as stochastic gradient descent, difficult. To this end, we utilize a delayed projection scheme to optimize for prompts representative of the vocabulary space in the model. Further, we leverage the findings that different timesteps of the diffusion process cater to different levels of detail in an image. The later, noisy, timesteps of the forward diffusion process correspond to the semantic information, and therefore, prompt inversion in this range provides tokens representative of the image semantics. We show that our approach can identify semantically interpretable and meaningful prompts for a target image which can be used to synthesize diverse images with similar content. We further illustrate the application of the optimized prompts in evolutionary image generation and concept removal.
翻訳日:2023-12-20 14:26:08 公開日:2023-12-19
# 大規模言語モデルによるソフトウェアモデル進化の自動支援に向けて

Towards Automatic Support of Software Model Evolution with Large Language~Models ( http://arxiv.org/abs/2312.12404v1 )

ライセンス: Link先を確認
Christof Tinnes, Thomas Fuch{\ss}, Uwe Hohenstein, Sven Apel(参考訳) ソフトウェアシステムの構造と振舞いのモデリングは、ソフトウェア工学の様々な分野において重要な役割を果たす。 他のソフトウェアエンジニアリングアーティファクトと同様に、ソフトウェアモデルは進化の対象となる。 モデル補完機能によるモデル進化におけるモデラーのサポートや、頻繁に発生する編集パターンのような高度な編集操作は、まだ未解決の問題である。 近年,ソフトウェア工学を含む様々な研究分野において,大規模言語モデル(生成ニューラルネットワーク)が注目されている。 本稿では,ソフトウェア工学におけるソフトウェアモデルの発展を支援する大規模言語モデルの可能性を考察する。 本稿では,大規模言語モデルを用いて,ソフトウェアシステムのモデル履歴における編集パターンの発見を行う手法を提案する。 シミュレーションモデルレポジトリを用いた制御実験により,これらの2つのタスクに対する大規模言語モデルの可能性を評価する。 大規模言語モデルは、ソフトウェアモデルの進化をサポートする上で有望な技術であると同時に、ソフトウェアモデルの進化の分野でさらに調査する価値があることが分かりました。

Modeling structure and behavior of software systems plays a crucial role, in various areas of software engineering. As with other software engineering artifacts, software models are subject to evolution. Supporting modelers in evolving models by model completion facilities and providing high-level edit operations such as frequently occurring editing patterns is still an open problem. Recently, large language models (i.e., generative neural networks) have garnered significant attention in various research areas, including software engineering. In this paper, we explore the potential of large language models in supporting the evolution of software models in software engineering. We propose an approach that utilizes large language models for model completion and discovering editing patterns in model histories of software systems. Through controlled experiments using simulated model repositories, we conduct an evaluation of the potential of large language models for these two tasks. We have found that large language models are indeed a promising technology for supporting software model evolution, and that it is worth investigating further in the area of software model evolution.
翻訳日:2023-12-20 14:25:41 公開日:2023-12-19
# 交互時間時相論理、ハイパープロペラティ、戦略共有について

On Alternating-time Temporal Logic, Hyperproperties, and Strategy Sharing ( http://arxiv.org/abs/2312.12403v1 )

ライセンス: Link先を確認
Raven Beutner, Bernd Finkbeiner(参考訳) 交代時間時間論理(ATL$^*$)はマルチエージェントシステムに関する公式推論のための確立されたフレームワークである。 しかし、atl$^*$はエージェントの戦略的能力(例えば、いくつかの連立$a$は目標が最終的に達成されることを保証する)を判断できるが、複数の戦略的な相互作用を比較することはできないし、複数のエージェントが同じ戦略に従う必要もない。 例えば、coalition $a$は他のcoalition $a'$よりも早く(またはもっと頻繁に)目標に到達できると言うことはできない。 本稿では,ATL$^*$の拡張であるHyperATLS$^*_S$を提案し,(1)複数の戦略的相互作用の結果を比較することができる。 HyperATL$^*_S$は、既存のロジックに及ばない重要なAI関連プロパティをキャプチャするリッチな仕様言語であることを示す。 並列ゲーム構造上でのHyperATL$^*_S$のモデルチェックは決定可能であることを示す。 我々はHyMASMCと呼ぶツールにモデルチェックアルゴリズムを実装し、それを様々なベンチマークで評価する。

Alternating-time temporal logic (ATL$^*$) is a well-established framework for formal reasoning about multi-agent systems. However, while ATL$^*$ can reason about the strategic ability of agents (e.g., some coalition $A$ can ensure that a goal is reached eventually), we cannot compare multiple strategic interactions, nor can we require multiple agents to follow the same strategy. For example, we cannot state that coalition $A$ can reach a goal sooner (or more often) than some other coalition $A'$. In this paper, we propose HyperATLS$^*_S$, an extension of ATL$^*$ in which we can (1) compare the outcome of multiple strategic interactions w.r.t. a hyperproperty, i.e., a property that refers to multiple paths at the same time, and (2) enforce that some agents share the same strategy. We show that HyperATL$^*_S$ is a rich specification language that captures important AI-related properties that were out of reach of existing logics. We prove that model checking of HyperATL$^*_S$ on concurrent game structures is decidable. We implement our model-checking algorithm in a tool we call HyMASMC and evaluate it on a range of benchmarks.
翻訳日:2023-12-20 14:25:27 公開日:2023-12-19
# イベントオブザーバブルとジェット構成要素の拡散モデルによる新しい物理探索の改善

Improving new physics searches with diffusion models for event observables and jet constituents ( http://arxiv.org/abs/2312.10130v2 )

ライセンス: Link先を確認
Debajyoti Sengupta, Matthew Leigh, John Andrew Raine, Samuel Klein, Tobias Golling(参考訳) 我々は,LHCにおける新しい物理探索の感度を高めるために,Drapesと呼ばれる新しい手法を導入する。 サイドバンドデータ上で拡散モデルをトレーニングすることにより,信号領域の背景テンプレートをノイズから直接生成するか,あるいは既存のデータに拡散過程を部分的に適用するかを示す。 部分拡散の場合、新しい目標条件値に対して逆拡散を行う側バンド領域、または信号領域を定義する条件特性上の分布を保存する信号領域からデータを描画することができる。 この手法をLHCOジジェットデータセットを用いた共鳴探索に適用し,高レベルの入力特徴を用いた背景テンプレート生成のための最先端性能を実現する。 また,ジェット成分を用いた低レベル入力に対してdrapeを適用する方法を示し,入力オブザーバブルの選択に対するモデル依存性を低減した。 ジェット成分を用いることで、信号プロセスに対する感度をさらに向上することができるが、任意の選択を適用する前に信号の重要性が4$\sigma$を下回る性能の損失を観測することができる。

We introduce a new technique called Drapes to enhance the sensitivity in searches for new physics at the LHC. By training diffusion models on side-band data, we show how background templates for the signal region can be generated either directly from noise, or by partially applying the diffusion process to existing data. In the partial diffusion case, data can be drawn from side-band regions, with the inverse diffusion performed for new target conditional values, or from the signal region, preserving the distribution over the conditional property that defines the signal region. We apply this technique to the hunt for resonances using the LHCO di-jet dataset, and achieve state-of-the-art performance for background template generation using high level input features. We also show how Drapes can be applied to low level inputs with jet constituents, reducing the model dependence on the choice of input observables. Using jet constituents we can further improve sensitivity to the signal process, but observe a loss in performance where the signal significance before applying any selection is below 4$\sigma$.
翻訳日:2023-12-20 12:41:08 公開日:2023-12-19
# チャンネル独立戦略は時系列予測に最適か?

Is Channel Independent strategy optimal for Time Series Forecasting? ( http://arxiv.org/abs/2310.17658v4 )

ライセンス: Link先を確認
Yuan Peiwen, Zhu Changsheng(参考訳) 長期時系列予測のための様々なモデルが出現している。 近年の研究では、チャネル依存(cd)またはチャネル独立(ci)モデリングを用いた単一の線形層が、多数の洗練されたモデルを上回ることさえ証明されている。 しかしながら、現在の研究はCDとCIを2つの補完的かつ相互排他的なアプローチであり、これら2つの極端を同時に利用できないと考えている。 また、CDとCIの両方が静的戦略であり、広範な実験なしに特定のデータセットに最適であると判断できないという課題もある。 本稿では,現在のCI戦略が時系列予測の最適解であるかどうかを再考する。 まず, 線形モデルに対して, 単純かつ効果的な csc 戦略を提案し, 線形モデルに対する $\mathbf{c}$hannel$\mathbf{s}$elf-$\mathbf{c}$lustering strategy を述べる。 我々のチャネル自己クラスタリング(CSC)は、パラメータサイズを減らしながらCI戦略の性能向上を図り、電気データセットを10倍以上に拡大し、トレーニング時間を著しく短縮する。 第2に,自己クラスタリングにインスパイアされたディープモデルのためのChannel Rearrangement (CR)を提案する。 CRはベースラインと競合するパフォーマンスを得る。 最後に、入力と同じチャネルの履歴値を用いて将来の値を予測するのが最善かどうかについても論じる。 われわれの発見と方法がCD/CI以外の新しいソリューションを刺激することを期待している。

There has been an emergence of various models for long-term time series forecasting. Recent studies have demonstrated that a single linear layer, using Channel Dependent (CD) or Channel Independent (CI) modeling, can even outperform a large number of sophisticated models. However, current research primarily considers CD and CI as two complementary yet mutually exclusive approaches, unable to harness these two extremes simultaneously. And it is also a challenging issue that both CD and CI are static strategies that cannot be determined to be optimal for a specific dataset without extensive experiments. In this paper, we reconsider whether the current CI strategy is the best solution for time series forecasting. First, we propose a simple yet effective strategy called CSC, which stands for $\mathbf{C}$hannel $\mathbf{S}$elf-$\mathbf{C}$lustering strategy, for linear models. Our Channel Self-Clustering (CSC) enhances CI strategy's performance improvements while reducing parameter size, for exmpale by over 10 times on electricity dataset, and significantly cutting training time. Second, we further propose Channel Rearrangement (CR), a method for deep models inspired by the self-clustering. CR attains competitive performance against baselines. Finally, we also discuss whether it is best to forecast the future values using the historical values of the same channel as inputs. We hope our findings and methods could inspire new solutions beyond CD/CI.
翻訳日:2023-12-20 12:40:48 公開日:2023-12-19
# 3ディスク散乱系の共鳴状態

Resonance states of the three-disk scattering system ( http://arxiv.org/abs/2308.12783v3 )

ライセンス: Link先を確認
Jan Robert Schmidt, Roland Ketzmerick(参考訳) パラダイム的3次元散乱系では、共振状態は2つの因子からなると主張する開カオス系の最近の予想を確認する。 特に、一因子が普遍指数分布の強度ゆらぎによって与えられることを示す。 他の因子は共鳴状態の寿命に依存する古典的な密度であると考えられており、古典的な構成によって非常によく説明されている。 さらに, 誘電体キャビティで最近観測された光線痕は, 3点散乱系においても小さな波長で全ての共鳴状態を支配している。 本稿では, 半古典的限界にさらに踏み込むことができる, 共鳴計算のための新しい数値計算法を提案する。 その結果、フラクタルワイルの法則を対応する広い範囲にわたって確認することができる。

For the paradigmatic three-disk scattering system, we confirm a recent conjecture for open chaotic systems, which claims that resonance states are composed of two factors. In particular, we demonstrate that one factor is given by universal exponentially distributed intensity fluctuations. The other factor, supposed to be a classical density depending on the lifetime of the resonance state, is found to be very well described by a classical construction. Furthermore, ray-segment scars, recently observed in dielectric cavities, dominate every resonance state at small wavelengths also in the three-disk scattering system. We introduce a new numerical method for computing resonances, which allows for going much further into the semiclassical limit. As a consequence we are able to confirm the fractal Weyl law over a correspondingly large range.
翻訳日:2023-12-20 12:40:23 公開日:2023-12-19
# ラベル語はアンカーである:インコンテキスト学習を理解するための情報フロー視点

Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning ( http://arxiv.org/abs/2305.14160v4 )

ライセンス: Link先を確認
Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun(参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)の有望な能力として出現し、多様なタスクを実行するための実例を提供する。 しかしながら、llmが提供されたコンテキストからどのように学習するかのメカニズムは、まだ未検討のままである。 本稿では,情報フローレンズを用いたICLの動作機構について検討する。 その結果,(1)浅い計算層の処理中に意味情報がラベル語表現に集約され,(2)ラベル語に含まれる統合情報はllmsの最終予測の参照となることがわかった。 これらの知見に基づき、iclの性能向上のためのアンカー再重み付け法、推論を迅速化するデモンストレーション圧縮法、gpt2-xlにおけるiclエラーの診断のための分析フレームワークを提案する。 本研究の有望な応用は、未発見のICL作業機構を再び検証し、今後の研究の道を開くことである。

In-context learning (ICL) emerges as a promising capability of large language models (LLMs) by providing them with demonstration examples to perform diverse tasks. However, the underlying mechanism of how LLMs learn from the provided context remains under-explored. In this paper, we investigate the working mechanism of ICL through an information flow lens. Our findings reveal that label words in the demonstration examples function as anchors: (1) semantic information aggregates into label word representations during the shallow computation layers' processing; (2) the consolidated information in label words serves as a reference for LLMs' final predictions. Based on these insights, we introduce an anchor re-weighting method to improve ICL performance, a demonstration compression technique to expedite inference, and an analysis framework for diagnosing ICL errors in GPT2-XL. The promising applications of our findings again validate the uncovered ICL working mechanism and pave the way for future studies.
翻訳日:2023-12-20 12:40:11 公開日:2023-12-19
# 実世界マルチエージェントによる強化学習における適応的行動指導

Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations ( http://arxiv.org/abs/2305.13030v4 )

ライセンス: Link先を確認
Keisuke Fujii, Kazushi Tsutsui, Atom Scott, Hiroshi Nakahara, Naoya Takeishi, Yoshinobu Kawahara(参考訳) 実世界の生物多エージェントのモデリングは、様々な科学・工学分野における根本的な問題である。 強化学習(Reinforcement Learning, RL)は、サイバー空間における柔軟な多様な行動を生成する強力なフレームワークであるが、実世界の生物学的多エージェントをモデル化する際には、ソース(実世界のデータ)とターゲット(即ちRLのサイバー空間)の振る舞いと、ソース環境パラメータが通常不明である。 本稿では,マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。 本研究では, 動的時間ワーピングの最小距離に基づいて, rlにおける実演の動作を選択することで, rlと教師付き学習を組み合わせる手法を提案する。 このアプローチは多くの既存のニューラルネットワークアーキテクチャに容易に適用でき、再現可能性とサイバースペースにおける報酬を得るために一般化能力のバランスをとるRLモデルを提供する。 実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,再現性と一般化能力のバランスを,ベースラインと比較して達成した。 特に,プロサッカー選手の追跡データをサッカーのエキスパート・デモとして使用し,チェイス・アンド・エスケープ・タスクよりもソースとターゲット環境の挙動の差が大きいにもかかわらず,成功例を示した。

Modeling of real-world biological multi-agents is a fundamental problem in various scientific and engineering fields. Reinforcement learning (RL) is a powerful framework to generate flexible and diverse behaviors in cyberspace; however, when modeling real-world biological multi-agents, there is a domain gap between behaviors in the source (i.e., real-world data) and the target (i.e., cyberspace for RL), and the source environment parameters are usually unknown. In this paper, we propose a method for adaptive action supervision in RL from real-world demonstrations in multi-agent scenarios. We adopt an approach that combines RL and supervised learning by selecting actions of demonstrations in RL based on the minimum distance of dynamic time warping for utilizing the information of the unknown source dynamics. This approach can be easily applied to many existing neural network architectures and provide us with an RL model balanced between reproducibility as imitation and generalization ability to obtain rewards in cyberspace. In the experiments, using chase-and-escape and football tasks with the different dynamics between the unknown source and target environments, we show that our approach achieved a balance between the reproducibility and the generalization ability compared with the baselines. In particular, we used the tracking data of professional football players as expert demonstrations in football and show successful performances despite the larger gap between behaviors in the source and target environments than the chase-and-escape task.
翻訳日:2023-12-20 12:39:56 公開日:2023-12-19
# artgpt-4: 拡張アダプタを用いた視覚言語モデルの構築

ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter ( http://arxiv.org/abs/2305.07490v4 )

ライセンス: Link先を確認
Zhengqing Yuan, Xinyi Wang, Kun Wang, Lichao Sun, Yanfang Ye(参考訳) 近年、大規模な言語モデルの進歩は目覚ましいもので、chatgptのようなモデルは多様な言語タスクにおいて非常に熟練している。 数十億のパラメータを持つ大規模なモデルの事前トレーニングは、主に効果的なトレーニングのための包括的スケールのデータセットが不足しているため、非常に難しい課題となる。 しかし、MiniGPT-4やLLaVAのようなモデルによって証明されたように、より少ないパラメータセットを用いて事前訓練されたモデルを微調整する方法を含む革新的な戦略が出現した。 様々な領域においてその可能性にもかかわらず、これらのモデルは芸術的イメージの理解に限られている。 彼らはまだ、アートイメージの複雑なニュアンスを完全に把握していないし、人間の知覚に類似した方法で、彼らが誘発した感情を客観的に表現している。 artgpt-4は、現代モデルの芸術的理解の欠如に対処するために考案されたビジョン言語モデルである。 ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。 印象的なことに、モデルは芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映することができる。 さらに,視覚言語モデルの有効性を評価するために設計されたユニークなデータセットを提案する。 その後の評価では、artgpt-4はartemisおよびartemis-v2.0データセットで最先端のパフォーマンスを達成しただけでなく、本研究で導入された既存のベンチマークを上回り、プロのアーティストの記述を6ポイントスケールで0.15ポイント遅れている。 コードと事前訓練されたモデルはhttps://huggingface.co/Tyrannosaurus/ArtGPT-4でアクセス可能である。

In recent years, advancements in large language models have been remarkable, with models such as ChatGPT demonstrating exceptional proficiency in diverse linguistic tasks. The pre-training of large models with billions of parameters, poses a formidable challenge, primarily due to the scarcity of datasets of a commensurate scale for effective training. Nevertheless, innovative strategies have emerged, including methods to fine-tune these pre-trained models using fewer parameters set, as evidenced by models like MiniGPT-4 and LLaVA. Despite their potential in various domains, these models remain limited in their understanding of artistic imagery. They have yet to fully grasp the intricate nuances of art images or to provide an objective articulation of the emotions they evoke, in a manner akin to human perception. This work introduces ArtGPT-4, a pioneering large vision-language model tailored to address the deficiencies of contemporary models in artistic comprehension. ArtGPT-4 underwent training on image-text pairs utilizing a Tesla A100 device in a mere 2 hours, with a dataset comprising approximately 0.52M entries. Impressively, the model can render images with an artistic-understanding and convey the emotions they inspire, mirroring human interpretation. Additionally, this work presents a unique dataset designed to evaluate the efficacy of vision-language models. In subsequent evaluations, ArtGPT-4 not only achieved state-of-the-art performance on the ArtEmis and ArtEmis-v2.0 datasets but also exceeded the established benchmarks introduced in This study, lagging behind professional artists' descriptions by a negligible 0.15 points on a 6-point scale. The code and the pre-trained model are accessible in https://huggingface.co/Tyrannosaurus/ArtGPT-4.
翻訳日:2023-12-20 12:39:30 公開日:2023-12-19
# 2d/3d医用画像登録のためのパラメータ初期化による埋め込み特徴類似度最適化

Embedded Feature Similarity Optimization with Specific Parameter Initialization for 2D/3D Medical Image Registration ( http://arxiv.org/abs/2305.06252v5 )

ライセンス: Link先を確認
Minheng Chen, Zhirun Zhang, Shuheng Gu, Youyong Kong(参考訳) 2次元/3次元医用画像登録のための組込みパラメータ初期化(SOPI)による特徴類似性最適化は、次元ミスマッチ、重計算負荷、黄金評価基準の欠如など、最も困難な問題である。 我々が設計したフレームワークには、初期化ポーズパラメータを効率的に選択するパラメータ仕様モジュールと、画像を整列する微登録モジュールが含まれる。 提案フレームワークは, 特殊な訓練手法を用いた新しい複合接続エンコーダを用いて, マルチスケールの特徴を抽出する。 本手法を社内のct/x線データを用いた学習法と最適化法の両方と比較し,性能評価を行う。 本実験により,本手法は登録性能を向上し,既存の手法よりも精度と実行時間に優れることを示した。 また,初期ポーズ推定器として提案手法の可能性を示す。 コードはhttps://github.com/m1nhengChen/SOPIで公開されている。

We present a novel deep learning-based framework: Embedded Feature Similarity Optimization with Specific Parameter Initialization (SOPI) for 2D/3D medical image registration which is a most challenging problem due to the difficulty such as dimensional mismatch, heavy computation load and lack of golden evaluation standard. The framework we design includes a parameter specification module to efficiently choose initialization pose parameter and a fine-registration module to align images. The proposed framework takes extracting multi-scale features into consideration using a novel composite connection encoder with special training techniques. We compare the method with both learning-based methods and optimization-based methods on a in-house CT/X-ray dataset as well as simulated data to further evaluate performance. Our experiments demonstrate that the method in this paper has improved the registration performance, and thereby outperforms the existing methods in terms of accuracy and running time. We also show the potential of the proposed method as an initial pose estimator. The code is available at https://github.com/m1nhengChen/SOPI
翻訳日:2023-12-20 12:38:57 公開日:2023-12-19
# 作曲学習行動学習のためのメタレファレンシャルゲーム

Meta-Referential Games to Learn Compositional Learning Behaviours ( http://arxiv.org/abs/2207.08012v5 )

ライセンス: Link先を確認
Kevin Denamgana\"i, Sondess Missaoui, and James Alfred Walker(参考訳) 人間は構成性を使って過去の経験から新しい経験へと一般化する。 我々は、経験を基本原子要素に分離し、新しい経験に携わる能力を支援するために、新しい方法で組み換えることができると仮定する。 我々は、これを作曲を一般化する能力として捉え、これを作曲学習行動(CLB)として活用する行動について述べる。 CLBの学習における中心的な問題は、結合問題(BP)の解決である。 人間は容易に行動できるという別の知能の偉業であるが、最先端の人工エージェントには当てはまらない。 そこで我々は,人間と協調できる人工エージェントを構築するために,BPのドメインに依存しないバージョンを解くことにより,CLBを展示するエージェントの能力を調べる新しいベンチマークを開発することを提案する。 我々は,参照ゲームの言語台頭と基盤フレームワークからインスピレーションを得て,メタ参照ゲーム(Meta-Referential Games)と題するメタラーニングゲームの拡張を提案し,このフレームワークを用いてベンチマーク,シンボリックビヘイビアベンチマーク(S2B)を構築した。 ベースラインの結果とエラー分析を提供し、ベンチマークが魅力的な課題であることを示し、研究コミュニティがより有能な人工エージェントを開発することを促すことを期待しています。

Human beings use compositionality to generalise from past experiences to novel experiences. We assume a separation of our experiences into fundamental atomic components that can be recombined in novel ways to support our ability to engage with novel experiences. We frame this as the ability to learn to generalise compositionally, and we will refer to behaviours making use of this ability as compositional learning behaviours (CLBs). A central problem to learning CLBs is the resolution of a binding problem (BP). While it is another feat of intelligence that human beings perform with ease, it is not the case for state-of-the-art artificial agents. Thus, in order to build artificial agents able to collaborate with human beings, we propose to develop a novel benchmark to investigate agents' abilities to exhibit CLBs by solving a domain-agnostic version of the BP. We take inspiration from the language emergence and grounding framework of referential games and propose a meta-learning extension of referential games, entitled Meta-Referential Games, and use this framework to build our benchmark, the Symbolic Behaviour Benchmark (S2B). We provide baseline results and error analysis showing that our benchmark is a compelling challenge that we hope will spur the research community towards developing more capable artificial agents.
翻訳日:2023-12-20 12:38:39 公開日:2023-12-19
# ワンショット参照による自己監督顔画像復元

Self-Supervised Face Image Restoration with a One-Shot Reference ( http://arxiv.org/abs/2203.03005v5 )

ライセンス: Link先を確認
Yanhui Guo, Fangzhou Luo, Shaoyuan Xu(参考訳) 画像復元のために, 生成モデルから先行情報を活用する手法が提案され, 光現実性と高品質な結果を確実に復元する有望な能力を示した。 しかし、これらの手法は、特に顔画像のような明らかに正しい意味を持つ画像において、意味曖昧さの影響を受けやすい。 本稿では,画像復元のための意味認識型潜在空間探索手法(sair)を提案する。 与えられた参照画像からセマンティック情報を明示的にモデル化することにより、sairは、高度で高精細な外観だけでなく、セマンティクスの修正も確実に行うことができる。 定量的および定性的な実験は、提案したSAIRの優れた性能を総合的に示す。 私たちのコードはhttps://github.com/liamkuo/sairで利用可能です。

For image restoration, methods leveraging priors from generative models have been proposed and demonstrated a promising capacity to robustly restore photorealistic and high-quality results. However, these methods are susceptible to semantic ambiguity, particularly with images that have obviously correct semantics such as facial images. In this paper, we propose a semantic-aware latent space exploration method for image restoration (SAIR). By explicitly modeling semantics information from a given reference image, SAIR is able to reliably restore severely degraded images not only to high-resolution and highly realistic looks but also to correct semantics. Quantitative and qualitative experiments collectively demonstrate the superior performance of the proposed SAIR. Our code is available at https://github.com/Liamkuo/SAIR.
翻訳日:2023-12-20 12:38:17 公開日:2023-12-19
# 年代最小モバイルエッジコンピューティングのためのフラクショナルディープ強化学習

Fractional Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing ( http://arxiv.org/abs/2312.10418v2 )

ライセンス: Link先を確認
Lyudong Jin, Ming Tang, Meng Zhang, Hao Wang(参考訳) モバイルエッジコンピューティング(MEC)は、処理遅延を低減できるため、集中的な計算を必要とするリアルタイムアプリケーション(例えば自律運転)に期待できるパラダイムである。 本研究では,AOI(Age-ofInformation)によって測定された計算集約更新のタイムラインに着目し,AoIのタスク更新とオフロードポリシを分断形式で協調的に最適化する方法を検討する。 具体的には,エッジ負荷のダイナミクスを考慮し,タスクスケジューリング問題を定式化し,期待時間平均aoiを最小化する。 不確実なエッジ負荷ダイナミクス、分数目的の性質、および(共同最適化による)ハイブリッド連続離散アクション空間はこの問題を難しくし、既存のアプローチは直接適用できない。 そこで本研究では,分数強化学習(rl)フレームワークを提案し,その収束性を証明する。 我々はさらに,各デバイスがシステムダイナミクスや他のデバイスの意思決定を知らずに,ハイブリッド動作空間でスケジューリング決定を行うモデルフリー分数分数型ディープrl(drl)アルゴリズムも設計する。 実験の結果,提案手法は非フラクショナルベンチマークと比較して平均aoiを57.6%削減できることがわかった。

Mobile edge computing (MEC) is a promising paradigm for real-time applications with intensive computational needs (e.g., autonomous driving), as it can reduce the processing delay. In this work, we focus on the timeliness of computational-intensive updates, measured by Age-ofInformation (AoI), and study how to jointly optimize the task updating and offloading policies for AoI with fractional form. Specifically, we consider edge load dynamics and formulate a task scheduling problem to minimize the expected time-average AoI. The uncertain edge load dynamics, the nature of the fractional objective, and hybrid continuous-discrete action space (due to the joint optimization) make this problem challenging and existing approaches not directly applicable. To this end, we propose a fractional reinforcement learning(RL) framework and prove its convergence. We further design a model-free fractional deep RL (DRL) algorithm, where each device makes scheduling decisions with the hybrid action space without knowing the system dynamics and decisions of other devices. Experimental results show that our proposed algorithms reduce the average AoI by up to 57.6% compared with several non-fractional benchmarks.
翻訳日:2023-12-20 12:34:21 公開日:2023-12-19
# Anyonic-PT対称性系における非エルミートエントロピーダイナミクス

Non-Hermitian Entropy Dynamics in Anyonic-PT Symmetric Systems ( http://arxiv.org/abs/2312.10350v2 )

ライセンス: Link先を確認
Zhihang Liu and Chao Zheng(参考訳) 非エルミート物理学は開散系と密接な関係を持ち、注目を集めている。 正規化確率分布または密度行列に基づく従来のエントロピーは、孤立系を記述する際に成功するが、開系の場合は必ずしも適切ではない。 非正規化密度行列に基づく一般化された非エルミートエントロピーを用いた新しい手法を開発し,pt,アンチpt,anyonic-pt対称系の情報ダイナミクスについて検討した。 提案手法では, 従来のエントロピーやトレース距離を用いた場合, それぞれ3倍の縮退, 歪曲する反PT対称ハミルトニアンのパラメータ空間の異なる領域における情報力学の3つの特徴パターンを明らかにする。 解析および数学的実演によれば、NH系と環境の間の総確率フローに関する情報の喪失を引き起こすため、3重縮退につながるNH系の非正規化密度行列の正規化である。 一般化された NH エントロピーと非正規化密度行列を用いたアプローチでは、NH システムの非一意的な情報をすべて保持し、エントロピー力学パターンの縮退を回避することにより、システムの動的特性を適切に特徴付けることができる。

Non-Hermitian (NH) physics has a close relationship with open and dissipative systems, attracting attentions increasingly. The conventional entropy based on the normalized probability distribution or density matrix is successful when describing the isolated system, but not always appropriate for the case of open systems. We develop a new approach using the generalized non-Hermitian entropy based on non-normalized density matrices to investigate the information dynamics of PT, anti-PT, and anyonic-PT symmetric systems. Our approach reveals three distinguished patterns of information dynamics in different areas of the parameter space of anti-PT and anyonic-PT symmetric Hamiltonians, respectively, which are three-fold degenerate and distorted when using the conventional entropy or trace distance adopted in previous works. According to our analysis and mathematical demonstration, it is the normalization of the non-normalized density matrices of the NH systems that leads to the three-fold degeneracy, as it causes the loss of information about the total probability flow between the NH system and the environment. Our approach using the generalized NH entropy and the non-normalized density matrices keeps all the nonunitary information of the NH systems, so that it can properly characterize the dynamical properties of the systems, avoiding the degeneracy of the entropy dynamics patterns.
翻訳日:2023-12-20 12:34:00 公開日:2023-12-19
# 大規模言語モデルのためのインストラクションデータプロスペクタとしてのショット学習

One Shot Learning as Instruction Data Prospector for Large Language Models ( http://arxiv.org/abs/2312.10302v2 )

ライセンス: Link先を確認
Yunshui Li, Binyuan Hui, Xiaobo Xia, Jiaxi Yang, Min Yang, Lei Zhang, Shuzheng Si, Junhao Liu, Tongliang Liu, Fei Huang, Yongbin Li(参考訳) 大規模言語モデル(LLM)を人間に適応させることは、幅広い言語タスクで事前訓練された能力を効果的に活用するための重要なステップである。 現在の命令チューニングのプラクティスは、データ品質を保証する明確な戦略を持たずにデータセットのサイズを拡大することに依存していることが多い。 この課題に対処するために,1ショット学習を用いて拡張型データセットから高品質な命令データを選択する,新しい効率的な手法であるnuggetsを紹介する。 Nuggetsは、個別のインストラクション例が効果的な1ショットの例として機能する可能性を評価し、多様なタスクパフォーマンスを著しく向上できるものを特定する。 nuggetsは、様々なアンカーセットのパープレキシティに対する候補例の影響に基づくスコアリングシステムを利用し、命令チューニングにおいて最も有益なデータの選択を容易にする。 MT-Bench と Alpaca-Eval を含む2つのベンチマークの厳密なテストを通じて,Nuggets が生成した例の上位1% の命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていることを示す。 これらの知見は、LLMと人間を協調するより効率的な経路を提供する、品質を優先するデータ選択パラダイムを提唱している。

Aligning large language models(LLMs) with human is a critical step in effectively utilizing their pre-trained capabilities across a wide array of language tasks. Current instruction tuning practices often rely on expanding dataset size without a clear strategy for ensuring data quality, which can inadvertently introduce noise and degrade model performance. To address this challenge, we introduce Nuggets, a novel and efficient methodology that employs one shot learning to select high-quality instruction data from expansive datasets. Nuggets assesses the potential of individual instruction examples to act as effective one shot examples, thereby identifying those that can significantly enhance diverse task performance. Nuggets utilizes a scoring system based on the impact of candidate examples on the perplexity of a diverse anchor set, facilitating the selection of the most beneficial data for instruction tuning. Through rigorous testing on two benchmarks, including MT-Bench and Alpaca-Eval, we demonstrate that instruction tuning with the top 1% of Nuggets-curated examples substantially outperforms conventional methods that use the full dataset. These findings advocate for a data selection paradigm that prioritizes quality, offering a more efficient pathway to align LLMs with humans.
翻訳日:2023-12-20 12:33:35 公開日:2023-12-19
# Shot2Story20K: マルチショットビデオの理解のための新しいベンチマーク

Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos ( http://arxiv.org/abs/2312.10300v2 )

ライセンス: Link先を確認
Mingfei Han, Linjie Yang, Xiaojun Chang, Heng Wang(参考訳) 短いビデオクリップには、複数のイベントの進行と興味深いストーリーラインが含まれている。 人間はすべてのショットでイベントをキャプチャし、その背後にあるストーリーを理解するためにそれらを関連付ける必要があります。 本稿では,マルチショット映像理解ベンチマークShot2Story20Kについて紹介する。 映像の意味理解を容易にするために,視覚信号と人間のナレーションの両方にキャプションを提供する。 単発ビデオやナレーションキャプション,マルチショットビデオ要約,ショット記述によるビデオ検索など,さまざまなタスクを設計する。 予備実験は、長く包括的なビデオ要約を生成するためのいくつかの課題を示している。 それでも、生成した不完全な要約は、ビデオ質問回答などの既存のビデオ理解タスクのパフォーマンスを著しく向上させ、詳細な要約によるビデオ理解の未探索設定を促進することができる。

A short clip of video may contain progression of multiple events and an interesting story line. A human need to capture both the event in every shot and associate them together to understand the story behind it. In this work, we present a new multi-shot video understanding benchmark Shot2Story20K with detailed shot-level captions and comprehensive video summaries. To facilitate better semantic understanding of videos, we provide captions for both visual signals and human narrations. We design several distinct tasks including single-shot video and narration captioning, multi-shot video summarization, and video retrieval with shot descriptions. Preliminary experiments show some challenges to generate a long and comprehensive video summary. Nevertheless, the generated imperfect summaries can already significantly boost the performance of existing video understanding tasks such as video question-answering, promoting an under-explored setting of video understanding with detailed summaries.
翻訳日:2023-12-20 12:33:12 公開日:2023-12-19
# 最小作用距離を近似する非対称ノルム

Asymmetric Norms to Approximate the Minimum Action Distance ( http://arxiv.org/abs/2312.10276v2 )

ライセンス: Link先を確認
Lorenzo Steccanella, Anders Jonsson(参考訳) 本稿では,報酬のないマルコフ決定過程の状態表現について述べる。 この考え方は自己監督的な方法で、組込み状態のペア間の距離がそれらの間の遷移に必要な最小のアクション数に対応する埋め込み空間を学ぶことである。 従来の手法とは異なり、本手法では非対称ノルムパラメータ化を取り入れ、固有非対称性を有する環境における最小動作距離の正確な近似を可能にする。 この表現を,目標条件ポリシーの学習に活用し,状態と目標の類似性の概念と,計画の指導に有用なヒューリスティック距離を提供する。 アプローチを検証するため,対称環境と非対称環境の両方で実験を行った。 我々の非対称ノルムパラメトリゼーションは、対称環境における対称ノルムと互換性があり、非対称環境における対称ノルムを超えることを示す。

This paper presents a state representation for reward-free Markov decision processes. The idea is to learn, in a self-supervised manner, an embedding space where distances between pairs of embedded states correspond to the minimum number of actions needed to transition between them. Unlike previous methods, our approach incorporates an asymmetric norm parametrization, enabling accurate approximations of minimum action distances in environments with inherent asymmetry. We show how this representation can be leveraged to learn goal-conditioned policies, providing a notion of similarity between states and goals and a useful heuristic distance to guide planning. To validate our approach, we conduct empirical experiments on both symmetric and asymmetric environments. Our results show that our asymmetric norm parametrization performs comparably to symmetric norms in symmetric environments and surpasses symmetric norms in asymmetric environments.
翻訳日:2023-12-20 12:32:57 公開日:2023-12-19
# マルチモーダルデータを用いた垂直フェデレーションアルツハイマーの検出

Vertical Federated Alzheimer's Detection on Multimodal Data ( http://arxiv.org/abs/2312.10237v2 )

ライセンス: Link先を確認
Paul K. Mandal(参考訳) 急速に進歩する医療技術の時代には、医療データのセグメンテーションは避けられなくなり、分散データでトレーニングできるプライバシー保護機械学習アルゴリズムの開発が必要とされるようになった。 hipaa(health insurance portability and accountability act)によって課される厳格なプライバシー規制のため、機密性の高い医療データの統合は必ずしも選択肢ではない。 本稿では,分散データからトレーニングできるHIPAA準拠のフレームワークを提案する。 次に,認知症,脳機能障害,簡単な作業,特に予防的ケアを伴わない重症神経変性疾患であるアルツハイマー病(AD)検出のための多モード垂直フェデレーションモデルを提案する。 この垂直連合モデルは、HIPAAが課したプライバシー制約を尊重しながら、さまざまな医療データのソースをまたいだ協調学習を可能にする分散アーキテクチャを提供する。 また、複数のデータモダリティを活用でき、AD検出の堅牢性と精度を高めることができる。 提案モデルは,連合学習技術の進歩に寄与するだけでなく,医学研究におけるデータセグメンテーションのハードルを克服する可能性を秘めている。 縦型連合学習を用いることで、医療機関が患者のプライバシを損なうことなく、分散データセットに埋め込まれた集団知能を活用できるフレームワークを提供することを目指している。

In the era of rapidly advancing medical technologies, the segmentation of medical data has become inevitable, necessitating the development of privacy preserving machine learning algorithms that can train on distributed data. Consolidating sensitive medical data is not always an option particularly due to the stringent privacy regulations imposed by the Health Insurance Portability and Accountability Act (HIPAA). In this paper, we introduce a HIPAA compliant framework that can train from distributed data. We then propose a multimodal vertical federated model for Alzheimer's Disease (AD) detection, a serious neurodegenerative condition that can cause dementia, severely impairing brain function and hindering simple tasks, especially without preventative care. This vertical federated model offers a distributed architecture that enables collaborative learning across diverse sources of medical data while respecting privacy constraints imposed by HIPAA. It is also able to leverage multiple modalities of data, enhancing the robustness and accuracy of AD detection. Our proposed model not only contributes to the advancement of federated learning techniques but also holds promise for overcoming the hurdles posed by data segmentation in medical research. By using vertical federated learning, this research strives to provide a framework that enables healthcare institutions to harness the collective intelligence embedded in their distributed datasets without compromising patient privacy.
翻訳日:2023-12-20 12:32:43 公開日:2023-12-19
# 強化学習によるPareto Envelopeの拡張:大規模拘束型加圧水炉最適化のための多目的強化学習に基づくアプローチ

Pareto Envelope Augmented with Reinforcement Learning: Multi-objective reinforcement learning-based approach for Large-Scale Constrained Pressurized Water Reactor optimization ( http://arxiv.org/abs/2312.10194v2 )

ライセンス: Link先を確認
Paul Seurin and Koroush Shirvan(参考訳) 多目的問題、特に、候補解の評価に時間がかかる工学の分野で生じる課題に対処するために、強化学習によるパレート包絡法(pareto envelope augmented with reinforcement learning, pearl)が開発されている。 PEARLは、従来のポリシーベースの多目的強化学習法と区別し、単一のポリシーを学習することで、より単純なサブプロブレムを独立して解決する複数のニューラルネットワークの必要性を排除している。 ディープラーニングと進化的テクニックから着想を得たいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。 カリキュラム学習は、これらのバージョンの制約を効果的に管理するために利用される。 PEARLの性能は、古典的な多目的ベンチマークで評価される。 さらに、実世界の応用性を示すために、2つの実用的なPWRコアローディングパターン最適化問題でテストされている。 第1の問題はサイクル長と棒積分ピーク係数を主目的として最適化することであり、第2の問題は平均エンリッチメントを付加目的として含んでいる。 さらに、PEARLはホウ素濃度、ピークピンバーンアップ、ピークピンパワーに関連する3種類の制約に対処する。 結果は従来の手法である非支配ソーティング遺伝的アルゴリズムと体系的に比較される。 特に、PEARL、特にPEARL-NdSは、スケールした目的を持った単一の最適化とは対照的に、アルゴリズム設計者による追加の努力を必要とせずに、効率的にパレートフロントを発見できる。 また、ハイパーボリュームを含む複数のパフォーマンスメトリクスにまたがる古典的なアプローチよりも優れています。

A novel method, the Pareto Envelope Augmented with Reinforcement Learning (PEARL), has been developed to address the challenges posed by multi-objective problems, particularly in the field of engineering where the evaluation of candidate solutions can be time-consuming. PEARL distinguishes itself from traditional policy-based multi-objective Reinforcement Learning methods by learning a single policy, eliminating the need for multiple neural networks to independently solve simpler sub-problems. Several versions inspired from deep learning and evolutionary techniques have been crafted, catering to both unconstrained and constrained problem domains. Curriculum Learning is harnessed to effectively manage constraints in these versions. PEARL's performance is first evaluated on classical multi-objective benchmarks. Additionally, it is tested on two practical PWR core Loading Pattern optimization problems to showcase its real-world applicability. The first problem involves optimizing the Cycle length and the rod-integrated peaking factor as the primary objectives, while the second problem incorporates the mean average enrichment as an additional objective. Furthermore, PEARL addresses three types of constraints related to boron concentration, peak pin burnup, and peak pin power. The results are systematically compared against a conventional approach, the Non-dominated Sorting Genetic Algorithm. Notably, PEARL, specifically the PEARL-NdS variant, efficiently uncovers a Pareto front without necessitating additional efforts from the algorithm designer, as opposed to a single optimization with scaled objectives. It also outperforms the classical approach across multiple performance metrics, including the Hyper-volume.
翻訳日:2023-12-20 12:32:06 公開日:2023-12-19
# 小さなデータセットとビッグゲイン:モデルベース拡張によるオフライン事前トレーニングによる強化学習の強化

Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation ( http://arxiv.org/abs/2312.09844v2 )

ライセンス: Link先を確認
Girolamo Macaluso, Alessandro Sestini, Andrew D. Bagdanov(参考訳) オフライン強化学習は、トレーニングポリシーへの移行の事前収集データセットを活用する。 オンラインアルゴリズムの効果的な初期化、サンプル効率の向上、収束のスピードアップに役立てることができる。 しかし、そのようなデータセットのサイズと品質が制限される場合、オフライン事前トレーニングは最適以下のポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる。 本稿では,オフライン強化学習のメリットを最大化し,有効化に必要なデータ規模を削減するためのモデルベースデータ拡張戦略を提案する。 当社のアプローチでは,オフラインデータセット上でトレーニングした環境のワールドモデルを活用して,オフライン事前トレーニング中の状態を拡大する。 各種のMuJoCoロボットタスクに対する我々のアプローチを評価し、その結果、オンラインの微調整を飛躍的に開始でき、場合によっては、必要な環境相互作用の数を大幅に削減できることを示した。

Offline reinforcement learning leverages pre-collected datasets of transitions to train policies. It can serve as effective initialization for online algorithms, enhancing sample efficiency and speeding up convergence. However, when such datasets are limited in size and quality, offline pre-training can produce sub-optimal policies and lead to degraded online reinforcement learning performance. In this paper we propose a model-based data augmentation strategy to maximize the benefits of offline reinforcement learning pre-training and reduce the scale of data needed to be effective. Our approach leverages a world model of the environment trained on the offline dataset to augment states during offline pre-training. We evaluate our approach on a variety of MuJoCo robotic tasks and our results show it can jump-start online fine-tuning and substantially reduce - in some cases by an order of magnitude - the required number of environment interactions.
翻訳日:2023-12-20 12:31:13 公開日:2023-12-19
# ケースベース推論のための畳み込みニューラルネットワークにおける忠実な説明

Keep the Faith: Faithful Explanations in Convolutional Neural Networks for Case-Based Reasoning ( http://arxiv.org/abs/2312.09783v3 )

ライセンス: Link先を確認
Tom Nuno Wolf, Fabian Bongratz, Anne-Marie Rickmann, Sebastian P\"olsterl, Christian Wachinger(参考訳) 決定クリティカルなタスクに適用する場合、ブラックボックスニューラルネットワークの予測を説明することが重要である。 このように、アトリビューションマップは、人間が類似した例に基づく説明を好むことを示す先行研究にもかかわらず、重要な画像領域を特定するために一般的に使用される。 この目的のために、protopnetはケースベース推論のためのクラス表現型特徴ベクトル(prototypes)のセットを学習する。 推論中、プロトタイプに対する潜在特徴の類似性を線形に分類し、類似性を説明するために属性マップを提供する。 本稿では,ケースベース推論のためのアーキテクチャが,ProtoPNetの例を用いて忠実な説明に必要な確立された公理を満たすか否かを評価する。 このようなアーキテクチャは忠実な説明の抽出を可能にする。 しかし、類似性を説明するために用いられる帰属写像が公理に反することを示す。 本稿では,ProtoPFaith という名前の訓練された ProtoPNet に対する説明を抽出する手法を提案する。 概念的には、これらの説明は各プロトタイプの類似度スコアに基づいて計算されるシェープリー値である。 それらは、どのプロトタイプが見えない画像に存在するのかを忠実に答え、各ピクセルがその存在に対する貢献を定量化し、したがって全ての公理に従う。 ProtoPNetの理論的違反は、3つのデータセット(CUB-200-2011、Stanford Dogs、RSNA)と5つのアーキテクチャ(ConvNet、ResNet、ResNet50、WideResNet50、ResNeXt50)で示された。 実験の結果, ProtoPNet と ProtoPFaith による説明の質的差異が示された。 さらに、摂動曲線上の領域に関する説明を定量化し、protopfaithがすべての実験でprotopfaithがprotopnetを上回るのは、$>10^3$である。

Explaining predictions of black-box neural networks is crucial when applied to decision-critical tasks. Thus, attribution maps are commonly used to identify important image regions, despite prior work showing that humans prefer explanations based on similar examples. To this end, ProtoPNet learns a set of class-representative feature vectors (prototypes) for case-based reasoning. During inference, similarities of latent features to prototypes are linearly classified to form predictions and attribution maps are provided to explain the similarity. In this work, we evaluate whether architectures for case-based reasoning fulfill established axioms required for faithful explanations using the example of ProtoPNet. We show that such architectures allow the extraction of faithful explanations. However, we prove that the attribution maps used to explain the similarities violate the axioms. We propose a new procedure to extract explanations for trained ProtoPNets, named ProtoPFaith. Conceptually, these explanations are Shapley values, calculated on the similarity scores of each prototype. They allow to faithfully answer which prototypes are present in an unseen image and quantify each pixel's contribution to that presence, thereby complying with all axioms. The theoretical violations of ProtoPNet manifest in our experiments on three datasets (CUB-200-2011, Stanford Dogs, RSNA) and five architectures (ConvNet, ResNet, ResNet50, WideResNet50, ResNeXt50). Our experiments show a qualitative difference between the explanations given by ProtoPNet and ProtoPFaith. Additionally, we quantify the explanations with the Area Over the Perturbation Curve, on which ProtoPFaith outperforms ProtoPNet on all experiments by a factor $>10^3$.
翻訳日:2023-12-20 12:30:39 公開日:2023-12-19
# 物理インフォームド機械学習における加算分離性試験の比較評価

A Comparative Evaluation of Additive Separability Tests for Physics-Informed Machine Learning ( http://arxiv.org/abs/2312.09775v2 )

ライセンス: Link先を確認
Zi-Yu Khoo, Jonathan Sze Choong Low, St\'ephane Bressan(参考訳) 物理系を特徴づける多くの関数は加法的に分離可能である。 例えば、物理学における機械的ハミルトン関数、生物学における人口増加方程式、経済学における消費者の嗜好とユーティリティ関数などである。 関数のサロゲートが付加的分離性のためにテストされるシナリオについて考察する。 サロゲートが付加的に分離可能であることの検出は、さらなる学習を改善するために活用できる。 したがって、サロゲートにおけるそのような分離性をテストする能力を持つことは有益である。 数学的アプローチは、サロゲートの混合部分微分がゼロか、あるいは経験的に閾値よりも低いかを検証することである。 本稿では,代用関数の混合部分微分を計算する8つの方法について,比較的かつ実験的に評価する。

Many functions characterising physical systems are additively separable. This is the case, for instance, of mechanical Hamiltonian functions in physics, population growth equations in biology, and consumer preference and utility functions in economics. We consider the scenario in which a surrogate of a function is to be tested for additive separability. The detection that the surrogate is additively separable can be leveraged to improve further learning. Hence, it is beneficial to have the ability to test for such separability in surrogates. The mathematical approach is to test if the mixed partial derivative of the surrogate is zero; or empirically, lower than a threshold. We present and comparatively and empirically evaluate the eight methods to compute the mixed partial derivative of a surrogate function.
翻訳日:2023-12-20 12:30:07 公開日:2023-12-19
# PPFM : 単段階後方サンプリングポアソン流生成モデルを用いた光子計数CTの撮像

PPFM: Image denoising in photon-counting CT using single-step posterior sampling Poisson flow generative models ( http://arxiv.org/abs/2312.09754v2 )

ライセンス: Link先を確認
Dennis Hein, Staffan Holmin, Timothy Szczykutowicz, Jonathan S Maltz, Mats Danielsson, Ge Wang, Mats Persson(参考訳) 拡散とポアソン流のモデルでは、低用量CT画像のデノナイジングなど、幅広い生成タスクにおいて顕著な性能を示している。 しかし、一般的には1つの制限、特に臨床応用においては、サンプリングが遅い。 その反復性のため、要求される関数評価(NFE)の数は、通常、条件付きおよび無条件生成の両方に対して10~10^3$である。 本稿では,NFE=1を保ちながら画像品質に優れた低線量および光子計数CTのための新しい画像復調技術である後部サンプリングポアソンフロー生成モデル(PPFM)を提案する。 本研究では,poisson flow generative models (pfgm)++のトレーニングおよびサンプリングプロセスを更新し,先行雑音分布と関心の後方分布との軌跡を定義する条件付き生成器を学習する。 さらに、nfe=1を達成するためにサンプリングプロセスをハイジャックして規則化する。 その結果、拡散モデルと比較してPFGM++フレームワークの利点が明らかになった。 さらに, PPFMは, NFE=1の最先端拡散型モデル, 一貫性モデル, 一般的な深層学習および非深層学習に基づく画像認識技術と比較して, 試作光子計数CTシステムによる低線量CT画像および臨床画像に対して, 良好な性能を示した。

Diffusion and Poisson flow models have shown impressive performance in a wide range of generative tasks, including low-dose CT image denoising. However, one limitation in general, and for clinical applications in particular, is slow sampling. Due to their iterative nature, the number of function evaluations (NFE) required is usually on the order of $10-10^3$, both for conditional and unconditional generation. In this paper, we present posterior sampling Poisson flow generative models (PPFM), a novel image denoising technique for low-dose and photon-counting CT that produces excellent image quality whilst keeping NFE=1. Updating the training and sampling processes of Poisson flow generative models (PFGM)++, we learn a conditional generator which defines a trajectory between the prior noise distribution and the posterior distribution of interest. We additionally hijack and regularize the sampling process to achieve NFE=1. Our results shed light on the benefits of the PFGM++ framework compared to diffusion models. In addition, PPFM is shown to perform favorably compared to current state-of-the-art diffusion-style models with NFE=1, consistency models, as well as popular deep learning and non-deep learning-based image denoising techniques, on clinical low-dose CT images and clinical images from a prototype photon-counting CT system.
翻訳日:2023-12-20 12:29:54 公開日:2023-12-19
# 深層学習の現状と将来 -2023年-

Perspectives on the State and Future of Deep Learning -- 2023 ( http://arxiv.org/abs/2312.09323v3 )

ライセンス: Link先を確認
Micah Goldblum, Anima Anandkumar, Richard Baraniuk, Tom Goldstein, Kyunghyun Cho, Zachary C Lipton, Melanie Mitchell, Preetum Nakkiran, Max Welling, Andrew Gordon Wilson(参考訳) このシリーズの目標は、今日の機械学習の分野における意見と問題を、時間とともに変化するにつれて記録することである。 計画では、この調査をAIの特異点であるペーパークリップ・フレンチ駆動の土曜まで定期的に実施し、トピックに関する質問のリストを更新し、各エディションの新たなコミュニティメンバーにインタビューする。 本稿では,解釈可能なAI,現代のNLPにおけるベンチマークの価値,ディープラーニングの理解に向けた進展状況,学術の将来について,人々の意見を調査した。

The goal of this series is to chronicle opinions and issues in the field of machine learning as they stand today and as they change over time. The plan is to host this survey periodically until the AI singularity paperclip-frenzy-driven doomsday, keeping an updated list of topical questions and interviewing new community members for each edition. In this issue, we probed people's opinions on interpretable AI, the value of benchmarking in modern NLP, the state of progress towards understanding deep learning, and the future of academia.
翻訳日:2023-12-20 12:29:26 公開日:2023-12-19
# プロパゲータのFeynman-Dyson図形摂動拡大の失敗

Failures of the Feynman-Dyson diagrammatic perturbation expansion of propagators ( http://arxiv.org/abs/2312.03157v3 )

ライセンス: Link先を確認
So Hirata, Ireneusz Grabowski, Rodney J. Bartlett(参考訳) 分子の一般順序多体グリーン関数を用いて,1粒子多体グリーン関数を電子伝達体として,ファインマン・ダイソン図式摂動展開のいくつかの病理学的挙動を数値的に示す。 (i)周波数依存性の自己エネルギーの摂動膨張は多くの周波数領域において正確な自己エネルギーに収束しない。 (II)奇摂動次自己エネルギーは質的に間違った形状であり、結果としてダイソン方程式のほとんどの衛星根は複雑で非物理的である。 (iii) 偶数次自己エネルギーを持つダイソン方程式は摂動次数を上げるにつれて指数関数的に増加する根数を持ち、その根数を迅速に超える。 (iv)頂点または辺修正による図形の無限部分和は、これらの問題を悪化させる。 非収束理論は高次摂動理論を衛星の根には役に立たないだけでなく、すべての極と残基の知識を必要とする ans\"{a}tze との併用の有効性を疑問視する。 このような ans\"{a}tze には、ガリツキー-ミグダル恒等式、自己整合グリーン関数法、ルッティンガー-ウォード汎函数、代数図形構成のモデルなどがある。

Using a general-order many-body Green's-function method for molecules, we numerically illustrate several pathological behaviors of the Feynman--Dyson diagrammatic perturbation expansion of one-particle many-body Green's functions as electron propagators. (i) The perturbation expansion of the frequency-dependent self-energy is not convergent at the exact self-energy in many frequency domains. (ii) An odd-perturbation-order self-energy has a qualitatively wrong shape and, as a result, most satellite roots of the Dyson equation with it are complex and nonphysical. (iii) The Dyson equation with an even-order self-energy has an exponentially increasing number of roots as the perturbation order is raised, which quickly exceeds the correct number of roots. (iv) Infinite partial summation of diagrams by vertex or edge modification exacerbates these problems. Not only does the nonconvergence render higher-order perturbation theories useless for satellite roots, but it also calls into question the validity of their combined use with the ans\"{a}tze requiring the knowledge of all poles and residues. Such ans\"{a}tze include the Galitskii--Migdal identity, self-consistent Green's-function methods, Luttinger--Ward functional, and some models of the algebraic diagrammatic construction.
翻訳日:2023-12-20 12:29:16 公開日:2023-12-19
# FormalGeo:人間ライクなIMOレベルの自動推論への第一歩

FormalGeo: The First Step Toward Human-like IMO-level Geometric Automated Reasoning ( http://arxiv.org/abs/2310.18021v5 )

ライセンス: Link先を確認
Xiaokai Zhang, Na Zhu, Yiming He, Jia Zou, Qike Huang, Xiaoxiao Jin, Yanjun Guo, Chenyang Mao, Yang Li, Zhe Zhu, Dengfeng Yue, Fangzhen Zhu, Yifan Wang, Yiwen Huang, Runan Wang, Cheng Qin, Zhenbing Zeng, Shaorong Xie, Xiangfeng Luo, Tuo Leng(参考訳) これは、私たちが過去3年間に達成した一連の研究における最初の論文です。 本稿では,一貫した形式的平面幾何学システムを構築した。 これは、IMOレベルの平面形状問題と可読性AI自動推論の間に重要な橋渡しとなる。 このフォーマルなフレームワークでは、最新のAIモデルをフォーマルなシステムとシームレスに統合することができます。 aiは、他の自然言語を扱うのと同じように、imoレベルの平面幾何問題に対する推論的推論ソリューションを提供することができ、これらの証明は可読性、トレース性、検証可能である。 本稿では,幾何形式体系の発展を導くために,幾何形式化理論(GFT)を提案する。 GFTに基づいて、88の幾何述語と196の定理からなるフォーマルジオを確立した。 IMOレベルの幾何学問題を表現、検証、解決することができる。 また、PythonでFGPS(形式幾何学問題の解法)も作成しました。 問題解決プロセスを検証するための対話型アシスタントと自動問題解決ツールの両方として機能する。 formalgeo7k と formalgeo-imo データセットにアノテートしました。 前者は6,981 (データ拡張による133,818) の幾何学問題を含み、後者は18 (2,627) の IMO レベルの挑戦幾何学問題を含んでいる。 注釈付き問題には、詳細な形式的な言語記述と解決策が含まれる。 形式システムの実装と実験は、GFTの正当性と有用性を検証する。 奥行き優先探索法は2.42%の問題解決失敗率しか生み出せず,より低い解を得るために深層学習手法を組み込むことができる。 FGPSとデータセットのソースコードはhttps://github.com/BitSecret/FGPSで入手できる。

This is the first paper in a series of work we have accomplished over the past three years. In this paper, we have constructed a consistent formal plane geometry system. This will serve as a crucial bridge between IMO-level plane geometry challenges and readable AI automated reasoning. Within this formal framework, we have been able to seamlessly integrate modern AI models with our formal system. AI is now capable of providing deductive reasoning solutions to IMO-level plane geometry problems, just like handling other natural languages, and these proofs are readable, traceable, and verifiable. We propose the geometry formalization theory (GFT) to guide the development of the geometry formal system. Based on the GFT, we have established the FormalGeo, which consists of 88 geometric predicates and 196 theorems. It can represent, validate, and solve IMO-level geometry problems. we also have crafted the FGPS (formal geometry problem solver) in Python. It serves as both an interactive assistant for verifying problem-solving processes and an automated problem solver. We've annotated the formalgeo7k and formalgeo-imo datasets. The former contains 6,981 (expand to 133,818 through data augmentation) geometry problems, while the latter includes 18 (expand to 2,627 and continuously increasing) IMO-level challenging geometry problems. All annotated problems include detailed formal language descriptions and solutions. Implementation of the formal system and experiments validate the correctness and utility of the GFT. The backward depth-first search method only yields a 2.42% problem-solving failure rate, and we can incorporate deep learning techniques to achieve lower one. The source code of FGPS and datasets are available at https://github.com/BitSecret/FGPS.
翻訳日:2023-12-20 12:28:49 公開日:2023-12-19
# 位相遅延器を用いたビームスプリッター物理と試験ベル不等式

Beam Splitter Physics and Testing Bell Inequalities with Phase Retarders ( http://arxiv.org/abs/2312.10837v2 )

ライセンス: Link先を確認
H.O. Cildiroglu(参考訳) ビームスプリッター(bs)の役割は、量子力学的粒子(量子)と量子重ね合わせやランダム性といった基本的な量子現象の統計挙動を明らかにするため、量子物理学にとって重要である。 本稿では,BSとPの併用について検討し,新興量子技術におけるBS-P-BSシステムの重要性を強調する。 検出確率は, アナログ装置におけるスピン測定確率と等価であることを示す。 次に,空間的相関を持つ2量子系に議論を拡張することにより,共通な起源を持つように見える他の量子力学過程の解析に適した基礎を構築する。 最後に,Bell-CHSHの不等式を空間的に相関した2量子BS-P-BSシステムを用いてトポロジ相を導入する実験装置を提案する。

The role of Beam Splitters (BS) is crucial for quantum physics as it reveals the statistical behavior of quantum mechanical particles (quantons) and some of the fundamental quantum phenomena such as quantum superposition and randomness. Here, we investigate the use of BS and Phase Retarders (P) in combination and emphasize the importance of BS-P-BS systems for emerging quantum technologies. We demonstrate that the detection probabilities are equivalent to the spin measurement probabilities in analog setups. Then, by extending the discussion to spatially correlated two-quanton systems, we construct a suitable basis for analysis of other quantum mechanical processes that seem to have common origins. Last, we propose a new experimental setup for testing Bell-CHSH inequalities with spatially correlated two-quanton BS-P-BS systems by introducing topological phases.
翻訳日:2023-12-20 12:22:27 公開日:2023-12-19
# 巨視体に近い原子と分子を探索する

Probing atoms and molecules close to macroscopic bodies ( http://arxiv.org/abs/2312.10811v2 )

ライセンス: Link先を確認
Athanasios Laliotis(参考訳) この論文の中で、私はインペリアル・カレッジ・ロンドンで、シリコンチップで製造されたマイクロピラミドの原子雲をトラップする研究について簡単に紹介します。 次に、SAIグループのレーザー物理学研究所で実施した研究について述べる。 実験では,表面波の熱励起による近接場カシミール・ポルダー相互作用の温度依存性を実証し,物質とそれを取り巻く量子真空の誘電特性の理解を深めた。 また、ナノ構造(ナノスフィアオパール)に閉じ込められた原子蒸気の分光実験を行い、ミニチュア周波数基準の作成を目指す。 最後に,表面近傍の分子ガスの分光実験を行う可能性について検討する。

In this habilitation thesis, I briefly present my work at Imperial College London on trapping atomic clouds in micro-pyramids fabricated on silicon chips, which led to the fabrication of an on-chip integrated atom source. Next, I describe the research carried out at the Laboratoire de Physique des Lasers in the SAI group. Our experiments demonstrated the temperature dependence of near-field Casimir-Polder interactions due to thermal excitation of surface waves, thus advancing our understanding of the dielectric properties of matter and the quantum vacuum that surrounds it. I also present spectroscopic experiments with atomic vapors confined in nanostructures (nano-sphere opals) aiming at the fabrication of miniature frequency references. Finally, I explore the possibility of performing spectroscopic experiments on molecular gases close to surfaces.
翻訳日:2023-12-20 12:22:14 公開日:2023-12-19
# ランダム林のアンサンブルを用いたfused sentinel-1, sentinel-2画像の土地利用・土地被覆分類

Land use/land cover classification of fused Sentinel-1 and Sentinel-2 imageries using ensembles of Random Forests ( http://arxiv.org/abs/2312.10798v2 )

ライセンス: Link先を確認
Shivam Pande(参考訳) 本研究では、土地利用/土地被覆(LULC)分類のための合成開口レーダ(SAR)と可視赤外短波赤外線(VNIR-SWIR)画像の相乗効果について検討した。 ベイズ融合を利用した画像融合は、SARテクスチャバンドとVNIR-SWIR画像とを融合する。 本研究は, この融合がLULC分類に与える影響について検討することを目的とする。 管理された分類のためにランダム林が人気であるにもかかわらず、特徴の少ない亜最適性能や精度の停滞といった制限に対処している。 これらの問題を解決するために、フォレスト-RCアルゴリズムを用いてランダムな回転を導入し、ランダムな森林(RFE)のアンサンブルを作成する。 主成分分析(pca)、スパースランダム回転(srp)マトリクス、完全ランダム回転(crp)マトリクスの3つのローテーションアプローチを用いる。 Sentinel-1 SARデータとIIT-Kanpur地域のSentinel-2 VNIR-SWIRデータは、テクスチャ付きSAR、テクスチャ付きVNIR-SWIR、テクスチャ付きVNIR-SWIR、テクスチャ付きVNIR-SWIRを含むトレーニングデータセットを構成する。 本研究は分類器の有効性を評価し,SARおよびVNIR-SWIR融合が分類に与える影響を調査し,ベイズ核融合符号の実行速度を著しく向上させる。 SRPベースのRFEは、最初の2つのデータセットで他のアンサンブルを上回り、平均カッパ値は61.80%と68.18%、CRPベースのRFEは最後の3つのデータセットで95.99%、96.93%、96.30%である。 第4のデータセットは、最高96.93%のカッパを達成している。 さらに、SARバンドにテクスチャを組み込むことで、カッパの最大インクリメントは10.00%、VNIR-SWIRバンドにテクスチャを追加すると最大インクリメントは約3.45%となる。

The study explores the synergistic combination of Synthetic Aperture Radar (SAR) and Visible-Near Infrared-Short Wave Infrared (VNIR-SWIR) imageries for land use/land cover (LULC) classification. Image fusion, employing Bayesian fusion, merges SAR texture bands with VNIR-SWIR imageries. The research aims to investigate the impact of this fusion on LULC classification. Despite the popularity of random forests for supervised classification, their limitations, such as suboptimal performance with fewer features and accuracy stagnation, are addressed. To overcome these issues, ensembles of random forests (RFE) are created, introducing random rotations using the Forest-RC algorithm. Three rotation approaches: principal component analysis (PCA), sparse random rotation (SRP) matrix, and complete random rotation (CRP) matrix are employed. Sentinel-1 SAR data and Sentinel-2 VNIR-SWIR data from the IIT-Kanpur region constitute the training datasets, including SAR, SAR with texture, VNIR-SWIR, VNIR-SWIR with texture, and fused VNIR-SWIR with texture. The study evaluates classifier efficacy, explores the impact of SAR and VNIR-SWIR fusion on classification, and significantly enhances the execution speed of Bayesian fusion code. The SRP-based RFE outperforms other ensembles for the first two datasets, yielding average overall kappa values of 61.80% and 68.18%, while the CRP-based RFE excels for the last three datasets with average overall kappa values of 95.99%, 96.93%, and 96.30%. The fourth dataset achieves the highest overall kappa of 96.93%. Furthermore, incorporating texture with SAR bands results in a maximum overall kappa increment of 10.00%, while adding texture to VNIR-SWIR bands yields a maximum increment of approximately 3.45%.
翻訳日:2023-12-20 12:21:59 公開日:2023-12-19
# 大規模言語モデルファインチューニングのための命令混合の理解

Understanding the Instruction Mixture for Large Language Model Fine-tuning ( http://arxiv.org/abs/2312.10793v2 )

ライセンス: Link先を確認
Renxi Wang, Minghao Wu, Yuxia Wang, Xudong Han, Chiyu Zhang, Haonan Li(参考訳) 大規模言語モデル(LLM)の微調整は様々なアプリケーションで性能を向上させることが証明されているが、LLMに対する命令データセットの混合の影響は十分に調べられていない。 本研究では,命令をNLPダウンストリームタスク,コーディング,一般的なチャットの3つのタイプに分類し,LLMへの影響について検討する。 本研究は,特定の命令が特定の用途に有用であることを明らかにするとともに,モデルの性能を最大化するために,命令を巧みに設計することの重要性を強調した。 本研究は, 命令混合に光を当て, 今後の研究への道を開く。

While instructions fine-tuning of large language models (LLMs) has been proven to enhance performance across various applications, the influence of the instruction dataset mixture on LLMs has not been thoroughly explored. In this study, we classify instructions into three main types: NLP downstream tasks, coding, and general chatting, and investigate their impact on LLMs. Our findings reveal that specific types of instructions are more beneficial for particular uses, while it may cause harms to other aspects, emphasizing the importance of meticulously designing the instruction mixture to maximize model performance. This study sheds light on the instruction mixture and paves the way for future research.
翻訳日:2023-12-20 12:21:14 公開日:2023-12-19
# 多様な環境情報を含む複数ラベルによる交通事故データベース

Traffic Incident Database with Multiple Labels Including Various Perspective Environmental Information ( http://arxiv.org/abs/2312.10737v2 )

ライセンス: Link先を確認
Shota Nishiyama, Takuma Saito, Ryo Nakamura, Go Ohtani, Hirokatsu Kataoka, and Kensho Hara(参考訳) 深層学習モデルを用いた交通事故認識の精度向上には,注釈付き交通事故の大規模なデータセットが必要である。 従来の交通事故データセットは、交通事故やその他の教師ラベルへの注釈を提供し、交通事故認識性能を向上させる。 しかし、従来のデータセットにアノテートされたラベルは、交通事故を詳細に記述するためにより包括的にする必要がある。 そこで本稿では,様々な環境情報をマルチラベルとして付加した大規模交通事故認識データセットであるV-TIDBを提案する。 提案するデータセットは,交通事故の有無に加えて,教師のラベルとして10種類の環境情報をアノテートすることで,交通事故認識の性能向上を目的とする。 V-TIDBは、インターネットから多くのビデオを収集し、適切な環境情報でアノテートすることで構築される。 本研究では,交通事故の有無に関連するラベルのみをトレーニングし,環境情報を複数ラベルとして付加した場合の交通事故認識性能を比較した。 第2の実験では,交通事故の深刻度を表す接触レベルと,マルチラベルとして付加された環境情報との比較を行った。 その結果, 環境情報ラベル10項目中6項目において, 交通事故の有無の認識性能が向上した。 交通事故の認識度に関する実験では,全ての環境情報に対して,自動車事故と接触者の認識性能が向上した。 これらの実験により,V-TIDBは環境情報を考慮した交通事故認識モデルの学習に利用でき,適切な交通事故解析に利用できることがわかった。

A large dataset of annotated traffic accidents is necessary to improve the accuracy of traffic accident recognition using deep learning models. Conventional traffic accident datasets provide annotations on traffic accidents and other teacher labels, improving traffic accident recognition performance. However, the labels annotated in conventional datasets need to be more comprehensive to describe traffic accidents in detail. Therefore, we propose V-TIDB, a large-scale traffic accident recognition dataset annotated with various environmental information as multi-labels. Our proposed dataset aims to improve the performance of traffic accident recognition by annotating ten types of environmental information as teacher labels in addition to the presence or absence of traffic accidents. V-TIDB is constructed by collecting many videos from the Internet and annotating them with appropriate environmental information. In our experiments, we compare the performance of traffic accident recognition when only labels related to the presence or absence of traffic accidents are trained and when environmental information is added as a multi-label. In the second experiment, we compare the performance of the training with only contact level, which represents the severity of the traffic accident, and the performance with environmental information added as a multi-label. The results showed that 6 out of 10 environmental information labels improved the performance of recognizing the presence or absence of traffic accidents. In the experiment on the degree of recognition of traffic accidents, the performance of recognition of car wrecks and contacts was improved for all environmental information. These experiments show that V-TIDB can be used to learn traffic accident recognition models that take environmental information into account in detail and can be used for appropriate traffic accident analysis.
翻訳日:2023-12-20 12:21:02 公開日:2023-12-19
# 非パラメトリック戦略テスト

Nonparametric Strategy Test ( http://arxiv.org/abs/2312.10695v2 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) エージェントプレイのサンプルを与えられた戦略形ゲームにおいて,エージェントが所定の混合戦略に従っているかどうかを判定するための非パラメトリック統計テストを行う。 エージェントの純粋な戦略の周波数がターゲットの周波数に十分近いかどうかを判定し、選択した純粋な戦略が異なるゲームイテレーション間で独立であるかどうかを決定する。 統合テストでは,第1成分に対する適合性テストと,第2成分に対する一般化されたwald-wolfowitz実行テストを適用した。 両テストの結果は、ボンフェロニ補正を用いて、与えられた意味レベル$\alphaの完全なテストを生成する。 このテストは、人間のロックペーパー・シグナープレイの公開データに適用した。 データは500人のプレーヤーのための50回のプレイから成り立っている。 我々は、プレイヤーが各ゲームイテレーションで独立して一様ランダム戦略に従っているというヌル仮説でテストする。 重要度レベル$\alpha = 0.05$を用いて、被験者の305 (61%) が目標戦略に従っていると結論づける。

We present a nonparametric statistical test for determining whether an agent is following a given mixed strategy in a repeated strategic-form game given samples of the agent's play. This involves two components: determining whether the agent's frequencies of pure strategies are sufficiently close to the target frequencies, and determining whether the pure strategies selected are independent between different game iterations. Our integrated test involves applying a chi-squared goodness of fit test for the first component and a generalized Wald-Wolfowitz runs test for the second component. The results from both tests are combined using Bonferroni correction to produce a complete test for a given significance level $\alpha.$ We applied the test to publicly available data of human rock-paper-scissors play. The data consists of 50 iterations of play for 500 human players. We test with a null hypothesis that the players are following a uniform random strategy independently at each game iteration. Using a significance level of $\alpha = 0.05$, we conclude that 305 (61%) of the subjects are following the target strategy.
翻訳日:2023-12-20 12:20:36 公開日:2023-12-19
# 校正付き異常クラス学習を用いたロングテール認識における分布外検出

Out-of-Distribution Detection in Long-Tailed Recognition with Calibrated Outlier Class Learning ( http://arxiv.org/abs/2312.10686v2 )

ライセンス: Link先を確認
Wenjun Miao, Guansong Pang, Tianqi Li, Xiao Bai, Jin Zheng(参考訳) 既存のアウト・オブ・ディストリビューション(OOD)手法は、バランスの取れたデータセットでは大きな成功を収めているが、LTR(Long-tailed Recognition)シナリオでは効果がない。 1)OODサンプルは、しばしば誤ってヘッドクラスまたは/または/に分類される 2)尾型試料はOOD試料として処理される。 これらの問題に対処するため、近年の研究では、補助/擬似OODデータの長期分布(ID)データに適合する。 しかし、実際のOODサンプルの無知とLTRの重クラス不均衡を考えると、そのような正確な事前分布を得るのは難しい。 この前の要件を避けるための簡単な解決策は、OODサンプルをカプセル化する外れ値クラスを学ぶことである。 主な課題は、前述のOODサンプルとヘッド/テールクラスのサンプルとの混同に対処することである。 そこで本研究では,新しい校正校正校正校正授業学習(cocl)手法を提案する。 1)OODサンプルを表現空間における頭と尾の両方のクラスと区別するために,デバイアスド大マージン学習法を導入する。 2) 長期分類信頼性を高めるために, 対数検定法を定義した。 CIFAR10-LT, CIFAR100-LT, ImageNet-LTの3つのベンチマークによる大規模な実験結果から, COCLはIDデータの分類精度を向上しつつ, LTRにおける最先端のOOD検出方法を大幅に上回っていることが示された。 コードはhttps://github.com/mala-lab/COCLで入手できる。

Existing out-of-distribution (OOD) methods have shown great success on balanced datasets but become ineffective in long-tailed recognition (LTR) scenarios where 1) OOD samples are often wrongly classified into head classes and/or 2) tail-class samples are treated as OOD samples. To address these issues, current studies fit a prior distribution of auxiliary/pseudo OOD data to the long-tailed in-distribution (ID) data. However, it is difficult to obtain such an accurate prior distribution given the unknowingness of real OOD samples and heavy class imbalance in LTR. A straightforward solution to avoid the requirement of this prior is to learn an outlier class to encapsulate the OOD samples. The main challenge is then to tackle the aforementioned confusion between OOD samples and head/tail-class samples when learning the outlier class. To this end, we introduce a novel calibrated outlier class learning (COCL) approach, in which 1) a debiased large margin learning method is introduced in the outlier class learning to distinguish OOD samples from both head and tail classes in the representation space and 2) an outlier-class-aware logit calibration method is defined to enhance the long-tailed classification confidence. Extensive empirical results on three popular benchmarks CIFAR10-LT, CIFAR100-LT, and ImageNet-LT demonstrate that COCL substantially outperforms state-of-the-art OOD detection methods in LTR while being able to improve the classification accuracy on ID data. Code is available at https://github.com/mala-lab/COCL.
翻訳日:2023-12-20 12:20:15 公開日:2023-12-19
# RustジェネリックAPIのためのファズドライバ合成

Fuzz Driver Synthesis for Rust Generic APIs ( http://arxiv.org/abs/2312.10676v2 )

ライセンス: Link先を確認
Yehong Zhang, Jun Wu, Hui Xu(参考訳) ファジィング(英: Fuzzing)は、ランダムな入力でソフトウェア実行ファイルをテストすることで、一般的なバグ検出手法である。 このテクニックは、ファズドライバとして知られるライブラリAPIを呼び出す実行ファイルを構築することで、ライブラリに拡張することもできる。 近年, ファジィドライバの自動合成は, 図書館ファジィ処理の促進に寄与し, 重要な研究課題となっている。 それにもかかわらず、既存のアプローチは一般的にジェネリックAPIを無視したり、単に通常のAPIとして扱う。 結果として、ジェネリックAPIのための効果的なファズドライバを生成することはできない。 本稿では,汎用APIを用いたRustライブラリの自動ファズドライバ合成問題について検討する。 Rustはセキュリティを重視しており、一般的なAPIはRustのクラッドに広く採用されている。 各ジェネリックAPIは、型制約を満たす限り、多数のモノモルフィックバージョンを持つことができる。 この問題に対する重要な課題は、これら単相バージョンを優先順位付けし、有効なインプットを提供することである。 この問題に対処するため、既存のAPI依存グラフを拡張して、ジェネリックAPIをサポートします。 このような依存関係と型制約を解決することで、候補の単相apiの集合を生成することができる。 さらに,複数のモノモルフィックAPIが同じ特性実装を採用する場合,類似度に基づくフィルタを用いて冗長なバージョンを創出する。 29のポピュラーなオープンソースライブラリによる実験結果から,本手法が有望な汎用APIカバレッジを実現できることを示す。 さらに、これらのライブラリには23のバグがあり、ジェネリックAPIに関連する18のバグがある。

Fuzzing is a popular bug detection technique achieved by testing software executables with random inputs. This technique can also be extended to libraries by constructing executables that call library APIs, known as fuzz drivers. Automated fuzz driver synthesis has been an important research topic in recent years since it can facilitate the library fuzzing process. Nevertheless, existing approaches generally ignore generic APIs or simply treat them as normal APIs. As a result, they cannot generate effective fuzz drivers for generic APIs. This paper studies the automated fuzz driver synthesis problem for Rust libraries with generic APIs. The problem is essential because Rust emphasizes security, and generic APIs are widely employed in Rust crates. Each generic API can have numerous monomorphic versions as long as the type constraints are satisfied. The critical challenge to this problem lies in prioritizing these monomorphic versions and providing valid inputs for them. To address the problem, we extend existing API-dependency graphs to support generic APIs. By solving such dependencies and type constraints, we can generate a collection of candidate monomorphic APIs. Further, we apply a similarity-based filter to prune redundant versions, particularly if multiple monomorphic APIs adopt the identical trait implementation. Experimental results with 29 popular open-source libraries show that our approach can achieve promising generic API coverage with a low rate of invalid fuzz drivers. Besides, we find 23 bugs previously unknown in these libraries, with 18 bugs related to generic APIs.
翻訳日:2023-12-20 12:19:43 公開日:2023-12-19
# スパリングYIG薄膜を用いた極低温ハイブリッド磁気回路

Cryogenic hybrid magnonic circuits based on spalled YIG thin films ( http://arxiv.org/abs/2312.10660v2 )

ライセンス: Link先を確認
Jing Xu, Connor Horn, Yu Jiang, Xinhao Li, Daniel Rosenmann, Xu Han, Miguel Levy, Supratik Guha, Xufeng Zhang(参考訳) yttrium iron garnet (yig) magnonicsは、信号処理にmagnons (quasiparticles of collective spin excitation)を利用するための広範な研究の関心を呼び起こした。 特に、yigマグノニクスベースのハイブリッドシステムは、広帯域の波長可変性と他のプラットフォームとの互換性が優れているため、量子情報科学に大きな可能性を秘めている。 しかし,YIGのホスト基板であるガドリニウムガリウムガーネット(GGG)の低温下でのマイクロ波損失により,量子状態における薄膜YIGデバイスの適用とスケーラビリティは著しく制限されている。 本研究では,YIG/GGG試料に制御スペーリングおよび層移動技術を導入することで,基板フリーYIG薄膜が得られることを示す。 本手法は, 超伝導共振器とスパリングYIG膜からなるハイブリッドデバイスを試作し, 結合特性が良好であることを示す。 この進歩は、YIGベースの量子デバイスのオンチップ統合とスケーラビリティの向上の道を開く。

Yttrium iron garnet (YIG) magnonics has sparked extensive research interests toward harnessing magnons (quasiparticles of collective spin excitation) for signal processing. In particular, YIG magnonics-based hybrid systems exhibit great potentials for quantum information science because of their wide frequency tunability and excellent compatibility with other platforms. However, the broad application and scalability of thin-film YIG devices in the quantum regime has been severely limited due to the substantial microwave loss in the host substrate for YIG, gadolinium gallium garnet (GGG), at cryogenic temperatures. In this study, we demonstrate that substrate-free YIG thin films can be obtained by introducing the controlled spalling and layer transfer technology to YIG/GGG samples. Our approach is validated by measuring a hybrid device consisting of a superconducting resonator and a spalled YIG film, which gives a strong coupling feature indicating the good coherence of our system. This advancement paves the way for enhanced on-chip integration and the scalability of YIG-based quantum devices.
翻訳日:2023-12-20 12:19:21 公開日:2023-12-19
# VidToMe:ゼロショットビデオ編集のためのビデオトークンマージ

VidToMe: Video Token Merging for Zero-Shot Video Editing ( http://arxiv.org/abs/2312.10656v2 )

ライセンス: Link先を確認
Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang(参考訳) 拡散モデルは高品質な画像の生成において大きな進歩を遂げてきたが、時間運動の複雑さのためにビデオ生成への応用は依然として困難である。 ゼロショットビデオ編集は、訓練済みの画像拡散モデルを利用してソースビデオを新しいものに翻訳することで、ソリューションを提供する。 それでも、既存の手法は厳密な時間的一貫性と効率的なメモリ消費を維持するのに苦労している。 本研究では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める手法を提案する。 フレーム間の時間的冗長なトークンの整列と圧縮により,時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を低減する。 マージ戦略はフレーム間の時間的対応に応じてトークンを一致させて調整し、生成されたビデオフレームにおける自然な時間的一貫性を促進する。 ビデオ処理の複雑さを管理するため,映像をチャンクに分割し,チャンク内局所トークンマージとチャンク間グローバルトークンマージを開発する。 映像編集手法は,映像編集の進歩をシームレスに拡張し,最先端の手法よりも良好な時間的一貫性を実現する。

Diffusion models have made significant advances in generating high-quality images, but their application to video generation has remained challenging due to the complexity of temporal motion. Zero-shot video editing offers a solution by utilizing pre-trained image diffusion models to translate source videos into new ones. Nevertheless, existing methods struggle to maintain strict temporal consistency and efficient memory consumption. In this work, we propose a novel approach to enhance temporal consistency in generated videos by merging self-attention tokens across frames. By aligning and compressing temporally redundant tokens across frames, our method improves temporal coherence and reduces memory consumption in self-attention computations. The merging strategy matches and aligns tokens according to the temporal correspondence between frames, facilitating natural temporal consistency in generated video frames. To manage the complexity of video processing, we divide videos into chunks and develop intra-chunk local token merging and inter-chunk global token merging, ensuring both short-term video continuity and long-term content consistency. Our video editing approach seamlessly extends the advancements in image editing to video editing, rendering favorable results in temporal consistency over state-of-the-art methods.
翻訳日:2023-12-20 12:19:02 公開日:2023-12-19
# 匿名マルチエージェントパス探索アルゴリズムの改良

Improved Anonymous Multi-Agent Path Finding Algorithm ( http://arxiv.org/abs/2312.10572v2 )

ライセンス: Link先を確認
Zain Alabedeen Ali and Konstantin Yakovlev(参考訳) 我々は、エージェントの集合がグラフに制限され、ゴール頂点の集合が与えられ、これらの頂点のそれぞれがあるエージェントによって到達されなければならない匿名のマルチエージェントパス探索(amapf)問題を考える。 問題となるのは、エージェントへの目標の割り当てと衝突のない経路を見つけることであり、我々は最適メイスパンによる解を見つけることに興味を持っている。 この問題を解決するための確立されたアプローチは、グラフ探索問題の特別なタイプ、すなわち入力されたグラフによって誘導される補助グラフ上の最大フローを見つける問題に還元することである。 前のグラフのサイズは非常に大きくなり、検索がボトルネックになる可能性がある。 そこで本研究では,検索空間を探索するアイデアを,個別の検索状態ではなく,同時にバルク化する,特定の検索アルゴリズムを提案する。 つまり、検索状態の大部分を単一の状態として暗黙的に圧縮し、保存し、拡張することで、ランタイムとメモリの大幅な削減を実現します。 実証的に、結果のAMAPFソルバは最先端の競合と比較して優れたパフォーマンスを示し、よく知られた movingAIベンチマークから利用可能なMAPFインスタンスを30秒未満で解決することができる。

We consider an Anonymous Multi-Agent Path-Finding (AMAPF) problem where the set of agents is confined to a graph, a set of goal vertices is given and each of these vertices has to be reached by some agent. The problem is to find an assignment of the goals to the agents as well as the collision-free paths, and we are interested in finding the solution with the optimal makespan. A well-established approach to solve this problem is to reduce it to a special type of a graph search problem, i.e. to the problem of finding a maximum flow on an auxiliary graph induced by the input one. The size of the former graph may be very large and the search on it may become a bottleneck. To this end, we suggest a specific search algorithm that leverages the idea of exploring the search space not through considering separate search states but rather bulks of them simultaneously. That is, we implicitly compress, store and expand bulks of the search states as single states, which results in high reduction in runtime and memory. Empirically, the resultant AMAPF solver demonstrates superior performance compared to the state-of-the-art competitor and is able to solve all publicly available MAPF instances from the well-known MovingAI benchmark in less than 30 seconds.
翻訳日:2023-12-20 12:18:39 公開日:2023-12-19
# コントラスト学習によるマルチモーダルサーカズム検出の偏り

Debiasing Multimodal Sarcasm Detection with Contrastive Learning ( http://arxiv.org/abs/2312.10493v2 )

ライセンス: Link先を確認
Mengzhao Jia, Can Xie, Liqiang Jing(参考訳) 既存の研究による賞賛に値する成果にもかかわらず、マルチモーダルサーカズム検出研究は、視覚情報よりもテキストコンテンツに依存している。 それは避けられないほど、テキストの単語とラベルの間のスプリアスな相関を誘発し、モデルの一般化能力を著しく阻害する。 この問題に対処するために,我々は,トレーニングやテストの設定で単語の分布が異なる場合に,モデルの一般化性を評価することを目的とした,out-of-distribution (ood) multimodal sarcasm detectionのタスクを定義する。 さらに, 頑健なOOD一般化のためのバイアス付きテキスト因子の有害な影響を軽減することを目的とした, コントラスト学習によるマルチモーダルサルカズム検出フレームワークを提案する。 特に,異なる単語バイアスを持つ正のサンプルと類似した単語バイアスを持つ負のサンプルを構築するために,反実データ拡張を最初に設計する。 次に,適応型デバイアス型コントラスト学習機構を考案し,頑健なタスク関連特徴を学習し,バイアス付き単語の悪影響を緩和する。 大規模な実験は提案フレームワークの優位性を示している。

Despite commendable achievements made by existing work, prevailing multimodal sarcasm detection studies rely more on textual content over visual information. It unavoidably induces spurious correlations between textual words and labels, thereby significantly hindering the models' generalization capability. To address this problem, we define the task of out-of-distribution (OOD) multimodal sarcasm detection, which aims to evaluate models' generalizability when the word distribution is different in training and testing settings. Moreover, we propose a novel debiasing multimodal sarcasm detection framework with contrastive learning, which aims to mitigate the harmful effect of biased textual factors for robust OOD generalization. In particular, we first design counterfactual data augmentation to construct the positive samples with dissimilar word biases and negative samples with similar word biases. Subsequently, we devise an adapted debiasing contrastive learning mechanism to empower the model to learn robust task-relevant features and alleviate the adverse effect of biased words. Extensive experiments show the superiority of the proposed framework.
翻訳日:2023-12-20 12:18:17 公開日:2023-12-19
# 特徴選択による指バイオメトリック認識

Finger Biometric Recognition With Feature Selection ( http://arxiv.org/abs/2312.10447v2 )

ライセンス: Link先を確認
Asish Bera, Debotosh Bhattacharjee, and Mita Nasipuri(参考訳) バイオメトリックスは、機械学習やパターン認識といった分野において、安全な自動人間認証を実現するために、現代のデジタル時代において不可欠である。 ハンドジオメトリは有望な生理的バイオメトリック特性であり、アイデンティティ検証に十分な応用領域が配置されている。 親指の複雑な解剖学的基礎と実質的な指間姿勢変化のため、親指が接触のない環境に含まれている間は満足なパフォーマンスが得られない。 親指にまつわる障害を克服するため、4つの指に基づく生体計測アプローチ(親指を除く)が考案された。 本章では,四本指による生体計測法について述べる。 繰り返しますが、重要な特徴を取り除き、特徴の次元を減少させるためには、突出した特徴の選択が不可欠です。 本質的な特徴を強調するために、特徴の識別効率に応じて重みが割り当てられる。 適応的なフォワードセレクションとフォワードエライジング(foba)アルゴリズムに基づいて、グローバル特徴選択法とローカル特徴選択法という2つの異なる戦略を採用する。 k-アネレスト近傍(wk-NN)とランダム森林(RF)分類器を用いて識別性能を評価する。 実験は,bosphorus hand databaseの300名を対象に,選択した機能サブセットを用いて行った。 98.67%の識別精度と4.6%の誤り率(EER)は、ランクベースのローカルFoBaアルゴリズムによって選択された25個の特徴のサブセットを用いて達成されている。

Biometrics is indispensable in this modern digital era for secure automated human authentication in various fields of machine learning and pattern recognition. Hand geometry is a promising physiological biometric trait with ample deployed application areas for identity verification. Due to the intricate anatomic foundation of the thumb and substantial inter-finger posture variation, satisfactory performances cannot be achieved while the thumb is included in the contact-free environment. To overcome the hindrances associated with the thumb, four finger-based (excluding the thumb) biometric approaches have been devised. In this chapter, a four-finger based biometric method has been presented. Again, selection of salient features is essential to reduce the feature dimensionality by eliminating the insignificant features. Weights are assigned according to the discriminative efficiency of the features to emphasize on the essential features. Two different strategies namely, the global and local feature selection methods are adopted based on the adaptive forward-selection and backward-elimination (FoBa) algorithm. The identification performances are evaluated using the weighted k-nearest neighbor (wk-NN) and random forest (RF) classifiers. The experiments are conducted using the selected feature subsets over the 300 subjects of the Bosphorus hand database. The best identification accuracy of 98.67%, and equal error rate (EER) of 4.6% have been achieved using the subset of 25 features which are selected by the rank-based local FoBa algorithm.
翻訳日:2023-12-20 12:17:58 公開日:2023-12-19
# 単純画像レベルの分類によるオープン語彙オブジェクト検出の改善

Simple Image-level Classification Improves Open-vocabulary Object Detection ( http://arxiv.org/abs/2312.10439v2 )

ライセンス: Link先を確認
Ruohuan Fang, Guansong Pang, Xiao Bai(参考訳) open-vocabulary object detection (ovod) は、検出モデルをトレーニングしたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。 近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。 領域レベルの知識蒸留,地域即興学習,あるいは地域テキスト事前学習により,検出語彙を拡張できる。 これらの手法は、地域視覚概念の認識において顕著な性能を示したが、画像レベルの10億のテキスト記述から学んだ、vlmsの強力なグローバルシーン理解能力の活用には弱い。 これにより、コンテキスト情報に大きく依存する新規/ベースカテゴリから、小さく、ぼやけた、あるいは隠された外観のハードオブジェクトを検出する能力を制限する。 そこで本研究では,CLIPから得られる優れたグローバル知識を活用し,現在のOVODモデルをグローバルな視点から補完するための,SIC-CADS(Simple Image-level Classification for Context-Aware Detection Scoring)を提案する。 SIC-CADSのコアはマルチモーダルマルチラベル認識(MLR)モジュールで、CLIPからオブジェクトの共起に基づくコンテキスト情報を学び、シーン内の全ての可能なオブジェクトカテゴリを認識する。 これらの画像レベルのmlrスコアは、これらのハードオブジェクトを検出する際に現在のovodモデルのインスタンスレベル検出スコアを洗練するために利用することができる。 これは、OV-LVISとOV-COCOという2つの人気のあるベンチマークの広範な実験結果によって検証され、SIC-CADSとOVODモデルを組み合わせると、顕著で一貫した改善が達成されることを示した。 さらに、SIC-CADSはObjects365とOpenImageのクロスデータセットの一般化能力も改善した。 コードはhttps://github.com/mala-lab/sic-cadsで入手できる。

Open-Vocabulary Object Detection (OVOD) aims to detect novel objects beyond a given set of base categories on which the detection model is trained. Recent OVOD methods focus on adapting the image-level pre-trained vision-language models (VLMs), such as CLIP, to a region-level object detection task via, eg., region-level knowledge distillation, regional prompt learning, or region-text pre-training, to expand the detection vocabulary. These methods have demonstrated remarkable performance in recognizing regional visual concepts, but they are weak in exploiting the VLMs' powerful global scene understanding ability learned from the billion-scale image-level text descriptions. This limits their capability in detecting hard objects of small, blurred, or occluded appearance from novel/base categories, whose detection heavily relies on contextual information. To address this, we propose a novel approach, namely Simple Image-level Classification for Context-Aware Detection Scoring (SIC-CADS), to leverage the superior global knowledge yielded from CLIP for complementing the current OVOD models from a global perspective. The core of SIC-CADS is a multi-modal multi-label recognition (MLR) module that learns the object co-occurrence-based contextual information from CLIP to recognize all possible object categories in the scene. These image-level MLR scores can then be utilized to refine the instance-level detection scores of the current OVOD models in detecting those hard objects. This is verified by extensive empirical results on two popular benchmarks, OV-LVIS and OV-COCO, which show that SIC-CADS achieves significant and consistent improvement when combined with different types of OVOD models. Further, SIC-CADS also improves the cross-dataset generalization ability on Objects365 and OpenImages. The code is available at https://github.com/mala-lab/SIC-CADS.
翻訳日:2023-12-20 12:17:33 公開日:2023-12-19
# NeRFによる顔再現のための学習線量対応

Learning Dense Correspondence for NeRF-Based Face Reenactment ( http://arxiv.org/abs/2312.10422v2 )

ライセンス: Link先を確認
Songlin Yang, Wei Wang, Yushi Lan, Xiangyu Fan, Bo Peng, Lei Yang, Jing Dong(参考訳) 様々な顔表現間の密接な対応を確立する必要があるため、顔再現は困難である。 近年の研究では、Neural Radiance Field (NeRF) を基本表現として利用し、光リアリズムと3次元整合性における多視点顔再現の性能をさらに向上させた。 なぜなら、暗黙の表現は、メッシュベースの3dパラメトリックモデル(例えば、3dmm)のような接地対応のアノテーションを欠いているからである。 3DMM空間とNeRFベースの顔表現との整合性は動き制御を実現することができるが、その限定的な顔のみのモデリングと低アイデンティティの忠実度には最適である。 そのため、我々は3次元パラメトリックモデルなしで、異なるNeRFベースの顔表現間の密接な対応を学べるか? この課題に対処するために,我々は3次元平面を基本的なnerf表現として採用し,3次元面を正準3次元平面,同一性変形,運動の3つの要素に分解する新しい枠組みを提案する。 運動制御の観点からは,学習可能な直交平面基底の線形重み付き付加に運動条件を効率的にマッピングする平面辞書(planedict)モジュールの提案が重要となる。 我々の知る限り、我々のフレームワークは3次元パラメトリックモデルなしで1ショットの多視点顔再現を実現する最初の方法である。 広範囲な実験により,従来の方法よりも微細な動き制御やアイデンティティ保存に優れた結果が得られた。

Face reenactment is challenging due to the need to establish dense correspondence between various face representations for motion transfer. Recent studies have utilized Neural Radiance Field (NeRF) as fundamental representation, which further enhanced the performance of multi-view face reenactment in photo-realism and 3D consistency. However, establishing dense correspondence between different face NeRFs is non-trivial, because implicit representations lack ground-truth correspondence annotations like mesh-based 3D parametric models (e.g., 3DMM) with index-aligned vertexes. Although aligning 3DMM space with NeRF-based face representations can realize motion control, it is sub-optimal for their limited face-only modeling and low identity fidelity. Therefore, we are inspired to ask: Can we learn the dense correspondence between different NeRF-based face representations without a 3D parametric model prior? To address this challenge, we propose a novel framework, which adopts tri-planes as fundamental NeRF representation and decomposes face tri-planes into three components: canonical tri-planes, identity deformations, and motion. In terms of motion control, our key contribution is proposing a Plane Dictionary (PlaneDict) module, which efficiently maps the motion conditions to a linear weighted addition of learnable orthogonal plane bases. To the best of our knowledge, our framework is the first method that achieves one-shot multi-view face reenactment without a 3D parametric model prior. Extensive experiments demonstrate that we produce better results in fine-grained motion control and identity preservation than previous methods.
翻訳日:2023-12-20 12:16:59 公開日:2023-12-19