このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230515となっている論文です。

PDF登録状況(公開日: 20230515)

TitleAuthorsAbstract論文公表日・翻訳日
# CHERIアロケータの選択:セキュリティとパフォーマンスに関する考察

Picking a CHERI Allocator: Security and Performance Considerations ( http://arxiv.org/abs/2303.15130v2 )

ライセンス: Link先を確認
Jacob Bramley, Dejice Jacob, Andrei Lascu, Jeremy Singer, Laurence Tratt(参考訳) いくつかのオープンソースのメモリアロケータがハードウェア機能プラットフォームであるCHERIに移植された。 本稿では,arm の実験的 morello プラットフォーム上で cheribsd 上で動作するアロケータのセキュリティと性能について検討する。 いくつかのセキュリティ攻撃を導入し、1つのアロケータを除くすべてのアロケータが、デフォルトのCheriBSDアロケータを含むいくつかの攻撃に対して脆弱であることを示す。 そして,いくつかのアロケータのパフォーマンスは有意義であるが,ハイブリッド能力と純粋能力("非チェリ動作とチェリモード動作")のパフォーマンスを比較すると,アロケータは有意ではないことが分かる。 その理由は十分には分かっていませんが、未熟なコンパイラツールチェーンのような要因によって、ハードウェアに対する能力の影響によるものであるように思います。

Several open-source memory allocators have been ported to CHERI, a hardware capability platform. In this paper we examine the security and performance of these allocators when run under CheriBSD on Arm's experimental Morello platform. We introduce a number of security attacks and show that all but one allocator are vulnerable to some of the attacks - including the default CheriBSD allocator. We then show that while some forms of allocator performance are meaningful, comparing the performance of hybrid and pure capability (i.e. 'running in non-CHERI vs. running in CHERI modes') allocators does not appear to be meaningful. Although we do not fully understand the reasons for this, it seems to be at least as much due to factors such as immature compiler toolchains as it is due to the effects of capabilities on hardware.
翻訳日:2023-10-24 12:55:29 公開日:2023-05-15
# MVP開発におけるソフトウェアエンジニアリングプラクティスの活用に関するシステムマッピング研究と実践的考察

A Systematic Mapping Study and Practitioner Insights on the Use of Software Engineering Practices to Develop MVPs ( http://arxiv.org/abs/2305.08299v1 )

ライセンス: Link先を確認
Silvio Alonso, Marcos Kalinowski, Bruna Ferreira, Simone D. J. Barbosa, Helio Lopes(参考訳) 背景] mvpの概念は、開発チームがソフトウェアエンジニアリングプラクティスを適用する方法に影響を与えています。 しかしながら、mvpがseプラクティスに与える影響に関する全体的な理解は、まだ貧弱です。 目的] 私たちの目標は,ソフトウェアmvpのコンテキストで使用されているプラクティスの出版状況の特徴と,特定されたプラクティスに関する実践的洞察の収集です。 【方法】システムマッピング研究を行い,その成果を2つのフォーカスグループで検討し,mvpを多用した12人の業界実践者を対象に,マッピング研究の成果に対する認識を捉えた。 結果]2013年から2020年の間に発行された33の論文を特定し,MVPの構想と評価プラクティスに関連する傾向を観察した。 例えば、アイデアに関しては、6つの異なるアプローチと、主に非公式なエンドユーザ関与プラクティスを見つけました。 評価に関しては、ユーザビリティテスト、A/Bテスト、利用データ分析といったプラクティスに基づいた、エンドユーザ検証が重視されている。 しかし、MVPの技術的実現可能性評価と努力見積に関する研究は、まだ限られている。 focus groupセッションの実践者たちは、イデオレーションと評価プラクティスに関する結果に対する自信を強化し、ほとんどの特定されたプラクティスを認識しました。 彼らはまた、実践における技術的実現可能性の評価と努力の推定にどう対処するかを報告した。 結論]本分析は, 技術的実現可能性評価と取り組み推定に関する文献的ギャップに対処する解法の提案と評価研究の機会があることを示唆する。 全体として、既存のmvp関連のプラクティスを実証的に評価するために、より多くの労力を投資する必要があります。

[Background] The MVP concept has influenced the way in which development teams apply Software Engineering practices. However, the overall understanding of this influence of MVPs on SE practices is still poor. [Objective] Our goal is to characterize the publication landscape on practices that have been used in the context of software MVPs and to gather practitioner insights on the identified practices. [Method] We conducted a systematic mapping study and discussed its results in two focus groups sessions involving twelve industry practitioners that extensively use MVPs in their projects to capture their perceptions on the findings of the mapping study. [Results] We identified 33 papers published between 2013 and 2020 and observed some trends related to MVP ideation and evaluation practices. For instance, regarding ideation, we found six different approaches and mainly informal end-user involvement practices. Regarding evaluation, there is an emphasis on end-user validations based on practices such as usability tests, A/B testing, and usage data analysis. However, there is still limited research related to MVP technical feasibility assessment and effort estimation. Practitioners of the focus group sessions reinforced the confidence in our results regarding ideation and evaluation practices, being aware of most of the identified practices. They also reported how they deal with the technical feasibility assessments and effort estimation in practice. [Conclusion] Our analysis suggests that there are opportunities for solution proposals and evaluation studies to address literature gaps concerning technical feasibility assessment and effort estimation. Overall, more effort needs to be invested into empirically evaluating the existing MVP-related practices.
翻訳日:2023-10-24 08:56:01 公開日:2023-05-15
# brf: ebpfランタイムファザー

BRF: eBPF Runtime Fuzzer ( http://arxiv.org/abs/2305.08782v1 )

ライセンス: Link先を確認
Hsin-Wei Hung and Ardalan Amiri Sani(参考訳) linuxカーネルのebpf技術は、それが提供するプログラム性のおかげで、ネットワーキング、トレース、セキュリティなど、さまざまなアプリケーションで広く採用されている。 ユーザが供給するeBPFプログラムをカーネルで直接実行できるようにすることで、カスタマイズされたロジックをデプロイする柔軟性と効率を大幅に向上する。 悪意のあるeBPFプログラムは、カーネル内のeBPFサブシステムの脆弱性を悪用しようとする可能性がある。 ファジィングはそのような脆弱性を見つけるための有望なテクニックだ。 残念なことに、最先端のカーネルファザであるSyzkallerによる実験では、2つの理由から、eBPFプログラムの実行を担当するコンポーネントであるeBPFランタイムを効果的にファズすることはできない。 第一に、eBPF検証器(eBPFプログラムの安全性を検証するタスク)は、(1)要求されるセマンティクスに従わないか、(2)プログラムがロードされる前に発行される必要がある他のサイスコールを欠いているため、多くのファジィング入力を拒否する。 第二に、Syzkallerはたいていの場合、eBPFプログラムのアタッチと起動に失敗した。 本稿では,検証器とeBPFサブシステムに必要なセマンティクスと依存関係を満足するファザであるBPF Runtime Fuzzer (BRF)を紹介する。 実験の結果,48時間のファジリングセッションにおいて,BRFはSyzkallerと比較して8倍のEBPFプログラムを実行可能であることがわかった。 さらに、BRFによって生成されたeBPFプログラムは、Syzkallerよりはるかに表現力が高い。 その結果、BRFは101%高いコードカバレッジを達成した。 最後に、BRFは、eBPFランタイムに4つの脆弱性(そのうちのいくつかはCVE番号に割り当てられている)を発見し、その有効性を証明した。

The eBPF technology in the Linux kernel has been widely adopted for different applications, such as networking, tracing, and security, thanks to the programmability it provides. By allowing user-supplied eBPF programs to be executed directly in the kernel, it greatly increases the flexibility and efficiency of deploying customized logic. However, eBPF also introduces a new and wide attack surface: malicious eBPF programs may try to exploit the vulnerabilities in the eBPF subsystem in the kernel. Fuzzing is a promising technique to find such vulnerabilities. Unfortunately, our experiments with the state-of-the-art kernel fuzzer, Syzkaller, shows that it cannot effectively fuzz the eBPF runtime, those components that are in charge of executing an eBPF program, for two reasons. First, the eBPF verifier (which is tasked with verifying the safety of eBPF programs) rejects many fuzzing inputs because (1) they do not comply with its required semantics or (2) they miss some dependencies, i.e., other syscalls that need to be issued before the program is loaded. Second, Syzkaller fails to attach and trigger the execution of eBPF programs most of the times. This paper introduces the BPF Runtime Fuzzer (BRF), a fuzzer that can satisfy the semantics and dependencies required by the verifier and the eBPF subsystem. Our experiments show, in 48-hour fuzzing sessions, BRF can successfully execute 8x more eBPF programs compared to Syzkaller. Moreover, eBPF programs generated by BRF are much more expressive than Syzkaller's. As a result, BRF achieves 101% higher code coverage. Finally, BRF has so far managed to find 4 vulnerabilities (some of them have been assigned CVE numbers) in the eBPF runtime, proving its effectiveness.
翻訳日:2023-10-24 08:45:39 公開日:2023-05-15
# CompSuite: Javaライブラリのデータセットの不互換性問題

CompSuite: A Dataset of Java Library Upgrade Incompatibility Issues ( http://arxiv.org/abs/2305.08671v1 )

ライセンス: Link先を確認
Xiufeng Xu, Chenguang Zhu, Yi Li(参考訳) 現代のソフトウェアシステムは、効率的な開発を確保するためにサードパーティが開発した外部ライブラリに大きく依存している。 しかし、ライブラリの頻繁なアップグレードは、ライブラリとクライアントシステム間の互換性の問題を引き起こす可能性がある。 本稿では,ライブラリのアップグレードが対応するクライアントの互換性の問題を引き起こす,現実世界のJavaクライアント-ライブラリペア123を含むデータセットであるCompSuiteを紹介する。 CompSuiteの各非互換性問題は、開発者によって書かれたテストケースに関連付けられている。 データセットは、各イシューの実行と検証を簡単にするコマンドラインインターフェースも提供する。 このインフラでは、ユーザーはボタンを押して非互換性の問題を検査したり、問題を段階的に再現してより詳細な調査を行うことができる。 我々はオープンサイエンスを促進するためにCompSuiteを一般公開する。 互換性チェックやデバッグ,回帰テスト選択など,さまざまなソフトウェア解析手法がCompSuiteのメリットを享受できると考えています。

Modern software systems heavily rely on external libraries developed by third-parties to ensure efficient development. However, frequent library upgrades can lead to compatibility issues between the libraries and their client systems. In this paper, we introduce CompSuite, a dataset that includes 123 real-world Java client-library pairs where upgrading the library causes an incompatibility issue in the corresponding client. Each incompatibility issue in CompSuite is associated with a test case authored by the developers, which can be used to reproduce the issue. The dataset also provides a command-line interface that simplifies the execution and validation of each issue. With this infrastructure, users can perform an inspection of any incompatibility issue with the push of a button, or reproduce an issue step-by-step for a more detailed investigation. We make CompSuite publicly available to promote open science. We believe that various software analysis techniques, such as compatibility checking, debugging, and regression test selection, can benefit from CompSuite.
翻訳日:2023-10-24 08:44:16 公開日:2023-05-15
# DevServOps: プロダクト指向のプロダクトサービスシステムのためのDevOps

DevServOps: DevOps For Product-Oriented Product-Service Systems ( http://arxiv.org/abs/2305.08601v1 )

ライセンス: Link先を確認
Anas Dakkak, Jan Bosch and Helena Holmstr\"om Olsson(参考訳) ウェブベースのアプリケーションを開発する企業では、DevとOpsは運用と開発の両方に焦点を当てた異なるグループを指す。 そのためDevOpsは,2つのグループ間のコラボレーションを強調することによって,ソフトウェア開発と運用活動の合理化を支援する。 しかし、ソフトウェア集約製品を製造する企業にとっては、opsは製品の使用と運用を行う顧客を指す。 さらに、ソフトウェア集約製品を製造する企業は、顧客に製品を提供するだけでなく、製品関連サービスが顧客満足度を確保する上で重要な役割を果たす製品サービスシステム(PSS)も提供する。 したがって、製品指向PSSのコンテキストはWebベースのアプリケーションとは大きく異なり、サービスの役割を考慮せずにDevOpsを適用するのは難しい。 そこで,多国間通信システムプロバイダが実施した2年間の参加者事例調査に基づいて,サービスとエンド・ツー・エンドのソフトウェアフローの一方の方向と他方の方向への開発者へのフィードバックを促進するキープレーヤーとしてサービスを統合する,DevServOps(Development-Services-Operations)という,新たなアプローチを提案する。 サービスは、開発組織と外部サービスの精度を高め、デプロイのスピードを高め、顧客側で新たなコンテンツ採用を行うことによって、内部サービスを提供することによって、開発と運用をつなぐ接着剤となる。

For companies developing web-based applications, the Dev and the Ops refer to different groups with either operational or development focus. Therefore, DevOps help these companies streamline software development and operations activities by emphasizing the collaboration between the two groups. However, for companies producing software-intensive products, the Ops would refer to customers who use and operate the product. In addition, companies producing software-intensive products do not only offer products to customers but rather Product Service Systems (PSS), where product-related services play a key role in ensuring customer satisfaction besides their significant revenue contribution. Thus, the context of product-oriented PSS is very different from web-based applications, making it difficult to apply DevOps without considering the role of the services. Therefore, based on a two years participant observation case study conducted at a multinational telecommunications systems provider, we propose a new and novel approach called Development-Services-Operations (DevServOps) which incorporates services as a key player facilitating an end-to-end software flow toward customers in one direction and feedback toward developers in the other direction. Services become the glue that connects the Dev and the Ops, achieved by providing internal services to increase the precision of the development organization and external services to increase the speed of deployment and new content adoption on the customers' side.
翻訳日:2023-10-24 08:43:57 公開日:2023-05-15
# RDFのサーフェス:コンピューターはノー

RDF Surfaces: Computer Says No ( http://arxiv.org/abs/2305.08476v1 )

ライセンス: Link先を確認
Patrick Hochstenbach, Jos De Roo, Ruben Verborgh(参考訳) Logicは、リソースへのアクセスをエージェントが提供または拒否する方法、マイニングプロセスを使ってリソースをインターリンクする方法、ワークフローにおける次のステップの選択肢をユーザに提供できる。 これらの決定は、ほとんどの場合、機械の内部処理データに隠されている。 この内部ロジックを交換するためには、Semantic Webが提供するポータブルなWebロジックが必要である。 論理とデータの組み合わせは推論プロセスに対する洞察を与え、セマンティックwebに対する新たなレベルの信頼を生み出す。 現在のwebロジックは一階述語論理(fol)の断片しか持たず、交換言語が決定可能あるいは容易に処理可能である。 しかし、これはコストがかかる。論理の可搬性だ。 マシンはロジックのどのフラグメントが交換されているかを知るために暗黙の合意を必要とし、異なるフラグメントに対処するための戦略を必要とする。 これらの選択は、推論プロセスに関する洞察を曖昧にする可能性がある。 我々はFOLの完全な表現性を表現するためにRDF曲面を作成した。 このビジョンペーパーは基本的な原則を提供し、既存の作業と比較する。 FOLのサポートは半決定可能であるが、これらの問題は克服可能であると我々は主張する。 RDF Surfaceは、情報の誤用の説明、推論への説明可能性と信頼の追加、データやクエリのストリームに対する推論のスコープの提供など、多くのユースケースにまたがっている。 RDF SurfacesはSemantic Web向けのFOLの直接翻訳を提供する。 このビジョンペーパーが新しい実装者を惹きつけ、正式な仕様に議論を開くことを願っている。

Logic can define how agents are provided or denied access to resources, how to interlink resources using mining processes and provide users with choices for possible next steps in a workflow. These decisions are for the most part hidden, internal to machines processing data. In order to exchange this internal logic a portable Web logic is required which the Semantic Web could provide. Combining logic and data provides insights into the reasoning process and creates a new level of trust on the Semantic Web. Current Web logics carries only a fragment of first-order logic (FOL) to keep exchange languages decidable or easily processable. But, this is at a cost: the portability of logic. Machines require implicit agreements to know which fragment of logic is being exchanged and need a strategy for how to cope with the different fragments. These choices could obscure insights into the reasoning process. We created RDF Surfaces in order to express the full expressivity of FOL including saying explicitly `no'. This vision paper provides basic principles and compares existing work. Even though support for FOL is semi-decidable, we argue these problems are surmountable. RDF Surfaces span many use cases, including describing misuse of information, adding explainability and trust to reasoning, and providing scope for reasoning over streams of data and queries. RDF Surfaces provide the direct translation of FOL for the Semantic Web. We hope this vision paper attracts new implementers and opens the discussion to its formal specification.
翻訳日:2023-10-24 08:42:42 公開日:2023-05-15
# DAppSCAN: DAppプロジェクトにおけるスマートコントラクト弱さのための大規模データセットの構築

DAppSCAN: Building Large-Scale Datasets for Smart Contract Weaknesses in DApp Projects ( http://arxiv.org/abs/2305.08456v1 )

ライセンス: Link先を確認
Zibin Zheng, Jianzhong Su, Jiachi Chen, David Lo, Zhijie Zhong and Mingxi Ye(参考訳) smart contract weakness classification registry(swcレジストリ)は、ethereumプラットフォーム特有のスマートコントラクトの弱点のリストとして広く認識されている。 近年、SWCの弱点を検出するツールの開発に多大な研究努力が注がれている。 しかし、これらのツールの評価は、大きな偏りのない現実世界のデータセットがないため、困難であることが証明されている。 この問題に対処するため、22人の参加者を募集し、30のセキュリティチームから1322人のオープンソース監査レポートを分析した。 全体として10,016の弱点を特定し,DAppSCAN-SourceとDAppSCAN-Bytecodeという2つの異なるデータセットを開発した。 DAppSCAN-Sourceデータセットは25,077のSolidityファイルで構成される。 このデータセットのsolidityファイルは直接コンパイルできないかもしれない。 データセットをコンパイル可能にするために,dapp内の依存関係関係を自動的に識別し,不足している公開ライブラリを補完するツールを開発した。 このツールを利用することで、8,167個のコンパイルされたスマートコントラクトバイトコードと895個のSWC弱点からなるDAPPSCAN-Bytecodeデータセットを作成しました。 第2のデータセットに基づいて、5つの最先端スマートコントラクト脆弱性検出ツールの性能評価実験を行った。 評価の結果,これらのツールの性能は,有効性と成功検出率の両方において劣等であり,汎用的な玩具契約よりも実世界のデータセットを優先すべきであることが示唆された。

The Smart Contract Weakness Classification Registry (SWC Registry) is a widely recognized list of smart contract weaknesses specific to the Ethereum platform. In recent years, significant research efforts have been dedicated to building tools to detect SWC weaknesses. However, evaluating these tools has proven challenging due to the absence of a large, unbiased, real-world dataset. To address this issue, we recruited 22 participants and spent 44 person-months analyzing 1,322 open-source audit reports from 30 security teams. In total, we identified 10,016 weaknesses and developed two distinct datasets, i.e., DAppSCAN-Source and DAppSCAN-Bytecode. The DAppSCAN-Source dataset comprises 25,077 Solidity files, featuring 1,689 SWC vulnerabilities sourced from 1,139 real-world DApp projects. The Solidity files in this dataset may not be directly compilable. To enable the dataset to be compilable, we developed a tool capable of automatically identifying dependency relationships within DApps and completing missing public libraries. By utilizing this tool, we created our DAPPSCAN-Bytecode dataset, which consists of 8,167 compiled smart contract bytecode with 895 SWC weaknesses. Based on the second dataset, we conducted an empirical study to assess the performance of five state-of-the-art smart contract vulnerability detection tools. The evaluation results revealed subpar performance for these tools in terms of both effectiveness and success detection rate, indicating that future development should prioritize real-world datasets over simplistic toy contracts.
翻訳日:2023-10-24 08:42:20 公開日:2023-05-15
# コード生成のためのChatGPTプロンプトの改善

Improving ChatGPT Prompt for Code Generation ( http://arxiv.org/abs/2305.08360v1 )

ライセンス: Link先を確認
Chao Liu, Xuanlin Bao, Hongyu Zhang, Neng Zhang, Haibo Hu, Xiaohong Zhang, Meng Yan(参考訳) 自動コード生成はソフトウェア開発の強力なテクニックであり、要求に基づいて自動生成することで、開発者が新しいコードを作成するのに必要な時間と労力を大幅に削減する。 最近、OpenAIの言語モデルChatGPTは、コード生成に関連するものを含む幅広いテキスト入力(即ちプロンプト)に対するヒューマンライクな応答を生成する強力なツールとして登場した。 しかし、コード生成におけるchatgptの有効性はよく分かっておらず、生成性能はプロンプトの選択に大きく影響される可能性がある。 これらの質問に答えるために、私たちはCodeXGlueデータセットを用いて、2つのコード生成タスクにおけるChatGPTの機能を評価する実験を行った。 マルチステップ最適化によるチェーン・オブ・シント戦略を活用することで,プロンプトを設計した。 その結果,ChatGPTをガイドするプロンプトを慎重に設計することで,生成性能を大幅に向上できることがわかった。 また,迅速な設計に影響を与える要因を分析し,今後の研究の指針となる洞察を提供した。

Automated code generation can be a powerful technique for software development, significantly reducing developers' efforts and time required to create new code by generating it automatically based on requirements. Recently, OpenAI's language model ChatGPT has emerged as a powerful tool for generating human-like responses to a wide range of textual inputs (i.e., prompts), including those related to code generation. However, the effectiveness of ChatGPT for code generation is not well understood, and the generation performance could be heavily influenced by the choice of prompt. To answer these questions, we conducted experiments using the CodeXGlue dataset to evaluate ChatGPT's capabilities for two code generation tasks, including text-to-code and code-to-code generation. We designed prompts by leveraging the chain-of-thought strategy with multi-step optimizations. Our results showed that by carefully designing prompts to guide ChatGPT, the generation performance can be improved substantially. We also analyzed the factors that influenced the prompt design and provided insights that could guide future research.
翻訳日:2023-10-24 08:41:54 公開日:2023-05-15
# 教育ソフトウェアにおけるゲーミフィケーションの負の効果:システムマッピングと実践者知覚

Negative Effects of Gamification in Education Software: Systematic Mapping and Practitioner Perceptions ( http://arxiv.org/abs/2305.08346v1 )

ライセンス: Link先を確認
Clauvin Almeida, Marcos Kalinowski, Anderson Uchoa, Bruno Feijo(参考訳) 文脈:ほとんどの研究はゲーミフィケーションのポジティブな効果を示しているが、その悪影響に対する焦点はかなり小さく、さらに理解する必要がある。 目的:ゲームデザイン要素のネガティブな影響を報告した研究の概要を包括的に提供し、これらの効果に対する開発者の認識と実際に考慮すべき方法に関する洞察を提供する。 方法:ゲームデザイン要素が教育・学習システムに与える影響について体系的マッピングを行った。 我々はまた、ゲーミフィケーションされたソフトウェアの開発者と焦点グループで議論を行い、実際に報告されたネガティブな影響に対する認識と認識に関してマッピング結果について議論した。 結果: マッピング研究により,ゲームデザイン要素の望ましくない影響を報告した87の論文が明らかになった。 バッジ、リーダーボード、コンペティション、ポイントがゲームデザインの要素として最も多く報告され、ネガティブな効果が引き起こされていることが分かりました。 最も引用されるネガティブな影響は、効果の欠如、パフォーマンスの悪化、モチベーションの問題、理解の欠如、無関係であった。 システムのゲームと不正行為の倫理的問題もしばしば報告された。 私たちの結果の一部として、ゲームデザイン要素と、ゲームが引き起こす悪影響の関係をマップします。 フォーカスグループは、開発者は潜在的なネガティブな影響の多くを認識しておらず、この種の情報は有用だと考えていることを明らかにした。 この議論は、これらの潜在的な負の効果と、いくつかの肯定的な効果に関する彼らの合意を明らかにした。 結論: ゲーミフィケーションが適切に適用されると、教育/学習ソフトウェアにポジティブな影響を与える可能性がある。 しかし、ゲーム化されたソフトウェアは有害な効果を生じやすい。 潜在的にネガティブな影響を探求し議論することは、期待される利益に関してトレードオフを考慮してより情報的な決定を下すのに役立ちます。

Context: While most research shows positive effects of gamification, the focus on its adverse effects is considerably smaller and further understanding is needed. Objective: To provide a comprehensive overview on research reporting negative effects of game design elements and to provide insights into the awareness of developers on these effects and into how they could be considered in practice. Method: We conducted a systematic mapping study of the negative effects of game design elements on education/learning systems. We also held a focus group discussion with developers of a gamified software, discussing the mapping study results with regard to their awareness and perceptions on the reported negative effects in practice. Results: The mapping study revealed 87 papers reporting undesired effects of game design elements. We found that badges, leaderboards, competitions, and points are the game design elements most often reported as causing negative effects. The most cited negative effects were lack of effect, worsened performance, motivational issues, lack of understanding, and irrelevance. The ethical issues of gaming the system and cheating were also often reported. As part of our results, we map the relations between game design elements and the negative effects that they may cause. The focus group revealed that developers were not aware of many of the possible negative effects and that they consider this type of information useful. The discussion revealed their agreement on some of those potential negative effects and also some positive counterparts. Conclusions: Gamification, when properly applied, can have positive effects on education/learning software. However, gamified software is also prone to generate harmful effects. Revealing and discussing potentially negative effects can help to make more informed decisions considering their trade-off with respect to the expected benefits.
翻訳日:2023-10-24 08:41:36 公開日:2023-05-15
# 減速、移動:自動運転車の責任感性安全モデルの形式的検証、洗練、およびテストにおけるケーススタディ

Slow Down, Move Over: A Case Study in Formal Verification, Refinement, and Testing of the Responsibility-Sensitive Safety Model for Self-Driving Cars ( http://arxiv.org/abs/2305.08812v1 )

ライセンス: Link先を確認
Megan Strauss and Stefan Mitsch(参考訳) テクノロジーの進歩は、人間のミスなしに運転し、車の排出を減らし、自動運転車の未来で日々のタスクを単純化する希望を与えてくれる。 これらの車両が安全であることを保証することは、この分野の継続にとって非常に重要である。 本稿では,自動運転車の責任感性安全モデル(rss)を定式化し,このモデルの長手方向の安全性と最適性を証明する。 我々は、ハイブリッドシステム定理証明器KeYmaera Xを用いて、RSSを非決定論的制御選択と連続運動モデルを備えたハイブリッドシステムとして形式化し、衝突の欠如を証明する。 検証済みの非決定論的制御エンベロープを決定論的なものに変換し、さらに検証済みのコンパイルをpythonに変換する、精巧な証明を通じてrssの実用性を説明する。 結果として、形式的なモデル転送の安全性証明がコンパイルされたコードに、検証されていないモデル転送のコードのテストで発見された逆例が見つかった。 結果として得られたpythonコードは、シミュレーションにおけるrssの運動モデルに従う車の挙動をテストし、形式モデルから派生したモニターでモデルとシミュレーションの一致を計測し、シミュレーションから形式モデルへの反例を報告できる。

Technology advances give us the hope of driving without human error, reducing vehicle emissions and simplifying an everyday task with the future of self-driving cars. Making sure these vehicles are safe is very important to the continuation of this field. In this paper, we formalize the Responsibility-Sensitive Safety model (RSS) for self-driving cars and prove the safety and optimality of this model in the longitudinal direction. We utilize the hybrid systems theorem prover KeYmaera X to formalize RSS as a hybrid system with its nondeterministic control choices and continuous motion model, and prove absence of collisions. We then illustrate the practicality of RSS through refinement proofs that turn the verified nondeterministic control envelopes into deterministic ones and further verified compilation to Python. The refinement and compilation are safety-preserving; as a result, safety proofs of the formal model transfer to the compiled code, while counterexamples discovered in testing the code of an unverified model transfer back. The resulting Python code allows to test the behavior of cars following the motion model of RSS in simulation, to measure agreement between the model and simulation with monitors that are derived from the formal model, and to report counterexamples from simulation back to the formal model.
翻訳日:2023-10-24 08:32:29 公開日:2023-05-15
# ニューラルネットワークを用いた悪性黒色腫のリスク階層化

Risk stratification of malignant melanoma using neural networks ( http://arxiv.org/abs/2306.06195v1 )

ライセンス: Link先を確認
Julian Burghoff, Leonhard Ackermann, Younes Salahdine, Veronika Bram, Katharina Wunderlich, Julius Balkenhol, Thomas Dirschka and Hanno Gottschalk(参考訳) 本稿では,悪性黒色腫の検出と分類を改善するため,臨床情報なしで最大0.78のauroc値を達成するための画像ベース手法を提案する。 さらに、使用する高解像度スキャナなどのハードウェアコンポーネントに依存しないユーザビリティを実現することが重要であるため、2つの異なる画像ソース間のドメインギャップの重要性も考慮されている。 機械学習手法の適用においては,輝度,コントラスト,シャープネスなどのスキャナ特性の変化が予測手法の品質に強い(負の)影響をもたらす可能性があるため,この領域間隙を克服する2つの方法が議論されている。

In order to improve the detection and classification of malignant melanoma, this paper describes an image-based method that can achieve AUROC values of up to 0.78 without additional clinical information. Furthermore, the importance of the domain gap between two different image sources is considered, as it is important to create usability independent of hardware components such as the high-resolution scanner used. Since for the application of machine learning methods, alterations of scanner-specific properties such as brightness, contrast or sharpness can have strong (negative) effects on the quality of the prediction methods, two ways to overcome this domain gap are discussed in this paper.
翻訳日:2023-06-18 12:39:52 公開日:2023-05-15
# 量子ニューラルネットワークによるバイオマーカー発見:CTLA4活性化経路のケーススタディ

Biomarker Discovery with Quantum Neural Networks: A Case-study in CTLA4-Activation Pathways ( http://arxiv.org/abs/2306.01745v1 )

ライセンス: Link先を確認
Nam Nguyen(参考訳) バイオマーカーの発見は、膨大な検索スペースのために難しい課題だ。 量子コンピューティングと量子人工知能(量子AI)は、バイオマーカー発見タスクの計算問題に対処するために用いられる。 入力活性化経路のバイオマーカーを発見するために,量子ニューラルネットワーク(QNN)アーキテクチャを提案する。 バイオマーカー候補集合の最大関連性, 最小冗長性 (mRMR) 基準を用いる。 提案モデルは,制約されたハードウェア上でニューラルネットワークを配信できるため,経済性が高い。 我々は, (1) CTLA4-activation stand-alone, (2) CTLA4-CD8A-CD8B co-activation, (3) CTLA4-CD2 co-activation, (4) CTLA4-CD2-CD48-CD58-CD84 co-activationを含む, CTLA4の4つの活性化経路に関する概念実証を行った。 CLIC4, CPE, ETS2, FAM107A, GPR116, HYOU1, LCN2, MACF1, MT1G, NAPA, NDUFS5, PAK1, PFN1, PGAP3, PPM1G, PSMD8, RNF213, SLC25A3, UBA1, WLSを含むCLTA4関連経路の突然変異活性化に関与する新規なバイオマーカーを示す。 https://github.com/namnguyen0510/Biomarker-Discovery-with-Quantum-Neural-Networks。

Biomarker discovery is a challenging task due to the massive search space. Quantum computing and quantum Artificial Intelligence (quantum AI) can be used to address the computational problem of biomarker discovery tasks. We propose a Quantum Neural Networks (QNNs) architecture to discover biomarkers for input activation pathways. The Maximum Relevance, Minimum Redundancy (mRMR) criteria is used to score biomarker candidate sets. Our proposed model is economical since the neural solution can be delivered on constrained hardware. We demonstrate the proof of concept on four activation pathways associated with CTLA4, including (1) CTLA4-activation stand-alone, (2) CTLA4-CD8A-CD8B co-activation, (3) CTLA4-CD2 co-activation, and (4) CTLA4-CD2-CD48-CD53-CD58-CD84 co-activation. The model indicates new biomarkers associated with the mutational activation of CLTA4-associated pathways, including 20 genes: CLIC4, CPE, ETS2, FAM107A, GPR116, HYOU1, LCN2, MACF1, MT1G, NAPA, NDUFS5, PAK1, PFN1, PGAP3, PPM1G, PSMD8, RNF213, SLC25A3, UBA1, and WLS. We open source the implementation at: https://github.com/namnguyen0510/Biomarker-Discovery-with-Quantum-Neural-Networks.
翻訳日:2023-06-11 14:05:45 公開日:2023-05-15
# llmsと潜在拡散モデルを用いたインタラクティブファッションコンテンツ生成

Interactive Fashion Content Generation Using LLMs and Latent Diffusion Models ( http://arxiv.org/abs/2306.05182v1 )

ライセンス: Link先を確認
Krishna Sri Ipsit Mantri and Nevasini Sasikumar(参考訳) Fashionable Image Generationは、世界中の多様なファッションのイメージを合成することを目的としており、ファッションデザイナーが、特定のデザインの好みが実際にどのように見えるか、そして顧客満足度を高めるためにさらに改善されるかについて、基本的なカスタマイズされた構造を提供することによって、リアルタイム可視化を支援する。 さらに、ユーザーは簡単なプロンプトをするだけで、一人でファッショナブルな画像を作成できる。 近年,ガウス雑音の可視性や現実的な画像の生成により,拡散モデルが生成モデルとして人気を博している。 潜時拡散モデルは、拡散過程を用いて画像、音声、テキストなどの複雑なデータの生成をモデル化する生成モデルの一種である。 これらは、その基盤となる構造をキャプチャするデータの隠れた表現、あるいは潜在変数を学ぶため、"latent"と呼ばれる。 本稿では,拡散モデルとエネルギーベースモデル(EBM)の等価性を利用して,複数の確率分布を構成する方法を提案する。 LLM誘導のテキスト・ツー・イメージ・ジェネレーションを用いて,新しいファッショナブルな衣装生成と仮想試行のために,我々の手法をどのように利用できるかを示す。 本研究は,llmを用いて潜在拡散モデルへのプロンプトを洗練することにより,グローバルに創造的かつ文化的に多様化したファッションスタイルを創造し,バイアスを低減できることを示す。

Fashionable image generation aims to synthesize images of diverse fashion prevalent around the globe, helping fashion designers in real-time visualization by giving them a basic customized structure of how a specific design preference would look in real life and what further improvements can be made for enhanced customer satisfaction. Moreover, users can alone interact and generate fashionable images by just giving a few simple prompts. Recently, diffusion models have gained popularity as generative models owing to their flexibility and generation of realistic images from Gaussian noise. Latent diffusion models are a type of generative model that use diffusion processes to model the generation of complex data, such as images, audio, or text. They are called "latent" because they learn a hidden representation, or latent variable, of the data that captures its underlying structure. We propose a method exploiting the equivalence between diffusion models and energy-based models (EBMs) and suggesting ways to compose multiple probability distributions. We describe a pipeline on how our method can be used specifically for new fashionable outfit generation and virtual try-on using LLM-guided text-to-image generation. Our results indicate that using an LLM to refine the prompts to the latent diffusion model assists in generating globally creative and culturally diversified fashion styles and reducing bias.
翻訳日:2023-06-11 13:28:26 公開日:2023-05-15
# 視覚的接地言語モデルにおける意味構成

Semantic Composition in Visually Grounded Language Models ( http://arxiv.org/abs/2305.16328v1 )

ライセンス: Link先を確認
Rohan Pandey(参考訳) 文の意味とその理想表現とは何か? 人間言語の表現力の多くは、意味的構成、すなわち意味を階層的かつ関係的に表現する能力に由来する。 同時に、多くの感性的な意味はテキストの外にあり、適切に学習するには知覚、運動、経験的モダリティの接地が必要である。 大規模な言語モデルはかなりの構成能力を示すが、近年の研究では、視覚的に接地された言語モデルは構成構造を劇的に表現できないことが示されている。 本論文では,モデルが視覚的に接地したセマンティクスをどのように構成するか,どのようにしてそれらの能力を向上させるのかを考察する。 具体的には 1)新しい構成的視覚的質問応答ベンチマークであるwinogroundvqa 2)文埋め込みモデルにおける合成能力の尺度である構文的神経モジュール蒸留 3)視覚言語構成に不可欠な神経表現を見つけるための画像キャプションモデルの因果的追跡 4)合成的帰納的バイアスを文埋め込みに注入する構文的平均プール、及び 5)視覚言語関係アライメントのための自己教師付き客観的関数であるクロスモーダル注意規則化。 我々は、研究の神経科学、精神言語学、形式的意味論、哲学との関係について論じる。

What is sentence meaning and its ideal representation? Much of the expressive power of human language derives from semantic composition, the mind's ability to represent meaning hierarchically & relationally over constituents. At the same time, much sentential meaning is outside the text and requires grounding in sensory, motor, and experiential modalities to be adequately learned. Although large language models display considerable compositional ability, recent work shows that visually-grounded language models drastically fail to represent compositional structure. In this thesis, we explore whether & how models compose visually grounded semantics, and how we might improve their ability to do so. Specifically, we introduce 1) WinogroundVQA, a new compositional visual question answering benchmark, 2) Syntactic Neural Module Distillation, a measure of compositional ability in sentence embedding models, 3) Causal Tracing for Image Captioning Models to locate neural representations vital for vision-language composition, 4) Syntactic MeanPool to inject a compositional inductive bias into sentence embeddings, and 5) Cross-modal Attention Congruence Regularization, a self-supervised objective function for vision-language relation alignment. We close by discussing connections of our work to neuroscience, psycholinguistics, formal semantics, and philosophy.
翻訳日:2023-06-04 12:06:48 公開日:2023-05-15
# インテリジェント車両システムにおける生成型人工知能の統合

Integrating Generative Artificial Intelligence in Intelligent Vehicle Systems ( http://arxiv.org/abs/2305.17137v1 )

ライセンス: Link先を確認
Lukas Stappen, Jeremy Dillmann, Serena Striegel, Hans-J\"org V\"ogel, Nicolas Flores-Herr, Bj\"orn W. Schuller(参考訳) 本稿では,研究者や実践者のための総合的なガイドとして機能し,インテリジェントな自動車の文脈における生成型人工知能と基礎モデルの現状,応用可能性,今後の研究方向性について考察することを目的とする。 自動車産業がAIを徐々に統合するにつれ、生成的人工知能技術はユーザーインタラクションに革命をもたらす可能性を持ち、より没入的で直感的でパーソナライズされた車内体験を提供する。 本稿では,自動車分野における生成型人工知能の応用について概観し,音声,音声,視覚,マルチモーダルインタラクションを強調する。 その後、我々は、ドメイン適応性、アライメント、マルチモーダル統合などを含む重要な将来の研究分野について概説し、倫理に関する課題とリスクに対処する。 コラボレーションを育み、これらの研究領域に取り組むことによって、ジェネレイティブ・人工知能は、その全可能性を解き放ち、運転体験を変革し、インテリジェントな自動車の未来を形作ることができる。

This paper aims to serve as a comprehensive guide for researchers and practitioners, offering insights into the current state, potential applications, and future research directions for generative artificial intelligence and foundation models within the context of intelligent vehicles. As the automotive industry progressively integrates AI, generative artificial intelligence technologies hold the potential to revolutionize user interactions, delivering more immersive, intuitive, and personalised in-car experiences. We provide an overview of current applications of generative artificial intelligence in the automotive domain, emphasizing speech, audio, vision, and multimodal interactions. We subsequently outline critical future research areas, including domain adaptability, alignment, multimodal integration and others, as well as, address the challenges and risks associated with ethics. By fostering collaboration and addressing these research areas, generative artificial intelligence can unlock its full potential, transforming the driving experience and shaping the future of intelligent vehicles.
翻訳日:2023-06-04 12:00:29 公開日:2023-05-15
# 信頼できるAIのための認定ラベル:実証的な混合手法の研究から

Certification Labels for Trustworthy AI: Insights From an Empirical Mixed-Method Study ( http://arxiv.org/abs/2305.18307v1 )

ライセンス: Link先を確認
Nicolas Scharowski, Michaela Benk, Swen J. K\"uhne, L\'eane Wettstein, Florian Br\"uhlmann(参考訳) 監査は信頼できるAIの開発において重要な役割を果たす。 しかし、現在の研究は主に監査可能なAIドキュメントの作成に焦点を当てている。 AIが監査され、信頼できると見なされていることを、一般の人々とコミュニケーションする方法は、依然としてオープンな課題である。 本研究は,認定ラベルを有望なソリューションとして実証的に検討した。 調査 (N = 12) と国勢調査表現調査 (N = 302) を通じて, 認証ラベルに対するエンドユーザの態度と, リスクの高いAIシナリオにおける信頼性のコミュニケーションにおける有効性を検討した。 調査の結果から,ラベルはエンドユーザの信頼度を著しく向上させるとともに,ローテイクシナリオとハイテイクシナリオの両方でAIを使用する意思を向上することを示した。 しかし、認証ラベルに対するエンドユーザの好みと、AIの使用に対する信頼と意欲に対する影響は、高い評価のシナリオではより顕著であった。 インタビューの質的内容分析により、認定ラベルの機会と限界、AIの文脈でラベルを効果的に活用するためのファシリテーターやインヒビターが明らかになった。 例えば、認証ラベルはエンドユーザが表現するデータ関連の懸念(プライバシやデータ保護など)を軽減することができるが、他の懸念(モデルパフォーマンスなど)は対処が難しい。 我々の研究は、信頼できるAIエコシステムの中で有望な構成要素として認定ラベルを設計、実装するための貴重な洞察とレコメンデーションを提供します。

Auditing plays a pivotal role in the development of trustworthy AI. However, current research primarily focuses on creating auditable AI documentation, which is intended for regulators and experts rather than end-users affected by AI decisions. How to communicate to members of the public that an AI has been audited and considered trustworthy remains an open challenge. This study empirically investigated certification labels as a promising solution. Through interviews (N = 12) and a census-representative survey (N = 302), we investigated end-users' attitudes toward certification labels and their effectiveness in communicating trustworthiness in low- and high-stakes AI scenarios. Based on the survey results, we demonstrate that labels can significantly increase end-users' trust and willingness to use AI in both low- and high-stakes scenarios. However, end-users' preferences for certification labels and their effect on trust and willingness to use AI were more pronounced in high-stake scenarios. Qualitative content analysis of the interviews revealed opportunities and limitations of certification labels, as well as facilitators and inhibitors for the effective use of labels in the context of AI. For example, while certification labels can mitigate data-related concerns expressed by end-users (e.g., privacy and data protection), other concerns (e.g., model performance) are more challenging to address. Our study provides valuable insights and recommendations for designing and implementing certification labels as a promising constituent within the trustworthy AI ecosystem.
翻訳日:2023-06-04 11:40:31 公開日:2023-05-15
# NeuSTIP: 時間的知識グラフにおけるリンクと時間予測のための新しいニューロシンボリックモデル

NeuSTIP: A Novel Neuro-Symbolic Model for Link and Time Prediction in Temporal Knowledge Graphs ( http://arxiv.org/abs/2305.11301v1 )

ライセンス: Link先を確認
Ishaan Singh and Navdeep Kaur and Garima Gaur and Mausam(参考訳) 静的事実に関する知識グラフ補完(KGC)は成熟した分野であるが、静的事実に有効時間を組み込んだ時間グラフ補完(TKGC)はまだ初期段階にある。 KGCメソッドは、埋め込みベース、ルールベース、GNNベース、事前訓練言語モデルベースアプローチなど、複数のカテゴリに分類される。 しかし、そのような次元はtkgでは研究されていない。 そこで我々は,TKGにおけるリンク予測と時間間隔予測を行う新しい時間的ニューロシンボリックモデルNeuSTIPを提案する。 NeuSTIPは、アレン述語の存在下で時間的規則を学習し、ある規則における隣接する述語間の時間的一貫性を保証する。 さらに、学習したルールを利用してリンク予測と時間間隔予測を行いながら、候補回答の信頼度を評価するユニークなスコアリング関数をデザインする。 2つの時間間隔に基づくTKGCデータセットに対する実験的な評価は、リンク予測と時間間隔予測の両方において、我々のモデルが最先端のモデルより優れていることを示唆している。

While Knowledge Graph Completion (KGC) on static facts is a matured field, Temporal Knowledge Graph Completion (TKGC), that incorporates validity time into static facts is still in its nascent stage. The KGC methods fall into multiple categories including embedding-based, rule-based, GNN-based, pretrained Language Model based approaches. However, such dimensions have not been explored in TKG. To that end, we propose a novel temporal neuro-symbolic model, NeuSTIP, that performs link prediction and time interval prediction in a TKG. NeuSTIP learns temporal rules in the presence of the Allen predicates that ensure the temporal consistency between neighboring predicates in a given rule. We further design a unique scoring function that evaluates the confidence of the candidate answers while performing link prediction and time interval prediction by utilizing the learned rules. Our empirical evaluation on two time interval based TKGC datasets suggests that our model outperforms state-of-the-art models for both link prediction and the time interval prediction task.
翻訳日:2023-05-28 05:37:21 公開日:2023-05-15
# チャットGPTと労働市場:AI討論が学生の期待に与える影響を解明する

ChatGPT and the Labor Market: Unraveling the Effect of AI Discussions on Students' Earnings Expectations ( http://arxiv.org/abs/2305.11900v1 )

ライセンス: Link先を確認
Samir Huseynov(参考訳) 本稿では,アメリカの学生が期待する労働市場の結果に対する,否定的かつ肯定的なChatGPT人工知能(AI)の議論の因果的影響について検討する。 以上の結果から,AIの議論に曝露した学生の今後の収益見通しに対する信頼感は低下し,この効果は,否定的なトーンで議論の抜粋を読んだ後により顕著になることがわかった。 STEM専攻と異なり、非STEM専攻の学生は非対称で悲観的な信念の変化を示し、新興AI技術に弱いと感じている。 将来の収益に関する悲観的な信念の更新もジェンダーとGPAレベルにまたがっており、すべての学生サブグループにAIの懸念が広がっていることを示している。 教育者、管理者、政策立案者は学生と定期的に関わり、彼らの懸念に対処し、AIによって必然的に形作られる未来に備えるために教育カリキュラムを強化することができる。

This paper investigates the causal impact of negatively and positively framed ChatGPT Artificial Intelligence (AI) discussions on US students' anticipated labor market outcomes. Our findings reveal students reduce their confidence regarding their future earnings prospects after exposure to AI debates, and this effect is more pronounced after reading discussion excerpts with a negative tone. Unlike STEM majors, students in Non-STEM fields show asymmetric and pessimistic belief changes, suggesting that they might feel more vulnerable to emerging AI technologies. Pessimistic belief updates regarding future earnings are also prevalent across gender and GPA levels, indicating widespread AI concerns among all student subgroups. Educators, administrators, and policymakers may regularly engage with students to address their concerns and enhance educational curricula to better prepare them for a future that will be inevitably shaped by AI.
翻訳日:2023-05-28 05:18:49 公開日:2023-05-15
# 効率的なスパイクベース画像復調のためのニューラル情報符号化

Neural information coding for efficient spike-based image denoising ( http://arxiv.org/abs/2305.11898v1 )

ライセンス: Link先を確認
Andrea Castagnetti, Alain Pegatoquet, Beno\^it Miramond(参考訳) 近年,Deep Convolutional Neural Networks (DCNN) は,画像復元作業における古典的アルゴリズムの性能を上回っている。 しかし、これらの手法の多くは計算効率には適していないため、組み込みデバイスやモバイルデバイスで実行するには高価すぎる。 本研究では,従来のdcnnの性能に接近しながら計算負荷を低減し,ガウス音化のためのスパイキングニューラルネットワーク(snn)について検討する。 本稿では,Leaky Integrate and Fire(LIF)ニューロンによる情報変換処理の形式的解析を行い,その性能を古典的なレート符号化機構と比較する。 ニューラルコーディングスキームは、最先端の深層畳み込みニューラルネットワークの性能と計算効率を劣化させる実験によって評価される。 その結果, LIFニューロンを用いたSNNは, 計算コストを抑えつつ, 競争性能を向上できることがわかった。

In recent years, Deep Convolutional Neural Networks (DCNNs) have outreached the performance of classical algorithms for image restoration tasks. However most of these methods are not suited for computational efficiency and are therefore too expensive to be executed on embedded and mobile devices. In this work we investigate Spiking Neural Networks (SNNs) for Gaussian denoising, with the goal of approaching the performance of conventional DCNN while reducing the computational load. We propose a formal analysis of the information conversion processing carried out by the Leaky Integrate and Fire (LIF) neurons and we compare its performance with the classical rate-coding mechanism. The neural coding schemes are then evaluated through experiments in terms of denoising performance and computation efficiency for a state-of-the-art deep convolutional neural network. Our results show that SNNs with LIF neurons can provide competitive denoising performance but at a reduced computational cost.
翻訳日:2023-05-28 05:18:33 公開日:2023-05-15
# 人工知能を用いたコミュニケーションの批判的評価

Critical Appraisal of Artificial Intelligence-Mediated Communication ( http://arxiv.org/abs/2305.11897v1 )

ライセンス: Link先を確認
Dara Tafazoli(参考訳) 過去20年間で、言語学習と教育における技術利用は著しく進歩し、現在はコンピュータ支援言語学習(CALL)と呼ばれている。 近年、人工知能(AI)のCALLへの統合は、教室内外での言語教育への伝統的なアプローチに大きな変化をもたらした。 この本の範囲に合わせて、言語教育におけるAIによるコミュニケーションの利点と欠点について考察する。 私は、教育におけるAIの簡単なレビューから始めます。 次に、ICALLを紹介し、AIを利用した自動音声認識(ASR)、機械翻訳(MT)、知能チューニングシステム(ITS)、AIを利用したチャットボット、拡張現実(XR)の可能性を評価した。 結論として,言語教師が CALL の教師教育や専門的開発に従事し,進化を続ける技術環境に追随し,教育効果を向上させることが重要であると論じる。

Over the last two decades, technology use in language learning and teaching has significantly advanced and is now referred to as Computer-Assisted Language Learning (CALL). Recently, the integration of Artificial Intelligence (AI) into CALL has brought about a significant shift in the traditional approach to language education both inside and outside the classroom. In line with this book's scope, I explore the advantages and disadvantages of AI-mediated communication in language education. I begin with a brief review of AI in education. I then introduce the ICALL and give a critical appraisal of the potential of AI-powered automatic speech recognition (ASR), Machine Translation (MT), Intelligent Tutoring Systems (ITSs), AI-powered chatbots, and Extended Reality (XR). In conclusion, I argue that it is crucial for language teachers to engage in CALL teacher education and professional development to keep up with the ever-evolving technology landscape and improve their teaching effectiveness.
翻訳日:2023-05-28 05:18:17 公開日:2023-05-15
# パーソナライズド・ミュージック・セラピーに向けて : 神経計算モデリングの視点から

Towards personalised music-therapy; a neurocomputational modelling perspective ( http://arxiv.org/abs/2305.14364v1 )

ライセンス: Link先を確認
Nicole Lai, Marios Philiastides, Fahim Kawsar, Fani Deligianni(参考訳) 音楽療法は、副作用のない幅広い神経疾患や気分障害において、患者の結果を改善するための介入として最近登場した。 脳ネットワークはトップダウンとボトムアップの両方のプロセスで説明できる方法で音楽に訓練されている。 特に,聴力と運動の直接的相互作用と,予測的枠組みによる報酬システムでは,運動リハビリテーションにおける音楽的介入の効果が説明される。 本稿では,音楽知覚と処理に関する現在の理論について概説する。 次に、主に運動、感情、心血管の調節に音楽が関与している証拠を要約する。 生活の質を向上し、診療環境や健康な個人を超えてストレスを減らす機会を強調します。 この比較的調査されていない領域では、神経生理学的反応の測定を介するフィードバックループを通じて、個人のニーズやタスクに合った音楽の選択プロセスをパーソナライズし、自動化する方法を理解する必要があります。

Music therapy has emerged recently as a successful intervention that improves patient's outcome in a large range of neurological and mood disorders without adverse effects. Brain networks are entrained to music in ways that can be explained both via top-down and bottom-up processes. In particular, the direct interaction of auditory with the motor and the reward system via a predictive framework explains the efficacy of music-based interventions in motor rehabilitation. In this manuscript, we provide a brief overview of current theories of music perception and processing. Subsequently, we summarise evidence of music-based interventions primarily in motor, emotional and cardiovascular regulation. We highlight opportunities to improve quality of life and reduce stress beyond the clinic environment and in healthy individuals. This relatively unexplored area requires an understanding of how we can personalise and automate music selection processes to fit individuals needs and tasks via feedback loops mediated by measurements of neuro-physiological responses.
翻訳日:2023-05-28 04:50:02 公開日:2023-05-15
# 計算アーキテクチャに対する人間の脳のベンチマーク

Benchmarking the human brain against computational architectures ( http://arxiv.org/abs/2305.14363v1 )

ライセンス: Link先を確認
C\'eline van Valkenhoef, Catherine Schuman, Philip Walther(参考訳) 人間の脳は、人工ニューラルネットワークやニューロモルフィックコンピュータのような古典的および量子コンピューティングアーキテクチャを補完する新しい概念にインスピレーションを与えたが、その性能がどのように比較されるかは明らかになっていない。 本稿では,問題の大きさを増加させ計算問題を解くことに基づく認知的パフォーマンスのベンチマーク手法を提案する。 我々は,人間の実験における計算効率を判定し,それらを複雑性クラスと比較する。 視野の大きさが制限され,ノイズが付加されたニューロモルフィックアーキテクチャが,我々の結果に良い近似を与えることを示す。 ベンチマークはまた、ニューロモルフィックモデルと比較して人間の能力のスケールに量子的優位性はないことを示唆している。 したがって、このフレームワークはブラックボックスとして考えることで、脳の計算効率に関するユニークな洞察を提供する。

The human brain has inspired novel concepts complementary to classical and quantum computing architectures, such as artificial neural networks and neuromorphic computers, but it is not clear how their performances compare. Here we report a new methodological framework for benchmarking cognitive performance based on solving computational problems with increasing problem size. We determine computational efficiencies in experiments with human participants and benchmark these against complexity classes. We show that a neuromorphic architecture with limited field-of-view size and added noise provides a good approximation to our results. The benchmarking also suggests there is no quantum advantage on the scales of human capability compared to the neuromorphic model. Thus, the framework offers unique insights into the computational efficiency of the brain by considering it a black box.
翻訳日:2023-05-28 04:49:46 公開日:2023-05-15
# ビルディング・ポイント・クラウドからのクラッタ耐性フロアプラン生成のためのハイブリッド・セマンティクス・ジオメトリアプローチ

A Hybrid Semantic-Geometric Approach for Clutter-Resistant Floorplan Generation from Building Point Clouds ( http://arxiv.org/abs/2305.15420v1 )

ライセンス: Link先を確認
Seongyong Kim, Yosuke Yajima, Jisoo Park, Jingdao Chen, Yong K. Cho(参考訳) 情報モデリング(BIM)技術の構築は、現代の建設工学とプロジェクト管理のワークフローの重要なコンポーネントである。 プロジェクトサイトの空間的現実を表すAs-is BIMモデルは、建設進捗監視、エラーチェック、メンテナンスのための重要な情報を提供することができる。 生スキャンデータをBIMモデル(Scan-to-BIM)に自動的に変換する幾何学的手法は、高レベルなセマンティック情報をデータに利用できないことが多い。 一方、セマンティックセグメンテーションメソッドは、BIMに必要なオブジェクトレベルのモデルを作成することなく、ポイントレベルでラベルを出力するだけです。 これらの問題に対処するために,レーザー走査型ビルディングポイント雲からのクラッタ耐性フロアプラン生成のためのハイブリッドセマンティック・ジオメトリ手法を提案する。 入力点雲はまず座標系を正規化し、外れ値を取り除くことで前処理される。 次に、pointnet++に基づくセマンティックセグメンテーションネットワークを使用して、各ポイントを天井、床、壁、ドア、階段、クラッターとラベル付けする。 クラッターポイントは取り除かれ、壁、ドア、階段は2dフロアプラン生成に使用される。 幾何学的推論規則と組み合わせた領域成長セグメンテーションアルゴリズムを用いて、ポイントを個別の構成要素にまとめる。 最後に、ビルディング要素を2次元ラインにパラメータ化して出力フロアプランを作成するために、2倍ランダムサンプルコンセンサス(RANSAC)アルゴリズムを適用する。 提案手法は,精度,リコール,インターセクション・オーバー・ユニオン(IOU),ベティ誤差,ワープ誤差の測定値を用いて評価する。

Building Information Modeling (BIM) technology is a key component of modern construction engineering and project management workflows. As-is BIM models that represent the spatial reality of a project site can offer crucial information to stakeholders for construction progress monitoring, error checking, and building maintenance purposes. Geometric methods for automatically converting raw scan data into BIM models (Scan-to-BIM) often fail to make use of higher-level semantic information in the data. Whereas, semantic segmentation methods only output labels at the point level without creating object level models that is necessary for BIM. To address these issues, this research proposes a hybrid semantic-geometric approach for clutter-resistant floorplan generation from laser-scanned building point clouds. The input point clouds are first pre-processed by normalizing the coordinate system and removing outliers. Then, a semantic segmentation network based on PointNet++ is used to label each point as ceiling, floor, wall, door, stair, and clutter. The clutter points are removed whereas the wall, door, and stair points are used for 2D floorplan generation. A region-growing segmentation algorithm paired with geometric reasoning rules is applied to group the points together into individual building elements. Finally, a 2-fold Random Sample Consensus (RANSAC) algorithm is applied to parameterize the building elements into 2D lines which are used to create the output floorplan. The proposed method is evaluated using the metrics of precision, recall, Intersection-over-Union (IOU), Betti error, and warping error.
翻訳日:2023-05-28 04:41:08 公開日:2023-05-15
# ニューラルネットワークを用いた自動評価スコーリングにおける動的損失関数の有効性

The Effectiveness of a Dynamic Loss Function in Neural Network Based Automated Essay Scoring ( http://arxiv.org/abs/2305.10447v1 )

ライセンス: Link先を確認
Oscar Morris(参考訳) ニューラルネットワーク、特に注意機構は、自動評価の分野に大きな進歩をもたらした。 これらのシステムの多くは回帰モデルを使用しており、モデルがトレーニングデータの平均だけを予測すると、不適合になりがちである。 本稿では,モデルが正しい分布で予測し,正しい値を予測するインセンティブを生成する動的損失関数を提案する。 我々の損失関数は, 学生評価自動評価データセットにおいて, 準重み付きカッパスコア0.752の成績を犠牲にすることなく, この目標を達成する。

Neural networks and in particular the attention mechanism have brought significant advances to the field of Automated Essay Scoring. Many of these systems use a regression-based model which may be prone to underfitting when the model only predicts the mean of the training data. In this paper, we present a dynamic loss function that creates an incentive for the model to predict with the correct distribution, as well as predicting the correct values. Our loss function achieves this goal without sacrificing any performance achieving a Quadratic Weighted Kappa score of 0.752 on the Automated Student Assessment Prize Automated Essay Scoring dataset.
翻訳日:2023-05-19 18:55:00 公開日:2023-05-15
# 感情制御のためのガイドナラティブにおける心理的要素に基づく感情認識

Emotion Recognition based on Psychological Components in Guided Narratives for Emotion Regulation ( http://arxiv.org/abs/2305.10446v1 )

ライセンス: Link先を確認
Gustave Cortal (LMF, LISN), Alain Finkel (LMF, IUF), Patrick Paroubek (LISN), Lina Ye (LMF)(参考訳) 感情調節は感情的な出来事を扱う上で重要な要素であり、精神的健康に肯定的な影響を及ぼす。 本稿では,感情制御のためのアンケートを用いて収集した感情的物語の新たなフランス語コーパスを導入することで,感情的出来事をより包括的に理解することを目的とする。 我々は、感情を4つの相互関連コンポーネント(行動、感覚、思考、領域)からなる動的なプロセスとみなすコンポーネントプロセスモデルの理論的枠組みに従う。 それぞれの物語は個別の感情と関連づけられ、作家による全ての感情の構成要素に基づいて構成される。 機械学習手法と事前学習した言語モデルを用いて,コンポーネントの相互作用と感情分類への影響について検討した。 その結果,各コンポーネントの予測性能が向上し,すべてのコンポーネントを共同で検討することで,最高の結果が得られることがわかった。 また, 学習済み言語モデルを用いて, 感情成分の表現方法の相違を明らかにすることで, 特定の成分から個別の感情を予測できることを示す。

Emotion regulation is a crucial element in dealing with emotional events and has positive effects on mental health. This paper aims to provide a more comprehensive understanding of emotional events by introducing a new French corpus of emotional narratives collected using a questionnaire for emotion regulation. We follow the theoretical framework of the Component Process Model which considers emotions as dynamic processes composed of four interrelated components (behavior, feeling, thinking and territory). Each narrative is related to a discrete emotion and is structured based on all emotion components by the writers. We study the interaction of components and their impact on emotion classification with machine learning methods and pre-trained language models. Our results show that each component improves prediction performance, and that the best results are achieved by jointly considering all components. Our results also show the effectiveness of pre-trained language models in predicting discrete emotion from certain components, which reveal differences in how emotion components are expressed.
翻訳日:2023-05-19 18:54:52 公開日:2023-05-15
# 記憶: 自己回帰型言語モデルによる暗号化

Memorization for Good: Encryption with Autoregressive Language Models ( http://arxiv.org/abs/2305.10445v1 )

ライセンス: Link先を確認
Samuel Stevens and Yu Su(参考訳) over-parameterized neural language models (lms)は、トレーニングデータの長いシーケンスを記憶し、引用することができる。 このような記憶は、通常、過剰フィッティングや情報漏洩といった望ましくない性質と関連付けられるが、本研究は、lmsの未検討の能力として記憶をキャストする。 自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。 自己回帰型LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号化)に無作為に復号できることを示す。 SELMは従来の暗号解析には適さないが,従来のIND-CPA(選択平文攻撃下での識別性)ゲームにおいて,その安全性を実証的に検証する。 私たちのコードとデータセットはhttps://github.com/OSU-NLP-Group/SELMで公開されています。

Over-parameterized neural language models (LMs) can memorize and recite long sequences of training data. While such memorization is normally associated with undesired properties such as overfitting and information leaking, our work casts memorization as an unexplored capability of LMs. We propose the first symmetric encryption algorithm with autoregressive language models (SELM). We show that autoregressive LMs can encode arbitrary data into a compact real-valued vector (i.e., encryption) and then losslessly decode the vector to the original message (i.e., decryption) via random subspace optimization and greedy decoding. While SELM is not amenable to conventional cryptanalysis, we investigate its security through a novel empirical variant of the classic IND-CPA (indistinguishability under chosen-plaintext attack) game. Our code and datasets are available at https://github.com/OSU-NLP-Group/SELM.
翻訳日:2023-05-19 18:54:37 公開日:2023-05-15
# OOD-Speech:アウトオブディストリビューションベンチマークのための大規模ベンガル音声認識データセット

OOD-Speech: A Large Bengali Speech Recognition Dataset for Out-of-Distribution Benchmarking ( http://arxiv.org/abs/2305.09688v1 )

ライセンス: Link先を確認
Fazle Rabbi Rakib, Souhardya Saha Dip, Samiul Alam, Nazia Tasnim, Md. Istiak Hossain Shihab, Md. Nazmuddoha Ansary, Syed Mobassir Hossen, Marsia Haque Meghla, Mamunur Mamun, Farig Sadeque, Sayma Sultana Chowdhury, Tahsin Reasat, Asif Sushmit, Ahmed Imtiaz Humayun(参考訳) 本稿では,ベンガル語自動音声認識(ASR)のための最初のOOD-Speechベンチマークデータセットを提案する。 ベンガル語は世界でも有数の言語であり、方言や韻律的な特徴が多様であり、asrのフレームワークが分布シフトに対して堅牢であることを要求する。 例えば、ベンガルのイスラム教の宗教説教は、通常の言葉とは大きく異なる調性をもって行われる。 当社のトレーニングデータセットは、大規模なオンラインクラウドソーシングキャンペーンを通じて収集され、その結果1177.94時間の収集と、南アジアからの22,645ドルのネイティブベンガル話者からのキュレーションが行われました。 私たちのテストデータセットは、ベンガルのテレビドラマ、オーディオブック、トークショー、オンラインクラス、イスラムの説教など17のソースから収集され手動で注釈付けされた23.03時間からなる。 OOD-Speechは、Bengaliの最初のアウト・オブ・ディストリビューションのASRベンチマークデータセットとともに、公開可能な最大の音声データセットである。

We present OOD-Speech, the first out-of-distribution (OOD) benchmarking dataset for Bengali automatic speech recognition (ASR). Being one of the most spoken languages globally, Bengali portrays large diversity in dialects and prosodic features, which demands ASR frameworks to be robust towards distribution shifts. For example, islamic religious sermons in Bengali are delivered with a tonality that is significantly different from regular speech. Our training dataset is collected via massively online crowdsourcing campaigns which resulted in 1177.94 hours collected and curated from $22,645$ native Bengali speakers from South Asia. Our test dataset comprises 23.03 hours of speech collected and manually annotated from 17 different sources, e.g., Bengali TV drama, Audiobook, Talk show, Online class, and Islamic sermons to name a few. OOD-Speech is jointly the largest publicly available speech dataset, as well as the first out-of-distribution ASR benchmarking dataset for Bengali.
翻訳日:2023-05-18 19:12:21 公開日:2023-05-15
# データバイアス管理

Data Bias Management ( http://arxiv.org/abs/2305.09686v1 )

ライセンス: Link先を確認
Gianluca Demartini and Kevin Roitero and Stefano Mizzaro(参考訳) 日常生活におけるデータ駆動システムの普及により、バイアスや公平性といった概念は、産業とアカデミアの両方において、研究者や実践者の間で大きな注目を集めた。 このような問題は、教師付き機械学習システムのトレーニングに使用される、さまざまなレベルの品質を備えたデータから生じる。 このようなシステムの商業化と展開は、人生を変える決定を下すために委譲されることがあるため、最終エンドユーザーに再び現れる可能性のあるデータバイアスの特定と排除、あるいは決定における重要な取り組みが行われている。 本稿では,データのバイアスがエンドユーザにどのように影響し,バイアスの発生源となるかを示すとともに,その対処方法に関する視点を提供する。 データバイアスは、すべてのケースにおいて必ずしも取り除くべきものではないし、研究の注意は、偏見の除去から識別、測定、インデックス化、表面化、偏見の適応へとシフトすべきである、と私たちは主張する。

Due to the widespread use of data-powered systems in our everyday lives, concepts like bias and fairness gained significant attention among researchers and practitioners, in both industry and academia. Such issues typically emerge from the data, which comes with varying levels of quality, used to train supervised machine learning systems. With the commercialization and deployment of such systems that are sometimes delegated to make life-changing decisions, significant efforts are being made towards the identification and removal of possible sources of data bias that may resurface to the final end user or in the decisions being made. In this paper, we present research results that show how bias in data affects end users, where bias is originated, and provide a viewpoint about what we should do about it. We argue that data bias is not something that should necessarily be removed in all cases, and that research attention should instead shift from bias removal towards the identification, measurement, indexing, surfacing, and adapting for bias, which we name bias management.
翻訳日:2023-05-18 19:12:02 公開日:2023-05-15
# 二次元魅力的なフェルミ・ハバードモデルにおける動的構造因子とペアリングギャップの測定法

Dynamical structure factor and a new method to measure the pairing gap in two-dimensional attractive Fermi-Hubbard model ( http://arxiv.org/abs/2305.09685v1 )

ライセンス: Link先を確認
Huaisong Zhao, Peng Zou and Feng Yuan(参考訳) ブリルアンゾーンの高対称性方向に沿った動的構造因子を計算することにより、ランダム位相近似に基づいて、2次元魅力的なフェルミ・ハバードモデルの動的励起を研究する。 小さな伝達運動量では、音速が得られ、相互作用強度によって抑制される。 特に移動運動量${\bf q}=\left[\pi,\pi\right]$では、動的構造因子は低エネルギー領域の鋭いボソニック分子励起ピークと高エネルギー領域の広い原子励起バンドからなる。 さらに、ホッピング強度が増加する(相互作用強度が減少する)と、分子励起ピークの重みは単調に減少し、原子励起の重みは急速に増加する。 分子励起ピークの面積はペアリングギャップの正方形と共にスケールし、スピン軌道結合の場合にも適用される。 これらの理論的結果は、光学格子のペアリングギャップは${\bf q}=\left[\pi,\pi\right]$で力学構造因子を測定することによって実験的に得られることを示している。

By calculating the dynamical structure factor along the high symmetry directions in the Brillouin zone, the dynamical excitations in two-dimensional attractive Fermi-Hubbard model are studied based on the random-phase approximation. At the small transfer momentum, the sound speed can be obtained and is suppressed by the interaction strength. In particular, at the transfer momentum ${\bf q}=\left[\pi,\pi\right]$, the dynamical structure factor consists of a sharp bosonic molecular excitation peak in the low-energy region and a broad atomic excitation band in the higher energy region. Furthermore, as the hopping strength increases (the interaction strength decreases), the weight of the molecular excitation peak decreases monotonically while the weight of the atomic excitations increases quickly. The area of the molecular excitation peak scales with the square of the pairing gap, which also applies to the spin-orbit coupling case. These theoretical results show that the pairing gap in optical lattice can be obtained experimentally by measuring the dynamical structure factor at ${\bf q}=\left[\pi,\pi\right]$.
翻訳日:2023-05-18 19:11:45 公開日:2023-05-15
# 減衰機能付き時系列異常検出の評価戦略

Evaluation Strategy of Time-series Anomaly Detection with Decay Function ( http://arxiv.org/abs/2305.09691v1 )

ライセンス: Link先を確認
Yongwan Gim, Kyushik Min(参考訳) 近年の時系列異常検出のアルゴリズムは、ポイント調整(PA)プロトコルを適用して評価されている。 しかし、PAプロトコルは検出された異常セグメントの数とサイズにのみ依存するため、検出アルゴリズムの性能を過大評価する問題がある。 本稿では,減衰関数付きポイント調整プロトコル(PAdf)と呼ばれる新しい評価プロトコルを提案し,次の理想的な要件を反映して時系列異常検出アルゴリズムの評価を行う。 本稿では,pa や pa\%k のような既存プロトコルの過大かつ過大な評価問題をpadfプロトコルが解くことを理論的および実験的に示す。 ベンチマークデータセットでSOTAモデルの再評価を行うことにより,PAプロトコルは多数の異常セグメントの発見にのみ焦点をあてているのに対し,PAdfプロトコルのスコアは多数のセグメントの発見だけでなく,遅延なく迅速に異常を検出することを考慮している。

Recent algorithms of time-series anomaly detection have been evaluated by applying a Point Adjustment (PA) protocol. However, the PA protocol has a problem of overestimating the performance of the detection algorithms because it only depends on the number of detected abnormal segments and their size. We propose a novel evaluation protocol called the Point-Adjusted protocol with decay function (PAdf) to evaluate the time-series anomaly detection algorithm by reflecting the following ideal requirements: detect anomalies quickly and accurately without false alarms. This paper theoretically and experimentally shows that the PAdf protocol solves the over- and under-estimation problems of existing protocols such as PA and PA\%K. By conducting re-evaluations of SOTA models in benchmark datasets, we show that the PA protocol only focuses on finding many anomalous segments, whereas the score of the PAdf protocol considers not only finding many segments but also detecting anomalies quickly without delay.
翻訳日:2023-05-18 18:59:32 公開日:2023-05-15
# 合成キャプションと転送学習による音声キャプション学習のためのささやきトランスフォーマー

A Whisper transformer for audio captioning trained with synthetic captions and transfer learning ( http://arxiv.org/abs/2305.09690v1 )

ライセンス: Link先を確認
Marek Kadl\v{c}\'ik, Adam H\'ajek, J\"urgen Kieslich, Rados{\l}aw Winiecki(参考訳) 近年の音声キャプションの分野は、大規模オーディオデータセットの利用可能化とディープラーニング技術の進歩により、大きな進歩を遂げている。 本稿では,事前訓練された音声-テキスト/ウィスパーモデルの使用と合成字幕の事前学習に着目し,音声キャプションへのアプローチを提案する。 トレーニング手順を議論し,モデルサイズ変動,データセット混合,その他のハイパーパラメータを含む実験結果を提示した。 本研究は,異なる学習戦略が音声キャプションモデルの性能に与える影響を示す。 私たちのコードとトレーニングされたモデルは、GitHubとHugging Face Hubで公開されています。

The field of audio captioning has seen significant advancements in recent years, driven by the availability of large-scale audio datasets and advancements in deep learning techniques. In this technical report, we present our approach to audio captioning, focusing on the use of a pretrained speech-to-text Whisper model and pretraining on synthetic captions. We discuss our training procedures and present our experiments' results, which include model size variations, dataset mixtures, and other hyperparameters. Our findings demonstrate the impact of different training strategies on the performance of the audio captioning model. Our code and trained models are publicly available on GitHub and Hugging Face Hub.
翻訳日:2023-05-18 18:59:16 公開日:2023-05-15
# llmの隠れたリスク評価--ロバスト性、一貫性、信頼性に関する実証的研究

Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility ( http://arxiv.org/abs/2305.10235v1 )

ライセンス: Link先を確認
Wentao Ye, Mingfeng Ou, Tianyi Li, Yipeng chen, Xuetao Ma, Yifan Yanggong, Sai Wu, Jie Fu, Gang Chen, Junbo Zhao(参考訳) 近年の大規模言語モデル(LLM)の人気は、特にAPIやオープンソースモデル、プラグインといったオープンなエコシステムを通じて、バウンダリのないフィールドに大きな影響を与えている。 しかし、広く展開されているため、隠された潜在的なリスクを徹底的に議論し分析する研究の欠如がある。 その際, LLMシステムの堅牢性, 一貫性, 信頼性について, 先駆的かつ先駆的な研究を行う。 LLM時代における関連文献の大半を無チャートで扱うことで,大量のクエリ/レスポンスを扱う自動化ワークフローを提案する。 全体として、ChatGPT、LLaMA、OPTなど、主要なLLMに対して100万以上のクエリを実行する。 我々のワークフローの中核はデータプリミティブから成り、次に異なる対向距離システムの下でこれらのLCMを評価する自動インタプリタが続く。 その結果、このトレンドコミュニティからは、非常に稀な結論がいくつか、おそらく不運な結果をもたらしました。 略して、以下の通りである。 (i)-ユーザが生成したクエリ入力の小さなが避けられないエラーは、偶然にLCMが予期せず応答する可能性がある。 (ii)-LLMはセマンティックに類似したクエリ入力を処理する際に一貫性が低い。 さらに、副次的な発見として、ChatGPTは、入力が極端に汚染された場合でも、正しい回答を得られることを発見した。 この現象はLLMの強力な記憶を実証するが、学術的発展においてLLMが関与する評価にそのようなデータを使用することについて深刻な懸念を提起する。 そこで本研究では,LLM を用いた評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。 上記の主張を支持するために広範な実証研究が行われている。

The recent popularity of large language models (LLMs) has brought a significant impact to boundless fields, particularly through their open-ended ecosystem such as the APIs, open-sourced models, and plugins. However, with their widespread deployment, there is a general lack of research that thoroughly discusses and analyzes the potential risks concealed. In that case, we intend to conduct a preliminary but pioneering study covering the robustness, consistency, and credibility of LLMs systems. With most of the related literature in the era of LLM uncharted, we propose an automated workflow that copes with an upscaled number of queries/responses. Overall, we conduct over a million queries to the mainstream LLMs including ChatGPT, LLaMA, and OPT. Core to our workflow consists of a data primitive, followed by an automated interpreter that evaluates these LLMs under different adversarial metrical systems. As a result, we draw several, and perhaps unfortunate, conclusions that are quite uncommon from this trendy community. Briefly, they are: (i)-the minor but inevitable error occurrence in the user-generated query input may, by chance, cause the LLM to respond unexpectedly; (ii)-LLMs possess poor consistency when processing semantically similar query input. In addition, as a side finding, we find that ChatGPT is still capable to yield the correct answer even when the input is polluted at an extreme level. While this phenomenon demonstrates the powerful memorization of the LLMs, it raises serious concerns about using such data for LLM-involved evaluation in academic development. To deal with it, we propose a novel index associated with a dataset that roughly decides the feasibility of using such data for LLM-involved evaluation. Extensive empirical studies are tagged to support the aforementioned claims.
翻訳日:2023-05-18 15:41:26 公開日:2023-05-15
# UNIQORN: RDF知識グラフと自然言語テキストに関する統一質問

UNIQORN: Unified Question Answering over RDF Knowledge Graphs and Natural Language Text ( http://arxiv.org/abs/2108.08614v6 )

ライセンス: Link先を確認
Soumajit Pramanik, Jesujoba Alabi, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 知識グラフやその他のRDFデータに対する質問応答は大幅に進歩しており、自然言語の質問やテレグラフの問い合わせに対して簡潔な回答を提供するシステムも数多くある。 これらのシステムの一部には、回答プロセスのさらなる証拠としてテキストソースが組み込まれているが、テキストのみに存在する回答は計算できない。 逆に、IRおよびNLPコミュニティのシステムはテキスト上のQAに対処しているが、そのようなシステムは意味データや知識をほとんど利用していない。 本稿では,RDFデータセットとテキストコーパス,あるいは個々のソースを併用した複雑な質問を統一的なフレームワークでシームレスに操作する手法を提案する。 我々の手法はUNIQORNと呼ばれ、細調整されたBERTモデルを用いてRDFデータおよび/またはテキストコーパスから質問関連エビデンスを検索し、コンテキストグラフをオンザフライで構築する。 結果として得られるグラフは、通常、すべての質問関連証拠を含むが、多くのノイズも含む。 UNIQORNは、この入力をグループステイナツリーのグラフアルゴリズムによって処理し、コンテキストグラフの最良の解候補を特定する。 複数の実体と関係を持つ複雑な問題に対するいくつかのベンチマーク実験の結果、UNIQORNは異種QAに対する最先端の手法を著しく上回ることを示した。 グラフベースの方法論は、完全な応答プロセスに対するユーザ解釈可能な証拠を提供する。

Question answering over knowledge graphs and other RDF data has been greatly advanced, with a number of good systems providing crisp answers for natural language questions or telegraphic queries. Some of these systems incorporate textual sources as additional evidence for the answering process, but cannot compute answers that are present in text alone. Conversely, systems from the IR and NLP communities have addressed QA over text, but such systems barely utilize semantic data and knowledge. This paper presents a method for complex questions that can seamlessly operate over a mixture of RDF datasets and text corpora, or individual sources, in a unified framework. Our method, called UNIQORN, builds a context graph on-the-fly, by retrieving question-relevant evidences from the RDF data and/or a text corpus, using fine-tuned BERT models. The resulting graph is typically contains all question-relevant evidences but also a lot of noise. UNIQORN copes with this input by a graph algorithm for Group Steiner Trees, that identifies the best answer candidates in the context graph. Experimental results on several benchmarks of complex questions with multiple entities and relations, show that UNIQORN significantly outperforms state-of-the-art methods for heterogeneous QA. The graph-based methodology provides user-interpretable evidence for the complete answering process.
翻訳日:2023-05-17 20:25:00 公開日:2023-05-15
# 非パラメトリックマニフォールド学習

Non-Parametric Manifold Learning ( http://arxiv.org/abs/2107.08089v3 )

ライセンス: Link先を確認
Dena Marie Asta(参考訳) ラプラス・ベルトラミ作用素のグラフラプラシアン推定に基づくコンパクトリーマン多様体における距離推定器を導入する。 我々は、グラフラプラシアン推定におけるスペクトル誤差および暗黙的に、多様体の幾何的性質の観点から、多様体距離の推定誤差、あるいはより正確には非可換幾何学における興味のある多様体距離のスペクトル切断変種の推定(cf. [connes and suijelekom, 2020])を上限する。 その結果は(予想外の)多様体距離に対する一貫性の証明である。 推定器は類似しており、実際に収束特性はコンヌ距離公式として知られるワッサーシュタイン距離のコントロヴィッチ双対再構成の特別な場合に由来する。

We introduce an estimator for distances in a compact Riemannian manifold based on graph Laplacian estimates of the Laplace-Beltrami operator. We upper bound the error in the estimate of manifold distances, or more precisely an estimate of a spectrally truncated variant of manifold distance of interest in non-commutative geometry (cf. [Connes and Suijelekom, 2020]), in terms of spectral errors in the graph Laplacian estimates and, implicitly, several geometric properties of the manifold. A consequence is a proof of consistency for (untruncated) manifold distances. The estimator resembles, and in fact its convergence properties are derived from, a special case of the Kontorovic dual reformulation of Wasserstein distance known as Connes' Distance Formula.
翻訳日:2023-05-17 20:24:09 公開日:2023-05-15
# ディープラーニングの教訓を用いたニューラルネットワークの学習

Training Spiking Neural Networks Using Lessons From Deep Learning ( http://arxiv.org/abs/2109.12894v5 )

ライセンス: Link先を確認
Jason K. Eshraghian and Max Ward and Emre Neftci and Xinxin Wang and Gregor Lenz and Girish Dwivedi and Mohammed Bennamoun and Doo Seok Jeong and Wei D. Lu(参考訳) 脳はより効率的なニューラルネットワークを開発するためのインスピレーションを探すのに最適な場所だ。 シナプスやニューロンの内部活動は、ディープラーニングの未来がどのようなものになるのかを垣間見せてくれる。 本論文は, 深層学習, 勾配降下, バックプロパゲーション, 神経科学における数十年の研究から学んだ教訓を, 生物学的にもっともらしいスパイクニューラルネットワークに適用する方法を示すチュートリアルおよび視点として機能する。 また、データをスパイクとしてエンコーディングすることと学習プロセスの間の繊細な相互作用、勾配ベースの学習をスパイクニューラルネットワーク(snn)に適用することの課題と解決策、時間的バックプロパゲーションとスパイクタイミング依存可塑性との微妙な関連、そして深層学習が生物学的に妥当なオンライン学習にどのように移行するかについても検討する。 いくつかのアイデアは広く受け入れられ、神経形工学のコミュニティで広く使われていますが、他のアイデアはここで初めて提示または正当化されます。 ディープラーニングとスパイクニューラルネットワークの分野は急速に進化している。 我々は、この文書を"動的"な原稿として扱い、SNNのトレーニングの一般的な実践が変わるにつれて、引き続き更新し続けます。 この論文を補完する一連のコンパニオンインタラクティブチュートリアルも,pythonパッケージであるsnntorchを使って公開しています。 https://snntorch.readthedocs.io/en/latest/tutorials/index.htmlを参照。

The brain is the perfect place to look for inspiration to develop more efficient neural networks. The inner workings of our synapses and neurons provide a glimpse at what the future of deep learning might look like. This paper serves as a tutorial and perspective showing how to apply the lessons learnt from several decades of research in deep learning, gradient descent, backpropagation and neuroscience to biologically plausible spiking neural neural networks. We also explore the delicate interplay between encoding data as spikes and the learning process; the challenges and solutions of applying gradient-based learning to spiking neural networks (SNNs); the subtle link between temporal backpropagation and spike timing dependent plasticity, and how deep learning might move towards biologically plausible online learning. Some ideas are well accepted and commonly used amongst the neuromorphic engineering community, while others are presented or justified for the first time here. The fields of deep learning and spiking neural networks evolve very rapidly. We endeavour to treat this document as a 'dynamic' manuscript that will continue to be updated as the common practices in training SNNs also change. A series of companion interactive tutorials complementary to this paper using our Python package, snnTorch, are also made available. See https://snntorch.readthedocs.io/en/latest/tutorials/index.html .
翻訳日:2023-05-17 20:14:03 公開日:2023-05-15
# Pythonパッケージを伴う任意の超伝導量子回路の解析:SQcircuit

Analysis of arbitrary superconducting quantum circuits accompanied by a Python package: SQcircuit ( http://arxiv.org/abs/2206.08319v2 )

ライセンス: Link先を確認
Taha Rajabzadeh, Zhaoyou Wang, Nathan Lee, Takuma Makihara, Yudan Guo, Amir H. Safavi-Naeini(参考訳) 超伝導量子回路は、フォールトトレラント量子コンピュータを実現するための有望なハードウェアプラットフォームである。 この分野での進歩の加速は、より複雑な超伝導回路を分析し設計するための一般的なアプローチと計算ツールを必要とする。 超伝導量子回路の量子化ハミルトニアンを物理的記述から体系的に構築する枠組みを開発する。 多座標系の量子記述の場合と同様に、複雑性は変数の数とともに急速に増加する。 したがって、ハミルトニアンを効率的に対角化するための基底を見つけることができる座標変換の集合を導入する。 さらに、新しい量子ビットの最適化と発見に必要な回路の鍵特性を計算するためのフレームワークの範囲を広げる。 我々は,オープンソースのPythonパッケージSQcircuitで記述した手法を実装した。 本稿では,SQcircuit環境と機能について紹介する。 興味深い量子回路を解析し、スペクトル、コヒーレンス時間、遷移行列要素、結合作用素、固有関数の位相座標表現などの特徴を得る一連の例を示す。

Superconducting quantum circuits are a promising hardware platform for realizing a fault-tolerant quantum computer. Accelerating progress in this field of research demands general approaches and computational tools to analyze and design more complex superconducting circuits. We develop a framework to systematically construct a superconducting quantum circuit's quantized Hamiltonian from its physical description. As is often the case with quantum descriptions of multicoordinate systems, the complexity rises rapidly with the number of variables. Therefore, we introduce a set of coordinate transformations with which we can find bases to diagonalize the Hamiltonian efficiently. Furthermore, we broaden our framework's scope to calculate the circuit's key properties required for optimizing and discovering novel qubits. We implement the methods described in this work in an open-source Python package SQcircuit. In this manuscript, we introduce the reader to the SQcircuit environment and functionality. We show through a series of examples how to analyze a number of interesting quantum circuits and obtain features such as the spectrum, coherence times, transition matrix elements, coupling operators, and the phase coordinate representation of eigenfunctions.
翻訳日:2023-05-17 20:05:57 公開日:2023-05-15
# プレフィックス条件付言語とラベルスーパービジョン

Prefix Conditioning Unifies Language and Label Supervision ( http://arxiv.org/abs/2206.01125v2 )

ライセンス: Link先を確認
Kuniaki Saito, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee, Kate Saenko, Tomas Pfister(参考訳) 画像分類データセットは、画像認識モデルの事前学習に使用されている。 最近、Webスケールの画像キャプチャデータセットが、強力な事前学習の代替として登場した。 イメージキャプチャデータセットは、従来の分類データセットよりも広い範囲のシーンタイプと語彙を含む‘オープンドメイン’であり、これらのデータセットでトレーニングされたモデルは、少数およびゼロショット認識タスクで強力なパフォーマンスを示している。 画像分類とカプセル化データセットを鼻で統一すると、これらのデータセットバイアスが学習された表現の一般化可能性を減らすことによって事前学習に悪影響を及ぼし、したがって、分類データセットのモデルをカスタマイズできるため、ゼロショット性能を損なうことが示され、データセットからの分布シフトに弱い。 本研究では,入力データセットの型(画像分類やキャプションなど)を学習時に言語エンコーダに通知するプレフィックストークンを用いて,データセットバイアスを解消することでこの問題に対処する。 このアプローチにより、言語エンコーダは2つのデータセットからの知識を共有し、特徴抽出モード、すなわち、ゼロショット評価でイメージキャプチャモードを使用する、イメージ分類データセットまたはイメージキャプチャデータセットカスタマイズモードを切り替えることができる。 提案手法は汎用的であり,CLIPやUniCLなどの既存のVL事前学習目標に容易に統合できる。 実験では、この簡易な手法により、ゼロショット画像認識精度と画像レベルの分布シフトに対するロバスト性が向上することを示す。

Image-classification datasets have been used to pretrain image recognition models. Recently, web-scale image-caption datasets have emerged as a source of powerful pretraining alternative. Image-caption datasets are more ``open-domain'', containing a wider variety of scene types and vocabulary words than traditional classification datasets, and models trained on these datasets have demonstrated strong performance on few- and zero-shot recognition tasks. When naively unifying image-classification and -caption dataset, we show that such dataset biases negatively affect pre-training by reducing the generalizability of learned representations and thus jeopardizing zero-shot performance since the unification can tailor the model for the classification dataset, making it vulnerable to the distribution shift from the dataset. In this work, we address the problem by disentangling the dataset bias using prefix tokens that inform a language encoder of the type of the input dataset (e.g., image-classification or caption) at training time. This approach allows the language encoder to share the knowledge from two datasets as well as switch the mode of feature extraction, i.e., image-classification dataset or image-caption dataset tailored mode, where we use image-caption mode in the zero-shot evaluation. Our method is generic and can be easily integrated into existing VL pre-training objectives such as CLIP or UniCL. In experiments, we show that this simple technique improves the performance in zero-shot image recognition accuracy and robustness to the image-level distribution shift.
翻訳日:2023-05-17 20:05:24 公開日:2023-05-15
# 原子間多重終端アハロノフ-ボーム干渉計

Atomtronic multi-terminal Aharonov-Bohm interferometer ( http://arxiv.org/abs/2205.01636v3 )

ライセンス: Link先を確認
Jonathan Wei Zhong Lau, Koon Siang Gan, Rainer Dumke, Luigi Amico, Leong-Chuan Kwek, Tobias Haug(参考訳) 本研究では,合成磁束により貫通する3端子リング回路からなる寒冷原子用多機能デバイスについて検討した。 このフラックスはアハロノフ・ボーム効果を介して環を通る原子電流を制御する。 この装置は、アンドレフのような負の密度から正の密度への反射の磁束誘起遷移を示す。 さらに、フラックスは原子電流を特定の出力ポートに誘導し、複数の原子系を接続したり回転を感知するフレキシブルな非相互スイッチを実現する。 フラックスを時間的に線形に変化させることで、定常物質波電流を交流変調電流に変換する。 この効果は原子周波数発生器の実現やアハラノフ-ボーム効果に関する根本的な問題の研究に利用できる。 ボース・アインシュタイン凝縮を3端子環の光型光学ポテンシャルに実験的に示す。 私たちの研究は、量子技術における実用的な応用のための新しい原子トロンデバイスの可能性を開きます。

We study a multi-functional device for cold atoms consisting of a three-terminal ring circuit pierced by a synthetic magnetic flux, where the ring can be continuous or discretized. The flux controls the atomic current through the ring via the Aharonov-Bohm effect. Our device shows a flux-induced transition of reflections from an Andreev-like negative density to positive density. Further, the flux can direct the atomic current into specific output ports, realizing a flexible non-reciprocal switch to connect multiple atomic systems or sense rotations. By changing the flux linearly in time, we convert constant matter wave currents into an AC modulated current. This effect can be used to realize an atomic frequency generator and study fundamental problems related to the Aharonov-Bohm effect. We experimentally demonstrate Bose-Einstein condensation into the light-shaped optical potential of the three-terminal ring. Our work opens up the possibility of novel atomtronic devices for practical applications in quantum technologies.
翻訳日:2023-05-17 20:04:46 公開日:2023-05-15
# Federated Progressive Sparsification (Purge, Merge, Tune)+

Federated Progressive Sparsification (Purge, Merge, Tune)+ ( http://arxiv.org/abs/2204.12430v2 )

ライセンス: Link先を確認
Dimitris Stripelis, Umang Gupta, Greg Ver Steeg, Jose Luis Ambite(参考訳) ニューラルネットワークのフェデレートトレーニングを改善するために,プログレッシブウェイトマグニチュードプルーニングに基づくスパシフィケーション戦略であるFedSparsifyを開発した。 我々の方法にはいくつかの利点がある。 まず、ネットワークのサイズが小さくなるにつれて、トレーニング中の計算コストと通信コストが削減される。 第二に、モデルは小さなパラメータセットに漸進的に制約され、局所モデルのアライメント/マージが容易になり、高いスパシフィケーションレートで学習性能が向上する。 第三に、最後のスカラー化モデルはかなり小さく、推論効率を改善し、暗号化通信時の動作遅延を最適化する。 我々は,FedSparsifyが高空間性と学習性能の両方のサブネットワークを学習できることを実験的に示す。 我々のスパースモデルは、既存のプルーニングや非プルーニングのベースラインと比較して、同じまたはより良い精度で元のモデルの10分の1に達することができる。

To improve federated training of neural networks, we develop FedSparsify, a sparsification strategy based on progressive weight magnitude pruning. Our method has several benefits. First, since the size of the network becomes increasingly smaller, computation and communication costs during training are reduced. Second, the models are incrementally constrained to a smaller set of parameters, which facilitates alignment/merging of the local models and improved learning performance at high sparsification rates. Third, the final sparsified model is significantly smaller, which improves inference efficiency and optimizes operations latency during encrypted communication. We show experimentally that FedSparsify learns a subnetwork of both high sparsity and learning performance. Our sparse models can reach a tenth of the size of the original model with the same or better accuracy compared to existing pruning and nonpruning baselines.
翻訳日:2023-05-17 20:04:32 公開日:2023-05-15
# ai倫理の物語を広める: インディクティブ・アート・ビュー

Broadening AI Ethics Narratives: An Indic Art View ( http://arxiv.org/abs/2204.03789v5 )

ライセンス: Link先を確認
Ajay Divakaran and Aparna Sridhar and Ramya Srinivasan(参考訳) 学際的な視点を取り入れることは、人工知能(AI)倫理の強化に不可欠なステップであると考えられている。 この点において、芸術分野は、研究コミュニティ間の橋渡しとして、様々な歴史的・文化的物語の解明に重要な役割を果たしていると考えられている。 芸術分野とAI倫理の相互作用を調べる研究の多くは、AIシステムのバイアスを表面化するための計算ツールの可能性を探究するデジタルアートワークに関するものである。 本稿では,AI倫理の地平を広げる上で有用な,人工芸術に埋め込まれたユニークな社会文化的視点を明らかにするための補完的方向性について検討する。 音楽、彫刻、絵画、床絵、ダンスなどの多様なインド美術形態の研究者16人のアーティスト、美術学者、研究者による半構造化インタビューを通じて、インド芸術において観察される倫理的抽象化、学習方法、参加的実践が、倫理的aiシステムに関連する側面にどのように光を当てるかを探求する。 インド舞踊システムに関するケーススタディ(すなわち「ナティアシャストラ」)を通じて、AIシステムにおける倫理の強化への潜在的経路を分析する。 倫理的AIアルゴリズムに共感を取り入れることの必要性,(2)倫理的AIシステム設計と開発のためのマルチモーダルデータフォーマットを統合すること,(3)AI倫理を,価値の消滅なしに適応性を促進するための静的な自己完結型フレームワークとしてではなく,動的で多様性があり,累積的かつ共有的なプロセスとして見ること,(4)AI説明可能性を高める一貫した生涯学習の必要性を概説した。

Incorporating interdisciplinary perspectives is seen as an essential step towards enhancing artificial intelligence (AI) ethics. In this regard, the field of arts is perceived to play a key role in elucidating diverse historical and cultural narratives, serving as a bridge across research communities. Most of the works that examine the interplay between the field of arts and AI ethics concern digital artworks, largely exploring the potential of computational tools in being able to surface biases in AI systems. In this paper, we investigate a complementary direction--that of uncovering the unique socio-cultural perspectives embedded in human-made art, which in turn, can be valuable in expanding the horizon of AI ethics. Through semi-structured interviews across sixteen artists, art scholars, and researchers of diverse Indian art forms like music, sculpture, painting, floor drawings, dance, etc., we explore how {\it non-Western} ethical abstractions, methods of learning, and participatory practices observed in Indian arts, one of the most ancient yet perpetual and influential art traditions, can shed light on aspects related to ethical AI systems. Through a case study concerning the Indian dance system (i.e. the {\it `Natyashastra'}), we analyze potential pathways towards enhancing ethics in AI systems. Insights from our study outline the need for (1) incorporating empathy in ethical AI algorithms, (2) integrating multimodal data formats for ethical AI system design and development, (3) viewing AI ethics as a dynamic, diverse, cumulative, and shared process rather than as a static, self-contained framework to facilitate adaptability without annihilation of values (4) consistent life-long learning to enhance AI accountability
翻訳日:2023-05-17 20:03:58 公開日:2023-05-15
# 偽ニュース検出のための偽ニュースのフェーキング:プロパガンダによるトレーニングデータ生成

Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation ( http://arxiv.org/abs/2203.05386v2 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Kathleen McKeown, Preslav Nakov, Yejin Choi and Heng Ji(参考訳) 近年のニューラルモデルによる偽ニュースの検出の進歩にもかかわらず、その結果は人による偽情報の効果的な検出には適用できない。 両者がうまく移行することを制限するのは、マシンが生成したフェイクニュースと人間によるニュースとの間に大きなギャップがあることだ。 このことを念頭に置いて,人間によるプロパガンダの既知のスタイルや戦略から学習例を生成するための新しい枠組みを提案する。 具体的には,自然言語推論によって誘導される自己批判的なシーケンス学習を行い,生成した記事の妥当性を保証するとともに,権威へのアピールや読み上げ言語といった宣伝的手法も取り入れる。 特に、新しいトレーニングデータセットであるPropaNewsを作成し、2256のサンプルを作成し、将来の使用のためにリリースしています。 実験の結果,プロパニューズで学習した偽ニュース検出器は,2つの公開データセットで3.62~7.69%のf1スコアで人文情報を検出するのに優れていることがわかった。

Despite recent advances in detecting fake news generated by neural models, their results are not readily applicable to effective detection of human-written disinformation. What limits the successful transfer between them is the sizable gap between machine-generated fake news and human-authored ones, including the notable differences in terms of style and underlying intent. With this in mind, we propose a novel framework for generating training examples that are informed by the known styles and strategies of human-authored propaganda. Specifically, we perform self-critical sequence training guided by natural language inference to ensure the validity of the generated articles, while also incorporating propaganda techniques, such as appeal to authority and loaded language. In particular, we create a new training dataset, PropaNews, with 2,256 examples, which we release for future use. Our experimental results show that fake news detectors trained on PropaNews are better at detecting human-written disinformation by 3.62 - 7.69% F1 score on two public datasets.
翻訳日:2023-05-17 20:03:14 公開日:2023-05-15
# 混雑依存型大規模避難計画のためのシミュレーション支援最適化

Simulation-Assisted Optimization for Large-Scale Evacuation Planning with Congestion-Dependent Delays ( http://arxiv.org/abs/2209.01535v5 )

ライセンス: Link先を確認
Kazi Ashik Islam, Da Qi Chen, Madhav Marathe, Henning Mortveit, Samarth Swarup, Anil Vullikanti(参考訳) 避難計画は災害管理の重要な部分である。 しかしながら、平均避難時間や避難完了時間の最小化などの目的を持ったルーティングとスケジューリングという2つの重要なコンポーネントの協調最適化は、計算的に難しい問題である。 MIP-LNSは、数学的最適化によるヒューリスティック探索を利用して、様々な目的関数を最適化するスケーラブルな最適化手法である。 また,エージェントベースシミュレーションとmip-lnを組み合わせることで,混雑による遅延を推定し,遅延を考慮した最適計画を求める手法であるmip-lns-simを提案する。 テキサス州ヒューストンのハリス郡を 研究地域として使っています MIP-LNSは、与えられた時間制限の中で、3つの異なるメトリクスの観点から既存の方法よりも優れた解を求めることを示す。 しかし、混雑依存性の遅延を考慮すると、MIP-LNS-SIMは複数のパフォーマンス指標においてMIP-LNSより優れる。 さらに, MIP-LNS-SIMは, MIP-LNSと比較して, 推定避難完了時間の誤差が有意に低い。

Evacuation planning is a crucial part of disaster management. However, joint optimization of its two essential components, routing and scheduling, with objectives such as minimizing average evacuation time or evacuation completion time, is a computationally hard problem. To approach it, we present MIP-LNS, a scalable optimization method that utilizes heuristic search with mathematical optimization and can optimize a variety of objective functions. We also present the method MIP-LNS-SIM, where we combine agent-based simulation with MIP-LNS to estimate delays due to congestion, as well as, find optimized plans considering such delays. We use Harris County in Houston, Texas, as our study area. We show that, within a given time limit, MIP-LNS finds better solutions than existing methods in terms of three different metrics. However, when congestion dependent delay is considered, MIP-LNS-SIM outperforms MIP-LNS in multiple performance metrics. In addition, MIP-LNS-SIM has a significantly lower percent error in estimated evacuation completion time compared to MIP-LNS.
翻訳日:2023-05-17 19:57:03 公開日:2023-05-15
# 破滅的投機に関する一般的な推測

Challenging Common Assumptions about Catastrophic Forgetting ( http://arxiv.org/abs/2207.04543v2 )

ライセンス: Link先を確認
Timoth\'ee Lesort, Oleksiy Ostapenko, Diganta Misra, Md Rifat Arefin, Pau Rodr\'iguez, Laurent Charlin, Irina Rish(参考訳) 知識を段階的に学習し蓄積できる学習エージェントの構築は、継続学習(CL)研究分野のコア目標である。 残念ながら、新しいデータに対するモデルのトレーニングは通常、過去のデータのパフォーマンスを損なう。 CL文献では、この効果は破滅的な忘れ(CF)と呼ばれる。 CFは主に研究され、重複しないタスクの短いシーケンスでそれに取り組むための多くの手法が提案されている。 このようなセットアップでは、CFは常に過去のタスクにおけるパフォーマンスの迅速かつ重大な低下につながります。 しかしながら,最近の研究では,線形モデルのSGDトレーニングがCL回帰設定に知識を蓄積していることが示されている。 この現象はタスクが再発生すると特に顕著になる。 そして、SGDで訓練されたDNNや標準勾配に基づく最適化が、そのような方法で知識を蓄積するかどうか疑問に思うかもしれない。 このような現象は、実際の連続的なシナリオにDNNを適用する上で興味深い結果をもたらすだろう。 実際、標準勾配に基づく最適化手法は既存のCLアルゴリズムよりも計算コストが大幅に低い。 本稿では,DNNにおける進化的知識蓄積(KA)について,データ再帰を伴うタスクの長い列における勾配に基づくアルゴリズムを用いて学習した。 そこで我々は,SCoLe (Scaling Continual Learning) という新しいフレームワークを提案し,SGDで訓練したDNNに破滅的な忘れ込みが限定的であることを示す。 データの少ない長いシーケンスでトレーニングすると、全体的な精度が向上し、CF現象を考えると直感に反する可能性がある。 各種データ発生頻度の異なるDNNにおけるKAを実験的に検討し,DNNにおける知識蓄積を高めるためのシンプルでスケーラブルな戦略を提案する。

Building learning agents that can progressively learn and accumulate knowledge is the core goal of the continual learning (CL) research field. Unfortunately, training a model on new data usually compromises the performance on past data. In the CL literature, this effect is referred to as catastrophic forgetting (CF). CF has been largely studied, and a plethora of methods have been proposed to address it on short sequences of non-overlapping tasks. In such setups, CF always leads to a quick and significant drop in performance in past tasks. Nevertheless, despite CF, recent work showed that SGD training on linear models accumulates knowledge in a CL regression setup. This phenomenon becomes especially visible when tasks reoccur. We might then wonder if DNNs trained with SGD or any standard gradient-based optimization accumulate knowledge in such a way. Such phenomena would have interesting consequences for applying DNNs to real continual scenarios. Indeed, standard gradient-based optimization methods are significantly less computationally expensive than existing CL algorithms. In this paper, we study the progressive knowledge accumulation (KA) in DNNs trained with gradient-based algorithms in long sequences of tasks with data re-occurrence. We propose a new framework, SCoLe (Scaling Continual Learning), to investigate KA and discover that catastrophic forgetting has a limited effect on DNNs trained with SGD. When trained on long sequences with data sparsely re-occurring, the overall accuracy improves, which might be counter-intuitive given the CF phenomenon. We empirically investigate KA in DNNs under various data occurrence frequencies and propose simple and scalable strategies to increase knowledge accumulation in DNNs.
翻訳日:2023-05-17 19:55:37 公開日:2023-05-15
# 安定化器PEPSにおける測定ベース量子ワイヤの分類

Classification of measurement-based quantum wire in stabilizer PEPS ( http://arxiv.org/abs/2207.00616v3 )

ライセンス: Link先を確認
Paul Herringer, Robert Raussendorf(参考訳) 我々は、安定化器対称性を持つ翻訳不変2次元テンソルネットワークのクラスを考察し、安定化器PEPSと呼ぶ。 toricコードのクラスタ状態、ghz状態、および状態は、このクラスに属する。 測定に基づく量子ワイヤ用安定化器PEPSの伝送能力について検討し,伝送挙動の完全な分類に到達した。 透過挙動は13のクラスに分けられ、そのうちの1つはクリフォード量子セルオートマトンに対応する。 さらに、他の12のクラスも識別する。

We consider a class of translation-invariant 2D tensor network states with a stabilizer symmetry, which we call stabilizer PEPS. The cluster state, GHZ state, and states in the toric code belong to this class. We investigate the transmission capacity of stabilizer PEPS for measurement-based quantum wire, and arrive at a complete classification of transmission behaviors. The transmission behaviors fall into 13 classes, one of which corresponds to Clifford quantum cellular automata. In addition, we identify 12 other classes.
翻訳日:2023-05-17 19:54:52 公開日:2023-05-15
# ソーシャルメディアトピック分類のための非パラメトリック時間適応

Non-Parametric Temporal Adaptation for Social Media Topic Classification ( http://arxiv.org/abs/2209.05706v2 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Nikolai Vogler, Junxian He, Omar Florez, Ahmed El-Kishky, Taylor Berg-Kirkpatrick(参考訳) 新しいトレンドがオンラインの議論に影響を与え、個人情報がプライバシーの懸念から削除されるにつれ、ユーザー生成のソーシャルメディアデータは絶えず変化している。 しかし、現在のほとんどのNLPモデルは静的であり、固定されたトレーニングデータに依存しているため、頻繁でコストのかかる再トレーニングなしに、時間的変化(テスト分散シフトと削除されたトレーニングデータの両方)に適応できない。 そこで本研究では, 逐次的ハッシュタグ予測の課題を通して時間適応を考察し, 単純かつ効果的な解として, 再学習を必要としない非パラメトリック高密度検索手法を提案する。 新たに収集された1年単位のtwitterデータセットの時間的分布シフトに関する実験では、そのコストのかかる勾配ベースの更新なしに、最良パラメトリックベースラインよりも64.12%改善する。 我々の高密度検索アプローチは、データプライバシ法に従って動的に削除されるユーザデータにも適しており、計算コストと性能損失は無視できる。

User-generated social media data is constantly changing as new trends influence online discussion and personal information is deleted due to privacy concerns. However, most current NLP models are static and rely on fixed training data, which means they are unable to adapt to temporal change -- both test distribution shift and deleted training data -- without frequent, costly re-training. In this paper, we study temporal adaptation through the task of longitudinal hashtag prediction and propose a non-parametric dense retrieval technique, which does not require re-training, as a simple but effective solution. In experiments on a newly collected, publicly available, year-long Twitter dataset exhibiting temporal distribution shift, our method improves by 64.12% over the best parametric baseline without any of its costly gradient-based updating. Our dense retrieval approach is also particularly well-suited to dynamically deleted user data in line with data privacy laws, with negligible computational cost and performance loss.
翻訳日:2023-05-17 19:44:55 公開日:2023-05-15
# 線形力学系の観測予測における公平性

Fairness in Forecasting of Observations of Linear Dynamical Systems ( http://arxiv.org/abs/2209.05274v4 )

ライセンス: Link先を確認
Quan Zhou, Jakub Marecek, Robert N. Shorten(参考訳) 機械学習では、トレーニングデータはしばしば、下層の人間集団の複数のサブグループの振る舞いを捉えている。 この振る舞いは、しばしば観測されていない状態を持つ未知の力学系の観測としてモデル化される。 しかし、サブグループのトレーニングデータを注意深く制御しない場合には、自己表現バイアスが発生する。 非表現バイアスに対処するため、時系列予測問題において、サブグループフェアネスと即時フェアネスの2つの自然な概念を導入する。 これらの概念は、力学系の学習に予測パリティを拡大する。 また,非可換多項式最適化問題の凸化の階層を用いたフェアネス制約学習問題のグローバル収束法を示す。 また,凸化における疎度を生かして,手法の実行時間を著しく短縮できることを示す。 保険申請に動機づけられた偏りのあるデータセットとよく知られたCompASデータセットに対する実験結果から,本手法の有効性が示された。

In machine learning, training data often capture the behaviour of multiple subgroups of some underlying human population. This behaviour can often be modelled as observations of an unknown dynamical system with an unobserved state. When the training data for the subgroups are not controlled carefully, however, under-representation bias arises. To counter under-representation bias, we introduce two natural notions of fairness in time-series forecasting problems: subgroup fairness and instantaneous fairness. These notions extend predictive parity to the learning of dynamical systems. We also show globally convergent methods for the fairness-constrained learning problems using hierarchies of convexifications of non-commutative polynomial optimisation problems. We also show that by exploiting sparsity in the convexifications, we can reduce the run time of our methods considerably. Our empirical results on a biased data set motivated by insurance applications and the well-known COMPAS data set demonstrate the efficacy of our methods.
翻訳日:2023-05-17 19:44:36 公開日:2023-05-15
# 薬物応答予測のためのハイブリッド量子ニューラルネットワーク

Hybrid quantum neural network for drug response prediction ( http://arxiv.org/abs/2211.05777v2 )

ライセンス: Link先を確認
Asel Sagingalieva, Mohammad Kordzanganeh, Nurbolat Kenbayev, Daria Kosichkina, Tatiana Tomashuk, Alexey Melnikov(参考訳) がんは世界中の死因の1つである。 これは様々な遺伝子変異によって引き起こされ、疾患の全ての事例に固有のものである。 化学療法は非常に深刻な副作用があるため、各患者は個別の治療計画が必要となる。 薬の有効効果を最大化し、副作用を最小化する投与量を見つけることは不可欠である。 ディープニューラルネットワークは、薬物選択を自動化し、改善する。 しかし、トレーニングを行うには多くのデータが必要です。 したがって、少ないデータを必要とする機械学習アプローチが必要である。 ハイブリッド量子ニューラルネットワークは、トレーニングデータの可用性が制限される問題において潜在的に有利であることが示された。 本稿では,8量子ビットと363層からなる畳み込み,グラフ畳み込み,ディープ量子ニューラルネットワークの組み合わせに基づく,薬物応答予測のための新しいハイブリッド量子ニューラルネットワークを提案する。 我々は,がんデータセットにおける薬物感受性の低下について検討し,IC50の薬物効果の予測において,ハイブリッド量子モデルは古典的アナログよりも15%優れていたことを示す。 提案されたハイブリッド量子機械学習モデルは、データ収集が課題であるパーソナライズ医療における問題を解決するために、数千の量子ゲートを持つ深層量子データ効率アルゴリズムへの一歩である。

Cancer is one of the leading causes of death worldwide. It is caused by a variety of genetic mutations, which makes every instance of the disease unique. Since chemotherapy can have extremely severe side effects, each patient requires a personalized treatment plan. Finding the dosages that maximize the beneficial effects of the drugs and minimize their adverse side effects is vital. Deep neural networks automate and improve drug selection. However, they require a lot of data to be trained on. Therefore, there is a need for machine-learning approaches that require less data. Hybrid quantum neural networks were shown to provide a potential advantage in problems where training data availability is limited. We propose a novel hybrid quantum neural network for drug response prediction, based on a combination of convolutional, graph convolutional, and deep quantum neural layers of 8 qubits with 363 layers. We test our model on the reduced Genomics of Drug Sensitivity in Cancer dataset and show that the hybrid quantum model outperforms its classical analog by 15% in predicting IC50 drug effectiveness values. The proposed hybrid quantum machine learning model is a step towards deep quantum data-efficient algorithms with thousands of quantum gates for solving problems in personalized medicine, where data collection is a challenge.
翻訳日:2023-05-17 19:37:41 公開日:2023-05-15
# 蛍光強度三重相関によるAb初期空間位相検索

Ab Initio Spatial Phase Retrieval via Fluorescence Intensity Triple Correlations ( http://arxiv.org/abs/2210.03793v2 )

ライセンス: Link先を確認
Nolan Peard, Kartik Ayyer, and Henry N. Chapman(参考訳) 非コヒーレントエミッタからの2次強度相関は、空間分布のフーリエ変換係数を明らかにすることができるが、実空間への完全一般フーリエ変換を可能にするための位相の検索は依然として困難である。 3階の強度相関による位相検索は、計算において未対応の符号問題を単純化する特別なエミッタ構成に依存している。 この符号問題の完全な処理がなければ、エミッターの真に任意の配置からフーリエ位相を検索する一般的なケースは不可能である。 本稿では, 強度三重相関を用いた ab initio 相の一般検索法について述べる。 シミュレーションは、撮像星や蛍光原子や分子に応用できる非コヒーレントエミッターのクラスターの正確な位相検索を示す。 この研究により、フーリエ変換を直接実行し、遠方界の強度相関のみを通して任意の独立したエミッター配列の画像を再構成することができるようになった。

Second-order intensity correlations from incoherent emitters can reveal the Fourier transform modulus of their spatial distribution, but retrieving the phase to enable completely general Fourier inversion to real space remains challenging. Phase retrieval via the third-order intensity correlations has relied on special emitter configurations which simplified an unaddressed sign problem in the computation. Without a complete treatment of this sign problem, the general case of retrieving the Fourier phase from a truly arbitrary configuration of emitters is not possible. In this paper, a general method for ab initio phase retrieval via the intensity triple correlations is described. Simulations demonstrate accurate phase retrieval for clusters of incoherent emitters which could be applied to imaging stars or fluorescent atoms and molecules. With this work, it is now finally tractable to perform Fourier inversion directly and reconstruct images of arbitrary arrays of independent emitters via far-field intensity correlations alone.
翻訳日:2023-05-17 19:35:16 公開日:2023-05-15
# 言語間移動のためのフラストレーションやすいラベル投影法

Frustratingly Easy Label Projection for Cross-lingual Transfer ( http://arxiv.org/abs/2211.15613v4 )

ライセンス: Link先を確認
Yang Chen, Chao Jiang, Alan Ritter, Wei Xu(参考訳) 訓練データを多くの言語に翻訳することは、言語間転送を改善するための実用的な解決策として現れてきた。 情報抽出や質問応答などのスパンレベルのアノテーションを含むタスクには、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベル投影ステップが必要である。 近年, ラベル付きスパンの周囲に特別なマーカーを挿入することにより, 翻訳と投影を共同で行うための簡易なマーク翻訳手法が試みられている。 しかし、我々の知る限り、この手法が単語アライメントに基づく従来のアノテーション投影とどのように比較されるかについては、実証的な分析は行われていない。 本稿では,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる広範な実証的研究を行い,両手法の有効性と限界を評価し,文献における重要なギャップを埋める。 実験結果から,我々はEasyProjectと呼ぶマーク-then-translateの最適化版を多くの言語に適用しやすく,驚くほどうまく動作し,より複雑な単語アライメント方式よりも優れていることがわかった。 エンドタスクのパフォーマンスに影響を与えるいくつかの重要な要因を分析し、翻訳後のラベルスパン境界を正確に保存できるので、EasyProjectがうまく機能することを示す。 すべてのコードとデータを公開します。

Translating training data into many languages has emerged as a practical solution for improving cross-lingual transfer. For tasks that involve span-level annotations, such as information extraction or question answering, an additional label projection step is required to map annotated spans onto the translated texts. Recently, a few efforts have utilized a simple mark-then-translate method to jointly perform translation and projection by inserting special markers around the labeled spans in the original sentence. However, as far as we are aware, no empirical analysis has been conducted on how this approach compares to traditional annotation projection based on word alignment. In this paper, we present an extensive empirical study across 57 languages and three tasks (QA, NER, and Event Extraction) to evaluate the effectiveness and limitations of both methods, filling an important gap in the literature. Experimental results show that our optimized version of mark-then-translate, which we call EasyProject, is easily applied to many languages and works surprisingly well, outperforming the more complex word alignment-based methods. We analyze several key factors that affect the end-task performance, and show EasyProject works well because it can accurately preserve label span boundaries after translation. We will publicly release all our code and data.
翻訳日:2023-05-17 19:27:35 公開日:2023-05-15
# 超大語彙を持つ大規模事前学習モデル:ヘブライ語のBERTモデルの対比分析と、その全てを上回る新しいモデル

Large Pre-Trained Models with Extra-Large Vocabularies: A Contrastive Analysis of Hebrew BERT Models and a New One to Outperform Them All ( http://arxiv.org/abs/2211.15199v2 )

ライセンス: Link先を確認
Eylon Gueta, Avi Shmidman, Shaltiel Shmidman, Cheyn Shmuel Shmidman, Joshua Guedalia, Moshe Koppel, Dan Bareket, Amit Seker, Reut Tsarfaty(参考訳) 我々は,従来のヘブライ語plmよりもはるかに大きな語彙(128k項目)を用いた現代ヘブライ語のための新しい事前学習言語モデル(plm)を提案する。 我々は,従来のヘブライ語 PLM (mBERT, heBERT, AlephBERT) に対して,このモデルを対照的に解析し,より大きな語彙がタスク性能に与える影響を評価する。 実験の結果、より大きな語彙は分割を減らし、分割を減らすことは、異なるタスクをまたいだモデルの性能向上に役立つことがわかった。 すべての新しいモデルにおいて、Morphological Segmentation、POS Tagging、Full Morphological Analysis、NER、Sentiment Analysisを含むすべてのHebrewベンチマークで新しいSOTAを実現している。 その後、レイヤ数やトレーニングデータだけでなく、その語彙の観点からも大きなplmを提唱します。 制限のない使用のために、新しいモデルを公開しています。

We present a new pre-trained language model (PLM) for modern Hebrew, termed AlephBERTGimmel, which employs a much larger vocabulary (128K items) than standard Hebrew PLMs before. We perform a contrastive analysis of this model against all previous Hebrew PLMs (mBERT, heBERT, AlephBERT) and assess the effects of larger vocabularies on task performance. Our experiments show that larger vocabularies lead to fewer splits, and that reducing splits is better for model performance, across different tasks. All in all this new model achieves new SOTA on all available Hebrew benchmarks, including Morphological Segmentation, POS Tagging, Full Morphological Analysis, NER, and Sentiment Analysis. Subsequently we advocate for PLMs that are larger not only in terms of number of layers or training data, but also in terms of their vocabulary. We release the new model publicly for unrestricted use.
翻訳日:2023-05-17 19:27:12 公開日:2023-05-15
# c-TPE:高パラメータ最適化のための不等式制約付き木構造パーゼン推定器

c-TPE: Tree-structured Parzen Estimator with Inequality Constraints for Expensive Hyperparameter Optimization ( http://arxiv.org/abs/2211.14411v3 )

ライセンス: Link先を確認
Shuhei Watanabe, Frank Hutter(参考訳) ハイパーパラメータ最適化(hpo)は、ディープラーニングアルゴリズムの強力なパフォーマンスに不可欠であり、現実世界のアプリケーションは、しばしばメモリ使用量やパフォーマンス要求の遅延といったいくつかの制約を課す。 本研究では,多用途ベイズ最適化手法である木構造パルゼン推定器(tree-structured parzen estimator, tpe)の拡張である制約付きtpe (c-tpe) を提案する。 提案するエクステンションは,既存の取得関数とオリジナルのTPEの単純な組み合わせに留まらず,パフォーマンスの低下の原因となる問題に対処する修正も含んでいる。 我々はこれらの修正を経験的および理論的に徹底的に分析し、これらの課題を効果的に克服する方法についての洞察を提供する。 実験では,C-TPEは,不等式制約のある81のHPOに対して,統計的に有意な既存手法の中で最高の平均ランク性能を示すことを示した。 ベースラインの欠如により,Appendix D におけるハードコントラスト最適化への本手法の適用性についてのみ論じる。

Hyperparameter optimization (HPO) is crucial for strong performance of deep learning algorithms and real-world applications often impose some constraints, such as memory usage, or latency on top of the performance requirement. In this work, we propose constrained TPE (c-TPE), an extension of the widely-used versatile Bayesian optimization method, tree-structured Parzen estimator (TPE), to handle these constraints. Our proposed extension goes beyond a simple combination of an existing acquisition function and the original TPE, and instead includes modifications that address issues that cause poor performance. We thoroughly analyze these modifications both empirically and theoretically, providing insights into how they effectively overcome these challenges. In the experiments, we demonstrate that c-TPE exhibits the best average rank performance among existing methods with statistical significance on 81 expensive HPO with inequality constraints. Due to the lack of baselines, we only discuss the applicability of our method to hard-constrained optimization in Appendix D.
翻訳日:2023-05-17 19:26:36 公開日:2023-05-15
# Web-Scraped Multimodal Data Exhibit Sexual Objectification Bias を用いたコントラスト言語ビジョンAIモデル

Contrastive Language-Vision AI Models Pretrained on Web-Scraped Multimodal Data Exhibit Sexual Objectification Bias ( http://arxiv.org/abs/2212.11261v2 )

ライセンス: Link先を確認
Robert Wolfe, Yiwei Yang, Bill Howe, Aylin Caliskan(参考訳) ウェブスクレイプで訓練された9つの言語ビジョンaiモデルと対照的な言語イメージ前訓練(clip)の目的を、心理学者が研究したバイアスの証拠として評価する: 感情のような人間の特徴が無視され、その人物が身体として扱われるときに起こる、少女と女性の性的対象化。 心理学における3つの実験を再現し、その現象がAIで持続していることを示す。 第1の実験では、性的対象化と感情データベースからの女性の標準化されたイメージを使用し、人間の特性が対象化された女性のイメージとは無関係であることを見出した。 埋め込み関連テスト (eats) は怒り (d >0.80) と悲しみ (d >0.50) の両方に対して大きな効果を返し、完全に服を着た被験者のイメージと感情を関連付ける。 GRAD-CAMサリエンシマップは、CLIPが対象画像の感情表現から逸脱していることを示している。 自動画像キャプション装置(antarctic captions)は、完全に服を着た女性の画像よりも、部分的に服を着た女性の画像の50%未満の感情を示す単語を含む。 第3の実験では、女性専門家(科学者、医師、役員)のイメージは、男性専門家のイメージと比較して性的な説明に結びついていることが判明した。 第4の実験では、"a [age] old girl"のプロンプトが、VQGAN-CLIPとStable Diffusionの73%の時間(NSFW分類器によって決定される)で性的なイメージを生成する。 この証拠は、ウェブスクラップで訓練された言語ビジョンAIモデルは、下流のアプリケーションに伝播する性的対象化のバイアスを学ぶことを示している。

Nine language-vision AI models trained on web scrapes with the Contrastive Language-Image Pretraining (CLIP) objective are evaluated for evidence of a bias studied by psychologists: the sexual objectification of girls and women, which occurs when a person's human characteristics, such as emotions, are disregarded and the person is treated as a body. We replicate three experiments in psychology quantifying sexual objectification and show that the phenomena persist in AI. A first experiment uses standardized images of women from the Sexual OBjectification and EMotion Database, and finds that human characteristics are disassociated from images of objectified women: the model's recognition of emotional state is mediated by whether the subject is fully or partially clothed. Embedding association tests (EATs) return significant effect sizes for both anger (d >0.80) and sadness (d >0.50), associating images of fully clothed subjects with emotions. GRAD-CAM saliency maps highlight that CLIP gets distracted from emotional expressions in objectified images. A second experiment measures the effect in a representative application: an automatic image captioner (Antarctic Captions) includes words denoting emotion less than 50% as often for images of partially clothed women than for images of fully clothed women. A third experiment finds that images of female professionals (scientists, doctors, executives) are likely to be associated with sexual descriptions relative to images of male professionals. A fourth experiment shows that a prompt of "a [age] year old girl" generates sexualized images (as determined by an NSFW classifier) up to 73% of the time for VQGAN-CLIP and Stable Diffusion; the corresponding rate for boys never surpasses 9%. The evidence indicates that language-vision AI models trained on web scrapes learn biases of sexual objectification, which propagate to downstream applications.
翻訳日:2023-05-17 19:19:39 公開日:2023-05-15
# 適応型ポリトープによるニューラルネットワーク制御システムの到達可能性自動解析

Automated Reachability Analysis of Neural Network-Controlled Systems via Adaptive Polytopes ( http://arxiv.org/abs/2212.07553v3 )

ライセンス: Link先を確認
Taha Entesari, Mahyar Fazlyab(参考訳) 到達可能な力学系の集合を過度に近似することは、安全性検証と堅牢な制御合成における根本的な問題である。 これらの集合の表現は計算複雑性と近似誤差に影響を与える重要な要素である。 本稿では,適応テンプレートポリトープを用いたニューラルネットワーク力学系の到達可能な集合を近似する新しい手法を提案する。 線形層の特異値分解と活性化関数の形状を用いて、各段階におけるポリトープの幾何学を真の到達可能な集合の幾何学に適応させる。 次に、推定テンプレートによる到達可能な集合の正確なオーバー近似を計算するためのブランチ・アンド・バウンド法を提案する。 本稿では,ニューラルネットワーク制御による線形システムの到達可能性解析における提案手法の有用性について述べる。

Over-approximating the reachable sets of dynamical systems is a fundamental problem in safety verification and robust control synthesis. The representation of these sets is a key factor that affects the computational complexity and the approximation error. In this paper, we develop a new approach for over-approximating the reachable sets of neural network dynamical systems using adaptive template polytopes. We use the singular value decomposition of linear layers along with the shape of the activation functions to adapt the geometry of the polytopes at each time step to the geometry of the true reachable sets. We then propose a branch-and-bound method to compute accurate over-approximations of the reachable sets by the inferred templates. We illustrate the utility of the proposed approach in the reachability analysis of linear systems driven by neural network controllers.
翻訳日:2023-05-17 19:17:10 公開日:2023-05-15
# D適応による学習時間自由学習

Learning-Rate-Free Learning by D-Adaptation ( http://arxiv.org/abs/2301.07733v4 )

ライセンス: Link先を確認
Aaron Defazio and Konstantin Mishchenko(参考訳) d-適応(d-adaptation)は、バックトラッキングやラインサーチなしに凸リプシッツ関数を最小化するための収束率を漸近的に達成し、ステップごとに追加の関数値や勾配評価を行わない学習率を自動的に設定する手法である。 本手法は,収束率に乗算的ログ係数を付加することなく,このクラスで最初のハイパーパラメータフリーメソッドである。 本手法のSGDおよびAdam変種に対する広範な実験を行い,大規模ビジョンや言語問題を含む12以上の機械学習問題に対して手作業による学習率を自動的にマッチングする手法を提案する。 オープンソース実装が利用可能だ。

D-Adaptation is an approach to automatically setting the learning rate which asymptotically achieves the optimal rate of convergence for minimizing convex Lipschitz functions, with no back-tracking or line searches, and no additional function value or gradient evaluations per step. Our approach is the first hyper-parameter free method for this class without additional multiplicative log factors in the convergence rate. We present extensive experiments for SGD and Adam variants of our method, where the method automatically matches hand-tuned learning rates across more than a dozen diverse machine learning problems, including large-scale vision and language problems. An open-source implementation is available.
翻訳日:2023-05-17 19:08:32 公開日:2023-05-15
# ViT-AE++:自己教師型医用画像表現のための視覚変換器オートエンコーダの改良

ViT-AE++: Improving Vision Transformer Autoencoder for Self-supervised Medical Image Representations ( http://arxiv.org/abs/2301.07382v2 )

ライセンス: Link先を確認
Chinmay Prabhakar, Hongwei Bran Li, Jiancheng Yang, Suprosana Shit, Benedikt Wiestler, and Bjoern Menze(参考訳) 自己教師付き学習は、アノテーションなしでデータからデータ駆動表現を学ぶことで注目を集めている。 He et al. (2021) による視覚トランスフォーマーベースのオートエンコーダ (ViT-AE) は、パッチマスキング戦略を用いて有意義な潜在空間を学習する。 本稿では,2次元および3次元の医用画像をより効果的に表現するために,ViT-AE++(ViT-AE++)の改良に焦点を当てる。 訓練中に表現力を高めるための2つの新しい損失関数を提案する。 最初の損失項は、構造化された依存関係を考慮し、間接的に表現を改善することで自己再構成を改善することを目的としている。 第2の損失項は、対照的な損失を利用して、2つのランダムにマスキングされたビューから直接表現を最適化する。 vit-ae++を体積医用画像の3dモデルに拡張した。 自然画像と医用画像の両方においてVT-AE++を広範囲に評価し,バニラVT-AEよりも一貫した改善と,他のコントラスト学習アプローチよりも優位性を示した。 コードはこちら。 https://github.com/chinmay5/vit_ae_plus_plus.git。

Self-supervised learning has attracted increasing attention as it learns data-driven representation from data without annotations. Vision transformer-based autoencoder (ViT-AE) by He et al. (2021) is a recent self-supervised learning technique that employs a patch-masking strategy to learn a meaningful latent space. In this paper, we focus on improving ViT-AE (nicknamed ViT-AE++) for a more effective representation of 2D and 3D medical images. We propose two new loss functions to enhance the representation during training. The first loss term aims to improve self-reconstruction by considering the structured dependencies and indirectly improving the representation. The second loss term leverages contrastive loss to optimize the representation from two randomly masked views directly. We extended ViT-AE++ to a 3D fashion for volumetric medical images as an independent contribution. We extensively evaluate ViT-AE++ on both natural images and medical images, demonstrating consistent improvement over vanilla ViT-AE and its superiority over other contrastive learning approaches. Codes are here: https://github.com/chinmay5/vit_ae_plus_plus.git.
翻訳日:2023-05-17 19:08:17 公開日:2023-05-15
# Pic2Word:ゼロショット合成画像検索のための単語への画像マッピング

Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval ( http://arxiv.org/abs/2302.03084v2 )

ライセンス: Link先を確認
Kuniaki Saito, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee, Kate Saenko, Tomas Pfister(参考訳) 合成画像検索(cir)では、ユーザはクエリ画像をテキストと組み合わせ、目的とするターゲットを記述する。 既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。 このような三重項のラベル付けは高価であり、CIRの適用性を阻害する。 本研究では,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的とした,Zero-Shot Composed Image Retrieval (ZS-CIR) という重要な課題について検討する。 そこで本研究では,弱いラベル付きイメージキャプチャペアとラベルなしの画像データセットのみを必要とするpic2wordという新しい手法を提案する。 既存の教師付きCIRモデルとは異なり、弱いラベル付きまたはラベル付きデータセットでトレーニングされたモデルでは、属性編集、オブジェクト合成、ドメイン変換など、さまざまなZS-CIRタスクにまたがる強力な一般化が示される。 提案手法は、一般的なCIRベンチマーク、CIRR、Fashion-IQにおいて、いくつかの教師付きCIR手法より優れている。 コードはhttps://github.com/google-research/composed_image_retrievalで公開される予定だ。

In Composed Image Retrieval (CIR), a user combines a query image with text to describe their intended target. Existing methods rely on supervised learning of CIR models using labeled triplets consisting of the query image, text specification, and the target image. Labeling such triplets is expensive and hinders broad applicability of CIR. In this work, we propose to study an important task, Zero-Shot Composed Image Retrieval (ZS-CIR), whose goal is to build a CIR model without requiring labeled triplets for training. To this end, we propose a novel method, called Pic2Word, that requires only weakly labeled image-caption pairs and unlabeled image datasets to train. Unlike existing supervised CIR models, our model trained on weakly labeled or unlabeled datasets shows strong generalization across diverse ZS-CIR tasks, e.g., attribute editing, object composition, and domain conversion. Our approach outperforms several supervised CIR methods on the common CIR benchmark, CIRR and Fashion-IQ. Code will be made publicly available at https://github.com/google-research/composed_image_retrieval.
翻訳日:2023-05-17 18:59:38 公開日:2023-05-15
# ChatGPTを用いたゼロショット臨床エンティティ認識

Zero-shot Clinical Entity Recognition using ChatGPT ( http://arxiv.org/abs/2303.16416v2 )

ライセンス: Link先を確認
Yan Hu, Iqra Ameer, Xu Zuo, Xueqing Peng, Yujia Zhou, Zehan Li, Yiming Li, Jianfu Li, Xiaoqian Jiang, Hua Xu(参考訳) 本研究では,2010 年の i2b2 チャレンジで定義された臨床名称のエンティティ認識タスクに対して,OpenAI が開発した大規模言語モデル ChatGPT を,2 つの異なるプロンプト戦略を持つゼロショット設定で検討した。 同様のゼロショット設定でGPT-3と比較し,MTSamplesの合成臨床ノートを用いて微調整したBioClinicalBERTモデルと比較した。 その結果,chatgpt はゼロショット設定で gpt-3 を上回り,f1 スコアは 0.418 (vs.0.250) と 0.620 (vs. 0.480) で一致した。 さらにプロンプトはChatGPTの性能に大きな影響を与え、2つの異なるプロンプト戦略に対して0.628対0.541の緩和マッチングF1スコアが与えられた。 ChatGPTの性能は、教師付きBioClinicalBERTモデル(つまり、ゆるやかなマッチングF1スコア0.620 vs. 0.888)よりも依然として低かったが、本研究では、ゼロショット設定で臨床NERタスクに対するChatGPTの大きな可能性を示した。

In this study, we investigated the potential of ChatGPT, a large language model developed by OpenAI, for the clinical named entity recognition task defined in the 2010 i2b2 challenge, in a zero-shot setting with two different prompt strategies. We compared its performance with GPT-3 in a similar zero-shot setting, as well as a fine-tuned BioClinicalBERT model using a set of synthetic clinical notes from MTSamples. Our findings revealed that ChatGPT outperformed GPT-3 in the zero-shot setting, with F1 scores of 0.418 (vs.0.250) and 0.620 (vs. 0.480) for exact- and relaxed-matching, respectively. Moreover, prompts affected ChatGPT's performance greatly, with relaxed-matching F1 scores of 0.628 vs.0.541 for two different prompt strategies. Although ChatGPT's performance was still lower than that of the supervised BioClinicalBERT model (i.e., relaxed-matching F1 scores of 0.620 vs. 0.888), our study demonstrates the great potential of ChatGPT for clinical NER tasks in a zero-shot setting, which is much more appealing as it does not require any annotation.
翻訳日:2023-05-17 18:41:29 公開日:2023-05-15
# Mind the Backbone:ロバストオブジェクト検出のためのバックボーン歪みの最小化

Mind the Backbone: Minimizing Backbone Distortion for Robust Object Detection ( http://arxiv.org/abs/2303.14744v2 )

ライセンス: Link先を確認
Kuniaki Saito, Donghyun Kim, Piotr Teterwak, Rogerio Feris, Kate Saenko(参考訳) ドメインシフトにロバストなオブジェクト検出器の構築は、現実世界のアプリケーションにとって非常に重要です。 以前のアプローチでは、事前トレーニングされたバックボーンを微調整し、それをin-distribution (id)データにオーバーフィットさせ、out-of-distribution (ood) 一般化に有用な特徴を歪めるリスクを負う。 本稿では,バックボーンの脆弱性を特徴的歪みを測定する手法としてRGN(Relative Gradient Norm)を提案し,高いRGNがOOD性能の低下と実際に相関していることを示す。 RGNの分析は興味深い結果をもたらす: 一部のバックボーンは微調整中にOODの堅牢性を失うが、そのアーキテクチャが初期モデルから過度にパラメータが変化するのを防ぐため、ロバスト性を失う。 これらの結果から,両バックボーンのOOD堅牢性を高めるためのレシピを提案する。 具体的には、調整したバックボーンが一般化可能な特徴を失うのを防ぐため、勾配更新を最小化するための正規化とアーキテクチャの選択について検討する。 提案手法は互いに補完し,多様なアーキテクチャやデータセットのベースラインよりも大幅に改善されている。 コードはhttps://github.com/visionlearninggroup/mind_backで入手できる。

Building object detectors that are robust to domain shifts is critical for real-world applications. Prior approaches fine-tune a pre-trained backbone and risk overfitting it to in-distribution (ID) data and distorting features useful for out-of-distribution (OOD) generalization. We propose to use Relative Gradient Norm (RGN) as a way to measure the vulnerability of a backbone to feature distortion, and show that high RGN is indeed correlated with lower OOD performance. Our analysis of RGN yields interesting findings: some backbones lose OOD robustness during fine-tuning, but others gain robustness because their architecture prevents the parameters from changing too much from the initial model. Given these findings, we present recipes to boost OOD robustness for both types of backbones. Specifically, we investigate regularization and architectural choices for minimizing gradient updates so as to prevent the tuned backbone from losing generalizable features. Our proposed techniques complement each other and show substantial improvements over baselines on diverse architectures and datasets. Code is available at https://github.com/VisionLearningGroup/mind_back.
翻訳日:2023-05-17 18:40:25 公開日:2023-05-15
# 合成体験リプレイ

Synthetic Experience Replay ( http://arxiv.org/abs/2303.06614v2 )

ライセンス: Link先を確認
Cong Lu, Philip J. Ball, Yee Whye Teh, Jack Parker-Holder(参考訳) 過去10年の主なテーマは、大規模なニューラルネットワークと大規模なデータセットを組み合わせることで、素晴らしい結果が得られることだ。 deep reinforcement learning(rl)では、このパラダイムは経験リプレイを通じて一般的に実現され、過去の経験のデータセットがポリシやバリュー関数のトレーニングに使用される。 しかし、教師付き学習や自己教師型学習とは異なり、RLエージェントは、しばしば制限される独自のデータを集める必要がある。 したがって、ディープラーニングのメリットを享受することは困難であり、トレーニング開始時に小さなニューラルネットワークでさえ過度に適合する可能性がある。 本研究では,生成モデルにおける最近の大きな進歩を活かし,エージェントの収集した経験を柔軟に評価するための拡散ベースアプローチであるsynthetic experience replay(synther)を提案する。 提案手法では,syntherはオフライン環境とオンライン環境でのrlエージェントのトレーニングに有効な手法であることを示す。 オフライン設定では、小さなオフラインデータセットをアップサンプリングする際の大幅な改善を観察し、追加の合成データによって、より大きなネットワークを効果的にトレーニングすることができることを確認する。 さらに、SynthERはオンラインエージェントが以前よりもはるかに高い更新とデータの比率でトレーニングできるので、アルゴリズムの変更なしにサンプル効率が大幅に向上する。 我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると考えている。 最後に、コードをhttps://github.com/conglu 1997/SynthER.comでオープンソース化します。

A key theme in the past decade has been that when large neural networks and large datasets combine they can produce remarkable results. In deep reinforcement learning (RL), this paradigm is commonly made possible through experience replay, whereby a dataset of past experiences is used to train a policy or value function. However, unlike in supervised or self-supervised learning, an RL agent has to collect its own data, which is often limited. Thus, it is challenging to reap the benefits of deep learning, and even small neural networks can overfit at the start of training. In this work, we leverage the tremendous recent progress in generative modeling and propose Synthetic Experience Replay (SynthER), a diffusion-based approach to flexibly upsample an agent's collected experience. We show that SynthER is an effective method for training RL agents across offline and online settings, in both proprioceptive and pixel-based environments. In offline settings, we observe drastic improvements when upsampling small offline datasets and see that additional synthetic data also allows us to effectively train larger networks. Furthermore, SynthER enables online agents to train with a much higher update-to-data ratio than before, leading to a significant increase in sample efficiency, without any algorithmic changes. We believe that synthetic training data could open the door to realizing the full potential of deep learning for replay-based RL algorithms from limited data. Finally, we open-source our code at https://github.com/conglu1997/SynthER.
翻訳日:2023-05-17 18:39:13 公開日:2023-05-15
# シナジー関数の分散: 機械学習説明可能性のためのゲーム理論的相互作用手法の統合

Distributing Synergy Functions: Unifying Game-Theoretic Interaction Methods for Machine-Learning Explainability ( http://arxiv.org/abs/2305.03100v2 )

ライセンス: Link先を確認
Daniel Lundstrom and Meisam Razaviyayn(参考訳) ディープラーニングはコンピュータビジョンから自然言語処理まで、機械学習の多くの領域に革命をもたらしたが、これらの高性能モデルは一般に「ブラックボックス」である。 このようなモデルを説明することで、AIによる意思決定に対する透明性と信頼が向上し、堅牢性や公正性といった他の実践的なニーズを理解する上で必要となる。 モデルの透明性を高める一般的な手段は、個々の入力がモデル出力(属性と呼ばれる)と入力のグループ間の相互作用の大きさにどのように貢献するかを定量化することである。 これらの手法はゲーム理論から概念や結果をインポートし、属性や相互作用を生成する。 本研究は,ゲーム理論に触発された帰属と$k^\text{th}$-orderインタラクションの統一フレームワークを提案する。 連続的な入力設定では、モデム的な仮定により、相乗効果と呼ばれる特徴間の相互作用の完全な説明が可能であることを示す。 相乗効果を分配する政策によって,様々な手法がどう特徴づけられるかを明らかにする。 また,相乗関数の一種であるモノミアルに対する作用が勾配ベース手法の特徴であることを示し,特異な勾配ベース手法を導入する。 様々な基準の組み合わせは、属性/相互作用法を一意に定義する。 したがって、コミュニティは属性とインタラクションメソッドを開発し、採用する際に、目標とコンテキストを特定する必要がある。

Deep learning has revolutionized many areas of machine learning, from computer vision to natural language processing, but these high-performance models are generally "black box." Explaining such models would improve transparency and trust in AI-powered decision making and is necessary for understanding other practical needs such as robustness and fairness. A popular means of enhancing model transparency is to quantify how individual inputs contribute to model outputs (called attributions) and the magnitude of interactions between groups of inputs. A growing number of these methods import concepts and results from game theory to produce attributions and interactions. This work presents a unifying framework for game-theory-inspired attribution and $k^\text{th}$-order interaction methods. We show that, given modest assumptions, a unique full account of interactions between features, called synergies, is possible in the continuous input setting. We identify how various methods are characterized by their policy of distributing synergies. We also demonstrate that gradient-based methods are characterized by their actions on monomials, a type of synergy function, and introduce unique gradient-based methods. We show that the combination of various criteria uniquely defines the attribution/interaction methods. Thus, the community needs to identify goals and contexts when developing and employing attribution and interaction methods.
翻訳日:2023-05-17 18:21:20 公開日:2023-05-15
# LLT: 線形法則に基づく特徴空間変換のためのRパッケージ

LLT: An R package for Linear Law-based Feature Space Transformation ( http://arxiv.org/abs/2304.14211v2 )

ライセンス: Link先を確認
Marcell T. Kurbucz, P\'eter P\'osfay, Antal Jakov\'ac(参考訳) 線形法則に基づく特徴空間変換(LLT)アルゴリズムの目標は、単変量および多変量時系列の分類を支援することである。 LLTと呼ばれる提示されたRパッケージは、柔軟だがユーザフレンドリーな方法でこのアルゴリズムを実装している。 このパッケージは、まずインスタンスをトレーニングとテストセットに分割する。 次に、時間遅延埋め込みとスペクトル分解技術を用いて、トレーニングセット内の各入力シーケンス(初期特徴)の制御パターン(線形法則と呼ばれる)を識別する。 最後に、テストセットの初期特徴を変換するために、トレーニングセットの線形法則を適用します。 これらのステップは、trainTest、trainLaw、testTransと呼ばれる3つの別々の関数によって実行される。 アプリケーションには事前定義されたデータ構造が必要ですが、高速な計算には組み込み関数のみを使用します。 LLT Rパッケージと適切なデータ構造を持つサンプルデータセットはGitHubで公開されている。

The goal of the linear law-based feature space transformation (LLT) algorithm is to assist with the classification of univariate and multivariate time series. The presented R package, called LLT, implements this algorithm in a flexible yet user-friendly way. This package first splits the instances into training and test sets. It then utilizes time-delay embedding and spectral decomposition techniques to identify the governing patterns (called linear laws) of each input sequence (initial feature) within the training set. Finally, it applies the linear laws of the training set to transform the initial features of the test set. These steps are performed by three separate functions called trainTest, trainLaw, and testTrans. Their application requires a predefined data structure; however, for fast calculation, they use only built-in functions. The LLT R package and a sample dataset with the appropriate data structure are publicly available on GitHub.
翻訳日:2023-05-17 18:19:51 公開日:2023-05-15
# 不均衡ラベルサンプル分布を用いたファッション検出のためのデータ効率向上

Data Efficient Training with Imbalanced Label Sample Distribution for Fashion Detection ( http://arxiv.org/abs/2305.04379v3 )

ライセンス: Link先を確認
Xin Shen, Praful Agrawal, Zhongwei Cheng(参考訳) マルチラベル分類モデルは、視覚に基づくラベル予測や言語に基づく感情分類など、Eコマースに幅広い応用がある。 実世界でこれらのタスクの満足なパフォーマンスを達成する上での大きな課題は、データ分散の顕著な不均衡である。 例えば、ファッション属性検出では、ほとんどのeコマースファッションカタログにおいて、1000製品中「パフスリーブ」の服は6つしかない。 この問題に対処するために、大量のアノテーションを取得して十分なサンプルを集めるのではなく、よりデータ効率のよいモデルトレーニング手法を検討する。 本稿では,長いデータ分布を持つ多ラベル分類のためのディープニューラルネットワーク(DNN)の性能向上を目的とした,最先端の重み付き目的関数を提案する。 本実験では,ファッションアパレルの画像に基づく属性分類を行い,非重み付けおよび逆周波数重み付け機構と比較して,新しい重み付け法に好適な性能を示す。 ファッション業界で人気のファッション属性タイプであるスリーブタイプとアーチタイプを用いた新しい重み付け機構の堅牢性をさらに評価した。

Multi-label classification models have a wide range of applications in E-commerce, including visual-based label predictions and language-based sentiment classifications. A major challenge in achieving satisfactory performance for these tasks in the real world is the notable imbalance in data distribution. For instance, in fashion attribute detection, there may be only six 'puff sleeve' clothes among 1000 products in most E-commerce fashion catalogs. To address this issue, we explore more data-efficient model training techniques rather than acquiring a huge amount of annotations to collect sufficient samples, which is neither economic nor scalable. In this paper, we propose a state-of-the-art weighted objective function to boost the performance of deep neural networks (DNNs) for multi-label classification with long-tailed data distribution. Our experiments involve image-based attribute classification of fashion apparels, and the results demonstrate favorable performance for the new weighting method compared to non-weighted and inverse-frequency-based weighting mechanisms. We further evaluate the robustness of the new weighting mechanism using two popular fashion attribute types in today's fashion industry: sleevetype and archetype.
翻訳日:2023-05-17 18:10:05 公開日:2023-05-15
# 自律型GIS:次世代AI搭載GIS

Autonomous GIS: the next-generation AI-powered GIS ( http://arxiv.org/abs/2305.06453v2 )

ライセンス: Link先を確認
Zhenlong Li, Huan Ning(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の自然言語を強く理解し、推論、創造的記述、コード生成、翻訳、情報検索など様々な分野で研究され、応用されてきた。 推論コアとしてLLMを採用することで,自動空間データ収集,解析,可視化による空間問題への対処にLLMの自然言語理解,推論,コーディングにおける汎用能力を活用する,AIを活用した地理情報システム(GIS)として自律GISを導入する。 自律的なGISは、自己生成、自己組織化、自己検証、自己実行、自己成長を含む5つの自律的な目標を達成する必要があると期待する。 我々は,Python 環境で GPT-4 API を用いた LLM-Geo というプロトタイプシステムを開発した。 両方のケーススタディにおいて、LLM-Geoは、集計数、グラフ、マップを含む正確な結果を返却し、手作業の時間を大幅に短縮した。 ロギングやコードテストなどの重要なモジュールがまだいくつか欠けているが、LLM-Geoは、次世代AIによるGISへの潜在的な道筋を示している。 我々は,GIScienceコミュニティに対して,自律型GISの研究・開発により多くの努力を払って,空間分析をより容易に,より早く,よりアクセスしやすいものにすることを提唱する。

Large Language Models (LLMs), such as ChatGPT, demonstrate a strong understanding of human natural language and have been explored and applied in various fields, including reasoning, creative writing, code generation, translation, and information retrieval. By adopting LLM as the reasoning core, we introduce Autonomous GIS as an AI-powered geographic information system (GIS) that leverages the LLM's general abilities in natural language understanding, reasoning and coding for addressing spatial problems with automatic spatial data collection, analysis and visualization. We envision that autonomous GIS will need to achieve five autonomous goals including self-generating, self-organizing, self-verifying, self-executing, and self-growing. We developed a prototype system called LLM-Geo using GPT-4 API in a Python environment, demonstrating what an autonomous GIS looks like and how it delivers expected results without human intervention using two case studies. For both case studies, LLM-Geo returned accurate results, including aggregated numbers, graphs, and maps, significantly reducing manual operation time. Although still lacking several important modules such as logging and code testing, LLM-Geo demonstrates a potential path towards next-generation AI-powered GIS. We advocate for the GIScience community to dedicate more effort to the research and development of autonomous GIS, making spatial analysis easier, faster, and more accessible to a broader audience.
翻訳日:2023-05-17 18:01:53 公開日:2023-05-15
# SoGAR:自己監督型時空間注意に基づく社会集団活動認識

SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition ( http://arxiv.org/abs/2305.06310v2 )

ライセンス: Link先を確認
Naga VS Raviteja Chappa, Pha Nguyen, Alexander H Nelson, Han-Seok Seo, Xin Li, Page Daniel Dobbs, Khoa Luu(参考訳) 本稿では,未ラベル映像データを効果的に活用できる自己教師型トランスフォーマーネットワークを用いた社会集団活動認識(SoGAR)への新たなアプローチを提案する。 時空間情報を抽出するために,フレームレートの異なる局所的およびグローバル的ビューを作成した。 我々の自己監督的目的は、同じビデオのコントラストビューから抽出された特徴が時空間で一定であることを保証する。 提案手法はトランスフォーマーベースのエンコーダを用いてグループアクティビティ認識の弱教師付き設定を緩和する。 トランスモデルの利点を活用することで,時空間次元に沿って長期的関係をモデル化することができる。 提案手法は,JRDB-PAR,NBA,Volleyballの3つのグループ活動認識ベンチマークにおいて,F1スコア,MCA,MPCAの3指標を上回り,最先端の成果を得た。

This paper introduces a novel approach to Social Group Activity Recognition (SoGAR) using Self-supervised Transformers network that can effectively utilize unlabeled video data. To extract spatio-temporal information, we created local and global views with varying frame rates. Our self-supervised objective ensures that features extracted from contrasting views of the same video were consistent across spatio-temporal domains. Our proposed approach is efficient in using transformer-based encoders to alleviate the weakly supervised setting of group activity recognition. By leveraging the benefits of transformer models, our approach can model long-term relationships along spatio-temporal dimensions. Our proposed SoGAR method achieved state-of-the-art results on three group activity recognition benchmarks, namely JRDB-PAR, NBA, and Volleyball datasets, surpassing the current numbers in terms of F1-score, MCA, and MPCA metrics.
翻訳日:2023-05-17 18:00:43 公開日:2023-05-15
# Semantic Embedded Deep Neural Network: マルチラベル画像分類性能向上のためのジェネリックアプローチ

Semantic Embedded Deep Neural Network: A Generic Approach to Boost Multi-Label Image Classification Performance ( http://arxiv.org/abs/2305.05228v2 )

ライセンス: Link先を確認
Xin Shen, Xiaonan Zhao, Rui Luo(参考訳) 細粒度のマルチラベル分類モデルは、ファッション属性の検出からブランド認識まで、視覚的なラベル予測など、amazonのプロダクション機能に幅広く応用されている。 実世界におけるこれらの分類タスクの満足な性能を達成するための課題の一つは、関心領域に焦点を絞って特定の領域に予測する無関係な画素を含む視覚的背景信号である。 本稿では,複数ラベル予測のためのモデル性能向上のための局所化ガイダンスを活用すべく,チャネル毎の注意に基づくモデルを取り入れた空間認識意味的特徴を応用した,汎用的意味埋め込み型深層ニューラルネットワークを提案する。 我々は,avg.relative improvement (avg.relative improvement) を全ラベルのaucスコアで15.27%向上させた。 コア実験とアブレーション研究は、Instagramのファッションアパレルの画像で実行されるマルチラベルファッション属性の分類を含む。 モデルのパフォーマンスを,我々のアプローチ,ベースラインアプローチ,セマンティック機能を活用する3つの代替アプローチと比較した。 結果は我々のアプローチに好成績を示した。

Fine-grained multi-label classification models have broad applications in Amazon production features, such as visual based label predictions ranging from fashion attribute detection to brand recognition. One challenge to achieve satisfactory performance for those classification tasks in real world is the wild visual background signal that contains irrelevant pixels which confuses model to focus onto the region of interest and make prediction upon the specific region. In this paper, we introduce a generic semantic-embedding deep neural network to apply the spatial awareness semantic feature incorporating a channel-wise attention based model to leverage the localization guidance to boost model performance for multi-label prediction. We observed an Avg.relative improvement of 15.27% in terms of AUC score across all labels compared to the baseline approach. Core experiment and ablation studies involve multi-label fashion attribute classification performed on Instagram fashion apparels' image. We compared the model performances among our approach, baseline approach, and 3 alternative approaches to leverage semantic features. Results show favorable performance for our approach.
翻訳日:2023-05-17 17:58:56 公開日:2023-05-15
# 超伝導量子ビットにおける量子ゲートの誤差源

Error Sources of Quantum Gates in Superconducting Qubits ( http://arxiv.org/abs/2305.08916v1 )

ライセンス: Link先を確認
Miha Papi\v{c}, Adrian Auer, In\'es de Vega(参考訳) トランスモンベースの超伝導量子ビットアーキテクチャは、大規模量子計算の実現に最も期待できる候補の1つであるため、実装された量子ゲートにおけるエラーの主な原因は何かを知ることが重要である。 本研究では,単一ゲートと2キュービットゲートの両方の不適合性に対する物理的エラー源の寄与を現実的に評価し,可変カプラを用いたczゲートの非断熱的実装に焦点をあてる。 我々は,非マルコフノイズ,電子的欠陥,チューナブルカプラが計算誤差に与える影響など,関連するすべてのノイズ源について検討する。 さらに,実験結果の少ない一連のゲートの不確実性に対する各ノイズ源の寄与を抽出できる学習ベースフレームワークを提供する。

As transmon based superconducting qubit architectures are one of the most promising candidates for the realization of large-scale quantum computation, it is crucial to know what are the main sources of the error in the implemented quantum gates. In this work we make a realistic assessment of the contributions of physical error sources to the infidelities of both single and two-qubit gates, where we focus on the non-adiabatic implementation of the CZ gate with tunable couplers. We consider all relevant noise sources, including non-Markovian noise, electronics imperfections and the effect of tunable couplers to the error of the computation. Furthermore, we provide a learning based framework that allows to extract the contribution of each noise source to the infidelity of a series of gates with a small number of experimental measurements.
翻訳日:2023-05-17 17:43:16 公開日:2023-05-15
# キラルエッジ状態のトポロジー保護と非線形干渉

Non-Linear Interference Challenging Topological Protection of Chiral Edge States ( http://arxiv.org/abs/2305.08912v1 )

ライセンス: Link先を確認
Benjamin Michen, Jan Carl Budich(参考訳) 我々は,カイラルエッジモードで伝播するウェーブパケットのトポロジカル保護の概念に挑戦する非線形散乱効果について報告する。 具体的には、非線形ポテンシャルを持つフロケット位相系において、キラルエッジモードで伝播する波状パケットが、局所的な波状パケットから散乱して不可逆的に偏向するか、あるいは衝突領域をほぼ線形に通過するかを示す。 これらの2つのシナリオを調整できる実験的なノブは、関連するウェーブパック間の相対位相によって提供される。 この真の非線形干渉現象は、静的不純物からの線形散乱とは対照的であり、トポロジカルエッジ状態を破壊することはできない。 まず, 強度依存性の光学指標を用いて非線形性が設計されているフォトニック結晶設定法について, 実験結果から予測を検証できる2つの物理プラットフォームを提案する。 第2に、非線形グロス・ピタエフスキー方程式によって制御される光学ハニカム格子内の低温原子のボース・アインシュタイン凝縮は、多体相互作用を効果的に説明できる。

We report on a non-linear scattering effect that challenges the notion of topological protection for wave packets propagating in chiral edge modes. Specifically, in a Floquet topological system with a non-linear potential, we demonstrate how a wave packet propagating in a chiral edge mode may be irreversibly deflected by scattering off a localized wave-packet, or pass the collision region virtually unaffected in an approximately linear fashion. An experimentally accessible knob to tune between those two scenarios is provided by the relative phase between the involved wave-packets. This genuinely non-linear interference phenomenon is in stark contrast to linear scattering off a static impurity, which cannot destroy a topological edge state. Besides corroborating our findings with numerically exact simulations, we propose two physical platforms where our predictions may be verified with state of the art experimental techniques: First, a photonic crystal setting where non-linearity has been engineered via an intensity-dependent optical index. Second, a Bose-Einstein condensate of cold atoms in an optical Honeycomb lattice governed by a non-linear Gross-Pitaevskii equation that effectively accounts for many-body interactions.
翻訳日:2023-05-17 17:43:05 公開日:2023-05-15
# Colloquium:量子と古典的な離散時間結晶

Colloquium: Quantum and Classical Discrete Time Crystals ( http://arxiv.org/abs/2305.08904v1 )

ライセンス: Link先を確認
Michael P. Zaletel, Mikhail Lukin, Christopher Monroe, Chetan Nayak, Frank Wilczek, Norman Y. Yao(参考訳) 時間翻訳対称性の自発的な崩壊は、離散時間結晶という新しい物質相の発見につながった。 離散時間結晶は、多体相互作用、集団同期、エルゴディシティの破れの組み合わせによって生じる剛体サブハーモニック振動を示す。 このコロキウムは、量子および古典的な離散時間結晶の研究における最近の理論的および実験的進歩をレビューする。 本稿では, 離散時間結晶の鍵となるエルゴディディティの破壊と, ACジョセフソン効果, 結合地図格子, ファラデー波など, 離散時間結晶の性質の多くを共通する多数の現象の源泉としてのエルゴディディティの遅延に着目した。 理論的には、局在化や予熱化から散逸や誤差補正まで、閉系と開系の両方で時間結晶秩序を安定化させる様々な戦略が存在する。 実験的に、多体量子シミュレーターは、時間結晶秩序のシグネチャを研究するための自然なプラットフォームを提供し、閉じ込められたイオン、固体スピン系、超伝導量子ビットを用いた最近の研究をレビューする。 最後に、このコロキウムは、この分野における卓越した挑戦と、実験と理論の両面での新しい方向性のビジョンを説明することで結論付ける。

The spontaneous breaking of time translation symmetry has led to the discovery of a new phase of matter - the discrete time crystal. Discrete time crystals exhibit rigid subharmonic oscillations, which result from a combination of many-body interactions, collective synchronization, and ergodicity breaking. This Colloquium reviews recent theoretical and experimental advances in the study of quantum and classical discrete time crystals. We focus on the breaking of ergodicity as the key to discrete time crystals and the delaying of ergodicity as the source of numerous phenomena that share many of the properties of discrete time crystals, including the AC Josephson effect, coupled map lattices, and Faraday waves. Theoretically, there exists a diverse array of strategies to stabilize time crystalline order in both closed and open systems, ranging from localization and prethermalization to dissipation and error correction. Experimentally, many-body quantum simulators provide a natural platform for investigating signatures of time crystalline order; recent work utilizing trapped ions, solid-state spin systems, and superconducting qubits will be reviewed. Finally, this Colloquium concludes by describing outstanding challenges in the field and a vision for new directions on both the experimental and theoretical fronts.
翻訳日:2023-05-17 17:42:45 公開日:2023-05-15
# 共通拡散騒音スケジューリングとサンプルステップの欠陥

Common Diffusion Noise Schedules and Sample Steps are Flawed ( http://arxiv.org/abs/2305.08891v1 )

ライセンス: Link先を確認
Shanchuan Lin, Bingchen Liu, Jiashi Li, Xiao Yang(参考訳) 一般的な拡散雑音のスケジュールは、信号対雑音比(snr)をゼロにする最後の時間ステップを強制せず、拡散サンプラーの実装のいくつかは、最後の時間ステップから開始しない。 このような設計には欠陥があり、モデルが推論時に純粋なガウスノイズを与えられるという事実を反映せず、トレーニングと推論の間に相違が生じている。 既存の実装に欠陥のある設計が本当の問題を引き起こすことを示す。 安定拡散(Stable Diffusion)では、モデルが中輝度の画像のみを生成することを厳しく制限し、非常に明るく暗いサンプルを生成するのを防ぐ。 我々は,(1) ノイズスケジュールを再スケールして端末snrをゼロにする,(2) モデルをv予測でトレーニングする,(3) サンプリング器を最後の時間ステップから常に起動するように変更する,(4) 過度な露出を防止するための再スケール分類器フリーガイダンスを提案する。 これらの単純な変更により、トレーニングと推論の間に拡散プロセスが一致し、モデルは元のデータ分布に忠実なサンプルを生成することができる。

We discover that common diffusion noise schedules do not enforce the last timestep to have zero signal-to-noise ratio (SNR), and some implementations of diffusion samplers do not start from the last timestep. Such designs are flawed and do not reflect the fact that the model is given pure Gaussian noise at inference, creating a discrepancy between training and inference. We show that the flawed design causes real problems in existing implementations. In Stable Diffusion, it severely limits the model to only generate images with medium brightness and prevents it from generating very bright and dark samples. We propose a few simple fixes: (1) rescale the noise schedule to enforce zero terminal SNR; (2) train the model with v prediction; (3) change the sampler to always start from the last timestep; (4) rescale classifier-free guidance to prevent over-exposure. These simple changes ensure the diffusion process is congruent between training and inference and allow the model to generate samples more faithful to the original data distribution.
翻訳日:2023-05-17 17:42:23 公開日:2023-05-15
# 差動畳み込みファジィ時系列予測

Differential Convolutional Fuzzy Time Series Forecasting ( http://arxiv.org/abs/2305.08890v1 )

ライセンス: Link先を確認
Tianxiang Zhan, Yuanpeng He, Yong Deng, Zhen Li(参考訳) ファジィ時系列予測(FTSF)は適用範囲が広い典型的な予測手法である。 従来のFTSFは、未定義の機能を認識する能力を失う専門家システムと見なされている。 前述のことがFTSFで予測が下手な理由である。 提案するモデルである差動ファジィ畳み込みニューラルネットワーク(DFCNN)は,畳み込みニューラルネットワークを用いて学習能力でFTSFを再実装する。 DFCNNは潜在的な情報を認識し、予測精度を向上させることができる。 ニューラルネットワークの学習可能な能力のおかげで、FTSFで確立されたファジィルールの長さは、専門家が専門家システムで扱えない任意の長さに拡張される。 同時に、FTSFは非定常時系列の傾向のため、通常、非定常時系列の満足な性能を達成できない。 非定常時系列の傾向はFTSFによって確立されたファジィ集合を無効にし、予測が失敗する原因となる。 DFCNNは差分アルゴリズムを用いて時系列の非定常性を弱め、FTSFが良好な性能で予測できない低い誤差で非定常時系列を予測できる。 多数の実験の後、DFCNNは既存のFTSFや一般的な時系列予測アルゴリズムよりも先行する優れた予測効果を持つ。 最後に、DFCNNはFTSFを改善するためのさらなるアイデアを提供し、継続的な研究価値を保持している。

Fuzzy time series forecasting (FTSF) is a typical forecasting method with wide application. Traditional FTSF is regarded as an expert system which leads to lose the ability to recognize undefined feature. The mentioned is main reason of poor forecasting with FTSF. To solve the problem, the proposed model Differential Fuzzy Convolutional Neural Network (DFCNN) utilizes convolution neural network to re-implement FTSF with learnable ability. DFCNN is capable of recognizing the potential information and improve the forecasting accuracy. Thanks to learnable ability of neural network, length of fuzzy rules established in FTSF is expended to arbitrary length which expert is not able to be handle by expert system. At the same time, FTSF usually cannot achieve satisfactory performance of non-stationary time series due to trend of non-stationary time series. The trend of non-stationary time series causes the fuzzy set established by FTSF to invalid and cause the forecasting to fail. DFCNN utilizes the Difference algorithm to weaken the non-stationarity of time series, so that DFCNN can forecast the non-stationary time series with low error that FTSF cannot forecast in satisfactory performance. After mass of experiments, DFCNN has excellent prediction effect, which is ahead of the existing FTSF and common time series forecasting algorithms. Finally, DFCNN provides further ideas for improving FTSF and holds continued research value.
翻訳日:2023-05-17 17:42:02 公開日:2023-05-15
# 新しいデータのための新しい方法? HRM研究のための定量誘導法の概要と実例

New methods for new data? An overview and illustration of quantitative inductive methods for HRM research ( http://arxiv.org/abs/2305.08889v1 )

ライセンス: Link先を確認
Alain LACROUX (UP1 EMS)(参考訳) 要するに「データは新しい石油」は、データが現在進行中の第4次産業革命の本質的な源であり、一部のコメンテーターは、データ量そのものを急速に富の源泉に同化させ、ビッグデータの発展を準直接的な利益源とみなすようになった。 人的資源管理はこの傾向を逃れるものではなく、従業員に大量のデータを蓄積することは、不在者や職能といった複雑な労働行動の予測モデルを構築するために必要な条件であると考える起業家もいる。 石油とは異なり、ここではデータの生成に関して大きな問題はない(これらのフローは様々な情報システムによって連続的に低コストで生成される)が、むしろその「精製」、すなわち、このデータを有用な製品、すなわち知識に変換するのに必要な操作である。 この変革は、実践者と学術研究者の両方にとって、データバリュエーションの方法論上の課題がある場所です。 これらの膨大なデータによって提供される可能性を利用する方法に関する考察は比較的最近のものであり、しばしば、この進化が純粋に帰納的な論理に従って、大量のデータを搾取する「第4パラダイム」における経験主義の復活の源となるであろう、現在の「データデルージュ」の破壊的な側面を強調している。 この投機的視点は採用していないが、定量的HRM研究ではデータ駆動アプローチは少ないことは明らかである。 しかし、特にデータマイニングの分野では、帰納的アプローチに基づいた確立された方法がある。 帰納的目的を伴う定量分析の領域は、HRMでは(類型的分析とは別に)まだ比較的研究されていない。 本研究の目的は,HRM研究に利用可能なデータ駆動手法の概要を最初に提示し,潜在プロファイル分析とガウス図形モデルを用いた探索的研究からなる実証図面を提案することである。

"Data is the new oil", in short, data would be the essential source of the ongoing fourth industrial revolution, which has led some commentators to assimilate too quickly the quantity of data to a source of wealth in itself, and consider the development of big data as an quasi direct cause of profit. Human resources management is not escaping this trend, and the accumulation of large amounts of data on employees is perceived by some entrepreneurs as a necessary and sufficient condition for the construction of predictive models of complex work behaviors such as absenteeism or job performance. In fact, the analogy is somewhat misleading: unlike oil, there are no major issues here concerning the production of data (whose flows are generated continuously and at low cost by various information systems), but rather their ''refining'', i.e. the operations necessary to transform this data into a useful product, namely into knowledge. This transformation is where the methodological challenges of data valuation lie, both for practitioners and for academic researchers. Considerations on the methods applicable to take advantage of the possibilities offered by these massive data are relatively recent, and often highlight the disruptive aspect of the current ''data deluge'' to point out that this evolution would be the source of a revival of empiricism in a ''fourth paradigm'' based on the intensive and ''agnostic'' exploitation of massive amounts of data in order to bring out new knowledge, following a purely inductive logic. Although we do not adopt this speculative point of view, it is clear that data-driven approaches are scarce in quantitative HRM studies. However, there are well-established methods, particularly in the field of data mining, which are based on inductive approaches. This area of quantitative analysis with an inductive aim is still relatively unexplored in HRM ( apart from typological analyses). The objective of this paper is first to give an overview of data driven methods that can be used for HRM research, before proposing an empirical illustration which consists in an exploratory research combining a latent profile analysis and an exploration by Gaussian graphical models.
翻訳日:2023-05-17 17:41:40 公開日:2023-05-15
# Covariate-Distance Weighted Regression (CWR):住宅価格推定のための事例研究

Covariate-distance Weighted Regression (CWR): A Case Study for Estimation of House Prices ( http://arxiv.org/abs/2305.08887v1 )

ライセンス: Link先を確認
Hone-Jay Chu, Po-Hung Chen, Sheng-Mao Chang, Muhammad Zeeshan Ali, Sumriti Ranjan Patra(参考訳) 地理的重み付き回帰(GWR)は回帰モデルにおける空間的不均一性をモデル化するための一般的なツールである。 しかし、GWRで用いられる現在の重み付け関数は地理的距離のみを考慮しており、属性類似性は完全に無視されている。 本研究では,地理的距離と属性距離を組み合わせた共変重み関数を提案する。 共変量距離重み付き回帰(CWR)は、地理的距離と属性距離を含むGWRの拡張である。 住宅価格は、住宅年齢、床面積、土地利用など多くの要因に影響を受けている。 予測モデルは、地域住宅価格の特徴を理解するのに役立ちます。 CWRは住宅価格と規制要因の関係を理解するために用いられた。 cwrは地質学と属性距離を考慮し、地質学と属性距離関数の重み行列を保存する住宅価格の正確な推定を行うことができる。 その結果,住宅の属性・条件や,床面積や住宅年齢などの特性が住宅価格に影響を及ぼす可能性が示唆された。 建物の住宅年齢と床面積のみを考慮した要因選択後、CWRモデルのRMSEは、GWRと比較して高層ビルの2.9%~26.3%向上できる。 cwrは従来の空間回帰モデルから推定誤差を効果的に低減し、空間推定のための新規かつ実現可能なモデルを提供する。

Geographically weighted regression (GWR) is a popular tool for modeling spatial heterogeneity in a regression model. However, the current weighting function used in GWR only considers the geographical distance, while the attribute similarity is totally ignored. In this study, we proposed a covariate weighting function that combines the geographical distance and attribute distance. The covariate-distance weighted regression (CWR) is the extension of GWR including geographical distance and attribute distance. House prices are affected by numerous factors, such as house age, floor area, and land use. Prediction model is used to help understand the characteristics of regional house prices. The CWR was used to understand the relationship between the house price and controlling factors. The CWR can consider the geological and attribute distances, and produce accurate estimates of house price that preserve the weight matrix for geological and attribute distance functions. Results show that the house attributes/conditions and the characteristics of the house, such as floor area and house age, might affect the house price. After factor selection, in which only house age and floor area of a building are considered, the RMSE of the CWR model can be improved by 2.9%-26.3% for skyscrapers when compared to the GWR. CWR can effectively reduce estimation errors from traditional spatial regression models and provide novel and feasible models for spatial estimation.
翻訳日:2023-05-17 17:41:00 公開日:2023-05-15
# データマイニングによる建物のエネルギー消費・コスト削減要因の同定

Identification of the Factors Affecting the Reduction of Energy Consumption and Cost in Buildings Using Data Mining Techniques ( http://arxiv.org/abs/2305.08886v1 )

ライセンス: Link先を確認
Hamed Khosravi, Hadi Sahebi, Rahim khanizad, Imtiaz Ahmed(参考訳) エネルギー消費の最適化とユーティリティシステムの調整は、建築業界にとって長年の関心事であった。 建物は世界最大のエネルギー消費国の一つであり、エネルギー効率は廃棄物の削減とコスト削減に不可欠である。 さらに、エネルギー消費パターンを理解し、最適化戦略の開発を支援するために使用できる大量の生データを建物が生成する。 本研究は,実世界のデータセットを用いて,コスト削減とエネルギー消費に影響を与える要因を明らかにすることを目的としている。 これを実現するために,3つの回帰モデル (Lasso Regression, Decision Tree, Random Forest) を用いて一次燃料使用量, 電力消費量, コスト削減量を予測する。 エネルギー消費とコスト削減に影響を与える要因の解析を行い,メタヒューリスティックスを用いて決定木アルゴリズムを最適化する。 メタヒューリスティック手法を用いることで,決定木アルゴリズムのパラメータを微調整し,精度を向上する。 最後に, 原燃料使用量, 電力消費量, コストを削減できるポテンシャル・非ポテンシャルビルの実用的特徴について概観する。

Optimizing energy consumption and coordination of utility systems have long been a concern of the building industry. Buildings are one of the largest energy consumers in the world, making their energy efficiency crucial for preventing waste and reducing costs. Additionally, buildings generate substantial amounts of raw data, which can be used to understand energy consumption patterns and assist in developing optimization strategies. Using a real-world dataset, this research aims to identify the factors that influence building cost reduction and energy consumption. To achieve this, we utilize three regression models (Lasso Regression, Decision Tree, and Random Forest) to predict primary fuel usage, electrical energy consumption, and cost savings in buildings. An analysis of the factors influencing energy consumption and cost reduction is conducted, and the decision tree algorithm is optimized using metaheuristics. By employing metaheuristic techniques, we fine-tune the decision tree algorithm's parameters and improve its accuracy. Finally, we review the most practical features of potential and nonpotential buildings that can reduce primary fuel usage, electrical energy consumption, and costs
翻訳日:2023-05-17 17:40:38 公開日:2023-05-15
# ニューラルネットワークのロバスト解釈可能性に関する因果解析

Causal Analysis for Robust Interpretability of Neural Networks ( http://arxiv.org/abs/2305.08950v1 )

ライセンス: Link先を確認
Ola Ahmad, Nicolas Bereux, Vahid Hashemi, Freddy Lecue(参考訳) ニューラルネットワークの内部機能を解釈することは、これらのブラックボックスモデルの信頼性の高い開発と展開に不可欠である。 従来の解釈可能性の手法は、モデル決定を個々の例に当てはめる相関に基づく尺度にフォーカスする。 しかしながら、これらの尺度は、トレーニングフェーズ中にモデルにエンコードされたノイズやスプリアス相関(例えば、バイアス入力、モデル過剰フィッティング、誤特定)に影響を受けやすい。 さらに、このプロセスは、モデルの振る舞いの透明な理解を妨げるノイズと不安定な属性をもたらすことが証明されている。 本稿では、因果解析に基づく頑健な介入に基づく手法を開発し、事前学習ニューラルネットワークの因果影響メカニズムとその予測との関係を明らかにする。 我々の新しいアプローチは、隠れた層内の因果メカニズムを推測し、関連する情報(モデル予測)を分離し、ノイズを避けるために経路介入に依存する。 その結果、タスク固有の因果説明グラフがモデル動作を監査し、そのパフォーマンスの根底にある実際の原因を表現できる。 本手法を分類タスクを訓練した視覚モデルに適用する。 画像分類タスクにおいて,本手法が標準帰属法よりも安定かつ忠実な説明を得られることを示すため,広範囲な定量的実験を行った。 さらに、基礎となる因果グラフはモデル内の神経相互作用を明らかにし、他のアプリケーション(例えばモデル修復)で有用なツールとなる。

Interpreting the inner function of neural networks is crucial for the trustworthy development and deployment of these black-box models. Prior interpretability methods focus on correlation-based measures to attribute model decisions to individual examples. However, these measures are susceptible to noise and spurious correlations encoded in the model during the training phase (e.g., biased inputs, model overfitting, or misspecification). Moreover, this process has proven to result in noisy and unstable attributions that prevent any transparent understanding of the model's behavior. In this paper, we develop a robust interventional-based method grounded by causal analysis to capture cause-effect mechanisms in pre-trained neural networks and their relation to the prediction. Our novel approach relies on path interventions to infer the causal mechanisms within hidden layers and isolate relevant and necessary information (to model prediction), avoiding noisy ones. The result is task-specific causal explanatory graphs that can audit model behavior and express the actual causes underlying its performance. We apply our method to vision models trained on classification tasks. On image classification tasks, we provide extensive quantitative experiments to show that our approach can capture more stable and faithful explanations than standard attribution-based methods. Furthermore, the underlying causal graphs reveal the neural interactions in the model, making it a valuable tool in other applications (e.g., model repair).
翻訳日:2023-05-17 17:33:17 公開日:2023-05-15
# Bare Homography による画像マッチング

Image Matching by Bare Homography ( http://arxiv.org/abs/2305.08946v1 )

ライセンス: Link先を確認
Fabio Bellavia(参考訳) 本稿では,シーンを粗い局所重なり面としてモデル化する,新しい非奥行き画像マッチングフレームワークslimeを提案する。 この中間表現は、キーポイントパッチの局所アフィン近似と幾何学的および類似性の制約に基づく大域的マッチングの間に位置し、一般的なシーンに関して平面が扱いやすいので、対応の漸進的プルーニングを提供する。 スライムは、ホモグラフィ制約を利用して、シーンのほぼ平面領域に関連するマッチを選択的に検出し、拡張し、マージし、洗練する。 その結果、シーン上の正しいマッチングのカバレッジと安定性の両方が増幅され、従来のハイブリッドマッチングパイプラインは、最近のエンドツーエンドのディープマッチングメソッドに対して、失地を補うことができる。 さらに、エンドツーエンドのディープ・ネットワークとハイブリッド・パイプラインで表現される画像マッチングにおける最近の最先端画像の比較分析を行った。 この評価は、急激な時間変化や相対的な画像回転の強い変動など、批判的かつ困難なシナリオを考慮して、平面と非平面の両方を考慮する。 この分析によれば、この分野における印象的な進歩にもかかわらず、今後の研究で検討すべき改善の余地は広い。

This paper presents Slime, a novel non-deep image matching framework which models the scene as rough local overlapping planes. This intermediate representation sits in-between the local affine approximation of the keypoint patches and the global matching based on both geometrical and similarity constraints, providing a progressive pruning of the correspondences, as planes are easier to handle with respect to general scenes. Slime proceeds by selectively detect, expand, merge and refine the matches associated to almost-planar areas of the scene by exploiting homography constraints. As a result, both the coverage and stability of correct matches over the scene are amplified, allowing traditional hybrid matching pipelines to make up lost ground against recent end-to-end deep matching methods. In addition, the paper gives a thorough comparative analysis of recent state-of-the-art in image matching represented by end-to-end deep networks and hybrid pipelines. The evaluation considers both planar and non-planar scenes, taking into account critical and challenging scenarios including abrupt temporal image changes and strong variations in relative image rotations. According to this analysis, although the impressive progress done in this field, there is still a wide room for improvements to be investigated in future research.
翻訳日:2023-05-17 17:32:38 公開日:2023-05-15
# 潜在的な再正規化、ラムシフト、平均力ギブス状態 -- シフトするかシフトしないか?

Potential renormalisation, Lamb shift and mean-force Gibbs state -- to shift or not to shift? ( http://arxiv.org/abs/2305.08941v1 )

ライセンス: Link先を確認
Luis A. Correa and Jonas Glatthard(参考訳) オープンシステムは、たとえ浴槽に弱結合しても、「再編成エネルギー」によって定量化され、無視できないポテンシャル再正規化を経験することができる。 しばしば、顕微鏡システムバス結合は、その潜在的な歪みを正確に補償する素ハミルトニアンに付加する反項をもたらす。 一方、弱結合マスター方程式による量子散逸力学を記述するとき、多くの「ラムシフト項」が現れるが、これは一般の信念とは対照的に無視できない。 しかし、反項とラムシフトの双方を消滅させる実践はほとんど普遍的であり、驚くべきことに、素晴らしい結果をもたらす。 本稿では、減衰量子調和振動子を用いて、ハミルトニアンから再編成エネルギーを減算し、その結果のマスター方程式からラムシフト項を抑えると、正確に定常状態と長時間の力学に優れた近似が得られることを解析的に示す。 別の言い方をすれば、一見不当なステップは漸近的な平均力ギブズ状態(またはその古典的な極限)をマスター方程式に組み込むのに成功する。 これは、特に中程度から低い温度で、中間結合まで、顕著に精度を高めることができる。 したがって、量子熱力学における熱流の計算において、見過ごされている問題に光を当てた。

An open system, even if coupled weakly to a bath, can experience a non-negligible potential renormalisation, quantified by the `reorganisation energy'. Often, the microscopic system-bath coupling gives rise to a counter term which adds to the bare Hamiltonian, exactly compensating for such potential distortion. On the other hand, when describing quantum dissipative dynamics with weak-coupling master equations, a number of `Lamb-shift terms' appear which, contrary to popular belief, cannot be neglected. And yet, the practice of vanishing both the counter term and Lamb-shift contributions is almost universal; and, surprisingly, it gives excellent results. In this paper we use a damped quantum harmonic oscillator to analytically show that subtracting the reorganisation energy from the Hamiltonian and then suppressing the Lamb-shift terms from the resulting master equation, does indeed yield an excellent approximation to the exact steady state and long-time dynamics. Put differently, those seemingly unjustified steps succeed at building the asymptotic mean-force Gibbs state -- or rather, its classical limit -- into the master equation. This can noticeably increase its accuracy, specially at moderate-to-low temperatures and even up to intermediate coupling. We thus shed light on an overlooked issue that becomes critical in the calculation of heat currents in quantum thermodynamics.
翻訳日:2023-05-17 17:32:03 公開日:2023-05-15
# DopUS-Net:ドップラー信号に基づく高品質ロボット超音波イメージング

DopUS-Net: Quality-Aware Robotic Ultrasound Imaging based on Doppler Signal ( http://arxiv.org/abs/2305.08938v1 )

ライセンス: Link先を確認
Zhongliang Jiang, Felix Duelmer, Nassir Navab(参考訳) 医用超音波(US)は、放射線のない利点のために、特に予備検診プログラムにおいて、血管疾患の評価とステージに広く用いられている。 しかし,米国横断画像からの微小管状構造物(例えば尺骨動脈)の自動分割は依然として困難である。 この課題に対処するために,dopus-netと血管再同定モジュールを提案し,ドップラー効果を利用して最終セグメンテーション結果を向上させる。 まず、ドップラー画像とBモード画像を組み合わせることで、小血管のセグメンテーション精度と堅牢性を高める。 2つのエンコーダを組み込んで、ドップラー信号とリカレントニューラルネットワークモジュールの最大電位を利用してシーケンシャル情報を保存する。 第1エンコーダへの入力は、解剖学的空間的正確性を確保するため、グレースケールドップラーとBモード画像の組み合わせを表す2チャンネルの二重画像である。 第2エンコーダは、領域提案を提供するために純粋なドップラー画像で動作する。 第2に、ドップラー信号の利点として、まずオンライン動脈再同定モジュールを導入し、リアルタイムセグメンテーションの結果を質的に評価し、拡張ドップラー画像に対するプローブポーズを自動的に最適化する。 この品質認識モジュールは、ロボットスクリーニングのクローズドループ制御を可能にし、画像セグメンテーションの信頼性と堅牢性をさらに向上させる。 実験の結果,再同定手法によるアプローチにより,セグメント化結果の精度とロバスト性が大幅に向上することがわかった(diceスコア:0:54から0:86、結合上の交差:0:47から0:78)。

Medical ultrasound (US) is widely used to evaluate and stage vascular diseases, in particular for the preliminary screening program, due to the advantage of being radiation-free. However, automatic segmentation of small tubular structures (e.g., the ulnar artery) from cross-sectional US images is still challenging. To address this challenge, this paper proposes the DopUS-Net and a vessel re-identification module that leverage the Doppler effect to enhance the final segmentation result. Firstly, the DopUS-Net combines the Doppler images with B-mode images to increase the segmentation accuracy and robustness of small blood vessels. It incorporates two encoders to exploit the maximum potential of the Doppler signal and recurrent neural network modules to preserve sequential information. Input to the first encoder is a two-channel duplex image representing the combination of the grey-scale Doppler and B-mode images to ensure anatomical spatial correctness. The second encoder operates on the pure Doppler images to provide a region proposal. Secondly, benefiting from the Doppler signal, this work first introduces an online artery re-identification module to qualitatively evaluate the real-time segmentation results and automatically optimize the probe pose for enhanced Doppler images. This quality-aware module enables the closed-loop control of robotic screening to further improve the confidence and robustness of image segmentation. The experimental results demonstrate that the proposed approach with the re-identification process can significantly improve the accuracy and robustness of the segmentation results (dice score: from 0:54 to 0:86; intersection over union: from 0:47 to 0:78).
翻訳日:2023-05-17 17:31:37 公開日:2023-05-15
# MIMEx: Masked Input Modelingの本質的なリワード

MIMEx: Intrinsic Rewards from Masked Input Modeling ( http://arxiv.org/abs/2305.08932v1 )

ライセンス: Link先を確認
Toru Lin, Allan Jabri(参考訳) 高次元観測環境の探索は困難である。 探索のための有望なアプローチの1つは本質的な報酬を使うことであり、これはしばしば、深いネットワークで状態、遷移または軌道の「ノーベルティ」を推定するものである。 従来の研究では、マスク付きオートエンコーディングのような条件付き予測対象が擬似的類似性の確率的推定と見なせることが示されている。 この視点が、既存の本質的な報酬アプローチの統一的見解にどのように結びつくかを示す。これらは条件付き予測の特別な事例であり、新規性の推定は、異なるマスク分布を持つ擬似的類似度推定と見なすことができる。 この観点から,マスク分布を柔軟に調整し,条件付き予測タスクの難易度を制御できる,固有報酬(Masked Input Modeling for Exploration, MIMEx)を導出するための一般的なフレームワークを提案する。 我々は,sparse-reward visuomotorタスク群における競合ベースラインと比較して,mimexが優れた結果が得られることを示す。

Exploring in environments with high-dimensional observations is hard. One promising approach for exploration is to use intrinsic rewards, which often boils down to estimating "novelty" of states, transitions, or trajectories with deep networks. Prior works have shown that conditional prediction objectives such as masked autoencoding can be seen as stochastic estimation of pseudo-likelihood. We show how this perspective naturally leads to a unified view on existing intrinsic reward approaches: they are special cases of conditional prediction, where the estimation of novelty can be seen as pseudo-likelihood estimation with different mask distributions. From this view, we propose a general framework for deriving intrinsic rewards -- Masked Input Modeling for Exploration (MIMEx) -- where the mask distribution can be flexibly tuned to control the difficulty of the underlying conditional prediction task. We demonstrate that MIMEx can achieve superior results when compared against competitive baselines on a suite of challenging sparse-reward visuomotor tasks.
翻訳日:2023-05-17 17:31:08 公開日:2023-05-15
# AF2-Mutation: タンパク質第3次構造予測におけるαFold2の逆配列変異

AF2-Mutation: Adversarial Sequence Mutations against AlphaFold2 on Protein Tertiary Structure Prediction ( http://arxiv.org/abs/2305.08929v1 )

ライセンス: Link先を確認
Zhongju Yuan, Tao Shen, Sheng Xu, Leiye Yu, Ruobing Ren, Siqi Sun(参考訳) AlphaFold2 (AF2)のような深層学習に基づくアプローチは、タンパク質第3次構造予測を著しく進歩させ、実際の生物学的実験手法に匹敵する結果を達成している。 af2は突然変異の影響の予測に限界があるが、配列変異に対する頑健性は未だ決定されていない。 AF2がWTと大きく異なると予測する進化的アプローチによって生成された逆数列を、野生型(WT)配列から検討する。 CASP14の実験では、置換、欠失、挿入戦略の組み合わせを用いて、タンパク質配列の残基をわずか3つだけ変更することで、AF2の予測の変化が局所距離差試験(lDDT)によって測定され、46.61に達した。 さらに,特定のタンパク質であるsns2に適用した場合,タンパク質構造決定に必須な生物学的に有意な残基を同定し,代替コンフォメーションを示唆し,実験プロセスを著しく高速化した。

Deep learning-based approaches, such as AlphaFold2 (AF2), have significantly advanced protein tertiary structure prediction, achieving results comparable to real biological experimental methods. While AF2 has shown limitations in predicting the effects of mutations, its robustness against sequence mutations remains to be determined. Starting with the wild-type (WT) sequence, we investigate adversarial sequences generated via an evolutionary approach, which AF2 predicts to be substantially different from WT. Our experiments on CASP14 reveal that by modifying merely three residues in the protein sequence using a combination of replacement, deletion, and insertion strategies, the alteration in AF2's predictions, as measured by the Local Distance Difference Test (lDDT), reaches 46.61. Moreover, when applied to a specific protein, SPNS2, our proposed algorithm successfully identifies biologically meaningful residues critical to protein structure determination and potentially indicates alternative conformations, thus significantly expediting the experimental process.
翻訳日:2023-05-17 17:30:48 公開日:2023-05-15
# 絶対安定な離散時間結晶

Absolutely Stable Discrete Time Crystals ( http://arxiv.org/abs/2305.08925v1 )

ライセンス: Link先を確認
Krzysztof Giergiel, Jia Wang, Bryan J. Dalton, Peter Hannaford, Krzysztof Sacha(参考訳) 回転格子ポテンシャルによって周期的に駆動される環上の相互作用ボゾンは、絶対安定な離散時間結晶をサポートすることができる。 絶対安定性は、離散時間結晶状態の正確なマッピングによって、空間翻訳対称性の自発的な破れを示す時間非依存モデルの低次固有状態に示される。 このマッピングにより、系の加熱と離散時間結晶の破壊につながる残効時間依存項が存在しないことが保証される。 ベーテ・アンサッツの解の助けを借りて、マッピングが近似的であり離散時間結晶の絶対安定性を保証できない周期的に蹴られたボソンも解析する。 しかし、蹴られたボソン模型は時間と空間対称性の破れの間のよりリッチな相互作用を示している。

We show that interacting bosons on a ring which are driven periodically by a rotating lattice potential can support absolutely stable discrete time crystals. The absolute stability is demonstrated by an exact mapping of discrete time crystal states to low-lying eigenstates of a time-independent model that reveals spontaneous breaking of space translation symmetry. The mapping ensures that there are no residual time-dependent terms that could lead to heating of the system and destruction of discrete time crystals. With the help of the Bethe ansatz solutions we also analyze periodically kicked bosons where the mapping is approximate only and cannot guarantee the absolute stability of discrete time crystals. However, the kicked boson model shows a richer interplay between time and space symmetry breaking.
翻訳日:2023-05-17 17:30:27 公開日:2023-05-15
# 量子コンピュータの資源効率利用

Resource-efficient utilization of quantum computers ( http://arxiv.org/abs/2305.08924v1 )

ライセンス: Link先を確認
Ijaz Ahamed Mohammad, Matej Pivoluska, Martin Plesch(参考訳) 量子コンピューティングの現在の状態は一般に、ノイズの多い中間スケール量子時代と呼ばれる。 利用可能なコンピュータは数十の量子ビットを含み、避けられないノイズが計算で符号化された全ての情報を消去する前に数十の操作を実行することができる。 たとえこの技術が今後数年で急速に進歩しても、量子コンピュータの使用は短く単純なタスクに限られ、より複雑な古典的手続きのサブルーチンとして機能する。 これらのアプリケーションにおいても、量子コンピュータの実行数で測定されるリソース効率が重要なパラメータとなる。 ここでは、限られた量子リソースで最適なアプローチを見つけることができるハイブリッド量子古典アルゴリズムの一般的な最適化手順を提案する。 本手法は,水素分子の基底状態エネルギーを求めるために用いられる変分量子アルゴリズムの具体例で実証する。

The current state of quantum computing is commonly described as the Noisy Intermediate-Scale Quantum era. Available computers contain a few dozens of qubits and can perform a few dozens of operations before the inevitable noise erases all information encoded in the calculation. Even if the technology advances fast within the next years, any use of quantum computers will be limited to short and simple tasks, serving as subroutines of more complex classical procedures. Even for these applications the resource efficiency, measured in the number of quantum computer runs, will be a key parameter. Here we suggest a general optimization procedure for hybrid quantum-classical algorithms that allows finding the optimal approach with limited quantum resources. We demonstrate this procedure on a specific example of variational quantum algorithm used to find the ground state energy of a hydrogen molecule.
翻訳日:2023-05-17 17:30:16 公開日:2023-05-15
# U(1)対称系における高次相関関数の解析的アプローチ

Analytical approach to higher-order correlation function in U(1) symmetric systems ( http://arxiv.org/abs/2305.08923v1 )

ライセンス: Link先を確認
Zhi-Guang Lu, Cheng Shang, Ying Wu, and Xin-You L\"u(参考訳) 我々は、弱いコヒーレント状態入力の下で散乱行列(S-行列)を用いて、$n$thの等時相関関数のコンパクトな解析解を導出した。 この解は、u(1)対称性を満たす任意の散逸量子系に適用できる。 さらに,入力チャネルと出力チャネルが同一かどうかに応じて,分析ソリューションを2つのカテゴリに拡張した。 第1のカテゴリは相互相関や複数のドライブケースを研究するための新しいパスを提供し、第2のカテゴリは導波路量子電磁力学系の研究に役立つ。 解析解は複雑な系においても複数の光子の統計特性を簡単に調査できる。 さらに,Python のユーザフレンドリなオープンソースライブラリであるquantum correlationsolvr を開発した。このツールは,上記の基準を満たす様々な散逸性量子システムを研究するための便利な手段を提供する。 本研究は,S行列を用いて光相関を解析し,複雑な系を探索する可能性を推し進めるための新たな基盤を打破する。

We derive a compact analytical solution of the $n$th-order equal-time correlation functions by using the scattering matrix (S-matrix) under a weak coherent state input. Our solution applies to any dissipative quantum system that satisfies the U(1) symmetry. We further extend our analytical solution into two categories depending on whether the input and output channels are identical. The first category provides a new path for studying cross-correlation and multiple drives cases, while the second category is instrumental in studying waveguide quantum electrodynamics systems. Our analytical solution allows for easy investigation of the statistical properties of multiple photons even in complex systems. Furthermore, we have developed a user-friendly open-source library in Python known as the quantum correlation solver, and this tool provides a convenient means to study various dissipative quantum systems that satisfy the abovementioned criterion. Our study breaks new ground for using the S-matrix to study the photonic correlation and advance the possibilities for exploring complex systems.
翻訳日:2023-05-17 17:30:03 公開日:2023-05-15
# フェルミオン行列式を持たないゲージ場および物質に対する量子モンテカルロ

Quantum Monte Carlo for Gauge Fields and Matter without the Fermion Determinant ( http://arxiv.org/abs/2305.08917v1 )

ライセンス: Link先を確認
Debasish Banerjee and Emilie Huffman(参考訳) 強相互作用するフェルミオン系のab-initioモンテカルロシミュレーションはフェルミオンサイン問題に苦しめられ、密度の高い量子物質の多くの興味深いレジーム、あるいは奇数のフェルミオンフレーバーの理論の非摂動的研究が困難である。 さらに、典型的なフェルミオンアルゴリズムはフェルミオン決定式の計算(またはサンプリング)を必要とする。 代わりに、行列式を含まずにモデルクラス内のフェルミオン符号問題を解決できるメロンクラスターアルゴリズムに焦点をあてる。 我々は,フェルミオンを$\mathbb{Z}_2$および$U(1)$ゲージ場に結合させて量子シミュレータ実験に関係のある物質の潜在的なエキゾチックな性質を明らかにするための新しいメロンアルゴリズムを開発し,ベンチマークする。 低温におけるガウスの法則の出現を、1+1-$dで$U(1)$モデルで示す。

Ab-initio Monte Carlo simulations of strongly-interacting fermionic systems are plagued by the fermion sign problem, making the non-perturbative study of many interesting regimes of dense quantum matter, or of theories of odd numbers of fermion flavors, challenging. Moreover, typical fermion algorithms require the computation (or sampling) of the fermion determinant. We focus instead on the meron cluster algorithm, which can solve the fermion sign problem in a class of models without involving the determinant. We develop and benchmark new meron algorithms to simulate fermions coupled to $\mathbb{Z}_2$ and $U(1)$ gauge fields to uncover potential exotic properties of matter, particularly relevant for quantum simulator experiments. We demonstrate the emergence of the Gauss' Law at low temperatures for a $U(1)$ model in $(1+1)-$d.
翻訳日:2023-05-17 17:29:47 公開日:2023-05-15
# Bi-CMOS電子フォトニック集積回路量子光検出器

A Bi-CMOS electronic-photonic integrated circuit quantum light detector ( http://arxiv.org/abs/2305.08990v1 )

ライセンス: Link先を確認
Joel F. Tasker, Jonathan Frazer, Giacomo Ferranti, Jonathan C. F. Matthews(参考訳) 補完的金属酸化物半導体(CMOS)互換量子技術は、量子コンピュータ構築に必要な古典的読み出しと制御エレクトロニクスとのスケーラブルな統合を可能にする。 ホモジン検出器は量子コンピュータを含む量子技術にまたがって応用され、フォトニクスとエレクトロニクスを構成する。 ここでは,250nmのリソグラフィバイポーラcmosプロセスで作製した80~\mu\mathrm{m} \times 220~\mu\mathrm{m}$の量子ノイズ制限モノリシック電子・フォトニック集積型ホモダイン検出器について報告する。 エレクトロニクスとフォトニクスのモノリシックな統合により、全体の容量は抑制される -- これは量子光の高帯域幅測定の主要なボトルネックである。 我々は、19.8〜GHzの3〜dB帯域と15〜dBの最大ショットノイズクリアランスを測定する。 これは、ワイヤーボンディングやフリップチップボンディングを含むマクロ電子インターコネクトを持つ検出器の帯域幅の限界を超える。 これは、CMOS電子フォトニクス統合による量子フォトニクスの性能向上を示す。

Complimentary metal-oxide-semiconductor (CMOS) compatible quantum technology enables scalable integration with the classical readout and control electronics needed to build quantum computers. Homodyne detectors have applications across quantum technologies including quantum computers, and they comprise photonics and electronics. Here we report a quantum noise limited monolithic electronic-photonic integrated homodyne detector, with an overall footprint of $80~\mu\mathrm{m} \times 220~\mu\mathrm{m}$, fabricated in a 250~nm lithography bi-polar CMOS process. By monolithic integration of the electronics and photonics, overall capacitance is suppressed -- this is the main bottleneck to high bandwidth measurement of quantum light. We measure a 3~dB bandwidth of 19.8~GHz and a maximum shot noise clearance of 15~dB. This exceeds bandwidth limits of detectors with macroscopic electronic interconnects, including wirebonding and flip-chip bonding. This demonstrates CMOS electronic-photonic integration enhancing performance of quantum photonics.
翻訳日:2023-05-17 17:23:51 公開日:2023-05-15
# LoViT:手術用位相認識用長ビデオトランス

LoViT: Long Video Transformer for Surgical Phase Recognition ( http://arxiv.org/abs/2305.08989v1 )

ライセンス: Link先を確認
Yang Liu, Maxence Boels, Luis C. Garcia-Peraza-Herrera, Tom Vercauteren, Prokar Dasgupta, Alejandro Granados and Sebastien Ourselin(参考訳) オンラインの手術相認識は、パフォーマンスを定量化し、手術ワークフローの実行を監督するコンテキストツールを構築する上で重要な役割を果たす。 現在のアプローチは、異なるフェーズに出現する類似のフレームによる誤った予測につながるフレームレベルの監督を使って空間的特徴抽出器を訓練し、外科手術でよく見られるロングビデオの分析に影響を及ぼす計算上の制約によって局所的特徴とグローバルな特徴をうまく融合しないため、制限されている。 本稿では,Long Video Transformer (LoViT) と呼ばれる,時間的に豊富な空間的特徴抽出器と,自己意図に基づく2つのL-Transモジュールからなる大規模時間的アグリゲータを組み合わせた,短時間・長期の時間的情報を融合する2段階の手法を提案する。 マルチスケールのテンポラリヘッドは、局所的および大域的な特徴を結合し、位相遷移認識による手術段階を分類する。 このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。 Trans-SVNetと比較して、LoViTはColec80でビデオレベルの精度が2.39pp(パーセント)向上し、AutoLaparoで3.14ppになった。 さらに、オートラパロの位相レベルjaccardの5.25pp改善とcholec80の1.55pp改善を達成している。 以上の結果から,本手法は,異なる手術手順と時間的シークエンシング特性の2つのデータセット上での外科的位相認識の最先端化に有効であり,また,ロングビデオ対応のメカニズムも導入している。

Online surgical phase recognition plays a significant role towards building contextual tools that could quantify performance and oversee the execution of surgical workflows. Current approaches are limited since they train spatial feature extractors using frame-level supervision that could lead to incorrect predictions due to similar frames appearing at different phases, and poorly fuse local and global features due to computational constraints which can affect the analysis of long videos commonly encountered in surgical interventions. In this paper, we present a two-stage method, called Long Video Transformer (LoViT) for fusing short- and long-term temporal information that combines a temporally-rich spatial feature extractor and a multi-scale temporal aggregator consisting of two cascaded L-Trans modules based on self-attention, followed by a G-Informer module based on ProbSparse self-attention for processing global temporal information. The multi-scale temporal head then combines local and global features and classifies surgical phases using phase transition-aware supervision. Our approach outperforms state-of-the-art methods on the Cholec80 and AutoLaparo datasets consistently. Compared to Trans-SVNet, LoViT achieves a 2.39 pp (percentage point) improvement in video-level accuracy on Cholec80 and a 3.14 pp improvement on AutoLaparo. Moreover, it achieves a 5.25 pp improvement in phase-level Jaccard on AutoLaparo and a 1.55 pp improvement on Cholec80. Our results demonstrate the effectiveness of our approach in achieving state-of-the-art performance of surgical phase recognition on two datasets of different surgical procedures and temporal sequencing characteristics whilst introducing mechanisms that cope with long videos.
翻訳日:2023-05-17 17:23:31 公開日:2023-05-15
# 調和データサイロによるフェデレーション学習

Federated Learning over Harmonized Data Silos ( http://arxiv.org/abs/2305.08985v1 )

ライセンス: Link先を確認
Dimitris Stripelis and Jose Luis Ambite(参考訳) Federated Learning(フェデレートラーニング)は、地理的に分散したデータサイロがデータを共有せずに共同で機械学習モデルを学習することを可能にする分散機械学習アプローチである。 既存の作業の大部分は、画像やテキストなどの非構造化データや、異なるサイト間で一貫性があると仮定された構造化データで動作します。 しかし、サイトはしばしば異なるスキーマ、データフォーマット、データ値、アクセスパターンを持っている。 データ統合の分野は、宣言型スキーママッピングを使ったデータ交換やクエリ書き換え、エンティティリンクなど、これらの課題に対処する多くの方法を開発した。 そこで本研究では,データ調和とデータ計算の重要なステップを取り入れたエンドツーエンドのフェデレーション学習統合システムのアーキテクチャビジョンを提案し,データ管理情報システムと機械学習の交わりに関するさらなる研究を促進する。

Federated Learning is a distributed machine learning approach that enables geographically distributed data silos to collaboratively learn a joint machine learning model without sharing data. Most of the existing work operates on unstructured data, such as images or text, or on structured data assumed to be consistent across the different sites. However, sites often have different schemata, data formats, data values, and access patterns. The field of data integration has developed many methods to address these challenges, including techniques for data exchange and query rewriting using declarative schema mappings, and for entity linkage. Therefore, we propose an architectural vision for an end-to-end Federated Learning and Integration system, incorporating the critical steps of data harmonization and data imputation, to spur further research on the intersection of data management information systems and machine learning.
翻訳日:2023-05-17 17:23:01 公開日:2023-05-15
# help the helper: aiによる実践とフィードバックによる相互カウンセラー支援

Helping the Helper: Supporting Peer Counselors via AI-Empowered Practice and Feedback ( http://arxiv.org/abs/2305.08982v1 )

ライセンス: Link先を確認
Shang-Ling Hsu, Raj Sanjay Shah, Prathik Senthil, Zahra Ashktorab, Casey Dugan, Werner Geyer, Diyi Yang(参考訳) 何百万というユーザーがオンラインのピアカウンセリングプラットフォームを訪れ、関係性ストレスから不安までさまざまなトピックのサポートを求めている。 しかし,オンライン・ピア・サポート・グループは,非不快なカウンセラーに対する利用者のネガティブな経験から,必ずしも期待するほど効果的ではないことが研究で示されている。 ピアカウンセラーはオンラインのピアカウンセリングプラットフォームの成功の鍵であるが、そのほとんどはガイドラインや監督を受けるための体系的な方法を持っていない。 本稿では、自動提案生成を通じてピアカウンセラーを支援する対話型AIベースのツールであるCAREを紹介する。 実践的なトレーニング段階において、CAREは特定のカウンセリング戦略が与えられた文脈で最も適しているかを診断し、提案として適切なサンプル応答を提供する。 カウンセラーは、サポート希望者に返信する前に、提案の選択、修正、無視を選択できる。 モチベーション・インタビューティング・フレームワークを基盤として、CAREは大規模カウンセリング会話データと高度な自然言語生成技術を用いてこれらの機能を実現する。 チャットや半構造化面接による定量的評価と質的ユーザ調査の両方を行い,ケアの有効性を実証する。 また、ケアは特に初心者カウンセラーが困難な状況で反応するのに役立ちます。

Millions of users come to online peer counseling platforms to seek support on diverse topics ranging from relationship stress to anxiety. However, studies show that online peer support groups are not always as effective as expected largely due to users' negative experiences with unhelpful counselors. Peer counselors are key to the success of online peer counseling platforms, but most of them often do not have systematic ways to receive guidelines or supervision. In this work, we introduce CARE: an interactive AI-based tool to empower peer counselors through automatic suggestion generation. During the practical training stage, CARE helps diagnose which specific counseling strategies are most suitable in the given context and provides tailored example responses as suggestions. Counselors can choose to select, modify, or ignore any suggestion before replying to the support seeker. Building upon the Motivational Interviewing framework, CARE utilizes large-scale counseling conversation data together with advanced natural language generation techniques to achieve these functionalities. We demonstrate the efficacy of CARE by performing both quantitative evaluations and qualitative user studies through simulated chats and semi-structured interviews. We also find that CARE especially helps novice counselors respond better in challenging situations.
翻訳日:2023-05-17 17:22:47 公開日:2023-05-15
# 代理ソーシャルメディアを用いたホームレスの地域レベル測定の評価

An assessment of measuring local levels of homelessness through proxy social media signals ( http://arxiv.org/abs/2305.08978v1 )

ライセンス: Link先を確認
Yoshi Meke Bird, Sarah E. Grobe, Michael V. Arnold, Sean P. Rogers, Mikaela I. Fudolig, Julia Witte Zimmerman, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) 近年の研究では、ソーシャルメディアのアクティビティが、自然言語処理によって検出可能な、国家レベルの公衆衛生対策のプロキシとして機能することを示唆している。 本稿は,2010~2019年と2022年の間,全米の州レベルでホームレスを推定するために,約100万件のジオタグ付きツイートのデータセットを用いてこの手法を適用した結果である。 一般人口密度ではなく、ホームレス関連のツイート数と一人当たりのホームレス数との相関関係は、twitter利用者の日常生活における個人的遭遇やホームレス観察の可能性と、オンラインでのコミュニケーションの可能性との関係を示唆している。 英語のツイートに現れる‘homeless’のログオードの増加と、平均的なツイート感情の増加は、ホームレスに関するツイートも、全国規模のトレンドの影響を受けていることを示唆している。 さらに、つぶやきの語彙的内容の変化は、慈善や直接の訴えに対する政治的・サービスセクター言語の増加によって、国家レベルのトレンドの極性への逆転が検出可能であることを示唆している。 ユーザーアカウントのタイプ分析によって、個人が作成したアカウントと、特定の管轄区域におけるホームレス密度の変化を確認する追加のシグナルを提供するエンティティによる、twitterの利用パターンの変化も明らかになった。 ソーシャルメディア分析への計算的アプローチは、ホームレスやホームレス政策の全国的および地域的影響に関する情報が豊富な低コストでリアルタイムなデータセットを提供する可能性があるが、現実的な問題は多く、ソーシャルメディアが他のホームレス対策を補完するプロキシとしての可能性を制限することにある。

Recent studies suggest social media activity can function as a proxy for measures of state-level public health, detectable through natural language processing. We present results of our efforts to apply this approach to estimate homelessness at the state level throughout the US during the period 2010-2019 and 2022 using a dataset of roughly 1 million geotagged tweets containing the substring ``homeless.'' Correlations between homelessness-related tweet counts and ranked per capita homelessness volume, but not general-population densities, suggest a relationship between the likelihood of Twitter users to personally encounter or observe homelessness in their everyday lives and their likelihood to communicate about it online. An increase to the log-odds of ``homeless'' appearing in an English-language tweet, as well as an acceleration in the increase in average tweet sentiment, suggest that tweets about homelessness are also affected by trends at the nation-scale. Additionally, changes to the lexical content of tweets over time suggest that reversals to the polarity of national or state-level trends may be detectable through an increase in political or service-sector language over the semantics of charity or direct appeals. An analysis of user account type also revealed changes to Twitter-use patterns by accounts authored by individuals versus entities that may provide an additional signal to confirm changes to homelessness density in a given jurisdiction. While a computational approach to social media analysis may provide a low-cost, real-time dataset rich with information about nationwide and localized impacts of homelessness and homelessness policy, we find that practical issues abound, limiting the potential of social media as a proxy to complement other measures of homelessness.
翻訳日:2023-05-17 17:22:26 公開日:2023-05-15
# インクリメンタル学習とコンセプトドリフト適応を用いたストリーミングデータのオートエンコーダによる異常検出

Autoencoder-based Anomaly Detection in Streaming Data with Incremental Learning and Concept Drift Adaptation ( http://arxiv.org/abs/2305.08977v1 )

ライセンス: Link先を確認
Jin Li, Kleanthis Malialis, Marios M. Polycarpou(参考訳) 現代のデジタル世界では、様々なアプリケーション領域で大量のデータがストリーミング形式で生成されています。 これらのデータは、しばしば重複しない。 この場合、異常などの頻度の低い事象を特定することは大きな課題となる。 この問題は非定常環境においてさらに難しくなり、モデルの予測性能が劣化する可能性がある。 以上の課題に対処するため,自動エンコーダを用いたドリフト検出学習手法(strAEm++DD)を提案する。 提案手法は,逐次学習とドリフト検出の両方の利点を利用する。 重度または極度のクラス不均衡を持つ実世界および合成データセットを用いた実験研究を行い,straem++ddの実証分析を行った。 さらに比較研究を行い,提案手法が既存のベースライン法と先進法を著しく上回ることを示す。

In our digital universe nowadays, enormous amount of data are produced in a streaming manner in a variety of application areas. These data are often unlabelled. In this case, identifying infrequent events, such as anomalies, poses a great challenge. This problem becomes even more difficult in non-stationary environments, which can cause deterioration of the predictive performance of a model. To address the above challenges, the paper proposes an autoencoder-based incremental learning method with drift detection (strAEm++DD). Our proposed method strAEm++DD leverages on the advantages of both incremental learning and drift detection. We conduct an experimental study using real-world and synthetic datasets with severe or extreme class imbalance, and provide an empirical analysis of strAEm++DD. We further conduct a comparative study, showing that the proposed method significantly outperforms existing baseline and advanced methods.
翻訳日:2023-05-17 17:21:58 公開日:2023-05-15
# ハイブリッドトライアルにおける外部制御活用のための因果推論フレームワーク

A Causal Inference Framework for Leveraging External Controls in Hybrid Trials ( http://arxiv.org/abs/2305.08969v1 )

ライセンス: Link先を確認
Michael Valancius, Herb Pang, Jiawen Zhu, Stephen R Cole, Michele Jonsson Funk, Michael R Kosorok(参考訳) 平均治療効果 (ate) を推定する効率を向上させるために, ランダム化試行からのデータを外部ソースからの制御データで拡張する場面において, 因果推論に関連する課題を検討する。 公式な因果推論フレームワークの開発を通じて、内部制御と外部制御の交換可能性に関する十分な因果仮定を概説し、ATEを識別し、新しいグラフィカルな基準との関係を確立する。 本研究では,フレキシブルな機械学習手法を用いて未知のニュアサンスモデルが推定された場合でも,推定器,評価効率境界,効率的な2倍ロバスト推定手法を考案し,シミュレーションによる有限サンプル性能を実証する。 そこで本研究では,前回の治験から外部コントロール患者が存在する脊髄筋萎縮症患者の運動機能に対するrisdisplamの効果について検討した。

We consider the challenges associated with causal inference in settings where data from a randomized trial is augmented with control data from an external source to improve efficiency in estimating the average treatment effect (ATE). Through the development of a formal causal inference framework, we outline sufficient causal assumptions about the exchangeability between the internal and external controls to identify the ATE and establish the connection to a novel graphical criteria. We propose estimators, review efficiency bounds, develop an approach for efficient doubly-robust estimation even when unknown nuisance models are estimated with flexible machine learning methods, and demonstrate finite-sample performance through a simulation study. To illustrate the ideas and methods, we apply the framework to a trial investigating the effect of risdisplam on motor function in patients with spinal muscular atrophy for which there exists an external set of control patients from a previous trial.
翻訳日:2023-05-17 17:21:44 公開日:2023-05-15
# 適応時間面を用いた足ロボットの動的運動追跡のためのイベントカメラによる視覚計測

Event Camera-based Visual Odometry for Dynamic Motion Tracking of a Legged Robot Using Adaptive Time Surface ( http://arxiv.org/abs/2305.08962v1 )

ライセンス: Link先を確認
Shifan Zhu, Zhipeng Tang, Michael Yang, Erik Learned-Miller, Donghyun Kim(参考訳) 本稿では,イベントとRGB-Dデータを組み合わせて,ダイナミックな移動動作やアクロバティックな動作におけるアジャイルレッグロボットの姿勢を推定する,直接スパース視覚計測法を提案する。 イベントカメラは高時間分解能とダイナミックレンジを提供しており、高速移動時のぼやけたRGB画像の問題を排除できる。 このユニークな強みは、アジャイル足ロボットの正確なポーズ推定の可能性を秘めている。 我々のフレームワークは、RGB-Dとイベントカメラの両方の利点を利用して、四足歩行ロボットMini-Cheetahのジャンプや着陸のような動的操作であっても、堅牢で正確なポーズ推定を実現する。 まず、シーンの複雑さと動き速度に基づいて画素ワイドの減衰率を定式化することにより、従来の時間表面におけるホワイトアウトとブラックアウトの問題に対処する適応時間表面法(ATS)を導入する。 次に,イベントデータから直接サンプリングし,atsを通じてサンプルフィルタリングを行い,異なる特徴の画素を選択できる効果的な画素選択法を開発した。 最後に,rgbベースとイベントベースの両方の地図と画像に対して,同時に3d-2dアライメントを行う非線形ポーズ最適化式を提案する。 公共データセットと独自の四足ロボットデータセットの両方でフレームワークの性能を広範囲に評価し、動的動作中のアジャイルロボットの姿勢を正確に推定する効果を実証した。

Our paper proposes a direct sparse visual odometry method that combines event and RGB-D data to estimate the pose of agile-legged robots during dynamic locomotion and acrobatic behaviors. Event cameras offer high temporal resolution and dynamic range, which can eliminate the issue of blurred RGB images during fast movements. This unique strength holds a potential for accurate pose estimation of agile-legged robots, which has been a challenging problem to tackle. Our framework leverages the benefits of both RGB-D and event cameras to achieve robust and accurate pose estimation, even during dynamic maneuvers such as jumping and landing a quadruped robot, the Mini-Cheetah. Our major contributions are threefold: Firstly, we introduce an adaptive time surface (ATS) method that addresses the whiteout and blackout issue in conventional time surfaces by formulating pixel-wise decay rates based on scene complexity and motion speed. Secondly, we develop an effective pixel selection method that directly samples from event data and applies sample filtering through ATS, enabling us to pick pixels on distinct features. Lastly, we propose a nonlinear pose optimization formula that simultaneously performs 3D-2D alignment on both RGB-based and event-based maps and images, allowing the algorithm to fully exploit the benefits of both data streams. We extensively evaluate the performance of our framework on both public datasets and our own quadruped robot dataset, demonstrating its effectiveness in accurately estimating the pose of agile robots during dynamic movements.
翻訳日:2023-05-17 17:21:26 公開日:2023-05-15
# バックプロパゲーションを伴わないニューラルネットワークのトレーニング--いいね!

Training Neural Networks without Backpropagation: A Deeper Dive into the Likelihood Ratio Method ( http://arxiv.org/abs/2305.08960v1 )

ライセンス: Link先を確認
Jinyang Jiang, Zeliang Zhang, Chenliang Xu, Zhaofei Yu, Yijie Peng(参考訳) バックプロパゲーション(bp)は、ディープラーニングにおけるニューラルネットワークのトレーニングにおいて最も重要な勾配推定手法である。 しかし、文献はBPによって訓練されたニューラルネットワークが敵の攻撃に弱いことを示している。 本研究では,畳み込みニューラルネットワーク,リカレントニューラルネットワーク,グラフニューラルネットワーク,スパイクニューラルネットワークなど,幅広いニューラルネットワークアーキテクチャを再帰的な勾配計算なしで学習するための,新しい勾配推定法であるLR法を開発した。 本稿では,ニューラルネットワーク学習過程における勾配推定のばらつきを効果的に軽減する3つの手法を提案する。 実験により,複数のデータセット上で異なるニューラルネットワークをトレーニングするための数値結果が得られる。 これらの結果は、LR法が様々なニューラルネットワークのトレーニングに有効であることを示し、BP法に対する敵対攻撃下でのニューラルネットワークの堅牢性を大幅に向上することを示した。

Backpropagation (BP) is the most important gradient estimation method for training neural networks in deep learning. However, the literature shows that neural networks trained by BP are vulnerable to adversarial attacks. We develop the likelihood ratio (LR) method, a new gradient estimation method, for training a broad range of neural network architectures, including convolutional neural networks, recurrent neural networks, graph neural networks, and spiking neural networks, without recursive gradient computation. We propose three methods to efficiently reduce the variance of the gradient estimation in the neural network training process. Our experiments yield numerical results for training different neural networks on several datasets. All results demonstrate that the LR method is effective for training various neural networks and significantly improves the robustness of the neural networks under adversarial attacks relative to the BP method.
翻訳日:2023-05-17 17:20:58 公開日:2023-05-15
# モジュラーモーションプログラムによるモーション質問応答

Motion Question Answering via Modular Motion Programs ( http://arxiv.org/abs/2305.08953v1 )

ライセンス: Link先を確認
Mark Endo, Joy Hsu, Jiaman Li, Jiajun Wu(参考訳) 現実世界で人間の行動を知覚し推論できる人工知能システムを構築するためには、まず、動きのシーケンス上で複雑な時空間推論を行うモデルを設計する必要がある。 この目標に向けて、長文の人間の動き列上でのモデルの複雑な多段階推論能力を評価するためのHumanMotionQAタスクを提案する。 我々は,運動列の小さな部分における運動キューの検出,事象の発生時期の時間的推論,特定の動作属性のクエリを必要とする質問応答対のデータセットを生成する。 さらに, 動作概念の学習, 属性・ニューラル演算, 時間的関係などを通じて, 記号的推論とモジュラー設計を用いて, 動作をグラウンド化するためのニューロシンボリック手法であるNSPoseを提案する。 我々は,NSPoseのHumanMotionQAタスクに対する適合性を実証し,すべてのベースライン手法より優れていることを示す。

In order to build artificial intelligence systems that can perceive and reason with human behavior in the real world, we must first design models that conduct complex spatio-temporal reasoning over motion sequences. Moving towards this goal, we propose the HumanMotionQA task to evaluate complex, multi-step reasoning abilities of models on long-form human motion sequences. We generate a dataset of question-answer pairs that require detecting motor cues in small portions of motion sequences, reasoning temporally about when events occur, and querying specific motion attributes. In addition, we propose NSPose, a neuro-symbolic method for this task that uses symbolic reasoning and a modular design to ground motion through learning motion concepts, attribute neural operators, and temporal relations. We demonstrate the suitability of NSPose for the HumanMotionQA task, outperforming all baseline methods.
翻訳日:2023-05-17 17:20:43 公開日:2023-05-15
# 固有値問題に対するほぼ退化密度行列摂動理論の係数

Coefficients of almost-degenerate density matrix perturbation theory for eigenvalue problems ( http://arxiv.org/abs/2305.09026v1 )

ライセンス: Link先を確認
Charles Arnal, Louis Garrigue(参考訳) 固有値問題のほぼ退化摂動理論をスペクトルプロジェクタ、別名密度行列を用いて検討する。 複数の固有値が互いに近いとき、摂動級数の係数は、固有値間の差の逆がいくつかの因子として現れるため特異になる。 級数の係数の表現におけるこれらの人工特異点を取り除き、固有値のギャップを任意に小さくし、結果の式で消えることさえできる。

We investigate almost-degenerate perturbation theory of eigenvalue problems, using spectral projectors, also named density matrices. When several eigenvalues are close to each other, the coefficients of the perturbative series become singular because inverses of differences between eigenvalues arise as some factors. We remove those artificial singularities in the expressions of the coefficients of the series, allowing eigenvalue gaps to be arbitrarily small and even vanishing in the resulting formulas.
翻訳日:2023-05-17 17:12:45 公開日:2023-05-15
# 多言語難読検索のためのソフトプロンプトデコーディング

Soft Prompt Decoding for Multilingual Dense Retrieval ( http://arxiv.org/abs/2305.09025v1 )

ライセンス: Link先を確認
Zhiqi Huang, Hansi Zeng, Hamed Zamani and James Allan(参考訳) 本研究では,複数の言語に文書を格納する多言語情報検索(MLIR)タスクについて検討する。 MLIRタスクに言語間情報検索のための最先端手法を適用することにより,準最適性能が得られることを示す。 これは、多言語コレクションの不均一で不均衡な性質のためである - いくつかの言語はコレクションで表現され、大規模なトレーニングデータの恩恵を受けている。 KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語の文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。 データ不足と不均衡の課題に対処するため,我々は知識蒸留戦略を導入する。 教師モデルはリッチな英語検索データに基づいて訓練され,バイテキストデータを活用することで,その検索知識を多言語文書エンコーダに転送する。 したがって,本手法は多言語検索訓練データを必要としない。 15の言語からなる3つのmlirデータセットに関する広範な実験は、kd-spdがすべてのケースで競合ベースラインを大きく上回っていることを示している。 我々は、言語バイアスが少なく、新しい言語へのゼロショット転送能力が向上していることを示すため、広範囲な分析を行う。

In this work, we explore a Multilingual Information Retrieval (MLIR) task, where the collection includes documents in multiple languages. We demonstrate that applying state-of-the-art approaches developed for cross-lingual information retrieval to MLIR tasks leads to sub-optimal performance. This is due to the heterogeneous and imbalanced nature of multilingual collections -- some languages are better represented in the collection and some benefit from large-scale training data. To address this issue, we present KD-SPD, a novel soft prompt decoding approach for MLIR that implicitly "translates" the representation of documents in different languages into the same embedding space. To address the challenges of data scarcity and imbalance, we introduce a knowledge distillation strategy. The teacher model is trained on rich English retrieval data, and by leveraging bi-text data, our distillation framework transfers its retrieval knowledge to the multilingual document encoder. Therefore, our approach does not require any multilingual retrieval training data. Extensive experiments on three MLIR datasets with a total of 15 languages demonstrate that KD-SPD significantly outperforms competitive baselines in all cases. We conduct extensive analyses to show that our method has less language bias and better zero-shot transfer ability towards new languages.
翻訳日:2023-05-17 17:12:37 公開日:2023-05-15
# Tango: NLPタスクの概念化のナビゲートとパフォーマンスの測定

It Takes Two to Tango: Navigating Conceptualizations of NLP Tasks and Measurements of Performance ( http://arxiv.org/abs/2305.09022v1 )

ライセンス: Link先を確認
Arjun Subramonian, Xingdi Yuan, Hal Daum\'e III, Su Lin Blodgett(参考訳) NLPの進歩は、ベンチマークを通じてますます測定されるため、文脈化の進展には、いつ、なぜ実践者がベンチマークの有効性について意見が一致しないのかを理解する必要がある。 我々は、不一致の分類を開発し、測定モデルからツールを抽出し、2種類の不一致を区別する。 1)課題概念化の方法と課題 2) モデル性能の測定方法について検討する。 本分類学のエビデンスを提供するため,nlpタスクの概念化の方法を理解するために関連文献のメタ分析を行い,ベンチマーク妥当性に影響を与える因子の印象に関する実践者の調査を行った。 私たちのメタ分析と調査は、コア参照の解決から質問応答まで8つのタスクにわたって行われ、タスクが一般的に明確で一貫した概念化ではなく、ベンチマークが運用上の不一致に悩まされていることを明らかにする。 これらの知見は,提案した異同の分類を裏付けるものである。 最後に,本分類に基づいて,ベンチマークを構築し,その限界を文書化する枠組みを提案する。

Progress in NLP is increasingly measured through benchmarks; hence, contextualizing progress requires understanding when and why practitioners may disagree about the validity of benchmarks. We develop a taxonomy of disagreement, drawing on tools from measurement modeling, and distinguish between two types of disagreement: 1) how tasks are conceptualized and 2) how measurements of model performance are operationalized. To provide evidence for our taxonomy, we conduct a meta-analysis of relevant literature to understand how NLP tasks are conceptualized, as well as a survey of practitioners about their impressions of different factors that affect benchmark validity. Our meta-analysis and survey across eight tasks, ranging from coreference resolution to question answering, uncover that tasks are generally not clearly and consistently conceptualized and benchmarks suffer from operationalization disagreements. These findings support our proposed taxonomy of disagreement. Finally, based on our taxonomy, we present a framework for constructing benchmarks and documenting their limitations.
翻訳日:2023-05-17 17:12:13 公開日:2023-05-15
# Dated: エンジニアリング設計アプリケーションのための合成データセット作成ガイドライン

DATED: Guidelines for Creating Synthetic Datasets for Engineering Design Applications ( http://arxiv.org/abs/2305.09018v1 )

ライセンス: Link先を確認
Cyril Picard, J\"urg Schiffmann and Faez Ahmed(参考訳) ChatGPTとDALL-Eがデモした人工知能の最近の進歩を、現実世界のアプリケーションに展開するには、膨大な、ドメイン固有の、パブリックアクセス可能なデータセットが必要である。 残念ながら、このようなデータセットの不足は、これらのブレークスルーをエンジニアリング設計に適用しようとする研究者にとって大きな課題となる。 合成データセットは、実行可能な代替品として出現する。 しかし、実践者は多くの場合、現実世界のデータを正確に表現し、意図した下流アプリケーションに適した高品質なデータセットを生成することに不確実である。 本研究は,合成データセットの生成,注釈作成,検証のための包括的なガイドラインを提案することにより,この知識ギャップを埋めることを目的としている。 これら各側面に関連するトレードオフと方法が詳しく説明されている。 さらに, ターボ圧縮機データセットの作成により, これらのガイドラインの実用的意義を示す。 この研究は、データセットのサイズ、多様性、有用性、リアリズムを保証するために、思慮深いサンプリング方法の重要性を強調している。 また、デザインの多様性はパフォーマンスの多様性やリアリズムと同等ではないことも強調している。 一様、実またはタスク固有のサンプルを表すテストセットを使用することで、サンプルサイズとサンプリング戦略の影響を精査する。 全体として、本論文は、エンジニアリング設計のための合成データセットの作成と公開を目的としている研究者にとって貴重な洞察を提供する。 データセットとメソッドのコードとデータはhttps://github.com/cyrilpic/radcompで公開されている。

Exploiting the recent advancements in artificial intelligence, showcased by ChatGPT and DALL-E, in real-world applications necessitates vast, domain-specific, and publicly accessible datasets. Unfortunately, the scarcity of such datasets poses a significant challenge for researchers aiming to apply these breakthroughs in engineering design. Synthetic datasets emerge as a viable alternative. However, practitioners are often uncertain about generating high-quality datasets that accurately represent real-world data and are suitable for the intended downstream applications. This study aims to fill this knowledge gap by proposing comprehensive guidelines for generating, annotating, and validating synthetic datasets. The trade-offs and methods associated with each of these aspects are elaborated upon. Further, the practical implications of these guidelines are illustrated through the creation of a turbo-compressors dataset. The study underscores the importance of thoughtful sampling methods to ensure the appropriate size, diversity, utility, and realism of a dataset. It also highlights that design diversity does not equate to performance diversity or realism. By employing test sets that represent uniform, real, or task-specific samples, the influence of sample size and sampling strategy is scrutinized. Overall, this paper offers valuable insights for researchers intending to create and publish synthetic datasets for engineering design, thereby paving the way for more effective applications of AI advancements in the field. The code and data for the dataset and methods are made publicly accessible at https://github.com/cyrilpic/radcomp .
翻訳日:2023-05-17 17:11:56 公開日:2023-05-15
# Gaussian Process Port-Hamiltonian Systems:Bayesian Learning with Physics Prior

Gaussian Process Port-Hamiltonian Systems: Bayesian Learning with Physics Prior ( http://arxiv.org/abs/2305.09017v1 )

ライセンス: Link先を確認
Thomas Beckers, Jacob Seidman, Paris Perdikaris, George J. Pappas(参考訳) データ駆動アプローチは、収集されたデータに基づく複雑なダイナミクスのモデリングにおいて顕著な結果をもたらす。 しかし、これらのモデルは現実世界のシステムの振る舞いを決定する基本的な物理原理をしばしば無視する。 この省略は2つの点で好ましくない: モデルは物理的事前知識を組み込むことによって、よりデータ効率が良くないし、モデル自体が物理的に正しいものではないかもしれない。 ガウス過程ポートハミルトニアン系 (gp-phs) を不確実性定量化を伴う物理形ベイズ学習手法として提案する。 GP-PHSのベイズの性質は、収集されたデータを用いて、単一の点推定ではなく、すべての可能なハミルトン分布を形成する。 基礎となる物理モデルにより、GP-PHSは指定された入力と出力に関して受動的システムを生成する。 さらに,提案手法はポートハミルトニアン系の構成的性質を保っている。

Data-driven approaches achieve remarkable results for the modeling of complex dynamics based on collected data. However, these models often neglect basic physical principles which determine the behavior of any real-world system. This omission is unfavorable in two ways: The models are not as data-efficient as they could be by incorporating physical prior knowledge, and the model itself might not be physically correct. We propose Gaussian Process Port-Hamiltonian systems (GP-PHS) as a physics-informed Bayesian learning approach with uncertainty quantification. The Bayesian nature of GP-PHS uses collected data to form a distribution over all possible Hamiltonians instead of a single point estimate. Due to the underlying physics model, a GP-PHS generates passive systems with respect to designated inputs and outputs. Further, the proposed approach preserves the compositional nature of Port-Hamiltonian systems.
翻訳日:2023-05-17 17:11:36 公開日:2023-05-15
# 脳腫瘍分離(BraTS)チャレンジ2023: 腫瘍分離(BraSyn)のための脳MR画像合成

The Brain Tumor Segmentation (BraTS) Challenge 2023: Brain MR Image Synthesis for Tumor Segmentation (BraSyn) ( http://arxiv.org/abs/2305.09011v1 )

ライセンス: Link先を確認
Hongwei Bran Li, Gian Marco Conte, Syed Muhammad Anwar, Florian Kofler, Koen van Leemput, Marie Piraud, Ivan Ezhov, Felix Meissen, Maruf Adewole, Syed Muhammad Anwar, Anastasia Janas, Anahita Fathi Kazerooni, Dominic LaBella, Ahmed W. Moawad, Keyvan Farahani, James Eddy, Timothy Bergquist, Verena Chung, Russell Takeshi Shinohara, Farouk Dako, Walter Wiggins, Zachary Reitman, Chunhao Wang, Xinyang Liu, Zhifan Jiang, Ariana Familiar, Elaine Johanson, Zeke Meier, Christos Davatzikos, John Freymann, Justin Kirby, Michel Bilello, Hassan M. Fathallah-Shaykh, Roland Wiest, Jan Kirschke, Rivka R. Colen, Aikaterini Kotrotsou, Pamela Lamontagne, Daniel Marcus, Mikhail Milchenko, Arash Nazeri, Marc Andr\'e Weber, Abhishek Mahajan, Suyash Mohan, John Mongan, Christopher Hess, Soonmee Cha, Javier Villanueva, Meyer Errol Colak, Priscila Crivellaro, Andras Jakab, Jake Albrecht, Udunna Anazodo, Mariam Aboian, Thomas Yu, Verena Chung, Timothy Bergquist, James Eddy, Jake Albrecht, Ujjwal Baid, Spyridon Bakas, Marius George Linguraru, Bjoern Menze, Juan Eugenio Iglesias, Benedikt Wiestler(参考訳) 自動脳腫瘍分割法は確立されており、明確な臨床的有用性を持つパフォーマンスレベルに達する。 ほとんどのアルゴリズムは4つの入力磁気共鳴イメージング(MRI)モダリティ(典型的にはT1強調画像、T2強調画像、FLAIR画像)を必要とする。 しかしながら、これらのシーケンスのいくつかは、例えば、時間的制約や(患者の動きのような)イメージアーティファクトのために、臨床実践で欠落することが多い。 したがって, これらのシナリオにおいて, セグメンテーション性能の回復に欠かせないモダリティを置換することは, 臨床ルーチンにおいて, より広く採用されるためには, 極めて望ましいものである。 本稿では,医療用画像コンピューティングとコンピュータ支援インターベンション(MICCAI)2023と連携して編成された脳MR画像合成ベンチマーク(BraSyn)のセットアップについて報告する。 この課題の目的は、複数の利用可能な画像から欠落したMRIモダリティを現実的に合成し、自動脳腫瘍セグメンテーションパイプラインを促進する画像合成方法のベンチマークを行うことである。 画像データセットは多様で多様であり、様々な病院や研究機関と連携して作成された。

Automated brain tumor segmentation methods are well established, reaching performance levels with clear clinical utility. Most algorithms require four input magnetic resonance imaging (MRI) modalities, typically T1-weighted images with and without contrast enhancement, T2-weighted images, and FLAIR images. However, some of these sequences are often missing in clinical practice, e.g., because of time constraints and/or image artifacts (such as patient motion). Therefore, substituting missing modalities to recover segmentation performance in these scenarios is highly desirable and necessary for the more widespread adoption of such algorithms in clinical routine. In this work, we report the set-up of the Brain MR Image Synthesis Benchmark (BraSyn), organized in conjunction with the Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2023. The objective of the challenge is to benchmark image synthesis methods that realistically synthesize missing MRI modalities given multiple available images to facilitate automated brain tumor segmentation pipelines. The image dataset is multi-modal and diverse, created in collaboration with various hospitals and research institutions.
翻訳日:2023-05-17 17:11:22 公開日:2023-05-15
# 物理学強化ガウス過程変分オートエンコーダ

Physics-enhanced Gaussian Process Variational Autoencoder ( http://arxiv.org/abs/2305.09006v1 )

ライセンス: Link先を確認
Thomas Beckers, Qirui Wu, George J. Pappas(参考訳) 変分オートエンコーダは、高次元の入出力データに基づいて低次元の潜在空間を学習できる。 ビデオクリップを入力データとして使用すると、エンコーダは、真理データ(教師なし学習)なしでビデオ内のオブジェクトの移動を記述するのに使うことができる。 オブジェクトのダイナミクスは一般的に第一原理に基づいているが、この以前の知識は既存の文献では無視されている。 そこで本研究では,潜在力学に先立って物理エンハンスされたガウス過程を配置する物理エンハンス型変分オートエンコーダを提案し,変分オートエンコーダの効率を改善し,物理的に正しい予測を可能にする。 線形力学系として表される物理的事前知識はグリーン関数に反映され、ガウス過程の核関数に含まれる。 提案手法の利点は振動粒子を用いたシミュレーションで強調される。

Variational autoencoders allow to learn a lower-dimensional latent space based on high-dimensional input/output data. Using video clips as input data, the encoder may be used to describe the movement of an object in the video without ground truth data (unsupervised learning). Even though the object's dynamics is typically based on first principles, this prior knowledge is mostly ignored in the existing literature. Thus, we propose a physics-enhanced variational autoencoder that places a physical-enhanced Gaussian process prior on the latent dynamics to improve the efficiency of the variational autoencoder and to allow physically correct predictions. The physical prior knowledge expressed as linear dynamical system is here reflected by the Green's function and included in the kernel function of the Gaussian process. The benefits of the proposed approach are highlighted in a simulation with an oscillating particle.
翻訳日:2023-05-17 17:11:00 公開日:2023-05-15
# プラグアンドプレイ画像復元のための拡散モデル

Denoising Diffusion Models for Plug-and-Play Image Restoration ( http://arxiv.org/abs/2305.08995v1 )

ライセンス: Link先を確認
Yuanzhi Zhu, Kai Zhang, Jingyun Liang, Jiezhang Cao, Bihan Wen, Radu Timofte, Luc Van Gool(参考訳) プラグアンドプレイ画像復元(IR)は,既往の暗黙のイメージとして市販のデノイザを用いて,様々な逆問題を解決するフレキシブルかつ解釈可能な方法として広く認識されている。 しかし、既存の手法の多くは差別的ガウス的デノイザーに焦点をあてている。 拡散モデルは高品質な画像合成に優れた性能を示したが、プラグ・アンド・プレイIR法に先立って生成デノイザとして機能する可能性については、さらに検討が続けられている。 画像復元に拡散モデルを採用する試みは他にもいくつかあるが、良好な結果が得られなかったり、通常は推論中に許容できない数のニューラルファンクション評価(NFE)を必要とする。 本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。 gaussian denoisersを識別するプラグイン・アンド・プレイ ir 法と比較して、diffpir は拡散モデルの生成能力を継承することが期待されている。 超解像、画像デブラリング、インパインティングを含む3つの代表的なirタスクの実験結果から、diffpirは100nfe以下の再構成忠実性と知覚品質でffhqとimagenetの両方で最先端のパフォーマンスを達成していることが示されている。 ソースコードは {\url{https://github.com/yuanzhi-zhu/DiffPIR}}で入手できる。

Plug-and-play Image Restoration (IR) has been widely recognized as a flexible and interpretable method for solving various inverse problems by utilizing any off-the-shelf denoiser as the implicit image prior. However, most existing methods focus on discriminative Gaussian denoisers. Although diffusion models have shown impressive performance for high-quality image synthesis, their potential to serve as a generative denoiser prior to the plug-and-play IR methods remains to be further explored. While several other attempts have been made to adopt diffusion models for image restoration, they either fail to achieve satisfactory results or typically require an unacceptable number of Neural Function Evaluations (NFEs) during inference. This paper proposes DiffPIR, which integrates the traditional plug-and-play method into the diffusion sampling framework. Compared to plug-and-play IR methods that rely on discriminative Gaussian denoisers, DiffPIR is expected to inherit the generative ability of diffusion models. Experimental results on three representative IR tasks, including super-resolution, image deblurring, and inpainting, demonstrate that DiffPIR achieves state-of-the-art performance on both the FFHQ and ImageNet datasets in terms of reconstruction faithfulness and perceptual quality with no more than 100 NFEs. The source code is available at {\url{https://github.com/yuanzhi-zhu/DiffPIR}}
翻訳日:2023-05-17 17:10:44 公開日:2023-05-15
# 機械学習を用いた制御フローグラフによるマルウェア解析

Survey of Malware Analysis through Control Flow Graph using Machine Learning ( http://arxiv.org/abs/2305.08993v1 )

ライセンス: Link先を確認
Shaswata Mitra, Stephen A. Torri, Sudip Mittal(参考訳) マルウェアはコンピュータシステムやネットワークのセキュリティにとって重大な脅威であり、検出の動作と機能を分析するための高度な技術を必要とする。 従来のシグネチャベースのマルウェア検出手法は、その急速な進化により、新しく未知のマルウェアを検出するのに効果がない。 シグネチャベースの検出の限界を克服できる最も有望なテクニックの1つは、制御フローグラフ(CFG)を使用することである。 CFGはプログラムの構造情報を利用して実行可能なパスをグラフとして表現し、ノードは命令を表し、エッジは制御フロー依存性を表す。 機械学習(ml)アルゴリズムは、これらの機能をcfgsから抽出し、それらを悪意または良性として分類するために使用されている。 本研究では,mlを用いたcfgsによるマルウェア検出手法について検討し,その抽出方法,表現方法,分類方法の相違に着目した。 具体的には,cfg ベースのマルウェア検出に適用された異なる ml アルゴリズムと同様に,これまで使用されてきた cfg 機能の種類を包括的に概観する。 我々は、これらのアプローチの課題と限界を詳細に分析するとともに、オープンな問題に対処する潜在的な解決策を提案し、この分野の研究の今後の方向性を約束する。

Malware is a significant threat to the security of computer systems and networks which requires sophisticated techniques to analyze the behavior and functionality for detection. Traditional signature-based malware detection methods have become ineffective in detecting new and unknown malware due to their rapid evolution. One of the most promising techniques that can overcome the limitations of signature-based detection is to use control flow graphs (CFGs). CFGs leverage the structural information of a program to represent the possible paths of execution as a graph, where nodes represent instructions and edges represent control flow dependencies. Machine learning (ML) algorithms are being used to extract these features from CFGs and classify them as malicious or benign. In this survey, we aim to review some state-of-the-art methods for malware detection through CFGs using ML, focusing on the different ways of extracting, representing, and classifying. Specifically, we present a comprehensive overview of different types of CFG features that have been used as well as different ML algorithms that have been applied to CFG-based malware detection. We provide an in-depth analysis of the challenges and limitations of these approaches, as well as suggest potential solutions to address some open problems and promising future directions for research in this field.
翻訳日:2023-05-17 17:10:19 公開日:2023-05-15
# 脳腫瘍分離(BraTS)チャレンジ2023: 塗布による健康な脳組織の局所的合成

The Brain Tumor Segmentation (BraTS) Challenge 2023: Local Synthesis of Healthy Brain Tissue via Inpainting ( http://arxiv.org/abs/2305.08992v1 )

ライセンス: Link先を確認
Florian Kofler, Felix Meissen, Felix Steinbauer, Robert Graf, Eva Oswald, Ezequiel de da Rosa, Hongwei Bran Li, Ujjwal Baid, Florian Hoelzl, Oezguen Turgut, Izabela Horvath, Diana Waldmannstetter, Christina Bukas, Maruf Adewole, Syed Muhammad Anwar, Anastasia Janas, Anahita Fathi Kazerooni, Dominic LaBella, Ahmed W Moawad, Keyvan Farahani, James Eddy, Timothy Bergquist, Verena Chung, Russell Takeshi Shinohara, Farouk Dako, Walter Wiggins, Zachary Reitman, Chunhao Wang, Xinyang Liu, Zhifan Jiang, Ariana Familiar, Gian-Marco Conte, Elaine Johanson, Zeke Meier, Christos Davatzikos, John Freymann, Justin Kirby, Michel Bilello, Hassan M Fathallah-Shaykh, Roland Wiest, Jan Kirschke, Rivka R Colen, Aikaterini Kotrotsou, Pamela Lamontagne, Daniel Marcus, Mikhail Milchenko, Arash Nazeri, Marc-Andr\'e Weber, Abhishek Mahajan, Suyash Mohan, John Mongan, Christopher Hess, Soonmee Cha, Javier Villanueva-Meyer, Errol Colak, Priscila Crivellaro, Andras Jakab, Jake Albrecht, Udunna Anazodo, Mariam Aboian, Juan Eugenio Iglesias, Koen Van Leemput, Spyridon Bakas, Daniel Rueckert, Benedikt Wiestler, Ivan Ezhov, Marie Piraud, Bjoern Menze(参考訳) 脳MR画像の自動解析のための無数のアルゴリズムが臨床医の意思決定を支援するために利用可能である。 脳腫瘍患者の場合、画像取得の時系列は、通常、既に病理的なスキャンから始まります。 多くのアルゴリズムは正常な脳を分析し、病変を特徴とする画像に対する保証を提供しない。 例としては、脳解剖学的パーセレーション、組織分割、脳抽出のアルゴリズムに限らない。 このジレンマを解決するために,BraTS 2023の塗装課題を紹介する。 ここでの参加者の課題は、損傷した脳から健康な脳スキャンを合成するための塗装技術を探ることである。 以下の原稿はタスクの定式化、データセット、提出手順を含んでいる。 その後、課題の調査結果をまとめるために更新される。 このチャレンジは、カナダのバンクーバーで開催されたMICCAI 2023カンファレンスで開催されるBraTS 2023チャレンジの一部として組織されている。

A myriad of algorithms for the automatic analysis of brain MR images is available to support clinicians in their decision-making. For brain tumor patients, the image acquisition time series typically starts with a scan that is already pathological. This poses problems, as many algorithms are designed to analyze healthy brains and provide no guarantees for images featuring lesions. Examples include but are not limited to algorithms for brain anatomy parcellation, tissue segmentation, and brain extraction. To solve this dilemma, we introduce the BraTS 2023 inpainting challenge. Here, the participants' task is to explore inpainting techniques to synthesize healthy brain scans from lesioned ones. The following manuscript contains the task formulation, dataset, and submission procedure. Later it will be updated to summarize the findings of the challenge. The challenge is organized as part of the BraTS 2023 challenge hosted at the MICCAI 2023 conference in Vancouver, Canada.
翻訳日:2023-05-17 17:09:59 公開日:2023-05-15
# 脳復号処理への変換学習のためのfMRIデータのペア配列に基づく自己教師付き事前学習

Self-Supervised Pretraining on Paired Sequences of fMRI Data for Transfer Learning to Brain Decoding Tasks ( http://arxiv.org/abs/2305.09057v1 )

ライセンス: Link先を確認
Sean Paulsen, Michael Casey(参考訳) 本研究では,機能的磁気共鳴イメージング(fMRI)データに基づくトランスフォーマーのための自己教師付き事前学習フレームワークを提案する。 まず,音楽聴取時の聴覚野の時間的・空間的動態をモデルに理解させるために,2つの自己教師付き課題を同時に事前学習する。 予備訓練の結果は,fMRIデータに対するマルチタスクトレーニングの相乗効果を初めて示唆したものである。 第二に、訓練済みのモデルを微調整し、教師付きfMRI分類タスクで新たなモデルを訓練する。 我々は,微調整モデルを用いたホールドアウト実行の精度が大幅に向上するのを観察し,転送学習を容易にするための事前学習タスクの能力を示す。 本研究は,fMRIデータを用いた事前学習と伝達学習のためのトランスフォーマーアーキテクチャに関する文献の増大に寄与し,fMRIデータに基づく事前学習とマルチタスク事前学習の概念実証の役割を果たしている。

In this work we introduce a self-supervised pretraining framework for transformers on functional Magnetic Resonance Imaging (fMRI) data. First, we pretrain our architecture on two self-supervised tasks simultaneously to teach the model a general understanding of the temporal and spatial dynamics of human auditory cortex during music listening. Our pretraining results are the first to suggest a synergistic effect of multitask training on fMRI data. Second, we finetune the pretrained models and train additional fresh models on a supervised fMRI classification task. We observe significantly improved accuracy on held-out runs with the finetuned models, which demonstrates the ability of our pretraining tasks to facilitate transfer learning. This work contributes to the growing body of literature on transformer architectures for pretraining and transfer learning with fMRI data, and serves as a proof of concept for our pretraining tasks and multitask pretraining on fMRI data.
翻訳日:2023-05-17 17:04:42 公開日:2023-05-15
# 井戸制御型貯留層シミュレーションのための物理インフォーメーション畳み込みリカレントサーロゲートモデル

Physics-informed Convolutional Recurrent Surrogate Model for Reservoir Simulation with Well Controls ( http://arxiv.org/abs/2305.09056v1 )

ライセンス: Link先を確認
Jungang Chen, Eduardo Gildin and John E. Killough (Texas A&M University)(参考訳) 本稿では,物理インフォームド畳み込みリカレントニューラルネットワーク(PICRNN)を用いた流体流動モデリングのための新しい代理モデルを提案する。 このモデルは畳み込み型long-short term memory (convlstm) を用いて、多孔質流れにおける状態進化ダイナミクスの時空間依存性を捉える。 ConvLSTMは状態空間方程式と関連付けられ、井戸制御の離散時間列を組み込むことができる。 モデルは入力として初期状態条件とウェル制御のシーケンスを必要とし、出力として圧力などのシステムの状態変数を予測する。 貯留層流状態空間方程式の残余を最小化することにより,ラベル付きデータを必要としないネットワークを訓練する。 このモデルは、初期貯水池の状態と入力工学制御に基づいて将来の貯水池状態を予測する代理モデルとして機能するように設計されている。 境界条件は状態空間方程式に強制されるため、追加の損失項は必要ない。 将来の well/system 制御に基づく貯留層動力学予測におけるモデルの有効性を示す3つの数値ケースについて検討した。 提案モデルにより, 地下流動の効率的かつ正確な予測が可能となり, 貯水池工学における最適制御設計への応用が期待できる。

This paper presents a novel surrogate model for modeling subsurface fluid flow with well controls using a physics-informed convolutional recurrent neural network (PICRNN). The model uses a convolutional long-short term memory (ConvLSTM) to capture the spatiotemporal dependencies of the state evolution dynamics in the porous flow. The ConvLSTM is linked to the state space equations, enabling the incorporation of a discrete-time sequence of well control. The model requires initial state condition and a sequence of well controls as inputs, and predicts the state variables of the system, such as pressure, as output. By minimizing the residuals of reservoir flow state-space equations, the network is trained without the need for labeled data. The model is designed to serve as a surrogate model for predicting future reservoir states based on the initial reservoir state and input engineering controls. Boundary conditions are enforced into the state-space equations so no additional loss term is needed. Three numerical cases are studied, demonstrating the model's effectiveness in predicting reservoir dynamics based on future well/system controls. The proposed model provides a new approach for efficient and accurate prediction of subsurface fluid flow, with potential applications in optimal control design for reservoir engineering.
翻訳日:2023-05-17 17:04:27 公開日:2023-05-15
# 再構成可能な量子インターネットサービスプロバイダ

Reconfigurable Quantum Internet Service Provider ( http://arxiv.org/abs/2305.09048v1 )

ライセンス: Link先を確認
Zhaohui Yang, Chaohan Cui(参考訳) 近年の工学量子システムの発展により、スケーラブルな局所領域量子ネットワークの実現が可能になった。 しかし、量子ネットワークの設計と実装は抽象的な設計問題の範囲を超えている全体論的課題である。 このように、複数の分野が完全なネットワークスタック全体の設計と実装を検証できるテストベッドは、量子ネットワークの将来の発展に必要なインフラストラクチャになっている。 本研究では,量子インターネットサービスプロバイダ(QISP)の概念を,ネットワークノード間での古典的な情報の共有を可能にする従来のISPと類似して示す。 QISPは、量子ネットワークのエンドユーザー間での量子情報の生成、管理、制御、共有を調整するため、次世代の量子ネットワークにとって重要である。 量子ハードウェアと古典制御ソフトウェアの両方からなる再構成可能なQISPを構築する。 アリゾナ大学(UA)のCenter for Quantum Networks(CQN)のファイバベースの量子ネットワークテストベッド上に構築され、Platform-as-a-Service(PaaS)アーキテクチャに基づいた統合QISPプロトタイプを開発し、古典的な制御ソフトウェアをオープンソースQISPフレームワークとして抽象化、モジュール化する。 QISPの性能を検証するため,複数の量子ネットワークノード間のマルチチャネルの絡み合い分布とルーティングを時間エネルギーの絡み合い光子源で実証した。 さらに,量子ネットワークテストベッド全体で複数のユーザを対象とした並列サービスのフィールドテストを行う。 我々の実験はQISPの堅牢性を示し、将来の量子ネットワークのためのアーキテクチャとプロトコルの設計と検証の基礎を築いた。

With the recent developments in engineering quantum systems, the realization of scalable local-area quantum networks has become viable. However, the design and implementation of a quantum network is a holistic task that is way beyond the scope of an abstract design problem. As such, a testbed on which multiple disciplines can verify the design and implementation across a full networking stack has become a necessary infrastructure for the future development of quantum networks. In this work, we demonstrate the concept of quantum internet service provider (QISP), in analogy to the conventional ISP that allows for the sharing of classical information between the network nodes. The QISP is significant for the next-generation quantum networks as it coordinates the production, management, control, and sharing of quantum information across the end-users of a quantum network. We construct a reconfigurable QISP comprising both the quantum hardware and classical control software. Building on the fiber-based quantum-network testbed of the Center for Quantum Networks (CQN) at the University of Arizona (UA), we develop an integrated QISP prototype based on a Platform-as-a-Service (PaaS) architecture, whose classical control software is abstracted and modularized as an open-source QISP framework. To verify and characterize the QISP's performance, we demonstrate multi-channel entanglement distribution and routing among multiple quantum-network nodes with a time-energy entangled-photon source. We further perform field tests of concurrent services for multiple users across the quantum-network testbed. Our experiment demonstrates the robust capabilities of the QISP, laying the foundation for the design and verification of architectures and protocols for future quantum networks.
翻訳日:2023-05-17 17:04:07 公開日:2023-05-15
# 確率シンプレックス上の凸最適化

Convex optimization over a probability simplex ( http://arxiv.org/abs/2305.09046v1 )

ライセンス: Link先を確認
James Chok and Geoffrey M. Vasil(参考訳) 確率単純度 $\{w\in\mathbb{R}^n\ |\ \sum_i w_i=1\ \textrm{and}\ w_i\geq0\}$ 上の凸問題を最適化する新しい反復スキームCauchy-Simplexを提案する。 他の作品では、帰納性や単位正規化を自動で実施するが、統一された設定内では同時には行われない。 本稿では,確率条件を明示的に要求する自然枠組みを提案する。 具体的には、単体球の正の四元数に単純度を写像し、潜在変数の勾配降下を考慮し、単純度変数にのみ依存する方法で結果を返す。 さらに、この定式化における厳密な収束の証明は、本質的に情報理論(例えば、クロスエントロピーとkl発散)からのツールに繋がる。 Cauchy-Simplex の各イテレーションは単純な操作で構成され、高次元問題に適している。 凸関数に対する収束率は${o}(1/t)$であることが証明され、凸包への射影の数値実験は同様のアルゴリズムよりも高速収束を示す。 最後に,本アルゴリズムをオンライン学習問題に適用し,(1)専門家のアドバイスによる予測と(2)ユニバーサルポートフォリオによる平均後悔の収束を証明した。

We propose a new iteration scheme, the Cauchy-Simplex, to optimize convex problems over the probability simplex $\{w\in\mathbb{R}^n\ |\ \sum_i w_i=1\ \textrm{and}\ w_i\geq0\}$. Other works have taken steps to enforce positivity or unit normalization automatically but never simultaneously within a unified setting. This paper presents a natural framework for manifestly requiring the probability condition. Specifically, we map the simplex to the positive quadrant of a unit sphere, envisage gradient descent in latent variables, and map the result back in a way that only depends on the simplex variable. Moreover, proving rigorous convergence results in this formulation leads inherently to tools from information theory (e.g. cross entropy and KL divergence). Each iteration of the Cauchy-Simplex consists of simple operations, making it well-suited for high-dimensional problems. We prove that it has a convergence rate of ${O}(1/T)$ for convex functions, and numerical experiments of projection onto convex hulls show faster convergence than similar algorithms. Finally, we apply our algorithm to online learning problems and prove the convergence of the average regret for (1) Prediction with expert advice and (2) Universal Portfolios.
翻訳日:2023-05-17 17:03:40 公開日:2023-05-15
# 大規模データに対するスケーラブルかつロバストなテンソルリング分解

Scalable and Robust Tensor Ring Decomposition for Large-scale Data ( http://arxiv.org/abs/2305.09044v1 )

ライセンス: Link先を確認
Yicong He and George K. Atia(参考訳) テンソルリング(TR)分解は高次テンソルの表現性能に優れており,近年注目されている。 しかし、従来のTR分解アルゴリズムを現実世界のアプリケーションに適用することは、大量のデータサイズ、エントリの欠如、アウトリーチによる破損によって妨げられている。 本研究では,大規模テンソルデータに欠落したエントリと粗悪な汚職を扱えるスケーラブルで堅牢なTR分解アルゴリズムを提案する。 まず, 難解な項目を適応的に満たし, 分解過程中に異常点を識別できる新しい自動重み付き急降下法を開発した。 さらに、テンソルリングモデルを利用して、新しい高速グラム行列計算(FGMC)手法とランダム化されたサブテンソルスケッチ(RStS)戦略を開発し、記憶量と計算量を大幅に削減する。 実験の結果,提案手法が既存のtr分解法よりも,異常値の存在下で優れており,既存の頑健なテンソル補完アルゴリズムよりもかなり高速に動作することがわかった。

Tensor ring (TR) decomposition has recently received increased attention due to its superior expressive performance for high-order tensors. However, the applicability of traditional TR decomposition algorithms to real-world applications is hindered by prevalent large data sizes, missing entries, and corruption with outliers. In this work, we propose a scalable and robust TR decomposition algorithm capable of handling large-scale tensor data with missing entries and gross corruptions. We first develop a novel auto-weighted steepest descent method that can adaptively fill the missing entries and identify the outliers during the decomposition process. Further, taking advantage of the tensor ring model, we develop a novel fast Gram matrix computation (FGMC) approach and a randomized subtensor sketching (RStS) strategy which yield significant reduction in storage and computational complexity. Experimental results demonstrate that the proposed method outperforms existing TR decomposition methods in the presence of outliers, and runs significantly faster than existing robust tensor completion algorithms.
翻訳日:2023-05-17 17:03:11 公開日:2023-05-15
# 階層型無線ネットワークにおける適応フェデレーションプルーニング

Adaptive Federated Pruning in Hierarchical Wireless Networks ( http://arxiv.org/abs/2305.09042v1 )

ライセンス: Link先を確認
Xiaonan Liu and Shiqiang Wang and Yansha Deng and Arumugam Nallanathan(参考訳) Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、有望なプライバシ保護分散学習フレームワークである。 デバイスエッジクラウド集約階層としての階層FL(HFL)は、クラウドサーバのより多くのデータセットへのアクセスと、エッジサーバのデバイスとの効率的な通信の両方を楽しむことができる。 しかし、エッジサーバやローカル計算能力に制限のあるデバイスの増加と通信帯域幅の増大により、HFLネットワークスケールによる学習遅延が増大する。 本稿では,この問題を解決するために,無線ネットワークにおけるhflのモデルプルーニングを導入し,ニューラルネットワークのスケールを縮小する。 本稿では,モデルプルーニングによるHFLの勾配のl2ノルム上における収束解析を行い,モデルプルーニング方式の計算および通信遅延を分析し,プルーニング比と無線リソース割り当てを協調最適化することにより,所定の遅延閾値の下で収束率を最大化する最適化問題を定式化する。 最適化問題を解き、KKT(Karush Kuhn Tucker)条件を用いることで、プルーニング比と無線リソース割り当ての閉形式解が導出される。 シミュレーションの結果,提案したHFLとモデルプルーニングを併用したHFLは,モデルプルーニングを使用せず,通信コストを約50%削減できることがわかった。

Federated Learning (FL) is a promising privacy-preserving distributed learning framework where a server aggregates models updated by multiple devices without accessing their private datasets. Hierarchical FL (HFL), as a device-edge-cloud aggregation hierarchy, can enjoy both the cloud server's access to more datasets and the edge servers' efficient communications with devices. However, the learning latency increases with the HFL network scale due to the increasing number of edge servers and devices with limited local computation capability and communication bandwidth. To address this issue, in this paper, we introduce model pruning for HFL in wireless networks to reduce the neural network scale. We present the convergence analysis of an upper on the l2 norm of gradients for HFL with model pruning, analyze the computation and communication latency of the proposed model pruning scheme, and formulate an optimization problem to maximize the convergence rate under a given latency threshold by jointly optimizing the pruning ratio and wireless resource allocation. By decoupling the optimization problem and using Karush Kuhn Tucker (KKT) conditions, closed-form solutions of pruning ratio and wireless resource allocation are derived. Simulation results show that our proposed HFL with model pruning achieves similar learning accuracy compared with the HFL without model pruning and reduces about 50 percent communication cost.
翻訳日:2023-05-17 17:02:53 公開日:2023-05-15
# トレーサグラフィにおける強化学習の意義

What Matters in Reinforcement Learning for Tractography ( http://arxiv.org/abs/2305.09041v1 )

ライセンス: Link先を確認
Antoine Th\'eberge, Christian Desrosiers, Maxime Descoteaux, Pierre-Marc Jodoin(参考訳) 近年,手作業による基準流路の整備を行なわずに白質の構造を再構築するためのトラクトグラフィー法と訓練薬の学習のために深部強化学習(RL)が提案されている。 報告されたパフォーマンスは競争力があったが、提案されたフレームワークは複雑であり、その複数の部分の役割と影響についてはほとんど分かっていない。 本研究では,RLアルゴリズムの選択,シード戦略,入力信号,報酬関数など,提案するフレームワークのさまざまなコンポーネントを徹底的に検討し,その影響について光を当てる。 この作業のために約7,400台のモデルがトレーニングされ、gpu時間は約41,000時間であった。 我々のゴールは、どの領域で何が機能し、何がうまくいかなかったかを明らかにすることで、トラクトログラフィーのための深部RLの可能性を探究する研究者を指導することである。 そこで我々は最終的に,RLアルゴリズムの選択,エージェントへの入力,報酬関数などに関する一連の勧告を提案し,トラクトログラフィの強化学習による今後の作業を支援する。 トラクトログラフィのための強化学習を探求したいユーザや研究者のために、オープンソースのコードベース、トレーニングされたモデル、データセットもリリースしています。

Recently, deep reinforcement learning (RL) has been proposed to learn the tractography procedure and train agents to reconstruct the structure of the white matter without manually curated reference streamlines. While the performances reported were competitive, the proposed framework is complex, and little is still known about the role and impact of its multiple parts. In this work, we thoroughly explore the different components of the proposed framework, such as the choice of the RL algorithm, seeding strategy, the input signal and reward function, and shed light on their impact. Approximately 7,400 models were trained for this work, totalling nearly 41,000 hours of GPU time. Our goal is to guide researchers eager to explore the possibilities of deep RL for tractography by exposing what works and what does not work with the category of approach. As such, we ultimately propose a series of recommendations concerning the choice of RL algorithm, the input to the agents, the reward function and more to help future work using reinforcement learning for tractography. We also release the open source codebase, trained models, and datasets for users and researchers wanting to explore reinforcement learning for tractography.
翻訳日:2023-05-17 17:02:27 公開日:2023-05-15
# 動的学習システムにおけるアルゴリズム検閲

Algorithmic Censoring in Dynamic Learning Systems ( http://arxiv.org/abs/2305.09035v1 )

ライセンス: Link先を確認
Jennifer Chien, Margaret Roberts, Berk Ustun(参考訳) 選択的ラベリングを受ける動的学習システムは検閲、すなわち1つ以上の点の部分群に割り当てられた持続的負の予測を示す。 消費者金融のようなアプリケーションでは、この結果、永続的に拒否され、トレーニングデータに入らない申請者のグループになります。 本研究では,検閲を形式化し,その発生方法を示し,検出の難しさを強調する。 検閲やランダム化探索に対する保護措置も検討しています - どちらも、守られないポイントのラベルを確実に収集するものです。 その結果、検閲されたグループの例がトレーニングデータに入力され、モデルの修正が可能になる。 以上の結果から,検閲の無防備な害を浮き彫りにし,様々なデータ生成プロセスにおける緩和戦略の有効性を実証した。

Dynamic learning systems subject to selective labeling exhibit censoring, i.e. persistent negative predictions assigned to one or more subgroups of points. In applications like consumer finance, this results in groups of applicants that are persistently denied and thus never enter into the training data. In this work, we formalize censoring, demonstrate how it can arise, and highlight difficulties in detection. We consider safeguards against censoring - recourse and randomized-exploration - both of which ensure we collect labels for points that would otherwise go unobserved. The resulting techniques allow examples from censored groups to enter into the training data and correct the model. Our results highlight the otherwise unmeasured harms of censoring and demonstrate the effectiveness of mitigation strategies across a range of data generating processes.
翻訳日:2023-05-17 17:02:06 公開日:2023-05-15
# AI in the Loop -- 自動医療画像分割パイプライン監視のためのフォールドパフォーマンスの分離機能

AI in the Loop -- Functionalizing Fold Performance Disagreement to Monitor Automated Medical Image Segmentation Pipelines ( http://arxiv.org/abs/2305.09031v1 )

ライセンス: Link先を確認
Harrison C. Gottlich, Panagiotis Korfiatis, Adriana V. Gregory, Timothy L. Kline(参考訳) 機械学習のワークフローを臨床実践に安全に実装し、モデルのトレーニング中に難しいケースを特定するためには、パフォーマンス予測を自動でフラグする手法が不可欠である。 本稿では,異なるデータセット上でトレーニングされたサブモデルを用いて容易に適用可能な手法を提案する。 最終的なアンサンブルモデル予測が手動レビューを必要とするかどうかを判断するために、人間のオブザーバ値によって通知されるしきい値が使用された。 2つの異なるデータセット(腹部CTとMRによる腎腫瘍の予測)で,低能率な自動分類を効果的に同定した。 最小のインターフォールドテストサイススコアで画像にフラグを付けることで、最大アンサンブルテストサイスを確保しながら、フラグ付き画像の数を最大化することができた。 当社の内部トレーニングモデルが外部の公開データセット(kits21)に適用されたとき、フラグ付き画像は内部トレーニングデータセットで観察されたものよりも小さな腫瘍を含んでいました。 クロスフォールドなサブモデルの不一致と人間のオブザーバー値の比較は、モデルの認識の不確実性 - 関連するトレーニングデータ不足による知識不足 - を、臨床で採用するための重要な機能として近似する効率的な方法である。

Methods for automatically flag poor performing-predictions are essential for safely implementing machine learning workflows into clinical practice and for identifying difficult cases during model training. We present a readily adoptable method using sub-models trained on different dataset folds, where their disagreement serves as a surrogate for model confidence. Thresholds informed by human interobserver values were used to determine whether a final ensemble model prediction would require manual review. In two different datasets (abdominal CT and MR predicting kidney tumors), our framework effectively identified low performing automated segmentations. Flagging images with a minimum Interfold test Dice score below human interobserver variability maximized the number of flagged images while ensuring maximum ensemble test Dice. When our internally trained model was applied to an external publicly available dataset (KiTS21), flagged images included smaller tumors than those observed in our internally trained dataset, demonstrating the methods robustness to flagging poor performing out-of-distribution input data. Comparing interfold sub-model disagreement against human interobserver values is an efficient way to approximate a model's epistemic uncertainty - its lack of knowledge due to insufficient relevant training data - a key functionality for adopting these applications in clinical practice.
翻訳日:2023-05-17 17:01:55 公開日:2023-05-15
# SKIの高速化 - 非対称カーネルによるToeplitzニューラルネットワークの高速化

SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric Kernels ( http://arxiv.org/abs/2305.09028v1 )

ライセンス: Link先を確認
Alexander Moreno, Jonathan Mei, Luke Walters(参考訳) Toeplitz Neural Networks (TNN) (Qin et. al. 2023) は、印象的な結果を持つ最近のシーケンスモデルである。 これらは O(n log n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と崩壊バイアス呼び出しを必要とする。 私たちは両方を減らすことを目指している。 まず、RPEは非SPD(対称正定値)カーネルであり、Toeplitz行列は擬グラム行列である。 さらに 1) 学習した核は,主対角線付近にスパイクな振る舞いを示す。 2) RPE MLP は遅い。 双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。 スパース成分の作用に対して、我々は小さな1D畳み込みを行う。 低階成分に対しては、線形補間により RPE MLP を置換し、O(n) の複雑性に対して非対称な構造化カーネル補間 (SKI) (Wilson et. al. 2015) を用いる。 因果モデルでは、"高速"因果マスク (Katharopoulos et. al. 2020) はSKIの利点を否定する。 周波数領域では、明示的な減衰バイアスを避ける。 因果関係を強制するために、RPEを用いて周波数応答の実部を通してカーネルを表現し、ヒルベルト変換を用いて虚部を計算する。 これは O(n log n) の複雑性を維持するが、絶対的なスピードアップを達成する。 周波数応答を直接モデル化することは、FFTを1つ減らして双方向の訓練にも適している。 我々は,最小限のスコア劣化を伴って,ロングレンジアリーナ(Tay et al. 2020)の速度状態を設定した。

Toeplitz Neural Networks (TNNs) (Qin et. al. 2023) are a recent sequence model with impressive results. They require O(n log n) computational complexity and O(n) relative positional encoder (RPE) multi-layer perceptron (MLP) and decay bias calls. We aim to reduce both. We first note that the RPE is a non-SPD (symmetric positive definite) kernel and the Toeplitz matrices are pseudo-Gram matrices. Further 1) the learned kernels display spiky behavior near the main diagonals with otherwise smooth behavior; 2) the RPE MLP is slow. For bidirectional models, this motivates a sparse plus low-rank Toeplitz matrix decomposition. For the sparse component's action, we do a small 1D convolution. For the low rank component, we replace the RPE MLP with linear interpolation and use asymmetric Structured Kernel Interpolation (SKI) (Wilson et. al. 2015) for O(n) complexity: we provide rigorous error analysis. For causal models, "fast" causal masking (Katharopoulos et. al. 2020) negates SKI's benefits. Working in the frequency domain, we avoid an explicit decay bias. To enforce causality, we represent the kernel via the real part of its frequency response using the RPE and compute the imaginary part via a Hilbert transform. This maintains O(n log n) complexity but achieves an absolute speedup. Modeling the frequency response directly is also competitive for bidirectional training, using one fewer FFT. We set a speed state of the art on Long Range Arena (Tay et. al. 2020) with minimal score degradation.
翻訳日:2023-05-17 17:01:28 公開日:2023-05-15
# スキンディープ:コンピュータビジョンベンチマークデータセットのためのスキントーンアノテーションにおける主観性の検討

Skin Deep: Investigating Subjectivity in Skin Tone Annotations for Computer Vision Benchmark Datasets ( http://arxiv.org/abs/2305.09072v1 )

ライセンス: Link先を確認
Teanna Barrett, Quan Ze Chen, Amy X. Zhang(参考訳) 人間の画像を分析するコンピュータビジョンシステムの人種差をよく観察するために、研究者たちは、公正さ評価のための人種メタデータよりも客観的なアノテーションとして肌の色に目を向けた。 しかし、皮膚のトーンアノテーションの手順の現況は様々である。 例えば、研究者は様々なテストされていないスケールと皮膚のトーンカテゴリを使い、不明瞭なアノテーション手順を持ち、不確かさの不十分な分析を提供する。 さらに、アノテーションプロセスに携わる人間の位置(デザイナーと注釈家の両方)や、アメリカ合衆国におけるスキントーンの歴史的・社会学的文脈にはほとんど注意が払われていない。 我々の研究は、社会技術プロジェクトとして初めて皮膚のトーンアノテーションプロセスを調査した。 近年の皮膚トーンアノテーション法を調査し,皮膚トーンの主観的理解が皮膚トーンアノテーション法にどのように埋め込まれているかを検討するためのアノテーション実験を行った。 体系的文献レビューでは,皮膚のトーンと人種との関係,およびコンピュータビジョン評価における現在のスキントーンアノテーション法における注釈不確実性の分析への限定的取り組みについて検討した。 実験の結果,皮膚の音階が提示される順序や画像中の追加の文脈(顔の有無)などのアノテーションの手順における設計決定は,アノテーション間の一致や皮膚の音調アノテーションの個人的不確実性に大きく影響した。 我々は,皮膚トーンを用いた評価手順の設計,解析,文書化において,より大きな反射性を求める。

To investigate the well-observed racial disparities in computer vision systems that analyze images of humans, researchers have turned to skin tone as more objective annotation than race metadata for fairness performance evaluations. However, the current state of skin tone annotation procedures is highly varied. For instance, researchers use a range of untested scales and skin tone categories, have unclear annotation procedures, and provide inadequate analyses of uncertainty. In addition, little attention is paid to the positionality of the humans involved in the annotation process--both designers and annotators alike--and the historical and sociological context of skin tone in the United States. Our work is the first to investigate the skin tone annotation process as a sociotechnical project. We surveyed recent skin tone annotation procedures and conducted annotation experiments to examine how subjective understandings of skin tone are embedded in skin tone annotation procedures. Our systematic literature review revealed the uninterrogated association between skin tone and race and the limited effort to analyze annotator uncertainty in current procedures for skin tone annotation in computer vision evaluation. Our experiments demonstrated that design decisions in the annotation procedure such as the order in which the skin tone scale is presented or additional context in the image (i.e., presence of a face) significantly affected the resulting inter-annotator agreement and individual uncertainty of skin tone annotations. We call for greater reflexivity in the design, analysis, and documentation of procedures for evaluation using skin tone.
翻訳日:2023-05-17 16:53:58 公開日:2023-05-15
# FiMReSt:多変量規則スキュートカーネルの有限混合 -非対称散乱非ガウス核を持つ多クラスタデータに対するフレキシブル確率モデル

FiMReSt: Finite Mixture of Multivariate Regulated Skew-t Kernels -- A Flexible Probabilistic Model for Multi-Clustered Data with Asymmetrically-Scattered Non-Gaussian Kernels ( http://arxiv.org/abs/2305.09071v1 )

ライセンス: Link先を確認
Sarmad Mehrdad, S. Farokh Atashzar(参考訳) 近年,データクラスタの歪度と統計的自由度(S-DoF)を考慮に入れたフレキシブルな確率論的モデリング手法としてスキュー・ト混合モデルを導入し,モデリングの一般化性の向上と重尾と歪性への堅牢性を実現している。 本稿では,非凸反復最大化過程における正常核の形状の局所的最小化をもたらす「S-DoF爆発」と呼ばれる隠蔽現象に,最先端のスキュー-t混合モデルが根本的に苦しめられていることを示す。 本稿では初めて,S-DoFの不安定性に関する知見を提供する。これはt分布の混合からカーネルの分散を招き,外乱をモデル化するための一般化性とパワーを失う。 そこで本研究では,混合モデルの一般化可能性とレジリエンスを高めるため,混合モデルの学習のための規則化反復最適化手法を提案する。 得られた混合モデルは、FiMReSt(FiMReSt)カーネルの有限混合と呼ばれ、学習の最適化過程でS-DoFプロファイルを安定化する。 この性能を検証するため,複数の実世界のデータセットと合成データセットに関する総合的な実験を行った。 結果が強調される (a)FiMReStの優れた性能 (b)外れ値の存在における一般化可能性、及び (c) S-DoF の収束

Recently skew-t mixture models have been introduced as a flexible probabilistic modeling technique taking into account both skewness in data clusters and the statistical degree of freedom (S-DoF) to improve modeling generalizability, and robustness to heavy tails and skewness. In this paper, we show that the state-of-the-art skew-t mixture models fundamentally suffer from a hidden phenomenon named here as "S-DoF explosion," which results in local minima in the shapes of normal kernels during the non-convex iterative process of expectation maximization. For the first time, this paper provides insights into the instability of the S-DoF, which can result in the divergence of the kernels from the mixture of t-distribution, losing generalizability and power for modeling the outliers. Thus, in this paper, we propose a regularized iterative optimization process to train the mixture model, enhancing the generalizability and resiliency of the technique. The resulting mixture model is named Finite Mixture of Multivariate Regulated Skew-t (FiMReSt) Kernels, which stabilizes the S-DoF profile during optimization process of learning. To validate the performance, we have conducted a comprehensive experiment on several real-world datasets and a synthetic dataset. The results highlight (a) superior performance of the FiMReSt, (b) generalizability in the presence of outliers, and (c) convergence of S-DoF.
翻訳日:2023-05-17 16:53:30 公開日:2023-05-15
# 報酬機能を進化させるためのオフライン時間学習学習フレームワーク

An Offline Time-aware Apprenticeship Learning Framework for Evolving Reward Functions ( http://arxiv.org/abs/2305.09070v1 )

ライセンス: Link先を確認
Xi Yang, Ge Gao, Min Chi(参考訳) Apprenticeship Learning(AL)は、専門家のデモンストレーションを観察し、模倣することによって効果的な意思決定ポリシーを誘導するプロセスである。 しかし、既存のALアプローチの多くは、オフライン学習が必要な医療のような人間中心のタスクで一般的に見られる報酬関数に対処するためには設計されていない。 本稿では,このようなタスクにおける報酬機能の発展に取り組むために,オフライン時間対応型階層型emエネルギベースサブトラジェクション(テーマ)alフレームワークを提案する。 TheMESの有効性は、難題である敗血症治療を通じて評価される。 実験の結果,テーマは競争状態のベースラインを大きく上回ることがわかった。

Apprenticeship learning (AL) is a process of inducing effective decision-making policies via observing and imitating experts' demonstrations. Most existing AL approaches, however, are not designed to cope with the evolving reward functions commonly found in human-centric tasks such as healthcare, where offline learning is required. In this paper, we propose an offline Time-aware Hierarchical EM Energy-based Sub-trajectory (THEMES) AL framework to tackle the evolving reward functions in such tasks. The effectiveness of THEMES is evaluated via a challenging task -- sepsis treatment. The experimental results demonstrate that THEMES can significantly outperform competitive state-of-the-art baselines.
翻訳日:2023-05-17 16:53:06 公開日:2023-05-15
# SGP-TOD: Schema-Guided LLM Prompting によるタスクボットの構築

SGP-TOD: Building Task Bots Effortlessly via Schema-Guided LLM Prompting ( http://arxiv.org/abs/2305.09067v1 )

ライセンス: Link先を確認
Xiaoying Zhang, Baolin Peng, Kun Li, Jingyan Zhou, Helen Meng(参考訳) エンド・ツー・エンドのタスクボットの構築と、最小限の人的努力による新機能の統合は、ダイアログ研究における長年の課題である。 近年の大規模言語モデル (LLM) は、様々な下流タスクにおける会話のエンゲージメントと命令の順守において、例外的な熟練度を示している。 本稿では,llmsに基づくタスク指向ダイアログシステム構築のためのスキーマ誘導プロンプトであるsgp-todを導入する。 シンボリック知識(タスクスキーマ)を利用することで、固定されたLCMに新しいタスクに対する適切な応答を生成するように指示し、トレーニングデータの必要性を回避する。 具体的には、ユーザと対話するためのLDMと、データベースアイテムを検索するダイアログ状態追跡を行うDSTプロンプタと、提供されたダイアログポリシーに準拠する適切な応答を引き出すポリシープロンプタの3つのコンポーネントで構成される。 Multiwoz, RADDLE, STARデータセットによる実験結果から, SGP-TODはタスク固有のデータを持たず, 最先端(SOTA)ゼロショット性能を示し, 数発のアプローチを大幅に上回ることがわかった。 ドメイン拡張設定では、SGP-TODは補足スキーマルールを追加するだけで、新しい機能に適応する。 コードとデータを公開しています。

Building end-to-end task bots and maintaining their integration with new functionalities using minimal human efforts is a long-standing challenge in dialog research. Recently large language models (LLMs) have demonstrated exceptional proficiency in conversational engagement and adherence to instructions across various downstream tasks. In this work, we introduce SGP-TOD, Schema-Guided Prompting for building Task-Oriented Dialog systems effortlessly based on LLMs. Utilizing the symbolic knowledge -- task schema, we instruct fixed LLMs to generate appropriate responses on novel tasks, circumventing the need for training data. Specifically, SGP-TOD comprises three components: a LLM for engaging with users, a DST Prompter to aid the LLM with dialog state tracking, which is then used to retrieve database items, and a Policy Prompter to elicit proper responses adhering to the provided dialog policy. Experimental results on Multiwoz, RADDLE and STAR datasets show that our training-free strategy SGP-TOD, without any task-specific data, yields state-of-the-art (SOTA) zero-shot performance, greatly surpasses the few-shot approaches. In a domain-extension setting, SGP-TOD aptly adapts to new functionalities by merely adding supplementary schema rules. We make our code and data publicly available.
翻訳日:2023-05-17 16:52:58 公開日:2023-05-15
# 人間によるAIのメンタルモデルを捉える:項目応答理論のアプローチ

Capturing Humans' Mental Models of AI: An Item Response Theory Approach ( http://arxiv.org/abs/2305.09064v1 )

ライセンス: Link先を確認
Markelle Kelly, Aakriti Kumar, Padhraic Smyth, Mark Steyvers(参考訳) 人間がAIチームメイトをどのように知覚するかの理解を改善することは、人間とAIチームの一般的な理解にとって重要な基礎となります。 認知科学から関連する仕事を拡張し,これらの知覚をモデル化するための項目応答理論に基づく枠組みを提案する。 この枠組みを実世界の実験に適用し、各参加者が質問応答設定で他の人物やAIエージェントと一緒に働き、チームメイトのパフォーマンスを繰り返し評価する。 この実験データを用いて、aiエージェントと他者の両方に対する人々の認識に関する調査質問をテストするためのフレームワークの使用を実証する。 我々は、AIチームメイトのメンタルモデルと人間のチームメイトのメンタルモデルとを対比し、これらのメンタルモデルの次元性、時間の経過とともにの発展、そして参加者の自己受容の影響を特徴付ける。 我々の結果は、AIエージェントのパフォーマンスが他の人間よりも平均的にはるかに良く、さまざまな種類の問題にばらつきが小さいことを示唆している。 これらの知見が人間とAIの相互作用に与える影響について考察した。

Improving our understanding of how humans perceive AI teammates is an important foundation for our general understanding of human-AI teams. Extending relevant work from cognitive science, we propose a framework based on item response theory for modeling these perceptions. We apply this framework to real-world experiments, in which each participant works alongside another person or an AI agent in a question-answering setting, repeatedly assessing their teammate's performance. Using this experimental data, we demonstrate the use of our framework for testing research questions about people's perceptions of both AI agents and other people. We contrast mental models of AI teammates with those of human teammates as we characterize the dimensionality of these mental models, their development over time, and the influence of the participants' own self-perception. Our results indicate that people expect AI agents' performance to be significantly better on average than the performance of other humans, with less variation across different types of problems. We conclude with a discussion of the implications of these findings for human-AI interaction.
翻訳日:2023-05-17 16:52:33 公開日:2023-05-15
# 境界KRnetとその密度推定・近似への応用

Bounded KRnet and its applications to density estimation and approximation ( http://arxiv.org/abs/2305.09063v1 )

ライセンス: Link先を確認
Li Zeng, Xiaoliang Wan, Tao Zhou(参考訳) 本稿では,B-KRnetと呼ばれる非可逆写像を有界領域上で開発し,データに対する密度推定/近似や,Fokker-Planck方程式やKeller-Segel方程式などのPDEの解に適用する。 KRnetと同様に、B-KRnetの構造はKnothe-Rosenblatt再配置の三角形形式を正規化フローモデルに適合させる。 B-KRnet と KRnet の主な違いは、B-KRnet がハイパーキューブ上で定義されるのに対し、KRnet は全空間上で定義されることである。 輸送マップとしてB-KRnetを用いて,ハイパーキューブ上の先行(一様)分布のプッシュフォワードに対応する明示的確率密度関数(PDF)モデルを得る。 有界計算領域上で定義されたPDFを近似するために、B-KRnetはKRnetよりも効果的である。 KRnet と B-KRnet を結合することにより、ある次元が有界で他の次元が非有界な高次元領域上の深部生成モデルを定義できる。 典型例は定常運動論的フォッカー・プランク方程式の解であり、これは位置と運動量のPDFである。 B-KRnetに基づいて,解がPDFかPDFとみなすことのできる近似偏微分方程式の適応学習手法を開発した。 さらに,データのみ利用可能な場合の密度推定にb-krnetを適用する。 B-KRnetの有効性を示すために,様々な数値実験を行った。

In this paper, we develop an invertible mapping, called B-KRnet, on a bounded domain and apply it to density estimation/approximation for data or the solutions of PDEs such as the Fokker-Planck equation and the Keller-Segel equation. Similar to KRnet, the structure of B-KRnet adapts the triangular form of the Knothe-Rosenblatt rearrangement into a normalizing flow model. The main difference between B-KRnet and KRnet is that B-KRnet is defined on a hypercube while KRnet is defined on the whole space, in other words, we introduce a new mechanism in B-KRnet to maintain the exact invertibility. Using B-KRnet as a transport map, we obtain an explicit probability density function (PDF) model that corresponds to the pushforward of a prior (uniform) distribution on the hypercube. To approximate PDFs defined on a bounded computational domain, B-KRnet is more effective than KRnet. By coupling KRnet and B-KRnet, we can also define a deep generative model on a high-dimensional domain where some dimensions are bounded and other dimensions are unbounded. A typical case is the solution of the stationary kinetic Fokker-Planck equation, which is a PDF of position and momentum. Based on B-KRnet, we develop an adaptive learning approach to approximate partial differential equations whose solutions are PDFs or can be regarded as a PDF. In addition, we apply B-KRnet to density estimation when only data are available. A variety of numerical experiments is presented to demonstrate the effectiveness of B-KRnet.
翻訳日:2023-05-17 16:52:15 公開日:2023-05-15
# SuSana Distanciaが必要なのは、距離に基づく2つの新しい損失関数による距離学習におけるクラス分離可能性の強化

SuSana Distancia is all you need: Enforcing class separability in metric learning via two novel distance-based loss functions for few-shot image classification ( http://arxiv.org/abs/2305.09062v1 )

ライセンス: Link先を確認
Mauricio Mendez-Ruiza, Jorge Gonzalez-Zapatab, Ivan Reyes-Amezcuab, Daniel Flores-Araizaa, Francisco Lopez-Tiroa, Andres Mendez-Vazquezb, and Gilberto Ochoa-Ruiz(参考訳) 少数ショット学習は、いくつかのラベル付きデータサンプルだけで新しい概念を学ぶことを目的とした、困難な研究分野である。 メトリック学習アプローチに基づく最近の研究は、サポート(トレーニング)とクエリセット(テスト)を使用して、それらのセット間の類似性比較メトリックを学習する、エピソディクスタスクを包含するメタラーニングアプローチを活用している。 データ不足のため、埋め込みネットワークの学習プロセスは、数発のタスクの重要な部分となる。 これまでの研究では、メトリック学習のアプローチを用いてこの問題に対処していたが、基礎となる潜在空間の性質と差分クラスの分離性は完全に強制されたわけではない。 本研究では,少数のデータ間のクラス内距離とクラス間距離に着目し,組込みベクトルの重要性を考慮した2つの異なる損失関数を提案する。 最初の損失関数はプロト三重項損失(proto-triplet loss)である。 ICNNの損失を補う第2の損失関数は、訓練されたネットワークから得られる埋め込みの質を評価するのに役立つ、クラス内およびクラス内隣人のスコアに基づいている。 実験で得られた結果から,miniimagennetベンチマークの精度は,他のメトリックベースのマイノリティ学習法に比べて2%向上し,ネットワークがこれまで認識されていなかったクラスに汎用化できるように,損失関数の能力が実証された。 実験では,Caltech CUB, Dogs, Carsといった他のドメインに対して,最先端技術と比較して競合的な一般化能力を実証した。

Few-shot learning is a challenging area of research that aims to learn new concepts with only a few labeled samples of data. Recent works based on metric-learning approaches leverage the meta-learning approach, which is encompassed by episodic tasks that make use a support (training) and query set (test) with the objective of learning a similarity comparison metric between those sets. Due to the lack of data, the learning process of the embedding network becomes an important part of the few-shot task. Previous works have addressed this problem using metric learning approaches, but the properties of the underlying latent space and the separability of the difference classes on it was not entirely enforced. In this work, we propose two different loss functions which consider the importance of the embedding vectors by looking at the intra-class and inter-class distance between the few data. The first loss function is the Proto-Triplet Loss, which is based on the original triplet loss with the modifications needed to better work on few-shot scenarios. The second loss function, which we dub ICNN loss is based on an inter and intra class nearest neighbors score, which help us to assess the quality of embeddings obtained from the trained network. Our results, obtained from a extensive experimental setup show a significant improvement in accuracy in the miniImagenNet benchmark compared to other metric-based few-shot learning methods by a margin of 2%, demonstrating the capability of these loss functions to allow the network to generalize better to previously unseen classes. In our experiments, we demonstrate competitive generalization capabilities to other domains, such as the Caltech CUB, Dogs and Cars datasets compared with the state of the art.
翻訳日:2023-05-17 16:51:48 公開日:2023-05-15
# Koopman Message Passing を用いた非線形ネットワークダイナミクスのための線形埋め込み学習

Learning Linear Embeddings for Non-Linear Network Dynamics with Koopman Message Passing ( http://arxiv.org/abs/2305.09060v1 )

ライセンス: Link先を確認
King Fai Yeh, Paris Flood, William Redman, and Pietro Li\`o(参考訳) 近年、クープマン作用素理論は非線形力学系の線形表現を開発するための強力なツールとなっている。 しかし、従来の学習法とディープラーニング法の両方を含むクープマン作用素理論の既存のデータ駆動的応用は、基礎となる幾何学的構造に対処しないため、非線形ネットワーク力学の問題では不十分である。 本稿では,任意の時間ステップでグローバルに有効な動的システムに対する線形表現を求める,クープマン演算子理論とメッセージパッシングネットワークに基づく新しいアプローチを提案する。 本手法で得られた線形化は,現在の最先端技術よりも数桁優れたネットワーク力学問題に対して予測を行う。 また、ニューラルネットワークアーキテクチャの非線形トレーニングダイナミクスにもアプローチを適用し、古典的なオプティマイザによってトレーニングされたネットワークに匹敵する性能でネットワークパラメータを生成する線形表現を得る。

Recently, Koopman operator theory has become a powerful tool for developing linear representations of non-linear dynamical systems. However, existing data-driven applications of Koopman operator theory, including both traditional and deep learning approaches, perform poorly on non-linear network dynamics problems as they do not address the underlying geometric structure. In this paper we present a novel approach based on Koopman operator theory and message passing networks that finds a linear representation for the dynamical system which is globally valid at any time step. The linearisations found by our method produce predictions on a suite of network dynamics problems that are several orders of magnitude better than current state-of-the-art techniques. We also apply our approach to the highly non-linear training dynamics of neural network architectures, and obtain linear representations which can generate network parameters with comparable performance to networks trained by classical optimisers.
翻訳日:2023-05-17 16:51:11 公開日:2023-05-15
# デジタルポンド : 家庭と企業のための新しい形態のお金」に対する反応

Response to "The digital pound: a new form of money for households and businesses" ( http://arxiv.org/abs/2305.09059v1 )

ライセンス: Link先を確認
Geoffrey Goodell(参考訳) この文書には、イングランド銀行とhm財務省が発行した諮問論文「the digital pound: a new form of money for households and business?」への回答が含まれており、2020年の「central bank digital currency: opportunities, challenges and design」、2021年の「new forms of digital money」を含むシリーズの最新諮問論文である。 このコンサルテーション・ペーパー(Consultation Paper)は、イングランド銀行がイギリスで小売用に採用した中央銀行デジタル通貨(CBDC)に関する論文である。 本書の第3部では、協議質問について直接取り上げなければならない。

This document includes a response to a consultation Paper published by the Bank of England and HM Treasury, "The digital pound: a new form of money for households and businesses?", the latest Consultation Paper in a series that includes "Central Bank Digital Currency: opportunities, challenges and design" in 2020 and "New forms of digital money" in 2021. This Consultation Paper is about the adoption of central bank digital currency (CBDC) for retail use in the United Kingdom by the Bank of England. We shall address the consultation questions directly in the third section of this document.
翻訳日:2023-05-17 16:50:54 公開日:2023-05-15
# MLaaSにおけるプライベートトレーニングセット検査

Private Training Set Inspection in MLaaS ( http://arxiv.org/abs/2305.09058v1 )

ライセンス: Link先を確認
Mingxue Xu, Tongtong Xu, Po-Yu Chen(参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)は、MLモデルの使用を目指すが、トレーニングデータ、計算リソース、あるいはMLの専門知識が欠如している顧客のための、一般的なクラウドベースのソリューションである。 この場合、トレーニングデータセットは一般的にMLまたはデータ企業のプライベートな所有物であり、顧客にはアクセスできないが、トレーニングデータセットが彼らの期待に応え、公正性のような規制措置を満たすためのアプローチが必要である。 しかし、上記の顧客の懸念に対処する既存の作業は行われていない。 この仕事は、データオリジンをエントリポイントとして、この問題を解決する最初の試みである。 まず、原点メンバーシップの測定を定義し、これに基づいて、顧客の懸念に対処するために多様性と公正度の測定値を定義します。 次に,これら2つの指標の値が到達不能なトレーニングデータセットで推定する手法を提案し,メンバシップ推論によるシャドートレーニング手法と,複数インスタンス学習における効率的な実現手法を組み合わせた。 本評価は,言語BERTモデルに基づくテキストレビュー極性分類の適用を含む。 実験の結果,本ソリューションは,メンバシップインスペクションの精度が最大 0.87 であり,多様性と公平性分布を検査する信頼性が 99.3% に達することがわかった。

Machine Learning as a Service (MLaaS) is a popular cloud-based solution for customers who aim to use an ML model but lack training data, computation resources, or expertise in ML. In this case, the training datasets are typically a private possession of the ML or data companies and are inaccessible to the customers, but the customers still need an approach to confirm that the training datasets meet their expectations and fulfil regulatory measures like fairness. However, no existing work addresses the above customers' concerns. This work is the first attempt to solve this problem, taking data origin as an entry point. We first define origin membership measurement and based on this, we then define diversity and fairness metrics to address customers' concerns. We then propose a strategy to estimate the values of these two metrics in the inaccessible training dataset, combining shadow training techniques from membership inference and an efficient featurization scheme in multiple instance learning. The evaluation contains an application of text review polarity classification applications based on the language BERT model. Experimental results show that our solution can achieve up to 0.87 accuracy for membership inspection and up to 99.3% confidence in inspecting diversity and fairness distribution.
翻訳日:2023-05-17 16:50:43 公開日:2023-05-15
# グラフニューラル埋め込みを用いたアクティブセマンティック定位

Active Semantic Localization with Graph Neural Embedding ( http://arxiv.org/abs/2305.06141v3 )

ライセンス: Link先を確認
Mitsuki Yoshida, Kanji Tanaka, Ryogo Yamamoto, and Daiki Iwata(参考訳) セマンティックローカライゼーション(セマンティックローカライゼーション)、すなわち、セマンティックイメージのモダリティを備えたロボットの自己ローカライゼーションは、ポイントゴールナビゲーション、オブジェクトゴールナビゲーション、ビジョン言語ナビゲーションといった近年出現するAIアプリケーションにおいて重要である。 しかしながら、セマンティックローカライゼーションに関する既存の研究のほとんどは、視点計画なしで受動的視覚タスクに焦点を当てたり、追加の豊富なモダリティ(深さ測定など)に依存している。 したがって、問題はほとんど解決されていない。 本研究では, 軽量で完全cpuベースの, ドメイン適応型セマンティックローカライズフレームワークであるgraph neural localizerについて検討する。このアプローチは, (1) 局地的特徴とグローバル特徴の視点的, 外観的不変性を組み合わせたシーングラフ, (2) グラフデータの直接学習/認識を可能にするgraph neural network (非ベクトルデータ) という,最近の2つの技術から着想を得たものである。 具体的には、グラフ畳み込みニューラルネットワークを受動視覚のためのシーングラフ分類器として訓練し、その知識を能動視覚のための強化学習プランナーに伝達する。 フォトリアリスティック・ハビタットシミュレータを用いて、自己教師あり学習と教師なしドメイン適応の2つのシナリオの実験を行い、提案手法の有効性を検証した。

Semantic localization, i.e., robot self-localization with semantic image modality, is critical in recently emerging embodied AI applications such as point-goal navigation, object-goal navigation and vision language navigation. However, most existing works on semantic localization focus on passive vision tasks without viewpoint planning, or rely on additional rich modalities (e.g., depth measurements). Thus, the problem is largely unsolved. In this work, we explore a lightweight, entirely CPU-based, domain-adaptive semantic localization framework, called graph neural localizer.Our approach is inspired by two recently emerging technologies: (1) Scene graph, which combines the viewpoint- and appearance- invariance of local and global features; (2) Graph neural network, which enables direct learning/recognition of graph data (i.e., non-vector data). Specifically, a graph convolutional neural network is first trained as a scene graph classifier for passive vision, and then its knowledge is transferred to a reinforcement-learning planner for active vision. Experiments on two scenarios, self-supervised learning and unsupervised domain adaptation, using a photo-realistic Habitat simulator validate the effectiveness of the proposed method.
翻訳日:2023-05-17 11:00:16 公開日:2023-05-15
# 3つの超伝導gmon量子ビットの最大絡み合いw状態の最適合成

Optimal preparation of the maximally entangled W state of three superconducting gmon qubits ( http://arxiv.org/abs/1909.09289v2 )

ライセンス: Link先を確認
Dalton Jones and Armin Rahmani(参考訳) 超伝導gmon量子ビットは、高度にチューニング可能な量子コンピューティングデバイスを可能にする。 これらのシステムの最適制御された進化は、非常に興味深い。 簡単な初期生成状態から3量子ビットの最大絡み合いw状態を生成するための最適な動的プロトコルを決定する。 これらの溶液はシミュレートアニールにより得られる。 ポントリャーギンの最小原理への接続を用いて、断熱進化を短くするこれらの 'bang-bang'' プロトコルのパターンを完全に特徴づける。 プロトコルは非常に堅牢で、高性能な3量子ビット量子ゲートの開発を促進する。

Superconducting gmon qubits allow for highly tuneable quantum computing devices. Optimally controlled evolution of these systems is of considerable interest. We determine the optimal dynamical protocols for the generation of the maximally entangled W state of three qubits from an easily prepared initial product state. These solutions are found by simulated annealing. Using the connection to the Pontryagin's minimum principle, we fully characterize the patterns of these ``bang-bang'' protocols, which shortcut the adiabatic evolution. The protocols are remarkably robust, facilitating the development of high-performance three-qubit quantum gates.
翻訳日:2023-05-17 02:16:30 公開日:2023-05-15
# 軽量アグリゲーションとモーメント・アクセラレーションを用いたAdaGradの統一解析

A Unified Analysis of AdaGrad with Weighted Aggregation and Momentum Acceleration ( http://arxiv.org/abs/1808.03408v4 )

ライセンス: Link先を確認
Li Shen, Congliang Chen, Fangyu Zou, Zequn Jie, Ju Sun and Wei Liu(参考訳) 適応学習率と運動量法をSGDに統合すると、AdaGrad, RMSProp, Adam, AccAdaGrad, \textit{etc} などの適応確率的アルゴリズムが効率的に高速化される。 実効性はあるものの、収束の理論には依然として大きなギャップがあり、特に難しい非凸確率的設定では大きなギャップがある。 このギャップを埋めるために, (1) 重球運動量とネステロフ加速度勾配運動量の両方をカバーする統一運動量スキームを取り入れ, (2) アダグラード, アッカダグラード, アダム, rmsprop の学習率を統一化できる新しい重み付き適応学習率を採用している,という特徴を持つ, adausm とよばれる \emph{weighted adagrad with unified momentum} を提案する。 さらに、AdaUSM において多項式的に成長する重みを取ると、非凸確率環境における$\mathcal{O}(\log(T)/\sqrt{T})$収束率を得る。 また,adam と rmsprop の適応学習速度は, 指数関数的に増大する adausm に対応するため, adam と rmsprop を理解するための新しい視点を提供する。 最後に、様々なディープラーニングモデルとデータセットに関するAdaUSMとSGDの比較実験、AdaGrad、AdaEMA、Adam、AMSGradの比較を行った。

Integrating adaptive learning rate and momentum techniques into SGD leads to a large class of efficiently accelerated adaptive stochastic algorithms, such as AdaGrad, RMSProp, Adam, AccAdaGrad, \textit{etc}. In spite of their effectiveness in practice, there is still a large gap in their theories of convergences, especially in the difficult non-convex stochastic setting. To fill this gap, we propose \emph{weighted AdaGrad with unified momentum}, dubbed AdaUSM, which has the main characteristics that (1) it incorporates a unified momentum scheme which covers both the heavy ball momentum and the Nesterov accelerated gradient momentum; (2) it adopts a novel weighted adaptive learning rate that can unify the learning rates of AdaGrad, AccAdaGrad, Adam, and RMSProp. Moreover, when we take polynomially growing weights in AdaUSM, we obtain its $\mathcal{O}(\log(T)/\sqrt{T})$ convergence rate in the non-convex stochastic setting. We also show that the adaptive learning rates of Adam and RMSProp correspond to taking exponentially growing weights in AdaUSM, thereby providing a new perspective for understanding Adam and RMSProp. Lastly, comparative experiments of AdaUSM against SGD with momentum, AdaGrad, AdaEMA, Adam, and AMSGrad on various deep learning models and datasets are also carried out.
翻訳日:2023-05-17 02:16:22 公開日:2023-05-15
# 回帰のための負相関学習を用いたハイブリッドアンサンブル法

A hybrid ensemble method with negative correlation learning for regression ( http://arxiv.org/abs/2104.02317v5 )

ライセンス: Link先を確認
Yun Bai, Ganglin Tian, Yanfei Kang, Suling Jia(参考訳) アンサンブルの必須分野であるハイブリッドアンサンブルは回帰分野で繁栄し、多様性の重要性を実証する研究が行われている。 しかし、以前のアンサンブルでは、単一モデルに比べて改良が限定されたサブモデルの訓練段階における多様性が検討されていた。 対照的に、異種モデルプールからサブモデルを自動的に選択し、重み付けする。 内部点フィルタリング線形探索アルゴリズムを用いて最適化問題を解く。 目的関数は、様々なモデルサブセットを選択可能なペナルティ項として、負相関学習を革新的に取り入れる。 各モデルクラスの最良のサブモデルはnclアンサンブルを構築するために選択され、単純な平均や他の最先端の重み付けメソッドよりもパフォーマンスが良い。 また、目的関数の正規化項でNCLアンサンブルを改善することもできる。 実際、モデルの不確実性のため、データセットの最適なサブモデルを事前に結論付けるのは難しい。 いずれにせよ,本手法は潜在的最適部分モデルと同等の精度を達成できる。 結論として、本研究の価値は使いやすさと有効性にあるため、ハイブリッドアンサンブルは多様性と正確性を受け入れることができる。

Hybrid ensemble, an essential branch of ensembles, has flourished in the regression field, with studies confirming diversity's importance. However, previous ensembles consider diversity in the sub-model training stage, with limited improvement compared to single models. In contrast, this study automatically selects and weights sub-models from a heterogeneous model pool. It solves an optimization problem using an interior-point filtering linear-search algorithm. The objective function innovatively incorporates negative correlation learning as a penalty term, with which a diverse model subset can be selected. The best sub-models from each model class are selected to build the NCL ensemble, which performance is better than the simple average and other state-of-the-art weighting methods. It is also possible to improve the NCL ensemble with a regularization term in the objective function. In practice, it is difficult to conclude the optimal sub-model for a dataset prior due to the model uncertainty. Regardless, our method would achieve comparable accuracy as the potential optimal sub-models. In conclusion, the value of this study lies in its ease of use and effectiveness, allowing the hybrid ensemble to embrace diversity and accuracy.
翻訳日:2023-05-17 01:51:07 公開日:2023-05-15
# 引数マイニングのためのマルチタスク注意残差ネットワーク

Multi-Task Attentive Residual Networks for Argument Mining ( http://arxiv.org/abs/2102.12227v2 )

ライセンス: Link先を確認
Andrea Galassi, Marco Lippi, Paolo Torroni(参考訳) 複数の引数マイニングタスクにおける残差ネットワークとニューラルアテンションの利用について検討する。 本稿では,文書構造や引数構造を仮定することなく,注意とマルチタスク学習を活用し,アンサンブルを利用した残余アーキテクチャを提案する。 我々は,ユーザ生成コメント,科学論文,説得エッセイの5つのコーパスについて,広範囲にわたる実験的評価を行った。 以上の結果から,本手法は高度な計算フットプリントやコーパス固有の設計を持つ最先端アーキテクチャに対する強力な競合であり,汎用性,性能精度,モデルサイズ削減の両立を図っている。

We explore the use of residual networks and neural attention for multiple argument mining tasks. We propose a residual architecture that exploits attention, multi-task learning, and makes use of ensemble, without any assumption on document or argument structure. We present an extensive experimental evaluation on five different corpora of user-generated comments, scientific publications, and persuasive essays. Our results show that our approach is a strong competitor against state-of-the-art architectures with a higher computational footprint or corpus-specific design, representing an interesting compromise between generality, performance accuracy and reduced model size.
翻訳日:2023-05-17 01:50:27 公開日:2023-05-15
# 有効複素数値ベクトルポテンシャルを持つアハロノフ・ボーム効果

Aharonov-Bohm effect with an effective complex-valued vector potential ( http://arxiv.org/abs/2101.11914v2 )

ライセンス: Link先を確認
Ismael L. Paiva, Yakir Aharonov, Jeff Tollaksen, Mordecai Waegell(参考訳) 量子電荷と磁場の動的源との相互作用は、アハロノフ・ボームのシナリオで考慮される。 ソース選択後の弱い相互作用において、有効ベクトルポテンシャルは一般に複素値であることが示されている。 これにより、ソースが完全に囲まれる前にアハラノフ-ボーム位相を検出する新しい実験プロトコルが作られる。 これは必ずしもアハロノフ・ボーム効果の非局所的な状態を変えるわけではないが、新しい洞察をもたらす。 さらに、これらの結果が対応原理にどう影響するかを議論し、古典システムの研究に関係のある複素ベクトルポテンシャルを作る。

The interaction between a quantum charge and a dynamic source of a magnetic field is considered in the Aharonov-Bohm scenario. It is shown that, in weak interactions with a post-selection of the source, the effective vector potential is, generally, complex-valued. This leads to new experimental protocols to detect the Aharonov-Bohm phase before the source is fully encircled. While this does not necessarily change the nonlocal status of the Aharonov-Bohm effect, it brings new insights into it. Moreover, we discuss how these results might have consequences for the correspondence principle, making complex vector potentials relevant to the study of classical systems.
翻訳日:2023-05-17 01:50:16 公開日:2023-05-15
# 低ランク非巡回グラフと因果構造学習について

On Low Rank Directed Acyclic Graphs and Causal Structure Learning ( http://arxiv.org/abs/2006.05691v2 )

ライセンス: Link先を確認
Zhuangyan Fang, Shengyu Zhu, Jiji Zhang, Yue Liu, Zhitang Chen, Yangbo He(参考訳) 近年のいくつかの進歩にもかかわらず、有向非巡回グラフ(DAG)で表される学習因果構造は、学習すべきグラフがスパースでない場合、高次元設定において難しい課題である。 本稿では,DAG因果モデルの(重み付けされた)隣接行列に関する低階仮定を利用してこの問題に対処することを提案する。 既存の低学級手法を用いて因果構造学習法を適用し,この仮定を活用し,解釈可能なグラフィカル条件を低学級仮定に関連づけた有用な結果をいくつか確立する。 具体的には,最大ランクがハブと高度に関連していることを示し,実際に頻繁に遭遇するスケールフリーネットワークが低ランクになる傾向があることを示唆する。 実験では, 各種データモデル, 特に比較的大規模で高密度なグラフに対する低階適応の有効性を実証した。 さらに、バリデーション手順では、グラフが低いランクに制限されない場合でも、適応性は優れた、または同等の性能を維持する。

Despite several advances in recent years, learning causal structures represented by directed acyclic graphs (DAGs) remains a challenging task in high dimensional settings when the graphs to be learned are not sparse. In this paper, we propose to exploit a low rank assumption regarding the (weighted) adjacency matrix of a DAG causal model to help address this problem. We utilize existing low rank techniques to adapt causal structure learning methods to take advantage of this assumption and establish several useful results relating interpretable graphical conditions to the low rank assumption. Specifically, we show that the maximum rank is highly related to hubs, suggesting that scale-free networks, which are frequently encountered in practice, tend to be low rank. Our experiments demonstrate the utility of the low rank adaptations for a variety of data models, especially with relatively large and dense graphs. Moreover, with a validation procedure, the adaptations maintain a superior or comparable performance even when graphs are not restricted to be low rank.
翻訳日:2023-05-17 01:49:44 公開日:2023-05-15
# Common Fateによる教師なしオブジェクト学習

Unsupervised Object Learning via Common Fate ( http://arxiv.org/abs/2110.06562v2 )

ライセンス: Link先を確認
Matthias Tangemann, Steffen Schneider, Julius von K\"ugelgen, Francesco Locatello, Peter Gehler, Thomas Brox, Matthias K\"ummerer, Matthias Bethge, Bernhard Sch\"olkopf(参考訳) ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。 この問題を3つの簡単なサブタスクに分解し、それぞれに候補ソリューションを提供します。 ゲシュタルト心理学の共通の運命原理に触発され、まず、教師なしの運動分節によって動く物体の(ノイズの多い)マスクを抽出する。 第2に、生成モデルは、それぞれ背景のマスクと移動対象のマスクで訓練される。 第3に、背景モデルと前景モデルが条件付き「死葉」シーンモデルに組み合わされ、閉塞層と深さ層が自然に発生する新しいシーン構成をサンプリングする。 個々のステージを評価するために、複雑な実世界のシーンと単純なオブジェクトの共通のオブジェクト中心ベンチマークの間に位置するfishbowlデータセットを紹介する。 提案手法は,入力ビデオに含まれるオクルージョンを超えて一般化された生成モデルを学習し,トレーニングセットにないオブジェクト数や密度を許容することにより,トレーニング配信外の可視シーンをサンプリングするモジュール方式でシーンを表現可能であることを示す。

Learning generative object models from unlabelled videos is a long standing problem and required for causal scene modeling. We decompose this problem into three easier subtasks, and provide candidate solutions for each of them. Inspired by the Common Fate Principle of Gestalt Psychology, we first extract (noisy) masks of moving objects via unsupervised motion segmentation. Second, generative models are trained on the masks of the background and the moving objects, respectively. Third, background and foreground models are combined in a conditional "dead leaves" scene model to sample novel scene configurations where occlusions and depth layering arise naturally. To evaluate the individual stages, we introduce the Fishbowl dataset positioned between complex real-world scenes and common object-centric benchmarks of simplistic objects. We show that our approach allows learning generative models that generalize beyond the occlusions present in the input videos, and represent scenes in a modular fashion that allows sampling plausible scenes outside the training distribution by permitting, for instance, object numbers or densities not observed in the training set.
翻訳日:2023-05-17 01:42:11 公開日:2023-05-15
# 線形光学と光検出は、近最適不明瞭なコヒーレント状態の識別を達成する

Linear optics and photodetection achieve near-optimal unambiguous coherent state discrimination ( http://arxiv.org/abs/2109.00008v4 )

ライセンス: Link先を確認
Jasminder S. Sidhu, Michael S. Bullock, Saikat Guha, and Cosmo Lupo(参考訳) 理想的なレーザー光の量子記述である量子電磁場のコヒーレント状態は、光通信の情報キャリアとして素候補である。 量子的に制限された推定と識別には多くの文献が存在する。 しかし、コヒーレント状態の曖昧な状態識別(USD)のための受信機の実現についてはほとんど知られていない。 ここでは、このギャップを埋めて、パッシブマルチモード線形光学、位相空間変位、補助真空モード、オンオフ光子検出を含むusdの理論を概説する。 以上の結果から,現在利用可能な光学部品は,複数の多モードコヒーレント状態のほぼ最適不明瞭な識別を実現するのに十分であることが示唆された。

Coherent states of the quantum electromagnetic field, the quantum description of ideal laser light, are prime candidates as information carriers for optical communications. A large body of literature exists on their quantum-limited estimation and discrimination. However, very little is known about the practical realizations of receivers for unambiguous state discrimination (USD) of coherent states. Here we fill this gap and outline a theory of USD with receivers that are allowed to employ: passive multimode linear optics, phase-space displacements, auxiliary vacuum modes, and on-off photon detection. Our results indicate that, in some regimes, these currently-available optical components are typically sufficient to achieve near-optimal unambiguous discrimination of multiple, multimode coherent states.
翻訳日:2023-05-17 01:41:12 公開日:2023-05-15
# 量子位相空間における連続的メジャー化

Continuous majorization in quantum phase space ( http://arxiv.org/abs/2108.09167v2 )

ライセンス: Link先を確認
Zacharie Van Herstraeten, Michael G. Jabbour and Nicolas J. Cerf(参考訳) 量子位相空間における主化理論の役割を考察する。 この目的のために、正のウィグナー函数を持つ量子状態に自分自身を制限し、偏極化理論の連続バージョンが位相空間におけるウィグナー函数の情報理論的性質を探索するためのエレガントで非常に自然なアプローチを提供することを示した。 すべてのガウス純状態が、ハドソンの定理に照らして理解できる連続偏極化の正確な意味で同値であると同定した後、基本偏極化関係を予想する:任意の正のウィグナー函数はガウス純状態のウィグナー函数(特に調和振動子のボソニック真空状態または基底状態)によって偏極化される。 その結果、ウィグナー関数の任意のシュル凹関数は真空状態の値によって境界が低くなる。 これは逆に、ウィグナーエントロピーが真空状態の値によって境界が低くなることを意味するが、逆は特に真ではない。 我々の主な結果は、調和振動子の3つの最低固有状態の混合であるウィグナー正量子状態の関連する部分集合に対するこの基本的な偏極関係を証明することである。 さらに、この予想は数値的な証拠も支持している。 位相空間におけるエントロピーの不確実性関係の文脈において、この予想のいくつかの意味を議論することで結論付ける。

We explore the role of majorization theory in quantum phase space. To this purpose, we restrict ourselves to quantum states with positive Wigner functions and show that the continuous version of majorization theory provides an elegant and very natural approach to exploring the information-theoretic properties of Wigner functions in phase space. After identifying all Gaussian pure states as equivalent in the precise sense of continuous majorization, which can be understood in light of Hudson's theorem, we conjecture a fundamental majorization relation: any positive Wigner function is majorized by the Wigner function of a Gaussian pure state (especially, the bosonic vacuum state or ground state of the harmonic oscillator). As a consequence, any Schur-concave function of the Wigner function is lower bounded by the value it takes for the vacuum state. This implies in turn that the Wigner entropy is lower bounded by its value for the vacuum state, while the converse is notably not true. Our main result is then to prove this fundamental majorization relation for a relevant subset of Wigner-positive quantum states which are mixtures of the three lowest eigenstates of the harmonic oscillator. Beyond that, the conjecture is also supported by numerical evidence. We conclude by discussing some implications of this conjecture in the context of entropic uncertainty relations in phase space.
翻訳日:2023-05-17 01:40:59 公開日:2023-05-15
# 機会が訪れるときの貿易:地域意識と反復的リファインメントラベリングによる物価変動予測

Trade When Opportunity Comes: Price Movement Forecasting via Locality-Aware Attention and Iterative Refinement Labeling ( http://arxiv.org/abs/2107.11972v3 )

ライセンス: Link先を確認
Liang Zeng, Lei Wang, Hui Niu, Ruchen Zhang, Ling Wang, Jian Li(参考訳) 価格変動予測は、現在の市場状況やその他の関連情報に基づいて、金融資産の将来の動向を予測することを目的としている。 近年,機械学習(ML)手法が普及し,学術・産業ともに価格変動予測に有望な成果を上げている。 既存のMLソリューションの多くは、予測問題を(方向を予測するために)分類として、または(回帰を予測するために)訓練データ全体の回帰問題として定式化している。 しかし、極めて低い信号対雑音比と金融データの確率的性質のため、良好な取引機会は極めて少ない。 その結果、潜在的に有益なサンプルを慎重に選択しなければ、そのようなml法は実際の信号の代わりにノイズのパターンを捉えやすい。 そこで本稿では,LA-Attention (Locality-Aware Attention) と Iterative Refinement Labeling (RA-Labeling) の2つの主要コンポーネントからなる価格変動予測フレームワーク LARA を提案する。 1) la-attentionはラベル情報に応じて、潜在的に有益なサンプルを自動的に抽出する。 さらに, LA-Attentionは, メトリクス学習技術を用いて, タスク固有距離測定を楽しみ, 潜在的に有益なサンプルに効果的に注意を分散させる。 2)raラベリングは,潜在的に有益なサンプルのノイズラベルを反復的に洗練し,学習した予測器と未知のサンプルを組み合わせる。 株式、暗号通貨、ETFの3つの実世界の金融市場に関する一連の実験において、LARAはQlibの量的投資プラットフォームにおける機械学習ベースの手法を著しく上回っている。 大規模なアブレーション研究と実験により、LARAは確かにより信頼できる取引機会を捉えていることが示された。

Price movement forecasting aims at predicting the future trends of financial assets based on the current market conditions and other relevant information. Recently, machine learning (ML) methods have become increasingly popular and achieved promising results for price movement forecasting in both academia and industry. Most existing ML solutions formulate the forecasting problem as a classification (to predict the direction) or a regression (to predict the return) problem over the entire set of training data. However, due to the extremely low signal-to-noise ratio and stochastic nature of financial data, good trading opportunities are extremely scarce. As a result, without careful selection of potentially profitable samples, such ML methods are prone to capture the patterns of noises instead of real signals. To address this issue, we propose a novel price movement forecasting framework named LARA consisting of two main components: Locality-Aware Attention (LA-Attention) and Iterative Refinement Labeling (RA-Labeling). (1) LA-Attention automatically extracts the potentially profitable samples by attending to label information. Moreover, equipped with metric learning techniques, LA-Attention enjoys task-specific distance metrics and effectively distributes attention to potentially profitable samples. (2) RA-Labeling further iteratively refines the noisy labels of potentially profitable samples, and combines the learned predictors robust to the unseen and noisy samples. In a set of experiments on three real-world financial markets: stocks, cryptocurrencies, and ETFs, LARA significantly outperforms several machine learning based methods on the Qlib quantitative investment platform. Extensive ablation studies and experiments also demonstrate that LARA indeed captures more reliable trading opportunities.
翻訳日:2023-05-17 01:40:35 公開日:2023-05-15
# ユニエンコーダ:世代対話システムのための高速かつ正確な応答選択パラダイム

Uni-Encoder: A Fast and Accurate Response Selection Paradigm for Generation-Based Dialogue Systems ( http://arxiv.org/abs/2106.01263v5 )

ライセンス: Link先を確認
Chiyu Song, Hongliang He, Haofei Yu, Pengfei Fang, Leyang Cui and Zhenzhong Lan(参考訳) サンプル・アンド・ランクは現代世代の対話システムにとって重要なデコード戦略である。 生成された候補の小さなプールから回答を選択することで、多様で高品質な回答を得るのに役立ちます。 現在の最先端のランキング法は主にクロスエンコーダと呼ばれる符号化パラダイムを使用し、それぞれのコンテキスト候補ペアを個別にエンコードし、適合度スコアに従って候補をランク付けする。 しかし、クロスエンコーダは各候補に対して同じ長さのコンテキストを繰り返しエンコードし、計算コストが高い。 poly-encoderは、コンテキストと候補間のインタラクションを減らすことで、上記の問題に対処するが、パフォーマンスは低下する。 本研究では,クロスエンコーダとして,ポリエンコーダのようにコンテキストを一度エンコードするだけで,各ペアに注意を払わないようにする,uni-encoderと呼ばれる新しいパラダイムを開発した。 Uni-Encoderは、すべての候補を1つのフォワードパスでコンテキストでエンコードする。 我々は、全ての候補が等しく扱われることを確実にするために同じ位置埋め込みを使用し、混乱を避けるために新しい注意機構を設計する。 我々のUni-Encoderは異なる注意と応答結合法を用いて他のランキングパラダイムをシミュレートできる。 大規模実験により,提案手法は,計算効率の高い4つのベンチマークデータセットにおいて,新たな最先端結果が得られることを示した。 例えば、ubuntu v2データセットの約4倍の速度でr10@1を2.9%改善している。

Sample-and-rank is a key decoding strategy for modern generation-based dialogue systems. It helps achieve diverse and high-quality responses by selecting an answer from a small pool of generated candidates. The current state-of-the-art ranking methods mainly use an encoding paradigm called Cross-Encoder, which separately encodes each context-candidate pair and ranks the candidates according to their fitness scores. However, Cross-Encoder repeatedly encodes the same lengthy context for each candidate, resulting in high computational costs. Poly-Encoder addresses the above problems by reducing the interaction between context and candidates, but with a price of performance drop. In this work, we develop a new paradigm called Uni-Encoder, that keeps the full attention over each pair as in Cross-Encoder while only encoding the context once, as in Poly-Encoder. Uni-Encoder encodes all the candidates with the context in one forward pass. We use the same positional embedding for all candidates to ensure they are treated equally and design a new attention mechanism to avoid confusion. Our Uni-Encoder can simulate other ranking paradigms using different attention and response concatenation methods. Extensive experiments show that our proposed paradigm achieves new state-of-the-art results on four benchmark datasets with high computational efficiency. For instance, it improves R10@1 by 2.9% with an approximately 4X faster inference speed on the Ubuntu V2 dataset.
翻訳日:2023-05-17 01:38:47 公開日:2023-05-15
# 高精度・高速量子計算のための変分命令セットを用いた量子コンパイル

Quantum compiling with a variational instruction set for accurate and fast quantum computing ( http://arxiv.org/abs/2203.15574v4 )

ライセンス: Link先を確認
Ying Lu, Peng-Fei Zhou, Shao-Ming Fei, Shi-Ju Ran(参考訳) 量子命令セット(qis)は、量子ハードウェアの量子ビットを制御することで物理的に実現可能な量子ゲートとして定義される。 適切に定義されたqisでゲートの積に量子回路をコンパイルすることは量子コンピューティングの基本的なステップである。 本稿では、量子コンピューティングの高速かつ高精度なマルチキュービットゲートを柔軟に設計した量子変分命令セット(QuVIS)を提案する。 QuVISにおけるゲートを実現するためのキュービットの制御は、微細な時間最適化アルゴリズムを用いて変動的に達成される。 複数の量子ビットと量子フーリエ変換のスワップを実現する際に、誤差蓄積と時間コストの両方の大幅な削減が実証され、量子マイクロインストラクションセット(qumis、1量子ビット回転と制御なしゲートを含む複数の1量子ビットゲートで形成される)のような標準qisによるコンパイルと比較される。 量子ハードウェアにおける同じ要件により、QuVISの時間コストはQuMISの時間の半分以下に削減される。 同時に、コンパイル回路の深さが小さくなるにつれて、エラーを代数的に抑制する。 高い柔軟性と効率性を持つ一般的なコンパイルアプローチとして、量子ビットは異なる量子回路で定義でき、異なる相互作用を持つ量子ハードウェアに適応することができる。

The quantum instruction set (QIS) is defined as the quantum gates that are physically realizable by controlling the qubits in quantum hardware. Compiling quantum circuits into the product of the gates in a properly defined QIS is a fundamental step in quantum computing. We here propose the quantum variational instruction set (QuVIS) formed by flexibly designed multi-qubit gates for higher speed and accuracy of quantum computing. The controlling of qubits for realizing the gates in a QuVIS is variationally achieved using the fine-grained time optimization algorithm. Significant reductions in both the error accumulation and time cost are demonstrated in realizing the swaps of multiple qubits and quantum Fourier transformations, compared with the compiling by a standard QIS such as the quantum microinstruction set (QuMIS, formed by several one- and two-qubit gates including one-qubit rotations and controlled-NOT gates). With the same requirement on quantum hardware, the time cost for QuVIS is reduced to less than one half of that for QuMIS. Simultaneously, the error is suppressed algebraically as the depth of the compiled circuit is reduced. As a general compiling approach with high flexibility and efficiency, QuVIS can be defined for different quantum circuits and be adapted to the quantum hardware with different interactions.
翻訳日:2023-05-17 01:33:27 公開日:2023-05-15
# テキスト認識のための自己教師型インシシト・グリフアテンション

Self-supervised Implicit Glyph Attention for Text Recognition ( http://arxiv.org/abs/2203.03382v4 )

ライセンス: Link先を確認
Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Xiaokang Yang, Wei Shen(参考訳) 注意機構は、文字レベルの表現を抽出する能力のため、シーンテキスト認識(STR)メソッドにおける \emph{de facto} モジュールとなっている。 これらの方法は暗黙的注意と教師付き注意にまとめることができ、注意の計算方法、すなわち、暗黙的注意と教師付き注意は、シーケンスレベルのテキストアノテーションや文字レベルのバウンディングボックスアノテーションからそれぞれ学習される。 暗黙の注意は、粗い領域や不正確な空間領域を特徴的注意として抽出するので、アライメントドリフトの問題に苦しむ傾向がある。 監視された注意は上記の問題を緩和することができるが、これは文字分類に特有であり、余計な面倒な文字レベルのバウンディングボックスアノテーションを必要とする。 上記の問題に対処するため,我々はstr,self-supervised implicit glyph attention (siga) のための新しい注意機構を提案する。 SIGAは、テキストイメージのグリフ構造を、共同で自己組織化されたテキストセグメンテーションと暗黙の注意アライメントによって記述する。 実験の結果,SIGA は従来の注目に基づく STR 手法よりも,公開コンテキストベンチマークとコントリビューションレスベンチマークにおいて,注意の正しさと最終認識性能の両面において,一貫して,はるかに優れた性能を示した。

The attention mechanism has become the \emph{de facto} module in scene text recognition (STR) methods, due to its capability of extracting character-level representations. These methods can be summarized into implicit attention based and supervised attention based, depended on how the attention is computed, i.e., implicit attention and supervised attention are learned from sequence-level text annotations and or character-level bounding box annotations, respectively. Implicit attention, as it may extract coarse or even incorrect spatial regions as character attention, is prone to suffering from an alignment-drifted issue. Supervised attention can alleviate the above issue, but it is character category-specific, which requires extra laborious character-level bounding box annotations and would be memory-intensive when handling languages with larger character categories. To address the aforementioned issues, we propose a novel attention mechanism for STR, self-supervised implicit glyph attention (SIGA). SIGA delineates the glyph structures of text images by jointly self-supervised text segmentation and implicit attention alignment, which serve as the supervision to improve attention correctness without extra character-level annotations. Experimental results demonstrate that SIGA performs consistently and significantly better than previous attention-based STR methods, in terms of both attention correctness and final recognition performance on publicly available context benchmarks and our contributed contextless benchmarks.
翻訳日:2023-05-17 01:33:04 公開日:2023-05-15
# 暗号通貨の評価 - 説明可能なAIアプローチ

Cryptocurrency Valuation: An Explainable AI Approach ( http://arxiv.org/abs/2201.12893v4 )

ライセンス: Link先を確認
Yulin Liu and Luyao Zhang(参考訳) 現在、暗号通貨資産の基礎に関する説得力のあるプロキシは存在しない。 本稿では、独自のブロックチェーン会計手法を用いて、新しい市場間投資比率(PU比)を提案する。 その後、Bitcoinの履歴データによって、さまざまな基本的な市場比をプロキシし、短期的なbitcoinリターンの予測力はほとんどない。 しかし、pu比率は、他の方法よりも長期bitcoinリターンを効果的に予測する。 さらに,機械学習を用いてPU比の説明可能性を検証する。 最後に、PU比によって推奨される自動取引戦略を提示する。 第1に、私たちの市場と資金の比率は、古典的な金融理論と、アドホックではなくBitcoin会計のユニークなUTXOモデルに基づくものであり、第2に、この比率の買い得と売り上げ高の影響を実証する実証的証拠であり、最後に、将来の研究において例外となるPython Package Indexを介して、オープンソースソフトウェアとしてトレーディングアルゴリズムを配布する。

Currently, there are no convincing proxies for the fundamentals of cryptocurrency assets. We propose a new market-to-fundamental ratio, the price-to-utility (PU) ratio, utilizing unique blockchain accounting methods. We then proxy various existing fundamental-to-market ratios by Bitcoin historical data and find they have little predictive power for short-term bitcoin returns. However, PU ratio effectively predicts long-term bitcoin returns than alternative methods. Furthermore, we verify the explainability of PU ratio using machine learning. Finally, we present an automated trading strategy advised by the PU ratio that outperforms the conventional buy-and-hold and market-timing strategies. Our research contributes to explainable AI in finance from three facets: First, our market-to-fundamental ratio is based on classic monetary theory and the unique UTXO model of Bitcoin accounting rather than ad hoc; Second, the empirical evidence testifies the buy-low and sell-high implications of the ratio; Finally, we distribute the trading algorithms as open-source software via Python Package Index for future research, which is exceptional in finance research.
翻訳日:2023-05-17 01:31:57 公開日:2023-05-15
# 2つの時間スケール更新ルールを持つ生成逆数ネットワークのトレーニングのための臨界バッチサイズの存在と推定

Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule ( http://arxiv.org/abs/2201.11989v5 )

ライセンス: Link先を確認
Naoki Sato and Hideaki Iiduka(参考訳) 従来,2つの時間スケール更新規則(TTUR)は,異なる学習率,あるいは異なる減衰率などの異なる学習速度を用いて,理論上,実際に生成的敵ネットワーク(GAN)を訓練するのに有用であった。 さらに, 学習速度だけでなく, バッチサイズも, TTURを用いたGANの訓練において重要であり, どちらも訓練に必要なステップ数に影響を与える。 本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。 理論的には、一定の学習率を持つTTURの場合、判別器とジェネレータの両方の損失関数の定常点を見つけるために必要なステップの数は、バッチサイズが大きくなるにつれて減少し、確率的一階オラクル(SFO)の複雑さを最小化する臨界バッチサイズが存在することを示す。 次に、Fr'echet開始距離(FID)をトレーニングのパフォーマンス指標とし、バッチサイズが大きくなるにつれて、低いFIDスコアを達成するために必要なステップの数が減少し、バッチサイズが測定されたクリティカルバッチサイズを超えると、SFOの複雑さが増加することを示す数値結果を提供する。 さらに, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。

Previous results have shown that a two time-scale update rule (TTUR) using different learning rates, such as different constant rates or different decaying rates, is useful for training generative adversarial networks (GANs) in theory and in practice. Moreover, not only the learning rate but also the batch size is important for training GANs with TTURs and they both affect the number of steps needed for training. This paper studies the relationship between batch size and the number of steps needed for training GANs with TTURs based on constant learning rates. We theoretically show that, for a TTUR with constant learning rates, the number of steps needed to find stationary points of the loss functions of both the discriminator and generator decreases as the batch size increases and that there exists a critical batch size minimizing the stochastic first-order oracle (SFO) complexity. Then, we use the Fr'echet inception distance (FID) as the performance measure for training and provide numerical results indicating that the number of steps needed to achieve a low FID score decreases as the batch size increases and that the SFO complexity increases once the batch size exceeds the measured critical batch size. Moreover, we show that measured critical batch sizes are close to the sizes estimated from our theoretical results.
翻訳日:2023-05-17 01:31:37 公開日:2023-05-15
# フェデレートx武装バンディット

Federated X-Armed Bandit ( http://arxiv.org/abs/2205.15268v3 )

ライセンス: Link先を確認
Wenjie Li, Qifan Song, Jean Honorio, Guang Lin(参考訳) この研究は、異なるクライアントが同じドメインで定義された異種な局所目的関数に直面するフェデレートされた$\mathcal{x}$-armed banditの最初のフレームワークを確立し、グローバルな最適化を協調的に決定する必要がある。 本稿では,このような問題に対する最初のフェデレーションアルゴリズムを提案する。 階層分割における大域的対象のトポロジ的構造と弱滑らか性を利用して,クライアント数と評価予算の両方に関して線形累積的後悔を実現する。 一方、中央サーバとクライアント間の対数通信のみが必要で、クライアントのプライバシを保護する。 合成関数と実データセットの実験結果は、様々な集中型および連合型ベースラインアルゴリズムに対する \texttt{fed-pne} の利点を検証する。

This work establishes the first framework of federated $\mathcal{X}$-armed bandit, where different clients face heterogeneous local objective functions defined on the same domain and are required to collaboratively figure out the global optimum. We propose the first federated algorithm for such problems, named \texttt{Fed-PNE}. By utilizing the topological structure of the global objective inside the hierarchical partitioning and the weak smoothness property, our algorithm achieves sublinear cumulative regret with respect to both the number of clients and the evaluation budget. Meanwhile, it only requires logarithmic communications between the central server and clients, protecting the client privacy. Experimental results on synthetic functions and real datasets validate the advantages of \texttt{Fed-PNE} over various centralized and federated baseline algorithms.
翻訳日:2023-05-17 01:21:50 公開日:2023-05-15
# コンテキスト・スペクタcoolとその質問応答および他の自然言語処理タスクへの応用

COOL, a Context Outlooker, and its Application to Question Answering and other Natural Language Processing Tasks ( http://arxiv.org/abs/2204.09593v2 )

ライセンス: Link先を確認
Fangyi Zhu, See-Kiong Ng, St\'ephane Bressan(参考訳) vision outlookerは、ローカル注意の形式であるoutlook attentionを追加することで、自己照準機構を実装するvision transformersの性能を向上させる。 自然言語処理では、コンピュータビジョンやその他の領域と同様に、トランスフォーマーベースのモデルは、ほとんどの処理タスクの最先端を構成する。 この領域では、多くの著者がローカルコンテキストの重要性を論じ、実証している。 本稿では,自然言語処理のためのoutlook attentionメカニズムを提案する。 COOLは、トランスフォーマーベースモデルの自己注意層の上に付加され、既存のアプローチで使用される動的畳み込みよりも単語近接性やペアワイド制約を考慮した局所構文コンテキストを符号化する。 異なる変換器モデルを用いたCOOLの実装に対する比較実験による性能評価は、質問応答を含む様々な自然言語処理タスクにおいて、原モデルのみを用いてベースラインよりも改善する機会を確認する。 提案手法は,既存の最先端手法との競合性能を実現する。

Vision outlooker improves the performance of vision transformers, which implements a self-attention mechanism by adding an outlook attention, a form of local attention. In natural language processing, as has been the case in computer vision and other domains, transformer-based models constitute the state-of-the-art for most processing tasks. In this domain, too, many authors have argued and demonstrated the importance of local context. We present an outlook attention mechanism, COOL, for natural language processing. COOL, added on top of the self-attention layers of a transformer-based model, encodes local syntactic context considering word proximity and more pair-wise constraints than dynamic convolution used by existing approaches. A comparative empirical performance evaluation of an implementation of COOL with different transformer-based models confirms the opportunity for improvement over a baseline using the original models alone for various natural language processing tasks, including question answering. The proposed approach achieves competitive performance with existing state-of-the-art methods on some tasks.
翻訳日:2023-05-17 01:20:26 公開日:2023-05-15
# 一般ハミルトニアンの量子力学に対する確率的アプローチ

Stochastic approach for quantum metrology with generic Hamiltonians ( http://arxiv.org/abs/2204.01055v2 )

ライセンス: Link先を確認
Le Bin Ho(参考訳) 近年, 乗法パラメータを持つハミルトニアンの変分量子距離論が提案され, 推定精度は変分回路で最適化できる。 しかし、一般ハミルトニアンを持つ系は、これらの変分スキームをいまだに欠いている。 この研究は量子回路に基づくアプローチを導入し、ジェネリック・ハミルトンで量子力学を研究する。 本稿では,量子フィッシャー情報が得られる進化量子状態の導関数に対する時間依存確率的パラメータシフト則を提案する。 このスキームはパラメータ化ゲートの族の下で普遍量子コンピュータで実行することができる。 磁場推定では、確率的パラメータシフト則から得られた結果と正確な結果との整合性を示し、標準パラメータシフト則から得られた結果は正確な値からわずかに逸脱する。 我々の研究は、量子回路アルゴリズムを用いた一般ハミルトン派による量子力学の研究に光を当てている。

Recently, variational quantum metrology was proposed for Hamiltonians with multiplicative parameters, wherein the estimation precision can be optimized via variational circuits. However, systems with generic Hamiltonians still lack these variational schemes. This work introduces a quantum-circuit-based approach for studying quantum metrology with generic Hamiltonians. We present a time-dependent stochastic parameter-shift rule for the derivatives of evolved quantum states, whereby the quantum Fisher information can be obtained. The scheme can be executed in universal quantum computers under the family of parameterized gates. In magnetic field estimations, we demonstrate the consistency between the results obtained from the stochastic parameter-shift rule and the exact results, while the results obtained from a standard parameter-shift rule slightly deviate from the exact ones. Our work sheds light on studying quantum metrology with generic Hamiltonians using quantum circuit algorithms.
翻訳日:2023-05-17 01:19:56 公開日:2023-05-15
# プッシュフォワード生成モデルの潜時空間幾何学の展開

Unveiling the Latent Space Geometry of Push-Forward Generative Models ( http://arxiv.org/abs/2207.10541v3 )

ライセンス: Link先を確認
Thibaut Issenhuth, Ugo Tanielian, J\'er\'emie Mary, David Picard(参考訳) 多くの深い生成モデルは、GAN(Generative Adversarial Networks)やVAE(VAE)のような連続生成器によってガウス測度のプッシュフォワードとして定義される。 この研究は、そのような深層生成モデルの潜在空間を探索する。 これらのモデルの主な問題は、非連結分布を学習する際に、対象分布の支持外からサンプルを出力する傾向があることである。 これらのモデルの性能と潜在空間の形状との関係について検討した。 幾何測度理論の最近の発展に基づき、潜在空間の次元がモードの数よりも大きい場合の最適性に対する十分条件が証明される。 GANに関する実験を通じて、理論結果の有効性を実証し、これらのモデルの潜在空間幾何学に関する新たな知見を得る。 さらに,遅延空間における単純なクラスタ構造を強制し,GANの性能を向上するトランケーション手法を提案する。

Many deep generative models are defined as a push-forward of a Gaussian measure by a continuous generator, such as Generative Adversarial Networks (GANs) or Variational Auto-Encoders (VAEs). This work explores the latent space of such deep generative models. A key issue with these models is their tendency to output samples outside of the support of the target distribution when learning disconnected distributions. We investigate the relationship between the performance of these models and the geometry of their latent space. Building on recent developments in geometric measure theory, we prove a sufficient condition for optimality in the case where the dimension of the latent space is larger than the number of modes. Through experiments on GANs, we demonstrate the validity of our theoretical results and gain new insights into the latent space geometry of these models. Additionally, we propose a truncation method that enforces a simplicial cluster structure in the latent space and improves the performance of GANs.
翻訳日:2023-05-17 01:13:56 公開日:2023-05-15
# 自動音声キャプションと言語に基づく音声検索

Automated Audio Captioning and Language-Based Audio Retrieval ( http://arxiv.org/abs/2207.04156v2 )

ライセンス: Link先を確認
Clive Gomes, Hyejin Park, Patrick Kollman, Yi Song, Iffanice Houndayi, Ankit Shah(参考訳) 本プロジェクトは,(1)自動音声キャプションと(2)言語に基づく音声検索の2つのサブタスクを有するDCASE 2022コンペティション(タスク6)に参加した。 第1のサブタスクは音声サンプルのテキスト記述の生成であり、第2のタスクの目標は、与えられた記述にマッチする固定データセット内でオーディオサンプルを見つけることであった。 両方のサブタスクで、Clathoデータセットが使用された。 モデルは, BLEU1, BLEU2, BLEU3, ROUGEL, METEOR, CIDEr, SPICE, SPIDErの音声キャプション, R1, R5, R10, mARP10で評価した。 これらのタスクのベースラインモデルを変更するいくつかの実験を行った。 Automated Audio Captioningの最終的なアーキテクチャはベースラインのパフォーマンスに近いが、Language-based Audio Retrievalのモデルはそれを上回っている。

This project involved participation in the DCASE 2022 Competition (Task 6) which had two subtasks: (1) Automated Audio Captioning and (2) Language-Based Audio Retrieval. The first subtask involved the generation of a textual description for audio samples, while the goal of the second was to find audio samples within a fixed dataset that match a given description. For both subtasks, the Clotho dataset was used. The models were evaluated on BLEU1, BLEU2, BLEU3, ROUGEL, METEOR, CIDEr, SPICE, and SPIDEr scores for audio captioning and R1, R5, R10 and mARP10 scores for audio retrieval. We have conducted a handful of experiments that modify the baseline models for these tasks. Our final architecture for Automated Audio Captioning is close to the baseline performance, while our model for Language-Based Audio Retrieval has surpassed its counterpart.
翻訳日:2023-05-17 01:13:40 公開日:2023-05-15
# 量子回路における遅延チョイス量子消去器の相補性関係

Complementarity relations of a delayed-choice quantum eraser in a quantum circuit ( http://arxiv.org/abs/2207.03946v3 )

ライセンス: Link先を確認
Dah-Wei Chiou, Hsiu-Chuan Hsu(参考訳) 本稿では,2対の量子子間の絡み合いの度合いが調整可能であるという拡張により,遅延チョイス量子消去器を二部交絡によりエミュレートする量子回路を提案する。 これにより、干渉の量子状態と直接接触することなく、絡み合いによって方向情報が得られるシナリオにおいて、干渉の可視性と方向の識別性との間の相補性をテストするためのより広い設定を提供する。 可視性・可視性の関係は,両方向の情報がどのように考慮されるかが異なる3つの視点から検討される。 これらの相補性関係は、情報理論の枠組みにおけるエントロピー的不確実性関係や、単粒子と二粒子の性質を含む試行性関係の観点から理解することができる。 次に、IBM Quantumプラットフォームが提供する量子コンピュータの実験を行い、理論的予測を検証する。 また, 遅延ゲートを用いて, 方向情報の測定を遅延させ, 真の「遅延重み」方式で測定できることを確認した。

We propose a quantum circuit that emulates a delayed-choice quantum eraser via bipartite entanglement with the extension that the degree of entanglement between the two paired quantons is adjustable. This provides a broader setting to test complementarity relations between interference visibility and which-way distinguishability in the scenario that the which-way information is obtained through entanglement without direct contact with the quantum state for interference. The visibility-distinguishability relations are investigated from three perspectives that differ in how the which-way information is taken into consideration. These complementarity relations can be understood in terms of entropic uncertainty relations in the information-theoretic framework and the triality relation that incorporates single-particle and bipartite properties. We then perform experiments on the quantum computers provided by the IBM Quantum platform to verify the theoretical predictions. We also apply the delay gate to delay the measurement of the which-way information to affirm that the measurement can be made truly in the "delayed-choice" manner.
翻訳日:2023-05-17 01:13:22 公開日:2023-05-15
# ログデータにおける異常検出のためのディープラーニング:調査

Deep Learning for Anomaly Detection in Log Data: A Survey ( http://arxiv.org/abs/2207.03820v2 )

ライセンス: Link先を確認
Max Landauer, Sebastian Onder, Florian Skopik, Markus Wurzenberger(参考訳) 自動ログファイル解析は、システム障害などの関連するインシデントを早期に検出する。 特に、自己学習異常検出技術は、ログデータのパターンをキャプチャし、事前に異常シナリオを提示または手動でモデル化することなく、予期しないログイベントの発生をシステムオペレータに報告する。 近年,この目的のためにディープラーニングニューラルネットワークを活用するアプローチが増えている。 これらのアプローチは、従来の機械学習技術と比較して優れた検出性能を示し、不安定なデータフォーマットで同時に問題を解決する。 しかし、ディープラーニングにはさまざまなアーキテクチャがあり、生および非構造化ログデータをエンコードしてニューラルネットワークで解析するのは自明ではない。 そこで我々は,デプロイモデルの概要,データ前処理機構,異常検出手法,評価を提供する体系的文献レビューを行う。 この調査は既存のアプローチを定量的に比較するものではなく、異なるモデルアーキテクチャの関連する側面を読者が理解できるようにすることを目的としている。

Automatic log file analysis enables early detection of relevant incidents such as system failures. In particular, self-learning anomaly detection techniques capture patterns in log data and subsequently report unexpected log event occurrences to system operators without the need to provide or manually model anomalous scenarios in advance. Recently, an increasing number of approaches leveraging deep learning neural networks for this purpose have been presented. These approaches have demonstrated superior detection performance in comparison to conventional machine learning techniques and simultaneously resolve issues with unstable data formats. However, there exist many different architectures for deep learning and it is non-trivial to encode raw and unstructured log data to be analyzed by neural networks. We therefore carry out a systematic literature review that provides an overview of deployed models, data pre-processing mechanisms, anomaly detection techniques, and evaluations. The survey does not quantitatively compare existing approaches but instead aims to help readers understand relevant aspects of different model architectures and emphasizes open issues for future work.
翻訳日:2023-05-17 01:13:04 公開日:2023-05-15
# 最適かつロバストなカテゴリーレベル知覚:2次元および3次元意味的キーポイントによる物体のポーズと形状推定

Optimal and Robust Category-level Perception: Object Pose and Shape Estimation from 2D and 3D Semantic Keypoints ( http://arxiv.org/abs/2206.12498v2 )

ライセンス: Link先を確認
Jingnan Shi, Heng Yang, Luca Carlone(参考訳) カテゴリーレベルの知覚問題を考えると、与えられたカテゴリーのオブジェクト(例えば車)を2dまたは3dのセンサーデータで認識し、クラス内の変化にかかわらずオブジェクトの3dポーズと形状を再構築する必要がある(例えば、異なるカーモデルが異なる形状を持つ)。 我々は、オブジェクトカテゴリに対して、そのカテゴリ内のオブジェクトを記述する潜在的CADモデルのライブラリが与えられ、非凸最適化により2Dまたは3Dキーポイントからポーズと形状を推定する標準定式化を採用する。 PACE3D* と PACE2D* は,それぞれ 3D と 2D のキーポイントを用いたポーズと形状推定に最適である。 どちらの解法も厳密な(正確には)半定緩和の設計に依存している。 2つめのコントリビューションは、PACE3D#とPACE2D#という名前の、両方のソルバのアウトリアロバストバージョンを開発することです。 この目標に向けて、我々は、測定値の互換性をモデル化するために互換性ハイパーグラフを使用するprune outliersのための一般的なグラフ理論フレームワークであるrobinを提案する。 カテゴリレベルの知覚問題では、これらのハイパーグラフはキーポイント(2次元)または凸殻(3次元)の巻線順序から構築でき、多くのアウトレーヤは最大超斜め計算によってフィルタリング可能である。 最後の貢献は広範な実験的評価である。 シミュレーションデータセットとPASCAL3D+データセットのアブレーションスタディを提供するのに加えて、当社のソルバとディープキーポイント検出器を組み合わせることで、PACE3D#がApolloScapeデータセットにおける車両のポーズ推定における技術状況を改善し、そのランタイムが実用的なアプリケーションと互換性があることを示します。 コードをhttps://github.com/MIT-SPARK/PACEでリリースします。

We consider a category-level perception problem, where one is given 2D or 3D sensor data picturing an object of a given category (e.g., a car), and has to reconstruct the 3D pose and shape of the object despite intra-class variability (i.e., different car models have different shapes). We consider an active shape model, where -- for an object category -- we are given a library of potential CAD models describing objects in that category, and we adopt a standard formulation where pose and shape are estimated from 2D or 3D keypoints via non-convex optimization. Our first contribution is to develop PACE3D* and PACE2D*, the first certifiably optimal solvers for pose and shape estimation using 3D and 2D keypoints, respectively. Both solvers rely on the design of tight (i.e., exact) semidefinite relaxations. Our second contribution is to develop outlier-robust versions of both solvers, named PACE3D# and PACE2D#. Towards this goal, we propose ROBIN, a general graph-theoretic framework to prune outliers, which uses compatibility hypergraphs to model measurements' compatibility. We show that in category-level perception problems these hypergraphs can be built from the winding orders of the keypoints (in 2D) or their convex hulls (in 3D), and many outliers can be filtered out via maximum hyperclique computation. The last contribution is an extensive experimental evaluation. Besides providing an ablation study on simulated datasets and on the PASCAL3D+ dataset, we combine our solver with a deep keypoint detector, and show that PACE3D# improves over the state of the art in vehicle pose estimation in the ApolloScape datasets, and its runtime is compatible with practical applications. We release our code at https://github.com/MIT-SPARK/PACE.
翻訳日:2023-05-17 01:11:00 公開日:2023-05-15
# テンプレートに基づく時間適応による動的文脈化単語埋め込みの学習

Learning Dynamic Contextualised Word Embeddings via Template-based Temporal Adaptation ( http://arxiv.org/abs/2208.10734v2 )

ライセンス: Link先を確認
Xiaohang Tang, Yi Zhou, Danushka Bollegala(参考訳) dynamic contextized word embeddeds (dcwes) は、単語の時間的意味変化を表す。 本稿では,事前学習されたマスク言語モデル(mlm)の時間適応化によるdcwes学習法を提案する。 2つの異なるタイムスタンプ $t_1$ と $t_2$ でそれぞれ取られたコーパスの2つのスナップショット $c_1$ と $c_2$ を考えると、まずは教師なしの方法を提案する。 (a)$c_1$ と $c_2$ のどちらも関連する用語と、 (b)個々のスナップショットの特定のピボット項に関連付けられたemph{anchor}用語。 次に、抽出されたピボットとアンカーを使って手動でコンパイルされたテンプレートを埋めてプロンプトを生成します。 さらに,人間による監督を必要とせず,C_1$とC_2$からタイムセンシティブなテンプレートを自動的に学習する手法を提案する。 次に、生成されたプロンプトを使用して、プリトレーニングされたmlmをこれらのプロンプトを使用して微調整することで$t_2$に適応させる。 複数の実験により, 提案手法はテスト文の難易度を$C_2$で低減し, 現状よりも優れていた。

Dynamic contextualised word embeddings (DCWEs) represent the temporal semantic variations of words. We propose a method for learning DCWEs by time-adapting a pretrained Masked Language Model (MLM) using time-sensitive templates. Given two snapshots $C_1$ and $C_2$ of a corpus taken respectively at two distinct timestamps $T_1$ and $T_2$, we first propose an unsupervised method to select (a) \emph{pivot} terms related to both $C_1$ and $C_2$, and (b) \emph{anchor} terms that are associated with a specific pivot term in each individual snapshot. We then generate prompts by filling manually compiled templates using the extracted pivot and anchor terms. Moreover, we propose an automatic method to learn time-sensitive templates from $C_1$ and $C_2$, without requiring any human supervision. Next, we use the generated prompts to adapt a pretrained MLM to $T_2$ by fine-tuning using those prompts. Multiple experiments show that our proposed method reduces the perplexity of test sentences in $C_2$, outperforming the current state-of-the-art.
翻訳日:2023-05-17 01:03:40 公開日:2023-05-15
# 新規タスクのオンラインワンショット学習のための多様な知識ソースの統合

Integrating Diverse Knowledge Sources for Online One-shot Learning of Novel Tasks ( http://arxiv.org/abs/2208.09554v3 )

ライセンス: Link先を確認
James R. Kirk, Robert E. Wray, Peter Lindes, John E. Laird(参考訳) 自律エージェントは、さまざまな潜在的なタスク知識ソースを描画することができるが、現在のアプローチは、常に1つまたは2つだけに焦点を当てている。 本稿では,オフィス・モバイルロボットをシミュレートする上で,オンライン学習に多様な知識資源を活用することの課題と影響について検討する。 soar cognitive architectureで開発されたエージェントは、環境とのインタラクション、タスクの実行と検索の知識、人間の自然言語命令、大きな言語モデル(gpt-3)から得られた応答など、ドメインとタスクの知識のソースを使用する。 課題知識と人的作業負荷の学習の観点から,これらの知識源の異なる貢献を探求し,異なる組み合わせのパフォーマンスを評価する。 その結果、エージェントが様々な知識ソースをオンラインに統合することで、一発のタスク学習全体が改善され、迅速かつ信頼性の高いタスク学習に必要な人的フィードバックが削減されることがわかった。

Autonomous agents are able to draw on a wide variety of potential sources of task knowledge; however current approaches invariably focus on only one or two. Here we investigate the challenges and impact of exploiting diverse knowledge sources to learn online, in one-shot, new tasks for a simulated office mobile robot. The resulting agent, developed in the Soar cognitive architecture, uses the following sources of domain and task knowledge: interaction with the environment, task execution and search knowledge, human natural language instruction, and responses retrieved from a large language model (GPT-3). We explore the distinct contributions of these knowledge sources and evaluate the performance of different combinations in terms of learning correct task knowledge and human workload. Results show that an agent's online integration of diverse knowledge sources improves one-shot task learning overall, reducing human feedback needed for rapid and reliable task learning.
翻訳日:2023-05-17 01:03:16 公開日:2023-05-15
# DCGANを用いた糖尿病網膜症画像の品質と多様性の評価

Evaluating the Quality and Diversity of DCGAN-based Generatively Synthesized Diabetic Retinopathy Imagery ( http://arxiv.org/abs/2208.05593v2 )

ライセンス: Link先を確認
Cristina-Madalina Dragan, Muhammad Muneeb Saad, Mubashir Husain Rehmani, and Ruairi O'Reilly(参考訳) 公開されている糖尿病網膜症(DR)データセットは不均衡であり、DRを持つ画像の数が限られている。 この不均衡の影響は、drステージの重症度が増加するにつれて悪化し、分類器の診断能力に影響を及ぼす。 この不均衡に対処するには、GAN(Generative Adversarial Networks)を使用して、データセットを合成画像で拡張する。 高品質で多様な画像が生成される場合、合成画像の生成は有利である。 合成画像の品質と多様性を評価するために、マルチスケール構造類似度指数(MS-SSIM)、コサイン距離(CD)、Fr\echet Inception Distance(FID)などの評価指標を用いる。 ganベース合成画像の品質と多様性の評価における各指標の有効性を理解することは、拡張のための画像選択において重要である。 これまでのところ、生体画像の文脈におけるこれらの指標の適切性の分析は限られている。 本研究は, 深層畳み込みgan (dcgan) が生成する合成増殖性dr画像に適用する評価指標の実験的評価に寄与する。 さらに,合成画像の品質と多様性を示す指標の容量と,分類器の性能との関係について検討した。 これにより、合成画像の定量的選択と情報増強戦略が可能になる。 その結果、FIDは品質評価に適しており、MS-SSIMとCDは合成画像の多様性評価に適していることがわかった。 さらに、F1とAUCスコアが示すように、畳み込みニューラルネットワーク(CNN)と効率的なネット分類器の強化データセットに対する優れた性能は、不均衡データセットを増大させる合成画像の有効性を示す。

Publicly available diabetic retinopathy (DR) datasets are imbalanced, containing limited numbers of images with DR. This imbalance contributes to overfitting when training machine learning classifiers. The impact of this imbalance is exacerbated as the severity of the DR stage increases, affecting the classifiers' diagnostic capacity. The imbalance can be addressed using Generative Adversarial Networks (GANs) to augment the datasets with synthetic images. Generating synthetic images is advantageous if high-quality and diversified images are produced. To evaluate the quality and diversity of synthetic images, several evaluation metrics, such as Multi-Scale Structural Similarity Index (MS-SSIM), Cosine Distance (CD), and Fr\'echet Inception Distance (FID) are used. Understanding the effectiveness of each metric in evaluating the quality and diversity of GAN-based synthetic images is critical to select images for augmentation. To date, there has been limited analysis of the appropriateness of these metrics in the context of biomedical imagery. This work contributes an empirical assessment of these evaluation metrics as applied to synthetic Proliferative DR imagery generated by a Deep Convolutional GAN (DCGAN). Furthermore, the metrics' capacity to indicate the quality and diversity of synthetic images and a correlation with classifier performance is undertaken. This enables a quantitative selection of synthetic imagery and an informed augmentation strategy. Results indicate that FID is suitable for evaluating the quality, while MS-SSIM and CD are suitable for evaluating the diversity of synthetic imagery. Furthermore, the superior performance of Convolutional Neural Network (CNN) and EfficientNet classifiers, as indicated by the F1 and AUC scores, for the augmented datasets demonstrates the efficacy of synthetic imagery to augment the imbalanced dataset.
翻訳日:2023-05-17 01:02:02 公開日:2023-05-15
# 散逸性反磁性における運動エネルギーと磁気モーメントの分配

Partition of kinetic energy and magnetic moment in dissipative diamagnetism ( http://arxiv.org/abs/2208.00161v3 )

ライセンス: Link先を確認
Jasleen Kaur, Aritra Ghosh, Malay Bandyopadhyay(参考訳) 本稿では,2次元における散逸性シクロトロン運動に起因する散逸性双磁性を,エネルギー平衡定理の量子対の光で解析する。 我々は、一様磁場の存在下で、高調波井戸内を移動する荷電量子粒子を、無限個の独立した量子発振器からなる量子熱浴に結合すると考える。 エネルギー均等定理の量子対は、散逸発振子の平均運動エネルギーを2倍平均として表すことができ、そこでは、第1平均化は熱浴のギブス標準状態上で行われ、第2平均化は確率分布関数$P_k(\omega)$で制御される。 この結果をさらに分析し,弱結合限界における一貫性を示す。 その後、系の平衡磁気モーメントを計算し、エネルギー同分定理の量子対と興味深い関係を明らかにする。 運動エネルギーと磁気モーメントの表現は、超統計学、すなわち2つの統計の重ね合わせの文脈で再構成される。 より伝統的なギブズアプローチで得られたものとの比較研究を行い、完全な合意を得る。

In this paper, we analyze dissipative diamagnetism, arising due to dissipative cyclotron motion in two dimensions, in the light of the quantum counterpart of energy equipartition theorem. We consider a charged quantum particle moving in a harmonic well, in the presence of a uniform magnetic field, and coupled to a quantum heat bath which is taken to be composed of an infinite number of independent quantum oscillators. The quantum counterpart of energy equipartition theorem tells us that it is possible to express the mean kinetic energy of the dissipative oscillator as a two-fold average, where, the first averaging is performed over the Gibbs canonical state of the heat bath while the second one is governed by a probability distribution function $P_k(\omega)$. We analyze this result further, and also demonstrate its consistency in the weak-coupling limit. Following this, we compute the equilibrium magnetic moment of the system, and reveal an interesting connection with the quantum counterpart of energy equipartition theorem. The expressions for kinetic energy and magnetic moment are reformulated in the context of superstatistics, i.e. the superposition of two statistics. A comparative study of the present results with those obtained from the more traditional Gibbs approach is performed and a perfect agreement is obtained.
翻訳日:2023-05-17 01:01:01 公開日:2023-05-15
# 機械翻訳評価のためのラウンドトリップ翻訳の再考

Rethinking Round-Trip Translation for Machine Translation Evaluation ( http://arxiv.org/abs/2209.07351v3 )

ライセンス: Link先を確認
Terry Yue Zhuo, Qiongkai Xu, Xuanli He, Trevor Cohn(参考訳) 低リソース言語翻訳の自動評価は並列コーパスの欠如に悩まされる。 ラウンドトリップ翻訳は、並列評価コーパスの要求を緩和する巧妙で簡単な手法として機能する。 しかし, 統計的機械翻訳(SMT)の時代において, 前向き翻訳とラウンドトリップ翻訳による評価スコアの曖昧な相関が観察された。 本稿では,ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。 まず、SMT評価におけるラウンドトリップ翻訳の再検討により、長年の誤解は基本的にコピー機構によるものであることが明らかとなった。 SMTのコピー機構を除去した後、ラウンドトリップ翻訳スコアは前方翻訳性能を適切に反映することができる。 そして,複数の機械翻訳評価タスクにおいて,ラウンドトリップ翻訳が有益であることを示す。 もっと具体的に言うと、往復翻訳が使える 一 対応する前方翻訳スコアを予測すること 二 最新の品質推定モデルの性能を向上させること、及び 三 クロスシステム検証により、共通業務における敵の識別

Automatic evaluation on low-resource language translation suffers from a deficiency of parallel corpora. Round-trip translation could be served as a clever and straightforward technique to alleviate the requirement of the parallel evaluation corpus. However, there was an observation of obscure correlations between the evaluation scores by forward and round-trip translations in the era of statistical machine translation (SMT). In this paper, we report the surprising finding that round-trip translation can be used for automatic evaluation without the references. Firstly, our revisit on the round-trip translation in SMT evaluation unveils that its long-standing misunderstanding is essentially caused by copying mechanism. After removing copying mechanism in SMT, round-trip translation scores can appropriately reflect the forward translation performance. Then, we demonstrate the rectification is overdue as round-trip translation could benefit multiple machine translation evaluation tasks. To be more specific, round-trip translation could be used i) to predict corresponding forward translation scores; ii) to improve the performance of the recently advanced quality estimation model; and iii) to identify adversarial competitors in shared tasks via cross-system verification.
翻訳日:2023-05-17 00:53:36 公開日:2023-05-15
# オフポリティ強化学習における再利用バイアスについて

On the Reuse Bias in Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2209.07074v2 )

ライセンス: Link先を確認
Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Dong Yan, Jun Zhu(参考訳) 重要サンプリング (is) はオフポリシー評価において一般的な手法であり、サンプル効率を高めるためにリプレイバッファ内の軌道の再重み付けを行う。 しかし、ISによるトレーニングは不安定であり、この問題に対処する以前の試みは、主にISのばらつきの分析に焦点を当てていた。 本稿では,isの再利用バイアスの新しい概念 -- 評価と最適化のためにリプレイバッファの再利用によって生じるオフポリシー評価のバイアス -- にも不安定性が関係していることを明らかにする。 理論的には、リプレイバッファのデータによる現在のポリシーの非政治的評価と最適化が目的を過大評価する結果となり、誤って勾配が更新され、性能が劣化する可能性がある。 さらに、再利用バイアスの高確率上限を提供し、オフポリシーアルゴリズムの安定性の概念を導入することにより、上限の一方の項を制御することで再利用バイアスを制御できることを示す。 これらの分析に基づいて, 再利用バイアスの悪影響を緩和する実用的なアルゴリズムとともに, 新たなバイアス正規化重要度サンプリング(biris)フレームワークを提案する。 実験の結果,本手法はムジョコにおける一連の連続制御タスクのサンプル効率を大幅に向上できることがわかった。

Importance sampling (IS) is a popular technique in off-policy evaluation, which re-weights the return of trajectories in the replay buffer to boost sample efficiency. However, training with IS can be unstable and previous attempts to address this issue mainly focus on analyzing the variance of IS. In this paper, we reveal that the instability is also related to a new notion of Reuse Bias of IS -- the bias in off-policy evaluation caused by the reuse of the replay buffer for evaluation and optimization. We theoretically show that the off-policy evaluation and optimization of the current policy with the data from the replay buffer result in an overestimation of the objective, which may cause an erroneous gradient update and degenerate the performance. We further provide a high-probability upper bound of the Reuse Bias, and show that controlling one term of the upper bound can control the Reuse Bias by introducing the concept of stability for off-policy algorithms. Based on these analyses, we finally present a novel Bias-Regularized Importance Sampling (BIRIS) framework along with practical algorithms, which can alleviate the negative impact of the Reuse Bias. Experimental results show that our BIRIS-based methods can significantly improve the sample efficiency on a series of continuous control tasks in MuJoCo.
翻訳日:2023-05-17 00:53:22 公開日:2023-05-15
# オープン量子システムとしてのDQC1

DQC1 as an Open Quantum System ( http://arxiv.org/abs/2209.03947v2 )

ライセンス: Link先を確認
Jake Xuereb, Steve Campbell, John Goold, Andr\'e Xuereb(参考訳) dqc1複雑性クラス、すなわち1量子ビットモデルのパワーは、オープン量子システムとして検討される。 dqc1アルゴリズムを実行する量子ビットのレジスタのダイナミクスを研究し、複雑性クラス内の任意のアルゴリズムに対して、論理量子ビットの進化は、ユニタリなダイナミクスを持つオープン量子システムとして記述できることを示した。 ユニタリ量子チャネルはタサキ-クルックスゆらぎの定理を尊重し、論理量子ビットの熱力学によってどのように捉えるかを示す。 応用として, DQC1トレース推定アルゴリズムの平衡と非平衡熱力学について検討する。 異なる計算入力、すなわち、推定されるトレースは、量子ビットのレジスタ全体にわたって異なるエネルギー交換を生じさせ、論理量子ビットの温度が経験した変動の大きさとアルゴリズムの品質に影響することを示す。

The DQC1 complexity class, or power of one qubit model, is examined as an open quantum system. We study the dynamics of a register of qubits carrying out a DQC1 algorithm and show that, for any algorithm in the complexity class, the evolution of the logical qubit can be described as an open quantum system undergoing a dynamics which is unital. Unital quantum channels respect the Tasaki-Crooks fluctuation theorem and we demonstrate how this is captured by the thermodynamics of the logical qubit. As an application, we investigate the equilibrium and non-equilibrium thermodynamics of the DQC1 trace estimation algorithm. We show that different computational inputs, i.e. different traces being estimated, lead to different energetic exchanges across the register of qubits and that the temperature of the logical qubit impacts the magnitude of fluctuations experienced and quality of the algorithm.
翻訳日:2023-05-17 00:53:00 公開日:2023-05-15
# 正定距離をもつ非ハーミット系に対する剛ヒルベルト空間アプローチ

Rigged Hilbert Space Approach for Non-Hermite Systems with Positive Definite Metric ( http://arxiv.org/abs/2209.01598v4 )

ライセンス: Link先を確認
Shousuke Ohmori and Junichi Takahashi(参考訳) 正定値計量を持つ非ヘルマイト量子系に対する厳密なヒルベルト空間に基づくディラックのブラケット形式について検討する。 まず、正定値計量によって特徴づけられるリグジットヒルベルト空間が確立される。 得られたヒルベルト空間に対する核スペクトル定理の助けを借りて、準ハーミット作用素の一般化固有ベクトルによってブラケットに対してスペクトル展開が示される。 スペクトル展開は、完全双直交系とヘルマイト系と非ヘルマイト系の間の変換理論に寄与するために用いられる。 応用例として、あるパリティ時間対称量子系に対する厳密なヒルベルト空間処理の具体的記述を示す。

We investigate Dirac's bra-ket formalism based on a rigged Hilbert space for a non-Hermite quantum system with a positive-definite metric. First, the rigged Hilbert space, characterized by positive-definite metric, is established. With the aid of the nuclear spectral theorem for the obtained rigged Hilbert space, spectral expansions are shown for the bra-kets by the generalized eigenvectors of a quasi-Hermite operator. The spectral expansions are utilized to endow the complete bi-orthogonal system and the transformation theory between the Hermite and non-Hermite systems. As an example of application, we show a specific description of our rigged Hilbert space treatment for some parity-time symmetrical quantum systems.
翻訳日:2023-05-17 00:52:33 公開日:2023-05-15
# 退化パラメトリック発振器の閾値における放射統計

Radiation statistics of a degenerate parametric oscillator at threshold ( http://arxiv.org/abs/2208.14886v3 )

ライセンス: Link先を確認
Fabian Hassler, Steven Kim, Lisa Arndt(参考訳) 駆動強度の関数として、縮退パラメトリック発振器は、自発振動が発生する不安定性を示す。 しきい値付近では、非線形性とゆらぎの両方がダイナミクスの正確な記述に不可欠である。 本研究では、縮退パラメトリック発振器が閾値で放射する放射の統計について検討する。 弱非線形性の場合、準古典的記述を用いることができる。 我々は、大きな光子数に対する関連する長期ダイナミクスを捉える普遍的なリウビリアンを同定する。 累積子は非線形性の関数として普遍的なパワーロースケーリングに従う。 ファノ因子は最大クローズを示すが、しきい値と一致しない。 さらに,最初の3つの累積物質の割合は,系の微細な詳細から独立して予測し,その結果を実験用プラットフォームに接続する。

As a function of the driving strength, a degenerate parametric oscillator exhibits an instability at which spontaneous oscillations occur. Close to threshold, both the nonlinearity as well as fluctuations are vital to the accurate description of the dynamics. We study the statistics of the radiation that is emitted by the degenerate parametric oscillator at threshold. For a weak nonlinearity, we can employ a quasiclassical description. We identify a universal Liouvillian that captures the relevant long-time dynamics for large photon-numbers. We find that the cumulants obey a universal power-law scaling as a function of the nonlinearity. The Fano factor shows a maximum close, but not coinciding, with the threshold. Moreover, we predict a certain ratio of the first three cumulants to be independent of the microscopic details of the system and connect the results to experimental platforms.
翻訳日:2023-05-17 00:52:22 公開日:2023-05-15
# StoryTrans: 談話表現とコンテンツエンハンスを備えた非並列ストーリーオーサリング

StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse Representations and Content Enhancing ( http://arxiv.org/abs/2208.13423v2 )

ライセンス: Link先を確認
Xuekai Zhu, Jian Guan, Minlie Huang, Juan Liu(参考訳) 非並列テキストスタイル転送は自然言語生成において重要なタスクである。 しかし,従来の研究では,文章の感情や形式的伝達など,トークンや文のレベルに重点を置いていたが,談話レベルでの長文の移動は無視されていた。 長文は通常、文よりも会話構造のような複雑な著者の言語的嗜好を含む。 本稿では、ソースセマンティクスを維持しつつ、特定の著者スタイルに入力ストーリーを転送する必要があるパラレルストーリーの著者スタイル転送のタスクを定式化する。 この問題に対処するために,対話表現を利用してソースコンテンツ情報をキャプチャし,学習可能なスタイル埋め込みでターゲットスタイルに転送する,StoryTransと呼ばれる生成モデルを提案する。 モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。 さらに,コンテンツの保存性を高めるため,ソーステキストのスタイル固有のキーワードを明示的に生成するマスク・アンド・フィル・フレームワークを設計した。 さらに,このタスクのためのデータセットを中国語と英語でそれぞれ構築した。 大規模な実験により,本モデルはスタイル転送とコンテンツ保存の全体的な性能において,強いベースラインを上回ります。

Non-parallel text style transfer is an important task in natural language generation. However, previous studies concentrate on the token or sentence level, such as sentence sentiment and formality transfer, but neglect long style transfer at the discourse level. Long texts usually involve more complicated author linguistic preferences such as discourse structures than sentences. In this paper, we formulate the task of non-parallel story author-style transfer, which requires transferring an input story into a specified author style while maintaining source semantics. To tackle this problem, we propose a generation model, named StoryTrans, which leverages discourse representations to capture source content information and transfer them to target styles with learnable style embeddings. We use an additional training objective to disentangle stylistic features from the learned discourse representation to prevent the model from degenerating to an auto-encoder. Moreover, to enhance content preservation, we design a mask-and-fill framework to explicitly fuse style-specific keywords of source texts into generation. Furthermore, we constructed new datasets for this task in Chinese and English, respectively. Extensive experiments show that our model outperforms strong baselines in overall performance of style transfer and content preservation.
翻訳日:2023-05-17 00:52:12 公開日:2023-05-15
# 第2量子化における周期固体の量子計算

Quantum Computation for Periodic Solids in Second Quantization ( http://arxiv.org/abs/2210.02403v2 )

ライセンス: Link先を確認
Aleksei V. Ivanov, Christoph S\"underhauf, Nicole Holzmann, Tom Ellaby, Rachel N. Kerber, Glenn Jones, Joan Camps(参考訳) 本研究では,誤差補正量子コンピュータ上での周期固体の基底状態エネルギー計算のための量子アルゴリズムを提案する。 このアルゴリズムは第2量子化におけるスパース量子化アプローチに基づいており、Bloch と Wannier 基底集合のために開発された。 我々は、ワニエ関数がブロッホ関数に関してより少ない計算資源を必要とすることを示す。 (i)ハミルトニアンの l$_1$ のノルムはかなり低い。 (ii)ワニエ関数の変換対称性は、量子コンピュータにロードしなければならない古典的データの量を減らすために利用することができる。 量子アルゴリズムの資源要件はnioやpdoのような周期的固体に対して推定される。 これらの遷移金属酸化物は工業的にその触媒特性に関係している。 200--900のスピン軌道で近似したハミルトンの基底状態エネルギー推定には、Tゲートが必要で、物理誤差レートが0.1\%の3.$10{}^{10}$-$10^{12}$Tゲートと3.$\cdot10^8$$の物理量子ビットが必要である。

In this work, we present a quantum algorithm for ground-state energy calculations of periodic solids on error-corrected quantum computers. The algorithm is based on the sparse qubitization approach in second quantization and developed for Bloch and Wannier basis sets. We show that Wannier functions require less computational resources with respect to Bloch functions because: (i) the L$_1$ norm of the Hamiltonian is considerably lower and (ii) the translational symmetry of Wannier functions can be exploited in order to reduce the amount of classical data that must be loaded into the quantum computer. The resource requirements of the quantum algorithm are estimated for periodic solids such as NiO and PdO. These transition metal oxides are industrially relevant for their catalytic properties. We find that ground-state energy estimation of Hamiltonians approximated using 200--900 spin orbitals requires {\it ca.}~$10{}^{10}$--$10^{12}$ T gates and up to $3\cdot10^8$ physical qubits for a physical error rate of $0.1\%$.
翻訳日:2023-05-17 00:43:50 公開日:2023-05-15
# FusionRetro:再合成計画のためのインコンテキスト反応による分子表現融合

FusionRetro: Molecule Representation Fusion via In-context Reactions for Retrosynthetic Planning ( http://arxiv.org/abs/2209.15315v3 )

ライセンス: Link先を確認
Songtao Liu, Zhengkai Tu, Minkai Xu, Zuobai Zhang, Lu Lin, Rex Ying, Jian Tang, Peilin Zhao, Dinghao Wu(参考訳) 再合成計画(Retrosynthetic Planning)は、材料からターゲット分子への完全な多段階合成経路を考案することを目的としている。 現在の戦略では、単一ステップの逆合成モデルと探索アルゴリズムの分離されたアプローチを用いて、製品のみを入力として各計画ステップの反応を予測し、合成経路に沿った貴重なコンテキスト情報を無視する。 そこで本研究では,文脈情報を利用した新しいフレームワークを提案する。 我々は合成経路を反応グラフとみなし、分子を埋め込みにエンコードし、経路上の情報を集約し、反応物を予測するための読み出しという3つの原理的なステップを通じてコンテキストを組み込むことを提案する。 提案手法は, 逆合成計画にコンテキスト内反応を利用した最初の試みである。 フレームワーク全体はエンドツーエンドの方法で効率的に最適化でき、より実用的で正確な予測ができる。 総合実験により, 経路上のコンテキスト情報を融合することにより, 特に長い合成経路において, ベースライン上での逆合成計画の性能が著しく向上することを示した。 コードはhttps://github.com/SongtaoLiu0823/FusionRetroで公開されている。

Retrosynthetic planning aims to devise a complete multi-step synthetic route from starting materials to a target molecule. Current strategies use a decoupled approach of single-step retrosynthesis models and search algorithms, taking only the product as the input to predict the reactants for each planning step and ignoring valuable context information along the synthetic route. In this work, we propose a novel framework that utilizes context information for improved retrosynthetic planning. We view synthetic routes as reaction graphs and propose to incorporate context through three principled steps: encode molecules into embeddings, aggregate information over routes, and readout to predict reactants. Our approach is the first attempt to utilize in-context reactions for retrosynthetic planning. The entire framework can be efficiently optimized in an end-to-end fashion and produce more practical and accurate predictions. Comprehensive experiments demonstrate that by fusing in the context information over routes, our model significantly improves the performance of retrosynthetic planning over baselines that are not context-aware, especially for long synthetic routes. Code is available at https://github.com/SongtaoLiu0823/FusionRetro.
翻訳日:2023-05-17 00:43:18 公開日:2023-05-15
# モジュールアーキテクチャのための量子LDPC符号

Quantum LDPC Codes for Modular Architectures ( http://arxiv.org/abs/2209.14329v3 )

ライセンス: Link先を確認
Armands Strikis, Lucas Berent(参考訳) 量子コンピュータの規模を拡大するために、モジュラリティは多くの量子コンピューティング技術において中心的な役割を果たす。 フォールトトレランスの観点からすると、アーキテクチャレイアウトから生じる接続性と互換性のある量子誤り訂正符号を設計する必要がある。 本稿では,モジュラーアーキテクチャに適した量子LDPCコードを見て構築する方法を提供することで,このギャップを埋めることを目指している。 古典的もしくは量子LDPC符号に対応して、モジュール内およびモジュール間接続を見ることができる場合、そのハイパーグラフ製品コードは、アーキテクチャ上の接続制約を完全に尊重する。 最後に、モジュール間の接続のツイストを可能にする接続制約を緩和し、より良いパラメータを持つコードを構築する方法を示す。

In efforts to scale the size of quantum computers, modularity plays a central role across most quantum computing technologies. In the light of fault tolerance, this necessitates designing quantum error-correcting codes that are compatible with the connectivity arising from the architectural layouts. In this paper, we aim to bridge this gap by giving a novel way to view and construct quantum LDPC codes tailored for modular architectures. We demonstrate that if the intra- and inter-modular qubit connectivity can be viewed as corresponding to some classical or quantum LDPC codes, then their hypergraph product code fully respects the architectural connectivity constraints. Finally, we show that relaxed connectivity constraints that allow twists of connections between modules pave a way to construct codes with better parameters.
翻訳日:2023-05-17 00:42:40 公開日:2023-05-15
# 多言語ニューラルマシン翻訳のためのスイッチトバックトランスレーションによる多言語合意の双方向改訂

Revamping Multilingual Agreement Bidirectionally via Switched Back-translation for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2209.13940v3 )

ライセンス: Link先を確認
Hongyuan Lu, Haoyang Huang, Shuming Ma, Dongdong Zhang, Furu Wei, Wai Lam(参考訳) マルチリンガル・コンセンサス(MA)がマルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示しているにもかかわらず、この分野の現在の手法には2つの欠点がある。 (i)複数の言語対間の並列データが必要であり、必ずしも現実的ではない。 (ii)合意を曖昧な方向に最適化することは、翻訳性能を阻害する。 我々は,事前学習されたmnmtモデルの微調整のための新しい普遍的多言語合意フレームワークである \textbf{b}idirectional \textbf{m}ultilingual \textbf{a}greement (\textbf{s}witched \textbf{b}ack-\textbf{t}ranslation (\textbf{bma-sbt}) を提案する。 一 翻訳目標を用いて他のソース言語で書かれた合成テキストを作成するスイッチングBTと呼ばれる新しい方法を用いて、上記の並列データの必要性を免除し、 (ii)Kullback-Leibler分散損失と双方向に合意を最適化する。 実験によると、BMA-SBTはTED Talks、News、Europarlの3つのベンチマークでMNMTのタスクの強いベースラインを明らかに改善している。 詳細な分析から,BMA-SBTは従来のBT法に付加的な改善をもたらすことが示された。

Despite the fact that multilingual agreement (MA) has shown its importance for multilingual neural machine translation (MNMT), current methodologies in the field have two shortages: (i) require parallel data between multiple language pairs, which is not always realistic and (ii) optimize the agreement in an ambiguous direction, which hampers the translation performance. We present \textbf{B}idirectional \textbf{M}ultilingual \textbf{A}greement via \textbf{S}witched \textbf{B}ack-\textbf{t}ranslation (\textbf{BMA-SBT}), a novel and universal multilingual agreement framework for fine-tuning pre-trained MNMT models, which (i) exempts the need for aforementioned parallel data by using a novel method called switched BT that creates synthetic text written in another source language using the translation target and (ii) optimizes the agreement bidirectionally with the Kullback-Leibler Divergence loss. Experiments indicate that BMA-SBT clearly improves the strong baselines on the task of MNMT with three benchmarks: TED Talks, News, and Europarl. In-depth analyzes indicate that BMA-SBT brings additive improvements to the conventional BT method.
翻訳日:2023-05-17 00:42:27 公開日:2023-05-15
# 改良型サブシーズン予測のための適応バイアス補正

Adaptive Bias Correction for Improved Subseasonal Forecasting ( http://arxiv.org/abs/2209.10666v3 )

ライセンス: Link先を確認
Soukayna Mouatadid, Paulo Orenstein, Genevieve Flaspohler, Judah Cohen, Miruna Oprescu, Ernest Fraenkel, Lester Mackey(参考訳) 気温と降水量を2~6週間予測する季節的予測は、効果的な水配分、山火事管理、干ばつや洪水の緩和に不可欠だ。 近年の国際研究により、運用力学モデルの季節的能力は向上しているが、温度と降水予測のスキルは乏しいままである。 本稿では,これらの誤りに対処するために,最先端の動的予測と機械学習を用いた観測を組み合わせた適応バイアス補正(ABC)手法を提案する。 また,ヨーロッパ中距離気象予報センター(ecmwf)の先行季節モデルに適用すると,米国における気温予報スキルは60~90%(ベースラインスキル0.18-0.25),降水予報スキルは40~69%(ベースラインスキル0.11-0.15)向上することが示された。 これらの性能改善を実践的なワークフローと組み合わせ、ABCのスキル向上を説明し、特定の気候条件に基づいて高度な機会の窓を特定する。

Subseasonal forecasting -- predicting temperature and precipitation 2 to 6 weeks ahead -- is critical for effective water allocation, wildfire management, and drought and flood mitigation. Recent international research efforts have advanced the subseasonal capabilities of operational dynamical models, yet temperature and precipitation prediction skills remain poor, partly due to stubborn errors in representing atmospheric dynamics and physics inside dynamical models. Here, to counter these errors, we introduce an adaptive bias correction (ABC) method that combines state-of-the-art dynamical forecasts with observations using machine learning. We show that, when applied to the leading subseasonal model from the European Centre for Medium-Range Weather Forecasts (ECMWF), ABC improves temperature forecasting skill by 60-90% (over baseline skills of 0.18-0.25) and precipitation forecasting skill by 40-69% (over baseline skills of 0.11-0.15) in the contiguous U.S. We couple these performance improvements with a practical workflow to explain ABC skill gains and identify higher-skill windows of opportunity based on specific climate conditions.
翻訳日:2023-05-17 00:41:43 公開日:2023-05-15
# スピン探査とエネルギー流体力学への爆発障害

Exploiting disorder to probe spin and energy hydrodynamics ( http://arxiv.org/abs/2209.09322v2 )

ライセンス: Link先を確認
Pai Peng, Bingtian Ye, Norman Y. Yao, Paola Cappellaro(参考訳) 大規模量子プラットフォームにおける顕著な課題は、強力な相互作用を同時に達成し、最も興味深い振る舞いと、それらを探索できるローカルアドレッシングをもたらすことである。 相関相の文脈では、局所アドレッシングにより、システムの順序の性質を直接調査することができる。 一方、平衡外ダイナミクスでは、そのような対処は量子情報の拡散と演算子の成長の研究を可能にする。 そこで本研究では,グローバルコントロールのみへのアクセスにもかかわらず,局所相関関数を単一サイト分解能まで測定できる新しい手法を提案する。 本手法は, 固体スピンアンサンブルに存在する内在性障害を利用して相関関数の非局所成分を脱相する。 このツールセットを利用して、核スピン鎖のスピンとエネルギーの輸送を計測する。 フロッケ工学による相互作用ハミルトニアンのチューニングにより, 弾道流体力学と拡散流体力学のクロスオーバーについて検討した。 興味深いことに、系が相互作用可能かつ(ほぼ)可積分である場合、拡散スピン輸送と弾道エネルギー輸送の共存を観測する。

An outstanding challenge in large-scale quantum platforms is to simultaneously achieve strong interactions, giving rise to the most interesting behaviors, and local addressing -that can probe them. In the context of correlated phases, local addressing enables one to directly probe the nature of the system's order. Meanwhile, for out-ofequilibrium dynamics, such addressing allows the study of quantum information spreading and operator growth. Here, we introduce a novel technique that enables the measurement of local correlation functions, down to single-site resolution, despite access to only global controls. Our approach leverages the intrinsic disorder present in a solid-state spin ensemble to dephase the nonlocal components of the correlation function. Utilizing this toolset, we measure both the spin and energy transport in nuclear spin chains. By tuning the interaction Hamiltonian via Floquet engineering, we investigate the cross-over between ballistic and diffusive hydrodynamics. Interestingly, when the system is both interacting and (nearly-)integrable, we observe the coexistence of diffusive spin transport with ballistic energy transport.
翻訳日:2023-05-17 00:41:19 公開日:2023-05-15
# 深層学習法による角度分解光電子分光の格子構造除去

Removing grid structure in angle-resolved photoemission spectra via deep learning method ( http://arxiv.org/abs/2210.11200v2 )

ライセンス: Link先を確認
Junde Liu, Dongchen Huang, Yi-feng Yang, and Tian Qian(参考訳) 分光データは、しばしば望ましくない外因性信号を含む。 例えば、ALPES実験では、ワイヤメッシュがCCDの前に置かれ、成層光電子を遮断するが、迅速な測定モード中にスペクトルの格子状構造を引き起こす可能性がある。 過去に、この構造は周期構造を消去することで、数学的なフーリエフィルタ法を用いてしばしば取り除かれた。 しかし、この方法は、格子構造が厳密に線形に重畳されていないため、情報の損失とスペクトルの空隙をもたらす可能性がある。 本稿では,この問題を効果的に克服する深層学習手法を提案する。 本手法は,スペクトル内部の自己相関情報を利用して,格子構造とノイズを同時に除去し,スペクトルの品質を大幅に最適化する。 他の外因性シグナルを排除し、スペクトルの自己相関のみに基づくスペクトル品質を高めるため、全ての分光測定に拡張される可能性がある。

Spectroscopic data may often contain unwanted extrinsic signals. For example, in ARPES experiment, a wire mesh is typically placed in front of the CCD to block stray photo-electrons, but could cause a grid-like structure in the spectra during quick measurement mode. In the past, this structure was often removed using the mathematical Fourier filtering method by erasing the periodic structure. However, this method may lead to information loss and vacancies in the spectra because the grid structure is not strictly linearly superimposed. Here, we propose a deep learning method to effectively overcome this problem. Our method takes advantage of the self-correlation information within the spectra themselves and can greatly optimize the quality of the spectra while removing the grid structure and noise simultaneously. It has the potential to be extended to all spectroscopic measurements to eliminate other extrinsic signals and enhance the spectral quality based on the self-correlation of the spectra solely.
翻訳日:2023-05-17 00:35:26 公開日:2023-05-15
# ノイズの多い木データ構造と量子応用

Noisy Tree Data Structures and Quantum Applications ( http://arxiv.org/abs/2210.11197v2 )

ライセンス: Link先を確認
Kamil Khadiev, Nikita Savelyev, Mansur Ziatdinov and Denis Melnikov(参考訳) 本稿では,歩行木と呼ばれるノイズの多いデータ構造を構築する手法を提案する。 赤黒木(Self-Balanced Binary Search Treeの実装)とセグメントツリーに適用する。 これらのデータ構造の操作は、ノイズのない場合(漸近的に)と同等に複雑である。 本稿では,量子アルゴリズムへのデータ構造の適用について述べる。 最後に,文字列ソート問題に対する新しい量子解を提案し,下限を示す。 上と下の境界は、ログ係数まで同じである。 同時に、古典的なものよりも効果的である。

The paper presents a technique for constructing noisy data structures called a walking tree. We apply it for a Red-Black tree (an implementation of a Self-Balanced Binary Search Tree) and a segment tree. We obtain the same complexity of the main operations for these data structures as in the case without noise (asymptotically). We present several applications of the data structures for quantum algorithms. Finally, we suggest new quantum solution for strings sorting problem and show the lower bound. The upper and lower bounds are the same up to a log factor. At the same time, it is more effective than classical counterparts.
翻訳日:2023-05-17 00:35:12 公開日:2023-05-15
# 学習自由深層学習法による分光データデノイズ化

Spectroscopic data de-noising via training-set-free deep learning method ( http://arxiv.org/abs/2210.10494v2 )

ライセンス: Link先を確認
Dongchen Huang, Junde Liu, Tian Qian, and Yi-feng Yang(参考訳) 脱ノイズはスペクトルのポストプロセッシングにおいて重要な役割を果たす。 機械学習に基づく手法は、ノイズの多いデータから本質的な情報を抽出する上で優れた性能を示すが、実実験では通常アクセスできない高品質のトレーニングセットを必要とすることが多い。 そこで本研究では,角度分解光電子分光法(ARPES)のスペクトルを例として,固有スペクトル情報をトレーニングセットなしで抽出する方法を開発した。 この方法はスペクトル自体の自己相関情報を活用することで可能となる。 固有エネルギーバンドの特徴を保存し、さらなる分析と処理を容易にする。 さらに,本手法はトレーニングセットの特定の特性に制限されないため,高品質な多次元トレーニングデータを取得することが困難な他の分野やアプリケーションシナリオにも拡張できる可能性がある。

De-noising plays a crucial role in the post-processing of spectra. Machine learning-based methods show good performance in extracting intrinsic information from noisy data, but often require a high-quality training set that is typically inaccessible in real experimental measurements. Here, using spectra in angle-resolved photoemission spectroscopy (ARPES) as an example, we develop a de-noising method for extracting intrinsic spectral information without the need for a training set. This is possible as our method leverages the self-correlation information of the spectra themselves. It preserves the intrinsic energy band features and thus facilitates further analysis and processing. Moreover, since our method is not limited by specific properties of the training set compared to previous ones, it may well be extended to other fields and application scenarios where obtaining high-quality multidimensional training data is challenging.
翻訳日:2023-05-17 00:35:05 公開日:2023-05-15
# 多粒度不確かさ正規化によるテキストフィードバックによる合成画像検索

Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization ( http://arxiv.org/abs/2211.07394v4 )

ライセンス: Link先を確認
Yiyang Chen, Zhedong Zheng, Wei Ji, Leigang Qu, Tat-Seng Chua(参考訳) テキストフィードバックによる合成画像検索について検討した。 ユーザは、粗いフィードバックから細かいフィードバックに移行することで、徐々に関心の対象を探します。 しかし、既存の方法は、訓練中に正のペアと負のペアを利用することで、後者、すなわちきめ細かい検索にのみ焦点を合わせている。 このペアベースのパラダイムは、一対の特定点間の一対一の距離のみを考慮し、一対一の粗い粗い検索プロセスと一致せず、リコール率を損なう。 このギャップを埋めるために,多粒度不確かさを考慮し,粗粒検索と細粒検索を同時にモデル化する統一学習手法を提案する。 提案手法を基盤とするキーアイデアは,データポイントと小変動点,大変動点のマッチングとして,細粒度検索と粗粒度検索を統合することである。 具体的には、不確実性モデリングと不確実性正規化の2つのモジュールを含む。 1)不確実性モデリングは,特徴空間に同一の分散変動を導入することで,多粒度クエリをシミュレートする。 2) 不確実性モデリングに基づいて,変動範囲に応じて一致目標を適応させる不確実性正規化を導入する。 既存の手法と比較すると,提案手法では,モデルが早期に潜在的な候補を追い払うことを明示的に防止し,リコール率を向上させる。 公開データセットである \ie, fashioniq, fashion200k, shoes では,提案手法はそれぞれ,強いベースラインに対して +4.03%, + 3.38%, + 2.40% recall@50 の精度を達成している。

We investigate composed image retrieval with text feedback. Users gradually look for the target of interest by moving from coarse to fine-grained feedback. However, existing methods merely focus on the latter, i.e., fine-grained search, by harnessing positive and negative pairs during training. This pair-based paradigm only considers the one-to-one distance between a pair of specific points, which is not aligned with the one-to-many coarse-grained retrieval process and compromises the recall rate. In an attempt to fill this gap, we introduce a unified learning approach to simultaneously modeling the coarse- and fine-grained retrieval by considering the multi-grained uncertainty. The key idea underpinning the proposed method is to integrate fine- and coarse-grained retrieval as matching data points with small and large fluctuations, respectively. Specifically, our method contains two modules: uncertainty modeling and uncertainty regularization. (1) The uncertainty modeling simulates the multi-grained queries by introducing identically distributed fluctuations in the feature space. (2) Based on the uncertainty modeling, we further introduce uncertainty regularization to adapt the matching objective according to the fluctuation range. Compared with existing methods, the proposed strategy explicitly prevents the model from pushing away potential candidates in the early stage and thus improves the recall rate. On the three public datasets, \ie, FashionIQ, Fashion200k, and Shoes, the proposed method has achieved +4.03%, + 3.38%, and + 2.40% Recall@50 accuracy over a strong baseline, respectively.
翻訳日:2023-05-17 00:26:09 公開日:2023-05-15
# マクロスピン系における単一マグノンの量子制御

Quantum control of a single magnon in a macroscopic spin system ( http://arxiv.org/abs/2211.06644v2 )

ライセンス: Link先を確認
Da Xu, Xu-Ke Gu, He-Kang Li, Yuan-Chao Weng, Yi-Pu Wang, Jie Li, H. Wang, Shi-Yao Zhu, J. Q. You(参考訳) 古典的でない量子状態は、古典的なものとは異なる量子系の重要な特徴である。 しかし、マクロスピン系における量子状態の生成とコヒーレント制御は依然として顕著な課題である。 ここでは、マイクロ波空洞を介して超伝導量子ビットに結合した1~mmメートルのイットリウム-鉄-ガーネット球体における単一マグノンの量子制御を実験的に実証する。 Autler-Townes効果を介して量子ビット周波数 {\it in situ} をチューニングすることにより、単一マグノンと真空の重畳状態を含む古典的でない量子状態を生成するために、この単一のマグノンを操作する。 さらに,Wignerトモグラフィーによる非古典的状態の決定論的生成を確認した。 我々の実験は、マクロスピン系における非古典的量子状態の決定論的生成を初めて報告し、量子工学におけるその有望な応用を探求する方法を提供する。

Non-classical quantum states are the pivotal features of a quantum system that differs from its classical counterpart. However, the generation and coherent control of quantum states in a macroscopic spin system remain an outstanding challenge. Here we experimentally demonstrate the quantum control of a single magnon in a macroscopic spin system (i.e., 1~mm-diameter yttrium-iron-garnet sphere) coupled to a superconducting qubit via a microwave cavity. By tuning the qubit frequency {\it in situ} via the Autler-Townes effect, we manipulate this single magnon to generate its non-classical quantum states, including the single-magnon state and the superposition state of a single magnon and vacuum. Moreover, we confirm the deterministic generation of these non-classical states by Wigner tomography. Our experiment offers the first reported deterministic generation of the non-classical quantum states in a macroscopic spin system and paves a way to explore its promising applications in quantum engineering.
翻訳日:2023-05-17 00:25:41 公開日:2023-05-15
# 自律船の時空間リカレント強化学習

Spatial-temporal recurrent reinforcement learning for autonomous ships ( http://arxiv.org/abs/2211.01004v2 )

ライセンス: Link先を確認
Martin Waltz and Ostap Okhrin(参考訳) 本稿では,自律船の操縦に使用できる深層Q$-networksのための時空間リカレントニューラルネットワークアーキテクチャを提案する。 ネットワーク設計により、任意の数の標的船を処理でき、部分的観測性に堅牢性を提供することができる。 さらに, エージェントによる異なる状況の簡易評価を可能にするため, 最先端の衝突リスク指標を提案する。 海上交通のCOLREG規則は、報酬関数の設計において明確に考慮されている。 最終的な方針は、'around the clock'問題と呼ばれる、新たに作られた18のマルチシップシナリオを含む、一般的な今津問題(1987年)のカスタムセットで検証される。 人工電位場と速度障害物法による性能比較は,海洋経路計画における提案手法の可能性を示している。 さらに、新しいアーキテクチャはマルチエージェントシナリオにデプロイされた場合の堅牢性を示し、アクタークリティカルなフレームワークを含む他の深層強化学習アルゴリズムと互換性がある。

This paper proposes a spatial-temporal recurrent neural network architecture for deep $Q$-networks that can be used to steer an autonomous ship. The network design makes it possible to handle an arbitrary number of surrounding target ships while offering robustness to partial observability. Furthermore, a state-of-the-art collision risk metric is proposed to enable an easier assessment of different situations by the agent. The COLREG rules of maritime traffic are explicitly considered in the design of the reward function. The final policy is validated on a custom set of newly created single-ship encounters called `Around the Clock' problems and the commonly used Imazu (1987) problems, which include 18 multi-ship scenarios. Performance comparisons with artificial potential field and velocity obstacle methods demonstrate the potential of the proposed approach for maritime path planning. Furthermore, the new architecture exhibits robustness when it is deployed in multi-agent scenarios and it is compatible with other deep reinforcement learning algorithms, including actor-critic frameworks.
翻訳日:2023-05-17 00:24:41 公開日:2023-05-15
# 深層強化学習を用いた適応型大近所探索のオンライン制御

Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning ( http://arxiv.org/abs/2211.00759v2 )

ライセンス: Link先を確認
Robbert Reijnen, Yingqian Zhang, Hoong Chuin Lau, Zaharah Bukhsh(参考訳) Adaptive Large Neighborhood Search (ALNS)アルゴリズムは複雑な組合せ最適化問題(COP)の解法においてかなりの成功を収めている。 ALNSは探索過程で様々なヒューリスティックを適応的に選択し、その強みを活用して最適化問題の優れた解を求める。 しかし,alnの有効性は選択パラメータと受け入れパラメータの適切な構成に依存する。 この制限に対処するために、ヒューリスティックスを選択し、パラメータを調整し、検索プロセス中の受け入れ基準を制御できるDeep Reinforcement Learning (DRL)アプローチを提案する。 提案手法は,探索の状況に基づいて,ALNSの次回のイテレーションを設定し,基礎となる最適化問題に対する優れた解を得る方法を学ぶことを目的としている。 ijcaiコンペティションにおいて,確率的重みと時間窓を用いた時間依存型オリエンテーリング問題に対する提案手法を評価した。 その結果,本手法はベイジアン最適化によりバニラALNSおよびALNSより優れていた。 さらに、競争の勝利方法である2つの最先端drlアプローチよりも優れた解を得たが、トレーニングに必要な観察ははるかに少ない。 我々のアプローチの実装は公開される予定だ。

The Adaptive Large Neighborhood Search (ALNS) algorithm has shown considerable success in solving complex combinatorial optimization problems (COPs). ALNS selects various heuristics adaptively during the search process, leveraging their strengths to find good solutions for optimization problems. However, the effectiveness of ALNS depends on the proper configuration of its selection and acceptance parameters. To address this limitation, we propose a Deep Reinforcement Learning (DRL) approach that selects heuristics, adjusts parameters, and controls the acceptance criteria during the search process. The proposed method aims to learn, based on the state of the search, how to configure the next iteration of the ALNS to obtain good solutions to the underlying optimization problem. We evaluate the proposed method on a time-dependent orienteering problem with stochastic weights and time windows, used in an IJCAI competition. The results show that our approach outperforms vanilla ALNS and ALNS tuned with Bayesian Optimization. In addition, it obtained better solutions than two state-of-the-art DRL approaches, which are the winning methods of the competition, with much fewer observations required for training. The implementation of our approach will be made publicly available.
翻訳日:2023-05-17 00:24:26 公開日:2023-05-15
# ハイブリッドスパムメール検出のための遅発型マルチモーダル融合モデル

A Late Multi-Modal Fusion Model for Detecting Hybrid Spam E-mail ( http://arxiv.org/abs/2210.14616v4 )

ライセンス: Link先を確認
Zhibo Zhang, Ernesto Damiani, Hussam Al Hamadi, Chan Yeob Yeun, Fatma Taher(参考訳) 近年、スパマーは、画像とテキストの両方を組み合わせたハイブリッドスパムメールを導入して、その意図を難読化しようとしている。 この研究の動機は、従来のテキストベースやイメージベースのみのフィルタがハイブリッドスパム電子メールを検出できない状況を避けるために、ハイブリッドスパム電子メールをフィルタリングする効果的なアプローチを設計することにある。 私たちの知る限りでは、ハイブリッドスパムメールの検出を目標とした研究がいくつか行われている。 通常、光学文字認識(OCR)技術は、画像からテキストに変換することでスパムのイメージ部分を除去するために用いられる。 しかし、OCRスキャンはテキストと画像のハイブリッドスパム処理において非常に成功した手法であるが、CPUパワーと電子メールファイルをスキャンするのに要する実行時間により、膨大な量の処理に有効な解決策ではない。 また、OCR技術は変換プロセスにおいて常に信頼できるとは限らない。 このような問題に対処するために,ocr法に基づく従来の早期融合検出フレームワークと比較して,テキスト・画像ハイブリッドスパム電子メールフィルタリングシステムのための新しい遅発型マルチモーダル融合学習フレームワークを提案する。 合成ニューラルネットワーク(cnn)と単語の連続袋を,ハイブリッドスパムのイメージ部分とテキスト部分からそれぞれ抽出し,生成した特徴をランダムフォレスト(rf),決定木(dt),ナイーブベイズ(nb),サポートベクターマシン(svm)などのsgmoid層と機械学習に基づく分類器に供給し,電子メールハムやスパムを判定した。

In recent years, spammers are now trying to obfuscate their intents by introducing hybrid spam e-mail combining both image and text parts, which is more challenging to detect in comparison to e-mails containing text or image only. The motivation behind this research is to design an effective approach filtering out hybrid spam e-mails to avoid situations where traditional text-based or image-baesd only filters fail to detect hybrid spam e-mails. To the best of our knowledge, a few studies have been conducted with the goal of detecting hybrid spam e-mails. Ordinarily, Optical Character Recognition (OCR) technology is used to eliminate the image parts of spam by transforming images into text. However, the research questions are that although OCR scanning is a very successful technique in processing text-and-image hybrid spam, it is not an effective solution for dealing with huge quantities due to the CPU power required and the execution time it takes to scan e-mail files. And the OCR techniques are not always reliable in the transformation processes. To address such problems, we propose new late multi-modal fusion training frameworks for a text-and-image hybrid spam e-mail filtering system compared to the classical early fusion detection frameworks based on the OCR method. Convolutional Neural Network (CNN) and Continuous Bag of Words were implemented to extract features from image and text parts of hybrid spam respectively, whereas generated features were fed to sigmoid layer and Machine Learning based classifiers including Random Forest (RF), Decision Tree (DT), Naive Bayes (NB) and Support Vector Machine (SVM) to determine the e-mail ham or spam.
翻訳日:2023-05-17 00:24:07 公開日:2023-05-15
# リアルタイム車載LiDAR知覚のための点雲のディープラーニング表現の解析

Analyzing Deep Learning Representations of Point Clouds for Real-Time In-Vehicle LiDAR Perception ( http://arxiv.org/abs/2210.14612v3 )

ライセンス: Link先を確認
Marc Uecker and Tobias Fleck and Marcel Pflugfelder and J. Marius Z\"ollner(参考訳) LiDARセンサーは、車両の周囲の正確な高解像度の3D表現を提供するため、現代の自動運転車の不可欠な部分である。 しかし、複数の高分解能LiDARセンサからのデータ量の増加は計算的に困難である。 フレームレート、ポイントクラウドサイズ、センサー解像度が増加するにつれて、これらのポイントクラウドのリアルタイム処理は、車両環境のこのますます精密な図から意味を抽出する必要がある。 これらのポイントクラウドで動作するディープニューラルネットワークのランタイムパフォーマンスと精度の決定要因の1つは、基盤となるデータ表現とその計算方法である。 本研究では,ニューラルネットワークで使用される計算表現と,その性能特性との関係について検討する。 そこで本研究では,現代の深層ニューラルネットワークにおける3次元クラウド処理に使用されるLiDAR点クラウド表現の新しい計算分類法を提案する。 この分類法を用いて、異なる種類のアプローチを構造化解析する。 これにより,計算効率,メモリ要件,表現能力といった共通する利点と限界を,意味セグメンテーション性能で測定した。 最後に、ニューラルポイントクラウド処理手法の今後の発展に関する洞察とガイダンスを提供する。

LiDAR sensors are an integral part of modern autonomous vehicles as they provide an accurate, high-resolution 3D representation of the vehicle's surroundings. However, it is computationally difficult to make use of the ever-increasing amounts of data from multiple high-resolution LiDAR sensors. As frame-rates, point cloud sizes and sensor resolutions increase, real-time processing of these point clouds must still extract semantics from this increasingly precise picture of the vehicle's environment. One deciding factor of the run-time performance and accuracy of deep neural networks operating on these point clouds is the underlying data representation and the way it is computed. In this work, we examine the relationship between the computational representations used in neural networks and their performance characteristics. To this end, we propose a novel computational taxonomy of LiDAR point cloud representations used in modern deep neural networks for 3D point cloud processing. Using this taxonomy, we perform a structured analysis of different families of approaches. Thereby, we uncover common advantages and limitations in terms of computational efficiency, memory requirements, and representational capacity as measured by semantic segmentation performance. Finally, we provide some insights and guidance for future developments in neural point cloud processing methods.
翻訳日:2023-05-17 00:23:30 公開日:2023-05-15
# 拡散モデルディープフェイクの検出に向けて

Towards the Detection of Diffusion Model Deepfakes ( http://arxiv.org/abs/2210.14571v3 )

ライセンス: Link先を確認
Jonas Ricker, Simon Damm, Thorsten Holz, Asja Fischer(参考訳) 拡散モデル(dms)は画像合成において有望な方法として最近登場した。 しかし, DM生成画像の検出にはほとんど注意が払われていないため, 社会に悪影響を及ぼすおそれがある。 本稿では,この課題を2つの異なる角度から解決する。第1に,様々なdm上でgans(generative adversarial networks)が生成する画像に対して非常に効果的である最先端検出器の性能を評価する。 次に,dm生成画像を周波数領域で解析し,スペクトル特性に影響を与える要因について検討する。 最も重要なことは、ganとdmが異なる特性を持つ画像を生成することを示し、信頼性の高い検出のために既存の分類器を適応する必要がある。 本研究がDM生成画像の有効検出に関するさらなる研究の基盤と出発点となると確信している。

Diffusion models (DMs) have recently emerged as a promising method in image synthesis. However, to date, only little attention has been paid to the detection of DM-generated images, which is critical to prevent adverse impacts on our society. In this work, we address this pressing challenge from two different angles: First, we evaluate the performance of state-of-the-art detectors, which are very effective against images generated by generative adversarial networks (GANs), on a variety of DMs. Second, we analyze DM-generated images in the frequency domain and study different factors that influence the spectral properties of these images. Most importantly, we demonstrate that GANs and DMs produce images with different characteristics, which requires adaptation of existing classifiers to ensure reliable detection. We are convinced that this work provides the foundation and starting point for further research on effective detection of DM-generated images.
翻訳日:2023-05-17 00:23:02 公開日:2023-05-15
# 線形クラスタ状態からのGHZ状態の抽出

Extracting GHZ states from linear cluster states ( http://arxiv.org/abs/2211.16758v3 )

ライセンス: Link先を確認
Jarn de Jong, Frederik Hahn, Nikolay Tcholtchev, Manfred Hauswirth, and Anna Pappa(参考訳) 量子情報処理アーキテクチャは通常、最寄りの絡み合いの生成しかできない。 多くの場合、これは多くの通信や計算タスクに一般的に使用されるGHZ状態の直接生成を妨げる。 ここでは、直列に接続されたネットワーク内のノード間でGHZ状態を取得する方法を示す。 我々は、GHZ状態を共有するノードの集合のサイズに対して、厳密な上限である$\lfloor (n+3)/2 \rfloor$を証明し、局所クリフォードユニタリー、局所パウリ測定、古典的通信を用いて、$n$ qubitsの線形クラスタ状態から得ることができる。 さらに、この設定で得られたghz状態を共有することができるしきい値以下のノードの全ての選択を完全に特徴付ける。 最後に、これらの変換をIBMQ Montreal量子デバイス上で、最大$n=19$ qubitsの線形クラスタ状態に対して示す。

Quantum information processing architectures typically only allow for nearest-neighbour entanglement creation. In many cases, this prevents the direct generation of GHZ states, which are commonly used for many communication and computation tasks. Here, we show how to obtain GHZ states between nodes in a network that are connected in a straight line, naturally allowing them to initially share linear cluster states. We prove a strict upper bound of $\lfloor (n+3)/2 \rfloor$ on the size of the set of nodes sharing a GHZ state that can be obtained from a linear cluster state of $n$ qubits, using local Clifford unitaries, local Pauli measurements, and classical communication. Furthermore, we completely characterize all selections of nodes below this threshold that can share a GHZ state obtained within this setting. Finally, we demonstrate these transformations on the IBMQ Montreal quantum device for linear cluster states of up to $n=19$ qubits.
翻訳日:2023-05-17 00:16:22 公開日:2023-05-15
# ロボットシステムの学習と制御のためのリー群強制変分積分器ネットワーク

Lie Group Forced Variational Integrator Networks for Learning and Control of Robot Systems ( http://arxiv.org/abs/2211.16006v4 )

ライセンス: Link先を確認
Valentin Duruisseaux, Thai Duong, Melvin Leok, Nikolay Atanasov(参考訳) 物理法則の事前知識と力学系の構造特性をディープラーニングアーキテクチャの設計に組み込むことは、計算効率と一般化能力を向上させるための強力な技術であることが証明されている。 ロボットダイナミクスの正確なモデルを学ぶことは、安全で安定した制御に不可欠である。 車輪、空中、水中の車両を含む自律移動ロボットは、行列リー群上で進化するラグランジアンまたはハミルトン剛体系としてモデル化することができる。 本稿では,新しい構造保存型ディープラーニングアーキテクチャであるlie群強制変分積分器ネットワーク(liefvin)について紹介する。 設計上、リーフヴィンは力学が発展するリー群構造とハミルトンやラグランジアン系の基礎となるシンプレクティック構造の両方を保存している。 提案アーキテクチャでは,ベクトル場に必要な数値積分器,ニューラル-ODE,随伴手法を使わずに高精度かつ高速な予測が可能な離散時間フローマップの代理学習を行う。 さらに、学習した離散時間ダイナミクスは、計算にスケーラブルな離散時間(最適)制御戦略で利用することができる。

Incorporating prior knowledge of physics laws and structural properties of dynamical systems into the design of deep learning architectures has proven to be a powerful technique for improving their computational efficiency and generalization capacity. Learning accurate models of robot dynamics is critical for safe and stable control. Autonomous mobile robots, including wheeled, aerial, and underwater vehicles, can be modeled as controlled Lagrangian or Hamiltonian rigid-body systems evolving on matrix Lie groups. In this paper, we introduce a new structure-preserving deep learning architecture, the Lie group Forced Variational Integrator Network (LieFVIN), capable of learning controlled Lagrangian or Hamiltonian dynamics on Lie groups, either from position-velocity or position-only data. By design, LieFVINs preserve both the Lie group structure on which the dynamics evolve and the symplectic structure underlying the Hamiltonian or Lagrangian systems of interest. The proposed architecture learns surrogate discrete-time flow maps allowing accurate and fast prediction without numerical-integrator, neural-ODE, or adjoint techniques, which are needed for vector fields. Furthermore, the learnt discrete-time dynamics can be utilized with computationally scalable discrete-time (optimal) control strategies.
翻訳日:2023-05-17 00:15:45 公開日:2023-05-15
# 強結合光機械系における量子場ゆらぎのスペクトル解析

Spectral Analysis of Quantum Field Fluctuations in a Strongly Coupled Optomechanical System ( http://arxiv.org/abs/2211.14168v2 )

ライセンス: Link先を確認
A. Ranfagni, F. Marino and F. Marin(参考訳) 強固でコヒーレントな量子光学結合系におけるレビトダイナミックス実験により、発振器が広帯域量子スペクトル分析器として働くことを実証する。 変位スペクトルにおける正の周波数分岐と負の周波数分岐の間の非対称性は、キャビティ場の量子揺らぎのスペクトル特性をトレースし、広いスペクトル範囲で探索する。 さらに, 2次元力学系では, 真空揺らぎによって生じる量子バックアクションは, 全体感受性の破壊的干渉により, 狭いスペクトル領域において強く抑制される。

With a levitodynamics experiment in the strong and coherent quantum optomechanical coupling regime, we demonstrate that the oscillator acts as a broadband quantum spectrum analyzer. The asymmetry between positive and negative frequency branches in the displacement spectrum traces out the spectral features of the quantum fluctuations in the cavity field, which are thus explored over a wide spectral range. Moreover, in our two-dimensional mechanical system the quantum back-action, generated by such vacuum fluctuations, is strongly suppressed in a narrow spectral region due to a destructive interference in the overall susceptibility.
翻訳日:2023-05-17 00:15:23 公開日:2023-05-15
# sllen: 意味認識による低光度画像強調ネットワーク

SLLEN: Semantic-aware Low-light Image Enhancement Network ( http://arxiv.org/abs/2211.11571v2 )

ライセンス: Link先を確認
Mingye Ju, Chuheng Chen, Charles A. Guo, Jinshan Pan, Jinhui Tang, and Dacheng Tao(参考訳) 低照度画像強調(LLE)には,意味的特徴を効果的に探索する方法が不可欠である。 既存の手法は通常、高レベルセマンティックセグメンテーション(ss)ネットワークによって生成された出力からのみ引き出される意味的特徴を利用する。 しかし、出力が正確に推定されていない場合、LLEに干渉するハイレベルセマンティック特徴抽出(HSF)に影響を与える。 そこで我々は,LLE主ネットワーク (LLEmN) とSS補助ネットワーク (SSaN) を組み合わせた,シンプルで効果的な意味認識型LLEネットワーク (SSLEN) を開発した。 SLLENでは、LLEmNはランダム中間埋め込み機能(IEF)、すなわちSSaNの中間層から抽出された情報を、HSFと共に統合されたフレームワークに統合してLLEを改善する。 SSaN は HSF と IEF を提供する SS ロールとして機能するように設計されている。 さらに,LLEmNとSSaNの共有エンコーダにより,両者の協調を促進するための交互学習機構も提案する。 現在入手可能なアプローチとは異なり、提案されているSLLENは、IEF、HSF、SSデータセットなどのセマンティック情報を完全なレバーでLLEを支援することで、より有望なパフォーマンス向上を実現している。 提案したSLLENと他の最先端技術との比較は、SLLENのLLE品質に対する優位性を示している。

How to effectively explore semantic feature is vital for low-light image enhancement (LLE). Existing methods usually utilize the semantic feature that is only drawn from the output produced by high-level semantic segmentation (SS) network. However, if the output is not accurately estimated, it would affect the high-level semantic feature (HSF) extraction, which accordingly interferes with LLE. To this end, we develop a simple and effective semantic-aware LLE network (SSLEN) composed of a LLE main-network (LLEmN) and a SS auxiliary-network (SSaN). In SLLEN, LLEmN integrates the random intermediate embedding feature (IEF), i.e., the information extracted from the intermediate layer of SSaN, together with the HSF into a unified framework for better LLE. SSaN is designed to act as a SS role to provide HSF and IEF. Moreover, thanks to a shared encoder between LLEmN and SSaN, we further propose an alternating training mechanism to facilitate the collaboration between them. Unlike currently available approaches, the proposed SLLEN is able to fully lever the semantic information, e.g., IEF, HSF, and SS dataset, to assist LLE, thereby leading to a more promising enhancement performance. Comparisons between the proposed SLLEN and other state-of-the-art techniques demonstrate the superiority of SLLEN with respect to LLE quality over all the comparable alternatives.
翻訳日:2023-05-17 00:14:53 公開日:2023-05-15
# 畳み込みガウスニューラルプロセスを用いた環境センサ配置

Environmental Sensor Placement with Convolutional Gaussian Neural Processes ( http://arxiv.org/abs/2211.10381v5 )

ライセンス: Link先を確認
Tom R. Andersson, Wessel P. Bruinsma, Stratis Markou, James Requeima, Alejandro Coca-Castro, Anna Vaughan, Anna-Louise Ellis, Matthew A. Lazzara, Dani Jones, J. Scott Hosking, Richard E. Turner(参考訳) 環境センサーは、気象状況や気候変動の影響を監視するために不可欠である。 しかし、特に南極のような遠隔地において、センサを計測のインフォメーションを最大化する方法で配置することは困難である。 確率的機械学習モデルは、予測の不確かさを最大に低減するサイトを見つけることによって、有益なセンサ配置を提案することができる。 gaussian process (gp)モデルはこの目的のために広く使われているが、複雑な非定常動作のキャプチャや大規模データセットへのスケーリングに苦労している。 本稿では,畳み込みガウス過程(convolutional gaussian neural process, convgnp)を用いてこの問題に対処する。 convgnpはニューラルネットワークを使用して、任意のターゲットロケーションでのジョイントガウス分布をパラメータ化し、柔軟性とスケーラビリティを実現する。 南極上空の模擬表面温度異常をトレーニングデータとして、ConvGNPは空間的および季節的な非定常性を学び、非定常GPベースラインを上回った。 シミュレーションされたセンサ配置実験において、ConvGNPはGPベースラインよりも新しい観測から得られる性能向上を予測し、より情報的なセンサー配置をもたらす。 本手法と物理ベースのセンサ配置手法を対比し, センサ配置レコメンデーションシステムに向けた今後のステップを提案する。 私たちの研究は、現実のデジタル表現を改善するために、積極的に測定サンプリングを行う環境デジタル双子の実現に役立ちます。

Environmental sensors are crucial for monitoring weather conditions and the impacts of climate change. However, it is challenging to place sensors in a way that maximises the informativeness of their measurements, particularly in remote regions like Antarctica. Probabilistic machine learning models can suggest informative sensor placements by finding sites that maximally reduce prediction uncertainty. Gaussian process (GP) models are widely used for this purpose, but they struggle with capturing complex non-stationary behaviour and scaling to large datasets. This paper proposes using a convolutional Gaussian neural process (ConvGNP) to address these issues. A ConvGNP uses neural networks to parameterise a joint Gaussian distribution at arbitrary target locations, enabling flexibility and scalability. Using simulated surface air temperature anomaly over Antarctica as training data, the ConvGNP learns spatial and seasonal non-stationarities, outperforming a non-stationary GP baseline. In a simulated sensor placement experiment, the ConvGNP better predicts the performance boost obtained from new observations than GP baselines, leading to more informative sensor placements. We contrast our approach with physics-based sensor placement methods and propose future steps towards an operational sensor placement recommendation system. Our work could help to realise environmental digital twins that actively direct measurement sampling to improve the digital representation of reality.
翻訳日:2023-05-17 00:14:16 公開日:2023-05-15
# 複素ガウス混合モデルを用いた深部音声強調の不確かさ推定

Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture Models ( http://arxiv.org/abs/2212.04831v2 )

ライセンス: Link先を確認
Huajian Fang and Timo Gerkmann(参考訳) 単一チャンネルのディープ音声強調手法は、その精度を測らずにクリーン音声を抽出するために単一の乗法マスクを推定することが多い。 そこで本研究では,ニューラルネットワークによる音声強調におけるクリーン音声推定に関する不確実性を定量化する。 予測の不確実性は、典型的にはアレタリック不確実性とてんかん不確実性に分類される。 前者はデータに固有の不確実性を示し、後者はモデルの不確実性に対応する。 頑健なクリーン音声推定と効率的な予測不確実性定量化を目的として,統計複素ガウス混合モデル(CGMM)を深層音声強調フレームワークに統合することを提案する。 具体的には、条件付き確率密度を用いて入力と出力の依存関係を確率的にモデル化し、複数の複合ガウス成分の混合としてモデル化されたクリーン音声の完全後部分布に雑音入力をマッピングするようにニューラルネットワークを訓練する。 異なるデータセットに対する実験結果から,提案アルゴリズムは予測の不確かさを効果的に把握し,強力な統計モデルと深層学習を組み合わせることにより,優れた音声強調性能が得られることが示された。

Single-channel deep speech enhancement approaches often estimate a single multiplicative mask to extract clean speech without a measure of its accuracy. Instead, in this work, we propose to quantify the uncertainty associated with clean speech estimates in neural network-based speech enhancement. Predictive uncertainty is typically categorized into aleatoric uncertainty and epistemic uncertainty. The former accounts for the inherent uncertainty in data and the latter corresponds to the model uncertainty. Aiming for robust clean speech estimation and efficient predictive uncertainty quantification, we propose to integrate statistical complex Gaussian mixture models (CGMMs) into a deep speech enhancement framework. More specifically, we model the dependency between input and output stochastically by means of a conditional probability density and train a neural network to map the noisy input to the full posterior distribution of clean speech, modeled as a mixture of multiple complex Gaussian components. Experimental results on different datasets show that the proposed algorithm effectively captures predictive uncertainty and that combining powerful statistical models and deep learning also delivers a superior speech enhancement performance.
翻訳日:2023-05-17 00:06:46 公開日:2023-05-15
# MoFusion: Denoising-Diffusion-based Motion Synthesisのためのフレームワーク

MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis ( http://arxiv.org/abs/2212.04495v2 )

ライセンス: Link先を確認
Rishabh Dabral and Muhammad Hamza Mughal and Vladislav Golyanik and Christian Theobalt(参考訳) 従来の人間の運動合成法は決定論的か、あるいは運動の多様性と運動の質のトレードオフに苦しむ。 これらの制約に対応するために,様々な条件付けの文脈(音楽やテキストなど)に基づいて,長時間,時間的,意味的に正確な動きを生成可能な,高品質な条件付きヒューマンモーション合成のための新しいデノイズ・ディフフュージョンベースのフレームワークであるmofusionを導入する。 また, 運動拡散フレームワークにおける運動可能性について, 計画的な重み付け戦略を通じて, よく知られた運動的損失を導入する方法を提案する。 学習された潜在性空間は、インタクション、シードコンディショニング、テキストベースの編集など、いくつかのインタラクティブなモーション編集アプリケーションで使用できるため、仮想キャラクタアニメーションとロボティクスに不可欠な能力を提供する。 包括的定量的評価と知覚的ユーザ調査を通じて,本論文の確立したベンチマークにおけるmofusionの有効性を比較検討した。 我々は、読者に私たちの補足ビデオを見て、https://vcai.mpi-inf.mpg.de/projects/MoFusion.comを訪れるように促します。

Conventional methods for human motion synthesis are either deterministic or struggle with the trade-off between motion diversity and motion quality. In response to these limitations, we introduce MoFusion, i.e., a new denoising-diffusion-based framework for high-quality conditional human motion synthesis that can generate long, temporally plausible, and semantically accurate motions based on a range of conditioning contexts (such as music and text). We also present ways to introduce well-known kinematic losses for motion plausibility within the motion diffusion framework through our scheduled weighting strategy. The learned latent space can be used for several interactive motion editing applications -- like inbetweening, seed conditioning, and text-based editing -- thus, providing crucial abilities for virtual character animation and robotics. Through comprehensive quantitative evaluations and a perceptual user study, we demonstrate the effectiveness of MoFusion compared to the state of the art on established benchmarks in the literature. We urge the reader to watch our supplementary video and visit https://vcai.mpi-inf.mpg.de/projects/MoFusion.
翻訳日:2023-05-17 00:06:26 公開日:2023-05-15
# 連続学習の統計力学--変動原理と平均場ポテンシャル

Statistical mechanics of continual learning: variational principle and mean-field potential ( http://arxiv.org/abs/2212.02846v3 )

ライセンス: Link先を確認
Chan Li and Zhenye Huang and Wenxuan Zou and Haiping Huang(参考訳) 人工知能への障害は、異なる性質の複数のタスクの継続的な学習によって設定される。 近年、機械学習と神経科学のアングルの両方から様々なヒューリスティックなトリックが提案されているが、それらは統一された理論基盤を欠いている。 本稿では,重み付き単層および多層ニューラルネットワークにおける連続学習に着目した。 そこで, ニューラルネットワークは, 勾配が定義する離散重み空間ではなく, フィールド空間で訓練され, さらに, 重みの不確かさが自然に組み込まれ, タスク間のシナプス資源を調節する, 変分ベイズ学習環境を提案する。 物理学的な観点からは、変分連続学習をフランツ・パリシ熱力学ポテンシャルフレームワークに翻訳し、そこでは以前のタスク知識が事前および参照としても作用する。 そこで我々は、Franz-Parisiポテンシャル計算として教師-学生設定における二項パーセプトロンの連続学習を解釈する。 学習性能は平均場次数パラメータを用いて解析的に研究でき、その予測は確率的勾配降下法を用いて数値実験と一致する。 また,隠れた層における内部前活性化の変動原理とガウス場近似に基づいて,重みの不確かさを考慮した学習アルゴリズムを導出する。 提案する原理的フレームワークは弾性重み強化にもつながり,神経科学はメタ塑性に触発され,深層ネットワークを用いた実世界のマルチタスク学習に理論に基づく手法を提供する。

An obstacle to artificial general intelligence is set by the continual learning of multiple tasks of different nature. Recently, various heuristic tricks, both from machine learning and from neuroscience angles, were proposed, but they lack a unified theory ground. Here, we focus on the continual learning in single-layered and multi-layered neural networks of binary weights. A variational Bayesian learning setting is thus proposed, where the neural network is trained in a field-space, rather than the gradient-ill-defined discrete-weight space, and furthermore, the weight uncertainty is naturally incorporated, and modulates the synaptic resources among tasks. From a physics perspective, we translate the variational continual learning into the Franz-Parisi thermodynamic potential framework, where the previous task knowledge acts as a prior and a reference as well. We thus interprete the continual learning of the binary perceptron in a teacher-student setting as a Franz-Parisi potential computation. The learning performance can then be analytically studied with mean-field order parameters, whose predictions coincide with the numerical experiments using stochastic gradient descent methods. Based on the variational principle and Gaussian field approximation of internal preactivations in hidden layers, we also derive the learning algorithm considering weight uncertainty, which outperforms the current metaplasticity algorithm in continually learning multiple tasks. Our proposed principled frameworks also connect to elastic weight consolidation, and neuroscience inspired metaplasticity, providing a theory-grounded method for the real-world multi-task learning with deep networks.
翻訳日:2023-05-17 00:05:34 公開日:2023-05-15
# 相対的一般化のためのカリキュラム学習

Curriculum Learning for Relative Overgeneralization ( http://arxiv.org/abs/2212.02733v2 )

ライセンス: Link先を確認
Lin Shi and Bei Peng(参考訳) マルチエージェント強化学習(MARL)では、VDNやQMIXのような多くの一般的な手法が、協調作業における最適関節動作の効用が準最適関節動作の効用より低い場合に生じる、相対的過一般化(RO)として知られる重要なマルチエージェントの病態に影響を受けやすい。 ROは、エージェントを局所的な最適状態に閉じ込めたり、特定の時間内でエージェント間の重要な調整を必要とする協調的なタスクの解決に失敗したりする。 QPLEXやWQMIXのような最近の値ベースのMARLアルゴリズムは、ROをある程度克服することができる。 しかし, 実験結果から, 強力なROを示す協調作業の解決に失敗する可能性が示唆された。 本研究では,相対的オーバージェネリゼーション(CURO)のためのカリキュラム学習という新しい手法を提案する。 強力なroを示す目標課題を解決するため、curoではまず対象課題の報酬関数を微調整し、学習エージェントの現在の能力に合わせて調整されたソースタスクを生成し、まずこれらのソースタスクでエージェントを訓練する。 そこで我々は,あるタスクにおいて得られた知識を効率よく次のタスクに転送するために,値関数転送とバッファ転送を組み合わせた伝達学習手法を用いて,目的タスクのより効率的な探索を可能にする。 QMIXに適用すると、CUROは深刻なRO問題を克服し、性能を著しく向上し、StarCraft IIマイクロマネジメントベンチマークを含む様々な協調型マルチエージェントタスクに最先端の結果をもたらすことが示される。

In multi-agent reinforcement learning (MARL), many popular methods, such as VDN and QMIX, are susceptible to a critical multi-agent pathology known as relative overgeneralization (RO), which arises when the optimal joint action's utility falls below that of a sub-optimal joint action in cooperative tasks. RO can cause the agents to get stuck into local optima or fail to solve cooperative tasks that require significant coordination between agents within a given timestep. Recent value-based MARL algorithms such as QPLEX and WQMIX can overcome RO to some extent. However, our experimental results show that they can still fail to solve cooperative tasks that exhibit strong RO. In this work, we propose a novel approach called curriculum learning for relative overgeneralization (CURO) to better overcome RO. To solve a target task that exhibits strong RO, in CURO, we first fine-tune the reward function of the target task to generate source tasks that are tailored to the current ability of the learning agent and train the agent on these source tasks first. Then, to effectively transfer the knowledge acquired in one task to the next, we use a transfer learning method that combines value function transfer with buffer transfer, which enables more efficient exploration in the target task. We demonstrate that, when applied to QMIX, CURO overcomes severe RO problem and significantly improves performance, yielding state-of-the-art results in a variety of cooperative multi-agent tasks, including the challenging StarCraft II micromanagement benchmarks.
翻訳日:2023-05-17 00:04:40 公開日:2023-05-15
# 論理とコモンセンスによる時間知識グラフの完成

Logic and Commonsense-Guided Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2211.16865v2 )

ライセンス: Link先を確認
Guanglin Niu, Bo Li(参考訳) 時間的知識グラフ(TKG)は、時間を含むデータに由来する事象を記憶する。 イベントの時間に敏感な性質のため、予測イベントは非常に難しい。 さらに、以前のTKG補完(TKGC)アプローチは、イベントの時系列と因果性の両方を同時に表現することはできない。 そこで本稿では,イベントの時系列表現と因果関係を,コモンセンスの観点から時間に依存しない表現と共同で学習する論理およびコモンセンス誘導埋め込みモデル(lcge)を提案する。 具体的には,事象間の因果関係を学習するための規則付き述語埋め込み正規化戦略を構築するために,時間規則学習アルゴリズムを設計する。 さらに, 補助コモンセンス知識を用いて, 事象の再現性を正確に評価した。 TKGCタスクの実験結果から,既存手法と比較して,モデルの性能が大幅に向上したことを示す。 さらに興味深いことに、我々のモデルは因果推論の観点から予測結果の説明可能性を提供することができる。 本論文のソースコードとデータセットはhttps://github.com/ngl567/LCGE.comで公開されている。

A temporal knowledge graph (TKG) stores the events derived from the data involving time. Predicting events is extremely challenging due to the time-sensitive property of events. Besides, the previous TKG completion (TKGC) approaches cannot represent both the timeliness and the causality properties of events, simultaneously. To address these challenges, we propose a Logic and Commonsense-Guided Embedding model (LCGE) to jointly learn the time-sensitive representation involving timeliness and causality of events, together with the time-independent representation of events from the perspective of commonsense. Specifically, we design a temporal rule learning algorithm to construct a rule-guided predicate embedding regularization strategy for learning the causality among events. Furthermore, we could accurately evaluate the plausibility of events via auxiliary commonsense knowledge. The experimental results of TKGC task illustrate the significant performance improvements of our model compared with the existing approaches. More interestingly, our model is able to provide the explainability of the predicted results in the view of causal inference. The source code and datasets of this paper are available at https://github.com/ngl567/LCGE.
翻訳日:2023-05-17 00:03:19 公開日:2023-05-15
# フェデレーションハイパーパラメータチューニングにおけるノイズ評価について

On Noisy Evaluation in Federated Hyperparameter Tuning ( http://arxiv.org/abs/2212.08930v4 )

ライセンス: Link先を確認
Kevin Kuo, Pratiksha Thaker, Mikhail Khodak, John Nguyen, Daniel Jiang, Ameet Talwalkar, Virginia Smith(参考訳) ハイパーパラメータチューニングは、連合学習アプリケーションの成功に不可欠である。 残念なことに、ハイパーパラメータを適切に選択することは、フェデレーションネットワークでは難しい。 スケール,プライバシ,不均一性の問題はチューニングプロセスにノイズを導入し,様々なハイパーパラメータの性能評価を困難にする。 本研究では,フェデレートハイパーパラメータチューニングにおけるノイズ評価の効果について,最初の体系的検討を行った。 まず、クライアントサブサンプリング、データとシステムの不均一性、データプライバシなど、重要なノイズ源を特定し、厳密に調査する。 意外なことに,本研究の結果は,少ないノイズでもチューニング手法に大きく影響しうることを示唆している。 このようなシナリオにおけるノイズ評価に対処するために,公開プロキシデータを利用して評価信号を強化する,シンプルで効果的な手法を提案する。 私たちの研究は、フェデレーションハイパーパラメータチューニングにおける将来の作業のための一般的な課題、ベースライン、ベストプラクティスを確立します。

Hyperparameter tuning is critical to the success of federated learning applications. Unfortunately, appropriately selecting hyperparameters is challenging in federated networks. Issues of scale, privacy, and heterogeneity introduce noise in the tuning process and make it difficult to evaluate the performance of various hyperparameters. In this work, we perform the first systematic study on the effect of noisy evaluation in federated hyperparameter tuning. We first identify and rigorously explore key sources of noise, including client subsampling, data and systems heterogeneity, and data privacy. Surprisingly, our results indicate that even small amounts of noise can significantly impact tuning methods-reducing the performance of state-of-the-art approaches to that of naive baselines. To address noisy evaluation in such scenarios, we propose a simple and effective approach that leverages public proxy data to boost the evaluation signal. Our work establishes general challenges, baselines, and best practices for future work in federated hyperparameter tuning.
翻訳日:2023-05-16 23:56:38 公開日:2023-05-15
# 多言語翻訳における干渉の原因と治療

Causes and Cures for Interference in Multilingual Translation ( http://arxiv.org/abs/2212.07530v2 )

ライセンス: Link先を確認
Uri Shaham and Maha Elbayad and Vedanuj Goswami and Omer Levy and Shruti Bhosale(参考訳) 多言語機械翻訳モデルは、異なる言語ペア間のシナジーの恩恵を受けるが、干渉も受ける。 干渉を排除しようとする高度な手法が増えているが、干渉を現象として理解することは依然として限られている。 この研究は多言語機械翻訳における干渉に寄与する主な要因を特定する。 系統的な実験により、干渉(またはシナジー)はモデルのサイズ、データサイズ、および全データセット内の各言語ペアの割合によって決定されることがわかった。 モデルが利用可能なトレーニングデータに対して非常に小さい場合,10億未満のパラメータを持つ標準トランスフォーマー構成を用いることで,干渉が軽減され,シナジーが促進されることが観察された。 また,データ内の各言語対の比率を制御するためにサンプリング温度をチューニングすることが,低資源言語対と高資源言語対の干渉量を効果的にバランスさせる上で重要であることを示す。

Multilingual machine translation models can benefit from synergy between different language pairs, but also suffer from interference. While there is a growing number of sophisticated methods that aim to eliminate interference, our understanding of interference as a phenomenon is still limited. This work identifies the main factors that contribute to interference in multilingual machine translation. Through systematic experimentation, we find that interference (or synergy) are primarily determined by model size, data size, and the proportion of each language pair within the total dataset. We observe that substantial interference occurs mainly when the model is very small with respect to the available training data, and that using standard transformer configurations with less than one billion parameters largely alleviates interference and promotes synergy. Moreover, we show that tuning the sampling temperature to control the proportion of each language pair in the data is key to balancing the amount of interference between low and high resource language pairs effectively, and can lead to superior performance overall.
翻訳日:2023-05-16 23:55:48 公開日:2023-05-15
# ブロックチェーンに関するAI倫理: ブロックチェーンセキュリティのためのTwitterデータに関するトピック分析

AI Ethics on Blockchain: Topic Analysis on Twitter Data for Blockchain Security ( http://arxiv.org/abs/2212.06951v3 )

ライセンス: Link先を確認
Yihang Fu, Zesen Zhuang, Luyao Zhang(参考訳) Blockchainは、分散ネットワークを使用してコンピュータシステムをよりセキュアにする権限を与えている。 しかしながら、現在のブロックチェーン設計は、トランザクションオーダの公平性の問題に悩まされている。 鉱夫は、いわゆるmev(miner extractable value)と呼ばれる取引を注文して利益を得ることができる。 既存の研究は、MEVが深刻なセキュリティ問題であると認識し、著名なFlashbotを含む潜在的なソリューションを提案する。 しかし、以前の研究では主にブロックチェーンデータを分析しており、より広範なAI社会におけるMEVの影響を捉えていない可能性がある。 そこで本研究では,MEV上のツイートのトピックを包括的に分析するために自然言語処理(NLP)手法を適用した。 mevとflashbotsのハッシュタグで20000以上のツイートを集め、それらのトピックを分析した。 以上の結果から, このツイートは, セキュリティ, 公平性, 情緒的感情, およびMEVに対するソリューションへの欲求など, 倫理的懸念の深いトピックを議論した。 また、ブロックチェーンやソーシャルメディアプラットフォーム上でのMEV活動のコムーブメントを特定します。 私たちの研究は、ブロックチェーンセキュリティ、MEVソリューション、AI倫理のインターフェースにおける文献に貢献します。

Blockchain has empowered computer systems to be more secure using a distributed network. However, the current blockchain design suffers from fairness issues in transaction ordering. Miners are able to reorder transactions to generate profits, the so-called miner extractable value (MEV). Existing research recognizes MEV as a severe security issue and proposes potential solutions, including prominent Flashbots. However, previous studies have mostly analyzed blockchain data, which might not capture the impacts of MEV in a much broader AI society. Thus, in this research, we applied natural language processing (NLP) methods to comprehensively analyze topics in tweets on MEV. We collected more than 20000 tweets with MEV and Flashbots hashtags and analyzed their topics. Our results show that the tweets discussed profound topics of ethical concern, including security, equity, emotional sentiments, and the desire for solutions to MEV. We also identify the co-movements of MEV activities on blockchain and social media platforms. Our study contributes to the literature at the interface of blockchain security, MEV solutions, and AI ethics.
翻訳日:2023-05-16 23:55:13 公開日:2023-05-15
# プライオリティ投票力の測定 - デリゲートを真剣に考える

Measuring a Priori Voting Power -- Taking Delegations Seriously ( http://arxiv.org/abs/2301.02462v4 )

ライセンス: Link先を確認
Rachael Colley, Th\'eo Delemazure, Hugo Gilbert(参考訳) 本稿では,自由民主主義選挙における有権者の事前投票力を測定するための新たな権限指標を紹介する。 我々は、我々のパワー指標は単純な投票ゲームにおける標準的なpenrose-banzhafインデックスの自然な拡張であると主張している。 票の重みが多項式境界である場合であっても, 投票者の臨界度は#P-hardであることを示す。 しかし、基礎となるネットワークが二部グラフや完全グラフであるような特定の設定の場合、再帰公式は擬ポリーノミカル時間で重み付けされた投票ゲームに対するこれらの指標を計算することができる。 我々は、その理論的な性質を強調し、有権者の投票権をいかに制限するかを示す数値的な結果を提供する。

We introduce new power indices to measure the a priori voting power of voters in liquid democracy elections where an underlying network restricts delegations. We argue that our power indices are natural extensions of the standard Penrose-Banzhaf index in simple voting games. We show that computing the criticality of a voter is #P-hard even when voting weights are polynomially-bounded in the size of the instance. However, for specific settings, such as when the underlying network is a bipartite or complete graph, recursive formulas can compute these indices for weighted voting games in pseudo-polynomial time. We highlight their theoretical properties and provide numerical results to illustrate how restricting the possible delegations can alter voters' voting power.
翻訳日:2023-05-16 23:46:55 公開日:2023-05-15
# 絡み合いから運動の準局所積分を計測する

Measuring out quasi-local integrals of motion from entanglement ( http://arxiv.org/abs/2301.01787v2 )

ライセンス: Link先を確認
B. Lu, C. Bertoni, S. J. Thomson, J. Eisert(参考訳) 運動の準局所積分は、相互作用と障害が結合する興味深い現象である多体局所化の現代の理解を支える重要な概念である。 それらを計算する数値的な方法がいくつか存在するにもかかわらず、多くの性質の現象論の多くがそれらから導出できるという観測の光に驚くことに、実際の量子シミュレーションにおいてそれらの側面を直接測定する方法は明らかではない。 本研究では,アンダーソンを多体局所化と非平衡ダイナミクスを区別できる空間分解型エンタングルメントプローブに基づいて,そのような準局所的運動積分の実空間特性を抽出する手法を提案する。 これらの知見を新たな厳密な絡み合い境界で補完し,テンソルネットワークを用いて関連する量を計算する。 この絡み合いは、実験で測定できる、明確に定義された長さのスケールを生み出すことを実証する。

Quasi-local integrals of motion are a key concept underpinning the modern understanding of many-body localisation, an intriguing phenomenon in which interactions and disorder come together. Despite the existence of several numerical ways to compute them - and astoundingly in the light of the observation that much of the phenomenology of many properties can be derived from them - it is not obvious how to directly measure aspects of them in real quantum simulations; in fact, the smoking gun of their experimental observation is arguably still missing. In this work, we propose a way to extract the real-space properties of such quasi-local integrals of motion based on a spatially-resolved entanglement probe able to distinguish Anderson from many-body localisation from non-equilibrium dynamics. We complement these findings with a new rigorous entanglement bound and compute the relevant quantities using tensor networks. We demonstrate that the entanglement gives rise to a well-defined length scale that can be measured in experiments.
翻訳日:2023-05-16 23:46:15 公開日:2023-05-15
# 大規模言語モデルのための並列コンテキストWindows

Parallel Context Windows for Large Language Models ( http://arxiv.org/abs/2212.10947v2 )

ライセンス: Link先を確認
Nir Ratner, Yoav Levine, Yonatan Belinkov, Ori Ram, Inbal Magar, Omri Abend, Ehud Karpas, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham(参考訳) 長文処理に適用される場合、Large Language Models (LLM) はコンテキストウィンドウによって制限される。 この制限に対処するための既存の取り組みには、専門的なアーキテクチャのトレーニングが含まれており、既製のLLMに簡単に適用できない。 そこで本研究では,市販llmのコンテキストウインドウ制限を緩和する手法であるparallel context windows (pcw)を提案する。 このアプローチの鍵は、長いコンテキストをチャンクに彫り込み(``windows''')、各ウィンドウにのみ適用される注意機構を制限し、ウィンドウにまたがる位置埋め込みを再利用することだ。 本研究の主な成果は,7億7千万から1億7800億のパラメータを持つモデルを用いて,テキスト内学習におけるPCWアプローチを検証し,多様な入力空間と出力空間を持つタスクに対する大幅な改善を示す。 長いコンテキストウインドウが有益であるかもしれない他の設定では、マルチホップ質問と検索強化質問が複数の検索された文書で答えられる。 この結果から,Parallel Context Windows は,長いテキストシーケンスを必要とするさまざまな設定で既製の LLM を適用するための有望な方法として注目されている。 コードをhttps://github.com/ai21labs/parallel-context-windowsで公開しています。

When applied for processing long text, Large Language Models (LLMs) are limited by their context window. Existing efforts to address this limitation involve training specialized architectures, and cannot be easily applied to off-the-shelf LLMs. We present Parallel Context Windows (PCW), a method that alleviates the context window restriction for any off-the-shelf LLM without further training. The key to the approach is to carve a long context into chunks (``windows''), restrict the attention mechanism to apply only within each window, and re-use the positional embeddings across the windows. Our main results test the PCW approach on in-context learning with models that range in size between 750 million and 178 billion parameters, and show substantial improvements for tasks with diverse input and output spaces. We show additional benefits in other settings where long context windows may be beneficial: multi-hop questions and retrieval-augmented question answering with multiple retrieved documents. Our results highlight Parallel Context Windows as a promising method for applying off-the-shelf LLMs in a range of settings that require long text sequences. We make our code publicly available at https://github.com/ai21labs/parallel-context-windows.
翻訳日:2023-05-16 23:45:14 公開日:2023-05-15
# GPTはなぜインコンテキストを学習できるのか? メタオプティマイザとしての言語モデル

Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers ( http://arxiv.org/abs/2212.10559v3 )

ライセンス: Link先を確認
Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Shuming Ma, Zhifang Sui, Furu Wei(参考訳) 大規模な事前訓練された言語モデルは、驚くべきインコンテキスト学習(ICL)能力を示している。 いくつかデモされたインプットラベルペアを使えば、パラメータ更新なしに、見えないインプットのラベルを予測できる。 性能に大きな成功を収めたものの、その動作メカニズムはいまだに未解決のままである。 本稿ではメタ最適化として言語モデルを説明し,文脈内学習を暗黙の微調整として理解する。 理論的には、トランスフォーマーの注意は勾配降下の2つの形態を持つ。 GPTはまず、実例に従ってメタグラディエントを生成し、その後、これらのメタグラディエントを元のGPTに適用し、ICLモデルを構築する。 本研究では,実作業における文脈内学習の行動と明示的な微調整を総合的に比較し,理解を支援する実証的な証拠を提供する。 実験結果から、文脈内学習は複数の視点から明示的な微調整と同様の振る舞いを示す。 変圧器の注意と勾配降下の2つの形態に着想を得て,運動量勾配と運動量との類似性によって運動量に基づく注意をデザインする。 バニラの注意よりも優れたパフォーマンスは、別の観点からの我々の理解をさらに支援し、さらに重要なことは、将来のモデル設計に私たちの理解を利用する可能性を示しています。 コードは \url{https://aka.ms/icl} で利用可能である。

Large pretrained language models have shown surprising in-context learning (ICL) ability. With a few demonstration input-label pairs, they can predict the label for an unseen input without parameter updates. Despite the great success in performance, its working mechanism still remains an open question. In this paper, we explain language models as meta-optimizers and understand in-context learning as implicit finetuning. Theoretically, we figure out that Transformer attention has a dual form of gradient descent. On top of it, we understand ICL as follows: GPT first produces meta-gradients according to the demonstration examples, and then these meta-gradients are applied to the original GPT to build an ICL model. We comprehensively compare the behaviors of in-context learning and explicit finetuning on real tasks to provide empirical evidence that supports our understanding. Experimental results show that in-context learning behaves similarly to explicit finetuning from multiple perspectives. Inspired by the dual form between Transformer attention and gradient descent, we design a momentum-based attention by analogy with gradient descent with momentum. The improved performance over vanilla attention further supports our understanding from another perspective, and more importantly, shows the potential to utilize our understanding for future model design. The code is available at \url{https://aka.ms/icl}.
翻訳日:2023-05-16 23:44:29 公開日:2023-05-15
# オープンドメイン質問応答における誤情報攻撃の防止

Defending Against Misinformation Attacks in Open-Domain Question Answering ( http://arxiv.org/abs/2212.10002v2 )

ライセンス: Link先を確認
Orion Weller, Aleem Khan, Nathaniel Weir, Dawn Lawrie, Benjamin Van Durme(参考訳) オープンドメイン質問応答 (ODQA) の最近の研究により, 探索コレクションの敵性中毒が生産システムの精度を大幅に低下させる可能性が示されている。 しかし、これらの攻撃を防御する方法は、ほとんど、あるいは全く提案されていない。 そのためには、冗長な情報がしばしば大きなコーパスに存在するという直感に依存する。 そこで本研究では,クエリ拡張を用いて,元の質問に答えるが毒殺される可能性が低い多種多様な文を検索する手法を提案する。 我々は、これらの新しい通路を、新しい信頼法の設計を通してモデルに統合し、予測された回答と、検索されたコンテキストにおけるその出現を比較する(我々は、応答冗長性から \textit{confidence} と呼ぶ)。 これらの手法を組み合わせることで、さまざまなレベルのデータ中毒/知識の衝突に対して、ほぼ20%の正確な一致をもたらす中毒攻撃から防御する、シンプルで効果的な方法が得られます。

Recent work in open-domain question answering (ODQA) has shown that adversarial poisoning of the search collection can cause large drops in accuracy for production systems. However, little to no work has proposed methods to defend against these attacks. To do so, we rely on the intuition that redundant information often exists in large corpora. To find it, we introduce a method that uses query augmentation to search for a diverse set of passages that could answer the original question but are less likely to have been poisoned. We integrate these new passages into the model through the design of a novel confidence method, comparing the predicted answer to its appearance in the retrieved contexts (what we call \textit{Confidence from Answer Redundancy}, i.e. CAR). Together these methods allow for a simple but effective way to defend against poisoning attacks that provides gains of nearly 20\% exact match across varying levels of data poisoning/knowledge conflicts.
翻訳日:2023-05-16 23:44:08 公開日:2023-05-15
# 認知症検出のための変分量子回路を用いたハイブリッド量子古典ニューラルネットワークの実装

Implementing a Hybrid Quantum-Classical Neural Network by Utilizing a Variational Quantum Circuit for Detection of Dementia ( http://arxiv.org/abs/2301.12505v2 )

ライセンス: Link先を確認
Ryan Kim(参考訳) MRI(MRI)は脳卒中、腫瘍、その他の認知症の原因となる疾患をスキャンする一般的な技術である。 しかし、アルツハイマー病患者3人に1人近くが2019年に誤診されたため、mriから認知症を正しく診断することは困難であり、ニューラルネットワークが修正できる問題である。 量子コンピューティングアプリケーション この提案するニューラルネットワークアーキテクチャは、完全接続(fc)層を使用しており、変動量子回路(vqc)を実装して期待値を得るための特徴の数を減らす。 本研究で作成したVQCは,アダマールゲート,画素のanh(intensity) * (pi/2) でパラメータ化された回転Yゲート,制御ノット(CNOT)ゲート,および測定演算子を用いて,期待値を得る。 提案されたハイブリッド量子古典畳み込みニューラルネットワーク(QCCNN)は、それぞれ97.5%と95.1%のテストと検証の精度を提供しており、従来のニューラルネットワーク(CNN)のテストと検証の精度は91.5%と89.2%であった。 さらに、100個の正常画像と100個の認知症mri画像の検査セットを用いて、qccnnは正常画像と推論画像の95%と98%を、cnnの89%と91%の精度で正確に検出した。 マサチューセッツ総合病院のような病院がバイオメディカル画像検出に機械学習を応用し始めており、この提案されたアーキテクチャは異常を認め、より多くの命を救う可能性がある。 さらに、提案するアーキテクチャは一般に柔軟であり、転送学習タスク、時間とリソースの節約に使用できる。

Magnetic resonance imaging (MRI) is a common technique to scan brains for strokes, tumors, and other abnormalities that cause forms of dementia. However, correctly diagnosing forms of dementia from MRIs is difficult, as nearly 1 in 3 patients with Alzheimer's were misdiagnosed in 2019, an issue neural networks can rectify. Quantum computing applications This proposed novel neural network architecture uses a fully-connected (FC) layer, which reduces the number of features to obtain an expectation value by implementing a variational quantum circuit (VQC). The VQC created in this study utilizes a layer of Hadamard gates, Rotation-Y gates that are parameterized by tanh(intensity) * (pi/2) of a pixel, controlled-not (CNOT) gates, and measurement operators to obtain the expected values. This study found that the proposed hybrid quantum-classical convolutional neural network (QCCNN) provided 97.5% and 95.1% testing and validation accuracies, respectively, which was considerably higher than the classical neural network (CNN) testing and validation accuracies of 91.5% and 89.2%. Additionally, using a testing set of 100 normal and 100 dementia MRI images, the QCCNN detected normal and demented images correctly 95% and 98% of the time, compared to the CNN accuracies of 89% and 91%. With hospitals like Massachusetts General Hospital beginning to adopt machine learning applications for biomedical image detection, this proposed architecture would approve accuracies and potentially save more lives. Furthermore, the proposed architecture is generally flexible, and can be used for transfer-learning tasks, saving time and resources.
翻訳日:2023-05-16 23:38:45 公開日:2023-05-15
# 時系列解析のためのコンテキスト固有カーネルベース隠れマルコフモデル

Context-specific kernel-based hidden Markov model for time series analysis ( http://arxiv.org/abs/2301.09870v2 )

ライセンス: Link先を確認
Carlos Puerto-Santana, Concha Bielza, Pedro Larra\~naga, Gustav Eje Henter(参考訳) 伝統的な隠れマルコフモデルは確率的動的データの理解とモデル化に有用なツールであり、非ガウス的データの場合、ガウス的隠れマルコフモデルの混合のようなモデルが用いられる。 しかし、これらは精度行列の計算に苦しめられ、多くの不要なパラメータを持つ。 結果として、そのようなモデルは、全ての変数が独立であると仮定された場合、非現実的であるかもしれない仮説によりよく機能する。 核密度推定に基づく隠れマルコフモデルは非ガウスデータもモデル化できるが、変数間の独立性を仮定する。 本稿では,カーネル密度推定に基づく新しい隠れマルコフモデルを提案する。 提案モデルと期待最大化アルゴリズムに基づく学習アルゴリズムについて述べる。 さらに、このモデルは、合成データと実データに関する関連するHMMと比較される。 以上の結果から,提案モデルによる確率と分類精度の利点を定量化し,分析した。

Traditional hidden Markov models have been a useful tool to understand and model stochastic dynamic data; in the case of non-Gaussian data, models such as mixture of Gaussian hidden Markov models can be used. However, these suffer from the computation of precision matrices and have a lot of unnecessary parameters. As a consequence, such models often perform better when it is assumed that all variables are independent, a hypothesis that may be unrealistic. Hidden Markov models based on kernel density estimation are also capable of modeling non-Gaussian data, but they assume independence between variables. In this article, we introduce a new hidden Markov model based on kernel density estimation, which is capable of capturing kernel dependencies using context-specific Bayesian networks. The proposed model is described, together with a learning algorithm based on the expectation-maximization algorithm. Additionally, the model is compared to related HMMs on synthetic and real data. From the results, the benefits in likelihood and classification accuracy from the proposed model are quantified and analyzed.
翻訳日:2023-05-16 23:37:49 公開日:2023-05-15
# FPGAを用いた表面符号のスケーラブル量子誤り補正

Scalable Quantum Error Correction for Surface Codes using FPGA ( http://arxiv.org/abs/2301.08419v2 )

ライセンス: Link先を確認
Namitha Liyanage, Yue Wu, Alexander Deters and Lin Zhong(参考訳) フォールトトレラント量子コンピュータは、現れるよりも早くデコードし、エラーを訂正しなければならない。 エラーの修正が早くなればなるほど、コンピュータはもっと役に立つ仕事をできる。 Union-Find (UF) デコーダは平均時間複雑性が$O(d^3)$よりわずかに高いことを約束している。 並列計算資源を利用してさらなる高速化を行うUFデコーダの分散バージョンについて報告する。 FPGAベースの実装を用いて,この分散UFデコーダが$d$,$O(d^3)$並列コンピューティングリソースに対して,サブ線形平均時間複雑性を有することを実証的に示す。 測定ラウンドあたりの復号時間は、量子エラー復号器として初めて$d$が増加するにつれて減少する。 この実装では、並列コンピューティングリソースをハイブリッドツリーグリッド構造に整理するheliosと呼ばれるスケーラブルなアーキテクチャを採用している。 我々はXilinx VCU129 FPGAで最大21ドルで実装でき、その場合、測定ラウンドあたりの平均復号時間は0.1 %の現象雑音下で11.5 nsであり、既存のデコーダ実装よりもかなり高速である。 heliosの測定ラウンド毎のデコード時間は$d$で減少するため、heliosはバックログを増加させずに任意の大きな$d$の表面コードをデコードできる。

A fault-tolerant quantum computer must decode and correct errors faster than they appear. The faster errors can be corrected, the more time the computer can do useful work. The Union-Find (UF) decoder is promising with an average time complexity slightly higher than $O(d^3)$. We report a distributed version of the UF decoder that exploits parallel computing resources for further speedup. Using an FPGA-based implementation, we empirically show that this distributed UF decoder has a sublinear average time complexity with regard to $d$, given $O(d^3)$ parallel computing resources. The decoding time per measurement round decreases as $d$ increases, a first time for a quantum error decoder. The implementation employs a scalable architecture called Helios that organizes parallel computing resources into a hybrid tree-grid structure. We are able to implement $d$ up to 21 with a Xilinx VCU129 FPGA, for which an average decoding time is 11.5 ns per measurement round under phenomenological noise of 0.1\%, significantly faster than any existing decoder implementation. Since the decoding time per measurement round of Helios decreases with $d$, Helios can decode a surface code of arbitrarily large $d$ without a growing backlog.
翻訳日:2023-05-16 23:37:32 公開日:2023-05-15
# マスク付き自動エンコーディングは自然言語を大規模に監視するのに役立たない

Masked Autoencoding Does Not Help Natural Language Supervision at Scale ( http://arxiv.org/abs/2301.07836v4 )

ライセンス: Link先を確認
Floris Weers, Vaishaal Shankar, Angelos Katharopoulos, Yinfei Yang, Tom Gunter(参考訳) 自己監督と自然言語監督は、様々な下流タスクに優れた汎用画像エンコーダを訓練する2つのエキサイティングな方法として登場した。 m3aeやslipのような最近の研究は、これらのアプローチを効果的に組み合わせられることを示唆しているが、最も注目すべきは、小さな事前トレーニングデータセット(<50mサンプル)を使用しており、これらのアプローチで一般的に使用される大規模なレジーム(>100mサンプル)を効果的に反映していないことである。 ここでは、同様のアプローチが、はるかに多くのデータでトレーニングした場合に有効かどうかを検討する。 マスク付きオートエンコーダ,MAE,コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで,CLIPは11.3Mイメージテキストペアのコーパスでトレーニングされた場合にはCLIPよりもメリットを提供するが,1.4Bイメージの大規模なコーパスでトレーニングされた場合には,CLIPに対する(一般的なビジョンタスクのスイートで評価された)メリットはほとんどない。 私たちの研究は、大規模な画像テキストトレーニングにおける自己監督の有効性(あるいは欠如)について、必要な明確さを提供します。

Self supervision and natural language supervision have emerged as two exciting ways to train general purpose image encoders which excel at a variety of downstream tasks. Recent works such as M3AE and SLIP have suggested that these approaches can be effectively combined, but most notably their results use small pre-training datasets (<50M samples) and don't effectively reflect the large-scale regime (>100M examples) that is commonly used for these approaches. Here we investigate whether a similar approach can be effective when trained with a much larger amount of data. We find that a combination of two state of the art approaches: masked auto-encoders, MAE and contrastive language image pre-training, CLIP provides a benefit over CLIP when trained on a corpus of 11.3M image-text pairs, but little to no benefit (as evaluated on a suite of common vision tasks) over CLIP when trained on a large corpus of 1.4B images. Our work provides some much needed clarity into the effectiveness (or lack thereof) of self supervision for large-scale image-text training.
翻訳日:2023-05-16 23:36:16 公開日:2023-05-15
# おもちゃモデルにおける創発的微分同相不変性

Emergent diffeomorphism invariance in toy models ( http://arxiv.org/abs/2301.04448v2 )

ライセンス: Link先を確認
Hrvoje Nikolic(参考訳) 半古典的および量子重力の概念上の困難は、古典的な一般相対性理論の微分同相不変性から生じる。 これらの困難に光を当てる動機付けとして, 1次元微分同相不変性,すなわち時間再パラメータ化不変性がエネルギー保存から古典レベルに出現する玩具モデルの研究を行った。 不変性を取りながらモデルを定量化しようとする試みは、量子重力、宇宙定数問題、ブラックホールのファイアウォール問題における時間の問題のおもちゃ版につながる。 それでもこれらの問題は、不変性が古典的なレベルでのみ現れることを考慮すると容易に解決できるが、量子化する必要がある基本理論は微分同相不変ではない。

Conceptual difficulties in semiclassical and quantum gravity arise from diffeomorphism invariance of classical general relativity. With a motivation to shed some light on these difficulties, we study a class of toy models for which one-dimensional diffeomorphism invariance, namely time-reparametrization invariance, emerges at the classical level from energy conservation. An attempt to quantize the models while taking the invariance seriously leads to toy versions of the problem of time in quantum gravity, of the cosmological constant problem, and of the black hole firewall problem. Nevertheless, all these problems are easily resolved by taking into account that the invariance emerges only at the classical level, while the fundamental theory that needs to be quantized is not diffeomorphism invariant.
翻訳日:2023-05-16 23:35:21 公開日:2023-05-15
# ガウス過程状態を持つ効率的なabイニティオ電子構造の枠組み

A framework for efficient ab initio electronic structure with Gaussian Process States ( http://arxiv.org/abs/2302.01099v3 )

ライセンス: Link先を確認
Yannic Rath and George H. Booth(参考訳) 本稿では、量子多体状態の表現を現代機械学習にインスパイアされた現実的なフェルミオン系の効率的なシミュレーションのための一般的なフレームワークについて述べる。 これらの機械学習にインスパイアされたアンサーゼは、(第1の量子化された)連続体と離散フォック空間の表現の両方において近づきつつあるが、しかしながら、現実的な相互作用に対する後者のアプローチの本質的なスケーリングは、これまでのところ、実用的応用に限られている。 機械学習における系統的改良可能なカーネルモデルにインスパイアされた最近導入されたansatzである「gaussian process state」の適用により、計算フォック空間の表現を定義するための異なる選択について論じる。 本稿では,局所表現が期待値の確率的サンプリングに特に適合することを示すとともに,連続体定式モデルに対するスケーリングの差を克服する経路を示す。 我々は、最大64個の電子を持つ系に対して、三次元水素中のモット転移の単純化されたモデルを含む競争精度を示すことができ、構成サンプルの適度な数であっても、同様のアプローチよりも大幅に改善されていることを示す。

We present a general framework for the efficient simulation of realistic fermionic systems with modern machine learning inspired representations of quantum many-body states, towards a universal tool for ab initio electronic structure. These machine learning inspired ansatzes have recently come to the fore in both a (first quantized) continuum and discrete Fock space representations, where however the inherent scaling of the latter approach for realistic interactions has so far limited practical applications. With application to the 'Gaussian Process State', a recently introduced ansatz inspired by systematically improvable kernel models in machine learning, we discuss different choices to define the representation of the computational Fock space. We show how local representations are particularly suited for stochastic sampling of expectation values, while also indicating a route to overcome the discrepancy in the scaling compared to continuum formulated models. We are able to show competitive accuracy for systems with up to 64 electrons, including a simplified (yet fully ab initio) model of the Mott transition in three-dimensional hydrogen, indicating a significant improvement over similar approaches, even for moderate numbers of configurational samples.
翻訳日:2023-05-16 23:26:51 公開日:2023-05-15
# 予後関連因子の組織学的および臨床組織型Glioblastomaパターンの検出

Detecting Histologic & Clinical Glioblastoma Patterns of Prognostic Relevance ( http://arxiv.org/abs/2302.00669v2 )

ライセンス: Link先を確認
Bhakti Baheti, Sunny Rai, Shubham Innani, Garv Mehdiratta, Sharath Chandra Guntuku, MacLean P. Nasrallah, Spyridon Bakas(参考訳) グリオブラスト腫は中枢神経系で最も一般的で攻撃的な悪性成人腫瘍であり、グリム予後と異種形態および分子プロファイルがある。 18年前に現在の標準治療を採用して以降,実質的な予後改善は認められていない。 臨床データと統合された病理組織像から患者の総合生存率(OS)の正確な予測は,臨床意思決定と患者管理を最適化することができる。 ここでは,H&E染色WSIおよびOSに関する臨床データから,予後に関連のあるグリオ芽腫の特徴を同定することに焦点を当てた。 WSIの正確なアプローチは、クラスタリングを利用して検索空間を制約する弱い注意に基づくマルチインスタンス学習アルゴリズムを通じて、明らかなアーティファクトコンテンツの包括的キュレーションと解釈可能性メカニズムを活かしている。 高診断値の自動配置パターンは、各wsiを短命または長生きの代表として分類する。 xgboost と shapley additive explanations (shap) を用いて、関連する臨床患者データの予後のさらなる妥当性を単独および統合的に評価する。 短いosと長いosに関連する腫瘍の形態と臨床パターンを特定することで、臨床神経病理学者は治療チームにさらなる関連する予後情報を提供し、グリオブラスト腫の理解と治療のための生物学的研究の道筋を示唆することができる。

Glioblastoma is the most common and aggressive malignant adult tumor of the central nervous system, with a grim prognosis and heterogeneous morphologic and molecular profiles. Since adopting the current standard-of-care treatment 18 years ago, no substantial prognostic improvement has been noticed. Accurate prediction of patient overall survival (OS) from histopathology whole slide images (WSI) integrated with clinical data using advanced computational methods could optimize clinical decision-making and patient management. Here, we focus on identifying prognostically relevant glioblastoma characteristics from H&E stained WSI & clinical data relating to OS. The exact approach for WSI capitalizes on the comprehensive curation of apparent artifactual content and an interpretability mechanism via a weakly supervised attention-based multiple-instance learning algorithm that further utilizes clustering to constrain the search space. The automatically placed patterns of high diagnostic value classify each WSI as representative of short or long-survivors. Further assessment of the prognostic relevance of the associated clinical patient data is performed both in isolation and in an integrated manner, using XGBoost and SHapley Additive exPlanations (SHAP). Identifying tumor morphological & clinical patterns associated with short and long OS will enable the clinical neuropathologist to provide additional relevant prognostic information to the treating team and suggest avenues of biological investigation for understanding and potentially treating glioblastoma.
翻訳日:2023-05-16 23:26:17 公開日:2023-05-15
# バイアスドプロンプトによる視覚言語モデルのデバイアス

Debiasing Vision-Language Models via Biased Prompts ( http://arxiv.org/abs/2302.00070v2 )

ライセンス: Link先を確認
Ching-Yao Chuang, Varun Jampani, Yuanzhen Li, Antonio Torralba, Stefanie Jegelka(参考訳) 機械学習モデルは、トレーニングデータセットからバイアスを継承することが示されている。 これは、インターネットからスクレイプされた未作成データセットでトレーニングされた視覚言語の基礎モデルにとって特に問題となる。 バイアスを増幅し、ゼロショット分類器やテキスト・ツー・イメージ生成モデルのような下流アプリケーションに伝播することができる。 本研究では,テキスト埋め込みにおける偏りのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。 特に,校正された投影行列で埋め込みされたテキストのみをデバイアスすることで,ロバストな分類器と公平な生成モデルが得られることを示す。 提案するクローズドフォームソリューションにより,大規模パイプラインへの統合が容易になり,実験結果から,新たなデータやトレーニングを必要とせずに,識別的および生成的視覚言語モデルの社会的バイアスと散発的相関を効果的に低減できることが示された。

Machine learning models have been shown to inherit biases from their training datasets. This can be particularly problematic for vision-language foundation models trained on uncurated datasets scraped from the internet. The biases can be amplified and propagated to downstream applications like zero-shot classifiers and text-to-image generative models. In this study, we propose a general approach for debiasing vision-language foundation models by projecting out biased directions in the text embedding. In particular, we show that debiasing only the text embedding with a calibrated projection matrix suffices to yield robust classifiers and fair generative models. The proposed closed-form solution enables easy integration into large-scale pipelines, and empirical results demonstrate that our approach effectively reduces social bias and spurious correlation in both discriminative and generative vision-language models without the need for additional data or training.
翻訳日:2023-05-16 23:25:36 公開日:2023-05-15
# Zero3D:Semantic-Driven Multi-Category 3D Shape Generation

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation ( http://arxiv.org/abs/2301.13591v3 )

ライセンス: Link先を確認
Bo Han, Yitong Fu, Yixuan Shen(参考訳) 意味駆動型3d形状生成は、テキストに基づく3dオブジェクトの生成を目的としている。 以前の作業では、単一カテゴリの生成、低周波の3D詳細、トレーニングのために多数のペアデータセットを必要とする問題に直面していた。 これらの課題に取り組むために,多カテゴリー条件拡散モデルを提案する。 具体的には 1) 大規模ペアデータ不足の問題を緩和するために, 事前学習したCLIPモデルに基づいてテキスト, 2次元画像, 3次元形状をブリッジし, 2) マルチカテゴリの3次元形状特徴を得るため,CLIP埋め込みに条件付き3次元形状ベクトルを生成する条件フローモデルを適用した。 3) マルチカテゴリ3次元形状を生成するために, 多カテゴリ形状ベクトルに条件付き隠れ層拡散モデルを用い, トレーニング時間とメモリ消費を大幅に削減する。

Semantic-driven 3D shape generation aims to generate 3D objects conditioned on text. Previous works face problems with single-category generation, low-frequency 3D details, and requiring a large number of paired datasets for training. To tackle these challenges, we propose a multi-category conditional diffusion model. Specifically, 1) to alleviate the problem of lack of large-scale paired data, we bridge the text, 2D image and 3D shape based on the pre-trained CLIP model, and 2) to obtain the multi-category 3D shape feature, we apply the conditional flow model to generate 3D shape vector conditioned on CLIP embedding. 3) to generate multi-category 3D shape, we employ the hidden-layer diffusion model conditioned on the multi-category shape vector, which greatly reduces the training time and memory consumption.
翻訳日:2023-05-16 23:25:22 公開日:2023-05-15
# 任意決定は個人差分訓練の隠れたコストである

Arbitrary Decisions are a Hidden Cost of Differentially Private Training ( http://arxiv.org/abs/2302.14517v2 )

ライセンス: Link先を確認
Bogdan Kulynych, Hsiang Hsu, Carmela Troncoso, Flavio P. Calmon(参考訳) プライバシ保存機械学習で使用されるメカニズムは、モデルトレーニング中に差分プライバシー(DP)を保証することを目的としていることが多い。 実用的なdp補償トレーニング方法は、モデルパラメータをプライバシーに敏感なデータに適合させる(例えば、クリップされた勾配にガウスノイズを追加する)際にランダム化を使用する。 このようなランダム化は、与えられた入力例に対して、等プライベートモデルによって予測される出力は、トレーニングで使用されるランダム性に依存する。 したがって、与えられた入力に対して、モデルが再トレーニングされた場合、同じトレーニングデータセットを使用した場合であっても、予測出力は劇的に変化する。 DPトレーニングの予測多重コストは研究されておらず、現在、モデルデザイナやステークホルダーに監査も伝達もしていない。 予測多重度を確実に推定するために必要な再学習の回数に制限を課す。 理論上,広範囲にわたる実験を通じて,出力摂動,客観的摂動,dp-sgdの3つのdp補償アルゴリズムの予測・多重化コストを分析した。 プライバシのレベルが向上するにつれて,予測多重度が増加し,データ内の個人や人口集団に不均一に分散することを示す。 トレーニング中のdpを確保するために使用されるランダム性は、いくつかの例の予測を説明するため、高リスク設定において微分プライベートモデルが支持する意思決定の正当性に対する根本的な課題を浮き彫りにする。 我々は,個人レベルのアプリケーションに適用する前に,dp補償アルゴリズムの予測多重性を監査するべきであると結論づけた。

Mechanisms used in privacy-preserving machine learning often aim to guarantee differential privacy (DP) during model training. Practical DP-ensuring training methods use randomization when fitting model parameters to privacy-sensitive data (e.g., adding Gaussian noise to clipped gradients). We demonstrate that such randomization incurs predictive multiplicity: for a given input example, the output predicted by equally-private models depends on the randomness used in training. Thus, for a given input, the predicted output can vary drastically if a model is re-trained, even if the same training dataset is used. The predictive-multiplicity cost of DP training has not been studied, and is currently neither audited for nor communicated to model designers and stakeholders. We derive a bound on the number of re-trainings required to estimate predictive multiplicity reliably. We analyze--both theoretically and through extensive experiments--the predictive-multiplicity cost of three DP-ensuring algorithms: output perturbation, objective perturbation, and DP-SGD. We demonstrate that the degree of predictive multiplicity rises as the level of privacy increases, and is unevenly distributed across individuals and demographic groups in the data. Because randomness used to ensure DP during training explains predictions for some examples, our results highlight a fundamental challenge to the justifiability of decisions supported by differentially private models in high-stakes settings. We conclude that practitioners should audit the predictive multiplicity of their DP-ensuring algorithms before deploying them in applications of individual-level consequence.
翻訳日:2023-05-16 23:19:44 公開日:2023-05-15
# BrainCLIP:遺伝性自然視刺激復号のための脳と視覚言語表現Via CLIP

BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding ( http://arxiv.org/abs/2302.12971v3 )

ライセンス: Link先を確認
Yulong Liu, Yongqiang Ma, Wei Zhou, Guibo Zhu, Nanning Zheng(参考訳) ペアサンプルの欠如と機能的MRI(fMRI)信号の低信号対雑音比のため、知覚された自然画像の再構成や、fMRIデータからそれらの意味的内容の復号は難しい作業である。 本研究では,脳活動,画像,テキスト間のモダリティギャップを埋めるCLIPのクロスモーダル一般化能力を活用した,タスク非依存のfMRI脳デコーディングモデルBrainCLIPを提案する。 実験により、CLIPは、ゼロショット視覚カテゴリー復号、fMRI画像/テキストマッチング、fMRI画像生成など、一般的な脳波復号タスクのピボットとして機能することが示された。 具体的には、BrainCLIPは、視覚とテキストの監督を組み合わせることで、fMRIパターンをよく整合したCLIP埋め込み空間に変換するマッピングネットワークのトレーニングを目指している。 この組み合わせにより,fMRIテキストマッチングやfMRI画像生成などのタスクにおいて,デコードモデルの性能が向上することを示す。 ゼロショット視覚圏デコードタスクでは、BraVLよりも性能が大幅に向上し、このタスク用に特別に設計されたマルチモーダル方式が提案されている。 BrainCLIPはまた、高い意味的忠実度で視覚刺激を再構築し、高レベルな意味的特徴の観点から、fMRIベースの自然画像再構成のための新しい最先端技術を確立することができる。

Due to the lack of paired samples and the low signal-to-noise ratio of functional MRI (fMRI) signals, reconstructing perceived natural images or decoding their semantic contents from fMRI data are challenging tasks. In this work, we propose, for the first time, a task-agnostic fMRI-based brain decoding model, BrainCLIP, which leverages CLIP's cross-modal generalization ability to bridge the modality gap between brain activity, image, and text. Our experiments demonstrate that CLIP can act as a pivot for generic brain decoding tasks, including zero-shot visual categories decoding, fMRI-image/text matching, and fMRI-to-image generation. Specifically, BrainCLIP aims to train a mapping network that transforms fMRI patterns into a well-aligned CLIP embedding space by combining visual and textual supervision. Our experiments show that this combination can boost the decoding model's performance on certain tasks like fMRI-text matching and fMRI-to-image generation. On the zero-shot visual category decoding task, BrainCLIP achieves significantly better performance than BraVL, a recently proposed multi-modal method specifically designed for this task. BrainCLIP can also reconstruct visual stimuli with high semantic fidelity and establishes a new state-of-the-art for fMRI-based natural image reconstruction in terms of high-level semantic features.
翻訳日:2023-05-16 23:19:16 公開日:2023-05-15
# プロトタイプ画像分類における正当性チェックとパッチ可視化の改善

Sanity checks and improvements for patch visualisation in prototype-based image classification ( http://arxiv.org/abs/2302.08508v2 )

ライセンス: Link先を確認
Romain Xu-Darme (LSL, MRIM), Georges Qu\'enot (MRIM), Zakaria Chihani (LSL), Marie-Christine Rousset (SLIDE)(参考訳) 本研究では,プロトタイプをベースとした視覚分類モデルであるProtoPNetとProtoTreeを用いて,ビジュアル化手法の詳細な分析を行う。 2つのきめ細かいデータセット(CUB-200-2011とStanford Cars)を用いて、これらの手法が画像内の関心領域を正しく識別せず、従ってモデル動作を反映しないことを示す。 次に,削除基準を用いて,Smoothgrads や PRP などの塩分濃度法がより忠実な画像パッチを提供することを示す。 また,いくつかのデータセット(例えば CUB-200-2011)で提供されるオブジェクトのセグメンテーションに基づく新しい関連度尺度を提案し,ProtoPNet と ProtoTree が生成した不正確なパッチの可視化により,より忠実な手法を用いることでバイアスを軽減できることを示す。 最後に,同じ可視化方法を共有する他のプロトタイプモデルに対する知見の意義について考察する。

In this work, we perform an in-depth analysis of the visualisation methods implemented in two popular self-explaining models for visual classification based on prototypes - ProtoPNet and ProtoTree. Using two fine-grained datasets (CUB-200-2011 and Stanford Cars), we first show that such methods do not correctly identify the regions of interest inside of the images, and therefore do not reflect the model behaviour. Secondly, using a deletion metric, we demonstrate quantitatively that saliency methods such as Smoothgrads or PRP provide more faithful image patches. We also propose a new relevance metric based on the segmentation of the object provided in some datasets (e.g. CUB-200-2011) and show that the imprecise patch visualisations generated by ProtoPNet and ProtoTree can create a false sense of bias that can be mitigated by the use of more faithful methods. Finally, we discuss the implications of our findings for other prototype-based models sharing the same visualisation method.
翻訳日:2023-05-16 23:17:35 公開日:2023-05-15
# 不確実性推定法とその医用画像への応用

A Review of Uncertainty Estimation and its Application in Medical Imaging ( http://arxiv.org/abs/2302.08119v2 )

ライセンス: Link先を確認
Ke Zou and Zhihao Chen and Xuedong Yuan and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 病気の早期スクリーニングのための医療におけるAIシステムの利用は、非常に臨床的に重要である。 深層学習は医療画像において大きな可能性を秘めているが、AIシステムの信頼性と信頼性は、患者の安全が危ぶまれている実際の臨床現場への展開を制限する。 不確実性推定は、深部モデルの予測とともに信頼性評価を生成する上で重要な役割を果たす。 これは特に医療画像において重要であり、モデルの予測の不確実性が関心領域の特定や臨床医への追加情報の提供に利用できる。 本稿では,機械学習における様々な不確実性について概観し,アレエータ的不確実性や認識的不確実性について述べる。 医療画像でどのように推定できるかについても検討する。 さらに, 医用画像に不確実性推定を組み込んだ深層学習モデルの最近の進歩を概観する。 最後に,医用画像の深層学習における不確実性推定の課題と今後の方向性について論じる。 このレビューがコミュニティにさらなる関心を喚起し、医学画像における不確実性推定モデルの適用に関する最新の参照を研究者に提供することを期待している。

The use of AI systems in healthcare for the early screening of diseases is of great clinical importance. Deep learning has shown great promise in medical imaging, but the reliability and trustworthiness of AI systems limit their deployment in real clinical scenes, where patient safety is at stake. Uncertainty estimation plays a pivotal role in producing a confidence evaluation along with the prediction of the deep model. This is particularly important in medical imaging, where the uncertainty in the model's predictions can be used to identify areas of concern or to provide additional information to the clinician. In this paper, we review the various types of uncertainty in deep learning, including aleatoric uncertainty and epistemic uncertainty. We further discuss how they can be estimated in medical imaging. More importantly, we review recent advances in deep learning models that incorporate uncertainty estimation in medical imaging. Finally, we discuss the challenges and future directions in uncertainty estimation in deep learning for medical imaging. We hope this review will ignite further interest in the community and provide researchers with an up-to-date reference regarding applications of uncertainty estimation models in medical imaging.
翻訳日:2023-05-16 23:17:16 公開日:2023-05-15
# 圧電材料のためのスパースヒステリシスモデルの発見

Discovery of sparse hysteresis models for piezoelectric materials ( http://arxiv.org/abs/2302.05313v5 )

ライセンス: Link先を確認
Abhishek Chandra, Bram Daniels, Mitrofan Curti, Koen Tiels, Elena A. Lomonova and Daniel M. Tartakovsky(参考訳) 本稿では,近年の機械学習,特にスパース回帰技術を活用した圧電材料におけるヒステリシスのモデル化手法を提案する。 スパース回帰は、以前は様々な科学的・工学的現象のモデル化に用いられてきたが、圧電材料における非線形ヒステリシスモデリングへの応用はまだ検討されていない。 本研究は, ヒステリシスの原因となる力学系を逐次しきい値付き最小二乗法を用いてモデル化し, シミュレーションと実験の両方の圧電材料データに対するヒステリシスを正確に予測する簡潔なモデルを構築した。 蝶型ヒステリシスの学習や圧電アクチュエータの実世界のヒステリシスデータのモデル化など,いくつかの数値実験が行われた。 提案手法は,従来の回帰型およびニューラルネットワーク法と比較し,その効率性と頑健性を示す。 ソースコードはhttps://github.com/chandratue/SmartHysteresisで入手できる。

This article presents an approach for modelling hysteresis in piezoelectric materials, that leverages recent advancements in machine learning, particularly in sparse-regression techniques. While sparse regression has previously been used to model various scientific and engineering phenomena, its application to nonlinear hysteresis modelling in piezoelectric materials has yet to be explored. The study employs the least-squares algorithm with a sequential threshold to model the dynamic system responsible for hysteresis, resulting in a concise model that accurately predicts hysteresis for both simulated and experimental piezoelectric material data. Several numerical experiments are performed, including learning butterfly-shaped hysteresis and modelling real-world hysteresis data for a piezoelectric actuator. The presented approach is compared to traditional regression-based and neural network methods, demonstrating its efficiency and robustness. Source code is available at https://github.com/chandratue/SmartHysteresis
翻訳日:2023-05-16 23:16:59 公開日:2023-05-15
# 拡散モデルを用いたシンボリック音楽の生成

Generating symbolic music using diffusion models ( http://arxiv.org/abs/2303.08385v2 )

ライセンス: Link先を確認
Lilac Atassi(参考訳) Denoising Diffusion Probabilistic Modelは単純だが非常に強力な生成モデルとして登場した。 他の生成モデルとは異なり、拡散モデルはモード崩壊に苦しむことはなく、また判別器が高品質なサンプルを生成する必要がある。 本稿では,ピアノロールの生成に二項先行分布を用いた拡散モデルを提案する。 また,モデルを訓練し,サンプルを生成する効率的な方法を提案する。 生成された音楽は、トレーニングピアノロールセグメントの長さまでスケールするときにコヒーレンスを有する。 論文は、このモデルが入力に対してどのように条件付けされているかを示し、与えられたメロディの調和、不完全なピアノロールの完成、あるいは与えられた曲のバリエーションの生成に使用できる。 このコードはコミュニティによるメソッドの使用と開発を促進するために公開されています。

Denoising Diffusion Probabilistic models have emerged as simple yet very powerful generative models. Unlike other generative models, diffusion models do not suffer from mode collapse or require a discriminator to generate high-quality samples. In this paper, a diffusion model that uses a binomial prior distribution to generate piano rolls is proposed. The paper also proposes an efficient method to train the model and generate samples. The generated music has coherence at time scales up to the length of the training piano roll segments. The paper demonstrates how this model is conditioned on the input and can be used to harmonize a given melody, complete an incomplete piano roll, or generate a variation of a given piece. The code is publicly shared to encourage the use and development of the method by the community.
翻訳日:2023-05-16 23:08:59 公開日:2023-05-15
# 原子と極性分子間の電荷-双極子相互作用によるライドバーグ封鎖の観測

Observation of Rydberg blockade due to the charge-dipole interaction between an atom and a polar molecule ( http://arxiv.org/abs/2303.06126v2 )

ライセンス: Link先を確認
Alexander Guttridge, Daniel K. Ruttley, Archie C. Baldock, Rosario Gonz\'alez-F\'erez, H. R. Sadeghpour, C. S. Adams and Simon L. Cornish(参考訳) 我々は、単一rb原子と単一rbcs分子との電荷-双極子相互作用により、ライドバーグの閉じ込めを示す。 この分子は、Rb+Cs原子対の磁気解離によって形成され、その後91(1)\%の効率で可解性基底状態に移される。 種特異的トワイザーは、原子と分子の分離を制御するために用いられる。 電荷-双極子相互作用は、原子-分子分離が310(40)$~nmに設定されると、rb(52s) rydberg状態への遷移を遮断する。 観測された励起ダイナミクスは、計算された相互作用ポテンシャルを用いたシミュレーションとよく一致している。 以上の結果から,rydberg原子を用いて個別に捕捉された分子間で量子情報が伝達されるハイブリッドプラットフォームが期待できる。

We demonstrate Rydberg blockade due to the charge-dipole interaction between a single Rb atom and a single RbCs molecule confined in optical tweezers. The molecule is formed by magnetoassociation of a Rb+Cs atom pair and subsequently transferred to the rovibrational ground state with an efficiency of 91(1)\%. Species-specific tweezers are used to control the separation between the atom and molecule. The charge-dipole interaction causes blockade of the transition to the Rb(52s) Rydberg state, when the atom-molecule separation is set to $310(40)$~nm. The observed excitation dynamics are in good agreement with simulations using calculated interaction potentials. Our results open up the prospect of a hybrid platform where quantum information is transferred between individually trapped molecules using Rydberg atoms.
翻訳日:2023-05-16 23:07:37 公開日:2023-05-15
# 時間非依存変動密度関数計算によるダイヤモンド中の荷電窒素空孔中心の電子励起

Electronic excitations of the charged nitrogen-vacancy center in diamond obtained using time-independent variational density functional calculations ( http://arxiv.org/abs/2303.03838v2 )

ライセンス: Link先を確認
Aleksei V. Ivanov, Yorick L. A. Schmerwitz, Gianluca Levi, Hannes J\'onsson(参考訳) 量子応用における固体中の点欠陥の光スピン初期化機構の解明には、関連する励起電子状態の正確な記述が必要である。 変分密度関数計算は様々なシステムの基底状態を記述することに成功しているが、そのような計算が点欠陥の電子的励起を記述する能力について、文献で疑問が呈されている。 ここで直接軌道最適化法を用いて、ダイヤモンド中の負の荷電窒素空隙中心である原型欠陥の時間に依存しない変分密度汎関数計算を行う。 計算は周期境界条件下で最大511個の原子を含み、励起状態計算は基底状態計算と同様の計算作業を必要とする。 以前の報告とは対照的に、局所的および半局所的な密度汎関数の使用は、低次の三重項状態と一重項状態、すなわち${}^{3}A_2 < {}^{1}E < {}^{1}A_1 < {}^{3}E$の正しい順序を与える。 さらに、より高度なメタ一般化勾配近似関数は、高レベルな多体計算と驚くほどよく一致した結果を与えるだけでなく、しばしばマルチ参照特性を持つような励起一重項状態に対しても利用可能な実験推定値を与える。 原子座標が解析力に応じて最適化されるときの三重項励起状態におけるエネルギーの低下も実験的な見積もりに近く、結果として生じるゼロフォノン線三重項励起エネルギーはわずか0.15eVで過小評価される。 ここで用いられるアプローチは、例えば量子技術に関連するシステムにおける点欠陥の電子的励起を研究するための有望なツールである。

Elucidation of the mechanism for optical spin initialization of point defects in solids in the context of quantum applications requires an accurate description of the excited electronic states involved. While variational density functional calculations have been successful in describing the ground state of a great variety of systems, doubts have been expressed in the literature regarding the ability of such calculations to describe electronic excitations of point defects. A direct orbital optimization method is used here to perform time-independent, variational density functional calculations of a prototypical defect, the negatively charged nitrogen-vacancy center in diamond. The calculations include up to 511 atoms subject to periodic boundary conditions and the excited state calculations require similar computational effort as ground state calculations. Contrary to some previous reports, the use of local and semilocal density functionals gives the correct ordering of the low-lying triplet and singlet states, namely ${}^{3}A_2 < {}^{1}E < {}^{1}A_1 < {}^{3}E$. Furthermore, the more advanced meta generalized gradient approximation functionals give results that are in remarkably good agreement with high-level, many-body calculations as well as available experimental estimates, even for the excited singlet state which is often referred to as having multireference character. The lowering of the energy in the triplet excited state as the atom coordinates are optimized in accordance with analytical forces is also close to the experimental estimate and the resulting zero-phonon line triplet excitation energy is underestimated by only 0.15 eV. The approach used here is found to be a promising tool for studying electronic excitations of point defects in, for example, systems relevant for quantum technologies.
翻訳日:2023-05-16 23:06:22 公開日:2023-05-15
# 対話生成のための階層的行動探索型深層rl

Deep RL with Hierarchical Action Exploration for Dialogue Generation ( http://arxiv.org/abs/2303.13465v3 )

ライセンス: Link先を確認
Itsugun Cho, Ryota Takahashi, Yusaku Yanase, Hiroaki Saito(参考訳) 伝統的に、自然言語のアクション空間が広大なため、アクションサンプリングによるグリージーポリシーの改善と対話生成に近似動的プログラミングが用いられている。 しかし、このプラクティスは、高いアクション値を持つ応答の空間性のため、強化学習(RL)では非効率であり、ランダムサンプリングによって改善が持続する。 本稿では,対話政策の性能がサンプリングサイズと正の相関を示す理論的解析と実験について述べる。 この制限を克服するために、サンプリングプロセスに介入する最も有望な応答圏を探索する新しい双粒度q関数を導入する。 提案手法は, きめ細かい階層に基づくアクションを抽出し, より少ないポリシー反復で最適な動作を実現する。 さらに、オフラインRLを用いて、人間のインタラクションにおける感情的ニュアンスを捉えるために設計された複数の報酬関数から学習する。 実験的な研究により、我々のアルゴリズムは自動測定と人的評価でベースラインを上回ります。 さらなるテストにより,本アルゴリズムは説明可能性と制御性の両方を示し,より高い報酬を期待できる応答を生成する。

Traditionally, approximate dynamic programming is employed in dialogue generation with greedy policy improvement through action sampling, as the natural language action space is vast. However, this practice is inefficient for reinforcement learning (RL) due to the sparsity of eligible responses with high action values, which leads to weak improvement sustained by random sampling. This paper presents theoretical analysis and experiments that reveal the performance of the dialogue policy is positively correlated with the sampling size. To overcome this limitation, we introduce a novel dual-granularity Q-function that explores the most promising response category to intervene in the sampling process. Our approach extracts actions based on a grained hierarchy, thereby achieving the optimum with fewer policy iterations. Additionally, we use offline RL and learn from multiple reward functions designed to capture emotional nuances in human interactions. Empirical studies demonstrate that our algorithm outperforms baselines across automatic metrics and human evaluations. Further testing reveals that our algorithm exhibits both explainability and controllability and generates responses with higher expected rewards.
翻訳日:2023-05-16 23:00:04 公開日:2023-05-15
# 微分可能論理の論理:dlの一様意味論に向けて

Logic of Differentiable Logics: Towards a Uniform Semantics of DL ( http://arxiv.org/abs/2303.10650v2 )

ライセンス: Link先を確認
Natalia \'Slusarz, Ekaterina Komendantskaya, Matthew L. Daggitt, Robert Stewart, Kathrin Stark(参考訳) 近年、論理仕様を満たすためにニューラルネットワークをトレーニングする方法として微分論理(DL)が提案されている。 DLは仕様が記述される構文と、構文の式を損失関数に変換する解釈関数から構成される。 これらの損失関数は、標準勾配降下アルゴリズムでトレーニング中に使用できる。 既存のDLの多様性とそれらが扱われる形式レベルの違いは、それらの特性と実装に関する体系的な比較研究を困難にしている。 本稿では、微分可能論理学(LDL)と呼ばれるDLを定義するメタ言語を提案することにより、この問題を是正する。 構文的には、既存のDLの構文をFOLに一般化し、ベクトルと学習者について推論するフォーマリズムを初めて導入する。 意味的には、既存のDLから生じる損失関数を定義するためにインスタンス化できる一般的な解釈関数を導入する。 我々はLDLを用いて、既存のDLの理論的特性を確立し、ニューラルネットワーク検証における実証的研究を行う。

Differentiable logics (DL) have recently been proposed as a method of training neural networks to satisfy logical specifications. A DL consists of a syntax in which specifications are stated and an interpretation function that translates expressions in the syntax into loss functions. These loss functions can then be used during training with standard gradient descent algorithms. The variety of existing DLs and the differing levels of formality with which they are treated makes a systematic comparative study of their properties and implementations difficult. This paper remedies this problem by suggesting a meta-language for defining DLs that we call the Logic of Differentiable Logics, or LDL. Syntactically, it generalises the syntax of existing DLs to FOL, and for the first time introduces the formalism for reasoning about vectors and learners. Semantically, it introduces a general interpretation function that can be instantiated to define loss functions arising from different existing DLs. We use LDL to establish several theoretical properties of existing DLs, and to conduct their empirical study in neural network verification.
翻訳日:2023-05-16 22:59:18 公開日:2023-05-15
# 新しいベンチマーク: 平均教師付き学習と下流ドメイン適応のためのブレンダー付き合成データの有用性について

A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation ( http://arxiv.org/abs/2303.09165v3 )

ライセンス: Link先を確認
Hui Tang and Kui Jia(参考訳) コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。 しかしながら、高い労働コストとあいまいなラベリング精度のため、すべての関心領域のタスクごとに徹底したデータアノテーションは実行不可能である。 さらに、制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。 これらすべての疑問は、典型的な理論の検証と新しい発見への露出を妨げる可能性がある。 これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。 この研究は、素人による教師なし学習と下流ドメイン適応に関する深い研究をすることで、この線に沿って前進させます。 具体的には、3Dレンダリングによって実現されたよく制御されたIDデータ設定の下で、例えば、ショートカット学習のような典型的な重要な学習の洞察を体系的に検証し、一般化における様々なデータ体制とネットワークアーキテクチャの新しい法則を発見する。 さらに,3dシーンにおける物体スケール,素材テクスチャ,照明,カメラ視点,背景などの一般化に対する画像形成因子の影響についても検討した。 さらに, 合成データと実データとの伝達性を比較するため, シミュレーションから現実への適応を下流タスクとして用いることにより, 合成データの事前学習が実テスト結果の向上にも寄与することを示す。 最後に,今後の研究を促進するために,s2rdaと呼ばれる画像分類のための新しい大規模合成-実数ベンチマークを開発し,シミュレーションから現実への移動に関するより重要な課題を提供する。 コードとデータセットはhttps://github.com/huitangtang/on_the_utility_of_synthetic_dataで入手できる。

Deep learning in computer vision has achieved great success with the price of large-scale labeled training data. However, exhaustive data annotation is impracticable for each task of all domains of interest, due to high labor costs and unguaranteed labeling accuracy. Besides, the uncontrollable data collection process produces non-IID training and test data, where undesired duplication may exist. All these nuisances may hinder the verification of typical theories and exposure to new findings. To circumvent them, an alternative is to generate synthetic data via 3D rendering with domain randomization. We in this work push forward along this line by doing profound and extensive research on bare supervised learning and downstream domain adaptation. Specifically, under the well-controlled, IID data setting enabled by 3D rendering, we systematically verify the typical, important learning insights, e.g., shortcut learning, and discover the new laws of various data regimes and network architectures in generalization. We further investigate the effect of image formation factors on generalization, e.g., object scale, material texture, illumination, camera viewpoint, and background in a 3D scene. Moreover, we use the simulation-to-reality adaptation as a downstream task for comparing the transferability between synthetic and real data when used for pre-training, which demonstrates that synthetic data pre-training is also promising to improve real test results. Lastly, to promote future research, we develop a new large-scale synthetic-to-real benchmark for image classification, termed S2RDA, which provides more significant challenges for transfer from simulation to reality. The code and datasets are available at https://github.com/huitangtang/On_the_Utility_of_Synthetic_Data.
翻訳日:2023-05-16 22:57:34 公開日:2023-05-15
# インタラクティブプロンプトによる効率的なマルチモーダル融合

Efficient Multimodal Fusion via Interactive Prompting ( http://arxiv.org/abs/2304.06306v2 )

ライセンス: Link先を確認
Yaowei Li, Ruijie Quan, Linchao Zhu, Yi Yang(参考訳) 大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。 この傾向に従い、マルチモーダル学習モデルのサイズは絶えず増大し、ダウンストリームタスクのためにこれらのモデルを微調整する膨大な計算コストを削減する必要がある。 本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。 具体的には、まず、高い柔軟性を示し、異なるモード間の相互相互作用を容易にするモジュラーマルチモーダル融合フレームワークを提案する。 さらに,バニラプロンプトを3つのタイプに切り離して,マルチモーダル学習のための最適化目的を学習する。 また, インモーダル変換器の深層層のみにプロンプトベクトルを追加することを提案することで, トレーニングメモリ使用量を大幅に削減できることも注目に値する。 実験の結果,提案手法はトレーニング可能なパラメータが3%未満で,最大66%のメモリ使用量の削減が可能な他のマルチモーダルファインタニング手法と同等の性能を達成できた。

Large-scale pre-training has brought unimodal fields such as computer vision and natural language processing to a new era. Following this trend, the size of multi-modal learning models constantly increases, leading to an urgent need to reduce the massive computational cost of finetuning these models for downstream tasks. In this paper, we propose an efficient and flexible multimodal fusion method, namely PMF, tailored for fusing unimodally pre-trained transformers. Specifically, we first present a modular multimodal fusion framework that exhibits high flexibility and facilitates mutual interactions among different modalities. In addition, we disentangle vanilla prompts into three types in order to learn different optimizing objectives for multimodal learning. It is also worth noting that we propose to add prompt vectors only on the deep layers of the unimodal transformers, thus significantly reducing the training memory usage. Experiment results show that our proposed method achieves comparable performance to several other multimodal finetuning methods with less than 3% trainable parameters and up to 66% saving of training memory usage.
翻訳日:2023-05-16 22:50:21 公開日:2023-05-15
# エッカートと湯川ポテンシャルのクラスを持つクライン・ゴルドン方程式の任意の$\ell$-状態解とその非相対論的熱的性質

Arbitrary $\ell$-state solutions of the Klein-Gordon equation with the Eckart plus a class of Yukawa potential and its non-relativistic thermal properties ( http://arxiv.org/abs/2304.00406v2 )

ライセンス: Link先を確認
Mehmet Demirci and Ramazan Sever(参考訳) 我々は, パラメトリックニキフォロフ-ウバロフ法を用いて, クライン・ゴードン方程式とエッカートと湯川ポテンシャルのクラスを組み合わせた境界状態解を報告する。 遠心運動とクーロン行動の項を扱うために、グリーン・アルドリッチ近似スキームを適用する。 我々は、任意の$\ell$-状態エネルギー固有値と、上記の系の閉形式における対応する正規化波動関数を示す。 本稿では,他の物理システムに有用であると考えられる潜在能力に関する諸事例について論じ,文献上の過去の報告と一致していることを示す。 さらに, ポテンシャルモデルに対する非相対論的熱力学量(分配関数, 平均エネルギー, 自由エネルギー, 比熱, エントロピー)を計算し, いくつかの二原子分子について検討した。 エネルギー固有値は、パラメータ $\delta$ とともに、量子数 $n_r$ と $\ell$ に関して敏感である。 その結果、エネルギー固有値はより小さい量子数 $\ell$ またはより小さいパラメータ $\delta$ でより有界であることが示される。

We report bound state solutions of the Klein Gordon equation with a novel combined potential, the Eckart plus a class of Yukawa potential, by means of the parametric Nikiforov-Uvarov method. To deal the centrifugal and the coulombic behavior terms, we apply the Greene-Aldrich approximation scheme. We present any $\ell$-state energy eigenvalues and the corresponding normalized wave functions of a mentioned system in a closed form. We discuss various special cases related to our considered potential which are utility for other physical systems and show that these are consistent with previous reports in literature. Moreover, we calculate the non-relativistic thermodynamic quantities (partition function, mean energy, free energy, specific heat and entropy) for the potential model in question, and investigate them for a few diatomic molecules. We find that the energy eigenvalues are sensitive with regard to the quantum numbers $n_r$ and $\ell$ as well as the parameter $\delta$. Our results show that energy eigenvalues are more bounded at either smaller quantum number $\ell$ or smaller parameter $\delta$.
翻訳日:2023-05-16 22:48:56 公開日:2023-05-15
# リダイレクトウォーキングによるフル没入型マルチユーザーバーチャルリアリティの予測コンテキスト認識

Predictive Context-Awareness for Full-Immersive Multiuser Virtual Reality with Redirected Walking ( http://arxiv.org/abs/2303.17907v3 )

ライセンス: Link先を確認
Filip Lemic, Jakob Struye, Thomas Van Onsem, Jeroen Famaey, Xavier Costa Perez(参考訳) 仮想現実(VR)技術の進歩は、没入性の向上、マルチユーザバーチャルエクスペリエンス(VE)のサポート、ユーザがリダイレクトウォーキング(RDW)を通じて専用のVRセットアップに制限されたまま、VE内で自由に移動できるようにすることに焦点を当てている。 極端なデータレートとレイテンシの要件を満たすため、将来のVRシステムは、ビームフォーミングとビームステアリングによる送信と受信の両方で高い指向性通信を利用するミリ波(mmWave)周波数で動作する無線ネットワークインフラストラクチャをサポートする必要がある。 本稿では,送信機と受信機側のビームフォーミングとビームステアリングを最適化するための予測文脈認識手法を提案する。 リダイレクトウォーキング(rdw)によるマルチユーザvrセットアップにおけるユーザの短期的横動きを予測することにより、送信側ビームフォーミングとビームステアリングを、ユーザの方向の視線(los)「トラッキング」により最適化することができる。 同時に、範囲の柔軟性向上のために、受信側ビームフォーミングに短期方向移動の予測を利用することができる。 これら2つのコンテキスト情報インスタンスの予測における2つのオープン問題を対象としています。 一 RDWによるマルチユーザーVR設定における横動きの予測及び 二 方位運動予測器の訓練のための合成頭部回転データセットの作成 実験の結果,long short-term memory (lstm) ネットワークは側方運動の予測に有望な精度を発揮でき,vesによる文脈認識はこの精度をさらに向上させることがわかった。 さらに, 配向データ生成のためのTimeGANに基づく手法により, 実験により得られたデータと密に一致した合成サンプルを作成できることを示す。

The advancement of Virtual Reality (VR) technology is focused on improving its immersiveness, supporting multiuser Virtual Experiences (VEs), and enabling the users to move freely within their VEs while still being confined within specialized VR setups through Redirected Walking (RDW). To meet their extreme data-rate and latency requirements, future VR systems will require supporting wireless networking infrastructures operating in millimeter Wave (mmWave) frequencies that leverage highly directional communication in both transmission and reception through beamforming and beamsteering. We propose the use of predictive context-awareness to optimize transmitter and receiver-side beamforming and beamsteering. By predicting users' short-term lateral movements in multiuser VR setups with Redirected Walking (RDW), transmitter-side beamforming and beamsteering can be optimized through Line-of-Sight (LoS) "tracking" in the users' directions. At the same time, predictions of short-term orientational movements can be utilized for receiver-side beamforming for coverage flexibility enhancements. We target two open problems in predicting these two context information instances: i) predicting lateral movements in multiuser VR settings with RDW, and ii) generating synthetic head rotation datasets for training orientational movements predictors. Our experimental results demonstrate that Long Short-Term Memory (LSTM) networks feature promising accuracy in predicting lateral movements, and context-awareness stemming from VEs further enhances this accuracy. Additionally, we show that a TimeGAN-based approach for orientational data generation can create synthetic samples that closely match experimentally obtained ones.
翻訳日:2023-05-16 22:48:35 公開日:2023-05-15
# コンピュータビジョンにおける双曲幾何学:畳み込みニューラルネットワークの新しいフレームワーク

Hyperbolic Geometry in Computer Vision: A Novel Framework for Convolutional Neural Networks ( http://arxiv.org/abs/2303.15919v2 )

ライセンス: Link先を確認
Ahmad Bdeir and Kristian Schwethelm and Niels Landwehr(参考訳) 実世界のビジュアルデータは、双曲空間において効果的に表現できる固有の階層構造を示す。 双曲型ニューラルネットワーク(HNN)は、そのような空間における特徴表現を学習するための有望なアプローチである。 しかし、現在のコンピュータビジョンにおけるhnnはユークリッドのバックボーンに依存しており、タスクヘッドの双曲空間にのみ機能を投影し、双曲幾何学の利点を十分に活用する能力を制限する。 これを解決するために、コンピュータビジョンタスク用に設計された最初の完全双曲畳み込みニューラルネットワーク(CNN)であるHCNNを紹介する。 ローレンツモデルに基づいて,CNNの基本成分を一般化し,畳み込み層,バッチ正規化,多項ロジスティック回帰の新たな定式化を提案する。 標準的な視覚タスクの実験は、HCNNフレームワークとLorentzモデルがハイブリッドと完全に双曲的の両方で優れていることを示す。 全体として、私たちのコントリビューションは、画像データに見られる複雑な構造をより良く表現できる、より強力なHNNを開発する基盤となると信じています。 私たちのコードはhttps://github.com/kschwethelm/HyperbolicCVで公開されています。

Real-world visual data exhibit intrinsic hierarchical structures that can be represented effectively in hyperbolic spaces. Hyperbolic neural networks (HNNs) are a promising approach for learning feature representations in such spaces. However, current HNNs in computer vision rely on Euclidean backbones and only project features to the hyperbolic space in the task heads, limiting their ability to fully leverage the benefits of hyperbolic geometry. To address this, we present HCNN, the first fully hyperbolic convolutional neural network (CNN) designed for computer vision tasks. Based on the Lorentz model, we generalize fundamental components of CNNs and propose novel formulations of the convolutional layer, batch normalization, and multinomial logistic regression. Experimentation on standard vision tasks demonstrates the superiority of our HCNN framework and the Lorentz model in both hybrid and fully hyperbolic settings. Overall, we believe our contributions provide a foundation for developing more powerful HNNs that can better represent complex structures found in image data. Our code is publicly available at https://github.com/kschwethelm/HyperbolicCV.
翻訳日:2023-05-16 22:47:41 公開日:2023-05-15
# SVD-DIP : DIPによるCT再建におけるオーバーフィッティングの克服

SVD-DIP: Overcoming the Overfitting Problem in DIP-based CT Reconstruction ( http://arxiv.org/abs/2303.15748v3 )

ライセンス: Link先を確認
Marco Nittscher, Michael Lameter, Riccardo Barbano, Johannes Leuschner, Bangti Jin, Peter Maass(参考訳) deep image prior(dip)は、画像再構成のためのよく確立された教師なしのディープラーニング手法である。 ディップは、早期停止でなければノイズに過度に適合し、あるいは正規化された目的によって最適化される。 我々は、学習を特異値の適応に制限する新しい戦略を採用することにより、事前訓練されたDIPの規則化された微調整を構築する。 提案するsvd-dipは,事前学習パラメータが特異値分解によって分解されるアドホック畳み込み層を用いる。 このときの DIP の最適化は、左特異ベクトルと右特異ベクトルを固定しながら、特異値の微調整のみからなる。 ロータス根の実測値$\mu$ctデータと2つの医療データセット(lodopabとmayo)について,提案手法を徹底的に検証した。 オーバーフィットを克服することにより,ディップ最適化の安定性が大幅に向上した。

The deep image prior (DIP) is a well-established unsupervised deep learning method for image reconstruction; yet it is far from being flawless. The DIP overfits to noise if not early stopped, or optimized via a regularized objective. We build on the regularized fine-tuning of a pretrained DIP, by adopting a novel strategy that restricts the learning to the adaptation of singular values. The proposed SVD-DIP uses ad hoc convolutional layers whose pretrained parameters are decomposed via the singular value decomposition. Optimizing the DIP then solely consists in the fine-tuning of the singular values, while keeping the left and right singular vectors fixed. We thoroughly validate the proposed method on real-measured $\mu$CT data of a lotus root as well as two medical datasets (LoDoPaB and Mayo). We report significantly improved stability of the DIP optimization, by overcoming the overfitting to noise.
翻訳日:2023-05-16 22:47:24 公開日:2023-05-15
# 重要ノードのブリッジネス同定によるスキップグラムに基づくノード埋め込みのポストホック説明の生成

Generating Post-hoc Explanations for Skip-gram-based Node Embeddings by Identifying Important Nodes with Bridgeness ( http://arxiv.org/abs/2304.12036v3 )

ライセンス: Link先を確認
Hogun Park and Jennifer Neville(参考訳) ネットワーク内のノード表現学習は、ネットワーク固有の特性と構造を保持しながら、連続ベクトル空間内の関係情報を符号化する重要な機械学習技術である。 近年,Skip-gramモデルからDeepWalk,LINE,struc2vec,PTE,UserItem2vec,RWJBGなどの教師なしノード埋め込み手法が登場し,既存のリレーショナルモデルよりもノード分類やリンク予測などの下流タスクで性能が向上している。 しかし, 埋込法や理論研究が欠如していることから, 埋込法に関するポストホックな説明は難しい問題である。 本稿では,Skip-gramをベースとした埋め込みのグローバルな説明は,スペクトルクラスタを意識した局所摂動下でのブリッジネスの計算によって得られることを示す。 さらに, 学習グラフ埋め込みベクトルに関するトップq大域的説明をより効率的に行うために, graph-wgd と呼ぶ新しい勾配に基づく説明法を提案する。 実験により, Graph-wGD を用いたスコアによるノードのランク付けは, 真のブリッジネススコアと高い相関性を示した。 また, Graph-wGD が選択したトップqノードレベルの説明は,5つの実世界のグラフを用いて,近年の代替案で選択されたノードと比較して,より重要度が高く,乱れ時にクラスラベルの予測値が大きく変化する。

Node representation learning in a network is an important machine learning technique for encoding relational information in a continuous vector space while preserving the inherent properties and structures of the network. Recently, unsupervised node embedding methods such as DeepWalk, LINE, struc2vec, PTE, UserItem2vec, and RWJBG have emerged from the Skip-gram model and perform better performance in several downstream tasks such as node classification and link prediction than the existing relational models. However, providing post-hoc explanations of Skip-gram-based embeddings remains a challenging problem because of the lack of explanation methods and theoretical studies applicable for embeddings. In this paper, we first show that global explanations to the Skip-gram-based embeddings can be found by computing bridgeness under a spectral cluster-aware local perturbation. Moreover, a novel gradient-based explanation method, which we call GRAPH-wGD, is proposed that allows the top-q global explanations about learned graph embedding vectors more efficiently. Experiments show that the ranking of nodes by scores using GRAPH-wGD is highly correlated with true bridgeness scores. We also observe that the top-q node-level explanations selected by GRAPH-wGD have higher importance scores and produce more changes in class label prediction when perturbed, compared with the nodes selected by recent alternatives, using five real-world graphs.
翻訳日:2023-05-16 21:05:14 公開日:2023-05-15
# 確率的論理推論を用いた逐次レコメンデーション

Sequential Recommendation with Probabilistic Logical Reasoning ( http://arxiv.org/abs/2304.11383v2 )

ライセンス: Link先を確認
Huanhuan Yuan, Pengpeng Zhao, Xuefeng Xian and Guanfeng Liu and Victor S. Sheng and Lei Zhao(参考訳) 深層学習と記号学習は、逐次勧告(SR)においてよく用いられる方法である。 最近のニューラルシンボリックSRモデルは、SRが同時に知覚能力と認知能力を備える可能性を示している。 しかし、ユーザーやアイテムを論理的推論で表現するといったオープンな問題のために、ニューラルネットワークの象徴的SRは依然として難しい問題である。 本稿では,ディープニューラルネットワーク(dnn)srモデルを論理推論と組み合わせ,確率的論理推論(sr-plrの略)を用いた逐次推奨という一般的な枠組みを提案する。 このフレームワークにより、SR-PLRはDNNと確率論理ネットワークに機能埋め込みとロジック埋め込みを分離することで、類似性マッチングと論理推論の両方の利点を享受できる。 ユーザの嗜好の不確実性と進化をよりよく捉えるため、SR-PLRはユーザとアイテムを確率論的手法で埋め込み、ユーザのインタラクションパターンに確率論的論理的推論を行う。 次に、dnnおよび論理ネットワークから学習した特徴と論理表現を連結して予測を行う。 最後に、様々なシーケンシャルレコメンデーションモデルに対する実験により、SR-PLRの有効性を示す。

Deep learning and symbolic learning are two frequently employed methods in Sequential Recommendation (SR). Recent neural-symbolic SR models demonstrate their potential to enable SR to be equipped with concurrent perception and cognition capacities. However, neural-symbolic SR remains a challenging problem due to open issues like representing users and items in logical reasoning. In this paper, we combine the Deep Neural Network (DNN) SR models with logical reasoning and propose a general framework named Sequential Recommendation with Probabilistic Logical Reasoning (short for SR-PLR). This framework allows SR-PLR to benefit from both similarity matching and logical reasoning by disentangling feature embedding and logic embedding in the DNN and probabilistic logic network. To better capture the uncertainty and evolution of user tastes, SR-PLR embeds users and items with a probabilistic method and conducts probabilistic logical reasoning on users' interaction patterns. Then the feature and logic representations learned from the DNN and logic network are concatenated to make the prediction. Finally, experiments on various sequential recommendation models demonstrate the effectiveness of the SR-PLR.
翻訳日:2023-05-16 21:04:45 公開日:2023-05-15
# metropolisアルゴリズムは、ローカルオプティマに対してどの程度うまく対処できるのか?

How Well Does the Metropolis Algorithm Cope With Local Optima? ( http://arxiv.org/abs/2304.10848v2 )

ライセンス: Link先を確認
Benjamin Doerr, Taha El Ghazi El Houssaini, Amirhossein Rajabi, and Carsten Witt(参考訳) メトロポリスアルゴリズム (MA) は古典的な確率的局所探索ヒューリスティックである。 時折劣る解を受け入れることにより、局所最適状態に陥ることを避ける。 厳密な方法でこの能力を理解するために,我々はCLIFFベンチマーク上でMAの数学的ランタイム解析を行う。 1つの局所的な最適性とは別に、崖関数はグローバルな最適性に向かって単調に増大している。 したがって、崖関数を最適化するためには、MAは一度だけ劣る解を受け入れる必要がある。 MAが主要な動作原理から利益を得るための理想的なベンチマークであるように見えるが、数学的ランタイム分析は、この望みが実現していないことを示している。 最適温度(MAの唯一のパラメータ)であっても、MAは単純なエリート主義進化アルゴリズム(EA)よりも効率の悪い崖関数を最適化する。 この結果は、MAが実際に非常に成功した理由に関する我々の理解が、まだ完了していないことを示唆している。 私たちの研究はまた、maにグローバル変異演算子を装備することを提案しています。

The Metropolis algorithm (MA) is a classic stochastic local search heuristic. It avoids getting stuck in local optima by occasionally accepting inferior solutions. To better and in a rigorous manner understand this ability, we conduct a mathematical runtime analysis of the MA on the CLIFF benchmark. Apart from one local optimum, cliff functions are monotonically increasing towards the global optimum. Consequently, to optimize a cliff function, the MA only once needs to accept an inferior solution. Despite seemingly being an ideal benchmark for the MA to profit from its main working principle, our mathematical runtime analysis shows that this hope does not come true. Even with the optimal temperature (the only parameter of the MA), the MA optimizes most cliff functions less efficiently than simple elitist evolutionary algorithms (EAs), which can only leave the local optimum by generating a superior solution possibly far away. This result suggests that our understanding of why the MA is often very successful in practice is not yet complete. Our work also suggests to equip the MA with global mutation operators, an idea supported by our preliminary experiments.
翻訳日:2023-05-16 21:04:27 公開日:2023-05-15
# Tetra-NeRF:Tetrahedraを用いたニューラルラジアンスフィールドの表現

Tetra-NeRF: Representing Neural Radiance Fields Using Tetrahedra ( http://arxiv.org/abs/2304.09987v2 )

ライセンス: Link先を確認
Jonas Kulhanek and Torsten Sattler(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成と3次元再構成の問題に対して、非常に最近かつ非常にポピュラーなアプローチである。 NeRFの一般的なシーン表現は、シーンの均一なボクセルベースのサブディビジョンとMPPを組み合わせることである。 本稿では,シーンの(少ない)点雲がしばしば利用できるという観測に基づいて,一様部分分割や点ベース表現の代わりに,デラウネー三角法によって得られるテトラヘドラに基づく適応表現を提案する。 このような表現が効率的なトレーニングを可能にし,最先端の成果をもたらすことを示す。 提案手法は, 3次元幾何処理, 三角形ベースのレンダリング, 現代のニューラル放射場の概念をエレガントに組み合わせる。 voxelベースの表現と比較すると、私達は表面に近いと思われるシーンの一部についてより詳細な情報を提供している。 点ベース表現と比較して,本手法は性能が向上する。

Neural Radiance Fields (NeRFs) are a very recent and very popular approach for the problems of novel view synthesis and 3D reconstruction. A popular scene representation used by NeRFs is to combine a uniform, voxel-based subdivision of the scene with an MLP. Based on the observation that a (sparse) point cloud of the scene is often available, this paper proposes to use an adaptive representation based on tetrahedra obtained by the Delaunay triangulation instead of the uniform subdivision or point-based representations. We show that such a representation enables efficient training and leads to state-of-the-art results. Our approach elegantly combines concepts from 3D geometry processing, triangle-based rendering, and modern neural radiance fields. Compared to voxel-based representations, ours provides more detail around parts of the scene likely to be close to the surface. Compared to point-based representations, our approach achieves better performance.
翻訳日:2023-05-16 21:04:08 公開日:2023-05-15
# 高周波トレーディング予測のための最適出力長短期記憶セル

Optimum Output Long Short-Term Memory Cell for High-Frequency Trading Forecasting ( http://arxiv.org/abs/2304.09840v3 )

ライセンス: Link先を確認
Adamantios Ntakaris, Moncef Gabbouj, Juho Kanniainen(参考訳) 高頻度取引は、正確な株価予測のために情報遅延のない高速データ処理を必要とする。 この高ペースの株価予測は通常、高周波取引に固有の時間不規則のため、シーケンシャルかつ時間に依存しない信号として扱う必要があるベクトルに基づいている。 これらの時間不規則性を考慮したよく文書化されテストされた手法は、long short-term memory neural networkと呼ばれるリカレントニューラルネットワークの一種である。 この種のニューラルネットワークは、セル内の順番が最適かどうかを知らずにゲートや状態を介して逐次的および静的な計算を行うセルに基づいて形成される。 本稿では,最良ゲートや状態を最終出力として選択する,改良されたリアルタイムな長寿命メモリセルを提案する。 私たちの細胞は浅いトポロジーの下で動作しており、最小のルックバック期間を持ち、オンラインでトレーニングされています。 本改訂したセルは,2つの高液量米国株と2つの低液量北欧株で試験されたリミットオーダーブック中価格予測などのオンライン高頻度トレーディング予測タスクにおいて,他のリカレントニューラルネットワークと比較して低い予測誤差を達成している。

High-frequency trading requires fast data processing without information lags for precise stock price forecasting. This high-paced stock price forecasting is usually based on vectors that need to be treated as sequential and time-independent signals due to the time irregularities that are inherent in high-frequency trading. A well-documented and tested method that considers these time-irregularities is a type of recurrent neural network, named long short-term memory neural network. This type of neural network is formed based on cells that perform sequential and stale calculations via gates and states without knowing whether their order, within the cell, is optimal. In this paper, we propose a revised and real-time adjusted long short-term memory cell that selects the best gate or state as its final output. Our cell is running under a shallow topology, has a minimal look-back period, and is trained online. This revised cell achieves lower forecasting error compared to other recurrent neural networks for online high-frequency trading forecasting tasks such as the limit order book mid-price prediction as it has been tested on two high-liquid US and two less-liquid Nordic stocks.
翻訳日:2023-05-16 21:03:37 公開日:2023-05-15
# ChatPLUG: オープンドメイン生成対話システム

ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented Instruction Tuning for Digital Human ( http://arxiv.org/abs/2304.07849v3 )

ライセンス: Link先を確認
Junfeng Tian, Hehong Chen, Guohai Xu, Ming Yan, Xing Gao, Jianhai Zhang, Chenliang Li, Jiayi Liu, Wenshen Xu, Haiyang Xu, Qi Qian, Wei Wang, Qinghao Ye, Jiejing Zhang, Ji Zhang, Fei Huang, Jingren Zhou(参考訳) 本稿では,デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムChatPLUGについて述べる。 大規模事前学習やモデルサイズや対話コーパスのスケールアップに焦点を当てた他のオープンドメイン対話モデルと異なり,多種多様なスキルを持つデジタル人間のための強力で実用的な対話システムを構築することを目的としている。 そこで我々はまず,共通文書コーパスと対話データとカリキュラム学習を併用した大規模事前学習を行い,さまざまな世界知識と対話能力をChatPLUGに注入する。 そこで我々は,知識,個性,マルチターンメモリ,共感といった多様な特徴にまたがる幅広い対話タスクを収集し,その上で,統一された自然言語命令テンプレートを用いて,モデル名のチューニングをさらに進める。 インターネット検索からの外部知識は、知識幻覚の問題を緩和するための教示微調整にも使用される。 自動評価と人間評価の両方において, \modelname は最先端の中国語対話システムよりも優れており,様々なテキスト理解と生成タスクにおいて,強力なマルチタスク一般化を示す。 さらに、高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような現実世界のアプリケーションに \modelname をデプロイします。 私たちのモデルとコードは、ModelScopeで公開されます。 https://modelscope.cn/models/damo/ChatPLUG-3.7B and Github: https://github.com/X-PLUG/ChatPLUG。

In this paper, we present ChatPLUG, a Chinese open-domain dialogue system for digital human applications that instruction finetunes on a wide range of dialogue tasks in a unified internet-augmented format. Different from other open-domain dialogue models that focus on large-scale pre-training and scaling up model size or dialogue corpus, we aim to build a powerful and practical dialogue system for digital human with diverse skills and good multi-task generalization by internet-augmented instruction tuning. To this end, we first conduct large-scale pre-training on both common document corpus and dialogue data with curriculum learning, so as to inject various world knowledge and dialogue abilities into ChatPLUG. Then, we collect a wide range of dialogue tasks spanning diverse features of knowledge, personality, multi-turn memory, and empathy, on which we further instruction tune \modelname via unified natural language instruction templates. External knowledge from an internet search is also used during instruction finetuning for alleviating the problem of knowledge hallucinations. We show that \modelname outperforms state-of-the-art Chinese dialogue systems on both automatic and human evaluation, and demonstrates strong multi-task generalization on a variety of text understanding and generation tasks. In addition, we deploy \modelname to real-world applications such as Smart Speaker and Instant Message applications with fast inference. Our models and code will be made publicly available on ModelScope: https://modelscope.cn/models/damo/ChatPLUG-3.7B and Github: https://github.com/X-PLUG/ChatPLUG .
翻訳日:2023-05-16 21:02:21 公開日:2023-05-15
# 不確定な距離表現のための経験的ブレグマン分岐の学習

Learning Empirical Bregman Divergence for Uncertain Distance Representation ( http://arxiv.org/abs/2304.07689v3 )

ライセンス: Link先を確認
Zhiyuan Li, Ziru Liu, Anna Zou, Anca L. Ralescu(参考訳) ディープメトリック学習技術は、ディープネットワークを用いたサンプルの埋め込みを学習することで、様々な教師なしおよび教師なしの学習タスクの視覚的表現に使われている。 しかし、2つの埋め込みの類似性関数として固定距離計量を用いる古典的手法は、複雑なデータ分布を捉える際の最適以下の性能をもたらす可能性がある。 bregman divergenceは様々な距離メトリクスの測定を一般化し、ディープメトリック学習の多くの分野に出現する。 本稿では,Bregmanの発散から,メトリクス学習の損失がどのように生ずるかを示す。 次に,Bregman分散の根底にある凸関数のパラメータ化に基づくデータから直接,経験的Bregman分散を学習するための新しい手法を提案する。 さらに,本手法が一般的な5つのデータセットに対して,他のsata深層メトリック学習手法,特にパターン認識問題に対して効果的に動作することを示す。

Deep metric learning techniques have been used for visual representation in various supervised and unsupervised learning tasks through learning embeddings of samples with deep networks. However, classic approaches, which employ a fixed distance metric as a similarity function between two embeddings, may lead to suboptimal performance for capturing the complex data distribution. The Bregman divergence generalizes measures of various distance metrics and arises throughout many fields of deep metric learning. In this paper, we first show how deep metric learning loss can arise from the Bregman divergence. We then introduce a novel method for learning empirical Bregman divergence directly from data based on parameterizing the convex function underlying the Bregman divergence with a deep learning setting. We further experimentally show that our approach performs effectively on five popular public datasets compared to other SOTA deep metric learning methods, particularly for pattern recognition problems.
翻訳日:2023-05-16 21:01:45 公開日:2023-05-15
# National Vulnerability Databaseにおけるソフトウェア脆弱性のテキスト記述からの知識グラフの構築

Constructing a Knowledge Graph from Textual Descriptions of Software Vulnerabilities in the National Vulnerability Database ( http://arxiv.org/abs/2305.00382v2 )

ライセンス: Link先を確認
Anders M{\o}lmen H{\o}st and Pierre Lison and Leon Moonen(参考訳) 知識グラフは、脆弱性評価や脅威分析など、いくつかのサイバーセキュリティタスクを約束している。 本研究では,NVD(National Vulnerability Database)の情報から脆弱性知識グラフを構築するための新しい手法を提案する。 提案手法は,ニューラルネットワーク,ヒューリスティックルール,知識グラフ埋め込みを組み合わせることで,名前付きエンティティ認識(NER),関係抽出(RE),エンティティ予測を組み合わせる。 本手法は,サイバーセキュリティに使用される知識グラフの欠落したエンティティの修正に有効であることを示す。

Knowledge graphs have shown promise for several cybersecurity tasks, such as vulnerability assessment and threat analysis. In this work, we present a new method for constructing a vulnerability knowledge graph from information in the National Vulnerability Database (NVD). Our approach combines named entity recognition (NER), relation extraction (RE), and entity prediction using a combination of neural models, heuristic rules, and knowledge graph embeddings. We demonstrate how our method helps to fix missing entities in knowledge graphs used for cybersecurity and evaluate the performance.
翻訳日:2023-05-16 20:54:16 公開日:2023-05-15
# 宇宙から何か分離する?

Segment anything, from space? ( http://arxiv.org/abs/2304.13000v2 )

ライセンス: Link先を確認
Simiao Ren, Francesco Luzi, Saad Lahrichi, Kaleb Kassaw, Leslie M. Collins, Kyle Bradbury, Jordan M. Malof(参考訳) 近年,視覚タスク用に開発された最初の基礎モデルが開発され,SAM (Segment Anything Model) と呼ばれる。 SAMは1つ(またはそれ以上)のポイント、バウンディングボックス、マスクなど、安価な入力プロンプトに基づいて入力画像にオブジェクトを分割することができる。 著者らは、多数の視覚ベンチマークタスクにおいてSAMのゼロショット画像分割精度を検証し、SAMは通常、目標タスクで訓練された視覚モデルと似ているか、時には超過している。 セグメンテーションのためのSAMの印象的な一般化は、自然画像の研究に重要な意味を持つ。 本研究では,SAMの優れた性能が画像のオーバーヘッド問題にまで及んでいるかどうかを考察し,その開発に対するコミュニティの反応のガイドに役立てる。 SAMの性能を多様で広く研究されているベンチマークタスクのセットで検証する。 SAMはオーバヘッド画像によく当てはまるが、オーバヘッド画像とターゲットオブジェクトのユニークな特徴のため、いくつかのケースではフェールする。 リモートセンシング画像に対するこれらのユニークな系統的障害事例について報告する。 これは作業用紙であり、追加の分析と結果が完了すると更新される。

Recently, the first foundation model developed specifically for vision tasks was developed, termed the "Segment Anything Model" (SAM). SAM can segment objects in input imagery based upon cheap input prompts, such as one (or more) points, a bounding box, or a mask. The authors examined the zero-shot image segmentation accuracy of SAM on a large number of vision benchmark tasks and found that SAM usually achieved recognition accuracy similar to, or sometimes exceeding, vision models that had been trained on the target tasks. The impressive generalization of SAM for segmentation has major implications for vision researchers working on natural imagery. In this work, we examine whether SAM's impressive performance extends to overhead imagery problems, and help guide the community's response to its development. We examine SAM's performance on a set of diverse and widely-studied benchmark tasks. We find that SAM does often generalize well to overhead imagery, although it fails in some cases due to the unique characteristics of overhead imagery and the target objects. We report on these unique systematic failure cases for remote sensing imagery that may comprise useful future research for the community. Note that this is a working paper, and it will be updated as additional analysis and results are completed.
翻訳日:2023-05-16 20:52:38 公開日:2023-05-15
# 大規模マルチタスク中国語理解の測定

Measuring Massive Multitask Chinese Understanding ( http://arxiv.org/abs/2304.12986v2 )

ライセンス: Link先を確認
Hui Zeng(参考訳) 大規模な中国語モデルの開発は盛んであるが、それに対応する能力評価が不足している。 そこで本研究では,大規模中国語モデルのマルチタスク精度を計測するテストを提案する。 このテストは、医学、法学、心理学、教育を含む4つの主要な領域を含み、15のサブタスクと8のサブタスクがある。 ゼロショット設定における最高のパフォーマンスモデルは、最悪のパフォーマンスモデルよりも平均18.6%向上した。 4つの主要領域の中で、全てのモデルの平均ゼロショット精度は0.512である。 サブドメインではGPT-3.5-turboモデルのみが0ショット精度0.693であり,全サブタスクで最高精度であった。 全てのモデルは法域では性能が悪く、最も高いゼロショット精度は0.239である。 複数の分野にわたる知識の幅と深さを包括的に評価することにより、このテストはモデルの欠点をより正確に識別することができる。

The development of large-scale Chinese language models is flourishing, yet there is a lack of corresponding capability assessments. Therefore, we propose a test to measure the multitask accuracy of large Chinese language models. This test encompasses four major domains, including medicine, law, psychology, and education, with 15 subtasks in medicine and 8 subtasks in education. We found that the best-performing models in the zero-shot setting outperformed the worst-performing models by nearly 18.6 percentage points on average. Across the four major domains, the highest average zero-shot accuracy of all models is 0.512. In the subdomains, only the GPT-3.5-turbo model achieved a zero-shot accuracy of 0.693 in clinical medicine, which was the highest accuracy among all models across all subtasks. All models performed poorly in the legal domain, with the highest zero-shot accuracy reaching only 0.239. By comprehensively evaluating the breadth and depth of knowledge across multiple disciplines, this test can more accurately identify the shortcomings of the models.
翻訳日:2023-05-16 20:52:18 公開日:2023-05-15
# 教育のための人工知能(agi)

Artificial General Intelligence (AGI) for Education ( http://arxiv.org/abs/2304.12479v2 )

ライセンス: Link先を確認
Ehsan Latif, Gengchen Mai, Matthew Nyaaba, Xuansheng Wu, Ninghao Liu, Guoyu Lu, Sheng Li, Tianming Liu, and Xiaoming Zhai(参考訳) 人工知能 (AGI) は, GPT-4 や ChatGPT といった大規模言語モデルやチャットボットの出現により, 将来の技術としてグローバルに認識されるようになった。 agiは、教育分野に革命を起こす可能性のある重要な技術の1つであるコンピュータシステムを通じて、人間の知能を再現することを目指している。 通常、限られた範囲のタスク用に設計された従来のaiモデルと比較すると、トレーニングのためにかなりの量のドメイン固有のデータを必要とし、教育における複雑な対人ダイナミクスを考えるとは限らない。 最近の大規模な事前学習モデルによって駆動されるAGIは、推論、問題解決、意思決定、さらには人間の感情や社会的相互作用を理解することなど、人間レベルの知性を必要とするタスクを実行する機械の能力において、大きな飛躍を示している。 この研究は、AGIの教育目標の設定、教育とカリキュラムの設計、評価の実行など、将来の教育における重要な概念、能力、範囲、潜在能力についてレビューする。 また、AGIが直面する教育における様々な倫理的問題や、AGIが人間の教育者に与える影響について、豊富な議論を行っている。 AGIの開発は、研究と応用活動を進めるために、教育者とAIエンジニアの学際的なコラボレーションを必要とする。

Artificial general intelligence (AGI) has gained global recognition as a future technology due to the emergence of breakthrough large language models and chatbots such as GPT-4 and ChatGPT, respectively. AGI aims to replicate human intelligence through computer systems, which is one of the critical technologies having the potential to revolutionize the field of education. Compared to conventional AI models, typically designed for a limited range of tasks, demand significant amounts of domain-specific data for training and may not always consider intricate interpersonal dynamics in education. AGI, driven by the recent large pre-trained models, represents a significant leap in the capability of machines to perform tasks that require human-level intelligence, such as reasoning, problem-solving, decision-making, and even understanding human emotions and social interactions. This work reviews AGI's key concepts, capabilities, scope, and potential within future education, including setting educational goals, designing pedagogy and curriculum, and performing assessments. We also provide rich discussions over various ethical issues in education faced by AGI and how AGI will affect human educators. The development of AGI necessitates interdisciplinary collaborations between educators and AI engineers to advance research and application efforts.
翻訳日:2023-05-16 20:52:02 公開日:2023-05-15
# lmsの基盤--言語モデルによるフィギュラティブ言語解釈における具体化の効果の検討

LMs stand their Ground: Investigating the Effect of Embodiment in Figurative Language Interpretation by Language Models ( http://arxiv.org/abs/2305.03445v2 )

ライセンス: Link先を確認
Philipp Wicke(参考訳) 表現言語は、その解釈は、従来の順序や意味から逸脱するような言葉の使用に基づいているため、言語モデルの課題である。 しかし、人間がメタファー、シミュレート、イディオムを理解し解釈することは容易にできる。 言語は具体化の代名詞であり、比喩が従来的かつ語彙化された場合、体のないシステムが具体化概念を理解するのが容易になる。 しかし, 言語モデルに関する具体的言語解釈の文脈において, 具体化と具体性や獲得年齢といった特徴との関係は研究されていない。 そこで本研究では,比喩文の動作がより具体化されている場合に,より大きな言語モデルが比喩文の解釈にいかに優れているかを示す。 この分析は、他の特徴(単語の長さや具体性など)と多行性を規定し、より大きな言語モデルが具体的言語理解を促進する程度まで具体的概念を概念化するという最初の証拠を提供する。

Figurative language is a challenge for language models since its interpretation is based on the use of words in a way that deviates from their conventional order and meaning. Yet, humans can easily understand and interpret metaphors, similes or idioms as they can be derived from embodied metaphors. Language is a proxy for embodiment and if a metaphor is conventional and lexicalised, it becomes easier for a system without a body to make sense of embodied concepts. Yet, the intricate relation between embodiment and features such as concreteness or age of acquisition has not been studied in the context of figurative language interpretation concerning language models. Hence, the presented study shows how larger language models perform better at interpreting metaphoric sentences when the action of the metaphorical sentence is more embodied. The analysis rules out multicollinearity with other features (e.g. word length or concreteness) and provides initial evidence that larger language models conceptualise embodied concepts to a degree that facilitates figurative language understanding.
翻訳日:2023-05-16 20:45:50 公開日:2023-05-15
# HiPool: グラフニューラルネットワークによる長いドキュメントのモデリング

HiPool: Modeling Long Documents Using Graph Neural Networks ( http://arxiv.org/abs/2305.03319v2 )

ライセンス: Link先を確認
Irene Li, Aosong Feng, Dragomir Radev, Rex Ying(参考訳) 自然言語処理(nlp)における長いシーケンスのエンコーディングは難しい問題である。 最近の事前学習言語モデルは、多くのNLPタスクで満足なパフォーマンスを実現するが、まだ定義済みの最大長によって制限されているため、長いシーケンスに拡張することは困難である。 そのため、階層構造を利用して長い列をモデル化する最近の研究もある。 しかし、それらのほとんどは、長い依存関係の問題に苦しむ、上位階層に対してシーケンシャルなモデルを適用する。 本稿では,これらの問題をグラフベースで解決する。 まず、文レベルの情報をモデル化するために、シーケンスを一定の長さでチャンクする。 次に,新しい注意機構を用いて,グラフを利用して相互間相関をモデル化する。 さらに,長文分類のための標準ベンチマーク(LDC)の制限により,最大53kサンプルと平均トークン長4034のデータセットを合計6つ集めて,新たな挑戦的ベンチマークを提案する。 評価の結果,f1スコアでは2.6%,最長シーケンスデータセットでは4.8%の競合ベースラインを上回った。 提案手法は,特に長いシーケンスにおいて,性能とスケーラビリティを向上した階層的逐次モデルより優れていることを示す。

Encoding long sequences in Natural Language Processing (NLP) is a challenging problem. Though recent pretraining language models achieve satisfying performances in many NLP tasks, they are still restricted by a pre-defined maximum length, making them challenging to be extended to longer sequences. So some recent works utilize hierarchies to model long sequences. However, most of them apply sequential models for upper hierarchies, suffering from long dependency issues. In this paper, we alleviate these issues through a graph-based method. We first chunk the sequence with a fixed length to model the sentence-level information. We then leverage graphs to model intra- and cross-sentence correlations with a new attention mechanism. Additionally, due to limited standard benchmarks for long document classification (LDC), we propose a new challenging benchmark, totaling six datasets with up to 53k samples and 4034 average tokens' length. Evaluation shows our model surpasses competitive baselines by 2.6% in F1 score, and 4.8% on the longest sequence dataset. Our method is shown to outperform hierarchical sequential models with better performance and scalability, especially for longer sequences.
翻訳日:2023-05-16 20:45:32 公開日:2023-05-15
# 人間中心信頼フレームワーク--HCIの視点から

Human-centered trust framework: An HCI perspective ( http://arxiv.org/abs/2305.03306v2 )

ライセンス: Link先を確認
Sonia Sousa, Jose Cravino, Paulo Martins, David Lamas(参考訳) この研究の理論的根拠は、現在の人工知能(AI)のユーザ信頼談話に基づいている。 我々は、信頼を現在の技術の取り込み(あるいは評価)のファシリテーターとして利用する新しいHCIアプローチを作ることを目指している。 我々は、非専門家にai設計に対するユーザーの信頼の完全な可能性を解き放つためのフレームワーク(hctframe)を提案する。 3つの文献レビューから得られたデータ三角測量の結果は、コンピュータ科学とAI談話におけるユーザ信頼の誤解を解き明かし、潜在的なユーザの信頼の崩壊と懸念をマッピングする心理測定尺度の有効性を評価するために3つのケーススタディを行った。 この研究は、技術中心の脆弱な相互作用を設計する傾向との戦いに主に寄与し、最終的には、現実的で認識された信頼の侵害につながる可能性がある。 提案したフレームワークは、システム設計者に対して、ユーザ信頼と、AIシステム設計の社会倫理的、組織的ニーズと特性をマップし、定義する方法をガイドするために使用することができる。 また、AIシステムデザイナにプロトタイプの開発方法を指導し、ユーザの信頼要件を満たすソリューションを運用することも可能だ。 この記事は、提案されたソリューションに対するユーザの信頼の意図と行動を測定するために使用できる、いくつかのユーザーリサーチツールを提供することで終わる。

The rationale of this work is based on the current user trust discourse of Artificial Intelligence (AI). We aim to produce novel HCI approaches that use trust as a facilitator for the uptake (or appropriation) of current technologies. We propose a framework (HCTFrame) to guide non-experts to unlock the full potential of user trust in AI design. Results derived from a data triangulation of findings from three literature reviews demystify some misconceptions of user trust in computer science and AI discourse, and three case studies are conducted to assess the effectiveness of a psychometric scale in mapping potential users' trust breakdowns and concerns. This work primarily contributes to the fight against the tendency to design technical-centered vulnerable interactions, which can eventually lead to additional real and perceived breaches of trust. The proposed framework can be used to guide system designers on how to map and define user trust and the socioethical and organisational needs and characteristics of AI system design. It can also guide AI system designers on how to develop a prototype and operationalise a solution that meets user trust requirements. The article ends by providing some user research tools that can be employed to measure users' trust intentions and behaviours towards a proposed solution.
翻訳日:2023-05-16 20:45:13 公開日:2023-05-15
# 因果世界モデルによる説明可能な強化学習

Explainable Reinforcement Learning via a Causal World Model ( http://arxiv.org/abs/2305.02749v2 )

ライセンス: Link先を確認
Zhongwei Yu, Jingqing Ruan, Dengpeng Xing(参考訳) 強化学習(RL)のための説明を生成することは、行動が未来に長期的な影響をもたらす可能性があるため困難である。 本稿では,環境の因果構造を事前に知ることなく,因果世界モデルを学習し,説明可能なRLのための新しい枠組みを開発する。 このモデルは行動の影響を捉え、因果連鎖による行動の長期的な影響を解釈し、行動が環境変数にどのように影響し、最終的に報酬につながるかを示す。 精度の低いほとんどの説明モデルとは異なり、説明可能性を改善しながら精度を保ち、モデルベース学習に適用できる。 その結果,我々の因果モデルが説明可能性と学習の橋渡しとなることを示した。

Generating explanations for reinforcement learning (RL) is challenging as actions may produce long-term effects on the future. In this paper, we develop a novel framework for explainable RL by learning a causal world model without prior knowledge of the causal structure of the environment. The model captures the influence of actions, allowing us to interpret the long-term effects of actions through causal chains, which present how actions influence environmental variables and finally lead to rewards. Different from most explanatory models which suffer from low accuracy, our model remains accurate while improving explainability, making it applicable in model-based learning. As a result, we demonstrate that our causal model can serve as the bridge between explainability and learning.
翻訳日:2023-05-16 20:44:34 公開日:2023-05-15
# CryCeleb:幼児のCry音に基づく話者検証データセット

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds ( http://arxiv.org/abs/2305.00969v3 )

ライセンス: Link先を確認
David Budaghyan, Arsenii Gorin, Cem Subakan, Charles C. Onu(参考訳) 本稿では,乳幼児の叫び声をラベル付けしたUbenwa CryCelebデータセットと,乳幼児の泣き声に基づく公的な話者検証課題であるCryCeleb 2023タスクについて述べる。 乳児の泣き声解析研究を促進するため,786人の新生児から6時間以上手作業で泣き声を分割した。

This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries, and the accompanying CryCeleb 2023 task - a public speaker verification challenge based on infant cry sounds. We release for academic usage more than 6 hours of manually segmented cry sounds from 786 newborns to encourage research in infant cry analysis.
翻訳日:2023-05-16 20:43:44 公開日:2023-05-15
# VCSUM:中国の多国間会議要約データセット

VCSUM: A Versatile Chinese Meeting Summarization Dataset ( http://arxiv.org/abs/2305.05280v2 )

ライセンス: Link先を確認
Han Wu, Mingjie Zhan, Haochen Tan, Zhaohui Hou, Ding Liang, and Linqi Song(参考訳) ニュースやチャットの要約と比較して,会議要約の発達は限られたデータによって著しく減速する。 そこで本研究では,239回の実生活会議からなり,合計230時間以上を要した,多彩な中国の会議要約データセットvcsumを紹介する。 我々のデータセットは、トピックセグメンテーション、見出し、セグメンテーションサマリー、全体会議サマリー、および各ミーティングスクリプティングに対する敬意的な文のアノテーションを提供するので、汎用的だと主張する。 このように、データセットは、セグメンテーションベースの要約、多粒度要約、検索-then-generate summarizationなど、様々な要約タスクやメソッドに適応することができる。 分析の結果,VCSumの有効性とロバスト性が確認された。 また、VCSumの下流の様々な要約タスクに関するベンチマークモデルも提供し、さらなる研究を促進する。 データセットとコードはhttps://github.com/hahawu/VCSumで公開される。

Compared to news and chat summarization, the development of meeting summarization is hugely decelerated by the limited data. To this end, we introduce a versatile Chinese meeting summarization dataset, dubbed VCSum, consisting of 239 real-life meetings, with a total duration of over 230 hours. We claim our dataset is versatile because we provide the annotations of topic segmentation, headlines, segmentation summaries, overall meeting summaries, and salient sentences for each meeting transcript. As such, the dataset can adapt to various summarization tasks or methods, including segmentation-based summarization, multi-granularity summarization and retrieval-then-generate summarization. Our analysis confirms the effectiveness and robustness of VCSum. We also provide a set of benchmark models regarding different downstream summarization tasks on VCSum to facilitate further research. The dataset and code will be released at https://github.com/hahahawu/VCSum.
翻訳日:2023-05-16 20:35:47 公開日:2023-05-15
# MultiTACRED:TAC関係抽出データセットの多言語版

MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset ( http://arxiv.org/abs/2305.04582v2 )

ライセンス: Link先を確認
Leonhard Hennig, Philippe Thomas, Sebastian M\"oller(参考訳) 関係抽出(RE)は、多言語設定への拡張が、TACRED(Zhang et al., 2017)のような大規模な英語データセットに匹敵するリソースの不足によって妨げられている情報抽出の基本的なタスクである。 このギャップに対処するため、MultiTACREDデータセットを導入し、機械翻訳のTACREDインスタンスによって作成され、エンティティアノテーションを自動的に投影する9つの言語ファミリーから、12のタイプ型的に多様な言語をカバーした。 翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、共通の伝達学習シナリオにおける単言語および多言語言語モデルの微調整を実験的に評価する。 分析の結果、機械翻訳はREインスタンスの転送に有効な戦略であり、翻訳されたインスタンスの83%以上が言語的にも意味的にも許容できるとネイティブ話者は判断している。 対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。 しかし, MTシステムや, 代名詞ドロップ, 複合化, インフレクションなどの言語的特徴により, データセットの品質やREモデルの性能が低下しているため, 様々な翻訳やアノテーションの予測誤差も観察できる。

Relation extraction (RE) is a fundamental task in information extraction, whose extension to multilingual settings has been hindered by the lack of supervised resources comparable in size to large English datasets such as TACRED (Zhang et al., 2017). To address this gap, we introduce the MultiTACRED dataset, covering 12 typologically diverse languages from 9 language families, which is created by machine-translating TACRED instances and automatically projecting their entity annotations. We analyze translation and annotation projection quality, identify error categories, and experimentally evaluate fine-tuned pretrained mono- and multilingual language models in common transfer learning scenarios. Our analyses show that machine translation is a viable strategy to transfer RE instances, with native speakers judging more than 83% of the translated instances to be linguistically and semantically acceptable. We find monolingual RE model performance to be comparable to the English original for many of the target languages, and that multilingual models trained on a combination of English and target language data can outperform their monolingual counterparts. However, we also observe a variety of translation and annotation projection errors, both due to the MT systems and linguistic features of the target languages, such as pronoun-dropping, compounding and inflection, that degrade dataset quality and RE model performance.
翻訳日:2023-05-16 20:34:13 公開日:2023-05-15
# クロストークに基づくパラメータ化量子回路近似

Crosstalk-Based Parameterized Quantum Circuit Approximation ( http://arxiv.org/abs/2305.04172v2 )

ライセンス: Link先を確認
Mohannad Ibrahim, Nicholas T. Bronn, Gregory T. Byrd(参考訳) 本稿では,ハードウェアの主な特性であるクロストーク動作を主近似ドライバとして使用する変分量子アルゴリズム(vqas)に対するアンサッツ近似手法を提案する。 クロストーク適応スケジューリングを利用することで,回路レベルの近似・最適化を ansatz に適用することができる。 我々の設計手順は、まずハードウェアのクロストークを特徴付け、次に回路を所望のクロストーク緩和レベルで近似し、その時間とゲート数を効果的に削減することを含む。 本稿では,クロストークの緩和が表現性,訓練性,絡み合いに及ぼす影響を実証する。 実際の量子ハードウェアをベース構成に対してテストした結果,2つの量子化学ベンチマークにおいて,回路レベルの最適化ansatzがベースansatzよりも優れた性能を示した。 我々は、アプリケーションがクロストークに対する応答が異なることを考慮し、この近似戦略は、表現力があり、トレーニング可能で、特定のワークロードに適したクロストーク緩和レベルを持つアンサーゼを作成するために使用できると信じている。

In this paper, we propose an ansatz approximation approach for variational quantum algorithms (VQAs) that uses one of the hardware's main attributes, its crosstalk behavior, as its main approximation driver. By utilizing crosstalk-adaptive scheduling, we are able to apply a circuit-level approximation/optimization to our ansatz. Our design procedure involves first characterizing the hardware's crosstalk and then approximating the circuit by a desired level of crosstalk mitigation, all while effectively reducing its duration and gate counts. We demonstrate the effect of crosstalk mitigation on expressibility, trainability, and entanglement: key components that drive the utility of parameterized circuits. We tested our approach on real quantum hardware against a base configuration, and our results showed superior performance for the circuit-level optimized ansatz over a base ansatz for two quantum chemistry benchmarks. We take into consideration that applications vary in their response to crosstalk, and we believe that this approximation strategy can be used to create ansatze that are expressive, trainable, and with crosstalk mitigation levels tailored for specific workloads.
翻訳日:2023-05-16 20:33:12 公開日:2023-05-15
# 駆動散逸多体系におけるRydbergクラスターからのエルゴディディティ破壊

Ergodicity breaking from Rydberg clusters in a driven-dissipative many-body system ( http://arxiv.org/abs/2305.07032v2 )

ライセンス: Link先を確認
Dong-Sheng Ding and Zhengyang Bai and Zong-Kai Liu and Bao-Sen Shi and Guang-Can Guo and Weibin Li and C. Stuart. Adams(参考訳) 散逸がコヒーレントカップリングと分散二体相互作用から生じる量子コヒーレンスを必然的に損なうとき、量子多体系のエルゴディク性破れの傾向を調べることは困難である。 ライドバーグ原子は、エキゾチックな多体相と非エルゴード力学を検出するための試験ベッドを提供し、強いライドバーグ原子相互作用は室温でも発散効果を克服する。 ここでは, 誘導散逸性Rydberg原子気体中のエルゴードからエルゴード破壊ダイナミクスへの遷移の実験的証拠を報告する。 壊れたエルゴード性は、リドベルク励起クラスターの極限周期における形成に起因する長時間の位相発振によって特徴付けられる。 限界周期の破れ対称性は多体相互作用の直接的顕現であり,実験における原子密度のチューニングによって検証される。 報告された結果は、リミットサイクルのようなエルゴーディティの破れダイナミクスを探究し、非平衡相転移のベンチマークを可能にする有望な候補であることを示した。

It is challenging to probe ergodicity breaking trends of a quantum many-body system when dissipation inevitably damages quantum coherence originated from coherent coupling and dispersive two-body interactions. Rydberg atoms provide a test bed to detect emergent exotic many-body phases and non-ergodic dynamics where the strong Rydberg atom interaction competes with and overtakes dissipative effects even at room temperature. Here we report experimental evidence of a transition from ergodic towards ergodic breaking dynamics in driven-dissipative Rydberg atomic gases. The broken ergodicity is featured by the long-time phase oscillation, which is attributed from the formation of Rydberg excitation clusters in limit cycle phases. The broken symmetry in the limit cycle is a direct manifestation of many-body interactions, which is verified by tuning atomic densities in our experiment. The reported result reveals that Rydberg many-body systems are a promising candidate to probe ergodicity breaking dynamics, such as limit cycles, and enable the benchmark of non-equilibrium phase transition.
翻訳日:2023-05-16 20:26:31 公開日:2023-05-15
# 火災伝播の不確かさ推定のためのニューラルエミュレータ

A Neural Emulator for Uncertainty Estimation of Fire Propagation ( http://arxiv.org/abs/2305.06139v2 )

ライセンス: Link先を確認
Andrew Bolt, Conrad Sanderson, Joel Janek Dabrowski, Carolyn Huston, Petra Kuhnert(参考訳) 野火の伝播は、風速や方向といった環境条件の小さな変化が観測される行動に大きな変化をもたらす非常に確率的な過程である。 火災前の進行における不確かさを定量化する伝統的なアプローチは、シミュレーションのアンサンブルを通じて確率写像を生成することである。 しかし、アンサンブルの使用は通常計算コストが高く、不確実性解析の範囲を制限できる。 そこで本稿では,入力パラメータに不確実性がある場合の火災伝播確率を直接推定するために,時空間ニューラルベースモデリング手法を提案する。 この不確実性は、モデルトレーニング中に入力天気予報を意図的に摂動させることによって表される。 計算負荷はモデルトレーニングプロセスに集中しており、デプロイメント中により大きな確率空間を探索することができる。 実証的な評価から、提案モデルは従来のsparkシミュレーションプラットフォームが生成したものと同等の火力限界を達成でき、35の模擬火のセットでjaccardインデックス(類似度スコア)は67.4%であった。 エミュレートされた火災のアンサンブルを介して確率マップを生成するための関連するニューラルネットワーク(エミュレータ)と比較して、提案手法は、ほぼ1桁高速で競合するジャカード類似度スコアを生成する。

Wildfire propagation is a highly stochastic process where small changes in environmental conditions (such as wind speed and direction) can lead to large changes in observed behaviour. A traditional approach to quantify uncertainty in fire-front progression is to generate probability maps via ensembles of simulations. However, use of ensembles is typically computationally expensive, which can limit the scope of uncertainty analysis. To address this, we explore the use of a spatio-temporal neural-based modelling approach to directly estimate the likelihood of fire propagation given uncertainty in input parameters. The uncertainty is represented by deliberately perturbing the input weather forecast during model training. The computational load is concentrated in the model training process, which allows larger probability spaces to be explored during deployment. Empirical evaluations indicate that the proposed model achieves comparable fire boundaries to those produced by the traditional SPARK simulation platform, with an overall Jaccard index (similarity score) of 67.4% on a set of 35 simulated fires. When compared to a related neural model (emulator) which was employed to generate probability maps via ensembles of emulated fires, the proposed approach produces competitive Jaccard similarity scores while being approximately an order of magnitude faster.
翻訳日:2023-05-16 20:25:10 公開日:2023-05-15
# 確率的テクスチャフィルタリング

Stochastic Texture Filtering ( http://arxiv.org/abs/2305.05810v2 )

ライセンス: Link先を確認
Marcos Fajardo, Bartlomiej Wronski, Marco Salvi, Matt Pharr(参考訳) 2次元テクスチャマップと3次元ボクセルアレイは、描画されたシーンの表面やボリュームにリッチなディテールを加えるために広く使われており、フィルターされたテクスチャルックアップは高品質な画像を生成するのに不可欠である。 本研究では,現在のbsdf評価よりも,照明評価後のフィルタリングテクスチャが,レンダリング方程式をより正確に解くことができることを示す。 これらの利点は単に理論的なものではなく、一般的なケースで明らかである。 さらに,従来は限定的であったテクスチャフィルタを統計的にサンプリングすることが,このアプローチを実現する上で重要であることを示す。 確率的テクスチャフィルタリングには、高品質テクスチャフィルタの効率的な実装や、ニューラルネットワークを含む圧縮およびスパースデータ構造に格納されたテクスチャの効率的なフィルタリングなど、新たなメリットがある。 リアルタイムレンダリングとオフラインレンダリングの両方でアプリケーションを実演し、追加の確率誤差は最小限であることを示す。 さらに、この誤差は時空間デノイングまたは適度なピクセルサンプリングレートによってうまく処理される。

2D texture maps and 3D voxel arrays are widely used to add rich detail to the surfaces and volumes of rendered scenes, and filtered texture lookups are integral to producing high-quality imagery. We show that filtering textures after evaluating lighting, rather than before BSDF evaluation as is current practice, gives a more accurate solution to the rendering equation. These benefits are not merely theoretical, but are apparent in common cases. We further show that stochastically sampling texture filters is crucial for enabling this approach, which has not been possible previously except in limited cases. Stochastic texture filtering offers additional benefits, including efficient implementation of high-quality texture filters and efficient filtering of textures stored in compressed and sparse data structures, including neural representations. We demonstrate applications in both real-time and offline rendering and show that the additional stochastic error is minimal. Furthermore, this error is handled well by either spatiotemporal denoising or moderate pixel sampling rates.
翻訳日:2023-05-16 20:24:35 公開日:2023-05-15
# 医用報告書要約と医用対話生成における階層プルーニングを用いたパラメータ効率の良い微調整

Parameter-Efficient Fine-Tuning with Layer Pruning on Medical Report Summarization and Medical Dialogue Generation ( http://arxiv.org/abs/2305.08285v1 )

ライセンス: Link先を確認
Yunqi Zhu and Xuebing Yang and Yuanyuan Wu and Wensheng Zhang(参考訳) 言語モデルのサイズが大きくなると、パラメータ効率の良い微調整(例えば、Adapter、LoRA、即時チューニング)において、事前訓練されたモデルを凍結する研究の関心が高まり、複数の下流タスクに対して小さな訓練可能なパラメータを注入する。 ファインチューニングの効率をさらに高めるために,LoRAと構造化層プルーニングを統合したフレームワークを提案する。 また,MIMIC-IV-Noteに基づいて,医療報告要約データセットを2つ作成する。 さらに,提案する2つのデータセットと2つの医療対話データセットの統合フレームワークを検証する。 元のモデルの0.6%のパラメータをチューニングし、30%以上のトランスフォーマー層をprunすることで、フレームワークはトレーニングフェーズの100%を高速化し、gpuメモリ使用量の50%を削減することができる。

The increasing size of language models raises great research interests in parameter-efficient fine-tuning (e.g. Adapter, LoRA and prompt tuning) that freezes the pre-trained model, and injects small-scale trainable parameters for multiple downstream tasks. To further enhance the efficiency of fine-tuning, we propose a framework that integrates LoRA and structured layer pruning. In addition, based on MIMIC-IV-Note, we create two deidentified medical report summarization datasets. Further, We validate the integrated framework on the proposed two datasets and two medical dialogue datasets. By tuning 0.6% parameters of the original model and pruning over 30% Transformer-layers, the framework can speed up 100% of the training phase and reduce 50% of GPU memory usage, while preserving over 92% generation qualities on free-text sequence-to-sequence tasks.
翻訳日:2023-05-16 16:39:43 公開日:2023-05-15
# 事前データから言語モデル、下流タスクへ:不公平なNLPモデルによる政治的バイアスの軌跡を追跡する

From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models ( http://arxiv.org/abs/2305.08283v1 )

ライセンス: Link先を確認
Shangbin Feng, Chan Young Park, Yuhan Liu, Yulia Tsvetkov(参考訳) 大規模言語モデル(LM)は、ニュース、ディスカッションフォーラム、書籍、オンライン百科事典といった様々なデータソースで事前訓練されている。 このデータの大部分には、民主主義とアイデアの多様性を祝福する事実と意見が含まれており、一方で本質的に社会的に偏っている。 本研究は,(1)そのようなコーパスで訓練されたLMのメディアバイアスを社会的・経済的軸に沿って測定し,(2)政治的に偏ったLM上で訓練された下流NLPモデルの公平性を測定するための新しい手法を開発する。 我々はヘイトスピーチと誤情報検出に注目し、ハイテイクなソーシャル指向タスクの公平性に関する事前学習データにおける政治的(社会的、経済的)バイアスの効果を実証的に定量化することを目的としている。 以上の結果から,事前学習したLMには,コーパスの偏極性を高める政治的傾きがあり,ヘイトスピーチ予測やメディアバイアスを誤情報検知器に伝播していることが明らかとなった。 我々は,nlp研究の意義を議論し,不公平さを緩和するための今後の方向性を提案する。

Large language models (LMs) are pretrained on diverse data sources: news, discussion forums, books, online encyclopedias. A significant portion of this data includes facts and opinions which, on one hand, celebrate democracy and diversity of ideas, and on the other hand are inherently socially biased. Our work develops new methods to (1) measure media biases in LMs trained on such corpora, along the social and economic axes, and (2) measure the fairness of downstream NLP models trained on top of politically biased LMs. We focus on hate speech and misinformation detection, aiming to empirically quantify the effects of political (social, economic) biases in pretraining data on the fairness of high-stakes social-oriented tasks. Our findings reveal that pretrained LMs do have political leanings which reinforce the polarization present in pretraining corpora, propagating social biases into hate speech predictions and media biases into misinformation detectors. We discuss the implications of our findings for NLP research and propose future directions to mitigate the unfairness.
翻訳日:2023-05-16 16:39:23 公開日:2023-05-15
# 天候対応ラベルシフト攻撃によるロバストな一般化

t-RAIN: Robust generalization under weather-aliasing label shift attacks ( http://arxiv.org/abs/2305.08302v1 )

ライセンス: Link先を確認
Aboli Marathe, Sanjana Prabhu(参考訳) 古典的な教師付き学習設定では、分類器はバランスの取れたラベル分布の仮定に適合し、同時に顕著な結果が得られる。 しかし、現実の世界では、これらの仮定はしばしば曲げられ、モデルのパフォーマンスに悪影響を及ぼす。 歪んだターゲット分布で悪い学習者を特定することはさらに難しい。 したがって、このような「ラベルシフト」設定下でモデルのロバスト性を達成することは、自律的な知覚において重要なタスクである。 本稿では、ラベルシフトが自動運転車のマルチウェザー分類のタスクに与える影響について分析する。 我々はこの情報を予報として、悪天候下での歩行者検出をよりよく評価する。 4つのラベルシフトシナリオにおけるロバスト性の指標として分類性能をモデル化し,複数のモデルの振る舞いについて検討した。 本稿では,大規模生成モデルを用いた合成データの類似度マッピング手法を提案し,DAWNデータセットの性能評価を行う。 このマッピングはモデルテストの精度を2.1, 4.4, 1.9, 2.7%向上させる。 本稿では,82.69 AP (雪) と62.31 AP (霧) が最適である実地および合成気象領域の歩行者検出結果について述べる。

In the classical supervised learning settings, classifiers are fit with the assumption of balanced label distributions and produce remarkable results on the same. In the real world, however, these assumptions often bend and in turn adversely impact model performance. Identifying bad learners in skewed target distributions is even more challenging. Thus achieving model robustness under these "label shift" settings is an important task in autonomous perception. In this paper, we analyze the impact of label shift on the task of multi-weather classification for autonomous vehicles. We use this information as a prior to better assess pedestrian detection in adverse weather. We model the classification performance as an indicator of robustness under 4 label shift scenarios and study the behavior of multiple classes of models. We propose t-RAIN a similarity mapping technique for synthetic data augmentation using large scale generative models and evaluate the performance on DAWN dataset. This mapping boosts model test accuracy by 2.1, 4.4, 1.9, 2.7 % in no-shift, fog, snow, dust shifts respectively. We present state-of-the-art pedestrian detection results on real and synthetic weather domains with best performing 82.69 AP (snow) and 62.31 AP (fog) respectively.
翻訳日:2023-05-16 16:29:39 公開日:2023-05-15
# 異常」:対照的な知識注入による医学報告の曖昧化

"Nothing Abnormal": Disambiguating Medical Reports via Contrastive Knowledge Infusion ( http://arxiv.org/abs/2305.08300v1 )

ライセンス: Link先を確認
Zexue He, An Yan, Amilcare Gentili, Julian McAuley, Chun-Nan Hsu(参考訳) 医療報告の共有は患者中心のケアに不可欠である。 最近の研究は、NLPメソッドによるレポートの自動生成に焦点を当てている。 しかし、異なるオーディエンスは医療報告書を書いたり読んだりする際に異なる目的を持っている。例えば、医療専門家は病理学をより気にかけるが、患者は診断にもっと関心を持っている("is there any abnormality? 期待差は、患者が医療報告が曖昧で、それゆえ次のステップについて確信が持てないという共通の状況をもたらす。 本研究は,医療における観客期待のギャップを探究し,患者の診断を混乱させる共通の曖昧さを,医学用語,矛盾する所見,文法的誤りの3つのカテゴリにまとめる。 本分析に基づき,元のコンテンツに関する情報を保存しながら,入力を曖昧に再生するあいまいな書き直しタスクを定義した。 さらに,コントラストプリトレーニングと摂動に基づく書き換えに基づく書き換えアルゴリズムを提案する。 さらに,胸部レポートに基づくopeni-annotatedと一般医学レポートに基づくva-annotatedの2つのデータセットを作成し,放射線専門医による曖昧性と異常の存在を示すバイナリラベルを作成した。 これらのデータセットを用いた実験結果から,提案アルゴリズムは,高内容忠実度で少ない曖昧な方法で文を効果的に書き換えることを示した。 私たちのコードと注釈付きデータは、将来の研究を促進するためにリリースされます。

Sharing medical reports is essential for patient-centered care. A recent line of work has focused on automatically generating reports with NLP methods. However, different audiences have different purposes when writing/reading medical reports -- for example, healthcare professionals care more about pathology, whereas patients are more concerned with the diagnosis ("Is there any abnormality?"). The expectation gap results in a common situation where patients find their medical reports to be ambiguous and therefore unsure about the next steps. In this work, we explore the audience expectation gap in healthcare and summarize common ambiguities that lead patients to be confused about their diagnosis into three categories: medical jargon, contradictory findings, and misleading grammatical errors. Based on our analysis, we define a disambiguation rewriting task to regenerate an input to be unambiguous while preserving information about the original content. We further propose a rewriting algorithm based on contrastive pretraining and perturbation-based rewriting. In addition, we create two datasets, OpenI-Annotated based on chest reports and VA-Annotated based on general medical reports, with available binary labels for ambiguity and abnormality presence annotated by radiology specialists. Experimental results on these datasets show that our proposed algorithm effectively rewrites input sentences in a less ambiguous way with high content fidelity. Our code and annotated data are released to facilitate future research.
翻訳日:2023-05-16 16:29:19 公開日:2023-05-15
# 言語モデルのコンテキスト内学習を改善するシンボルチューニング

Symbol tuning improves in-context learning in language models ( http://arxiv.org/abs/2305.08298v1 )

ライセンス: Link先を確認
Jerry Wei and Le Hou and Andrew Lampinen and Xiangning Chen and Da Huang and Yi Tay and Xinyun Chen and Yifeng Lu and Denny Zhou and Tengyu Ma and Quoc V. Le(参考訳) 我々は、自然言語ラベル(例えば「ポジティブ/ネガティブ感情」)を任意の記号(例えば「フード/バー」)に置き換える、文脈内入力ラベルペアで言語モデルを微調整するシンボルチューニングを提案する。 シンボルチューニングは、モデルがタスクを理解するために命令や自然言語ラベルを使用できない場合、その代わりに入出力ラベルマッピングを学習しなければならないという直観を利用する。 我々はFlan-PaLMモデルに対して最大540Bパラメータのシンボルチューニングを行い、様々な設定で利点を観察する。 まず、シンボルチューニングは、未認識のコンテキスト内学習タスクのパフォーマンスを向上させ、命令なしや自然言語ラベルなしといった、不特定なプロンプトに対してはるかに堅牢である。 第2に、シンボルチューニングモデルはアルゴリズム推論タスクにおいてはるかに強力であり、リスト関数ベンチマークでは最大18.2%、simple turing conceptsベンチマークでは最大15.3%のパフォーマンスが向上している。 最後に、シンボル調整されたモデルでは、インコンテキストで示されるフリップペインラベルが大幅に改善され、インコンテキスト情報を使用して、事前のセマンティック知識をオーバーライドする能力が向上した。

We present symbol tuning - finetuning language models on in-context input-label pairs where natural language labels (e.g., "positive/negative sentiment") are replaced with arbitrary symbols (e.g., "foo/bar"). Symbol tuning leverages the intuition that when a model cannot use instructions or natural language labels to figure out a task, it must instead do so by learning the input-label mappings. We experiment with symbol tuning across Flan-PaLM models up to 540B parameters and observe benefits across various settings. First, symbol tuning boosts performance on unseen in-context learning tasks and is much more robust to underspecified prompts, such as those without instructions or without natural language labels. Second, symbol-tuned models are much stronger at algorithmic reasoning tasks, with up to 18.2% better performance on the List Functions benchmark and up to 15.3% better performance on the Simple Turing Concepts benchmark. Finally, symbol-tuned models show large improvements in following flipped-labels presented in-context, meaning that they are more capable of using in-context information to override prior semantic knowledge.
翻訳日:2023-05-16 16:28:55 公開日:2023-05-15
# 野生の顔面メッシュをアニメーション化・再ターゲティングするための神経顔装置

Neural Face Rigging for Animating and Retargeting Facial Meshes in the Wild ( http://arxiv.org/abs/2305.08296v1 )

ライセンス: Link先を確認
Dafei Qin, Jun Saito, Noam Aigerman, Thibault Groueix, Taku Komura(参考訳) 本稿では,野生の人間の顔の3dモデルの自動配置と再ターゲティングのためのエンドツーエンドのディープラーニング手法を提案する。 NFR(Neural Face Rigging)と呼ばれる我々のアプローチには3つの重要な特性がある。 (i) nfrの表現空間は、芸術的制御のための人間の解釈可能な編集パラメータを維持する。 (ii)nfrは、接続性及び表現の異なる任意の顔メッシュに容易に適用することができる。 (iii)nfrは、任意の被験者が行う複雑な表現の詳細な詳細をエンコードし、生成することができる。 私たちの知る限りでは、nfrはブレンド形状や対応を手作業で作成することなく、現実的で制御可能な顔メッシュの変形を提供する最初のアプローチです。 我々は、FACSのように解釈可能な制御パラメータを持つ線形3DMMと、細かな詳細を持つ実顔の4Dキャプチャーという、2つのデータソースの独特な利点の恩恵を受けるマルチデータセットトレーニングスキームを用いて変形オートエンコーダを設計し、それを訓練する。 様々な実験を通じて、nfrは、アーティストが制御し、編集可能なパラメータを提供しながら、既存のデータセット全体にわたって、リアルで正確な顔変形を自動生成する能力を示す。

We propose an end-to-end deep-learning approach for automatic rigging and retargeting of 3D models of human faces in the wild. Our approach, called Neural Face Rigging (NFR), holds three key properties: (i) NFR's expression space maintains human-interpretable editing parameters for artistic controls; (ii) NFR is readily applicable to arbitrary facial meshes with different connectivity and expressions; (iii) NFR can encode and produce fine-grained details of complex expressions performed by arbitrary subjects. To the best of our knowledge, NFR is the first approach to provide realistic and controllable deformations of in-the-wild facial meshes, without the manual creation of blendshapes or correspondence. We design a deformation autoencoder and train it through a multi-dataset training scheme, which benefits from the unique advantages of two data sources: a linear 3DMM with interpretable control parameters as in FACS, and 4D captures of real faces with fine-grained details. Through various experiments, we show NFR's ability to automatically produce realistic and accurate facial deformations across a wide range of existing datasets as well as noisy facial scans in-the-wild, while providing artist-controlled, editable parameters.
翻訳日:2023-05-16 16:28:35 公開日:2023-05-15
# CLCIFAR: 注釈付き補完ラベルを用いたCIFAR-Derivedベンチマークデータセット

CLCIFAR: CIFAR-Derived Benchmark Datasets with Human Annotated Complementary Labels ( http://arxiv.org/abs/2305.08295v1 )

ライセンス: Link先を確認
Hsiu-Hsuan Wang, Wei-I Lin, Hsuan-Tien Lin(参考訳) 弱教師付き学習パラダイムとして、補足ラベル学習(cll)は、インスタンスが属さないクラスである補足ラベルのみから多クラス分類を学習することを目的としている。 様々な研究がCLLからどのように学習するかを論じているが、これらの手法は典型的には相補的なラベルの分布的な仮定に依存し、いくつかの合成データセットにのみベンチマークされる。 人間のアノテーションプロセスから発生するノイズやバイアスがこれらのCLLアルゴリズムにどのように影響するかは、まだ不明である。 このギャップを埋めるために、人間によって注釈された補完ラベルを収集するプロトコルをデザインする。 CIFAR10とCIFAR100に基づく2つのデータセットCLCIFAR10とCLCIFAR20を収集する。 収集したデータセットの経験的遷移行列を解析し,ノイズとバイアスが認められた。 次に,実世界の補完的データセットから既存のアルゴリズムが学習できるかどうかを検証するために,様々なcllアルゴリズムを用いて収集したデータセットに対する広範なベンチマーク実験を行った。 https://github.com/ntucllab/complementary_cifar.com/ というリンクでデータセットにアクセスできます。

As a weakly-supervised learning paradigm, complementary label learning (CLL) aims to learn a multi-class classifier from only complementary labels, classes to which an instance does not belong. Despite various studies have addressed how to learn from CLL, those methods typically rely on some distributional assumptions on the complementary labels, and are benchmarked only on some synthetic datasets. It remains unclear how the noise or bias arising from the human annotation process would affect those CLL algorithms. To fill the gap, we design a protocol to collect complementary labels annotated by human. Two datasets, CLCIFAR10 and CLCIFAR20, based on CIFAR10 and CIFAR100, respectively, are collected. We analyzed the empirical transition matrices of the collected datasets, and observed that they are noisy and biased. We then performed extensive benchmark experiments on the collected datasets with various CLL algorithms to validate whether the existing algorithms can learn from the real-world complementary datasets. The dataset can be accessed with the following link: https://github.com/ntucllab/complementary_cifar.
翻訳日:2023-05-16 16:28:04 公開日:2023-05-15
# ランドマークと外観を優先したアイデンティティ保存型会話顔生成

Identity-Preserving Talking Face Generation with Landmark and Appearance Priors ( http://arxiv.org/abs/2305.08293v1 )

ライセンス: Link先を確認
Weizhi Zhong, Chaowei Fang, Yinqi Cai, Pengxu Wei, Gangming Zhao, Liang Lin, Guanbin Li(参考訳) 音声から会話の顔ビデオを生成することは、多くの研究の関心を集めている。 個人固有のいくつかの方法は、鮮やかなビデオを生成することができるが、訓練や微調整のためにターゲットの話者のビデオを必要とする。 既存の人物生成手法は、身元情報を保存しながら、現実的かつリップ同期のビデオを生成するのに困難である。 そこで本研究では,ランドマーク生成とランドマークからビデオへの描画手順からなる2段階フレームワークを提案する。 まず,音声から唇や顎のランドマークを推定するトランスフォーマーを用いた新しいランドマークジェネレータを考案する。 従来の話者の顔のランドマーク特性を用いて、生成されたランドマークを話者の顔の輪郭と一致させる。 そして、生成されたランドマークを顔画像に変換するために、ビデオレンダリングモデルを構築する。 この段階では、半減した目標面と静的参照画像から事前の外観情報を抽出し、現実的かつアイデンティティ保存された視覚コンテンツを生成する。 静的参照画像の先行情報を効果的に探索するために,静止参照画像と対象の顔のポーズと表情を運動場に基づいて調整する。 さらに、生成した顔画像が音声と十分に同期していることを保証するために、聴覚機能を再利用する。 大規模な実験により,本手法は既存の対面生成法よりも現実的で,リップシンクで,アイデンティティを保った動画を作成できることが示された。

Generating talking face videos from audio attracts lots of research interest. A few person-specific methods can generate vivid videos but require the target speaker's videos for training or fine-tuning. Existing person-generic methods have difficulty in generating realistic and lip-synced videos while preserving identity information. To tackle this problem, we propose a two-stage framework consisting of audio-to-landmark generation and landmark-to-video rendering procedures. First, we devise a novel Transformer-based landmark generator to infer lip and jaw landmarks from the audio. Prior landmark characteristics of the speaker's face are employed to make the generated landmarks coincide with the facial outline of the speaker. Then, a video rendering model is built to translate the generated landmarks into face images. During this stage, prior appearance information is extracted from the lower-half occluded target face and static reference images, which helps generate realistic and identity-preserving visual content. For effectively exploring the prior information of static reference images, we align static reference images with the target face's pose and expression based on motion fields. Moreover, auditory features are reused to guarantee that the generated face images are well synchronized with the audio. Extensive experiments demonstrate that our method can produce more realistic, lip-synced, and identity-preserving videos than existing person-generic talking face generation methods.
翻訳日:2023-05-16 16:27:46 公開日:2023-05-15
# 大型言語モデルガイド木

Large Language Model Guided Tree-of-Thought ( http://arxiv.org/abs/2305.08291v1 )

ライセンス: Link先を確認
Jieyi Long(参考訳) 本稿では,自動回帰型大規模言語モデル(llm)の問題解決能力を向上させるための新しいアプローチであるtree-of-thought(tot)フレームワークを紹介する。 totテクニックは、試行錯誤による複雑な推論タスクを解決する人間の心のアプローチに触発されたものだ。 このプロセスでは、人間の心は木のような思考プロセスを通して解空間を探索し、必要に応じてバックトラックを可能にする。 ToT をソフトウェアシステムとして実装するために,プロンプトエージェント,チェッカーモジュール,メモリモジュール,ToT コントローラなどの追加モジュールを LLM に追加する。 与えられた問題を解決するために、これらのモジュールはllmと複数回会話する。 メモリモジュールは、問題解決プロセスの会話と状態履歴を記録し、システムは思考プロセスの前のステップにバックトラックし、そこから他の方向を探索することができる。 提案手法の有効性を検証するため,ToTを用いたSudoku Puzzleの解法を実装した。 実験結果から,ToTフレームワークはスドクパズル解法の成功率を大幅に向上させることができることがわかった。 totベースのsudokuソルバの実装は、githubで利用可能です。 \url{https://github.com/jieyilong/tree-of-thought-puzzle-solver}。

In this paper, we introduce the Tree-of-Thought (ToT) framework, a novel approach aimed at improving the problem-solving capabilities of auto-regressive large language models (LLMs). The ToT technique is inspired by the human mind's approach for solving complex reasoning tasks through trial and error. In this process, the human mind explores the solution space through a tree-like thought process, allowing for backtracking when necessary. To implement ToT as a software system, we augment an LLM with additional modules including a prompter agent, a checker module, a memory module, and a ToT controller. In order to solve a given problem, these modules engage in a multi-round conversation with the LLM. The memory module records the conversation and state history of the problem solving process, which allows the system to backtrack to the previous steps of the thought-process and explore other directions from there. To verify the effectiveness of the proposed technique, we implemented a ToT-based solver for the Sudoku Puzzle. Experimental results show that the ToT framework can significantly increase the success rate of Sudoku puzzle solving. Our implementation of the ToT-based Sudoku solver is available on GitHub: \url{https://github.com/jieyilong/tree-of-thought-puzzle-solver}.
翻訳日:2023-05-16 16:27:24 公開日:2023-05-15
# SWAN: テキスト会話システム監査のためのジェネリックフレームワーク

SWAN: A Generic Framework for Auditing Textual Conversational Systems ( http://arxiv.org/abs/2305.08290v1 )

ライセンス: Link先を確認
Tetsuya Sakai(参考訳) 本稿では,会話セッションのサンプルを入力として,テキスト対話システムの監査を行うためのシンプルで汎用的なフレームワークを提案する。 このフレームワークは、会話セッションから抽出されたナゲットシーケンスに基づいてSWAN(Schematized Weighted Average Nugget)スコアを算出する。 S尺度とU尺度のアプローチに従い、SWANは会話内のナゲット位置を利用してユーザモデルに基づくナゲットの重み付けを行う。 また、SWANフレームワークに組み込む価値がある20の基準(+1)のスキーマも提示する。 今後の課題として,様々な基準に適合する会話サンプリング手法を考案し,複数のシステムを比較するためのシードユーザターンを構築し,ユーザや社会に対する会話システムのネガティブな影響を防ぐために,SWANの特定の事例を検証することを計画している。 この論文はICTIR 2023の基調講演(2023年7月23日発表予定)の準備中に書かれた。

We present a simple and generic framework for auditing a given textual conversational system, given some samples of its conversation sessions as its input. The framework computes a SWAN (Schematised Weighted Average Nugget) score based on nugget sequences extracted from the conversation sessions. Following the approaches of S-measure and U-measure, SWAN utilises nugget positions within the conversations to weight the nuggets based on a user model. We also present a schema of twenty (+1) criteria that may be worth incorporating in the SWAN framework. In our future work, we plan to devise conversation sampling methods that are suitable for the various criteria, construct seed user turns for comparing multiple systems, and validate specific instances of SWAN for the purpose of preventing negative impacts of conversational systems on users and society. This paper was written while preparing for the ICTIR 2023 keynote (to be given on July 23, 2023).
翻訳日:2023-05-16 16:27:04 公開日:2023-05-15
# 劣化雑音下でのマルチパラメータ推定のための変分量子メトロジー

Variational quantum metrology for multiparameter estimation under dephasing noise ( http://arxiv.org/abs/2305.08289v1 )

ライセンス: Link先を確認
Trung Kien Le and Hung Q. Nguyen and Le Bin Ho(参考訳) 本稿では,量子力学の精度を高めるために,ハイブリッド量子古典変分法を提案する。 このスキームでは、量子部分の初期状態と測定基準の両方をパラメータ化し、古典的部分を通して最適化する。 これにより、測定された量に関する情報を最大化することができる。 本稿では,いくつかのデファスメントノイズモード下での3次元磁界センシングへの応用について検討する。 実際、全てのパラメータを同時に推定し、標準の量子限界を超える能力を示し、メトロロジー応用のための強力なツールである。

We present a hybrid quantum-classical variational scheme to enhance precision in quantum metrology. In the scheme, both the initial state and the measurement basis in the quantum part are parameterized and optimized via the classical part. It enables the maximization of information gained about the measured quantity. We discuss specific applications to 3D magnetic field sensing under several dephasing noise modes. Indeed, we demonstrate its ability to simultaneously estimate all parameters and surpass the standard quantum limit, making it a powerful tool for metrological applications.
翻訳日:2023-05-16 16:26:49 公開日:2023-05-15
# Train/TestによるJavaメソッドの言語モデル

A Language Model of Java Methods with Train/Test Deduplication ( http://arxiv.org/abs/2305.08286v1 )

ライセンス: Link先を確認
Chia-Yi Su, Aakash Bansal, Vijayanta Jain, Sepideh Ghanavati, Collin Mcmillan(参考訳) このツールのデモンストレーションは、javaソースコードの言語モデルのための研究ツールキットを示します。 対象読者には、Javaのサブルーチン、ステートメント、変数の粒度レベルでの問題を研究する研究者も含まれる。 既存の多くの言語モデルとは対照的に、オープンで調査が容易なトレーニングセット、トレーニングセットと異なるレベルの重複レベルを持つテストセット、新しいサンプルを分離するためのインフラ、比較的控えめな予算でアクセス可能な機器上での実行に適した実装プラットフォームなど、研究者の機能を優先する。 我々のモデルは350mパラメータを持つGPT2のようなアーキテクチャである。 トレーニングセットには52mのJavaメソッド(9bトークン)と13mのStackOverflowスレッド(10.5bトークン)が含まれています。 コミュニティのより多くのメンバに対する研究のアクセシビリティ向上のために、ローカルリソースの要件を16GBのビデオメモリを備えたGPUに制限します。 これらのメソッドのJavaプロジェクト全体を含む記述的なコメントを含むJavaメソッドのテストセットを提供します。 また,事前計算されたハッシュテーブルを様々な類似性閾値で使用して,研究者が自身のテスト例をトレーニングセットに含めないことを保証するための重複ツールも提供する。 私たちはすべてのツールとデータをオープンソースにし、hughingfaceとgithubから利用できます。

This tool demonstration presents a research toolkit for a language model of Java source code. The target audience includes researchers studying problems at the granularity level of subroutines, statements, or variables in Java. In contrast to many existing language models, we prioritize features for researchers including an open and easily-searchable training set, a held out test set with different levels of deduplication from the training set, infrastructure for deduplicating new examples, and an implementation platform suitable for execution on equipment accessible to a relatively modest budget. Our model is a GPT2-like architecture with 350m parameters. Our training set includes 52m Java methods (9b tokens) and 13m StackOverflow threads (10.5b tokens). To improve accessibility of research to more members of the community, we limit local resource requirements to GPUs with 16GB video memory. We provide a test set of held out Java methods that include descriptive comments, including the entire Java projects for those methods. We also provide deduplication tools using precomputed hash tables at various similarity thresholds to help researchers ensure that their own test examples are not in the training set. We make all our tools and data open source and available via Huggingface and Github.
翻訳日:2023-05-16 16:26:43 公開日:2023-05-15
# ディープラーニングを用いたスクリーントーンアウェアマンガ超解像

Screentone-Aware Manga Super-Resolution Using DeepLearning ( http://arxiv.org/abs/2305.08325v1 )

ライセンス: Link先を確認
Chih-Yuan Yao, Husan-Ting Chou, Yu-Sheng Lin, Kuo-wei Chen(参考訳) マンガは世界中で広く愛されている娯楽であり、ハンドヘルドデバイスの普及に伴い、紙から電子スクリーンへと変化してきた。 しかし、画面開発に伴う画質の需要の増加に伴い、高品質な画像は伝送を妨げ、視聴体験に影響を与える可能性がある。 従来のベクトル化法では、スクリーントーンの処理にかなりの量の手動パラメータ調整が必要となる。 ディープラーニングを用いることで、ラインとスクリーントンを自動的に抽出し、画像解像度を向上させることができる。 スーパーレゾリューションは低解像度画像を低伝送率を維持しつつ高画質の画像に変換することができる。 しかし,従来のマンガ分解能向上のためのスーパーレゾリューション法は,ストレートトン密度の意味を考慮せず,ストレートトン密度の変化と意味の喪失をもたらす。 本稿では,まず,深層学習アルゴリズムを用いてマンガの異なるスクリーントーンの領域と行を分類し,次に,各ブロックの異なる分類に基づく品質向上のための対応する超解像モデルを用いて,その組み合わせにより,画像の解像度を改善しつつ,マンガのスクリーントーンと行の意味を維持できる画像を得る。

Manga, as a widely beloved form of entertainment around the world, have shifted from paper to electronic screens with the proliferation of handheld devices. However, as the demand for image quality increases with screen development, high-quality images can hinder transmission and affect the viewing experience. Traditional vectorization methods require a significant amount of manual parameter adjustment to process screentone. Using deep learning, lines and screentone can be automatically extracted and image resolution can be enhanced. Super-resolution can convert low-resolution images to high-resolution images while maintaining low transmission rates and providing high-quality results. However, traditional Super Resolution methods for improving manga resolution do not consider the meaning of screentone density, resulting in changes to screentone density and loss of meaning. In this paper, we aims to address this issue by first classifying the regions and lines of different screentone in the manga using deep learning algorithm, then using corresponding super-resolution models for quality enhancement based on the different classifications of each block, and finally combining them to obtain images that maintain the meaning of screentone and lines in the manga while improving image resolution.
翻訳日:2023-05-16 16:21:09 公開日:2023-05-15
# C-Eval: ファンデーションモデルのためのマルチレベル中国語評価スイート

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models ( http://arxiv.org/abs/2305.08322v1 )

ライセンス: Link先を確認
Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, Fanchao Qi, Yao Fu, Maosong Sun, Junxian He(参考訳) 新しいNLPベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。 基礎モデルの高度な知識と推論能力を評価するための,中国初の総合評価スイートであるc-evalを提案する。 C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。 質問は、人文科学から科学、工学まで、52の異なる分野にまたがる。 C-EvalにはC-Eval Hardが伴い、C-Evalの高度な推論能力を必要とする非常に困難な課題のサブセットである。 英語と中国語の両方のモデルを含む、c-evalにおける最も先進的なllmを包括的に評価する。 その結果、gpt-4のみが平均精度60%以上を達成できたことが示され、現在のllmの改善の余地が依然として残っていることが示唆された。 c-evalはファンデーションモデルの重要な強みと欠点を分析し、中国ユーザーの開発と成長を促進するのに役立つと予測している。

New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.
翻訳日:2023-05-16 16:20:46 公開日:2023-05-15
# 量子超越性の最も単純なモデルに向けて:-ボックストラップにおける原子ボゾンサンプリング

Towards the simplest model of quantum supremacy: Atomic boson sampling in a box trap ( http://arxiv.org/abs/2305.08320v1 )

ライセンス: Link先を確認
V. V. Kocharovsky, Vl. V. Kocharovsky, W. D. Shannon, S. V. Tarasov(参考訳) 箱トラップに閉じ込められたボース・アインシュタイン凝縮(bec)ガスの非凝縮分数からの相互作用原子のボゾンサンプリングを,量子多体系の計算シャープハードネスを研究するための新しいプラットフォームとして記述する。 この場合、理論は本当に単純で透明になります。 新たに発見されたハフニアンマスター定理を用いて、ボゴリューボフ近似における励起状態原子占有の特性関数と統計を解析的に計算し、線形干渉計における非相互作用光子のガウスボソンサンプリングと類似性を示す。 重要なことに、原子間相互作用により、ボーソンサンプリングの計算的シャープP硬度に必要となる原子励起状態のスクイーズと干渉は、ガス中で自己生成され、硬化状態におけるボソンの高度な外部源や、光干渉計におけるボソンサンプリングに必要なビームスプリッタや位相シフト器を必要としない。 そこで本研究では,BECガスを用いた実験において,古典計算におけるボソンサンプリングの量子超越性の顕在化について論じる。

We describe boson sampling of interacting atoms from the noncondensed fraction of Bose-Einstein-condensed (BEC) gas confined in a box trap as a new platform for studying computational sharpP-hardness of quantum many-body systems. In this case the theory becomes really simple and transparent. We calculate analytically the characteristic function and statistics of the excited-state atom occupations in the Bogoliubov approximation by means of the newly found hafnian master theorem and show their analogy to those of the Gaussian boson sampling of noninteracting photons in a linear interferometer. Importantly, due to interatomic interactions, the squeezing and interference of atom excited states, both of which are necessary for the computational sharpP-hardness of boson sampling, are self-generated in the gas and do not require neither sophisticated external sources of bosons in squeezed states nor controlled couplers, beam splitters and phase shifters needed for boson sampling in optical interferometers. On this basis, we discuss how to get manifestations of quantum supremacy of boson sampling over classical computing in the experiments with BEC gas.
翻訳日:2023-05-16 16:20:29 公開日:2023-05-15
# 有限トレース上の合成の戦略について

On Strategies in Synthesis Over Finite Traces ( http://arxiv.org/abs/2305.08319v1 )

ライセンス: Link先を確認
Suguman Bansal and Yong Li and Lucas Martinelli Tabajara and Moshe Y. Vardi and Andrew Wells(参考訳) 有限トレース($\ltlf$)上の線形時相論理からの反応合成の革新は、$\ltlf$合成ツールによって生成される戦略の正確性を検証する能力によって増幅される。 これは、"em $\ltlf$ model checking}" に対する我々の取り組みを動機付けます。 しかし、$\ltlf$モデルチェックは簡単ではない。 $\ltlf$ 合成によって生成される戦略は、それぞれ有限だが無限の長さのトランスデューサまたは'em non-terminating}トランスデューサを用いて表現することができる。 合成において、同じ複雑さと類似したアルゴリズムを示すため、あるタイプのトランスデューサが他方よりも優れているという証拠はない。 本稿では,モデル検査において,2種類のトランスデューサが根本的に異なることを示す。 中心となる結果は、非終端トランスデューサの$\ltlf$モデルチェックは、終端トランスデューサよりも\emph{exponentially difficult}であるということです。 問題はそれぞれ \expspace-complete と $\pspace$-complete である。 したがって、検証の可能性を考慮すると、$\ltlf$合成ツールは終端トランスデューサを合成する必要がある。 これは、私たちの知る限りでは、$\ltlf$合成において1つのトランスデューサをもう1つ使うという \emph{first} の証拠である。

The innovations in reactive synthesis from {\em Linear Temporal Logics over finite traces} ($\ltlf$) will be amplified by the ability to verify the correctness of the strategies generated by $\ltlf$ synthesis tools. This motivates our work on {\em $\ltlf$ model checking}. $\ltlf$ model checking, however, is not straightforward. The strategies generated by $\ltlf$ synthesis may be represented using {\em terminating} transducers or {\em non-terminating} transducers where executions are of finite-but-unbounded length or infinite length, respectively. For synthesis, there is no evidence that one type of transducer is better than the other since they both demonstrate the same complexity and similar algorithms. In this work, we show that for model checking, the two types of transducers are fundamentally different. Our central result is that $\ltlf$ model checking of non-terminating transducers is \emph{exponentially harder} than that of terminating transducers. We show that the problems are \expspace-complete and $\pspace$-complete, respectively. Hence, considering the feasibility of verification, $\ltlf$ synthesis tools should synthesize terminating transducers. This is, to the best of our knowledge, the \emph{first} evidence to use one transducer over the other in $\ltlf$ synthesis.
翻訳日:2023-05-16 16:20:06 公開日:2023-05-15
# 自動車再配置のためのCMSGクロスメディアセマンティックグラフ特徴マッチングアルゴリズム

CMSG Cross-Media Semantic-Graph Feature Matching Algorithm for Autonomous Vehicle Relocalization ( http://arxiv.org/abs/2305.08318v1 )

ライセンス: Link先を確認
Shuhang Tan, Hengyu Liu, Zhiling Wang(参考訳) 再局在化は地図に基づく局在化アルゴリズムの基礎である。 カメラとLiDARマップベースの手法は、異なるシナリオ下での堅牢性から普及している。 一般に、同一センサを用いたマッピングとローカライゼーションは、同一タイプのデータ間の特徴のマッチングが容易であるため、精度が向上する。 しかし、カメラの3D情報の欠如とLiDARの高コストのため、ライブ画像データとLidarマップを組み合わせたクロスメディア手法が開発されている。 異なるメディア間の特徴のマッチングは難しいが、低コストで精度が同一センサ方式に匹敵するので、クロスメディアはAV再ローカライゼーションの傾向にあると信じている。 本稿では,AV再ローカライズタスクのための新しいクロスメディアアルゴリズムであるCMSGを提案する。 意味的特徴は、点雲と画像特徴の相関をよりよく解釈するために利用される。 さらに、抽象化されたセマンティックグラフノードが導入され、セマンティック機能の類似性をよりよく抽出するために、グラフネットワークアーキテクチャが統合されます。 KITTIオドメトリーデータセットを用いて検証実験を行った。 その結果,CMSGはNVIDIA 1080 Ti GPU上で25FPSの速度で現行の単一センサ方式と比較して,同等あるいはそれ以上の精度で動作可能であることがわかった。

Relocalization is the basis of map-based localization algorithms. Camera and LiDAR map-based methods are pervasive since their robustness under different scenarios. Generally, mapping and localization using the same sensor have better accuracy since matching features between the same type of data is easier. However, due to the camera's lack of 3D information and the high cost of LiDAR, cross-media methods are developing, which combined live image data and Lidar map. Although matching features between different media is challenging, we believe cross-media is the tendency for AV relocalization since its low cost and accuracy can be comparable to the same-sensor-based methods. In this paper, we propose CMSG, a novel cross-media algorithm for AV relocalization tasks. Semantic features are utilized for better interpretation the correlation between point clouds and image features. What's more, abstracted semantic graph nodes are introduced, and a graph network architecture is integrated to better extract the similarity of semantic features. Validation experiments are conducted on the KITTI odometry dataset. Our results show that CMSG can have comparable or even better accuracy compared to current single-sensor-based methods at a speed of 25 FPS on NVIDIA 1080 Ti GPU.
翻訳日:2023-05-16 16:19:42 公開日:2023-05-15
# semignn-ppi:効率良く汎用的なタンパク質-タンパク質相互作用予測のための自己センシングマルチグラフニューラルネットワーク

SemiGNN-PPI: Self-Ensembling Multi-Graph Neural Network for Efficient and Generalizable Protein-Protein Interaction Prediction ( http://arxiv.org/abs/2305.08316v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Peisheng Qian, Xulei Yang, Zeng Zeng, Cuntai Guan, Wai Leong Tam, Xiaoli Li(参考訳) タンパク質とタンパク質の相互作用(PPI)は様々な生物学的プロセスにおいて重要であり、その研究は薬物開発や疾患の診断に重要な意味を持つ。 既存のディープラーニング手法は、ラベルの不足やドメインシフトなど、さまざまな要因により、複雑な現実世界のシナリオでパフォーマンスが著しく低下する。 本稿では,PPIを効率的に予測し,効率的かつ一般化可能な自己組織化型マルチグラフニューラルネットワーク(SemiGNN-PPI)を提案する。 semignn-ppiでは、タンパク質相関をモデル化するだけでなく、複数のグラフを構築して処理することで、グラフ学習プロセスにおける特徴とラベルの両方の観点からラベル依存を探求する。 我々はさらに、GNNとMean Teacherと結婚し、ラベルなしグラフ構造化PPIデータを自己アンサンブルグラフ学習に効果的に活用する。 また、複数のグラフ一貫性制約を設計して、機能埋め込み空間における生徒と教師のグラフの整合性を調整し、より多くの関係を組み込むことで、生徒モデルが教師モデルからより良く学習できるようにする。 異なる評価設定の異なるスケールのPPIデータセットに対する大規模な実験は、SemiGNN-PPIが最先端のPPI予測手法よりも優れていることを示している。

Protein-protein interactions (PPIs) are crucial in various biological processes and their study has significant implications for drug development and disease diagnosis. Existing deep learning methods suffer from significant performance degradation under complex real-world scenarios due to various factors, e.g., label scarcity and domain shift. In this paper, we propose a self-ensembling multigraph neural network (SemiGNN-PPI) that can effectively predict PPIs while being both efficient and generalizable. In SemiGNN-PPI, we not only model the protein correlations but explore the label dependencies by constructing and processing multiple graphs from the perspectives of both features and labels in the graph learning process. We further marry GNN with Mean Teacher to effectively leverage unlabeled graph-structured PPI data for self-ensemble graph learning. We also design multiple graph consistency constraints to align the student and teacher graphs in the feature embedding space, enabling the student model to better learn from the teacher model by incorporating more relationships. Extensive experiments on PPI datasets of different scales with different evaluation settings demonstrate that SemiGNN-PPI outperforms state-of-the-art PPI prediction methods, particularly in challenging scenarios such as training with limited annotations and testing on unseen data.
翻訳日:2023-05-16 16:19:22 公開日:2023-05-15
# 開量子系におけるLiouville-Majoranaモードの散逸

Dissipation induced Liouville-Majorana modes in open quantum system ( http://arxiv.org/abs/2305.08311v1 )

ライセンス: Link先を確認
Xing-Shuo Xu, Xiang-Fa Zhou, Guang-Can Guo, and Zheng-Wei Zhou(参考訳) オープンシステムでは、トポロジカルエッジ状態はコヒーレンスを失い、トポロジカル量子計算や量子メモリでは利用できない。 ここでは、散逸的量子スピン(またはフェルミオン)系において、通常のエルミート系で定義された位相モードの範囲を超えた拡張リウヴィル・フォック空間において、位相的に非エルミート的リウヴィル・マヨラナエッジモード(LMEM)が生存可能であることを示す。 第3の量子化を用いてシステムのリンドブラッド方程式をベクトル化することにより、拡張リウヴィル・フォック空間における一連の非エルミート的キータエフ鎖に還元され、位相的にLMEMはその内部対称性により保護されることを示す。 さらに,これらのモードを検出するための明示的な方法を提案し,密度行列の純度がlmemsの長距離相関を特徴付けることを証明した。 この研究は、量子ジャンプによって引き起こされるオープンシステムの新しい安定な位相状態を探す新しい道を開く。

In open systems, topological edge states quickly lose coherence and cannot be used in topological quantum computation and quantum memory. Here we show that for dissipative quantum spin (or fermionic) systems, topologically non-Hermitian Liouville-Majorana edge modes (LMEMs) can survive in the extended Liouville-Fock space, which is beyond the scope of topological modes defined in usual Hermitian system. By vectorizing the Lindblad equation of the system using the third quantization, we prove that it reduces to a series of non-Hermitian Kitaev chains in the extended Liouville-Fock space, and topologically LMEMs are protected due to its internal symmetry. Furthermore, we provide an explicit method for detecting these modes and prove that the purity of the density matrix characterizes the long-range correlation of LMEMs. The work opens new avenues of searching for novel stable topological states in open systems induced by quantum jumps.
翻訳日:2023-05-16 16:18:54 公開日:2023-05-15
# fusion blossom: qec用の高速mwpmデコーダ

Fusion Blossom: Fast MWPM Decoders for QEC ( http://arxiv.org/abs/2305.08307v1 )

ライセンス: Link先を確認
Yue Wu and Lin Zhong(参考訳) Minimum-Weight Perfect Matching (MWPM) デコーダは量子エラー訂正(QEC)デコーダで広く使われている。 その高い精度にもかかわらず、MWPMデコーダの既存の実装は量子ハードウェアに追いつかず、例えば超伝導量子ビットに対して毎秒100万の計測を行う。 彼らは指数関数的に成長し、結果として量子計算のパワーが実現できないような測定のバックログに苦しむ。 私たちはparity blossomと呼ばれる高速なmwpmデコーダを設計し、実装しました。 さらに,parity blossom の並列版である fusion blossom の設計と実装を行った。 実際の回路レベルのノイズが0.1%になると、Fusion Blossomは毎秒100万回の計測ラウンドをコード距離33までデコードできる。 fusion blossomは、測定ラウンドに関係なく、コード距離21で0.7msデコーディングレイテンシに達するストリームデコーディングモードもサポートする。

The Minimum-Weight Perfect Matching (MWPM) decoder is widely used in Quantum Error Correction (QEC) decoding. Despite its high accuracy, existing implementations of the MWPM decoder cannot catch up with quantum hardware, e.g., 1 million measurements per second for superconducting qubits. They suffer from a backlog of measurements that grows exponentially and as a result, cannot realize the power of quantum computation. We design and implement a fast MWPM decoder, called Parity Blossom, which reaches a time complexity almost proportional to the number of defect measurements. We further design and implement a parallel version of Parity Blossom called Fusion Blossom. Given a practical circuit-level noise of 0.1%, Fusion Blossom can decode a million measurement rounds per second up to a code distance of 33. Fusion Blossom also supports stream decoding mode that reaches a 0.7 ms decoding latency at code distance 21 regardless of the measurement rounds.
翻訳日:2023-05-16 16:18:34 公開日:2023-05-15
# マイクロ波-光量子界面のための色中心を持つダイヤモンド光学キャビティの設計

Design of a diamond optomechanical cavity with a color center for microwave-to-optical quantum interfaces ( http://arxiv.org/abs/2305.08306v1 )

ライセンス: Link先を確認
Byunggi Kim, Hodaka Kurokawa, Hideo Kosaka, and Masahiro Nomura(参考訳) マイクロ波と光子間の量子伝達は、リモート量子コンピューティング量子ビット間の量子通信において重要な役割を果たす。 通信光子を生成する量子トランスダクション方式はオプティメカルインタフェースを用いて実証されているが、低変換効率は複数の量子ビットからなる量子ネットワークの実装の障害として残っている。 本稿では,1次元(1D)ダイヤモンドオプテメカルキャビティを,オプテメカルカップリングを伴わずに色中心の放射に調整した効率的な量子トランスダクション手法を提案する。 このオプティメカルキャビティは、集光器キャビティ領域付近に窒化アルミニウム(AlN)パッド圧電カプラを内蔵し、超小径のメカニカルモードおよび光学モードボリュームは、それぞれ~1.5 \times 10^{-4}({\Lambda}_p)^3および~0.2({\lambda}/n)^3を保持する。 コヒーレントな色中心電子のエネルギーレベルは16.4MHzまでの強い機械的モード-色中心結合速度で操作される。 本システムでは,単一マイクロ波光子から光子への変換効率が15%に達することを理論的に予測する。 我々の量子変換方式は、様々な距離の量子ネットワークに信頼できるプラットフォームを提供します。

Quantum transduction between microwave and optical photons holds a key role in quantum communications among remote quantum computing qubits. Although the quantum transduction schemes generating communication photons have been successfully demonstrated by using optomechanical interfaces, the low conversion efficiency remains an obstacle to the implementation of a quantum network consisting of multiple qubits. Here, we present an efficient quantum transduction scheme using a one-dimensional (1D) diamond optomechanical cavity tuned at a color-center emission without the optomechanical coupling. The optomechanical cavity incorporates a thin aluminum nitride (AlN) pad piezoelectric coupler near the concentrator cavity region, while keeping the ultrasmall mechanical and optical mode-volumes of ~1.5 \times 10^{-4} ({\Lambda}_p)^3 and ~0.2({\lambda}/n)^3, respectively. Energy level of a coherent color-center electron is manipulated with a strong mechanical mode-color center coupling rate up to 16.4 MHz. In our system, we theoretically predict that the conversion efficiency from a single microwave photon into an optical photon can reach 15%. Our quantum transduction scheme will offer a reliable platform for quantum networks in the various range of distances.
翻訳日:2023-05-16 16:18:19 公開日:2023-05-15
# 次世代トランシーバの深部展開

Deep-Unfolding for Next-Generation Transceivers ( http://arxiv.org/abs/2305.08303v1 )

ライセンス: Link先を確認
Qiyu Hu, Yunlong Cai, Guangyi Zhang, Guanding Yu, Geoffrey Ye Li(参考訳) 超高データレート、極端に高い信頼性、低レイテンシといった将来のワイヤレスネットワークのパフォーマンス要件は、次世代マルチインプット多重出力(mimo)トランスシーバの定義に関する世界的な研究を刺激している。 無線通信における先進トランシーバの設計において、しばしば反復アルゴリズムにつながる最適化アプローチはMIMOトランシーバにとって大きな成功を収めた。 しかし、これらのアルゴリズムは通常、多くの反復を収束させる必要があり、計算の複雑さが伴い、様々なパラメータの微調整がしばしば必要となる。 ディープラーニングの開発により、深層ニューラルネットワーク(DNN)による反復アルゴリズムの近似により、計算時間が大幅に短縮される。 しかし、DNNは通常、大量のデータと広範なトレーニング時間を必要とするブラックボックスソルバにつながる。 これらの課題をさらに克服するために、ディープラーニングと反復アルゴリズムの両方の利点を取り入れたディープアンフォールディングが登場し、反復アルゴリズムをDNNに似たレイヤーワイド構造に展開した。 本稿ではまず,行列パラメータを用いたトランシーバ設計のためのディープアンフォールディングの枠組みとその最近の進歩について述べる。 そこで,次世代の先進トランシーバ設計における深部展開手法の適用について述べる。 さらに,今後の研究におけるオープンな課題が強調されている。

The stringent performance requirements of future wireless networks, such as ultra-high data rates, extremely high reliability and low latency, are spurring worldwide studies on defining the next-generation multiple-input multiple-output (MIMO) transceivers. For the design of advanced transceivers in wireless communications, optimization approaches often leading to iterative algorithms have achieved great success for MIMO transceivers. However, these algorithms generally require a large number of iterations to converge, which entails considerable computational complexity and often requires fine-tuning of various parameters. With the development of deep learning, approximating the iterative algorithms with deep neural networks (DNNs) can significantly reduce the computational time. However, DNNs typically lead to black-box solvers, which requires amounts of data and extensive training time. To further overcome these challenges, deep-unfolding has emerged which incorporates the benefits of both deep learning and iterative algorithms, by unfolding the iterative algorithm into a layer-wise structure analogous to DNNs. In this article, we first go through the framework of deep-unfolding for transceiver design with matrix parameters and its recent advancements. Then, some endeavors in applying deep-unfolding approaches in next-generation advanced transceiver design are presented. Moreover, some open issues for future research are highlighted.
翻訳日:2023-05-16 16:17:54 公開日:2023-05-15
# 多人数対話読解のための参照型二重チャネル注意ネットワーク

Coreference-aware Double-channel Attention Network for Multi-party Dialogue Reading Comprehension ( http://arxiv.org/abs/2305.08348v1 )

ライセンス: Link先を確認
Yanling Li, Bowei Zou, Yifan Fan, Mengxing Dong, Yu Hong(参考訳) MDRC(Multi-party Dialogue Reading Comprehension)に挑戦する。 MDRCは、複数のインターロケータ間の対話に基づく抽出読解タスクの略である。 マルチターン多人数会話におけるクロス発話の文脈と関係を理解する必要があるため、これは困難である。 これまでの研究は、単一の対話型言語とグラフベースの相互作用モデリングの発話プロファイリングに多大な努力をしてきた。 対応するソリューションは、よく整理されたスレッド対応の会話コンテキストにおける回答指向の推論に寄与する。 しかし、現在のMDRCモデルは2つのボトルネックに悩まされている。 一方、「it」のような代名詞は、多種多様な対話者の発話を通して多種多様な推論を生成することが多い。 一方、MDRCエンコーダは、発話における内言語的特徴と発話間の外部対話的特徴の混合といったファジィ特徴に悩まされる可能性がある。 ボトルネックを克服するため,推論能力を高めるためのコア推論対応アテンションモデリング手法を提案する。 さらに,2チャネル符号化ネットワークを構築した。 発話プロファイルと対話的な関係を別々にエンコードすることで、異質な特徴間の混乱を緩和する。 ベンチマークコーパスMolweniとFriendsQAの実験を行った。 提案手法は細調整したBERT および ELECTRA ベースラインと比較して, 両コーパスの大幅な改善が得られた。 最大パフォーマンスゲインは約2.5\% F1スコアである。 MDRCモデルは、ほとんどの場合、最先端のモデルよりも優れています。

We tackle Multi-party Dialogue Reading Comprehension (abbr., MDRC). MDRC stands for an extractive reading comprehension task grounded on a batch of dialogues among multiple interlocutors. It is challenging due to the requirement of understanding cross-utterance contexts and relationships in a multi-turn multi-party conversation. Previous studies have made great efforts on the utterance profiling of a single interlocutor and graph-based interaction modeling. The corresponding solutions contribute to the answer-oriented reasoning on a series of well-organized and thread-aware conversational contexts. However, the current MDRC models still suffer from two bottlenecks. On the one hand, a pronoun like "it" most probably produces multi-skip reasoning throughout the utterances of different interlocutors. On the other hand, an MDRC encoder is potentially puzzled by fuzzy features, i.e., the mixture of inner linguistic features in utterances and external interactive features among utterances. To overcome the bottlenecks, we propose a coreference-aware attention modeling method to strengthen the reasoning ability. In addition, we construct a two-channel encoding network. It separately encodes utterance profiles and interactive relationships, so as to relieve the confusion among heterogeneous features. We experiment on the benchmark corpora Molweni and FriendsQA. Experimental results demonstrate that our approach yields substantial improvements on both corpora, compared to the fine-tuned BERT and ELECTRA baselines. The maximum performance gain is about 2.5\% F1-score. Besides, our MDRC models outperform the state-of-the-art in most cases.
翻訳日:2023-05-16 16:11:22 公開日:2023-05-15
# kepr: ジェネレーティブ・コモンセンス質問応答における知識の強化と可能性ランキング

KEPR: Knowledge Enhancement and Plausibility Ranking for Generative Commonsense Question Answering ( http://arxiv.org/abs/2305.08347v1 )

ライセンス: Link先を確認
Zhifeng Li and Bowei Zou and Yifan Fan and Yu Hong(参考訳) gencqa(generative commonsense question answering)は、質問に対して回答のリストを自動的に生成するタスクである。 答えリストは、すべての合理的な答えをカバーするために必要です。 これは、多様な回答を生み出し、それらを適切にランク付けする、かなりの課題を提示します。 様々な関連する背景知識を質問のエンコーディングに組み込むことで、異なる回答を生成することができる。 一方、正の回答と負の回答を区別する学習は、可能性の確率的推定を増大させる可能性がある。 そこで本稿では,Generate-Then-Rankパイプラインアーキテクチャに基づくKEPR(Knowledge Enhancement and Plausibility Ranking)アプローチを提案する。 具体的には、キーワードのWiktionary Commonsense知識の観点から質問を拡張し、正規化パターンで修正する。 関連する知識の取得にデンスパス検索を用い、回答を生成するために異なるPLM(BART, GPT2, T5)ネットワークを使用する。 一方,極性分類のシナリオにおいて,異なるレベルの信頼性を近似する目的で,トレーニング中にロジスティック回帰を行うエレクトラベース回答ランキングモデルを開発した。 ベンチマークProtoQAの大規模な実験では、KEPRは強いベースラインに比べて大幅に改善されている。 実験モデルでは、ケプラーのt5ベースのgencqaが最高の性能を得ており、これは主要な標準メートル法である inc@3 において最大60.91%である。 ProtoQAの現在のリーダーボードでは、既存のGenCQAモデルよりも優れています。

Generative commonsense question answering (GenCQA) is a task of automatically generating a list of answers given a question. The answer list is required to cover all reasonable answers. This presents the considerable challenges of producing diverse answers and ranking them properly. Incorporating a variety of closely-related background knowledge into the encoding of questions enables the generation of different answers. Meanwhile, learning to distinguish positive answers from negative ones potentially enhances the probabilistic estimation of plausibility, and accordingly, the plausibility-based ranking. Therefore, we propose a Knowledge Enhancement and Plausibility Ranking (KEPR) approach grounded on the Generate-Then-Rank pipeline architecture. Specifically, we expand questions in terms of Wiktionary commonsense knowledge of keywords, and reformulate them with normalized patterns. Dense passage retrieval is utilized for capturing relevant knowledge, and different PLM-based (BART, GPT2 and T5) networks are used for generating answers. On the other hand, we develop an ELECTRA-based answer ranking model, where logistic regression is conducted during training, with the aim of approximating different levels of plausibility in a polar classification scenario. Extensive experiments on the benchmark ProtoQA show that KEPR obtains substantial improvements, compared to the strong baselines. Within the experimental models, the T5-based GenCQA with KEPR obtains the best performance, which is up to 60.91% at the primary canonical metric Inc@3. It outperforms the existing GenCQA models on the current leaderboard of ProtoQA.
翻訳日:2023-05-16 16:11:03 公開日:2023-05-15
# ラベル強化による補足学習におけるラベル共有効率の向上

Enhancing Label Sharing Efficiency in Complementary-Label Learning with Label Augmentation ( http://arxiv.org/abs/2305.08344v1 )

ライセンス: Link先を確認
Wei-I Lin, Gang Niu, Hsuan-Tien Lin, Masashi Sugiyama(参考訳) 補足ラベル学習(cll)は、特定のインスタンスが属さないクラスである補足ラベルのみを使用して通常の分類器を訓練する、弱い教師付き学習の一形態である。 既存のCLL研究は、通常、この問題を解決するために新しい損失関数や訓練技術を用いるが、補完ラベルが通常の分類器を訓練するための情報をどのように収集するかに焦点を当てる研究はほとんどない。 本稿では,学習中の周辺インスタンスにおける補完ラベルの暗黙的な共有を分析し,そのギャップを埋める。 分析の結果,暗黙ラベル共有の効率は既存のCLLモデルの性能と密接に関連していることがわかった。 そこで本研究では,補完ラベル拡張による共有効率の向上を図り,各インスタンスに追加の補完ラベルを明示的に伝達する手法を提案する。 我々は、データを新しい正確な補完ラベルで強化するための拡張プロセスを慎重に設計し、CLLモデルに新鮮で価値のある情報を提供し、共有効率を向上させる。 次に,合成データと実世界データの両方について徹底的な実験を行い,提案手法の検証を行った。 実験結果から,従来のCLLモデルよりも相補的ラベル拡張により経験的性能が向上することが確認された。

Complementary-label Learning (CLL) is a form of weakly supervised learning that trains an ordinary classifier using only complementary labels, which are the classes that certain instances do not belong to. While existing CLL studies typically use novel loss functions or training techniques to solve this problem, few studies focus on how complementary labels collectively provide information to train the ordinary classifier. In this paper, we fill the gap by analyzing the implicit sharing of complementary labels on nearby instances during training. Our analysis reveals that the efficiency of implicit label sharing is closely related to the performance of existing CLL models. Based on this analysis, we propose a novel technique that enhances the sharing efficiency via complementary-label augmentation, which explicitly propagates additional complementary labels to each instance. We carefully design the augmentation process to enrich the data with new and accurate complementary labels, which provide CLL models with fresh and valuable information to enhance the sharing efficiency. We then verify our proposed technique by conducting thorough experiments on both synthetic and real-world datasets. Our results confirm that complementary-label augmentation can systematically improve empirical performance over state-of-the-art CLL models.
翻訳日:2023-05-16 16:10:36 公開日:2023-05-15
# データから物理法則を発見する有限表現法

Finite Expression Methods for Discovering Physical Laws from Data ( http://arxiv.org/abs/2305.08342v1 )

ライセンス: Link先を確認
Zhongyi Jiang and Chunmei Wang and Haizhao Yang(参考訳) 非線形力学は様々な科学的・工学的な分野において広く見られる現象である。 しかし、限られたデータから非線形力学を記述する解析的表現は、依然として困難で不可欠な課題である。 本稿では,有限個の解析式を含む関数の空間内における支配方程式を,観測された動的データに基づいて同定する「有限表現法」(FEX)と呼ばれる新しい深い記号学習法を提案する。 中心となる考え方は、畳み込みを用いて偏微分方程式(PDE)解の微分を学習することで、FEXを利用して支配方程式の分析式を生成することである。 FEXは時間依存型PDE問題や時間変動係数を持つ非線形力学系を含む様々な問題において,既存の手法(PDE-Net, SINDy, GP, SPL)よりも優れた性能を示した。 さらに、FEXは、低メモリと良好な時間複雑性を維持しながら、シンボル支配方程式を正確に近似する柔軟性と表現力を示した。

Nonlinear dynamics is a pervasive phenomenon observed in various scientific and engineering disciplines. However, uncovering analytical expressions that describe nonlinear dynamics from limited data remains a challenging and essential task. In this paper, we propose a new deep symbolic learning method called the ``finite expression method'' (FEX) to identify the governing equations within the space of functions containing a finite set of analytic expressions, based on observed dynamic data. The core idea is to leverage FEX to generate analytical expressions of the governing equations by learning the derivatives of partial differential equation (PDE) solutions using convolutions. Our numerical results demonstrate that FEX outperforms all existing methods (such as PDE-Net, SINDy, GP, and SPL) in terms of numerical performance across various problems, including time-dependent PDE problems and nonlinear dynamical systems with time-varying coefficients. Furthermore, the results highlight that FEX exhibits flexibility and expressive power in accurately approximating symbolic governing equations, while maintaining low memory and favorable time complexity.
翻訳日:2023-05-16 16:10:13 公開日:2023-05-15
# コーパス言語学におけるLLM補助アノテーションの使用:局所文法解析を事例として

Using LLM-assisted Annotation for Corpus Linguistics: A Case Study of Local Grammar Analysis ( http://arxiv.org/abs/2305.08339v1 )

ライセンス: Link先を確認
Danni Yu, Luyang Li, Hang Su(参考訳) 大規模言語モデル(LLM)に基づくチャットボットは、言語理解において強力な能力を示している。 本研究では,特定のカテゴリの言語情報を含むテキストの自動アノテーションにより,コーパスに基づく言語研究を支援するllmの可能性を検討する。 具体的には,局所文法の観点から,LLMが言語行動を構成する機能的要素をどの程度理解しているかを,ChatGPT(GPT-3.5),Bingチャットボット(GPT-4),およびアノテーションタスクにおける人間コーダのパフォーマンスを比較して検討した。 その結果, Bing チャットボットはタスクにおける ChatGPT を著しく上回った。 人間アノテータと比較して、Bingチャットボットの全体的なパフォーマンスはわずかに満足できなかった。 APOLOGISINGのタグは99.95%、REASONは91.91%、APOLOGISERは95.35%、APOLOGISEEは89.74%、INTENSIFIERは96.47%だった。 そこで本研究では,llm支援アノテーションがコーパス研究に有望な自動アプローチであることを示す。

Chatbots based on Large Language Models (LLMs) have shown strong capabilities in language understanding. In this study, we explore the potential of LLMs in assisting corpus-based linguistic studies through automatic annotation of texts with specific categories of linguistic information. Specifically, we examined to what extent LLMs understand the functional elements constituting the speech act of apology from a local grammar perspective, by comparing the performance of ChatGPT (powered by GPT-3.5), Bing chatbot (powered by GPT-4), and a human coder in the annotation task. The results demonstrate that Bing chatbot significantly outperformed ChatGPT in the task. Compared to human annotator, the overall performance of Bing chatbot was slightly less satisfactory. However, it already achieved high F1 scores: 99.95% for the tag of APOLOGISING, 91.91% for REASON, 95.35% for APOLOGISER, 89.74% for APOLOGISEE, and 96.47% for INTENSIFIER. Therefore, we propose that LLM-assisted annotation is a promising automated approach for corpus studies.
翻訳日:2023-05-16 16:09:54 公開日:2023-05-15
# ニューラルボルツマンマシン

Neural Boltzmann Machines ( http://arxiv.org/abs/2305.08337v1 )

ライセンス: Link先を確認
Alex H. Lang, Anton D. Loukianov, and Charles K. Fisher(参考訳) 条件生成モデルは、コンテキスト情報を入力として使用して、新しい想像的出力を生成することができる。 条件付き制限ボルツマンマシン(英: Conditional Restricted Boltzmann Machines, CRBM)は、ノイズの多い離散的または連続的なデータのモデリングに特に適していることが証明された条件付き生成モデルの一種であるが、CRBMにおける表現力の欠如は広く採用されている。 本稿では、各CRBMパラメータを条件入力の関数として許容される独自のニューラルネットワークに変換することにより、CRBMを一般化するニューラルボルツマンマシン(NBM)を紹介する。 NBMは高度にフレキシブルな条件付き生成モデルであり、確率勾配勾配からトレーニングすることで、データのログ類似度をほぼ最大化することができる。 特に,ガウシアン・ベルヌーリ crbms に問題を引き起こした正規分布データを用いて,nbms の有用性を示す。 結果の再現コードは https://github.com/unlearnai/neural-boltzmann-machines で確認できます。

Conditional generative models are capable of using contextual information as input to create new imaginative outputs. Conditional Restricted Boltzmann Machines (CRBMs) are one class of conditional generative models that have proven to be especially adept at modeling noisy discrete or continuous data, but the lack of expressivity in CRBMs have limited their widespread adoption. Here we introduce Neural Boltzmann Machines (NBMs) which generalize CRBMs by converting each of the CRBM parameters to their own neural networks that are allowed to be functions of the conditional inputs. NBMs are highly flexible conditional generative models that can be trained via stochastic gradient descent to approximately maximize the log-likelihood of the data. We demonstrate the utility of NBMs especially with normally distributed data which has historically caused problems for Gaussian-Bernoulli CRBMs. Code to reproduce our results can be found at https://github.com/unlearnai/neural-boltzmann-machines.
翻訳日:2023-05-16 16:09:34 公開日:2023-05-15
# 物理およびニューラルレンダラを用いた半透明物体の逆レンダリング

Inverse Rendering of Translucent Objects using Physical and Neural Renderers ( http://arxiv.org/abs/2305.08336v1 )

ライセンス: Link先を確認
Chenhao Li, Trung Thanh Ngo, Hajime Nagahara(参考訳) 本研究では,半透明物体の1対の撮像画像のみから,3次元形状,空間的反射率,均質な地下散乱パラメータ,および環境照明を共同で推定する逆レンダリングモデルを提案する。 逆レンダリングの曖昧さ問題を解決するために,物理的ベースレンダラとニューラルネットワークレンダラを用いてシーンの再構成と素材編集を行う。 2つのレンダラーは微分可能であるため、パラメータ推定を補助するために再構成損失を計算することができる。 また,提案するニューラルレンダラーの監視を強化するために,拡張損失を提案する。 さらに、フラッシュと非フラッシュ画像ペアを入力として使用します。 トレーニングを監督するために,117Kシーンからなる半透明物体の大規模合成データセットを構築した。 合成データと実世界のデータセットの質的および定量的結果から,提案モデルの有効性が示された。

In this work, we propose an inverse rendering model that estimates 3D shape, spatially-varying reflectance, homogeneous subsurface scattering parameters, and an environment illumination jointly from only a pair of captured images of a translucent object. In order to solve the ambiguity problem of inverse rendering, we use a physically-based renderer and a neural renderer for scene reconstruction and material editing. Because two renderers are differentiable, we can compute a reconstruction loss to assist parameter estimation. To enhance the supervision of the proposed neural renderer, we also propose an augmented loss. In addition, we use a flash and no-flash image pair as the input. To supervise the training, we constructed a large-scale synthetic dataset of translucent objects, which consists of 117K scenes. Qualitative and quantitative results on both synthetic and real-world datasets demonstrated the effectiveness of the proposed model.
翻訳日:2023-05-16 16:09:10 公開日:2023-05-15
# 対数光円錐、遅い絡み合い成長とスクランブル、量子メモリ

Logarithmic light cone, slow entanglement growth and scrambling, and quantum memory ( http://arxiv.org/abs/2305.08334v1 )

ライセンス: Link先を確認
Yu Zeng, Alioscia Hamma, Yu-Ran Zhang, Qiang Liu, Rengang Li, Heng Fan and Wu-Ming Liu(参考訳) 有効光円錐はリーブ・ロビンソン境界から非相対論的局所量子系に出現し、ハイゼンベルク像内の2つの時空分離作用素の指数関数的に減衰する可換ノルムとなる。 ここでは対数光円錐(LLC)の出現と結果のメカニズムを導出する。 可能な方法として、llc は多体局所化の現象論的モデルから生じることができる。 我々は,llcの体制において情報スクランブルが対数的に遅いことを示す。 両部交絡エントロピーは任意の有限空間次元および任意の初期純状態に対して時間とともに対数的に増加することを証明する。 量子情報処理の応用として、LLCは長寿命の量子メモリ、マクロコード距離を持つ量子コード、ユニタリ時間進化後の指数的に長い寿命をサポートする。

Effective light cones may emerge in non-relativistic local quantum systems from the Lieb-Robinson bounds, resulting in exponentially decaying commutator norms of two space-time separated operators in the Heisenberg picture. Here, we derive a mechanism for the emergence and consequences of a logarithmic light cone (LLC). As a possible way, the LLC can emerge from a phenomenological model of many-body-localization. We show that the information scrambling is logarithmically slow in the regime of the LLC. We prove that the bipartite entanglement entropy grows logarithmically with time at arbitrary finite space dimensions and for arbitrary initial pure states. As an application in quantum information processing, the LLC supports long-lived quantum memory, a quantum code with macroscopic code distance and an exponentially long lifetime after unitary time evolution.
翻訳日:2023-05-16 16:08:44 公開日:2023-05-15
# FedAds: 垂直的フェデレーション学習によるプライバシー保護型CVR推定ベンチマーク

FedAds: A Benchmark for Privacy-Preserving CVR Estimation with Vertical Federated Learning ( http://arxiv.org/abs/2305.08328v1 )

ライセンス: Link先を確認
Penghui Wei, Hongjian Dou, Shaoguo Liu, Rongjun Tang, Li Liu, Liang Wang, Bo Zheng(参考訳) コンバージョン率(CVR)推定は、ユーザーが広告をクリックすると変換イベントの確率を予測することを目的としている。 通常、オンラインパブリッシャはユーザーのブラウジングやフィードバックをクリックし、デマンドサイドの広告プラットフォームは、居住時間やコンバージョン決定などのクリック後の行動を収集している。 CVRを正確に推定し、データのプライバシーをよりよく保護するために、垂直連合学習(vFL)は、生データを交換することなく、トレーニングモデルの双方の利点を組み合わせる自然なソリューションである。 CVR推定と応用vFLアルゴリズムの両方が研究の注目を集めている。 標準化されたデータセットが不足しているため、既存の研究では、手作りのフィーチャーパーティションを通じてvFL設定をシミュレートするパブリックデータセットを採用しており、公正な比較に課題をもたらしている。 我々は,vFLアルゴリズムの標準化と体系的評価を容易にするために,vFLによるCVR推定のための最初のベンチマークであるFedAdsを紹介する。 alibabaの広告プラットフォームから収集された大規模な実世界データセットと、様々なvflアルゴリズムの有効性とプライバシー面の両方の体系的な評価が含まれている。 さらに,不整合データをvFLに組み込んで有効性を向上し,プライバシー保護のために摂動操作を開発することも検討している。 今後fedAdsベンチマークによるvFLおよびCVR推定における研究成果の恩恵を期待する。

Conversion rate (CVR) estimation aims to predict the probability of conversion event after a user has clicked an ad. Typically, online publisher has user browsing interests and click feedbacks, while demand-side advertising platform collects users' post-click behaviors such as dwell time and conversion decisions. To estimate CVR accurately and protect data privacy better, vertical federated learning (vFL) is a natural solution to combine two sides' advantages for training models, without exchanging raw data. Both CVR estimation and applied vFL algorithms have attracted increasing research attentions. However, standardized and systematical evaluations are missing: due to the lack of standardized datasets, existing studies adopt public datasets to simulate a vFL setting via hand-crafted feature partition, which brings challenges to fair comparison. We introduce FedAds, the first benchmark for CVR estimation with vFL, to facilitate standardized and systematical evaluations for vFL algorithms. It contains a large-scale real world dataset collected from Alibaba's advertising platform, as well as systematical evaluations for both effectiveness and privacy aspects of various vFL algorithms. Besides, we also explore to incorporate unaligned data in vFL to improve effectiveness, and develop perturbation operations to protect privacy well. We hope that future research work in vFL and CVR estimation benefits from the FedAds benchmark.
翻訳日:2023-05-16 16:08:21 公開日:2023-05-15
# 教育メタバース環境における学習者中心分析:自然相互作用とテキストマイニングによる価値交換システムの探索

Learner-Centered Analysis in Educational Metaverse Environments: Exploring Value Exchange Systems through Natural Interaction and Text Mining ( http://arxiv.org/abs/2305.08326v1 )

ライセンス: Link先を確認
Yun-Cheng Tsai(参考訳) 本稿では,教育4.0と第4次産業革命に応答して,メタバースにおける自己指向学習の潜在的発展について考察する。 技術的進歩に追随し、学習中心のアプローチを採用することの重要性を強調している。 さらに、自然相互作用、テキストマイニング、分析を通じて価値交換システムを探求することに焦点を当てている。 metaverseの概念は拡張現実(xr)技術を超えて拡張され、デジタルアバターと共通の生態的価値を包含する。 新たな技術の探求とテキストマイニング技術を活用した学習効率向上における教育者の役割を強調した。 metaverseは価値交換のプラットフォームとして提示され、ユーザを引き付けるために有意義で価値のあるコンテンツを必要とします。 metaverseに仮想および現実世界のエクスペリエンスを統合することは、実用的なアプリケーションを提供し、その本質に寄与する。 本稿では,学習者中心の教育環境を創造し,教育4.0の進化する景観に適応するメタバースの可能性に光を当てる。 その発見はテキストマイニング分析によって支持され、第四次産業革命におけるメタバースの教育形成における役割の理解に寄与している。

This paper explores the potential developments of self-directed learning in the metaverse in response to Education 4.0 and the Fourth Industrial Revolution. It highlights the importance of education keeping up with technological advancements and adopting learner-centered approaches. Additionally, it focuses on exploring value exchange systems through natural interaction, text mining, and analysis. The metaverse concept extends beyond extended reality (XR) technologies, encompassing digital avatars and shared ecological value. The role of educators in exploring new technologies and leveraging text-mining techniques to enhance learning efficiency is emphasized. The metaverse is presented as a platform for value exchange, necessitating meaningful and valuable content to attract users. Integrating virtual and real-world experiences within the metaverse offers practical applications and contributes to its essence. This paper sheds light on the metaverse's potential to create a learner-centered educational environment and adapt to the evolving landscape of Education 4.0. Its findings, supported by text mining analysis, contribute to understanding the metaverse's role in shaping education in the Fourth Industrial Revolution.
翻訳日:2023-05-16 16:07:47 公開日:2023-05-15
# 非エルミート系における絡み合いによる臨界線認識

Recognizing critical lines via entanglement in non-Hermitian systems ( http://arxiv.org/abs/2305.08374v1 )

ライセンス: Link先を確認
Keshav Das Agarwal, Tanoy Kanti Konar, Leela Ganesh Chandra Lakkaraju, Aditi Sen De(参考訳) 非エルミート模型は、エルミート模型では観測されない反直観的な現象を示す。 ハミルトニアンの非エルミート的相互作用成分とエルミート的相互作用成分の競合を調べるために、非エルミート的XYスピン鎖とエルミート的Kaplan-Shekhtman-Entin-Aharony (KSEA)相互作用を含む系に焦点を当てた。 非エルミート模型は、KSEA相互作用と局所的および非局所的貯水池と相互作用する局所磁場とのヘルミートXXスピン-1/2の有効ハミルトニアンであることが示される。 エネルギースペクトルの解析的表現は、系のパラメータを2つの状態に分割する。一方の領域では、エルミートKSEA相互作用の強さは想像上の非ハーミティシティパラメータを上回り、もう一方の領域では反対が真である。 前者の状況では、近傍のエンタングルメントとその誘導体が磁場の変動を伴う量子臨界線を同定できることを実証する。 この領域では、エルミートの場合で知られている因子化曲面と同様、絡み合いが消える曲面を決定する。 一方,非ヘルミキシティパラメータが支配的である場合,エネルギーギャップが消失する例外的かつ臨界点を報告し,二成分の絡み合いもこれらの遷移を検知できることを示す。 このシナリオを超えて、地中状態が横磁場との急激なクエンチ後に進化すると、その第2モーメントによって量子化された二分極エンタングルメントの速度関数と揺らぎの両方が、クエンチしない臨界線を検出することができる。

The non-Hermitian model exhibits counter-intuitive phenomena which are not observed in the Hermitian counterparts. To probe the competition between non-Hermitian and Hermitian interacting components of the Hamiltonian, we focus on a system containing non-Hermitian XY spin chain and Hermitian Kaplan-Shekhtman-Entin-Aharony (KSEA) interactions along with the transverse magnetic field. We show that the non-Hermitian model can be an effective Hamiltonian of a Hermitian XX spin-1/2 with KSEA interaction and a local magnetic field that interacts with local and non-local reservoirs. The analytical expression of the energy spectrum divides the system parameters into two regimes -- in one region, the strength of Hermitian KSEA interactions dominates over the imaginary non-Hermiticity parameter while in the other, the opposite is true. In the former situation, we demonstrate that the nearest-neighbor entanglement and its derivative can identify quantum critical lines with the variation of the magnetic field. In this domain, we determine a surface where the entanglement vanishes, similar to the factorization surface, known in the Hermitian case. On the other hand, when non-Hermiticity parameters dominate, we report the exceptional and critical points where the energy gap vanishes and illustrate that bipartite entanglement is capable of detecting these transitions as well. Going beyond this scenario, when the ground state evolves after a sudden quench with the transverse magnetic field, both rate function and the fluctuation of bipartite entanglement quantified via its second moment can detect critical lines generated without quenching dynamics.
翻訳日:2023-05-16 16:02:46 公開日:2023-05-15
# マルチレベルアライメントを用いたマルチモーダル名前付きエンティティ認識のための新しいフレームワーク

A Novel Framework for Multimodal Named Entity Recognition with Multi-level Alignments ( http://arxiv.org/abs/2305.08372v1 )

ライセンス: Link先を確認
Peipei Liu, Hong Li, Yimo Ren, Jie Liu, Shuaizong Si, Hongsong Zhu, Limin Sun(参考訳) 名前付きエンティティ認識(NER)を用いたつぶやきからの構造化知識のマイニングは、待機中の推奨や意図といった多くのダウンストリームアプリケーションにとって有益である。 ツイート投稿はマルチモーダルである傾向にあり、マルチモーダルなエンティティ認識(MNER)が注目されている。 本稿では,画像とテキストのシーケンスを動的に整列させ,マルチレベルクロスモーダル学習を実現し,mner改善のための文章表現を増強する手法を提案する。 第1段階はモダリティの暗黙のグローバルな知識と局所的な知識を導き出すためのモダリティ内表現学習,第2段階はテキストと付随する画像の関連性を評価し,その関連性に基づいて異なるきめ細かい視覚情報を統合する,第3段階は反復的相互モーダル相互作用とコアテンションによって意味的洗練を強制する,という3つの段階に分けられる。 2つのオープンデータセットについて実験を行い,結果と詳細な解析結果から,このモデルの利点を実証した。

Mining structured knowledge from tweets using named entity recognition (NER) can be beneficial for many downstream applications such as recommendation and intention under standing. With tweet posts tending to be multimodal, multimodal named entity recognition (MNER) has attracted more attention. In this paper, we propose a novel approach, which can dynamically align the image and text sequence and achieve the multi-level cross-modal learning to augment textual word representation for MNER improvement. To be specific, our framework can be split into three main stages: the first stage focuses on intra-modality representation learning to derive the implicit global and local knowledge of each modality, the second evaluates the relevance between the text and its accompanying image and integrates different grained visual information based on the relevance, the third enforces semantic refinement via iterative cross-modal interactions and co-attention. We conduct experiments on two open datasets, and the results and detailed analysis demonstrate the advantage of our model.
翻訳日:2023-05-16 16:02:13 公開日:2023-05-15
# superdialseg:教師付き対話セグメンテーションのための大規模データセット

SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation ( http://arxiv.org/abs/2305.08371v1 )

ライセンス: Link先を確認
Junfeng Jiang, Chengzhang Dong, Akiko Aizawa, Sadao Kurohashi(参考訳) 対話セグメンテーションは対話システムにとって重要な課題であり、会話テキストの理解を深める。 教師なし対話のセグメンテーション手法が近年進歩しているにもかかわらず、その性能は訓練のための明示的な教師付き信号の欠如によって制限されている。 さらに、会話におけるセグメンテーションポイントの正確な定義は依然として困難な問題であり、手作業によるアノテーションの収集が困難になる。 本稿では,2つの文書地上対話コーパスに基づく9K対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットを作成した上で,その有用な対話関連アノテーションを継承し,対話セグメンテーションポイントの具体的定義を提案する。 さらに,対話の特徴を生かした2つのモデルを提案し,スーパーディアルセグで最先端のパフォーマンスを実現し,ドメイン外データセットで優れた一般化能力を示す。 さらに,対話セグメンテーションタスクの4つのカテゴリにまたがる20のモデルを含むベンチマークを,いくつかの適切な評価指標で提供する。 経験的研究の分析に基づき,対話セグメンテーションの課題に対する洞察も提供する。 私たちの仕事は対話セグメンテーションの分野で重要な一歩だと信じています。

Dialogue segmentation is a crucial task for dialogue systems allowing a better understanding of conversational texts. Despite recent progress in unsupervised dialogue segmentation methods, their performances are limited by the lack of explicit supervised signals for training. Furthermore, the precise definition of segmentation points in conversations still remains as a challenging problem, increasing the difficulty of collecting manual annotations. In this paper, we provide a feasible definition of dialogue segmentation points with the help of document-grounded dialogues and release a large-scale supervised dataset called SuperDialseg, containing 9K dialogues based on two prevalent document-grounded dialogue corpora, and also inherit their useful dialogue-related annotations. Moreover, we propose two models to exploit the dialogue characteristics, achieving state-of-the-art performance on SuperDialseg and showing good generalization ability on the out-of-domain datasets. Additionally, we provide a benchmark including 20 models across four categories for the dialogue segmentation task with several proper evaluation metrics. Based on the analysis of the empirical studies, we also provide some insights for the task of dialogue segmentation. We believe our work is an important step forward in the field of dialogue segmentation.
翻訳日:2023-05-16 16:01:53 公開日:2023-05-15
# 高速サブモジュラー関数最大化

Fast Submodular Function Maximization ( http://arxiv.org/abs/2305.08367v1 )

ライセンス: Link先を確認
Lianke Qin, Zhao Song, Yitan Wang(参考訳) サブモジュール関数は、文書要約、センサー配置、画像分割など、多くの実世界の応用がある。 これらすべてのアプリケーションにおいて、キーとなるビルディングブロックは、サブモジュラー関数の最大値を効率的に計算する方法である。 オンライン版とオフライン版の両方について検討する。各イテレーションでデータセットが漸進的に変更されるか変更されないか,ユーザがクエリを発行することで,データの特定のサブセット上で関数を最大化することができる。 ユーザは悪意があり、以前のクエリ結果に基づいてクエリを発行することで、オンラインアルゴリズムの競合比を損なうことができる。 現在、オンライン部分モジュラー関数の最大化のための最もよく知られているアルゴリズムは、実行時間$O(n k d^2)$で、$n$は要素の総数、$d$は特徴次元、$k$は選択すべき要素の数である。 本稿では,新しい探索木データ構造に基づく新しい手法を提案する。 我々のアルゴリズムは$\widetilde{O}(nk + kd^2 + nd)$時間しかかからない。

Submodular functions have many real-world applications, such as document summarization, sensor placement, and image segmentation. For all these applications, the key building block is how to compute the maximum value of a submodular function efficiently. We consider both the online and offline versions of the problem: in each iteration, the data set changes incrementally or is not changed, and a user can issue a query to maximize the function on a given subset of the data. The user can be malicious, issuing queries based on previous query results to break the competitive ratio for the online algorithm. Today, the best-known algorithm for online submodular function maximization has a running time of $O(n k d^2)$ where $n$ is the total number of elements, $d$ is the feature dimension and $k$ is the number of elements to be selected. We propose a new method based on a novel search tree data structure. Our algorithm only takes $\widetilde{O}(nk + kd^2 + nd)$ time.
翻訳日:2023-05-16 16:01:34 公開日:2023-05-15
# CLRerNet: LaneIoUによるレーン検出の信頼性向上

CLRerNet: Improving Confidence of Lane Detection with LaneIoU ( http://arxiv.org/abs/2305.08366v1 )

ライセンス: Link先を確認
Hiroto Honda, Yusuke Uchida(参考訳) レーンマーカー検出は、自動運転および運転支援システムの重要な構成要素である。 行ベースレーン表現を用いた最新のディープレーン検出手法は、レーン検出ベンチマークにおいて優れた性能を示す。 事前のoracleの実験を通じて、まず車線表現コンポーネントを分解して、アプローチの方向性を判断します。 我々は,既存の行ベース検出器の予測において,正しい車線位置がすでに存在することを示し,地上の真理との交叉点(IoU)を正確に表す信頼スコアが最も有用であることを示した。 この結果に基づき,局所的レーン角を考慮に入れて,メートル法とよりよく相関するレーンiouを提案する。 信頼性スコアの質向上を目的とした目標割り当てコストと損失関数に laneiou を特徴とするclrernet という新しい検出器を開発した。 クロス検証を含む慎重で公平なベンチマークによって、clrernetは最先端技術よりも大きなマージンで勝っていることを実証した。f1スコアは81.43%で、culaneでは80.47%で、curvelaneでは86.10%で86.47%であった。

Lane marker detection is a crucial component of the autonomous driving and driver assistance systems. Modern deep lane detection methods with row-based lane representation exhibit excellent performance on lane detection benchmarks. Through preliminary oracle experiments, we firstly disentangle the lane representation components to determine the direction of our approach. We show that correct lane positions are already among the predictions of an existing row-based detector, and the confidence scores that accurately represent intersection-over-union (IoU) with ground truths are the most beneficial. Based on the finding, we propose LaneIoU that better correlates with the metric, by taking the local lane angles into consideration. We develop a novel detector coined CLRerNet featuring LaneIoU for the target assignment cost and loss functions aiming at the improved quality of confidence scores. Through careful and fair benchmark including cross validation, we demonstrate that CLRerNet outperforms the state-of-the-art by a large margin - enjoying F1 score of 81.43% compared with 80.47% of the existing method on CULane, and 86.47% compared with 86.10% on CurveLanes.
翻訳日:2023-05-16 16:01:14 公開日:2023-05-15
# 逆線形混合MDPにおける水平自由強化学習

Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs ( http://arxiv.org/abs/2305.08359v1 )

ライセンス: Link先を確認
Kaixuan Ji and Qingyue Zhao and Jiafan He and Weitong Zhang and Quanquan Gu(参考訳) 近年の研究では、総報酬が1ドルに制限された場合、RLはバンドイットよりも難しいことが示されており、計画的地平線に多元的依存を持つ後悔境界が$H$であった。 しかし、このような結果が、各エピソードで報酬が逆選択される敵RLに受け継がれるかどうかは、未解決のままである。 本稿では,horizon-free policy searchアルゴリズムを提案することで,この疑問に肯定的に答える。 探索と逆選択された報酬による課題に対処するために,本アルゴリズムでは,(1)変分不確実性を考慮した遷移カーネルの最小2乗推定器,(2)オンライン検索における「emph{stochastic}」ポリシーの占有度測定に基づく手法を用いる。 このアルゴリズムは$\tilde{o}\big((d+\log (|\mathcal{s}|^2 |\mathcal{a}|))\sqrt{k}\big)$を全情報フィードバックで達成できることを示し、ここで$d$はmdpの未知の遷移核を線形にパラメトリする既知の特徴マッピングの次元であり、$k$はエピソード数、$|\mathcal{s}|$および$|\mathcal{a}|$は状態と作用空間の濃度であることを示した。 また、このアルゴリズムの近似最適性と$\log|\mathcal{S}|$と$\log|\mathcal{A}|$の不可避性を正当化するために、難解な結果と後悔の低い境界を与える。

Recent studies have shown that episodic reinforcement learning (RL) is no harder than bandits when the total reward is bounded by $1$, and proved regret bounds that have a polylogarithmic dependence on the planning horizon $H$. However, it remains an open question that if such results can be carried over to adversarial RL, where the reward is adversarially chosen at each episode. In this paper, we answer this question affirmatively by proposing the first horizon-free policy search algorithm. To tackle the challenges caused by exploration and adversarially chosen reward, our algorithm employs (1) a variance-uncertainty-aware weighted least square estimator for the transition kernel; and (2) an occupancy measure-based technique for the online search of a \emph{stochastic} policy. We show that our algorithm achieves an $\tilde{O}\big((d+\log (|\mathcal{S}|^2 |\mathcal{A}|))\sqrt{K}\big)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|\mathcal{S}|$ and $|\mathcal{A}|$ are the cardinalities of the state and action spaces. We also provide hardness results and regret lower bounds to justify the near optimality of our algorithm and the unavoidability of $\log|\mathcal{S}|$ and $\log|\mathcal{A}|$ in the regret bound.
翻訳日:2023-05-16 16:00:53 公開日:2023-05-15
# 垂直フェデレート学習におけるセキュアトレーニングのための二次関数暗号

Quadratic Functional Encryption for Secure Training in Vertical Federated Learning ( http://arxiv.org/abs/2305.08358v1 )

ライセンス: Link先を確認
Shuangyi Chen, Anuja Modi, Shweta Agrawal, Ashish Khisti(参考訳) 垂直連合学習(VFL)は、個々のデータのプライバシ保護を希望する複数のパーティ間でデータが分散されるような環境で、機械学習(ML)モデルの協調トレーニングを可能にする。 特にvflでは、ラベルは単一のパーティで利用可能であり、すべてのパーティのデータが結合された場合にのみ、完全な機能セットが形成される。 近年、Xuらはマルチインプット関数暗号を用いたVFLのためのセキュア勾配計算のためのFedVと呼ばれる新しいフレームワークを提案した。 本稿では,縦型フェデレート学習のための一般化線形モデルを訓練する際に,擬似関数暗号を用いることで,Xuなどの情報漏洩を回避できる方法を説明する。

Vertical federated learning (VFL) enables the collaborative training of machine learning (ML) models in settings where the data is distributed amongst multiple parties who wish to protect the privacy of their individual data. Notably, in VFL, the labels are available to a single party and the complete feature set is formed only when data from all parties is combined. Recently, Xu et al. proposed a new framework called FedV for secure gradient computation for VFL using multi-input functional encryption. In this work, we explain how some of the information leakage in Xu et al. can be avoided by using Quadratic functional encryption when training generalized linear models for vertical federated learning.
翻訳日:2023-05-16 16:00:11 公開日:2023-05-15
# デッドラインインスタンスを用いた高速かつ効率的なマッチングアルゴリズム

Fast and Efficient Matching Algorithm with Deadline Instances ( http://arxiv.org/abs/2305.08353v1 )

ライセンス: Link先を確認
Zhao Song, Weixin Wang, Chenbo Yin(参考訳) オンライン重み付きマッチング問題は、機械学習における基本的な問題である。 この領域での多くの努力にもかかわらず、既存のアルゴリズムは遅すぎるか、$\mathrm{deadline}$(ノードがマッチできる最長時間)を考慮に入れない。 本稿では,まず$\mathrm{deadline}$という市場モデルを紹介する。 次に、2つの最適化アルゴリズム(\textsc{fastgreedy} と \textsc{fastpostponedgreedy})を提示し、アルゴリズムの時間複雑性と正確性に関する理論的証明を提供する。 textsc{FastGreedy}アルゴリズムでは、ノードが買い手なのか売り手なのかをすでに知っています。 しかし、 \textsc{FastPostponedGreedy} アルゴリズムでは、各ノードの状態は最初不明である。 次に、スケッチマトリクスを一般化し、実際のデータセットと合成データセットの両方でオリジナルのアルゴリズムとアルゴリズムを実行する。 $\epsilon \in (0,0.1)$ は各辺の実重みの相対誤差を表す。 元の \textsc{Greedy} と \textsc{PostponedGreedy} の競合比は、それぞれ $\frac{1}{2}$ と $\frac{1}{4}$ である。 これら2つのアルゴリズムに基づいて, \textsc{fastgreedy} と \textsc{fastpostponedgreedy} のアルゴリズムを提案し,その競合比はそれぞれ $\frac{1 - \epsilon}{2}$ と $\frac{1 - \epsilon}{4}$ である。 同時に、我々のアルゴリズムは元の2つのアルゴリズムよりも高速に動作します。 n$ ノードが $\mathbb{r} ^ d$ で与えられると、時間の複雑さは $o(nd)$ から $\widetilde{o}(\epsilon^{-2} \cdot (n + d))$ に減少する。

Online weighted matching problem is a fundamental problem in machine learning due to its numerous applications. Despite many efforts in this area, existing algorithms are either too slow or don't take $\mathrm{deadline}$ (the longest time a node can be matched) into account. In this paper, we introduce a market model with $\mathrm{deadline}$ first. Next, we present our two optimized algorithms (\textsc{FastGreedy} and \textsc{FastPostponedGreedy}) and offer theoretical proof of the time complexity and correctness of our algorithms. In \textsc{FastGreedy} algorithm, we have already known if a node is a buyer or a seller. But in \textsc{FastPostponedGreedy} algorithm, the status of each node is unknown at first. Then, we generalize a sketching matrix to run the original and our algorithms on both real data sets and synthetic data sets. Let $\epsilon \in (0,0.1)$ denote the relative error of the real weight of each edge. The competitive ratio of original \textsc{Greedy} and \textsc{PostponedGreedy} is $\frac{1}{2}$ and $\frac{1}{4}$ respectively. Based on these two original algorithms, we proposed \textsc{FastGreedy} and \textsc{FastPostponedGreedy} algorithms and the competitive ratio of them is $\frac{1 - \epsilon}{2}$ and $\frac{1 - \epsilon}{4}$ respectively. At the same time, our algorithms run faster than the original two algorithms. Given $n$ nodes in $\mathbb{R} ^ d$, we decrease the time complexity from $O(nd)$ to $\widetilde{O}(\epsilon^{-2} \cdot (n + d))$.
翻訳日:2023-05-16 15:59:57 公開日:2023-05-15
# 基底状態探索のための平均場対向ダイアバティック駆動の構成法

A general method to construct mean field counter diabatic driving for a ground state search ( http://arxiv.org/abs/2305.08352v1 )

ライセンス: Link先を確認
Hiroshi Hayasaka, Takashi Imoto, Yuichiro Matsuzaki, Shiro Kawabata(参考訳) カウンターダイアバティック(CD)駆動は、量子アニール(QA)における非断熱遷移を抑制するために多くの注目を集めている。 しかし、cdダリビング・ハミルトニアンの非局所性とqaハミルトニアンの正確な対角化の必要性から、実際の実験的なセットアップでcd駆動を構築することは困難である。 本稿では,平均場(mf)理論を用いて,局所作用素からなる近似cd駆動項を構成する一般的な手法を提案する。 古典計算機を用いて磁化のMFダイナミクスを解くことにより、MF近似CD(MFCD)項を効率的に構築できる。 一例として、横磁場を持つスピンガラスモデルに対するMFCD駆動によるQAを数値的に行う。 MFCD駆動を伴うMF力学は、MF理論における自己整合方程式の解と等価であることを示す。 また, 横磁場を有するスピンガラスモデルの基底状態は, CD駆動のない従来のQAと比較して高い忠実度で得ることができることを明らかにした。 さらに,本手法をD波量子アニールを用いて実験的に実証し,数値シミュレーションを裏付ける実験結果を得た。

The counter diabatic (CD) driving has attracted much attention for suppressing non-adiabatic transition in quantum annealing (QA). However, it can be intractable to construct the CD driving in the actual experimental setup due to the non-locality of the CD dariving Hamiltonian and necessity of exact diagonalization of the QA Hamiltonian in advance. In this paper, using the mean field (MF) theory, we propose a general method to construct an approximated CD driving term consisting of local operators. We can efficiently construct the MF approximated CD (MFCD) term by solving the MF dynamics of magnetization using a classical computer. As an example, we numerically perform QA with MFCD driving for the spin glass model with transverse magnetic fields. We numerically show that the MF dynamics with MFCD driving is equivalent to the solution of the self-consistent equation in MF theory. Also, we clarify that a ground state of the spin glass model with transverse magnetic field can be obtained with high fidelity compared to the conventional QA without the CD driving. Moreover, we experimentally demonstrate our method by using a D-wave quantum annealer and obtain the experimental result supporting our numerical simulation.
翻訳日:2023-05-16 15:59:26 公開日:2023-05-15
# 境界エルダー次元を持つモデルベースRLの均一PAC保証

Uniform-PAC Guarantees for Model-Based RL with Bounded Eluder Dimension ( http://arxiv.org/abs/2305.08350v1 )

ライセンス: Link先を確認
Yue Wu and Jiafan He and Quanquan Gu(参考訳) 近年,一般関数近似を用いた強化学習(RL)が目覚ましい進歩を遂げている。 しかしながら、これらすべての作業は、後悔またはサンプル複雑さの保証のみを提供する。 より強力な性能保証(Uniform-PAC)を達成することができるかどうか、すなわち、目的とする学習精度に対して、サブ線形後悔境界と多項式サンプルの複雑さの両方を暗示できる一様近似正当性(Uniform-PAC)を保証するかは、依然として未解決の問題である。 一般関数クラスと有界楕円次元を用いた非線形帯域幅とモデルベースエピソードRLのアルゴリズムを用いてこの問題を考察する。 提案するアルゴリズムの重要な考え方は、各アクションを、信頼セットの幅に応じて異なるレベルに割り当てることである。 達成された一様PACサンプルの複雑性は、最先端の後悔境界や、線形ケースに還元された場合のサンプルの複雑さを保証するという意味で厳密である。 我々の知る限りでは、これは線形の場合を超えたバンドとRLの均一PAC保証のための最初の作業である。

Recently, there has been remarkable progress in reinforcement learning (RL) with general function approximation. However, all these works only provide regret or sample complexity guarantees. It is still an open question if one can achieve stronger performance guarantees, i.e., the uniform probably approximate correctness (Uniform-PAC) guarantee that can imply both a sub-linear regret bound and a polynomial sample complexity for any target learning accuracy. We study this problem by proposing algorithms for both nonlinear bandits and model-based episodic RL using the general function class with a bounded eluder dimension. The key idea of the proposed algorithms is to assign each action to different levels according to its width with respect to the confidence set. The achieved uniform-PAC sample complexity is tight in the sense that it matches the state-of-the-art regret bounds or sample complexity guarantees when reduced to the linear case. To the best of our knowledge, this is the first work for uniform-PAC guarantees on bandit and RL that goes beyond linear cases.
翻訳日:2023-05-16 15:59:07 公開日:2023-05-15
# MaxViT-UNet:医療画像セグメンテーションのためのマルチ軸注意

MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation ( http://arxiv.org/abs/2305.08396v1 )

ライセンス: Link先を確認
Abdul Rehman, Asifullah Khan(参考訳) 近年,畳み込みニューラルネットワークは医用画像解析において大きな進歩を遂げている。 しかし、畳み込み演算子の局所的な性質は、CNNがグローバルと長距離の相互作用を捉えることを妨げている。 近年,コンピュータビジョンコミュニティや医療画像セグメンテーションにおいてトランスフォーマーが普及している。 しかし、自己注意機構のスケーラビリティの問題とCNNのような帰納バイアスの欠如は採用を制限している。 本研究では,Encoder-Decoderを用いた医用画像分割用ハイブリッドビジョントランスフォーマであるMaxViT-UNetを提案する。 MaxViTブロックをベースとしたハイブリッドデコーダは,各デコード段階での畳み込みと自己保持機構のパワーを最小限の計算負担で利用するように設計されている。 各デコーダステージにおける多軸自己アテンションは、オブジェクトとバックグラウンド領域をより効率的に区別するのに役立つ。 ハイブリッドデコーダブロックは,まずトランスポーション・コンボリューション(transpose convolution)によってアップサンプリングされた下位機能とハイブリッド・エンコーダからのスキップ接続機能とを融合し,多軸アテンション機構を用いて融合機能を改良する。 提案したデコーダブロックを複数回繰り返し、核領域を正確に分割する。 MoNuSegデータセットの実験結果から,提案手法の有効性が確認された。 我々のMaxViT-UNetは以前のCNNのみ(UNet)とTransformerのみ(Swin-UNet)の技法をそれぞれ2.36%と5.31%で上回りました。

Convolutional neural networks have made significant strides in medical image analysis in recent years. However, the local nature of the convolution operator inhibits the CNNs from capturing global and long-range interactions. Recently, Transformers have gained popularity in the computer vision community and also medical image segmentation. But scalability issues of self-attention mechanism and lack of the CNN like inductive bias have limited their adoption. In this work, we present MaxViT-UNet, an Encoder-Decoder based hybrid vision transformer for medical image segmentation. The proposed hybrid decoder, also based on MaxViT-block, is designed to harness the power of convolution and self-attention mechanism at each decoding stage with minimal computational burden. The multi-axis self-attention in each decoder stage helps in differentiating between the object and background regions much more efficiently. The hybrid decoder block initially fuses the lower level features upsampled via transpose convolution, with skip-connection features coming from hybrid encoder, then fused features are refined using multi-axis attention mechanism. The proposed decoder block is repeated multiple times to accurately segment the nuclei regions. Experimental results on MoNuSeg dataset proves the effectiveness of the proposed technique. Our MaxViT-UNet outperformed the previous CNN only (UNet) and Transformer only (Swin-UNet) techniques by a large margin of 2.36% and 5.31% on Dice metric respectively.
翻訳日:2023-05-16 15:52:23 公開日:2023-05-15
# 単一測定値に基づくヌル次元証人

Null dimension witness based on single measurements ( http://arxiv.org/abs/2305.08395v1 )

ライセンス: Link先を確認
Josep Batle, Adam Bednorz(参考訳) 量子系の次元の線形独立性による等式に基づく零証人を示し、実空間、複素空間、古典空間を識別する。 証人は十分な数の結果と準備された入力状態を持つ単一の測定のみを含む。 さらに、中間次元に対して、証人は対称的な情報的完備な正の作用素値測度を含む等角的タイトフレームの族に対して飽和する。 そのような証人は最小限の資源を必要とし、多くの実用的不完全に対して堅牢である。 有限統計による誤りについても論じる。

We present a null witness, based on equality due to linear independence, of the dimension of a quantum system, discriminating real, complex and classical spaces. The witness involves only a single measurement with sufficiently many outcomes and prepared input states. In addition, for intermediate dimensions, the witness bounds saturate for a family of equiangular tight frames including symmetric informationally complete positive operator valued measures. Such a witness requires a minimum of resources, being robust against many practical imperfections. We also discuss errors due to finite statistics.
翻訳日:2023-05-16 15:51:55 公開日:2023-05-15
# 対話における会話分析におけるChatGPTの可能性:実証的研究

Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study ( http://arxiv.org/abs/2305.08391v1 )

ライセンス: Link先を確認
Yaxin Fan and Feng Jiang(参考訳) ChatGPTのような大規模言語モデル(LLM)は、翻訳や要約など、多くの従来のNLPタスクを非常に浅い理解できました。 しかし、より高いレベルの理解と推論を必要とする対話談話分析タスクのようなハイレベルな理解におけるその性能は、いまだ研究されていない。 本研究では,トピックセグメンテーション,談話関係認識,談話解析という3つの対話談話課題におけるチャットgptの能力について検討した。 これらのタスクにchatgptを適応させるために、識別的および生成的パラダイムを提案し、より難しいタスクでchatgptのパフォーマンスを改善するためのchain of thought (cot)アプローチを導入する。 以上の結果から,chatgptは,最先端手法に匹敵するトピックセグメンテーションタスクにおいて比較性能を達成できるが,談話関係認識や談話解析のより複雑なタスクでは改善の余地があることが分かった。 特にcotは、複雑な構造をより困難なタスクで理解することで、chatgptのパフォーマンスを大幅に向上させることができる。 一連のケーススタディを通じて,ChatGPTはトピックセグメンテーションにおいて優れたアノテータであるが,複雑なレトリック構造を理解するのが困難であることを示す。 これらの知見が,LLM時代の対話談話分析手法を洗練するための基礎となることを願っている。

Large Language Models (LLMs) like ChatGPT have proven a great shallow understanding of many traditional NLP tasks, such as translation, summarization, etc. However, its performance on high-level understanding, such as dialogue discourse analysis task that requires a higher level of understanding and reasoning, remains less explored. This study investigates ChatGPT's capabilities in three dialogue discourse tasks: topic segmentation, discourse relation recognition, and discourse parsing, of varying difficulty levels. To adapt ChatGPT to these tasks, we propose discriminative and generative paradigms and introduce the Chain of Thought (COT) approach to improve ChatGPT's performance in more difficult tasks. The results show that our generative paradigm allows ChatGPT to achieve comparative performance in the topic segmentation task comparable to state-of-the-art methods but reveals room for improvement in the more complex tasks of discourse relation recognition and discourse parsing. Notably, the COT can significantly enhance ChatGPT's performance with the help of understanding complex structures in more challenging tasks. Through a series of case studies, our in-depth analysis suggests that ChatGPT can be a good annotator in topic segmentation but has difficulties understanding complex rhetorical structures. We hope these findings provide a foundation for future research to refine dialogue discourse analysis approaches in the era of LLMs.
翻訳日:2023-05-16 15:51:48 公開日:2023-05-15
# 好きなように編集する: 多粒度コマンドによるビデオ記述編集

Edit As You Wish: Video Description Editing with Multi-grained Commands ( http://arxiv.org/abs/2305.08389v1 )

ライセンス: Link先を確認
Linli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge, Yuning Jiang and Qin Jin(参考訳) 自然言語によるビデオの自動ナレーションは、インターネット上の大量のビデオの把握と管理を支援する。 ビデオアップロードの観点では、顧客の製品ビデオに対する注意を引くなど、より潜在的なフォロワーを引き付けるために、望まれるビデオ記述を書くことの好みは様々である。 そこで、制御可能なビデオキャプションタスクを提案し、ユーザ要求とビデオコンテンツに基づいた記述を生成する。 しかし、現存する作品には2つの欠点がある。 1) 制御信号は固定され, 単一粒度制御のみを表現できる。 2) 動的なユーザ要求を満たすために,ビデオ記述をさらに編集することはできない。 本稿では,フレキシブルなユーザ要求によって誘導される既存のビデオ記述を自動的に修正する新しいビデオ記述編集(vdedit)タスクを提案する。 人間の書き直しの習慣に触発されて、ユーザコマンドを {operation, position, attribute} triplet として設計し、多粒度の使用要件をカバーし、粗粒度制御(例えば、記述を拡張)やきめ細かい制御(例えば、指定された位置に特定の詳細を追加する)を統一形式で表現できる。 VDEditタスクを容易にするために、まず、様々な人間の活動を記述するオープンドメインでVATEX-EDITと呼ばれる大規模なベンチマークデータセットを自動構築する。 現実のアプリケーションシナリオを考えると、eコマースベンチマークデータセットであるemmad-editを手作業で収集します。 操作,位置,属性の三重項をテキスト制御シーケンスに変換し,複数の粒度の編集コマンドを処理する統一フレームワークを提案する。 vdeditの評価には,キャプション品質,キャプションコマンド一貫性,キャプションビデオアライメントなど,モデルパフォーマンスの3つの側面を測定するための包括的なメトリクスを採用する。

Automatically narrating a video with natural language can assist people in grasping and managing massive videos on the Internet. From the perspective of video uploaders, they may have varied preferences for writing the desired video description to attract more potential followers, e.g. catching customers' attention for product videos. The Controllable Video Captioning task is therefore proposed to generate a description conditioned on the user demand and video content. However, existing works suffer from two shortcomings: 1) the control signal is fixed and can only express single-grained control; 2) the video description can not be further edited to meet dynamic user demands. In this paper, we propose a novel Video Description Editing (VDEdit) task to automatically revise an existing video description guided by flexible user requests. Inspired by human writing-revision habits, we design the user command as a {operation, position, attribute} triplet to cover multi-grained use requirements, which can express coarse-grained control (e.g. expand the description) as well as fine-grained control (e.g. add specified details in specified position) in a unified format. To facilitate the VDEdit task, we first automatically construct a large-scale benchmark dataset namely VATEX-EDIT in the open domain describing diverse human activities. Considering the real-life application scenario, we further manually collect an e-commerce benchmark dataset called EMMAD-EDIT. We propose a unified framework to convert the {operation, position, attribute} triplet into a textual control sequence to handle multi-grained editing commands. For VDEdit evaluation, we adopt comprehensive metrics to measure three aspects of model performance, including caption quality, caption-command consistency, and caption-video alignment.
翻訳日:2023-05-16 15:51:23 公開日:2023-05-15
# PLIP:人物表現学習のための言語画像事前学習

PLIP: Language-Image Pre-training for Person Representation Learning ( http://arxiv.org/abs/2305.08386v1 )

ライセンス: Link先を確認
Jialong Zuo, Changqian Yu, Nong Sang, Changxin Gao(参考訳) 事前学習は、強力な人間表現を学ぶための効果的な技術として出現した。 既存のほとんどの手法では、ImageNetやLUPersonのような純粋ビジョンの大規模データセットで事前トレーニングを行うことで、優れたパフォーマンスを実現している。 しかし、視覚情報のみに頼っているため、ロバストな明示的指標の欠如は、これらの手法が識別的人物表現を学習することの難しさを招いている。 人格記述の内在的な微粒な属性指標からインスピレーションを得て,人格表現学習に言語モダリティを導入することを検討する。 そこで本研究では,個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。 細かな粒度のクロスモーダル関係を明示的に構築するために,3つのプリテキストタスク,<ie>セマンティック融合画像彩色,視覚融合属性予測,視覚言語マッチングを特別に設計した。 また、適切なデータセットがないため、SynTH-PEDESと呼ばれる大規模人物データセットを提示し、Stylish Pedestrian Attributes-union Captioning法を提案し、多様なテキスト記述を合成する。 我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。 広範な実験により、我々のモデルがこれらのすべてのタスクで既存のメソッドを大幅に改善するだけでなく、マイナショットとドメインの一般化設定において優れた能力を示すことが示されました。 コード、データセット、重み付けは~\url{https://github.com/Zplusdragon/PLIP} でリリースされる。

Pre-training has emerged as an effective technique for learning powerful person representations. Most existing methods have shown that pre-training on pure-vision large-scale datasets like ImageNet and LUPerson has achieved remarkable performance. However, solely relying on visual information, the absence of robust explicit indicators poses a challenge for these methods to learn discriminative person representations. Drawing inspiration from the intrinsic fine-grained attribute indicators of person descriptions, we explore introducing the language modality into person representation learning. To this end, we propose a novel language-image pre-training framework for person representation learning, termed PLIP. To explicitly build fine-grained cross-modal associations, we specifically design three pretext tasks, \ie semantic-fused image colorization, visual-fused attributes prediction, and vision-language matching. In addition, due to the lack of an appropriate dataset, we present a large-scale person dataset named SYNTH-PEDES, where the Stylish Pedestrian Attributes-union Captioning method is proposed to synthesize diverse textual descriptions. We pre-train PLIP on SYNTH-PEDES and evaluate our model by spanning downstream tasks such as text-based Re-ID, image-based Re-ID, and person attribute recognition. Extensive experiments demonstrate that our model not only significantly improves existing methods on all these tasks, but also shows great ability in the few-shot and domain generalization settings. The code, dataset and weights will be released at~\url{https://github.com/Zplusdragon/PLIP}
翻訳日:2023-05-16 15:50:53 公開日:2023-05-15
# 政治宣言における感情の現況とイデオロギー的同時性

Incumbent/Opposition Dynamics and Ideological Similitude on Emotions in Political Manifestos ( http://arxiv.org/abs/2305.08383v1 )

ライセンス: Link先を確認
Takumi Nishi(参考訳) この研究は、2000年から2019年にかけてイギリス保守労働党の総選挙宣言における感情関連言語の分析を含む。 これまでの研究では、イデオロギーの位置づけと公共政策の重なりの間には一般的な相関関係が示されているが、そのようなマニフェストの感情の問題には相反する結果がある。 新たなデータを用いて,現職の当事者がポジティブ感情関連単語の頻度が高く,ネガティブ感情関連単語が反対者でより普及している政府内の政党の状況によって,ヴァレンスレベルがどのように変動するかを示す。 また,イデオロギー的同義性を持つ当事者は,感情と党の地位の関係に関する文献に,肯定的な言語を積極的に用いていることも示している。

The study involved the analysis of emotion-associated language in the UK Conservative and Labour party general election manifestos between 2000 to 2019. While previous research have shown a general correlation between ideological positioning and overlap of public policies, there are still conflicting results in matters of sentiments in such manifestos. Using new data, we present how valence level can be swayed by party status within government with incumbent parties presenting a higher frequency in positive emotion-associated words while negative emotion-associated words are more prevalent in opposition parties. We also demonstrate that parties with ideological similitude use positive language prominently further adding to the literature on the relationship between sentiments and party status.
翻訳日:2023-05-16 15:50:23 公開日:2023-05-15
# 視覚言語プロンプトに適したモード近似

Mode Approximation Makes Good Vision-Language Prompts ( http://arxiv.org/abs/2305.08381v1 )

ライセンス: Link先を確認
Haixin Wang, Xinlong Yang, Jianlong Chang, Dian Jin, Jinan Sun, Shikun Zhang, Xiao Luo, Qi Tian(参考訳) 大規模モデル技術の進歩により、パラメータ効率変換学習(PETL)は人工知能の様々な分野に浸透した。 その中核となる考え方は、少数のパラメータだけで下流タスクにモデルを適応させることである。 近年,これらの手法がマルチモーダルタスクに有効であることが証明されている研究もある。 しかし、2つの重要な問題は未解決のままである: 軽量設計の複雑さをさらに減らす方法と、非常に低いパラメータの下でのモード間のアライメントを強化する方法である。 本稿では,これらの課題を克服するために,クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。 既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて、事前訓練されたモデルの0.05%のパラメータしか持たない低内在次元を探索するマルチモーダルプロンプトチューニングを実装する。 そこで,モーダリティのギャップを狭めるために,極めて少ないパラメータシーン下で,情報的コンテキスト拡張とゲート型クエリ変換モジュールを提案する。 6つのクロスモーダルダウンストリームベンチマークにおけるオーロラの徹底的な評価は、それが最先端を上回っているだけでなく、完全な微調整アプローチを上回っていることを示している。 私たちのコードは、https://github.com/WillDreamer/Aurora.comで利用可能です。

With the advance of large-scale model technologies, parameter-efficient transfer learning (PETL) has swept across various fields of Artificial Intelligence. Its core idea is to adapt the model to downstream tasks using only a small number of parameters. Recently, some studies have applied these techniques proven effective to multimodal tasks. However, two critical issues remain unresolved: how to further reduce the complexity with lightweight design and how to boost alignment between modalities under extremely low parameters. In this paper, we propose A graceful prompt framework for cross-modal transfer (Aurora) to overcome these challenges. Considering the redundancy in existing architectures, we first utilize the mode approximation to generate few trainable parameters to implement the multi-modal prompt tuning, which explores the low intrinsic dimension with only 0.05% parameters of the pre-trained model. Then, to better narrow the modality gap, we propose the informative context enhancement and gated query transformation modules under extremely few parameters scenes. A thorough evaluation of the Aurora on six cross-modal downstream benchmarks shows that it not only outperforms the state-of-the-art, but even outperforms the full fine-tuning approach. Our code is available at: https://github.com/WillDreamer/Aurora.
翻訳日:2023-05-16 15:49:54 公開日:2023-05-15
# TESS: テキストからテキストへの自己定義型Simplex拡散

TESS: Text-to-Text Self-Conditioned Simplex Diffusion ( http://arxiv.org/abs/2305.08379v1 )

ライセンス: Link先を確認
Rabeeh Karimi Mahabadi, Jaesung Tae, Hamish Ivison, James Henderson, Iz Beltagy, Matthew E. Peters, Arman Cohan(参考訳) 拡散モデルは生成のための強力なパラダイムとして登場し、連続的な値の入力を持つ様々な領域で強力なパフォーマンスを得る。 完全に自己回帰的なテキスト生成の約束にもかかわらず、自然言語への拡散モデルの適用は、その離散的な性質のため、依然として困難である。 本研究では,完全自己回帰型テキスト拡散モデルであるtext-to-text self-conditioned simplex diffusion (tess)を提案する。 要約, テキスト単純化, パラフレーズ生成, 質問生成などの自然言語理解および生成タスクに関する広範な実験を通じて, TESSは最先端の非自己回帰モデルより優れ, 事前訓練された自己回帰配列列列列モデルと競合することを示した。

Diffusion models have emerged as a powerful paradigm for generation, obtaining strong performance in various domains with continuous-valued inputs. Despite the promises of fully non-autoregressive text generation, applying diffusion models to natural language remains challenging due to its discrete nature. In this work, we propose Text-to-text Self-conditioned Simplex Diffusion (TESS), a text diffusion model that is fully non-autoregressive, employs a new form of self-conditioning, and applies the diffusion process on the logit simplex space rather than the typical learned embedding space. Through extensive experiments on natural language understanding and generation tasks including summarization, text simplification, paraphrase generation, and question generation, we demonstrate that TESS outperforms state-of-the-art non-autoregressive models and is competitive with pretrained autoregressive sequence-to-sequence models.
翻訳日:2023-05-16 15:49:32 公開日:2023-05-15
# 大規模言語モデルによるテキスト分類

Text Classification via Large Language Models ( http://arxiv.org/abs/2305.08377v1 )

ライセンス: Link先を確認
Xiaofei Sun, Xiaoya Li, Jiwei Li, Fei Wu, Shangwei Guo, Tianwei Zhang and Guoyin Wang(参考訳) GPT-3のような大規模言語モデル(LLM)の顕著な成功にもかかわらず、その性能はテキスト分類のタスクにおいて微調整モデルよりも著しく劣っている。 これは、(1)複雑な言語現象(例えば、強調、コントラスト、皮肉など)に対処する推論能力の欠如、(2)文脈内学習で許されるトークンの数に制限があるためである。 本稿では, \textbf{c}lue \textbf{a}nd \textbf{r}easoning \textbf{p}rompting (carp) を提案する。 CARPは、テキスト分類に関わる複雑な言語現象に対処するのに適したプログレッシブ推論戦略を採用する: CARPは、最終決定のために診断推論プロセスが誘導される表面的手がかり(キーワード、トーン、セマンティックリレーション、参照など)を見つけるようLLMに促す。 限定的な問題に対処するため、CARPは教師付きデータセット上の細調整されたモデルを使用して、コンテキスト内学習における$k$NNのデモ検索を行い、LLMの一般化能力と完全なラベル付きデータセットが提供するタスク固有のエビデンスの両方を活用することができる。 驚くべきことに、carpは広く使われている5つのテキスト分類ベンチマークのうち4つ、97.39 (+1.24) はsst-2、96.40 (+0.72) はagnews、98.78 (+0.25) はr8、96.95 (+0.6) はr52で、som on mr (92.39 v.s. 93.3) と同等の性能を持つ。 さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。 具体的には、クラス毎に16の例を使用して、CARPはクラス毎に1,024の例を持つ教師付きモデルに匹敵するパフォーマンスを達成する。

Despite the remarkable success of large-scale Language Models (LLMs) such as GPT-3, their performances still significantly underperform fine-tuned models in the task of text classification. This is due to (1) the lack of reasoning ability in addressing complex linguistic phenomena (e.g., intensification, contrast, irony etc); (2) limited number of tokens allowed in in-context learning. In this paper, we introduce \textbf{C}lue \textbf{A}nd \textbf{R}easoning \textbf{P}rompting (CARP). CARP adopts a progressive reasoning strategy tailored to addressing the complex linguistic phenomena involved in text classification: CARP first prompts LLMs to find superficial clues (e.g., keywords, tones, semantic relations, references, etc), based on which a diagnostic reasoning process is induced for final decisions. To further address the limited-token issue, CARP uses a fine-tuned model on the supervised dataset for $k$NN demonstration search in the in-context learning, allowing the model to take the advantage of both LLM's generalization ability and the task-specific evidence provided by the full labeled dataset. Remarkably, CARP yields new SOTA performances on 4 out of 5 widely-used text-classification benchmarks, 97.39 (+1.24) on SST-2, 96.40 (+0.72) on AGNews, 98.78 (+0.25) on R8 and 96.95 (+0.6) on R52, and a performance comparable to SOTA on MR (92.39 v.s. 93.3). More importantly, we find that CARP delivers impressive abilities on low-resource and domain-adaptation setups. Specifically, Specifically, using 16 examples per class, CARP achieves comparable performances to supervised models with 1,024 examples per class.
翻訳日:2023-05-16 15:49:14 公開日:2023-05-15
# 部分移動モーメント、主マイナーおよび絡み検出

Partial Transpose Moments, Principal Minors and Entanglement Detection ( http://arxiv.org/abs/2305.08376v1 )

ライセンス: Link先を確認
Mazhar Ali(参考訳) 近年,局所ランダム化測定により密度行列 [elben a., {\it et al] の部分的転位モーメントが得られることが示されている。 phys (複数形 phys) Rev. Lett. bf 125}, 200501 (2020)] その結果,密度行列 [Yu X-D] の部分的移動モーメントに基づく2つの一般的な絡み合い検出法が提案された。 など。 phys (複数形 phys) Rev. Lett. bf 127}, 060504 (2021)]。 この文脈では、部分的転置モーメントが、絡み合いや主小数についてのよく知られた考えとどのように関連しているかという自然な疑問が生じる。 本研究では、量子ビット量子系において、部分的な転置モーメントが主小数の単純な関数として表現できることを解析的に示す。 この関係は、全ての二成分量子系に対して存在すると期待している。 さらに, 3部量子ビット系におけるPTモーメントの概念を拡張し, PTモーメントは, ホワイトノイズを混合した$GHZ$および$W$の状態に対して, NPTの範囲全体の検出しかできないことを示した。

Recently, it has been shown that locally randomized measurements can be employed to get partial transpose moments of a density matrix [Elben A., {\it et al.} Phys. Rev. Lett. {\bf 125}, 200501 (2020)]. Consequently, two general entanglement detection methods were proposed based on partial transpose moments of a density matrix [Yu X-D., {\it et al.} Phys. Rev. Lett. {\bf 127}, 060504 (2021)]. In this context, a natural question arises that how partial transpose moments are related with entanglement and with well known idea of principal minors. In this work, we analytically demonstrate that for qubit-qubit quantum systems, partial transpose moments can be expressed as simple functions of principal minors. We expect this relation to exist for every bipartite quantum systems. In addition, we have extended the idea of PT-moments for tripartite qubit systems and have shown that PT-moments can only detect the whole range of being NPT for $GHZ$ and $W$ states mixed with white noise.
翻訳日:2023-05-16 15:48:38 公開日:2023-05-15
# 非退化光パラメトリック増幅器による2つの光猫状態の同時合成

Simultaneous preparation of two optical cat states based on a nondegenerate optical parametric amplifier ( http://arxiv.org/abs/2305.08426v1 )

ライセンス: Link先を確認
Dongmei Han, Na Wang, Meihong Wang, and Xiaolong Su(参考訳) コヒーレント状態の重ね合わせとして知られる光猫状態は、量子計算と量子メートルロジーに広く応用されている。 光猫数の増加は、それに基づく複雑な量子情報タスクを実装する上で重要である。 ここでは、非退化光パラメトリック増幅器に基づく2つの光猫状態の同時作成を行う。 2つの圧縮真空状態のそれぞれから1つの光子を減じることで、相空間における直交重畳方向の2つの奇猫状態が同時に作成され、同様の忠実度は60%、振幅は1.2である。 2つの縮退光パラメトリック増幅器に基づく2つの奇な光キャット状態を生成する従来の方法と比較して,非線形キャビティの量子資源の半分を節約できる非縮退光パラメトリック増幅器は1つしかない。 提案する結果は,フォールトトレラント量子計算に応用可能な4成分のcat状態を生成するための一歩となる。

The optical cat state, known as the superposition of coherent states, has broad applications in quantum computation and quantum metrology. Increasing the number of optical cat states is crucial to implement complex quantum information tasks based on them. Here, we prepare two optical cat states simultaneously based on a nondegenerate optical parametric amplifier. By subtracting one photon from each of two squeezed vacuum states, two odd cat states with orthogonal superposition direction in phase space are prepared simultaneously, which have similar fidelity of 60% and amplitude of 1.2. Compared with the traditional method to generate two odd optical cat states based on two degenerate optical parametric amplifiers, only one nondegenerate optical parametric amplifier is applied in our experiment, which saves half of the quantum resource of nonlinear cavities. The presented results make a step toward preparing the four-component cat state, which has potential applications in fault-tolerant quantum computation.
翻訳日:2023-05-16 15:43:03 公開日:2023-05-15
# FeatFSDA:ビデオによる活動認識のための領域適応に向けて

FeatFSDA: Towards Few-shot Domain Adaptation for Video-based Activity Recognition ( http://arxiv.org/abs/2305.08420v1 )

ライセンス: Link先を確認
Kunyu Peng, Di Wen, David Schneider, Jiaming Zhang, Kailun Yang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina Roitberg(参考訳) 領域適応は活動認識に不可欠であり、時空間的アーキテクチャは時間的次元から生じるパラメータの増加によって過度に適合するリスクがある。 教師なしドメイン適応法は広範囲に研究されてきたが、ターゲットドメインからの大規模なラベルなしデータが必要である。 本研究では,映像ベースアクティビティ認識(fsda-ar)のための,ごく少量のラベル付きターゲットビデオを用いて効果的な適応を実現する,少数ショットの領域適応について述べる。 この設定はアプリケーションにとって魅力的で有望なもので、少数の記録とラベル付けが必要であり、ターゲットドメイン内のクラス1つにつき1つの例さえ必要である。 UCF101, HMDB51, EPIC-KITCHEN, Sims4Action, Toyota Smart Homeの5つのデータセットを用いてFSDA-ARベンチマークを構築した。 この結果から,FSDA-ARは非教師なし領域適応に比較可能であり,対象対象の(ラベル付きの場合)は極めて少ないことがわかった。 さらに,数少ないラベル付き対象ドメインサンプルを知識ガイダンスとして活用するための新しいアプローチFeatFSDAを提案する。 featfsdaは、潜在空間意味的隣接損失、ドメインの原型的類似性損失、グラフ接続ネットワークベースのエッジドロップアウトテクニックを組み込んでいる。 提案手法は,FSDA-ARベンチマークのすべてのデータセットに対して,最先端のパフォーマンスを実現する。 ビデオベースのアクティビティ認識のためのいくつかのドメイン適応の今後の研究を促進するため、ベンチマークとコードをhttps://github.com/KPeng9510/FeatFSDAで公開します。

Domain adaptation is essential for activity recognition, as common spatiotemporal architectures risk overfitting due to increased parameters arising from the temporal dimension. Unsupervised domain adaptation methods have been extensively studied, yet, they require large-scale unlabeled data from the target domain. In this work, we address few-shot domain adaptation for video-based activity recognition (FSDA-AR), which leverages a very small amount of labeled target videos to achieve effective adaptation. This setting is attractive and promising for applications, as it requires recording and labeling only a few, or even a single example per class in the target domain, which often includes activities that are rare yet crucial to recognize. We construct FSDA-AR benchmarks using five established datasets: UCF101, HMDB51, EPIC-KITCHEN, Sims4Action, and Toyota Smart Home. Our results demonstrate that FSDA-AR performs comparably to unsupervised domain adaptation with significantly fewer (yet labeled) target examples. We further propose a novel approach, FeatFSDA, to better leverage the few labeled target domain samples as knowledge guidance. FeatFSDA incorporates a latent space semantic adjacency loss, a domain prototypical similarity loss, and a graph-attentive-network-based edge dropout technique. Our approach achieves state-of-the-art performance on all datasets within our FSDA-AR benchmark. To encourage future research of few-shot domain adaptation for video-based activity recognition, we will release our benchmarks and code at https://github.com/KPeng9510/FeatFSDA.
翻訳日:2023-05-16 15:42:44 公開日:2023-05-15
# ビデオ軌道解析のためのオンラインシーケンスクラスタリングアルゴリズム

Online Sequence Clustering Algorithm for Video Trajectory Analysis ( http://arxiv.org/abs/2305.08418v1 )

ライセンス: Link先を確認
Aximu Yuemaier, Xiaogang Chen, Xingyu Qian, Longfei Liang, Shunfeng Li, Zhitang Song(参考訳) ターゲット追跡と軌道モデリングは監視ビデオ解析において重要な応用であり、道路安全とコミュニティセキュリティの分野で大きな注目を集めている。 本研究では,動作パターンから学習したモデルを用いてオブジェクトの動作を監視し,リアルタイム表現や予測などのアプリケーションに使用できる軽量なリアルタイム映像解析手法を提案する。 離散シーケンスに基づくシーケンスクラスタリングアルゴリズムにより,連続的なオンライン学習能力を実現する。 対象物軌跡の内在的再現性は,特徴抽出,クラスタ学習,モデル応用の3つのプロセスにおいて,行動モデルを自動的に構築するために用いられる。 トラジェクティブの特徴と単純なモデル応用の離散化に加えて,オンラインクラスタリングアルゴリズムとその漸進的学習プロセスに焦点をあてる。 最後に,実際の監視映像の軌跡モデルを学習することにより,アルゴリズムの有効性を検証した。 また,クラスタリングアルゴリズムの特性と性能について考察した。 このスキームは、多くの算術演算を回避しつつ、リアルタイムなオンライン学習とモーションモデルの処理を持ち、フロントエンドのインテリジェントな知覚のアプリケーションシナリオと一致している。

Target tracking and trajectory modeling have important applications in surveillance video analysis and have received great attention in the fields of road safety and community security. In this work, we propose a lightweight real-time video analysis scheme that uses a model learned from motion patterns to monitor the behavior of objects, which can be used for applications such as real-time representation and prediction. The proposed sequence clustering algorithm based on discrete sequences makes the system have continuous online learning ability. The intrinsic repeatability of the target object trajectory is used to automatically construct the behavioral model in the three processes of feature extraction, cluster learning, and model application. In addition to the discretization of trajectory features and simple model applications, this paper focuses on online clustering algorithms and their incremental learning processes. Finally, through the learning of the trajectory model of the actual surveillance video image, the feasibility of the algorithm is verified. And the characteristics and performance of the clustering algorithm are discussed in the analysis. This scheme has real-time online learning and processing of motion models while avoiding a large number of arithmetic operations, which is more in line with the application scenarios of front-end intelligent perception.
翻訳日:2023-05-16 15:42:14 公開日:2023-05-15
# Marsellus: 2-to-8b DNNアクセラレーションと30%ブースト適応ボディバイアスを備えた異種RISC-V AI-IoTエンドノードSoC

Marsellus: A Heterogeneous RISC-V AI-IoT End-Node SoC with 2-to-8b DNN Acceleration and 30%-Boost Adaptive Body Biasing ( http://arxiv.org/abs/2305.08415v1 )

ライセンス: Link先を確認
Francesco Conti, Gianna Paulin, Davide Rossi, Alfio Di Mauro, Georg Rutishauser, Gianmarco Ottavi, Manuel Eggimann, Hayate Okuhara, Luca Benini(参考訳) 拡張現実、パーソナライズされたヘルスケア、ナノロボティクスのためのAI-IoT(System-on-a-Chip)システム・オン・チップ(SoC)の進化は、計算集約的だが強力な量子化されたDeep Neural Network(DNN)推論や、高精度浮動小数点を必要とする信号処理と制御など、幅広い操作条件において、数十mWのパワーエンベロープ内で多くの多様なタスクを実行する必要がある。 我々はglobalfoundries 22nm fdxで作製したai-iotエンドノードのための全デジタルヘテロジニアスsocであるmarsellusを提案する。 1 RISC-Vデジタル信号処理(DSP)16コアの汎用クラスタで、4ビットと2ビットの算術拡張(XpulpNN)を利用して、MAC&LOAD操作と浮動小数点演算を併用した多様なワークロードを実行する。 2) DNNにおける3x3と1x1(ポイントワイド)の畳み込みを加速する2-8ビット再構成可能なバイナリエンジン(RBE) 3)Adaptive Body Biasing(ABB)ジェネレータとハードウェア制御ループに接続されたオンチップ監視(OCM)ブロックのセットにより、トランジスタ閾値電圧のオンザフライ適応が可能となる。 Marsellusは2ビットの精度演算で最大180 Gop/s、3.32 Top/s/W、ハードウェアアクセラレーションされたDNN層で最大637 Gop/s、12.4 Top/s/Wを達成する。

Emerging Artificial Intelligence-enabled Internet-of-Things (AI-IoT) System-on-a-Chip (SoC) for augmented reality, personalized healthcare, and nano-robotics need to run many diverse tasks within a power envelope of a few tens of mW over a wide range of operating conditions: compute-intensive but strongly quantized Deep Neural Network (DNN) inference, as well as signal processing and control requiring high-precision floating-point. We present Marsellus, an all-digital heterogeneous SoC for AI-IoT end-nodes fabricated in GlobalFoundries 22nm FDX that combines 1) a general-purpose cluster of 16 RISC-V Digital Signal Processing (DSP) cores attuned for the execution of a diverse range of workloads exploiting 4-bit and 2-bit arithmetic extensions (XpulpNN), combined with fused MAC&LOAD operations and floating-point support; 2) a 2-8bit Reconfigurable Binary Engine (RBE) to accelerate 3x3 and 1x1 (pointwise) convolutions in DNNs; 3) a set of On-Chip Monitoring (OCM) blocks connected to an Adaptive Body Biasing (ABB) generator and a hardware control loop, enabling on-the-fly adaptation of transistor threshold voltages. Marsellus achieves up to 180 Gop/s or 3.32 Top/s/W on 2-bit precision arithmetic in software, and up to 637 Gop/s or 12.4 Top/s/W on hardware-accelerated DNN layers.
翻訳日:2023-05-16 15:41:57 公開日:2023-05-15
# 今日のNLUにおける超人的パフォーマンスの意味は?

What's the Meaning of Superhuman Performance in Today's NLU? ( http://arxiv.org/abs/2305.08414v1 )

ライセンス: Link先を確認
Simone Tedeschi, Johan Bos, Thierry Declerck, Jan Hajic, Daniel Hershcovich, Eduard H. Hovy, Alexander Koller, Simon Krek, Steven Schockaert, Rico Sennrich, Ekaterina Shutova, Roberto Navigli(参考訳) 過去5年間、自然言語処理(NLP)において、より大きな事前学習言語モデル(PLM)の開発や、SuperGLUEやSQuADといったベンチマークを導入して、言語理解、推論、理解の能力を測定することに注力してきた。 これらのPLMはこれらのベンチマークで印象的な成果を上げており、場合によっては人間のパフォーマンスを上回ります。 これは超人的能力の主張と、あるタスクが解決されたという挑発的な考えにつながった。 本稿では、これらの主張を批判的に考察し、PLMが本当に超人的能力を持つのか、現在のベンチマークが実際に評価しているのかを問う。 これらのベンチマークは人間とPLMの比較に重大な制約があることを示し、より公平で透明なベンチマークの推奨を提供する。

In the last five years, there has been a significant focus in Natural Language Processing (NLP) on developing larger Pretrained Language Models (PLMs) and introducing benchmarks such as SuperGLUE and SQuAD to measure their abilities in language understanding, reasoning, and reading comprehension. These PLMs have achieved impressive results on these benchmarks, even surpassing human performance in some cases. This has led to claims of superhuman capabilities and the provocative idea that certain tasks have been solved. In this position paper, we take a critical look at these claims and ask whether PLMs truly have superhuman abilities and what the current benchmarks are really evaluating. We show that these benchmarks have serious limitations affecting the comparison between humans and PLMs and provide recommendations for fairer and more transparent benchmarks.
翻訳日:2023-05-16 15:41:20 公開日:2023-05-15
# 地球観測を前進させる人工知能の展望

Artificial intelligence to advance Earth observation: a perspective ( http://arxiv.org/abs/2305.08413v1 )

ライセンス: Link先を確認
Devis Tuia, Konrad Schindler, Beg\"um Demir, Gustau Camps-Valls, Xiao Xiang Zhu, Mrinalini Kochupillai, Sa\v{s}o D\v{z}eroski, Jan N. van Rijn, Holger H. Hoos, Fabio Del Frate, Mihai Datcu, Jorge-Arnulfo Quian\'e-Ruiz, Volker Markl, Bertrand Le Saux, Rochelle Schneider(参考訳) 地球観測(EO)は、陸と海洋の過程を監視し、作業中の力学を研究し、地球の脈波を観測する主要な手段である。 本稿では、生のEOデータから使用可能なEO情報への移行を通知し、支援する、重要な科学的ツールとアプローチについて、鳥の視点で説明する。 これらの開発における現在の課題と同様に、約束は専用のセクションで強調される。 具体的には その影響を (i)コンピュータビジョン (ii)機械学習 三 高度な処理及び計算 (iv)知識に基づくai (v)説明可能なai及び因果推論 (vi)物理対応モデル (vii)ユーザ中心のアプローチ、そして (viii)EOにおけるML技術の大量活用に関連する倫理的・社会的問題に関する議論。

Earth observation (EO) is a prime instrument for monitoring land and ocean processes, studying the dynamics at work, and taking the pulse of our planet. This article gives a bird's eye view of the essential scientific tools and approaches informing and supporting the transition from raw EO data to usable EO-based information. The promises, as well as the current challenges of these developments, are highlighted under dedicated sections. Specifically, we cover the impact of (i) Computer vision; (ii) Machine learning; (iii) Advanced processing and computing; (iv) Knowledge-based AI; (v) Explainable AI and causal inference; (vi) Physics-aware models; (vii) User-centric approaches; and (viii) the much-needed discussion of ethical and societal issues related to the massive use of ML technologies in EO.
翻訳日:2023-05-16 15:41:06 公開日:2023-05-15
# SB-VQA: ビデオ強化のためのスタックベースのビデオ品質評価フレームワーク

SB-VQA: A Stack-Based Video Quality Assessment Framework for Video Enhancement ( http://arxiv.org/abs/2305.08408v1 )

ライセンス: Link先を確認
Ding-Jiun Huang, Yu-Ting Kao, Tieh-Hung Chuang, Ya-Chun Tsai, Jing-Kai Lou, Shuen-Huei Guan(参考訳) 近年,ビデオ品質評価(VQA)手法が開発され,高性能化が図られている。 しかし、これらの手法は、人間の主観的知覚に基づいて、映像品質を正確に予測する能力を制限する拡張ビデオのために特別に訓練されなかった。 この問題に対処するため,拡張ビデオからなるデータセットであるVDPVEにおいて,既存の最先端手法よりも優れたスタックベースのVQAフレームワークを提案する。 拡張ビデオのためのVQAフレームワークの提案に加えて、プロが生成するコンテンツ(PGC)にも適用について検討する。 プレミアムコンテンツによる著作権問題に対処するため、YouTubeのビデオからなるPGCVQデータセットを作成します。 PGCVQにおける提案手法と最先端手法の評価を行い,その結果について新たな知見を得た。 実験では,既存のvqaアルゴリズムをpgcビデオに適用できることを実証し,pgcビデオのvqa性能を遊びのプロットを考慮して改善できることを見出し,映像意味理解の重要性を強調する。

In recent years, several video quality assessment (VQA) methods have been developed, achieving high performance. However, these methods were not specifically trained for enhanced videos, which limits their ability to predict video quality accurately based on human subjective perception. To address this issue, we propose a stack-based framework for VQA that outperforms existing state-of-the-art methods on VDPVE, a dataset consisting of enhanced videos. In addition to proposing the VQA framework for enhanced videos, we also investigate its application on professionally generated content (PGC). To address copyright issues with premium content, we create the PGCVQ dataset, which consists of videos from YouTube. We evaluate our proposed approach and state-of-the-art methods on PGCVQ, and provide new insights on the results. Our experiments demonstrate that existing VQA algorithms can be applied to PGC videos, and we find that VQA performance for PGC videos can be improved by considering the plot of a play, which highlights the importance of video semantic understanding.
翻訳日:2023-05-16 15:40:55 公開日:2023-05-15
# 深層畳み込みネットワークにおけるインダクティブバイアスの理論解析

Theoretical Analysis of Inductive Biases in Deep Convolutional Networks ( http://arxiv.org/abs/2305.08404v1 )

ライセンス: Link先を確認
Zihao Wang, Lei Wu(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)における帰納バイアスについて検討する。 まず、CNNの普遍性、すなわち連続関数を近似する能力を解析する。 我々は、$d$ が入力次元である普遍性を達成するには、$\mathcal{o}(\log d)$ の深さが十分であることを証明する。 これは、$\Omega(d)$の深さを必要とする既存の結果よりも大幅に改善されている。 また, CNNを用いたスパース関数の学習には$\tilde{\mathcal{O}}(\log^2d)$サンプルが必要であることも証明した。 これら全ては、ネットワーク深度の増加とマルチチャネル化とダウンサンプリングの利用による新しい組み合わせによって達成される。 最後に、重量共有と局所性の帰納バイアスを対称性のレンズを通して研究する。 2つのバイアスを分離するために、重量共有なしでCNNと見なせるローカル接続ネットワーク(LCN)を導入する。 具体的には,cnn,lcns,完全接続ネットワーク(fcns)の性能を簡単な回帰タスクで比較する。 LCNは${\Omega}(d)$サンプルを必要とするのに対し、CNNは$\tilde{\mathcal{O}}(\log^2d)$サンプルのみを必要とする。 また、FCNsが$\Omega(d^2)$サンプルを必要とするのに対し、LCNsは$\tilde{\mathcal{O}}(d)$サンプルしか必要とせず、局所性の重要性を示す。 これらの証明可能な分離は2つのバイアスの違いを定量化し、背後にある主要な観察は、重みの共有と局所性が学習プロセスの異なる対称性を損なうことである。

In this paper, we study the inductive biases in convolutional neural networks (CNNs), which are believed to be vital drivers behind CNNs' exceptional performance on vision-like tasks. We first analyze the universality of CNNs, i.e., the ability to approximate continuous functions. We prove that a depth of $\mathcal{O}(\log d)$ is sufficient for achieving universality, where $d$ is the input dimension. This is a significant improvement over existing results that required a depth of $\Omega(d)$. We also prove that learning sparse functions with CNNs needs only $\tilde{\mathcal{O}}(\log^2d)$ samples, indicating that deep CNNs can efficiently capture long-range sparse correlations. Note that all these are achieved through a novel combination of increased network depth and the utilization of multichanneling and downsampling. Lastly, we study the inductive biases of weight sharing and locality through the lens of symmetry. To separate two biases, we introduce locally-connected networks (LCNs), which can be viewed as CNNs without weight sharing. Specifically, we compare the performance of CNNs, LCNs, and fully-connected networks (FCNs) on a simple regression task. We prove that LCNs require ${\Omega}(d)$ samples while CNNs need only $\tilde{\mathcal{O}}(\log^2d)$ samples, which highlights the cruciality of weight sharing. We also prove that FCNs require $\Omega(d^2)$ samples while LCNs need only $\tilde{\mathcal{O}}(d)$ samples, demonstrating the importance of locality. These provable separations quantify the difference between the two biases, and our major observation behind is that weight sharing and locality break different symmetries in the learning process.
翻訳日:2023-05-16 15:40:38 公開日:2023-05-15
# 量子コヒーレンス支援動的相転移

Quantum coherence assisted dynamical phase transition ( http://arxiv.org/abs/2305.08400v1 )

ライセンス: Link先を確認
Bao-Ming Xu(参考訳) 量子コヒーレンス(quantum coherence)は、量子多体系のダイナミクスを理解する上で、間違いなく基本的な役割を果たすだろう。 本稿では,コヒーレントギブス状態において初期化された一次元横磁場量子イジングモデルについて考察を行い,量子コヒーレンスが動的相転移(dqpt)に及ぼす影響について検討する。 横磁場の強さを緩和した後、量子コヒーレンスの効果はフィッシャー零点とロスシュミットエコーの速度関数によって研究される。 量子コヒーレンスは熱ゆらぎによって破壊されるDQPTを回復するだけでなく、平衡量子臨界点に依存しない全く新しいDQPTを生成する。 また, 漁獲零点が虚軸近傍に密着している必要があるため, 虚軸を切断する漁獲零点がdqptを生成するには不十分であることがわかった。 dqptは量子揺らぎに根ざしていることを示すことができる。 この研究は、量子臨界現象と量子コヒーレンスとの基本的な関係に新しい光を放つ。

Quantum coherence will undoubtedly play a fundamental role in understanding of the dynamics of quantum many-body systems, thereby to reveal its genuine contribution is of great importance. In this paper, we specialize our discussions to the one-dimensional transverse field quantum Ising model initialized in the coherent Gibbs state, and investigate the effects of quantum coherence on dynamical phase transition (DQPT). After quenching the strength of the transverse field, the effects of quantum coherence are studied by Fisher zeros and the rate function of Loschmidt echo. We find that quantum coherence not only recovers DQPT destroyed by thermal fluctuations, but also generates some entirely new DQPTs which are independent of equilibrium quantum critical point. We also find that Fisher zero cutting the imaginary axis is not sufficient to generate DQPT because it also requires the Fisher zeros to be tightly bound close enough to the neighborhood of the imaginary axis. It can be manifested that DQPTs are rooted in quantum fluctuations. This work sheds new light on the fundamental connection between quantum critical phenomena and quantum coherence.
翻訳日:2023-05-16 15:40:02 公開日:2023-05-15
# 最適バイアス境界に基づく大域的量子温度測定

Global quantum thermometry based on the optimal biased bound ( http://arxiv.org/abs/2305.08397v1 )

ライセンス: Link先を確認
Shoukang Chang, Wei Ye, Xuan Rao, Huan Zhang, Liqing Huang, Mengmeng Luo, Yuetao Chen, Qiang Ma, and Shaoyan Gao(参考訳) 熱測定は,自然科学の発展過程において重要な基本パラメータ推定問題である。 この問題を解く一つの方法は、熱測定の精度のベンチマークとして古典的および量子的クレージュラー・ラオ結合を用いた広範囲にわたる局所的温度測定理論である。 しかし、そのような熱測定理論は既知の温度値の周りの温度ゆらぎを減少させるのにしか使えず、広い温度範囲で正確な温度測定問題に取り組むことはほとんどできない。 このため、地球規模での温度測定精度の2つの基礎的境界を導出し、非相互作用スピン1/2ガスと一般的なNレベル熱平衡量子プローブの2つの特定の応用により熱測定性能を示す。

Thermometry is a fundamental parameter estimation problem which is crucial in the development process of natural sciences. One way to solve this problem is to the extensive used local thermometry theory, which makes use of the classical and quantum Cram\'er-Rao bound as benchmarks of thermometry precision. However, such a thermometry theory can only be used for decreasing temperature fluctuations around a known temperature value and hardly tackle the precision thermometry problem over a wide temperature range. For this reason, we derive two basic bounds on thermometry precision in the global setting and further show their thermometry performance by two specific applications, i.e., noninteracting spin-1/2 gas and a general N-level thermal equilibrium quantum probe.
翻訳日:2023-05-16 15:39:43 公開日:2023-05-15
# 文書理解データセットと評価(DUDE)

Document Understanding Dataset and Evaluation (DUDE) ( http://arxiv.org/abs/2305.08455v1 )

ライセンス: Link先を確認
Jordy Landeghem, Rub\'en Tito, {\L}ukasz Borchmann, Micha{\l} Pietruszka, Pawe{\l} J\'oziak, Rafa{\l} Powalski, Dawid Jurkiewicz, Micka\"el Coustaty, Bertrand Ackaert, Ernest Valveny, Matthew Blaschko, Sien Moens, Tomasz Stanis{\l}awek(参考訳) 私たちはDocAIコミュニティに、現在の方法論を再評価し、より実用的なベンチマークを作成するという課題を受け入れるよう呼びかけています。 Document Understanding Dataset and Evaluation (DUDE) は、視覚的にリッチなドキュメント(VRD)の理解において、中断した研究の進捗を改善しようとしている。 我々は,様々な起源と日付の多産業,多ドメイン,多ページVRDに基づく,質問の種類,回答,文書レイアウトに関する新しいデータセットを提案する。 さらに、低リソース環境下での強力な一般化と適応が望まれる現実の状況をより正確にシミュレートするマルチタスクおよびマルチドメイン評価設定を作成することで、現在の手法の境界を推し進めている。 DUDEは、コミュニティにとってより実用的で長期間続くベンチマークとして、新しい標準を設定することを目的としています。 最後に、docaiで言語、画像、レイアウトをモデル化するより効率的な方法を見つけることの重要性を説明している。

We call on the Document AI (DocAI) community to reevaluate current methodologies and embrace the challenge of creating more practically-oriented benchmarks. Document Understanding Dataset and Evaluation (DUDE) seeks to remediate the halted research progress in understanding visually-rich documents (VRDs). We present a new dataset with novelties related to types of questions, answers, and document layouts based on multi-industry, multi-domain, and multi-page VRDs of various origins, and dates. Moreover, we are pushing the boundaries of current methods by creating multi-task and multi-domain evaluation setups that more accurately simulate real-world situations where powerful generalization and adaptation under low-resource settings are desired. DUDE aims to set a new standard as a more practical, long-standing benchmark for the community, and we hope that it will lead to future extensions and contributions that address real-world challenges. Finally, our work illustrates the importance of finding more efficient ways to model language, images, and layout in DocAI.
翻訳日:2023-05-16 15:32:08 公開日:2023-05-15
# 線形光絡み合わせ発生のための隠蔽回路の誤差

Errors in heralded circuits for linear optical entanglement generation ( http://arxiv.org/abs/2305.08452v1 )

ライセンス: Link先を確認
Reece D. Shaw, Alex E. Jones, Patrick Yard, Anthony Laing(参考訳) エンタングル状態のヘラルド生成は多くのフォトニック量子技術を支える。 基礎となる物理ノイズ機構によって量子誤差補正しきい値が決定されるため、リソース状態の詳細な忠実なキャラクタリゼーションが必要である。 非計算リーク(英: non-computational leakage、例えば、デュアルレール符号化された量子ビットを占有する複数の光子)は、標準的な状態トモグラフィーでは捉えられない誤差であり、計算部分空間に残る光子をポストセレクトする。 ここでは、連続変数(cv)形式と第一量子化状態表現を用いて、部分的識別可能性と非計算的漏洩誤差の存在下でフォトニック量子状態を再構成するシミュレーションフレームワークを開発する。 これらのツールを用いて、様々なベル状態生成回路を分析し、5つの光子離散フーリエ変換(dft)ベル状態生成スキーム[phys rev. lett. 126 23054 (2021)]が、近理想光子に対して最も頑健であることを示す。 フォトニックエンタングリングゲートのキャラクタリゼーションにより, 現在の断層撮影法を用いて, 漏洩誤差が連結ゲートのモジュラーキャラクタリゼーションを阻害することを示す。 我々の研究は、フォールトトレラントフォトニック量子コンピューティングアーキテクチャで対処しなければならない真のノイズモデルを明らかにするための必要なステップである。

The heralded generation of entangled states underpins many photonic quantum technologies. As quantum error correction thresholds are determined by underlying physical noise mechanisms, a detailed and faithful characterization of resource states is required. Non-computational leakage, e.g. more than one photon occupying a dual-rail encoded qubit, is an error not captured by standard forms of state tomography, which postselect on photons remaining in the computational subspace. Here we use the continuous-variable (CV) formalism and first quantized state representation to develop a simulation framework that reconstructs photonic quantum states in the presence of partial distinguishability and resulting non-computational leakage errors. Using these tools, we analyze a variety of Bell state generation circuits and find that the five photon discrete Fourier transform (DFT) Bell state generation scheme [Phys Rev. Lett. 126 23054 (2021)] is most robust to such errors for near-ideal photons. Through characterization of a photonic entangling gate, we demonstrate how leakage errors prevent a modular characterization of concatenated gates using current tomographical procedures. Our work is a necessary step in revealing the true noise models that must be addressed in fault-tolerant photonic quantum computing architectures.
翻訳日:2023-05-16 15:31:50 公開日:2023-05-15
# マルチエージェントパス探索における追跡の進歩

Tracking Progress in Multi-Agent Path Finding ( http://arxiv.org/abs/2305.08446v1 )

ライセンス: Link先を確認
Bojie Shen, Zhe Chen, Muhammad Aamir Cheema, Daniel D. Harabor and Peter J. Stuckey(参考訳) マルチエージェントパス探索(mapf)は、多くの新興産業アプリケーションにとって重要なコア問題である。 毎年この話題に多くの作品が登場し、多くの大幅な進歩と性能改善が報告されている。 しかし、MAPFの全体的な進歩を測ることは困難であり、多くの競合相手がおり、総合的な実験の計算負担は違法に大きい。 さらに、過去の実験からの詳細なデータは、通常利用できない。 本研究では,最新のMAPF性能を示す指標の明確化を支援するとともに,MAPFソルバ間の大規模比較を容易にする手法と可視化ツールを提案する。 本研究の目的は,新しい研究者の参入障壁を低くし,MAPFの研究をさらに促進することにある。

Multi-Agent Path Finding (MAPF) is an important core problem for many new and emerging industrial applications. Many works appear on this topic each year, and a large number of substantial advancements and performance improvements have been reported. Yet measuring overall progress in MAPF is difficult: there are many potential competitors, and the computational burden for comprehensive experimentation is prohibitively large. Moreover, detailed data from past experimentation is usually unavailable. In this work, we introduce a set of methodological and visualisation tools which can help the community establish clear indicators for state-of-the-art MAPF performance and which can facilitate large-scale comparisons between MAPF solvers. Our objectives are to lower the barrier of entry for new researchers and to further promote the study of MAPF, since progress in the area and the main challenges are made much clearer.
翻訳日:2023-05-16 15:31:23 公開日:2023-05-15
# ハイブリッド量子システムにおける量子干渉誘起マグノン遮断とアンチバンチング

Quantum interference induced magnon blockade and antibunching in a hybrid quantum system ( http://arxiv.org/abs/2305.08444v1 )

ライセンス: Link先を確認
Pooja Kumari Gupta, Sampreet Kalita and Amarendra K. Sarma(参考訳) 本研究では、弱い相互作用を持つハイブリッド強磁性体-超伝導系における量子干渉支援マグノン遮断とマグノンアンチバンチングの現象を研究する。 2つのイットリウム鉄ガーネット球のマグノン励起は、2つの垂直キャビティのマイクロ波キャビティモードを介して超伝導量子ビットに間接的に結合される。 1つのマグノンモードが弱い光学場によって駆動されると、2つ以上の異なる遷移経路間の破壊的干渉は2つのマグノンの同時励起を制限する。 ゼロデチューニングの場合とマグノンモードとクビットの有限デチューニングの場合の駆動マグノンモードにおけるマグノン相関を解析する。 マグノン-クビット結合強度比と駆動遅延率を変化させることで、マグノンアンチバンチングを調整可能であることを示す。 本研究は,単一マグノン発生装置の構築において重要な役割を果たす手法を提案する。

In this work, we study the phenomena of quantum interference assisted magnon blockade and magnon antibunching in a weakly interacting hybrid ferromagnet-superconductor system. The magnon excitations in two yttrium iron garnet spheres are indirectly coupled to a superconducting qubit through microwave cavity modes of two mutually perpendicular cavities. We find that when one of the magnon mode is driven by a weak optical field, the destructive interference between more than two distinct transition pathways restricts simultaneous excitation of two magnons. We analyze the magnon correlations in the driven magnon mode for the case of zero detunings as well as finite detunings of the magnon modes and the qubit. We show that the magnon antibunching can be tuned by changing the magnon-qubit coupling strength ratio and the driving detuning. Our work proposes a possible scheme which have significant role in the construction of single magnon generating devices.
翻訳日:2023-05-16 15:31:10 公開日:2023-05-15
# 結合量子オットーエンジンの最大出力

Maximum Power of Coupled-Qubit Otto Engines ( http://arxiv.org/abs/2305.08440v1 )

ライセンス: Link先を確認
Jingyi Gao and Naomichi Hatano(参考訳) 我々は,結合量子ビット量子オットーマシンと2つの熱浴と2つのワークストレージからなる外部環境とからなる内部システム間の作業と熱伝達に基づく,単一量子ビット量子オットーマシンの一般化である結合量子オットーマシンの4つのスキームを提唱した。 このモデルの4つのスキームは、結合量子ビットエンジンの動力において重要な役割を果たす熱浴の取り付け位置によって定義される。 第一に、単一キュービット熱エンジンの場合、最大出力の関係を見出すことができ、最大出力での効率がカーゾン=オルボルン効率よりも大きいオットー効率と等しいという事実が分かる。 第2に、結合キュービットエンジンと単一キュービットエンジンを、同一のエネルギーレベルの変化に基づいて最大電力を達成する観点から比較し、2つのキュービット間のカップリングによりより大きなパワーが得られるが、最大電力におけるシステム効率は、単一キュービットシステムの効率とカーゾン=アルボーン効率よりも低いことを見出した。

We put forward four schemes of coupled-qubit quantum Otto machine, a generalization of the single-qubit quantum Otto machine, based on work and heat transfer between an internal system consisting of a coupled pair of qubits and an external environment consisting of two heat baths and two work storages. The four schemes of our model are defined by the positions of attaching the heat baths, which play a key role in the power of the coupled-qubit engine. Firstly, for the single-qubit heat engine, we find a maximum-power relation, and the fact that its efficiency at the maximum power is equal to the Otto efficiency, which is greater than the Curzon-Ahlborn efficiency. Second, we compare the coupled-qubit engines to the single-qubit one from the point of view of achieving the maximum power based on the same energy-level change for work production, and find that the coupling between the two qubits can lead to greater powers but the system efficiency at the maximum power is lower than the single-qubit system's efficiency and the Curzon-Ahlborn efficiency.
翻訳日:2023-05-16 15:30:57 公開日:2023-05-15
# 一般ロバスト性に対する逆画像の周波数スペクトルの爆発

Exploiting Frequency Spectrum of Adversarial Images for General Robustness ( http://arxiv.org/abs/2305.08439v1 )

ライセンス: Link先を確認
Chun Yang Tan, Kazuhiko Kawamoto, Hiroshi Kera(参考訳) 近年、画像摂動に対する畳み込みニューラルネットワーク(CNN)の脆弱性に対する懸念が高まっている。 しかしながら、異なる種類の摂動に対する一般的な堅牢性を達成することは、いくつかの摂動(例えば、敵の摂動)に対する強靭性を高めることで、他のもの(例えば、一般的な腐敗)を低下させる。 本稿では, 相成分に着目した逆行訓練が, クリーン, 逆行, 一般的な汚職精度のモデル性能を著しく向上することを示す。 そこで本研究では,クリーン画像とadversarial画像の振幅スペクトルを交換し,adversarial amplitudeとadversarial phase imageの2つの新しいトレーニング画像を生成する周波数ベースデータ拡張法であるadversarial amplitude swapを提案する。 これらの画像は、敵のイメージの代わりに機能し、様々な敵のトレーニング設定で実装することができる。 広範にわたる実験により,我々はCNNが様々な種類の摂動に対して全般的に堅牢性を得ることができ,その結果,あらゆる種類の共通汚職に対して均一な性能が得られることを示した。

In recent years, there has been growing concern over the vulnerability of convolutional neural networks (CNNs) to image perturbations. However, achieving general robustness against different types of perturbations remains challenging, in which enhancing robustness to some perturbations (e.g., adversarial perturbations) may degrade others (e.g., common corruptions). In this paper, we demonstrate that adversarial training with an emphasis on phase components significantly improves model performance on clean, adversarial, and common corruption accuracies. We propose a frequency-based data augmentation method, Adversarial Amplitude Swap, that swaps the amplitude spectrum between clean and adversarial images to generate two novel training images: adversarial amplitude and adversarial phase images. These images act as substitutes for adversarial images and can be implemented in various adversarial training setups. Through extensive experiments, we demonstrate that our method enables the CNNs to gain general robustness against different types of perturbations and results in a uniform performance against all types of common corruptions.
翻訳日:2023-05-16 15:30:36 公開日:2023-05-15
# 深部熱化の非局在性

Nonlocality of Deep Thermalization ( http://arxiv.org/abs/2305.08437v1 )

ライセンス: Link先を確認
Harshank Shrotriya, Wen Wei Ho(参考訳) 本研究では, 深部熱処理におけるトポロジーの役割, 最大エントロピー, 均一な測定状態分布への局所サブシステムの緩和, および局所的に相補的なサブシステムの観察について検討した。 具体的には,「最大カオス」ダイナミクスを示す (1+1)d 系のクラスに着目し,そのような普遍波動関数分布の形成速度が系の境界条件にどのように依存するかを検討する。 深部熱化は周期的・開境界条件のいずれかの存在下で指数関数的に高速に達成されるが, 前者の方が後者に比べて2倍の速さで進行する。 これらの結果は、ユニタリ群上の積分計算を用いて解析的に達成され、広範な数値シミュレーションによって支援される。 この発見は深部熱化の非局所的な性質を強調し、この現象の基礎となる物理が標準量子化のそれを超えることを明らかに示しており、これはサブシステムと補体の絡み合いの純的蓄積に依存している。

We study the role of topology in governing deep thermalization, the relaxation of a local subsystem towards a maximally-entropic, uniform distribution of post-measurement states, upon observing the complementary subsystem in a local basis. Concretely, we focus on a class of (1+1)d systems exhibiting `maximally-chaotic' dynamics, and consider how the rate of the formation of such a universal wavefunction distribution depends on boundary conditions of the system. We find that deep thermalization is achieved exponentially quickly in the presence of either periodic or open boundary conditions; however, the rate at which this occurs is twice as fast for the former than for the latter. These results are attained analytically using the calculus of integration over unitary groups, and supported by extensive numerical simulations. Our findings highlight the nonlocal nature of deep thermalization, and clearly illustrates that the physics underlying this phenomenon goes beyond that of standard quantum thermalization, which only depends on the net build-up of entanglement between a subsystem and its complement.
翻訳日:2023-05-16 15:30:19 公開日:2023-05-15
# EMBRACE: ブースティング RACE の評価と修正

EMBRACE: Evaluation and Modifications for Boosting RACE ( http://arxiv.org/abs/2305.08433v1 )

ライセンス: Link先を確認
Mariia Zyrianova, Dmytro Kalpakchi, Johan Boye(参考訳) 機械読影理解モデルの訓練と評価には,実世界の読影理解タスクを代表する高品質なデータセットを扱うことが重要である。 この要件には、例えば、異なるジャンルのテキストに基づいて、推論を生成するか、読み物に反映する必要がある質問がある。 本稿では、英語テキストとそれに対応する複数選択質問(MCQ)のデータセットであるRASに注目します。 各MCQは1つの質問と4つの選択肢からなる(そのうちの1つは正しい答えである)。 RACEは、人間の読解のための中国語教師によって構築され、機械読解モデルの教材として広く使用されている。 構築上, RACEは上記の品質要件を満たすべきであり, 本記事の目的は, それらが本当に満足しているかどうかを確認することである。 高校生(1045テキストと3498テキストに対応するMCQ)を対象に,(1)各MCQの難易度の評価,(2)各選択肢の妥当性を正当化するために使用されるテキストの関連部分(ベース)のアノテーションなど,RACEのテストセットを詳細に分析する。 MCQのかなりの数は、この種の読解タスクの基本的な要件を満たしていないため、評価されたRASコーパスの高品質なサブセットも同定する。 また,mcq応答と生成モデルの評価において必ずしも望ましいものではないテキストの特定の部分に対して,代替語のベースの位置分布が偏っていることを実証した。

When training and evaluating machine reading comprehension models, it is very important to work with high-quality datasets that are also representative of real-world reading comprehension tasks. This requirement includes, for instance, having questions that are based on texts of different genres and require generating inferences or reflecting on the reading material. In this article we turn our attention to RACE, a dataset of English texts and corresponding multiple-choice questions (MCQs). Each MCQ consists of a question and four alternatives (of which one is the correct answer). RACE was constructed by Chinese teachers of English for human reading comprehension and is widely used as training material for machine reading comprehension models. By construction, RACE should satisfy the aforementioned quality requirements and the purpose of this article is to check whether they are indeed satisfied. We provide a detailed analysis of the test set of RACE for high-school students (1045 texts and 3498 corresponding MCQs) including (1) an evaluation of the difficulty of each MCQ and (2) annotations for the relevant pieces of the texts (called "bases") that are used to justify the plausibility of each alternative. A considerable number of MCQs appear not to fulfill basic requirements for this type of reading comprehension tasks, so we additionally identify the high-quality subset of the evaluated RACE corpus. We also demonstrate that the distribution of the positions of the bases for the alternatives is biased towards certain parts of texts, which is not necessarily desirable when evaluating MCQ answering and generation models.
翻訳日:2023-05-16 15:29:58 公開日:2023-05-15
# quanta iff 離散性

Quanta Iff Discreteness ( http://arxiv.org/abs/2305.08431v1 )

ライセンス: Link先を確認
Marcello Poletti(参考訳) ここでは、量子力学の基礎に関する短い哲学的考察を紹介する。 特に、粒度、不連続性、および量子効果の存在の間の直接的な関係は議論される。 さらに、「関係解釈の解釈」が支持され、論理的な不確定性の問題と組み合わせることで、qmの明らかな非論理性が論理の領域内に置かれ、通常のパラドックスに効果的に対応できる有望なアプローチが生み出される。

A brief philosophical inquiry into the foundations of quantum mechanics is presented here. In particular, the direct relationship between granularity, discontinuity, and the presence of quantum effects will be argued. Furthermore, an "interpretation of relational interpretation" will be supported, which, in combination with the problem of logical undecidability, produces a promising approach that places the apparent illogicality of QM within the realm of logic and effectively addresses its usual paradoxes.
翻訳日:2023-05-16 15:29:34 公開日:2023-05-15
# 米国の裁判所意見の法的抽出的要約

Legal Extractive Summarization of U.S. Court Opinions ( http://arxiv.org/abs/2305.08428v1 )

ライセンス: Link先を確認
Emmanuel Bauer, Dominik Stammbach, Nianlong Gu, Elliott Ash(参考訳) 本稿では,米国裁判所の430k意見のデータセットに注釈を付した,法的抽出要約の課題について述べる。 自動要約品質指標によると、強化学習ベースのmemsumモデルが最も良く、トランスフォーマーベースのモデルよりも優れています。 専門家による人間の評価は、MemSumの要約が長大な法廷意見の要点を効果的に捉えていることを示している。 これらの結果に動機づけられ、我々はモデルを一般にオープンソース化した。 これは、法を民主化し、アメリカ合衆国裁判所の意見を一般大衆に公開するための進歩を表している。

This paper tackles the task of legal extractive summarization using a dataset of 430K U.S. court opinions with key passages annotated. According to automated summary quality metrics, the reinforcement-learning-based MemSum model is best and even out-performs transformer-based models. In turn, expert human evaluation shows that MemSum summaries effectively capture the key points of lengthy court opinions. Motivated by these results, we open-source our models to the general public. This represents progress towards democratizing law and making U.S. court opinions more accessible to the general public.
翻訳日:2023-05-16 15:29:25 公開日:2023-05-15
# 1335言語における概念化の言語間比較

A Crosslingual Investigation of Conceptualization in 1335 Languages ( http://arxiv.org/abs/2305.08475v1 )

ライセンス: Link先を確認
Yihong Liu, Haotian Ye, Leonie Weissweiler, Philipp Wicke, Renhao Pei, Robert Zangenfeind, Hinrich Sch\"utze(参考訳) 例えば、英語とは対照的に、スワヒリ語は『belly』と『womb』の1つの概念を持っている。 1,335言語間の概念化におけるこれらの違いを並列コーパスにおける概念の整合によって検討する。 そこで,本稿では,ソース言語の概念と対象言語文字列の集合との双方向指向アライメントグラフを作成する手法であるconceptionizerを提案する。 1つの概念(`bird')に対する全言語にわたる詳細な言語分析と32のスワデシュ概念に対する金標準データの評価において、概念化器はアライメント精度が良いことを示す。 2つの実験により,NLPにおける概念化の研究の可能性を示す。 1) 概念の言語間安定性を言語間の1-1対応度として定義し, 具体性が安定性を予測することを示す。 2) 83概念に対する概念化パターンを用いて各言語を表現し, それらの表現について類似度尺度を定義する。 2つの言語の概念的類似性の結果として得られる尺度は、標準的な系譜学、類型学、表面類似性の尺度と相補的である。 6つの言語ファミリーのうち4つでは、54\%から87\%の精度で概念的類似性に基づいて、言語を正しい家族に割り当てることができます。

Languages differ in how they divide up the world into concepts and words; e.g., in contrast to English, Swahili has a single concept for `belly' and `womb'. We investigate these differences in conceptualization across 1,335 languages by aligning concepts in a parallel corpus. To this end, we propose Conceptualizer, a method that creates a bipartite directed alignment graph between source language concepts and sets of target language strings. In a detailed linguistic analysis across all languages for one concept (`bird') and an evaluation on gold standard data for 32 Swadesh concepts, we show that Conceptualizer has good alignment accuracy. We demonstrate the potential of research on conceptualization in NLP with two experiments. (1) We define crosslingual stability of a concept as the degree to which it has 1-1 correspondences across languages, and show that concreteness predicts stability. (2) We represent each language by its conceptualization pattern for 83 concepts, and define a similarity measure on these representations. The resulting measure for the conceptual similarity of two languages is complementary to standard genealogical, typological, and surface similarity measures. For four out of six language families, we can assign languages to their correct family based on conceptual similarity with accuracy between 54\% and 87\%.
翻訳日:2023-05-16 15:23:27 公開日:2023-05-15
# ディープモードアライメントと自己教師付きマルチタスク学習を用いたマルチモーダル感情分析における共有およびプライベート情報学習

Shared and Private Information Learning in Multimodal Sentiment Analysis with Deep Modal Alignment and Self-supervised Multi-Task Learning ( http://arxiv.org/abs/2305.08473v1 )

ライセンス: Link先を確認
Songning Lai, Xifeng Hu, Yulong Li, Zhaoxia Ren, Zhi Liu and Danmin Miao(参考訳) マルチモーダル感情分析タスクのための効果的な表現学習法の設計は重要な研究方向である。 課題は、共有情報とプライベート情報の両方を完全なモーダル表現で学習することであり、一様マルチモーダルラベルと生の特徴融合アプローチでは難しい。 本研究では,共分散行列に基づく深層モード共有情報学習モジュールを提案し,モダリティ間の共有情報をキャプチャする。 さらに,自己教師付き学習戦略に基づくラベル生成モジュールを用いて,モダリティの個人情報をキャプチャする。 モジュールはマルチモーダルタスクにおけるプラグアンドプレイであり,パラメータ化を変更することで,モード間の情報交換関係を調整し,指定されたモード間でのプライベートあるいは共有情報を学習することができる。 また,モデルがモーダル微分学習データに注目するのを支援するために,マルチタスク学習戦略を採用している。 深層モーダル共有情報学習モジュールの設計のための詳細な定式化と実現可能性の証明を提供する。 3つの共通マルチモーダル感情分析ベースラインデータセットについて広範な実験を行い,実験結果からモデルの信頼性を検証した。 さらに,モジュール使用のための組合せ技術についても検討する。 当社のアプローチは,3つの公開データセットの指標のほとんどにおいて,最先端の手法よりも優れています。

Designing an effective representation learning method for multimodal sentiment analysis tasks is a crucial research direction. The challenge lies in learning both shared and private information in a complete modal representation, which is difficult with uniform multimodal labels and a raw feature fusion approach. In this work, we propose a deep modal shared information learning module based on the covariance matrix to capture the shared information between modalities. Additionally, we use a label generation module based on a self-supervised learning strategy to capture the private information of the modalities. Our module is plug-and-play in multimodal tasks, and by changing the parameterization, it can adjust the information exchange relationship between the modes and learn the private or shared information between the specified modes. We also employ a multi-task learning strategy to help the model focus its attention on the modal differentiation training data. We provide a detailed formulation derivation and feasibility proof for the design of the deep modal shared information learning module. We conduct extensive experiments on three common multimodal sentiment analysis baseline datasets, and the experimental results validate the reliability of our model. Furthermore, we explore more combinatorial techniques for the use of the module. Our approach outperforms current state-of-the-art methods on most of the metrics of the three public datasets.
翻訳日:2023-05-16 15:23:07 公開日:2023-05-15
# ガウス量子チャネルを超えて:モデルケース

Beyond Gaussian Quantum Channels: A model case ( http://arxiv.org/abs/2305.08467v1 )

ライセンス: Link先を確認
Daniel Speed, Wenyang Lyu and Roman Schubert(参考訳) ガウス量子チャネルはよく理解されており、量子情報理論や量子光学において多くの応用がある。 より一般的な量子チャネルでは、一般に半古典近似や摂動理論を用いることができるが、そのような方法の精度を判断するのは容易ではない。 比較的単純なモデルの場合において、量子チャネルはリンドブラッド方程式によって生成され、リンドブラッド作用素の1つは内部ハミルトニアンの倍数であり、したがってチャネルはガウス的ではない。 このモデルでは、ガウス状態におけるチャネルの作用の特性関数を明示的に計算することができ、また、積分形式でプロパゲータの表現を導出することもできる。 これにより、正確な結果を半古典近似や摂動理論と比較し、精度を評価することができる。 最終的にこれらの結果を、状態のフォン・ノイマンエントロピーの進化の研究に適用する。

Gaussian quantum channels are well understood and have many applications, e.g., in Quantum Information Theory and in Quantum Optics. For more general quantum channels one can in general use semiclassical approximations or perturbation theory, but it is not easy to judge the accuracy of such methods. We study a relatively simple model case, where the quantum channel is generated by a Lindblad equation where one of the Lindblad operators is a multiple of the internal Hamiltonian, and therefore the channel is not Gaussian. For this model we can compute the characteristic function of the action of the channel on a Gaussian state explicitly and we can as well derive a representation of the propagator in an integral form. This allows us to compare the exact results with semiclassical approximations and perturbation theory and evaluate their accuracy. We finally apply these results to the study of the evolution of the von Neumann entropy of a state.
翻訳日:2023-05-16 15:22:46 公開日:2023-05-15
# ディープニューラルネットワーク導波路におけるほぼ最適VC次元と擬似次元境界

Nearly Optimal VC-Dimension and Pseudo-Dimension Bounds for Deep Neural Network Derivatives ( http://arxiv.org/abs/2305.08466v1 )

ライセンス: Link先を確認
Yahong Yang, Haizhao Yang, Yang Xiang(参考訳) 本稿では,ほぼ最適なVapnik-Chervonenkis次元(VC次元)の問題とディープニューラルネットワーク(DNN)の導関数の擬次元推定について述べる。 これらの推定の2つの重要な応用は以下のとおりである。 1) ソボレフ空間におけるDNNのほぼ緊密な近似結果の確立 2) 関数導関数を含む損失関数を含む機械学習手法の一般化誤差を特徴付ける。 この理論的研究は、生成モデル、偏微分方程式の解法、演算子学習、ネットワーク圧縮、蒸留、正規化などを含む、幅広い物理インフォームド機械学習モデルと応用のための学習誤差推定のギャップを埋めるものである。

This paper addresses the problem of nearly optimal Vapnik--Chervonenkis dimension (VC-dimension) and pseudo-dimension estimations of the derivative functions of deep neural networks (DNNs). Two important applications of these estimations include: 1) Establishing a nearly tight approximation result of DNNs in the Sobolev space; 2) Characterizing the generalization error of machine learning methods with loss functions involving function derivatives. This theoretical investigation fills the gap of learning error estimations for a wide range of physics-informed machine learning models and applications including generative models, solving partial differential equations, operator learning, network compression, distillation, regularization, etc.
翻訳日:2023-05-16 15:22:32 公開日:2023-05-15
# 量子ドットを用いたMajorana量子ビットのブレイディングに基づく量子制御

Braiding-based quantum control of a Majorana qubit built from quantum dots ( http://arxiv.org/abs/2305.08464v1 )

ライセンス: Link先を確認
P\'eter Boross and Andr\'as P\'alyi(参考訳) トポロジー関連のアイデアは、ノイズ耐性量子コンピューティングにつながるかもしれない。 例えば、超伝導体におけるマヨラナゼロモードの遅い空間的交換(ブレイディング)は、乱れに対して頑健な量子ゲートをもたらすことが期待されている。 本稿では,時間依存ゲート電圧によって制御される量子ドットを用いたマヨラナ量子ビットのダイナミクスを記述する数値実験を報告する。 本プロトコルは, majorana qubit の非保護制御,ブレイディングベースの保護制御,および readout を組み込んでいる。 シミュレーションにはキタエフ連鎖モデルを用い、マヨラナモードのハイブリダイゼーションエネルギー分割に影響を及ぼす準静電荷ノイズが主な誤差源である場合に焦点を当てる。 本稿では, 位相量子ゲートの目印として忠実度高原が観測されるように, ダイアバティックエラーと障害誘発クビットデファス化の両面を抑制するための定量的ガイドラインを提案する。 我々のシミュレーションは、マヨラナゼロモードや他のトポロジカルキュービットアーキテクチャによる将来のブレイディング実験で見られるであろう現実的な特徴を予測する。

Topology-related ideas might lead to noise-resilient quantum computing. For example, it is expected that the slow spatial exchange (`braiding') of Majorana zero modes in superconductors yields quantum gates that are robust against disorder. Here, we report our numerical experiments, which describe the dynamics of a Majorana qubit built from quantum dots controlled by time-dependent gate voltages. Our protocol incorporates non-protected control, braiding-based protected control, and readout, of the Majorana qubit. We use the Kitaev chain model for the simulations, and focus on the case when the main source of errors is quasistatic charge noise affecting the hybridization energy splitting of the Majorana modes. We provide quantitative guidelines to suppress both diabatic errors and disorder-induced qubit dephasing, such that a fidelity plateau is observed as the hallmark of the topological quantum gate. Our simulations predict realistic features that are expected to be seen in future braiding experiments with Majorana zero modes and other topological qubit architectures.
翻訳日:2023-05-16 15:22:19 公開日:2023-05-15
# 平均シフトの収束解析

Convergence Analysis of Mean Shift ( http://arxiv.org/abs/2305.08463v1 )

ライセンス: Link先を確認
Ryoya Yamasaki, Toshiyuki Tanaka(参考訳) 平均シフト(MS)アルゴリズムは、カーネル密度推定(KDE)のモードを求める。 本研究では,MSアルゴリズムが生成するモード推定シーケンスの収束保証と,比較的穏やかな条件下での収束率の評価について,この不等式に関する議論の助けを借りて提案する。 解析的カーネルとエパネチニコフカーネルを対象とする既存カーネルを拡張した本研究では,KDEに基づくモード推定の漸近的統計的効率の観点から,非負のカーネル間で最適な双重カーネルをカバーすることが重要である。

The mean shift (MS) algorithm seeks a mode of the kernel density estimate (KDE). This study presents a convergence guarantee of the mode estimate sequence generated by the MS algorithm and an evaluation of the convergence rate, under fairly mild conditions, with the help of the argument concerning the {\L}ojasiewicz inequality. Our findings, which extend existing ones covering analytic kernels and the Epanechnikov kernel, are significant in that they cover the biweight kernel that is optimal among non-negative kernels in terms of the asymptotic statistical efficiency for the KDE-based mode estimation.
翻訳日:2023-05-16 15:22:02 公開日:2023-05-15
# すべてのピクセルが等しいわけではない:セマンティックセグメンテーションのためのピクセルハードネスの学習

Not All Pixels Are Equal: Learning Pixel Hardness for Semantic Segmentation ( http://arxiv.org/abs/2305.08462v1 )

ライセンス: Link先を確認
Xin Xiao, Daiguo Zhou, Jiagao Hu, Yi Hu, Yongchao Xu(参考訳) セマンティックセグメンテーションは近年大きく進歩している。 全体的な成果は印象的なものだが、いくつかの硬い領域(例えば、小さな物体や薄い部分)でのセグメンテーション性能はまだ期待できない。 簡単な解決策はハードサンプルマイニングであり、オブジェクト検出で広く使われている。 しかし、セマンティクスセグメンテーションのための既存のハードピクセルマイニング戦略の多くは、トレーニング中に減少する傾向があるピクセルの損失値に依存することが多い。 直感的には、セグメンテーションのピクセル硬度は主に画像構造に依存し、安定することが期待される。 本稿では,グローバルおよび歴史的な損失値に含まれるハードネス情報を活用して,意味セグメンテーションのためのピクセルのハードネスを学ぶことを提案する。 より正確には、分割ヘッドに対して最小化される硬度重み付きセグメンテーション損失を最大化することにより、硬度レベル(HL)マップを学習するための勾配非依存ブランチを追加する。 これにより、難しい領域で大きな硬度値が奨励され、適切な安定なhlマップが作成される。 その単純さにもかかわらず、提案手法は、推論とトレーニングの間、それぞれノーとマージンの余分なコストで、ほとんどのセグメンテーション法に適用することができる。 ベルやホイッスルがなければ、提案手法は、cityscapesデータセット上の最も一般的なセマンティクスセグメンテーションメソッドよりも一貫性と重要な改善(平均1.37%miou)を達成し、ドメイン間の優れた一般化能力を示す。 ソースコードはhttps://github.com/menoly-xin/hardness-level-learningで入手できる。

Semantic segmentation has recently witnessed great progress. Despite the impressive overall results, the segmentation performance in some hard areas (e.g., small objects or thin parts) is still not promising. A straightforward solution is hard sample mining, which is widely used in object detection. Yet, most existing hard pixel mining strategies for semantic segmentation often rely on pixel's loss value, which tends to decrease during training. Intuitively, the pixel hardness for segmentation mainly depends on image structure and is expected to be stable. In this paper, we propose to learn pixel hardness for semantic segmentation, leveraging hardness information contained in global and historical loss values. More precisely, we add a gradient-independent branch for learning a hardness level (HL) map by maximizing hardness-weighted segmentation loss, which is minimized for the segmentation head. This encourages large hardness values in difficult areas, leading to appropriate and stable HL map. Despite its simplicity, the proposed method can be applied to most segmentation methods with no and marginal extra cost during inference and training, respectively. Without bells and whistles, the proposed method achieves consistent/significant improvement (1.37% mIoU on average) over most popular semantic segmentation methods on Cityscapes dataset, and demonstrates good generalization ability across domains. The source codes are available at https://github.com/Menoly-xin/Hardness-Level-Learning .
翻訳日:2023-05-16 15:21:51 公開日:2023-05-15
# 量子信頼性

Quantum reliability ( http://arxiv.org/abs/2305.08461v1 )

ライセンス: Link先を確認
L.X.Cui, Y-M.Du, and C.P.Sun(参考訳) 本研究では,量子コヒーレンスに依存する機能系の信頼性について検討する。 2値論理変数の確率的測定を用いて評価される産業・技術における従来の信頼性の概念とは対照的に、異なる系軌道間の干渉により、量子的信頼性は量子確率振幅(英語版)または波動関数(英語版)に基礎を置いている。 量子信頼性の定義と計算を説明するために,フォールトトレランス構造を持つ量子ストレージシステムを提案する。 量子コヒーレンスは,古典的な場合と比較して,システムの信頼性とサブシステムとの関係を変化させることがわかった。 この効果は、正確な操作を必要とする複数の相互作用サブシステムを持つ量子錯体に特に関係している。

The present study investigates the reliability of functioning systems that depend on quantum coherence. In contrast to the conventional notion of reliability in industry and technology, which is evaluated using probabilistic measurements of binary logical variables, quantum reliability is grounded in the quantum probability amplitude, or wave function, due to the interference between different system trajectories. A system of quantum storage with a fault-tolerance structure is presented to illustrate the definition and calculation of quantum reliability. Our findings reveal that quantum coherence alters the relationship between a system's reliability and that of its subsystems, compared to classical cases. This effect is particularly relevant for quantum complexes with multiple interacting subsystems that require a precise operation.
翻訳日:2023-05-16 15:21:21 公開日:2023-05-15
# 遺伝的ランダムニューラルネットワークの力学平均場理論入門

Introduction to dynamical mean-field theory of generic random neural networks ( http://arxiv.org/abs/2305.08459v1 )

ライセンス: Link先を確認
Wenxuan Zou and Haiping Huang(参考訳) 動的平均場理論(英: dynamical mean-field theory)は、ニューラルネットワークの典型的な振る舞いを分析するために用いられる強力な物理ツールである。 しかし、初心者がこのツールの本質と基礎となる物理学にアクセスすることは容易ではない。 本稿では,ニューロンが相関シナプスによってランダムに完全に接続されるような,遺伝的ランダムニューラルネットワークの特定の例において,この手法の教育学的導入について述べる。 また、このツールの適用に関する過去および最近の重要な研究についても概説する。 さらに、物理的に透明で代替的な方法、すなわち動的空洞法も、全く同じ結果を得るために導入されている。 積分微分平均場方程式の解法に関する数値的な実装についても詳述し、揺らぎ散逸定理を探求する図解である。

Dynamical mean-field theory is a powerful physics tool used to analyze the typical behavior of neural networks, where neurons can be recurrently connected, or multiple layers of neurons can be stacked. However, it is not easy for beginners to access the essence of this tool and the underlying physics. Here, we give a pedagogical introduction of this method in a particular example of generic random neural networks, where neurons are randomly and fully connected by correlated synapses and therefore the network exhibits rich emergent collective dynamics. We also review related past and recent important works applying this tool. In addition, a physically transparent and alternative method, namely the dynamical cavity method, is also introduced to derive exactly the same results. The numerical implementation of solving the integro-differential mean-field equations is also detailed, with an illustration of exploring the fluctuation dissipation theorem.
翻訳日:2023-05-16 15:21:09 公開日:2023-05-15
# MolHF:分子グラフ生成のための階層的正規化フロー

MolHF: A Hierarchical Normalizing Flow for Molecular Graph Generation ( http://arxiv.org/abs/2305.08457v1 )

ライセンス: Link先を確認
Yiheng Zhu, Zhenqiu Ouyang, Ben Liao, Jialu Wu, Yixuan Wu, Chang-Yu Hsieh, Tingjun Hou, Jian Wu(参考訳) 分子デノボ設計は科学分野において重要な課題であり、望ましい特性プロファイルを持つ新しい分子構造を設計することを目的としている。 グラフの生成モデルを活用することで大きな進歩を遂げている。 しかし、分子グラフの固有の階層構造(豊富な意味情報を持つ)を活用でき、既存のほとんどのモデルでは困難であることを示す複雑な分子を生成する階層的生成モデルに限定的な注意が払われる。 階層生成の最大の課題は、中間離散粗いグラフ構造の生成によって生じる微分不可能な問題である。 この問題を回避するため,我々は階層的表現学習の逆プロセスとして離散空間上の難解な階層的生成問題を取り上げ,分子グラフを粗い方法で生成する新しい階層的フローベースモデルmolhfを提案する。 具体的には、MollHFはまずマルチスケールアーキテクチャを通して結合を生成し、その後各スケールで粗いグラフ構造に基づいて原子を生成する。 molhfがランダム生成とプロパティ最適化において最先端のパフォーマンスを達成し、データ分散のモデル化能力が高まることを実証する。 さらに、モルHFは100以上の重原子を持つより大きな分子(ポリマー)をモデル化できる最初のフローベースモデルである。 コードとモデルはhttps://github.com/violet-sto/molhfで入手できる。

Molecular de novo design is a critical yet challenging task in scientific fields, aiming to design novel molecular structures with desired property profiles. Significant progress has been made by resorting to generative models for graphs. However, limited attention is paid to hierarchical generative models, which can exploit the inherent hierarchical structure (with rich semantic information) of the molecular graphs and generate complex molecules of larger size that we shall demonstrate to be difficult for most existing models. The primary challenge to hierarchical generation is the non-differentiable issue caused by the generation of intermediate discrete coarsened graph structures. To sidestep this issue, we cast the tricky hierarchical generation problem over discrete spaces as the reverse process of hierarchical representation learning and propose MolHF, a new hierarchical flow-based model that generates molecular graphs in a coarse-to-fine manner. Specifically, MolHF first generates bonds through a multi-scale architecture, then generates atoms based on the coarsened graph structure at each scale. We demonstrate that MolHF achieves state-of-the-art performance in random generation and property optimization, implying its high capacity to model data distribution. Furthermore, MolHF is the first flow-based model that can be applied to model larger molecules (polymer) with more than 100 heavy atoms. The code and models are available at https://github.com/violet-sto/MolHF.
翻訳日:2023-05-16 15:20:52 公開日:2023-05-15
# 抽象的多文書要約のための階層的符号化復号法

A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document Summarization ( http://arxiv.org/abs/2305.08503v1 )

ライセンス: Link先を確認
Chenhui Shen, Liying Cheng, Yang You, Lidong Bing(参考訳) 事前学習言語モデル(PLM)は、抽象的な単一文書要約(SDS)において素晴らしい成果を上げている。 しかし、そのような利点は、文書間の相互作用がより複雑であるmuti-document summarization(mds)に簡単には拡張できない。 以前の作業では、MDSのための新しいアーキテクチャや新しい事前学習対象を設計するか、複雑なドキュメントの相互作用を考慮せずにPLMをMDSに適用する。 前者は以前の事前訓練をフルに利用せず、複数のドメインにまたがってうまく一般化できないが、後者はmdsタスク特有の複雑な関係に完全には従えない。 本稿では,エンコーダとデコーダの両方に階層構造を適用し,MDSタスクのマルチドキュメントインタラクションを容易にするために,PLMをよりよく活用することを目的とする。 私たちは、幅広いドメインにわたる10のmdsデータセットで設計をテストします。 大規模な実験により,提案手法はこれらのデータセットに対して一貫した改善を達成でき,過去の最高のモデルよりも優れており,MDS事前学習またはより大きなモデルパラメータを付加したモデルと比較して,優れた,あるいは競争的な結果を得ることができることが示された。

Pre-trained language models (PLMs) have accomplished impressive achievements in abstractive single-document summarization (SDS). However, such benefits may not be readily extended to muti-document summarization (MDS), where the interactions among documents are more complex. Previous works either design new architectures or new pre-training objectives for MDS, or apply PLMs to MDS without considering the complex document interactions. While the former does not make full use of previous pre-training efforts and may not generalize well across multiple domains, the latter cannot fully attend to the intricate relationships unique to MDS tasks. In this paper, we enforce hierarchy on both the encoder and decoder and seek to make better use of a PLM to facilitate multi-document interactions for the MDS task. We test our design on 10 MDS datasets across a wide range of domains. Extensive experiments show that our proposed method can achieve consistent improvements on all these datasets, outperforming the previous best models, and even achieving better or competitive results as compared to some models with additional MDS pre-training or larger model parameters.
翻訳日:2023-05-16 15:13:07 公開日:2023-05-15
# MeeQA: 会議での自然な質問

MeeQA: Natural Questions in Meeting Transcripts ( http://arxiv.org/abs/2305.08502v1 )

ライセンス: Link先を確認
Reut Apel, Tom Braude, Amir Kantor, Eyal Kolman(参考訳) 本稿では,自然言語による質問応答のデータセットであるMeeQAについて述べる。 参加者がミーティング中に質問する本当の質問も含んでいる。 データセットには48Kの質問応答ペアが含まれており、複数のドメインにまたがる422のミーティングトランスクリプトから抽出されている。 書き起こしの質問は常に明確ではなく、回答を得るためにかなりの文脈が必要となるため、特別な課題となる。 さらに、会議中に質問された多くの質問は未回答のままである。 このタイプの質問に対するベースラインモデル性能を改善するために,テキストに答えのない質問に対する性能向上を目的とした新しい損失関数 \emph{Flat Hierarchical Loss} を提案する。 我々の実験は、標準的なQAモデルよりも我々のアプローチを使うことの利点を実証している。

We present MeeQA, a dataset for natural-language question answering over meeting transcripts. It includes real questions asked during meetings by its participants. The dataset contains 48K question-answer pairs, extracted from 422 meeting transcripts, spanning multiple domains. Questions in transcripts pose a special challenge as they are not always clear, and considerable context may be required in order to provide an answer. Further, many questions asked during meetings are left unanswered. To improve baseline model performance on this type of questions, we also propose a novel loss function, \emph{Flat Hierarchical Loss}, designed to enhance performance over questions with no answer in the text. Our experiments demonstrate the advantage of using our approach over standard QA models.
翻訳日:2023-05-16 15:12:46 公開日:2023-05-15
# ラベル平滑化はモデルの誤特定に対するロバスト化である

Label Smoothing is Robustification against Model Misspecification ( http://arxiv.org/abs/2305.08501v1 )

ライセンス: Link先を確認
Ryoya Yamasaki, Toshiyuki Tanaka(参考訳) label smoothing (ls) は分類タスクにおいて滑らかなターゲットを採用する。 例えば、二項分類では、従来のロジスティック回帰(LR)で使用される1ホットターゲット$(1,0)^\top$の代わりに、LS (LSLR) のLRは滑らかなターゲット $(1-\frac{\alpha}{2},\frac{\alpha}{2})^\top$ を、滑らかなレベル $\alpha\in(0,1)$ で使用する。 不整合確率推定器につながるLSの共通正規化に基づく解釈とは別に、LSLRは損失関数の修正と確率推定のための一貫した推定器とみなす。 LSLRによるこれらの2つの修正の意義を研究するため,LSLRと同じ損失関数とLRと同じ一貫した推定器を用いた改良LSLR(MLSLR)を導入する。 損失関数の修正については,MLSLRのスムージングレベルが大きくなると,モデルが正しく特定されたモデルでは効率が低下することが理論的に示されている。 また、確率推定器の修正について、LSLRとMLSLRの実験的比較により、LSLRにおけるロジットの修正とスクイーズが確率推定と分類性能に悪影響を及ぼすことを示した。 これらの比較によって提供されるLSの特性の理解により、LSLRよりも優れたMLSLRを提案することができる。

Label smoothing (LS) adopts smoothed targets in classification tasks. For example, in binary classification, instead of the one-hot target $(1,0)^\top$ used in conventional logistic regression (LR), LR with LS (LSLR) uses the smoothed target $(1-\frac{\alpha}{2},\frac{\alpha}{2})^\top$ with a smoothing level $\alpha\in(0,1)$, which causes squeezing of values of the logit. Apart from the common regularization-based interpretation of LS that leads to an inconsistent probability estimator, we regard LSLR as modifying the loss function and consistent estimator for probability estimation. In order to study the significance of each of these two modifications by LSLR, we introduce a modified LSLR (MLSLR) that uses the same loss function as LSLR and the same consistent estimator as LR, while not squeezing the logits. For the loss function modification, we theoretically show that MLSLR with a larger smoothing level has lower efficiency with correctly-specified models, while it exhibits higher robustness against model misspecification than LR. Also, for the modification of the probability estimator, an experimental comparison between LSLR and MLSLR showed that this modification and squeezing of the logits in LSLR have negative effects on the probability estimation and classification performance. The understanding of the properties of LS provided by these comparisons allows us to propose MLSLR as an improvement over LSLR.
翻訳日:2023-05-16 15:12:36 公開日:2023-05-15
# コンテクスト化コモンセンス知識グラフの類似度重み付き構築

Similarity-weighted Construction of Contextualized Commonsense Knowledge Graphs for Knowledge-intense Argumentation Tasks ( http://arxiv.org/abs/2305.08495v1 )

ライセンス: Link先を確認
Moritz Plenz, Juri Opitz, Philipp Heinisch, Philipp Cimiano, Anette Frank(参考訳) 議論はしばしば、結論が前提からどのように従うかを明確にしない。 この不足を補うために、構造化された背景知識で議論を豊かにし、知識センスの議論タスクを支援する。 本稿では,大規模知識グラフ(KG)から文脈関連知識を効率よく,高品質に選択する,文脈対応コモンセンス知識グラフ(CCKG)を構築するための教師なし手法を提案する。 kgトリプレットとテキスト引数間の意味的類似性を計算することにより,文脈非依存な知識抽出ヒューリスティックを超越した。 これらの三重項類似性を重みとして、結論を前提と結びつける文脈的知識パスを抽出し、議論との類似性を最大化する。 CCKGに複数の経路を組み合わせることで、ノイズを低減し精度を高めることができます。 本手法は,人間の説明グラフを(再)構築するのに有効であることを示す。 大規模知識選択装置のマニュアル評価により,CCKGにおける暗黙的CSKの高精度なリコールと精度が確認された。 最後に,知識に敏感な議論品質評価タスクにおけるcckgの有効性を実証し,強力なベースラインを上回り,gpt-3ベースのシステムと比較した。

Arguments often do not make explicit how a conclusion follows from its premises. To compensate for this lack, we enrich arguments with structured background knowledge to support knowledge-intense argumentation tasks. We present a new unsupervised method for constructing Contextualized Commonsense Knowledge Graphs (CCKGs) that selects contextually relevant knowledge from large knowledge graphs (KGs) efficiently and at high quality. Our work goes beyond context-insensitive knowledge extraction heuristics by computing semantic similarity between KG triplets and textual arguments. Using these triplet similarities as weights, we extract contextualized knowledge paths that connect a conclusion to its premise, while maximizing similarity to the argument. We combine multiple paths into a CCKG that we optionally prune to reduce noise and raise precision. Intrinsic evaluation of the quality of our graphs shows that our method is effective for (re)constructing human explanation graphs. Manual evaluations in a large-scale knowledge selection setup confirm high recall and precision of implicit CSK in the CCKGs. Finally, we demonstrate the effectiveness of CCKGs in a knowledge-insensitive argument quality rating task, outperforming strong baselines and rivaling a GPT-3 based system.
翻訳日:2023-05-16 15:11:59 公開日:2023-05-15
# Creative Data Generation: テキストと詩を中心にしたレビュー

Creative Data Generation: A Review Focusing on Text and Poetry ( http://arxiv.org/abs/2305.08493v1 )

ライセンス: Link先を確認
Mohamad Elzohbi, Richard Zhao(参考訳) 機械学習の急速な進歩は、自動データ生成の急増につながり、自然データと人間データと機械データとの区別がますます困難になっている。 こうした進歩にもかかわらず、創造的なデータの生成は依然として課題である。 本稿では,自然言語生成の文脈において,創造性の本質を概観し,理解することを目的とする。 創造的な筆記装置やタスクに対する様々なアプローチを,詩の生成に特化しながら検討する。 創造的なデータ生成の分野での課題と機会に光を当てることを目指しています。

The rapid advancement in machine learning has led to a surge in automatic data generation, making it increasingly challenging to differentiate between naturally or human-generated data and machine-generated data. Despite these advancements, the generation of creative data remains a challenge. This paper aims to investigate and comprehend the essence of creativity, both in general and within the context of natural language generation. We review various approaches to creative writing devices and tasks, with a specific focus on the generation of poetry. We aim to shed light on the challenges and opportunities in the field of creative data generation.
翻訳日:2023-05-16 15:11:37 公開日:2023-05-15
# 児童データ保護規則と保護ガイドラインによるandroidアプリケーションの適合性について

On the conformance of Android applications with children's data protection regulations and safeguarding guidelines ( http://arxiv.org/abs/2305.08492v1 )

ライセンス: Link先を確認
Ricardo Lopes and Vinh Thong Ta and Yannis Korkontzelos(参考訳) オンライン技術が急速に発展し、子どもの間で携帯電話の普及が進み、インターネットの安全を守ることが不可欠である。 一部の研究では、オンライン虐待とインシデントが子供のメンタルヘルスと発達に悪影響を及ぼすと報告されている。 本稿では,androidアプリケーション(開発者)が子どものデータ保護に関する規則(一般データ保護規則(gdpr)など)と子どものオンライン保護ガイドラインにどのように従っているかを検討する。 調査の結果,非準拠アプリの数はまだ大きいことがわかった。 子ども向けのアプリでさえ、必ずしも法律やガイダンスに準拠していない。 このコンプライアンスの欠如は、子供に身体的または精神的な危害をもたらす道を作るのに寄与する。 次に、コンプライアンス検証の自動化と、オープンな質問、課題、可能なアプローチと方向性を含むオンライン安全リスクアセスメントとの関連について論じる。

With the rapid development of online technologies and the widespread usage of mobile phones among children, it is crucial to protect their online safety. Some studies reported that online abuse and incidents negatively affect children's mental health and development. In this paper, we examine how Android applications (developers) follow the regulations related to children's data protection (e.g., in the General Data Protection Regulation (GDPR)) and children's online safeguarding guidelines. Our findings show that the number of non-compliant apps is still significant. Even the apps designed for children do not always comply with legislation or guidance. This lack of compliance could contribute to creating a path to causing physical or mental harm to children. We then discuss the relevance of automating the compliance verification and online safety risk assessment, including open questions, challenges, and possible approaches and directions.
翻訳日:2023-05-16 15:11:29 公開日:2023-05-15
# 弱教師付き意味セグメンテーションのためのマスキング協調コントラスト

Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.08491v1 )

ライセンス: Link先を確認
Fangwen Wu, Jingxuan He, Lechao Cheng, Yufei Yin, Yanbin Hao, Gang Huang(参考訳) 本研究では,弱教師付きセマンティックセマンティックセグメンテーションにおける意味領域を強調するため,Masked Collaborative Contrast (MCC) を提案する。 MCCはマスク付き画像モデリングやコントラスト学習の概念を巧みに取り入れて、意味論的に関連する領域にキーを割り当てるTransformerブロックを考案している。 マスク生成時に入力画像のパッチ領域を直接消去する一般的な手法とは異なり,アフィニティ行列のキーを考慮したマスクを探索することにより,パッチトークンの近傍関係を精査する。 さらに,マスキングローカルアウトプットを活用し,グローバルアウトプットと対比することにより,対照学習において正負のサンプルを生成する。 一般的に使用されるデータセットに関する実験により、提案されたMCCメカニズムが画像内のグローバルとローカルの視点を効果的に整合させ、印象的なパフォーマンスを実現することが証明された。

This study introduces an efficacious approach, Masked Collaborative Contrast (MCC), to emphasize semantic regions in weakly supervised semantic segmentation. MCC adroitly incorporates concepts from masked image modeling and contrastive learning to devise Transformer blocks that induce keys to contract towards semantically pertinent regions. Unlike prevalent techniques that directly eradicate patch regions in the input image when generating masks, we scrutinize the neighborhood relations of patch tokens by exploring masks considering keys on the affinity matrix. Moreover, we generate positive and negative samples in contrastive learning by utilizing the masked local output and contrasting it with the global output. Elaborate experiments on commonly employed datasets evidences that the proposed MCC mechanism effectively aligns global and local perspectives within the image, attaining impressive performance.
翻訳日:2023-05-16 15:11:13 公開日:2023-05-15
# taxi1500: 1500言語におけるテキスト分類のための多言語データセット

Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages ( http://arxiv.org/abs/2305.08487v1 )

ライセンス: Link先を確認
Chunlan Ma, Ayyoob ImaniGooghari, Haotian Ye, Ehsaneddin Asgari and Hinrich Sch\"utze(参考訳) 自然言語処理ツールは世界の一部の言語で広く開発されているが、世界の7000以上の言語の大部分はいまだに無視されている。 この理由の1つは、評価データセットが低リソースや絶滅危惧言語を含む幅広い言語をまだカバーしていないことである。 私たちは、多くの言語を包含するテキスト分類データセットを作成してこの問題に対処したいと思っています。 まず適切なトピックを開発し,注釈付きデータを集めるためにクラウドソーシングツールを使用することで,聖書の並列翻訳を利用してこのようなデータセットを構築する。 データの英語側をアノテートし,ラベルを他の言語にアライメントすることで,1500以上の言語を対象としたテキスト分類データセットを生成する。 データセットを用いて既存の多言語言語モデルを広範囲にベンチマークする。 この分野での研究の進展を促進するため、データセットとコードをリリースします。

While natural language processing tools have been developed extensively for some of the world's languages, a significant portion of the world's over 7000 languages are still neglected. One reason for this is that evaluation datasets do not yet cover a wide range of languages, including low-resource and endangered ones. We aim to address this issue by creating a text classification dataset encompassing a large number of languages, many of which currently have little to no annotated data available. We leverage parallel translations of the Bible to construct such a dataset by first developing applicable topics and employing a crowdsourcing tool to collect annotated data. By annotating the English side of the data and projecting the labels onto other languages through aligned verses, we generate text classification datasets for more than 1500 languages. We extensively benchmark several existing multilingual language models using our dataset. To facilitate the advancement of research in this area, we will release our dataset and code.
翻訳日:2023-05-16 15:10:56 公開日:2023-05-15
# QAOAアルゴリズムとHHLアルゴリズムを組み合わせることでユニットコミット問題に対する実質量子スピードアップを実現する

Combining the QAOA and HHL Algorithm to achieve a Substantial Quantum Speedup for the Unit Commitment Problem ( http://arxiv.org/abs/2305.08482v1 )

ライセンス: Link先を確認
Jonas Stein, Jezer Jojo, Afrah Farea, David Bucher, Philipp Altmann, Claudia Linnhoff-Popien(参考訳) 本稿では,既存の古典的手法よりも少なくとも立方的に高速に単位コミットメント(uc)問題を解く量子アルゴリズムを提案する。 これは、QAOAルーチン内のHHLアルゴリズムを用いてエネルギー伝達コストを計算することで達成される。 量子回路シミュレータを用いた小ケーススタディにおいて,本研究を実験的に検証した。 さらに, 与えられた解のコスト関数を計算するために, 方程式の線形系を解くことを要求する大規模な最適化問題に対して, このアルゴリズムで開発された概念の適用性を仮定する。

In this paper, we propose a quantum algorithm to solve the unit commitment (UC) problem at least cubically faster than existing classical approaches. This is accomplished by calculating the energy transmission costs using the HHL algorithm inside a QAOA routine. We verify our findings experimentally using quantum circuit simulators in a small case study. Further, we postulate the applicability of the concepts developed for this algorithm to be used for a large class of optimization problems that demand solving a linear system of equations in order to calculate the cost function for a given solution.
翻訳日:2023-05-16 15:10:40 公開日:2023-05-15
# 大規模タスク指向コミュニケーション設計

Task-Oriented Communication Design at Scale ( http://arxiv.org/abs/2305.08481v1 )

ライセンス: Link先を確認
Arsham Mostaani, Thang X. Vu, Hamed Habibi, Symeon Chatzinotas, Bjorn Ottersten(参考訳) IoTや業界 4.0 などさまざまな分野の有望なアプリケーションが数え切れないほどあることから,タスク指向通信設計 (TOCD) が研究コミュニティから注目を集めている。 本稿では、協調型マルチエージェントシステム(MAS)におけるスケーラブルなタスク指向量子化と通信を設計するための新しいアプローチを提案する。 提案手法はTOCDフレームワークと情報量(VoI)の概念を用いて,MASのタスク効率を定量化するパラメータであるMASの平均戻り性能を最大化しながら,エージェント間の量子化観測の効率的な通信を可能にする。 しかし、voiを学習する計算の複雑さはエージェントの数で指数関数的に増加する。 そこで我々は3段階の枠組みを提案する。 一 複エージェントシステムのためのVoI(強化学習(RL)を用いて)を学ぶこと。 二 学習したVoIをビット予算の範囲に用いて、N$エージェントMASの量子化ポリシーを設計すること。 三 初期段階において設計した量子化政策に従いながら、RLを用いてエージェントの制御方針を学習すること。 従来の$N$-agentシステムではなく、類似の2エージェントシステムから得られる洞察を活用することで、情報の価値を得るための計算コストを削減できることを観察する。 次に、エージェントの観測を定量化し、より価値のある観測をより正確に伝達する。 分析の結果,提案手法の適用性は広範囲に及んだ。 数値計算の結果,MAS問題におけるTOCDに必要なVoI取得の計算複雑性を,MASの平均回帰性能を損なうことなく大幅に改善した。

With countless promising applications in various domains such as IoT and industry 4.0, task-oriented communication design (TOCD) is getting accelerated attention from the research community. This paper presents a novel approach for designing scalable task-oriented quantization and communications in cooperative multi-agent systems (MAS). The proposed approach utilizes the TOCD framework and the value of information (VoI) concept to enable efficient communication of quantized observations among agents while maximizing the average return performance of the MAS, a parameter that quantifies the MAS's task effectiveness. The computational complexity of learning the VoI, however, grows exponentially with the number of agents. Thus, we propose a three-step framework: i) learning the VoI (using reinforcement learning (RL)) for a two-agent system, ii) designing the quantization policy for an $N$-agent MAS using the learned VoI for a range of bit-budgets and, (iii) learning the agents' control policies using RL while following the designed quantization policies in the earlier step. We observe that one can reduce the computational cost of obtaining the value of information by exploiting insights gained from studying a similar two-agent system - instead of the original $N$-agent system. We then quantize agents' observations such that their more valuable observations are communicated more precisely. Our analytical results show the applicability of the proposed framework under a wide range of problems. Numerical results show striking improvements in reducing the computational complexity of obtaining VoI needed for the TOCD in a MAS problem without compromising the average return performance of the MAS.
翻訳日:2023-05-16 15:10:30 公開日:2023-05-15
# テキスト型財務予測モデルにおける一貫性の測定

Measuring Consistency in Text-based Financial Forecasting Models ( http://arxiv.org/abs/2305.08524v1 )

ライセンス: Link先を確認
Linyi Yang, Yingpeng Ma, Yue Zhang(参考訳) 金融予測は機械学習研究の重要かつ活発な領域であり、予測精度の最も控えめな優位性でさえも、大きな財政的利益に該当する可能性がある。 自然言語処理(NLP)の最近の進歩は、公開企業からの決算報告などのテキストデータを活用して資産の返却率を予測する機会をもたらす。 しかし、そのようなセンシティブなタスクを扱う場合、モデルの一貫性 -- 入力における意味保存的な交替の下での不変性 -- は、ユーザの信頼を構築する上で重要な特性である。 しかし、現在の財務予測手法では一貫性は考慮されていない。 この問題に対処するため,ファイナンシャルテキストにおける論理的一貫性を評価する評価ツールFinTrustを提案する。 FinTrustを用いて、金融予測のための最先端NLPモデルの一貫性が低いことを示す。 意味保存による性能劣化の分析は,現在のテキストベースの手法が市場情報の堅牢な予測に適していないことを示唆している。 すべてのリソースはgithubから入手できる。

Financial forecasting has been an important and active area of machine learning research, as even the most modest advantage in predictive accuracy can be parlayed into significant financial gains. Recent advances in natural language processing (NLP) bring the opportunity to leverage textual data, such as earnings reports of publicly traded companies, to predict the return rate for an asset. However, when dealing with such a sensitive task, the consistency of models -- their invariance under meaning-preserving alternations in input -- is a crucial property for building user trust. Despite this, current financial forecasting methods do not consider consistency. To address this problem, we propose FinTrust, an evaluation tool that assesses logical consistency in financial text. Using FinTrust, we show that the consistency of state-of-the-art NLP models for financial forecasting is poor. Our analysis of the performance degradation caused by meaning-preserving alternations suggests that current text-based methods are not suitable for robustly predicting market information. All resources are available on GitHub.
翻訳日:2023-05-16 15:04:06 公開日:2023-05-15
# 動的シーングラフ生成のためのクロスモダリティ時変関係学習

Cross-Modality Time-Variant Relation Learning for Generating Dynamic Scene Graphs ( http://arxiv.org/abs/2305.08522v1 )

ライセンス: Link先を確認
Jingyi Wang, Jinfa Huang, Can Zhang, and Zhidong Deng(参考訳) ビデオクリップから生成される動的シーングラフは、環境認識、自律ナビゲーション、自動運転車や移動ロボットのタスク計画など、幅広い課題におけるセマンティックな視覚的理解を強化するのに役立つだろう。 動的シーングラフ生成における時間的・空間的モデリングの過程において,フレーム間の動的シーングラフの時間変動関係を学習することは特に困難である。 本稿では,動的シーングラフにおける関係の時間変化をモデル化することを目的とした,時間変動型関係対応TRansformer(TR$^2$)を提案する。 明示的に,関係ラベルに関する指示文のテキスト埋め込みの差異を関係の監督信号として活用する。 このようにして、時間変化関係の学習のためのクロスモダリティ特徴指導を実現する。 本報告では,隣接するフレーム間の差分を記述したトランスフォーマーと付加メッセージトークンを備えた関係特徴融合モジュールを設計する。 Action Genomeデータセットの大規模な実験により、TR$^2$が時間変動関係を効果的にモデル化できることが証明された。 TR$^2$は2つの異なる設定で、それぞれ2.1%と2.6%で、従来の最先端メソッドを著しく上回る。

Dynamic scene graphs generated from video clips could help enhance the semantic visual understanding in a wide range of challenging tasks such as environmental perception, autonomous navigation, and task planning of self-driving vehicles and mobile robots. In the process of temporal and spatial modeling during dynamic scene graph generation, it is particularly intractable to learn time-variant relations in dynamic scene graphs among frames. In this paper, we propose a Time-variant Relation-aware TRansformer (TR$^2$), which aims to model the temporal change of relations in dynamic scene graphs. Explicitly, we leverage the difference of text embeddings of prompted sentences about relation labels as the supervision signal for relations. In this way, cross-modality feature guidance is realized for the learning of time-variant relations. Implicitly, we design a relation feature fusion module with a transformer and an additional message token that describes the difference between adjacent frames. Extensive experiments on the Action Genome dataset prove that our TR$^2$ can effectively model the time-variant relations. TR$^2$ significantly outperforms previous state-of-the-art methods under two different settings by 2.1% and 2.6% respectively.
翻訳日:2023-05-16 15:03:48 公開日:2023-05-15
# 操作法によるワンショットエントロピー量の連鎖規則

Chain rules for one-shot entropic quantities via operational methods ( http://arxiv.org/abs/2305.08521v1 )

ライセンス: Link先を確認
Sayantan Chakraborty, Upendra Kapshikar(参考訳) 一般情報理論量に対する連鎖規則の導出のための新しい操作手法を提案する。 この手法は、sdpの定式化や作用素代数、あるいはノルム補間といった一般的な(そしてかなり関係のある)手法とは大きく異なる。 その代わり、フレームワークは単純な情報伝達タスクを検討し、それに対する下界と上界を得る。 下限は、逐次キャンセル符号化および復号技術を利用して得られる。 上界と下界を互いに挟むと、所望の連鎖規則が得られる。 この手法の実証として,スムースマックス相互情報とスムースハイポテーゼテスト相互情報の連鎖規則を導出する。

We introduce a new operational technique for deriving chain rules for general information theoretic quantities. This technique is very different from the popular (and in some cases fairly involved) methods like SDP formulation and operator algebra or norm interpolation. Instead, our framework considers a simple information transmission task and obtains lower and upper bounds for it. The lower bounds are obtained by leveraging a successive cancellation encoding and decoding technique. Pitting the upper and lower bounds against each other gives us the desired chain rule. As a demonstration of this technique, we derive chain rules for the smooth max mutual information and the smooth-Hypothesis testing mutual information.
翻訳日:2023-05-16 15:03:30 公開日:2023-05-15
# beqi: 頑健な綴り修正子でセネガル語のwolof言語を活性化する

Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling Corrector ( http://arxiv.org/abs/2305.08518v1 )

ライセンス: Link先を確認
Derguene Mbaye, Moussa Diallo(参考訳) 自然言語処理(NLP)の進歩は、近年は速いが、すべての言語で同じペースで進行しているわけではない。 特にアフリカの言語はまだ残っており、自動処理ツールが欠けている。 これらのツールの一部は、これらの言語の開発において非常に重要であるが、多くのNLPアプリケーションにおいて重要な役割を果たしている。 これは特に自動スペルチェッカーの場合である。 この課題に対処するためにいくつかのアプローチが研究され、誤り(ノイズ)テキストから適切な(正しい)テキストへの翻訳タスクとしてスペル補正をモデル化する手法が有望な結果を示している。 しかし、このアプローチではノイズの多いデータの並列コーパスと正しいデータが必要であり、一方でwolofは低リソース言語であり、そのようなコーパスを持っていない。 本稿では、合成データを生成することによってデータの欠如に関連する制約に対処し、Wolofのスペル訂正にDeep Learningを用いたシーケンス・ツー・シーケンス・モデルを提案する。 我々はこれらのモデルを,データに適用したサブワード法によって3つのシナリオで評価し,後者がモデルの性能に有意な影響を与え,Wolofスペル補正の今後の研究の道を開くことを示した。

The progress of Natural Language Processing (NLP), although fast in recent years, is not at the same pace for all languages. African languages in particular are still behind and lack automatic processing tools. Some of these tools are very important for the development of these languages but also have an important role in many NLP applications. This is particularly the case for automatic spell checkers. Several approaches have been studied to address this task and the one modeling spelling correction as a translation task from misspelled (noisy) text to well-spelled (correct) text shows promising results. However, this approach requires a parallel corpus of noisy data on the one hand and correct data on the other hand, whereas Wolof is a low-resource language and does not have such a corpus. In this paper, we present a way to address the constraint related to the lack of data by generating synthetic data and we present sequence-to-sequence models using Deep Learning for spelling correction in Wolof. We evaluated these models in three different scenarios depending on the subwording method applied to the data and showed that the latter had a significant impact on the performance of the models, which opens the way for future research in Wolof spelling correction.
翻訳日:2023-05-16 15:03:20 公開日:2023-05-15
# ハイパースペクトル画像の比スペクトル圧縮のための生成逆ネットワーク

Generative Adversarial Networks for Spatio-Spectral Compression of Hyperspectral Images ( http://arxiv.org/abs/2305.08514v1 )

ライセンス: Link先を確認
Akshara Preethy Byju, Martin Hermann Paul Fuchs, Alisa Walda, Beg\"um Demir(参考訳) 深層学習に基づく画像圧縮手法は,従来のコーデックに比べて高速な歪み性能を実現している。 近年、GAN(Generative Adversarial Networks)ベースの圧縮モデル、例えばHiFiC(High Fidelity Compression)がコンピュータビジョンコミュニティで注目を集めている。 しかし,これらの研究の多くは空間圧縮のみを目的としており,高スペクトル像(HSIs)で観察される時空間冗長性は考慮していない。 この問題に対処するため,本稿では空間圧縮モデルを用いてhsisの空間スペクトル圧縮を行う。 この目的のために 2つの新しいモデルを紹介します i) HiFiC using Squeeze and Excitation (SE) block (denoted as HiFiC$_{SE}$); そして 二 三次元畳み込みを有するHiFiC(HiFiC$_{3D}$と表記する) チャネルアテンションと依存性間分析によるスペクトル冗長性を利用したHiFiC$_{SE}$とHiFiC$_{3D}$の有効性を解析した。 実験結果から,jpeg 2000や標準hific空間圧縮モデルと比較して,ビットレートの低減と高い再構成品質で空間スペクトル圧縮および再構成を行う際に,提案モデルの有効性が示された。 提案されたモデルのコードはhttps://git.tu-berlin.de/rsim/HSI-SSC で公開されている。

Deep learning-based image compression methods have led to high rate-distortion performances compared to traditional codecs. Recently, Generative Adversarial Networks (GANs)-based compression models, e.g., High Fidelity Compression (HiFiC), have attracted great attention in the computer vision community. However, most of these works aim for spatial compression only and do not consider the spatio-spectral redundancies observed in hyperspectral images (HSIs). To address this problem, in this paper, we adapt the HiFiC spatial compression model to perform spatio-spectral compression of HSIs. To this end, we introduce two new models: i) HiFiC using Squeeze and Excitation (SE) blocks (denoted as HiFiC$_{SE}$); and ii) HiFiC with 3D convolutions (denoted as HiFiC$_{3D}$). We analyze the effectiveness of HiFiC$_{SE}$ and HiFiC$_{3D}$ in exploiting the spatio-spectral redundancies with channel attention and inter-dependency analysis. Experimental results show the efficacy of the proposed models in performing spatio-spectral compression and reconstruction at reduced bitrates and higher reconstruction quality when compared to JPEG 2000 and the standard HiFiC spatial compression model. The code of the proposed models is publicly available at https://git.tu-berlin.de/rsim/HSI-SSC .
翻訳日:2023-05-16 15:02:58 公開日:2023-05-15
# SATを用いた記述論理概念のPAC学習

SAT-Based PAC Learning of Description Logic Concepts ( http://arxiv.org/abs/2305.08511v1 )

ライセンス: Link先を確認
Balder ten Cate, Maurice Funk, Jean Christoph Jung, Carsten Lutz(参考訳) オントロジーの存在下で記述論理の概念を学ぶためのスキームとして有界適合を提案する。 主な利点は、結果の学習アルゴリズムは、PAC学習の意味で見つからない例に一般化に関する理論的保証を与えることである。 対照的に、他のいくつかの自然学習アルゴリズムは、そのような保証を提供していないことを証明します。 さらに,SATソルバをベースとした記述論理$\mathcal{ELH}^r$のバウンドフィッティングを効率的に実装し,その性能を最先端の学習者と比較するシステムSPELLを提案する。

We propose bounded fitting as a scheme for learning description logic concepts in the presence of ontologies. A main advantage is that the resulting learning algorithms come with theoretical guarantees regarding their generalization to unseen examples in the sense of PAC learning. We prove that, in contrast, several other natural learning algorithms fail to provide such guarantees. As a further contribution, we present the system SPELL which efficiently implements bounded fitting for the description logic $\mathcal{ELH}^r$ based on a SAT solver, and compare its performance to a state-of-the-art learner.
翻訳日:2023-05-16 15:02:37 公開日:2023-05-15
# 野生視覚ナビゲーションのための高速トラバーサビリティ推定

Fast Traversability Estimation for Wild Visual Navigation ( http://arxiv.org/abs/2305.08510v1 )

ライセンス: Link先を確認
Jonas Frey and Matias Mattamala and Nived Chebrolu and Cesar Cadena and Maurice Fallon and Marco Hutter(参考訳) 森林や草原などの自然環境は、高い草や小枝、茂みからの障害物を誤認識しているため、ロボットの航行には困難である。 本研究では,視覚のみを用いたトラバーサビリティ推定のためのオンライン自己教師型学習システムWild Visual Navigation (WVN)を提案する。 このシステムは、現場での短い人間のデモから継続的に適応することができる。 自己監督型ビジュアルトランスフォーマーモデルの高次元機能を活用し、ロボット上でリアルタイムで実行される監視生成のためのオンラインスキームを利用する。 森林,公園,草原における挑戦的環境における実験およびアブレーション実験により,本手法の利点を実証する。 我々のシステムは、移動可能な地形セグメンテーションを5分未満のフィールドトレーニング時間でブートストラップすることができ、ロボットは複雑な屋外の地形をナビゲートすることができる。 実験は四足歩行ロボットANYmalで行われましたが、提案したアプローチはどんな地上ロボットにも一般化できます。

Natural environments such as forests and grasslands are challenging for robotic navigation because of the false perception of rigid obstacles from high grass, twigs, or bushes. In this work, we propose Wild Visual Navigation (WVN), an online self-supervised learning system for traversability estimation which uses only vision. The system is able to continuously adapt from a short human demonstration in the field. It leverages high-dimensional features from self-supervised visual transformer models, with an online scheme for supervision generation that runs in real-time on the robot. We demonstrate the advantages of our approach with experiments and ablation studies in challenging environments in forests, parks, and grasslands. Our system is able to bootstrap the traversable terrain segmentation in less than 5 min of in-field training time, enabling the robot to navigate in complex outdoor terrains - negotiating obstacles in high grass as well as a 1.4 km footpath following. While our experiments were executed with a quadruped robot, ANYmal, the approach presented can generalize to any ground robot.
翻訳日:2023-05-16 15:02:26 公開日:2023-05-15
# 調整可能・論理的産業視覚検査のためのコンポーネント認識異常検出フレームワーク

Component-aware anomaly detection framework for adjustable and logical industrial visual inspection ( http://arxiv.org/abs/2305.08509v1 )

ライセンス: Link先を確認
Tongkun Liu, Bing Li, Xiao Du, Bingke Jiang, Xiao Jin, Liuyi Jin, Zhuo Zhao(参考訳) 産業視覚検査は製造工程中の製品の表面欠陥を検出することを目的としている。 既存の異常検出モデルは、多くの公開ベンチマークで優れたパフォーマンスを示しているが、その限定的な調整性と論理的異常を検出する能力は、現実の環境での利用を妨げている。 そこで本研究では,産業シナリオに対する適応性および論理的異常検出を同時に実現する新しいコンポーネント認識異常検出フレームワーク(ComAD)を提案する。 具体的には,軽量でほぼトレーニング不要な非教師なしセマンティクスセグメンテーションモデルに基づいて,画像を複数のコンポーネントに分割することを提案する。 そして,各コンポーネントの気象特性とその関係をモデル化し,解釈可能な論理異常検出モデルを設計する。 そのシンプルさにもかかわらず、我々のフレームワークは画像レベルの論理異常検出における最先端の性能を実現する。 一方、製品イメージを複数のコンポーネントに分割することで、産業用視覚検査の新しい視点を提供し、モデルのカスタマイズ、耐雑音性、異常な分類に大きな可能性を示す。 コードはhttps://github.com/liutongkun/comadで入手できる。

Industrial visual inspection aims at detecting surface defects in products during the manufacturing process. Although existing anomaly detection models have shown great performance on many public benchmarks, their limited adjustability and ability to detect logical anomalies hinder their broader use in real-world settings. To this end, in this paper, we propose a novel component-aware anomaly detection framework (ComAD) which can simultaneously achieve adjustable and logical anomaly detection for industrial scenarios. Specifically, we propose to segment images into multiple components based on a lightweight and nearly training-free unsupervised semantic segmentation model. Then, we design an interpretable logical anomaly detection model through modeling the metrological features of each component and their relationships. Despite its simplicity, our framework achieves state-of-the-art performance on image-level logical anomaly detection. Meanwhile, segmenting a product image into multiple components provides a novel perspective for industrial visual inspection, demonstrating great potential in model customization, noise resistance, and anomaly classification. The code will be available at https://github.com/liutongkun/ComAD.
翻訳日:2023-05-16 15:02:10 公開日:2023-05-15
# サプライチェーンのレジリエンスに関するナレッジグラフの視点

A Knowledge Graph Perspective on Supply Chain Resilience ( http://arxiv.org/abs/2305.08506v1 )

ライセンス: Link先を確認
Yushan Liu, Bailan He, Marcel Hildebrandt, Maximilian Buchner, Daniela Inzko, Roger Wernert, Emanuel Weigel, Dagmar Beyer, Martin Berbalk, Volker Tresp(参考訳) 世界的な危機と規制の進展はサプライチェーンの透明性とレジリエンスを高める必要がある。 企業は動的な環境に反応するだけでなく、積極的に行動し、生産遅延を防止し、サプライチェーンのリスクを減らすための措置を講じる必要がある。 しかし、サプライチェーンに関する情報、特に深いレベルでは、しばしば不透明で不完全であり、将来のリスクに関する正確な予測を得ることが困難である。 異なるデータソースを接続することにより、サプライネットワークを知識グラフとしてモデル化し、ティア3サプライヤーへの透明性を実現する。 グラフの欠落情報を予測するために,最先端知識グラフ補完手法を適用し,最良モデルを用いて平均相互ランク 0.4377 を達成する。 さらに,サプライチェーン管理者のリスク自動識別を支援するため,サプライネットワークにおける重要なエンティティの同定にグラフ解析アルゴリズムを適用した。

Global crises and regulatory developments require increased supply chain transparency and resilience. Companies do not only need to react to a dynamic environment but have to act proactively and implement measures to prevent production delays and reduce risks in the supply chains. However, information about supply chains, especially at the deeper levels, is often intransparent and incomplete, making it difficult to obtain precise predictions about prospective risks. By connecting different data sources, we model the supply network as a knowledge graph and achieve transparency up to tier-3 suppliers. To predict missing information in the graph, we apply state-of-the-art knowledge graph completion methods and attain a mean reciprocal rank of 0.4377 with the best model. Further, we apply graph analysis algorithms to identify critical entities in the supply network, supporting supply chain managers in automated risk identification.
翻訳日:2023-05-16 15:01:55 公開日:2023-05-15
# FLARE: フェデレートラーニングに基づくIoTデプロイメントのためのコンセプトドリフトの検出と緩和

FLARE: Detection and Mitigation of Concept Drift for Federated Learning based IoT Deployments ( http://arxiv.org/abs/2305.08504v1 )

ライセンス: Link先を確認
Theo Chow and Usman Raza and Ioannis Mavromatis and Aftab Khan(参考訳) センサー技術、分散学習、組み込みデバイスにおける低消費電力推論の最近の進歩により、インテリジェントで大規模なIoTエコシステムが可能になった。 従来のクラウド中心のアプローチでは、生データはトレーニングと推論のために中央サーバに送信される。 一方、フェデレーション学習は、両方のタスクをエッジノードとエンドポイントに近づける。 これにより、ユーザのプライバシーを維持しながら、データ交換の大幅な削減が可能になる。 しかし、トレーニングされたモデルは、データ分散の変化によって動的環境において過小評価され、モデルが正確に推論する能力に影響を与える可能性がある。 このような漂流は、自然に逆らうこともある。 そのため、このような行動を迅速に検出することが最重要となる。 通信トラフィックを同時に低減し,推論モデルの整合性を維持するため,FLAREは,トレーニングデータを条件付きで転送し,モデルのトレーニング行動と推論統計の観測に基づいて,エッジとセンサのエンドポイント間でモデルをデプロイする,新しい2重スケジューリングFLフレームワークである。 本稿では,エッジノードとセンサノード間のデータ交換量を(5倍以上)固定的スケジューリング法と比較して有意に削減でき,大規模システムでは容易に拡張可能であり,少なくとも16倍のレイテンシ低減で,概念ドリフトをリアクティブに検出できることを示す。

Intelligent, large-scale IoT ecosystems have become possible due to recent advancements in sensing technologies, distributed learning, and low-power inference in embedded devices. In traditional cloud-centric approaches, raw data is transmitted to a central server for training and inference purposes. On the other hand, Federated Learning migrates both tasks closer to the edge nodes and endpoints. This allows for a significant reduction in data exchange while preserving the privacy of users. Trained models, though, may under-perform in dynamic environments due to changes in the data distribution, affecting the model's ability to infer accurately; this is referred to as concept drift. Such drift may also be adversarial in nature. Therefore, it is of paramount importance to detect such behaviours promptly. In order to simultaneously reduce communication traffic and maintain the integrity of inference models, we introduce FLARE, a novel lightweight dual-scheduler FL framework that conditionally transfers training data, and deploys models between edge and sensor endpoints based on observing the model's training behaviour and inference statistics, respectively. We show that FLARE can significantly reduce the amount of data exchanged between edge and sensor nodes compared to fixed-interval scheduling methods (over 5x reduction), is easily scalable to larger systems, and can successfully detect concept drift reactively with at least a 16x reduction in latency.
翻訳日:2023-05-16 15:01:40 公開日:2023-05-15
# 短期軌跡予測のための蒸留知識

Distilling Knowledge for Short-to-Long Term Trajectory Prediction ( http://arxiv.org/abs/2305.08553v1 )

ライセンス: Link先を確認
Sourav Das and Guglielmo Camporese and Lamberto Ballan(参考訳) 長期軌跡予測はコンピュータビジョンと機械学習の分野で難しい問題である。 本稿では,知識蒸留に基づく長期軌跡予測のためのDi-Long(長期軌跡蒸留)と呼ばれる新しい手法を提案する。 本手法では,長期的軌道予測問題を解くために学生ネットワークを訓練するが,知識を蒸留した教師ネットワークは観察期間が長く,生徒の予測を定式化することにより短期的軌道予測問題を解く。 具体的には,教師モデルを用いて,より短い時間軸に対して妥当な軌跡を生成し,その知識を教師モデルからより高い時間軸で問題を解く学生モデルに抽出する。 実験により,提案手法は長期予測に有用であることが確認された。本モデルは,Intersection Drone Dataset (inD) とStanford Drone Dataset (SDD) の最先端性能を実現する。

Long-term trajectory forecasting is a challenging problem in the field of computer vision and machine learning. In this paper, we propose a new method dubbed Di-Long ("Distillation for Long-Term trajectory") for long-term trajectory forecasting, which is based on knowledge distillation. Our approach involves training a student network to solve the long-term trajectory forecasting problem, whereas the teacher network from which the knowledge is distilled has a longer observation, and solves a short-term trajectory prediction problem by regularizing the student's predictions. Specifically, we use a teacher model to generate plausible trajectories for a shorter time horizon, and then distill the knowledge from the teacher model to a student model that solves the problem for a much higher time horizon. Our experiments show that the proposed Di-Long approach is beneficial for long-term forecasting, and our model achieves state-of-the-art performance on the Intersection Drone Dataset (inD) and the Stanford Drone Dataset (SDD).
翻訳日:2023-05-16 14:55:09 公開日:2023-05-15
# 座標ネットワークのための曲率アウェアトレーニング

Curvature-Aware Training for Coordinate Networks ( http://arxiv.org/abs/2305.08552v1 )

ライセンス: Link先を確認
Hemanth Saratchandran, Shin-Fang Chng, Sameera Ramasinghe, Lachlan MacDonald, Simon Lucey(参考訳) コーディネートネットワークは、信号が圧縮された連続的なエンティティとして表現できるため、コンピュータビジョンで広く使われている。 しかし、これらのネットワークをファーストオーダーオプティマイザでトレーニングすることは遅くなり、リアルタイムアプリケーションでの使用が妨げられる。 最近の研究では、より高速なトレーニングを達成するために、浅いvoxelベースの表現を選択しているが、これはメモリ効率を犠牲にしている。 本研究は,2次最適化手法を利用して,圧縮性を維持しながら座標ネットワークのトレーニング時間を著しく短縮する手法を提案する。 実験は、音声、画像、ビデオ、形状再構成、神経放射野などの様々な信号モダリティに対するこのアプローチの有効性を実証する。

Coordinate networks are widely used in computer vision due to their ability to represent signals as compressed, continuous entities. However, training these networks with first-order optimizers can be slow, hindering their use in real-time applications. Recent works have opted for shallow voxel-based representations to achieve faster training, but this sacrifices memory efficiency. This work proposes a solution that leverages second-order optimization methods to significantly reduce training times for coordinate networks while maintaining their compressibility. Experiments demonstrate the effectiveness of this approach on various signal modalities, such as audio, images, videos, shape reconstruction, and neural radiance fields.
翻訳日:2023-05-16 14:54:40 公開日:2023-05-15
# 局所インダクティブバイアス導入による小型データセットにおける視覚トランスフォーマーの性能向上

Enhancing Performance of Vision Transformers on Small Datasets through Local Inductive Bias Incorporation ( http://arxiv.org/abs/2305.08551v1 )

ライセンス: Link先を確認
Ibrahim Batuhan Akkaya, Senthilkumar S. Kathiresan, Elahe Arani, Bahram Zonooz(参考訳) ビジョントランスフォーマー(ViT)は、大規模なデータセットで顕著なパフォーマンスを達成するが、小さなデータセットでスクラッチからトレーニングした場合には、アーキテクチャに局所的な帰納バイアスがないため、畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。 それゆえ、近年の研究はアーキテクチャに局所性を加え、小規模データセットでcnnに匹敵するパフォーマンスを達成するのに役立つことを示した。 しかし、既存の手法はアーキテクチャに特化しているか、計算コストとメモリコストが高い。 そこで本研究では,パッチレベルの局所情報を抽出し,vitsの自己参照ブロックで使用する埋め込みに組み込む,ローカル情報エンハンサー(life)と呼ばれるモジュールを提案する。 提案するモジュールは,メモリと計算の効率が良く,分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。 実験の結果,lifeモジュールの追加により,小型画像分類データセットにおけるvitsの性能が向上した。 さらに、オブジェクト検出やセマンティックセグメンテーションといった下流タスクにその効果をどのように拡張できるかを示す。 さらに,各トークンのアテンションマップを利用したクラス固有のアテンションマップの生成を可能にする,高密度な予測タスクに特化した新しい可視化手法Dense Attention Roll-Outを導入する。

Vision transformers (ViTs) achieve remarkable performance on large datasets, but tend to perform worse than convolutional neural networks (CNNs) when trained from scratch on smaller datasets, possibly due to a lack of local inductive bias in the architecture. Recent studies have therefore added locality to the architecture and demonstrated that it can help ViTs achieve performance comparable to CNNs in the small-size dataset regime. Existing methods, however, are architecture-specific or have higher computational and memory costs. Thus, we propose a module called Local InFormation Enhancer (LIFE) that extracts patch-level local information and incorporates it into the embeddings used in the self-attention block of ViTs. Our proposed module is memory and computation efficient, as well as flexible enough to process auxiliary tokens such as the classification and distillation tokens. Empirical results show that the addition of the LIFE module improves the performance of ViTs on small image classification datasets. We further demonstrate how the effect can be extended to downstream tasks, such as object detection and semantic segmentation. In addition, we introduce a new visualization method, Dense Attention Roll-Out, specifically designed for dense prediction tasks, allowing the generation of class-specific attention maps utilizing the attention maps of all tokens.
翻訳日:2023-05-16 14:54:19 公開日:2023-05-15
# 幾何学的因果性:ファインマン積分を量子アルゴリズムにキャストする

Geometrical causality: casting Feynman integrals into quantum algorithms ( http://arxiv.org/abs/2305.08550v1 )

ライセンス: Link先を確認
German F. R. Sborlini(参考訳) 量子場理論における高階補正の計算は難しい課題である。 特に、マルチループとマルチレッグのファインマン振幅を扱うことは、深刻なボトルネックと計算に必要な計算リソースの非常に高速なスケーリングをもたらす。 これらの限界を克服するために,ループツリーの双対性,明示的な因果表現,基礎となる幾何学的解釈に基づく効率的な戦略について論じる。 具体的には、幾何学的因果選択規則を利用して、基底状態が因果表現に寄与する項に直接関係するハミルトン系を定義する。 このようにして、問題は最小化に変換され、量子コンピュータに実装され、潜在的なスピードアップを探すことができる。

The calculation of higher-order corrections in Quantum Field Theories is a challenging task. In particular, dealing with multiloop and multileg Feynman amplitudes leads to severe bottlenecks and a very fast scaling of the computational resources required to perform the calculation. With the purpose of overcoming these limitations, we discuss efficient strategies based on the Loop-Tree Duality, its manifestly causal representation and the underlying geometrical interpretation. In concrete, we exploit the geometrical causal selection rules to define a Hamiltonian whose ground-state is directly related to the terms contributing to the causal representation. In this way, the problem can be translated into a minimization one and implemented in a quantum computer to search for a potential speed-up.
翻訳日:2023-05-16 14:53:26 公開日:2023-05-15
# スピン偏極フェルミオンの二次元弾性衝突速度

Elastic collision rates of spin-polarized fermions in two dimensions ( http://arxiv.org/abs/2305.08549v1 )

ライセンス: Link先を確認
Muhammad Awais Altaf, Takashi Mukaiyama, Muhammad Waseem(参考訳) 2次元スピン偏極超低温フェルミガス中の$p$波弾性衝突速度を,$p$波フェシュバッハ共鳴の存在下で検討した。 有効範囲が支配的な場合,共鳴近傍における弾性衝突速度係数の解析関係を導出する。 弾性衝突速度は、共鳴に向かって$e^{-q_{r}^{2} / q_{T}^{2}}$の指数スケーリングによって向上する。 ここで、$q_{r}$は共鳴運動量、$q_T$は熱運動量である。 3次元の場合の類似表現は、最近の実験で熱化速度の測定をうまく説明できた [phys. rev. a 88, 012710 (2013)]。 有効範囲が無視できるゼロレンジ限界では、弾性衝突速度係数は温度$T^2$と散乱領域$A_{p}^2$に比例する。 この極限では、高速度から低速への$p$波の衝突によるエネルギー移動は、三次元の場合に比べて約$\sqrt{2}$の速さである。 また,背景散乱限界における3体損失の存在下での衝突安定性についても論じる。 以上の結果から,$p$-waveの蒸発は効率が向上し,実験におけるシステムのダイナミクスに関する洞察が得られる可能性が示唆された。

We study the $p$-wave elastic collision rates in a two-dimensional spin-polarized ultracold Fermi gas in the presence of a $p$-wave Feshbach resonance. We derive the analytical relation of the elastic collision rate coefficient in the close vicinity of resonance when the effective range is dominant. The elastic collision rate is enhanced by an exponential scaling of $e^{-q_{r}^{2} / q_{T}^{2}}$ towards the resonance. Here, $q_{r}$ is the resonant momentum and $q_T$ is the thermal momentum. An analogous expression is derived for the case of three dimensions successfully explains the thermalization rates measurement in the recent experiment~[Phys. Rev. A 88, 012710 (2013)]. In the zero-range limit where the effective range is negligible, the elastic collision rate coefficient is proportional to temperature $T^2$ and scattering area $A_{p}^2$. In this limit, energy transfer from high to low velocity through $p$-wave collision is approximately $\sqrt{2}$ times faster compared to the three-dimensional case. We also discuss the collisional stability in the presence of three-body losses in the background scattering limit. Our results suggest that $p$-wave evaporation may be performed with improved efficiency and may provide insight into the dynamics of the system in experiments.
翻訳日:2023-05-16 14:53:06 公開日:2023-05-15
# 接合系における点ギャップ位相位相のバルクエッジ対応

Bulk-Edge Correspondence for Point-Gap Topological Phases in Junction Systems ( http://arxiv.org/abs/2305.08548v1 )

ライセンス: Link先を確認
Geonhwi Hwang and Hideaki Obuse(参考訳) バルクエッジ対応は、トポロジカル位相の理論において最も重要な要素の1つである。 独立位相不変量を持つ2つのサブシステム同士が接続するエルミート接合系にはバルクエッジ対応が適用できるが、非エルミート点-ガップ位相位相を持つ接合系については議論されていない。 本稿では,非ブロッホバンド理論の接合系への拡張により得られた解析結果に基づき,接合系における点ギャップ位相相のバルクエッジ対応を確立する。 さらに固有状態を考えると、非エルミート接合系は特異な近接効果を示す。

The bulk-edge correspondence is one of the most important ingredients in the theory of topological phase of matter. While the bulk-edge correspondence is applicable for Hermitian junction systems where two subsystems with independent topological invariants are connected to each other, it has not been discussed for junction systems with non-Hermitian point-gap topological phases. In this Letter, based on analytical results obtained by the extension of non-Bloch band theory to junction systems, we establish the bulk-edge correspondence for point-gap topological phases in junction systems. Considering the eigenstates, further, we find that the non-Hermitian junction systems exhibit unique proximity effects.
翻訳日:2023-05-16 14:52:48 公開日:2023-05-15
# 顔認識の視覚的サリエンシ説明に向けて

Towards Visual Saliency Explanations of Face Recognition ( http://arxiv.org/abs/2305.08546v1 )

ライセンス: Link先を確認
Yuhang Lu, Zewei Xu, Touradj Erahimi(参考訳) 深層畳み込みニューラルネットワークは、過去数年間、顔認識(FR)技術のフロンティアを推し進めてきた。 精度が高いにもかかわらず、説明性に欠けるとしてしばしば批判される。 深層顔認識システムにおける意思決定プロセスの理解に対する需要が高まっている。 近年の研究では、視覚的サリエンシマップを説明として用いているが、顔認識の文脈では議論や分析が欠如していることが多い。 本稿では,顔認識のための新しい説明枠組みを提案する。 まず、深いFRモデルによる決定に焦点を当てた、唾液度に基づく説明法の新しい定義を提供することから始める。 次に,任意の対の顔画像の類似領域と類似領域の両方を明らかにするために,新しい相関ベースライジングアルゴリズム(corrrise)を提案する。 また,2つの評価指標は,顔認識における一般的な視覚的相性説明法の性能を測定するために設計されている。 その結果,提案手法は他の説明可能な顔認識手法を一貫して上回っていることがわかった。

Deep convolutional neural networks have been pushing the frontier of face recognition (FR) techniques in the past years. Despite the high accuracy, they are often criticized for lacking explainability. There has been an increasing demand for understanding the decision-making process of deep face recognition systems. Recent studies have investigated using visual saliency maps as an explanation, but they often lack a discussion and analysis in the context of face recognition. This paper conceives a new explanation framework for face recognition. It starts by providing a new definition of the saliency-based explanation method, which focuses on the decisions made by the deep FR model. Then, a novel correlation-based RISE algorithm (CorrRISE) is proposed to produce saliency maps, which reveal both the similar and dissimilar regions of any given pair of face images. Besides, two evaluation metrics are designed to measure the performance of general visual saliency explanation methods in face recognition. Consequently, substantial visual and quantitative results have shown that the proposed method consistently outperforms other explainable face recognition approaches.
翻訳日:2023-05-16 14:52:37 公開日:2023-05-15
# 量子ニューラルネットワークのための量子ニューラルネットワーク

Quantum Neural Network for Quantum Neural Computing ( http://arxiv.org/abs/2305.08544v1 )

ライセンス: Link先を確認
Min-Gang Zhou, Zhi-Ping Liu, Hua-Lei Yin, Chen-Long Li, Tong-Kai Xu, Zeng-Bing Chen(参考訳) ニューラルネットワークは、業界と学界の両方で目覚ましいブレークスルーを達成した。 量子コンピューティングデバイス上でニューラルネットワークを効果的に開発する方法は、難しいオープン問題である。 本稿では,自然発生環境に起因したデコヒーレンスを持つ実世界の量子システムにおける(一元的に制御された)単一量子ビット演算と測定を用いた量子ニューラルネットワークのための新しい量子ニューラルネットワークモデルを提案する。 我々のモデルでは、状態空間サイズがニューロン数で指数関数的に大きくなるという問題を回避し、メモリ要求を大幅に低減し、従来の最適化アルゴリズムによる高速な最適化を可能にする。 我々は手書き文字認識や他の非線形分類タスクのモデルをベンチマークする。 その結果, このモデルは, 非線形分類能力と雑音に対するロバスト性に優れることがわかった。 さらに,本モデルは,量子コンピューティングを広い文脈で適用することを可能にし,標準量子コンピュータよりも初期の量子ニューラルコンピュータの開発を刺激する。

Neural networks have achieved impressive breakthroughs in both industry and academia. How to effectively develop neural networks on quantum computing devices is a challenging open problem. Here, we propose a new quantum neural network model for quantum neural computing using (classically-controlled) single-qubit operations and measurements on real-world quantum systems with naturally occurring environment-induced decoherence, which greatly reduces the difficulties of physical implementations. Our model circumvents the problem that the state-space size grows exponentially with the number of neurons, thereby greatly reducing memory requirements and allowing for fast optimization with traditional optimization algorithms. We benchmark our model for handwritten digit recognition and other nonlinear classification tasks. The results show that our model has an amazing nonlinear classification ability and robustness to noise. Furthermore, our model allows quantum computing to be applied in a wider context and inspires the earlier development of a quantum neural computer than standard quantum computers.
翻訳日:2023-05-16 14:52:20 公開日:2023-05-15
# SRRM:屋内シーン認識のための意味領域関係モデル

SRRM: Semantic Region Relation Model for Indoor Scene Recognition ( http://arxiv.org/abs/2305.08540v1 )

ライセンス: Link先を確認
Chuanxin Song, Xin Ma(参考訳) 様々なコンピュータビジョンタスクにおける畳み込みニューラルネットワークの顕著な成功にもかかわらず、屋内シーンの認識は複雑な構成のために依然として大きな課題となっている。 その結果,シーンのセマンティック情報を効果的に活用することは,屋内シーン認識の進展において重要な問題となっている。 残念ながら、セマンティックセグメンテーションの精度は、セマンティック情報を活用する既存のアプローチの有効性を制限している。 その結果、これらのアプローチの多くは補助的なラベル付けや共起統計の段階に留まり、シーン内の意味的要素間の文脈的関係を探求する機会はほとんどない。 本稿では,シーン内の意味情報から直接始まる意味領域関係モデル(SRRM)を提案する。 特に、srmは適応的かつ効率的なアプローチを採用し、意味曖昧性の負の影響を緩和し、意味領域関係をモデル化してシーン認識を行う。 さらに,シーンに含まれる情報をより包括的に活用するために,提案したSRRMとPlacesCNNモジュールを組み合わせて,複合意味領域関係モデル(CSRRM)を作成し,それらの相補的内容を効果的に探索する新たな情報結合手法を提案する。 CSRRMはMIT Indoor 67でSOTA法を著しく上回り、Places365データセットを減らし、SUN RGB-Dを再トレーニングせずに改善した。 コードは、https://github.com/ChuanxinSong/SRRMで入手できる。

Despite the remarkable success of convolutional neural networks in various computer vision tasks, recognizing indoor scenes still presents a significant challenge due to their complex composition. Consequently, effectively leveraging semantic information in the scene has been a key issue in advancing indoor scene recognition. Unfortunately, the accuracy of semantic segmentation has limited the effectiveness of existing approaches for leveraging semantic information. As a result, many of these approaches remain at the stage of auxiliary labeling or co-occurrence statistics, with few exploring the contextual relationships between the semantic elements directly within the scene. In this paper, we propose the Semantic Region Relationship Model (SRRM), which starts directly from the semantic information inside the scene. Specifically, SRRM adopts an adaptive and efficient approach to mitigate the negative impact of semantic ambiguity and then models the semantic region relationship to perform scene recognition. Additionally, to more comprehensively exploit the information contained in the scene, we combine the proposed SRRM with the PlacesCNN module to create the Combined Semantic Region Relation Model (CSRRM), and propose a novel information combining approach to effectively explore the complementary contents between them. CSRRM significantly outperforms the SOTA methods on the MIT Indoor 67, reduced Places365 dataset, and SUN RGB-D without retraining. The code is available at: https://github.com/ChuanxinSong/SRRM
翻訳日:2023-05-16 14:52:03 公開日:2023-05-15
# 多変量定常時間と非定常時間に対するカーネルベース共同独立試験

Kernel-based Joint Independence Tests for Multivariate Stationary and Nonstationary Time-Series ( http://arxiv.org/abs/2305.08529v1 )

ライセンス: Link先を確認
Zhaolu Liu and Robert L. Peach and Felix Laumann and Sara Vallejo Mengod and Mauricio Barahona(参考訳) 相互接続されたシステムの時間的進化を捉える多変量時系列データは、多様な領域に広く分布する。 共観測変数間の複雑な関係と潜在的な依存関係を理解することは、それらのシステムの正確な統計モデルと分析に不可欠である。 本稿では,d-variable Hilbert-Schmidt independent criterion (dHSIC) を定常的および非定常的ランダムなプロセスに拡張することにより,多変量時系列における共同独立のカーネルベース統計テストを導入する。 本手法は,実世界の気候・社会経済データだけでなく,頻度混合データなど,合成例における高次依存性をロバストに解明する手法である。 本手法は複雑な時系列データセットを解析するための数学的ツールボックスに追加する。

Multivariate time-series data that capture the temporal evolution of interconnected systems are ubiquitous in diverse areas. Understanding the complex relationships and potential dependencies among co-observed variables is crucial for the accurate statistical modelling and analysis of such systems. Here, we introduce kernel-based statistical tests of joint independence in multivariate time-series by extending the d-variable Hilbert-Schmidt independence criterion (dHSIC) to encompass both stationary and nonstationary random processes, thus allowing broader real-world applications. By leveraging resampling techniques tailored for both single- and multiple-realization time series, we show how the method robustly uncovers significant higher-order dependencies in synthetic examples, including frequency mixing data, as well as real-world climate and socioeconomic data. Our method adds to the mathematical toolbox for the analysis of complex high-dimensional time-series datasets.
翻訳日:2023-05-16 14:51:38 公開日:2023-05-15
# niki:3次元ポーズと形状推定のための可逆ニューラルネットワークを用いたニューラル逆運動学

NIKI: Neural Inverse Kinematics with Invertible Neural Networks for 3D Human Pose and Shape Estimation ( http://arxiv.org/abs/2305.08590v1 )

ライセンス: Link先を確認
Jiefeng Li, Siyuan Bian, Qi Liu, Jiasheng Tang, Fan Wang, Cewu Lu(参考訳) 人間の3Dポーズと形状推定の進歩により、最先端の手法は閉塞に対して堅牢であるか、非閉塞の場合の画素アライメントの精度を得ることができる。 しかし、堅牢性とメッシュ画像アライメントを同時に得ることはできない。 本研究では,2方向誤差をモデル化し,オクルージョンに対するロバスト性を改善し,画素整合精度を得るNIKI(Neural Inverse Kinematics with Invertible Neural Network)を提案する。 NIKIは、非可逆ネットワークによる前処理と逆処理の両方から学習することができる。 逆過程において、モデルは、ロバストな3次元ポーズ推定のために、可塑性3次元ポーズ多様体から誤差を分離する。 前方プロセスでは, メッシュ画像アライメントを改善するために, 信頼性の高い関節位置の感度を向上させるために, ゼロエラー境界条件を強制する。 さらに、NIKIは解析的逆キネマティクスアルゴリズムをツイスト・アンド・スウィング分解でエミュレートし、解釈性を向上させる。 標準および咬合特異的ベンチマーク実験により,nikiの有効性が示され,ロバストかつ整列した結果が同時に得られた。 コードはhttps://github.com/Jeff-sjtu/NIKIで入手できる。

With the progress of 3D human pose and shape estimation, state-of-the-art methods can either be robust to occlusions or obtain pixel-aligned accuracy in non-occlusion cases. However, they cannot obtain robustness and mesh-image alignment at the same time. In this work, we present NIKI (Neural Inverse Kinematics with Invertible Neural Network), which models bi-directional errors to improve the robustness to occlusions and obtain pixel-aligned accuracy. NIKI can learn from both the forward and inverse processes with invertible networks. In the inverse process, the model separates the error from the plausible 3D pose manifold for a robust 3D human pose estimation. In the forward process, we enforce the zero-error boundary conditions to improve the sensitivity to reliable joint positions for better mesh-image alignment. Furthermore, NIKI emulates the analytical inverse kinematics algorithms with the twist-and-swing decomposition for better interpretability. Experiments on standard and occlusion-specific benchmarks demonstrate the effectiveness of NIKI, where we exhibit robust and well-aligned results simultaneously. Code is available at https://github.com/Jeff-sjtu/NIKI
翻訳日:2023-05-16 14:46:18 公開日:2023-05-15
# Moir\'e-free and Deserving Demosaicking

Toward Moir\'e-Free and Detail-Preserving Demosaicking ( http://arxiv.org/abs/2305.08585v1 )

ライセンス: Link先を確認
Xuanchen Li, Yan Niu, Bo Zhao, Haoyuan Shi, Zitong An(参考訳) 3D畳み込みは、他の画像復元の問題を解決するのと同じように、神経モデルを破壊するために一般的に使用される。 反故意に、3Dコンボリューションは相補的な情報交換からRGB色スペクトルを暗黙的に阻害し、局所的な空間高周波成分のスペクトル不整合が生じることを示した。 その結果、浅い3D畳み込みネットワークはMoir\'eアーティファクトに悩まされるが、深い3D畳み込みは過度に滑らかになる。 デモサイクリングと、利用可能な画素間で失われた画素を予測する他の問題(例えば超解像再構成)との根本的な違いを分析し、moir\e-freeとディテール保存の衝突の原因を提示する。 新しい視点から,我々の研究は,共通標準畳み込み手順をスペクトルおよび空間特徴集合に分解し,空間次元における局所的なコントラストを尊重しながら,スペクトル次元におけるグローバルコミュニケーションを強化する。 デモサイクリングモデルを,共同デモサイクリングと独立デモサイクリングの2つのタスクに適用する。 いずれのアプリケーションにおいても,moir\'eやover-smoothnessといったアーチファクトを,現在のトップパフォーマンスモデルと同等あるいは低い計算コストで実質的に軽減する。 ソースコードは出版物とともに公開される。

3D convolutions are commonly employed by demosaicking neural models, in the same way as solving other image restoration problems. Counter-intuitively, we show that 3D convolutions implicitly impede the RGB color spectra from exchanging complementary information, resulting in spectral-inconsistent inference of the local spatial high frequency components. As a consequence, shallow 3D convolution networks suffer the Moir\'e artifacts, but deep 3D convolutions cause over-smoothness. We analyze the fundamental difference between demosaicking and other problems that predict lost pixels between available ones (e.g., super-resolution reconstruction), and present the underlying reasons for the confliction between Moir\'e-free and detail-preserving. From the new perspective, our work decouples the common standard convolution procedure to spectral and spatial feature aggregations, which allow strengthening global communication in the spectral dimension while respecting local contrast in the spatial dimension. We apply our demosaicking model to two tasks: Joint Demosaicking-Denoising and Independently Demosaicking. In both applications, our model substantially alleviates artifacts such as Moir\'e and over-smoothness at similar or lower computational cost to currently top-performing models, as validated by diverse evaluations. Source code will be released along with paper publication.
翻訳日:2023-05-16 14:45:57 公開日:2023-05-15
# ARMデバイス上でのツリーアンサンブルの高速推論

Fast Inference of Tree Ensembles on ARM Devices ( http://arxiv.org/abs/2305.08579v1 )

ライセンス: Link先を確認
Simon Koschel, Sebastian Buschj\"ager, Claudio Lucchese, Katharina Morik(参考訳) マシンラーニングモデルがIoT(Internet of Things)の形で日常生活に継続的に統合されていることから、学習モデルの評価はますます重要な問題となっている。 ツリーアンサンブルは最も優れたブラックボックス分類器の1つであり、通常より複雑な分類器よりも優れている。 ツリーアンサンブルの高速適用はすでにIntel CPUの文献で研究されているが、IoTアプリケーションに支配的なARM CPUの文脈ではまだ研究されていない。 本稿では、人気の高いQuickScorerアルゴリズムとその兄弟をIntelのAVXからARMのNEON命令セットに変換する。 第2に,階層モデルからランダムフォレストなどの分類モデルへ実装を拡張した。 第三に、ランダム森林における定点量子化の利用効果について検討する。 本研究は,ARM CPU上でツリートラバーサルを慎重に実装することで,参照実装と比較して最大9.4の高速化を実現していることを示す。 さらに、量子化モデルは、ほぼ全てのケースにおいて浮動小数点値を用いたモデルよりも優れており、モデルの予測性能には無視できる影響がある。 最後に、本研究では、armとintelのcpuと異なるarmデバイス間のアーキテクチャの違いに注目し、最適な実装は、特定のフォレストとデプロイに使用される特定のデバイスの両方に依存することを示唆する。

With the ongoing integration of Machine Learning models into everyday life, e.g. in the form of the Internet of Things (IoT), the evaluation of learned models becomes more and more an important issue. Tree ensembles are one of the best black-box classifiers available and routinely outperform more complex classifiers. While the fast application of tree ensembles has already been studied in the literature for Intel CPUs, they have not yet been studied in the context of ARM CPUs which are more dominant for IoT applications. In this paper, we convert the popular QuickScorer algorithm and its siblings from Intel's AVX to ARM's NEON instruction set. Second, we extend our implementation from ranking models to classification models such as Random Forests. Third, we investigate the effects of using fixed-point quantization in Random Forests. Our study shows that a careful implementation of tree traversal on ARM CPUs leads to a speed-up of up to 9.4 compared to a reference implementation. Moreover, quantized models seem to outperform models using floating-point values in terms of speed in almost all cases, with a neglectable impact on the predictive performance of the model. Finally, our study highlights architectural differences between ARM and Intel CPUs and between different ARM devices that imply that the best implementation depends on both the specific forest as well as the specific device used for deployment.
翻訳日:2023-05-16 14:45:33 公開日:2023-05-15
# パラメトリゼーションPDEのモデル次数削減のためのグラフ畳み込みオートエンコーダアプローチ

A graph convolutional autoencoder approach to model order reduction for parametrized PDEs ( http://arxiv.org/abs/2305.08573v1 )

ライセンス: Link先を確認
Federico Pichi, Beatriz Moya, and Jan S. Hesthaven(参考訳) 本稿では,グラフ畳み込みオートエンコーダ(GCA-ROM)に基づく非線形モデルオーダー削減のためのフレームワークを提案する。 還元次数モデリング(rom)の文脈では、パラメトリック偏微分方程式(pdes)の実時間および多値評価の取得に関心がある。 Proper Orthogonal Decomposition (POD) や Greedy アルゴリズムのような線形手法は網羅的に分析されてきたが、コルモゴロフ n-幅の高速崩壊を示す線形およびアフィンモデルを扱う場合にはより適している。 一方、autoencoderアーキテクチャはpod圧縮手順の非線形一般化を表しており、主な特徴を抽出しながら、潜在変数のセットに主情報をエンコードすることができる。 一方、グラフニューラルネットワーク(GNN)は、非構造化メッシュ上で定義されたPDEソリューションを研究するための自然なフレームワークである。 そこで我々は,GNNを用いた非侵襲・データ駆動非線形還元手法を開発し,低減された多様体を符号化し,パラメタライズされたPDEの高速評価を可能にする。 物理および幾何学的にパラメトリケートされた環境での高速・スロー崩壊を伴う線形・非線形・スカラー・ベクトル問題である。 私たちのアプローチの主な特性は (i)複雑な体制であっても、低データ体制における高い一般化可能性。 (ii)一般非構造グリッドの物理的コンプライアンス (iii)散乱データから学習するためのプール操作とアンプール操作の活用。

The present work proposes a framework for nonlinear model order reduction based on a Graph Convolutional Autoencoder (GCA-ROM). In the reduced order modeling (ROM) context, one is interested in obtaining real-time and many-query evaluations of parametric Partial Differential Equations (PDEs). Linear techniques such as Proper Orthogonal Decomposition (POD) and Greedy algorithms have been analyzed thoroughly, but they are more suitable when dealing with linear and affine models showing a fast decay of the Kolmogorov n-width. On one hand, the autoencoder architecture represents a nonlinear generalization of the POD compression procedure, allowing one to encode the main information in a latent set of variables while extracting their main features. On the other hand, Graph Neural Networks (GNNs) constitute a natural framework for studying PDE solutions defined on unstructured meshes. Here, we develop a non-intrusive and data-driven nonlinear reduction approach, exploiting GNNs to encode the reduced manifold and enable fast evaluations of parametrized PDEs. We show the capabilities of the methodology for several models: linear/nonlinear and scalar/vector problems with fast/slow decay in the physically and geometrically parametrized setting. The main properties of our approach consist of (i) high generalizability in the low-data regime even for complex regimes, (ii) physical compliance with general unstructured grids, and (iii) exploitation of pooling and un-pooling operations to learn from scattered data.
翻訳日:2023-05-16 14:45:14 公開日:2023-05-15
# ニューラルNLIモデルにおける自然論理的特徴の因果効果の推定

Estimating the Causal Effects of Natural Logic Features in Neural NLI Models ( http://arxiv.org/abs/2305.08572v1 )

ライセンス: Link先を確認
Julia Rozanova, Marco Valentino, Andre Freitas(参考訳) 言語モデル予測における意味的特徴の因果効果の厳密な評価は、自然言語推論問題において達成しにくい。 しかし、これは解釈可能性とモデル評価の観点からの望ましい分析形態であり、広く使われているモデルにおける体系的推論失敗を識別し定量化するのに十分な構造と規則性を持つ推論の特定のパターンに割り込むことは価値がある。 本稿では,NLIタスクの一部を,明示的な因果関係図を体系的に構築できる部分を選択する。特に,2つの文(前提と仮説)にまたがる2つの関連語/項が共用文脈で発生する場合。 本研究では、文脈介入(エンターメントラベルに対する影響は意味的単調性特性によって媒介される)と挿入語ペアに対する介入(エンターメントラベルに対する効果はこれらの単語の関係によって媒介される)の効果を測定するために因果効果推定戦略を適用した。 異なる環境でのNLPモデルの因果解析に関する関連する研究に続いて、NLIタスクの方法論を適用し、無関係な変化に対する堅牢性と影響のある変化に対する感受性の観点から比較モデルプロファイルを構築する。

Rigorous evaluation of the causal effects of semantic features on language model predictions can be hard to achieve for natural language reasoning problems. However, this is such a desirable form of analysis from both an interpretability and model evaluation perspective, that it is valuable to zone in on specific patterns of reasoning with enough structure and regularity to be able to identify and quantify systematic reasoning failures in widely-used models. In this vein, we pick a portion of the NLI task for which an explicit causal diagram can be systematically constructed: in particular, the case where across two sentences (the premise and hypothesis), two related words/terms occur in a shared context. In this work, we apply causal effect estimation strategies to measure the effect of context interventions (whose effect on the entailment label is mediated by the semantic monotonicity characteristic) and interventions on the inserted word-pair (whose effect on the entailment label is mediated by the relation between these words.). Following related work on causal analysis of NLP models in different settings, we adapt the methodology for the NLI task to construct comparative model profiles in terms of robustness to irrelevant changes and sensitivity to impactful changes.
翻訳日:2023-05-16 14:44:51 公開日:2023-05-15
# 量子スピン氷における結晶相とデビル階段

Crystalline phases and devil's staircase in qubit spin ice ( http://arxiv.org/abs/2305.08571v1 )

ライセンス: Link先を確認
M\'ark Kond\'akor and Karlo Penc(参考訳) 可変パラメータを持つ超伝導量子ビットの配列 [king {\it et al.] における人工量子スピン氷の最近の実現に動機づけられた。 Science 373, 576 (2021)], 我々は,タイプIとタイプIIの頂点を区別する正方格子上の量子6頂点モデルを精査する。 数値(実対角化)および解析(摂動拡大、ゲルシュゴリンの定理)法によるゼロ温度位相図を写像する。 対称性の分類の後、3つの結晶相を孤立配置の亜指数多様体と共に同定する。 多臨界ロクサー-キヴェルソン点におけるモンテカルロシミュレーションは、磁束の増加とともに遷移のカスケードを示す量子位相の証拠を与える。 構造因子の比較により, 人工スピン氷における完全反転相とプラーペット相の出現の証拠が得られた。

Motivated by the recent realization of an artificial quantum spin ice in an array of superconducting qubits with tunable parameters [King {\it et al.}, Science 373, 576 (2021)], we scrutinize a quantum six vertex model on the square lattice that distinguishes type-I and type-II vertices. We map the zero-temperature phase diagram using numerical (exact diagonalization) and analytical (perturbation expansion, Gerschgorin theorem) methods. Following a symmetry classification, we identify three crystalline phases alongside a subextensive manifold of isolated configurations. Monte Carlo simulations at the multicritical Rokhsar-Kivelson point provide evidence for a quantum phase exhibiting a cascade of transitions with increasing flux. By comparing structure factors, we find evidence for the emergence of the fully flippable and plaquette phases in the artificial quantum spin ice.
翻訳日:2023-05-16 14:44:30 公開日:2023-05-15
# 相関解析を超えたnlg評価指標:経験的メトリック選好チェックリスト

NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric Preference Checklist ( http://arxiv.org/abs/2305.08566v1 )

ライセンス: Link先を確認
Iftitahu Ni'mah and Meng Fang and Vlado Menkovski and Mykola Pechenizkiy(参考訳) 本研究では,人間の評価的側面を文脈や目的として用いたかどうかに基づいて,NLG自動メトリクスを分析する。 (i)タスク非依存及び (ii)人間化。 Perplexity、BLEU、BERTScoreといったタスク非依存のメトリクスは、費用対効果が高く、多様なNLGタスクに適応できるが、人間との相関は弱い。 ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。 しかし、システムレベルの性能とシステム出力の質を識別する効果は未だ不明である。 テキスト要約,対話応答生成,制御生成の3つのタスクにおいて,自動メトリクスの識別能力を評価するためのフレームワークとして,計量選好チェックリストを提案する。 マルチアスペクト・ヒューマンアライメント・メトリック(UniEval)は,人間アライメント・メトリクス(CTC,CtrlEval)とタスクアライメント・メトリクス(BLEU,BERTScore)に必ずしも支配的ではない。 また、システムレベルの性能を識別する上で、自動メトリクスが人間よりも優れたガイダンスを提供するユースケースを示す。 提案するフレームワークは: 一 自動測度が人間の嗜好に忠実であるか否かを、人間との相関関係によらず検証すること (II)NLGシステムの強度と限界を精査するためには,評価スコアの基準平均化法がしばしば用いていない。

In this study, we analyze NLG automatic metrics based on whether human evaluation aspect is used as context or objective to compute the metrics: (i) Task-agnostic and (ii) Human-aligned. Task-agnostic metrics, such as Perplexity, BLEU, BERTScore, are cost-effective and highly adaptable to diverse NLG tasks, yet they have a weak correlation with human. Human-aligned metrics (CTC, CtrlEval, UniEval) improves correlation level by incorporating desirable human-like qualities as training objective. However, their effectiveness at discerning system-level performance and quality of system outputs remains unclear. We present metric preference checklist as a framework to assess the discriminative power of automatic metrics in three NLG tasks: Text Summarization, Dialogue Response Generation, and Controlled Generation. We show that multi-aspect human-aligned metric (UniEval) is not necessarily dominant over single-aspect human-aligned metrics (CTC, CtrlEval) and task-agnostic metrics (BLEU, BERTScore), particularly when a disagreement between human evaluation aspects is present. We also show particular use cases in which automatic metrics provide a better guidance than human on discriminating system-level performance. Our proposed framework provides access: (i) for verifying whether automatic metrics are faithful to human preference, regardless their correlation level to human; and (ii) for scrutinizing the strengths and limitations of NLG systems, which are often obscured by a standard averaging method of evaluation scores.
翻訳日:2023-05-16 14:44:16 公開日:2023-05-15
# 不連続性の設計

Designing Discontinuities ( http://arxiv.org/abs/2305.08559v1 )

ライセンス: Link先を確認
Ibtihal Ferwana, Suyoung Park, Ting-Yi Wu, and Lav R. Varshney(参考訳) 不連続性はかなり任意であるが、社会システムの結果に大きな影響を及ぼす。 実際、それらの任意性は、多くの設定で変数間の因果関係を推測するために使われてきた理由である。 エコノメトリーからの回帰不連続性は、与えられた現象の因果効果を推定するために、集団を別々に分割する不連続変数の存在を仮定する。 ここでは、ある不連続変数に対する分割の設計について検討し、回帰不連続性を用いて以前に研究されたある効果を最適化する。 そこで本研究では,ある不連続変数の因果効果の大きさを学習し,その効果の大きさの利得と損失のバランスをとる不連続性の最適量子化設計に動的プログラミングを適用することにより,利害効果を最適化する量子化理論手法を提案する。 また,最適量子化の動的計画定式化のための計算効率の高い強化学習アルゴリズムを開発した。 我々は,ソーシャル・キャピタル,ソーシャル・モビリティ,健康の両立のために最適なタイムゾーン境界を設計することにより,このアプローチを実証する。 これは、日没時と社会資本の因果関係を示す独立した経験的興味を持つ新しいデータに基づく回帰不連続分析に基づいている。

Discontinuities can be fairly arbitrary but also cause a significant impact on outcomes in social systems. Indeed, their arbitrariness is why they have been used to infer causal relationships among variables in numerous settings. Regression discontinuity from econometrics assumes the existence of a discontinuous variable that splits the population into distinct partitions to estimate the causal effects of a given phenomenon. Here we consider the design of partitions for a given discontinuous variable to optimize a certain effect previously studied using regression discontinuity. To do so, we propose a quantization-theoretic approach to optimize the effect of interest, first learning the causal effect size of a given discontinuous variable and then applying dynamic programming for optimal quantization design of discontinuities that balance the gain and loss in the effect size. We also develop a computationally-efficient reinforcement learning algorithm for the dynamic programming formulation of optimal quantization. We demonstrate our approach by designing optimal time zone borders for counterfactuals of social capital, social mobility, and health. This is based on regression discontinuity analyses we perform on novel data, which may be of independent empirical interest in showing a causal relationship between sunset time and social capital.
翻訳日:2023-05-16 14:43:44 公開日:2023-05-15
# ソーシャルネットワークの噂が急速に広まる理由と、それを止める方法

Why Rumors Spread Fast in Social Networks, and How to Stop It ( http://arxiv.org/abs/2305.08558v1 )

ライセンス: Link先を確認
Ahad N. Zehmakan, Charlotte Out, Sajjad Hesamipour Khelejan(参考訳) 我々は,ネットワーク構造を介して個人が接続されるうわさ拡散モデルについて検討する。 最初は、一部の個人だけが噂を広めている。 スプレッダに接続された各個人は、jaccard similarity indexによって定量化されたスプレッダに対する信頼の関数として、噂をある程度広め始める。 さらに、スプレッダーが噂を広める確率は、完全に関心を失い、拡散を止めるまで、時間とともに低下する。 我々は,このモデルで噂が広まる大きさとペースを規定するグラフパラメータを決定することに集中する。 噂が個体のごく一部に広まるためには、ネットワークは `strong' の拡張特性を享受し、ほとんどのノードは `well-connected' コミュニティになければならないことを証明している。 これらの特徴は、間違いなく、現実世界のソーシャルネットワークにある程度存在し、ソーシャルネットワークにおける噂の急速に広まっている背景にある原動力に光を当てている。 さらに,噂の広まりを止めるために,幅広い対策を定式化する。 対策が理想とする4つの基本基準を導入する。 提案手法はすべて,facebook や twitter といった現実世界のソーシャルネットワーク上で実験を行うことで評価する。 我が国の新たな分散型対策(個人によって実施される)は,従来研究されていた中央集権的対策(政府等の第三機関が課す必要がある)を概ね上回っていると結論づける。

We study a rumor spreading model where individuals are connected via a network structure. Initially, only a small subset of the individuals are spreading a rumor. Each individual who is connected to a spreader, starts spreading the rumor with some probability as a function of their trust in the spreader, quantified by the Jaccard similarity index. Furthermore, the probability that a spreader diffuses the rumor decreases over time until they fully lose their interest and stop spreading. We focus on determining the graph parameters which govern the magnitude and pace that the rumor spreads in this model. We prove that for the rumor to spread to a sizable fraction of the individuals, the network needs to enjoy ``strong'' expansion properties and most nodes should be in ``well-connected'' communities. Both of these characteristics are, arguably, present in real-world social networks up to a certain degree, shedding light on the driving force behind the extremely fast spread of rumors in social networks. Furthermore, we formulate a large range of countermeasures to cease the spread of a rumor. We introduce four fundamental criteria which a countermeasure ideally should possess. We evaluate all the proposed countermeasures by conducting experiments on real-world social networks such as Facebook and Twitter. We conclude that our novel decentralized countermeasures (which are executed by the individuals) generally outperform the previously studied centralized ones (which need to be imposed by a third entity such as the government).
翻訳日:2023-05-16 14:43:24 公開日:2023-05-15
# 量子力学におけるパラドックスとその解法について

On a paradox in quantum mechanics and its resolution ( http://arxiv.org/abs/2305.08556v1 )

ライセンス: Link先を確認
Padtarapan Banyadsin and Salvatore De Vincenzo(参考訳) ディリクレ境界条件によって特徴づけられる壁のある区間内の自由シュル=オディンガー粒子を考える。 この境界条件を満たす粒子の正規化状態として放物線を選択する。 その状態におけるハミルトニアンの分散を計算するには、ハミルトニアンの平均値とその正方形の値を計算する必要がある。 これらの平均値を計算するのに標準式を使用すると、両者の結果は困難なく得られるが、その差分は予想外に虚偽値を取る。 これらの平均値を計算するのに同じ式を使うが、まず各固有関数と固有値の項でハミルトニアンとその平方を書けば、ハミルトニアンの平均値に対して上と同じ結果が得られるが、ハミルトニアンの平均値は異なる(実際にはゼロではない)ので、分散は許容できる値となる。 この矛盾した結果がいつから起こるのか? 後者のパラドックスは、ヒルベルト空間における線型作用素の一般理論の中で、ある基本的な概念を使用することでのみ適切に解決できる問題の例として文献に提示されている。 ここでは、これらの概念を慎重に検討し、パラドックスを解決するための詳細な方法で適用する。 我々の結果は波動力学の自然な枠組みの中で定式化され、ディラックの象徴的形式主義がもたらす不便さを避けるために、記事全体を通してその形式主義の使用を避ける。 さらに、関係する演算子の領域によって課される制約に対処することなく、完全に形式的な方法でパラドックスの解決を得る。 本論文の内容は,大学院生や大学院生,インストラクターにとって有用であると考えられる。

Consider a free Schr\"odinger particle inside an interval with walls characterized by the Dirichlet boundary condition. Choose a parabola as the normalized state of the particle that satisfies this boundary condition. To calculate the variance of the Hamiltonian in that state, one needs to calculate the mean value of the Hamiltonian and that of its square. If one uses the standard formula to calculate these mean values, one obtains both results without difficulty, but the variance unexpectedly takes an imaginary value. If one uses the same expression to calculate these mean values but first writes the Hamiltonian and its square in terms of their respective eigenfunctions and eigenvalues, one obtains the same result as above for the mean value of the Hamiltonian but a different value for its square (in fact, it is not zero); hence, the variance takes an acceptable value. From whence do these contradictory results arise? The latter paradox has been presented in the literature as an example of a problem that can only be properly solved by making use of certain fundamental concepts within the general theory of linear operators in Hilbert spaces. Here, we carefully review those concepts and apply them in a detailed way to resolve the paradox. Our results are formulated within the natural framework of wave mechanics, and to avoid inconveniences that the use of Dirac's symbolic formalism could bring, we avoid the use of that formalism throughout the article. In addition, we obtain a resolution of the paradox in an entirely formal way without addressing the restrictions imposed by the domains of the operators involved. We think that the content of this paper will be useful to undergraduate and graduate students as well as to their instructors.
翻訳日:2023-05-16 14:43:02 公開日:2023-05-15
# ビジュアルコンピューティングのための非分離型多次元ネットワークフロー

Non-Separable Multi-Dimensional Network Flows for Visual Computing ( http://arxiv.org/abs/2305.08628v1 )

ライセンス: Link先を確認
Viktoria Ehm, Daniel Cremers, Florian Bernard(参考訳) ネットワーク内のフロー(またはグラフ)は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。 これらのグラフのスカラー値の辺はしばしば情報の損失につながり、表現力の面での制限につながる。 例えば、しばしば高次元のデータ(例えば特徴記述子)は単一のスカラー値にマッピングされる(例えば、2つの特徴記述子間の類似性)。 この制限を克服するために,非分離型多次元ネットワークフローの新たな形式化を提案する。 これによって、自動的かつ適応的な特徴選択戦略が実現される。フローは次元ごとに定義されているので、最大化フローは最適な特徴次元を自動的に選択する。 概念実証として,マルチオブジェクト追跡問題に適用し,提案手法が雑音に対するロバスト性の観点から,mot16ベンチマークにおけるスカラー定式化よりも優れていることを示す。

Flows in networks (or graphs) play a significant role in numerous computer vision tasks. The scalar-valued edges in these graphs often lead to a loss of information and thereby to limitations in terms of expressiveness. For example, oftentimes high-dimensional data (e.g. feature descriptors) are mapped to a single scalar value (e.g. the similarity between two feature descriptors). To overcome this limitation, we propose a novel formalism for non-separable multi-dimensional network flows. By doing so, we enable an automatic and adaptive feature selection strategy - since the flow is defined on a per-dimension basis, the maximizing flow automatically chooses the best matching feature dimensions. As a proof of concept, we apply our formalism to the multi-object tracking problem and demonstrate that our approach outperforms scalar formulations on the MOT16 benchmark in terms of robustness to noise.
翻訳日:2023-05-16 14:35:12 公開日:2023-05-15
# 量子最適化セントロイド初期化

Quantum Optimized Centroid Initialization ( http://arxiv.org/abs/2305.08626v1 )

ライセンス: Link先を確認
Nicholas R. Allgood, Ajinkya Borle, Charles K. Nicholas(参考訳) 量子コンピューティングの大きな利点の1つは、古典的な方法よりも早く複雑な計算問題を解くことができることである。 現在、多くのプロトタイプベースのクラスタリング手法が使われており、中心点に対する開始ノードの選択はランダムに行われることが多い。 クラスタリングは、おそらくより良いソリューションがある場合、有効なソリューションとしてローカルのミニマを受け入れるのに苦しむ。 本稿では,量子コンピューティングの利点を活用し,プロトタイプベースのクラスタリングのための起点センタロイドを見つけるための研究結果を提示する。

One of the major benefits of quantum computing is the potential to resolve complex computational problems faster than can be done by classical methods. There are many prototype-based clustering methods in use today, and the selection of the starting nodes for the center points is often done randomly. Clustering often suffers from accepting a local minima as a valid solution when there are possibly better solutions. We will present the results of a study to leverage the benefits of quantum computing for finding better starting centroids for prototype-based clustering.
翻訳日:2023-05-16 14:34:59 公開日:2023-05-15
# adam-smith at semeval-2023 task 4: discovering human value in arguments with ensembles of transformer-based models (英語)

Adam-Smith at SemEval-2023 Task 4: Discovering Human Values in Arguments with Ensembles of Transformer-based Models ( http://arxiv.org/abs/2305.08625v1 )

ライセンス: Link先を確認
Daniel Schroter, Daryna Dementieva, and Georg Groh(参考訳) 本稿では,SemEval-2023 Task 4: "Identification of Human Values behind Arguments"において,最も優れたアプローチであるAdam Smithを提案する。 タスクの目標は、テキスト引数内の値を自動的に識別するシステムを作ることだった。 我々は、損失最小値またはf1スコアの最大値に到達するまでトランスフォーマーベースのモデルを訓練する。 f1スコアを最大化する1つのグローバル決定しきい値を選択してモデルを組み立てると、競争における最高のパフォーマンスシステムとなる。 ロジスティック回帰による積み重ねに基づく組み立ては、ロバスト性を評価するために提供される追加データセット上で最高のパフォーマンスを示す("Nahj al-Balagha")。 提案システムの概要は別として,大規模なアンサンブルモデルの使用は不要であり,システムサイズを大幅に削減できることを示す。

This paper presents the best-performing approach alias "Adam Smith" for the SemEval-2023 Task 4: "Identification of Human Values behind Arguments". The goal of the task was to create systems that automatically identify the values within textual arguments. We train transformer-based models until they reach their loss minimum or f1-score maximum. Ensembling the models by selecting one global decision threshold that maximizes the f1-score leads to the best-performing system in the competition. Ensembling based on stacking with logistic regressions shows the best performance on an additional dataset provided to evaluate the robustness ("Nahj al-Balagha"). Apart from outlining the submitted system, we demonstrate that the use of the large ensemble model is not necessary and that the system size can be significantly reduced.
翻訳日:2023-05-16 14:34:50 公開日:2023-05-15
# ベイズ最適化における探索・探索トレードオフの習得

Mastering the exploration-exploitation trade-off in Bayesian Optimization ( http://arxiv.org/abs/2305.08624v1 )

ライセンス: Link先を確認
Antonio Candelieri(参考訳) ガウス過程に基づくベイズ最適化(英: gaussian process based bayesian optimization)は、ブラックボックス、高価、多極関数をグローバルに最適化するためのサンプル効率的な逐次戦略である。 ガウス過程の役割は、逐次的に収集された観測に基づいて未知の関数の確率的近似を提供することであり、一方、獲得関数は現在のガウス過程モデルに依存して探索と搾取のバランスをとる次の解の選択を駆動する。 科学的コミュニティの効果的な探査・探査機構の定義への多大な努力にもかかわらず、我々はまだマスター獲得機能からは程遠い。 本稿では,アルゴリズムと人文検索の両戦略から得られた最も関連性の高い結果と知見を融合し,爆発的選択と搾取的選択のトレードオフを適応的に習得する。 提案する取得関数は,探索と搾取の間のプレフィックスまたはランダムスケジューリングに基づいて,複数のテスト関数と異なる最先端関数で比較する。 パレート解析は、最適と探索能力の収束という2つの(対角的な)目標に対して行われる。 結果は、提案された取得関数がほぼ常にパレート最適であり、2つの目標間の最もバランスのとれたトレードオフであることを実証的に証明する。

Gaussian Process based Bayesian Optimization is a well-known sample efficient sequential strategy for globally optimizing black-box, expensive, and multi-extremal functions. The role of the Gaussian Process is to provide a probabilistic approximation of the unknown function, depending on the sequentially collected observations, while an acquisition function drives the choice of the next solution to evaluate, balancing between exploration and exploitation, depending on the current Gaussian Process model. Despite the huge effort of the scientific community in defining effective exploration-exploitation mechanisms, we are still far away from the master acquisition function. This paper merges the most relevant results and insights from both algorithmic and human search strategies to propose a novel acquisition function, mastering the trade-off between explorative and exploitative choices, adaptively. We compare the proposed acquisition function on a number of test functions and against different state-of-the-art ones, which are instead based on prefixed or random scheduling between exploration and exploitation. A Pareto analysis is performed with respect to two (antagonistic) goals: convergence to the optimum and exploration capability. Results empirically prove that the proposed acquisition function is almost always Pareto optimal and also the most balanced trade-off between the two goals.
翻訳日:2023-05-16 14:34:31 公開日:2023-05-15
# デンマーク国民選挙 2022 twitter data on likes, retweets, botscores for explore coordinated inauthenthic behavior (英語)

Danish National Election 2022 Twitter Data on Likes, Retweets, and Botscores for the Purpose of Exploring Coordinated Inauthenthic Behavior ( http://arxiv.org/abs/2305.08621v1 )

ライセンス: Link先を確認
Laura Jahn and Rasmus K. Rendsvig(参考訳) このノートは、Harvard Dataverse(doi.org/10.7910/DVN/RWPZUN)で利用可能なデンマーク国民選挙2022のTwitterデータセットに関するコードと実験を記述している。 われわれはTwitterユーザーを、デンマーク国民選挙が行なわれた1ヶ月の期間に、全く同じ好き/リツイート行動を示したユーザーのビンに分類した。 これらのビンのどれかが非真正な動作を示すかを調べるため,botometer/botometer lite によるユーザアカウント削除/停止,ボットスコアの相関性について検討した。 重要な相関関係は見つからなかった(BotometerとBotometer Liteのスコアも一致していない)。 このメモには、GitHubリポジトリ LJ-9/Danish-Election-2022-Twitter-Likes-Retweets-Botscores-Inauthentic-Coordinated-BehaviorのREADME.mdが含まれている。 メモをアップロードして可視性を確認し、他の研究者が使用するデータを見つけられるようにしています。

This note describes code and experiments related to a Twitter dataset on the Danish National Election 2022, available at Harvard Dataverse (doi.org/10.7910/DVN/RWPZUN). We cluster Twitter users into bins of users that showed exactly the same liking/retweeting behavior over a month-long period during which the Danish National Election took place. To investigate whether any of these bins exhibited coordinated inauthentic behavior, we were interested in whether bin size correlated with user account deletions/suspensions and/or high bot scores from Botometer / Botometer Lite. We did not find significant correlations (also neither between Botometer and Botometer Lite scores). This note primarily contains the README.md from the GitHub repository LJ-9/Danish-Election-2022-Twitter-Likes-Retweets-Botscores-Inauthentic-Coordinated-Behavior of the same name, with a few additional comments and references. We upload the note for visibility, hoping that other researchers may find the data of use.
翻訳日:2023-05-16 14:34:09 公開日:2023-05-15
# GeNAS: より一般化されたニューラルアーキテクチャ検索

GeNAS: Neural Architecture Search with Better Generalization ( http://arxiv.org/abs/2305.08611v1 )

ライセンス: Link先を確認
Joonhyun Jeong, Joonsang Yu, Geondo Park, Dongyoon Han, Youngjoon Yoo(参考訳) Neural Architecture Search (NAS)は、最適なネットワークアーキテクチャを優れたテスト性能で自動的に発掘することを目的としている。 最近のneural architecture search(nas)アプローチは、ターゲットデータに対して優れたネットワークを見つけるために検証損失や精度に依存する。 そこで本研究では,より一般化した探索型アーキテクチャのためのニューラルアーキテクチャ探索手法について検討する。 損失面の平坦性はニューラルネットワークアーキテクチャの一般化能力を予測するための有望なプロキシであることを示す。 提案手法を様々な検索空間で評価し,最先端のnas法と同等あるいはそれ以上の性能を示した。 特に、フラットネス測度によって見出される結果的アーキテクチャは、オブジェクト検出やセマンティクスセグメンテーションのような様々なタスクと同様に、データ分散の様々なシフト(例: imagenet-v2,-a,-o)にロバストに一般化する。 コードはhttps://github.com/clovaai/GeNASで入手できる。

Neural Architecture Search (NAS) aims to automatically excavate the optimal network architecture with superior test performance. Recent neural architecture search (NAS) approaches rely on validation loss or accuracy to find the superior network for the target data. In this paper, we investigate a new neural architecture search measure for excavating architectures with better generalization. We demonstrate that the flatness of the loss surface can be a promising proxy for predicting the generalization capability of neural network architectures. We evaluate our proposed method on various search spaces, showing similar or even better performance compared to the state-of-the-art NAS methods. Notably, the resultant architecture found by flatness measure generalizes robustly to various shifts in data distribution (e.g. ImageNet-V2,-A,-O), as well as various tasks such as object detection and semantic segmentation. Code is available at https://github.com/clovaai/GeNAS.
翻訳日:2023-05-16 14:33:46 公開日:2023-05-15
# 学生ドロップアウト予測の文脈における分割アプローチの評価

Evaluating Splitting Approaches in the Context of Student Dropout Prediction ( http://arxiv.org/abs/2305.08600v1 )

ライセンス: Link先を確認
Bruno de M. Barros, Hugo A. D. do Nascimento, Raphael Guedes, Sandro E. Monsueto(参考訳) アカデミック・ドロップアウトの予測は、それを防ぐことを目的として、高等教育機関の現在の課題の1つとなっている。 このタスクでは、機械学習のテクニックが大きな味方です。 しかし、研究中の予測問題の現実を反映し、良好な結果が得られるように、このような手法で学術データを利用する方法には注意が必要である。 本稿では,学術データを分割・利用して学習・テストセットを作成するための戦略について検討する。 公立高等教育機関のデータを用いた概念分析と実験により、ランダムな比例データ分割や単純な時間分割でさえ、ドロップアウト予測には適さないことを示した。 本研究は,時間的分割と学生の漸進的学術史の選択が組み合わさって,問題に対する最善の戦略となることを示す。

The prediction of academic dropout, with the aim of preventing it, is one of the current challenges of higher education institutions. Machine learning techniques are a great ally in this task. However, attention is needed in the way that academic data are used by such methods, so that it reflects the reality of the prediction problem under study and allows achieving good results. In this paper, we study strategies for splitting and using academic data in order to create training and testing sets. Through a conceptual analysis and experiments with data from a public higher education institution, we show that a random proportional data splitting, and even a simple temporal splitting are not suitable for dropout prediction. The study indicates that a temporal splitting combined with a time-based selection of the students' incremental academic histories leads to the best strategy for the problem in question.
翻訳日:2023-05-16 14:33:29 公開日:2023-05-15
# 人間、AI、コンテキスト:現実世界のコンピュータビジョンアプリケーションにおけるエンドユーザの信頼を理解する

Humans, AI, and Context: Understanding End-Users' Trust in a Real-World Computer Vision Application ( http://arxiv.org/abs/2305.08598v1 )

ライセンス: Link先を確認
Sunnie S. Y. Kim and Elizabeth Anne Watkins and Olga Russakovsky and Ruth Fong and Andr\'es Monroy-Hern\'andez(参考訳) 信頼は、AIシステムとのインタラクションにおいて重要な要素である。 しかし、実際のエンドユーザーがどのように相互作用するAIシステムを信頼するか、あるいは不信頼しているかを実証的な研究が不足している。 ほとんどの研究は、仮説的なエンドユーザーと実験室の設定における信頼の一面を調査している。 本稿では,実世界のコンピュータビジョンアプリケーションの定性的なケーススタディを通じて,AIに対する信頼の包括的で曖昧な理解を提供する。 われわれは、人気の高いAIベースの鳥識別アプリのエンドユーザ20名を対象に、さまざまな角度からアプリに対する信頼について質問した。 参加者はこのアプリを信頼できるものと認識し、信頼していますが、検証行動に携わった後に選択的にアプリのアウトプットを受け入れました。 また、信頼に関する評価や意思決定において、ドメイン知識とコンテキストが重要な要素であることも分かりました。 本研究の目的は,AIの信頼性に関する今後の研究への提言である。

Trust is an important factor in people's interactions with AI systems. However, there is a lack of empirical studies examining how real end-users trust or distrust the AI system they interact with. Most research investigates one aspect of trust in lab settings with hypothetical end-users. In this paper, we provide a holistic and nuanced understanding of trust in AI through a qualitative case study of a real-world computer vision application. We report findings from interviews with 20 end-users of a popular, AI-based bird identification app where we inquired about their trust in the app from many angles. We find participants perceived the app as trustworthy and trusted it, but selectively accepted app outputs after engaging in verification behaviors, and decided against app adoption in certain high-stakes scenarios. We also find domain knowledge and context are important factors for trust-related assessment and decision-making. We discuss the implications of our findings and provide recommendations for future research on trust in AI.
翻訳日:2023-05-16 14:33:19 公開日:2023-05-15
# DarkBERT: インターネットのダークサイドのための言語モデル

DarkBERT: A Language Model for the Dark Side of the Internet ( http://arxiv.org/abs/2305.08596v1 )

ライセンス: Link先を確認
Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin(参考訳) 近年の研究では、ダークウェブで使われている言語とサーフェスウェブとは明らかに異なることが示されている。 ダークウェブの研究は一般的にドメインのテキスト分析を必要とするため、ダークウェブ特有の言語モデルは研究者に貴重な洞察を与える可能性がある。 本研究では,Dark Webデータに基づく言語モデルであるDarkBERTを紹介する。 ドメインの適切な表現を構築するのに不利なダークウェブの極端な語彙的および構造的多様性と戦うために、darkbertのトレーニングに使用されるテキストデータをフィルタリングしてコンパイルするステップについて説明する。 我々は、DarkBERTとそのバニラと他の広く使われている言語モデルを評価し、様々なユースケースにおいて、Dark Webドメイン固有のモデルが提供する利点を検証する。 評価の結果,DarkBERTは現在の言語モデルより優れており,今後のダークウェブ研究に有用な情報源となる可能性が示唆された。

Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. In this work, we introduce DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model offers in various use cases. Our evaluations show that DarkBERT outperforms current language models and may serve as a valuable resource for future research on the Dark Web.
翻訳日:2023-05-16 14:33:05 公開日:2023-05-15
# インテリジェントなユーザエージェントペアリングによるコールセンターのユーザエクスペリエンス向上

Improving Customer Experience in Call Centers with Intelligent Customer-Agent Pairing ( http://arxiv.org/abs/2305.08594v1 )

ライセンス: Link先を確認
S. Filippou, A. Tsiartas, P. Hadjineophytou, S. Christofides, K. Malialis, C. G. Panayiotou(参考訳) 顧客エクスペリエンスは、利益を上げる組織や企業にとって重要な役割を担います。 企業の満足度の高い顧客は、高い顧客保持率と市場におけるより良い表現に対応する。 顧客エクスペリエンスを改善するひとつの方法は、コールセンターの機能を最適化することだ。 本研究では,国内最大の通信・インターネットアクセスプロバイダと協力し,機械学習問題として顧客とエージェントのペアリング問題を定式化している。 提案手法は,ルールベースの手法と比較して,約215 %の大幅な性能向上をもたらす。

Customer experience plays a critical role for a profitable organisation or company. A satisfied customer for a company corresponds to higher rates of customer retention, and better representation in the market. One way to improve customer experience is to optimize the functionality of its call center. In this work, we have collaborated with the largest provider of telecommunications and Internet access in the country, and we formulate the customer-agent pairing problem as a machine learning problem. The proposed learning-based method causes a significant improvement in performance of about $215\%$ compared to a rule-based method.
翻訳日:2023-05-16 14:32:49 公開日:2023-05-15
# ソースロケーションのためのドメインエキスパートをマルチレベルモデルにエンコードする

Encoding Domain Expertise into Multilevel Models for Source Location ( http://arxiv.org/abs/2305.08657v1 )

ライセンス: Link先を確認
Lawrence A. Bull, Matthew R. Jones, Elizabeth J. Cross, Andrew Duncan, and Mark Girolami(参考訳) システムの人口からのデータは、多くの産業アプリケーションで広く使われている。 機械とインフラは、複雑な相互依存性を持つテレメトリデータのストリームを出力するセンサーシステムでますます装備されている。 実際には、データ中心の監視手順は、これらの資産(およびそれぞれのモデル)を分離して運用され、独立したデータに関連付けられていると考える傾向がある。 対照的に、この研究はシステム群のモデル間の統計的相関と相互依存性を捉えている。 ベイズ的マルチレベルアプローチを用いることで、人口は構成部品ではなく全体と見なすことができるため、データの値を拡張することができる。 最も興味深いことに、基礎となる物理学の専門知識と知識は、システム、サブグループ、あるいは集団レベルでモデルに符号化することができる。 本稿では, 音源位置の音響放射(時間)マッピングの例を示し, 多レベルモデルがエンジニアリングにおける集約システムに自然にどのように貢献するかを示す。 特に,統合モデルとドメイン知識の制約に着目し,伝達学習を強化し,人口レベルでのさらなる洞察を可能にする。

Data from populations of systems are prevalent in many industrial applications. Machines and infrastructure are increasingly instrumented with sensing systems, emitting streams of telemetry data with complex interdependencies. In practice, data-centric monitoring procedures tend to consider these assets (and respective models) as distinct -- operating in isolation and associated with independent data. In contrast, this work captures the statistical correlations and interdependencies between models of a group of systems. Utilising a Bayesian multilevel approach, the value of data can be extended, since the population can be considered as a whole, rather than constituent parts. Most interestingly, domain expertise and knowledge of the underlying physics can be encoded in the model at the system, subgroup, or population level. We present an example of acoustic emission (time-of-arrival) mapping for source location, to illustrate how multilevel models naturally lend themselves to representing aggregate systems in engineering. In particular, we focus on constraining the combined models with domain knowledge to enhance transfer learning and enable further insights at the population level.
翻訳日:2023-05-16 14:27:04 公開日:2023-05-15
# 周波数誘起逆調整と不完全文フィルタリングによる教師なし文表現学習

Unsupervised Sentence Representation Learning with Frequency-induced Adversarial Tuning and Incomplete Sentence Filtering ( http://arxiv.org/abs/2305.08655v1 )

ライセンス: Link先を確認
Bing Wang, Ximing Li, Zhiyao Yang, Yuanyuan Guan, Jiayin Li, Shengsheng Wang(参考訳) プレトレーニング言語モデル(PLM)は、現在、教師なし文表現学習(USRL)の主流となっている。 しかし、PLMは事前学習したコーパスからの単語の周波数情報に敏感であり、その結果、高周波ワードの埋め込みはクラスタ化されるが、低周波ワードの埋め込みはわずかに分散する。 この異方性現象は、類似性バイアスと情報バイアスの2つの問題を引き起こし、文埋め込みの品質が低下する。 この問題を解決するために、単語の周波数情報を活用してPLMを微調整し、SLT-FAI(Sentence Representation Learning with Frequency-induced Adversarial tuning and Incomplete sentence filtering)という新しいUSRLフレームワークを提案する。 我々は、plmの事前学習コーパス上で単語周波数を算出し、単語しきい値周波数ラベルを割り当てる。 With them, (1) we incorporate a similarity discriminator used to distinguish the embeddings of high-frequency and low-frequency words, and adversarially tune the PLM with it, enabling to achieve uniformly frequency-invariant embedding space; and (2) we propose a novel incomplete sentence detection task, where we incorporate an information discriminator to distinguish the embeddings of original sentences and incomplete sentences by randomly masking several low-frequency words, enabling to emphasize the more informative low-frequency words. 我々のSLT-FAIは柔軟でプラグアンドプレイのフレームワークであり、既存のUSRL技術と統合することができます。 ベンチマークデータセット上で,様々なバックボーンを用いてSLT-FAIを評価する。 その結果,SLT-FAIは既存のUSRLベースラインよりも優れていることがわかった。 私たちのコードは \url{https://github.com/wangbing1416/SLT-FAI} でリリースされています。

Pre-trained Language Model (PLM) is nowadays the mainstay of Unsupervised Sentence Representation Learning (USRL). However, PLMs are sensitive to the frequency information of words from their pre-training corpora, resulting in anisotropic embedding space, where the embeddings of high-frequency words are clustered but those of low-frequency words disperse sparsely. This anisotropic phenomenon results in two problems of similarity bias and information bias, lowering the quality of sentence embeddings. To solve the problems, we fine-tune PLMs by leveraging the frequency information of words and propose a novel USRL framework, namely Sentence Representation Learning with Frequency-induced Adversarial tuning and Incomplete sentence filtering (SLT-FAI). We calculate the word frequencies over the pre-training corpora of PLMs and assign words thresholding frequency labels. With them, (1) we incorporate a similarity discriminator used to distinguish the embeddings of high-frequency and low-frequency words, and adversarially tune the PLM with it, enabling to achieve uniformly frequency-invariant embedding space; and (2) we propose a novel incomplete sentence detection task, where we incorporate an information discriminator to distinguish the embeddings of original sentences and incomplete sentences by randomly masking several low-frequency words, enabling to emphasize the more informative low-frequency words. Our SLT-FAI is a flexible and plug-and-play framework, and it can be integrated with existing USRL techniques. We evaluate SLT-FAI with various backbones on benchmark datasets. Empirical results indicate that SLT-FAI can be superior to the existing USRL baselines. Our code is released in \url{https://github.com/wangbing1416/SLT-FAI}.
翻訳日:2023-05-16 14:26:46 公開日:2023-05-15
# 兄弟埋め込み分布を用いた教師なし意味変動予測

Unsupervised Semantic Variation Prediction using the Distribution of Sibling Embeddings ( http://arxiv.org/abs/2305.08654v1 )

ライセンス: Link先を確認
Taichi Aida, Danushka Bollegala(参考訳) 言語は動的実体であり、言葉に関連する意味は常に時間とともに変化する。 単語の意味変化を検出することは、時間に敏感な予測を行う必要がある様々なNLPアプリケーションにとって重要なタスクである。 意味変化予測に関する既存の研究は、主に、与えられたコーパスから計算された対象単語の平均的な文脈化表現の形式の比較に焦点が当てられている。 しかし、対象語に先立つ意味のいくつかは時間とともに時代遅れになり(例えば、ゲイの意味は幸福である)、既存の単語の新しい使用が観察される(例えば携帯電話としての携帯電話の意味)。 平均表現だけではそのような意味的変化を正確に捉えることはできず、対象単語の文脈化された埋め込みのコホート全体を使用する方法を提案し、これを兄弟分布と呼ぶ。 semeval-2020 task 1ベンチマークデータセットによる意味変化予測実験の結果,本手法は平均埋め込みのみを考慮した先行研究よりも優れており,現状と同等であることがわかった。 さらに, 定性解析により, 既存の手法では捉えられていない単語の重要な意味変化を検出する。 ソースコードはhttps://github.com/a1da4/svp-gaussで入手できる。

Languages are dynamic entities, where the meanings associated with words constantly change with time. Detecting the semantic variation of words is an important task for various NLP applications that must make time-sensitive predictions. Existing work on semantic variation prediction have predominantly focused on comparing some form of an averaged contextualised representation of a target word computed from a given corpus. However, some of the previously associated meanings of a target word can become obsolete over time (e.g. meaning of gay as happy), while novel usages of existing words are observed (e.g. meaning of cell as a mobile phone). We argue that mean representations alone cannot accurately capture such semantic variations and propose a method that uses the entire cohort of the contextualised embeddings of the target word, which we refer to as the sibling distribution. Experimental results on SemEval-2020 Task 1 benchmark dataset for semantic variation prediction show that our method outperforms prior work that consider only the mean embeddings, and is comparable to the current state-of-the-art. Moreover, a qualitative analysis shows that our method detects important semantic changes in words that are not captured by the existing methods. Source code is available at https://github.com/a1da4/svp-gauss .
翻訳日:2023-05-16 14:26:18 公開日:2023-05-15
# 深層学習におけるトポロジカル解釈可能性

Topological Interpretability for Deep-Learning ( http://arxiv.org/abs/2305.08642v1 )

ライセンス: Link先を確認
Adam Spannaus, Heidi A.Hanson, Lynne Penberthy, and Georgia Tourassi(参考訳) 日常的にAIベースのシステムが普及するにつれ、意思決定メカニズムを理解する必要性が増している。 aiベースの意思決定システムから得られる統計的推論を信頼できるレベルは、特に刑事司法や医療診断のようなリスクの高いシステムでは、悲劇的な結果をもたらす可能性がある、という懸念が高まっている。 現実世界のデータに関わる問題に対する解決策を提供することに成功したにもかかわらず、ディープラーニング(DL)モデルは予測の確実性を定量化できない。 そして、ソリューションが間違っていても、しばしば非常に自信があります。 本研究は,2つのDL分類モデルにおいて,トポロジカルおよび幾何学的データ解析の手法を用いて臨床および非臨床テキストで訓練された特徴を推測する手法を提案する。 モデルの予測空間のグラフを作成し、特徴量と予測統計量の類似性により入力をグラフの頂点にクラスタ化する。 次に,与えられたラベルに対して高い予測精度を示す部分グラフを抽出する。 これらのサブグラフにはdlモデルが決定に関連すると認識した特徴に関する豊富な情報が含まれている。 これらの特徴を確率測度間の距離メトリックを用いて推算し, ライム解釈法と比較し, 提案手法の安定性を示す。 この研究は、dlモデルの決定メカニズムに関する洞察を得ることを実証するものであり、モデルが問題に関する情報に基づいて決定を行っているか、あるいはデータ内の余分なパターンを特定することができる。

With the increasing adoption of AI-based systems across everyday life, the need to understand their decision-making mechanisms is correspondingly accelerating. The level at which we can trust the statistical inferences made from AI-based decision systems is an increasing concern, especially in high-risk systems such as criminal justice or medical diagnosis, where incorrect inferences may have tragic consequences. Despite their successes in providing solutions to problems involving real-world data, deep learning (DL) models cannot quantify the certainty of their predictions. And are frequently quite confident, even when their solutions are incorrect. This work presents a method to infer prominent features in two DL classification models trained on clinical and non-clinical text by employing techniques from topological and geometric data analysis. We create a graph of a model's prediction space and cluster the inputs into the graph's vertices by the similarity of features and prediction statistics. We then extract subgraphs demonstrating high-predictive accuracy for a given label. These subgraphs contain a wealth of information about features that the DL model has recognized as relevant to its decisions. We infer these features for a given label using a distance metric between probability measures, and demonstrate the stability of our method compared to the LIME interpretability method. This work demonstrates that we may gain insights into the decision mechanism of a DL model, which allows us to ascertain if the model is making its decisions based on information germane to the problem or identifies extraneous patterns within the data.
翻訳日:2023-05-16 14:25:57 公開日:2023-05-15
# 工学的アンシラリセットによる量子状態生成

Quantum state preparation via engineered ancilla resetting ( http://arxiv.org/abs/2305.08641v1 )

ライセンス: Link先を確認
Daniel Alcalde Puente, Felix Motzoi, Tommaso Calarco, Giovanna Morigi and Matteo Rizzi(参考訳) 本研究では, フラストレーションのない親ハミルトニアンの基底状態を作成するために, 周期量子リセットを組み込んだプロトコルの有効性について検討する。 このプロトコルはステアリングハミルトニアンを使用し、システムと補助的な自由度の間の局所的な結合を可能にする。 周期的な間隔で、補助システムは初期状態にリセットされる。 無限小のリセット時間の場合、ダイナミクスは定常状態が目標状態であるリンドブラジアンによって近似することができる。 しかし、有限リセット時間では、スピンチェーンとアンシラはリセット操作の間に絡み合う。 本プロトコルの性能を評価するために,spin-1 affleck-kennedy-lieb-tasaki状態の生成に着目し,行列積状態シミュレーションと量子軌道手法を用いた。 我々の分析は、異なるリセット間隔下での収束時間、忠実度、エネルギー進化を考察する。 その結果,より高速な収束にはアンシラ系の絡み合いが不可欠であることが判明した。 特に、プロトコルが最高に動作する最適なリセット時間が存在する。 単純な近似を用いて、リセット手順中にシステムに適用されるマッピング演算子を最適に選択する方法に関する洞察を提供する。 さらに, 本プロトコルは, リセット時間やノイズの低減に対して顕著な回復力を示す。 本研究は,量子リセットを用いたストロボスコープマップが,マルコフ力学に依存する量子貯留層工学や量子状態ステアリングプロトコルといった代替手法よりも優れていることを示唆する。

In this theoretical investigation, we study the effectiveness of a protocol that incorporates periodic quantum resetting to prepare ground states of frustration-free parent Hamiltonians. This protocol uses a steering Hamiltonian that enables local coupling between the system and ancillary degrees of freedom. At periodic intervals, the ancillary system is reset to its initial state. For infinitesimally short reset times, the dynamics can be approximated by a Lindbladian whose steady state is the target state. For finite reset times, however, the spin chain and the ancilla become entangled between reset operations. To evaluate the performance of the protocol, we employ Matrix Product State simulations and quantum trajectory techniques, focusing on the preparation of the spin-1 Affleck-Kennedy-Lieb-Tasaki state. Our analysis considers convergence time, fidelity, and energy evolution under different reset intervals. Our numerical results show that ancilla system entanglement is essential for faster convergence. In particular, there exists an optimal reset time at which the protocol performs best. Using a simple approximation, we provide insights into how to optimally choose the mapping operators applied to the system during the reset procedure. Furthermore, the protocol shows remarkable resilience to small deviations in reset time and dephasing noise. Our study suggests that stroboscopic maps using quantum resetting may offer advantages over alternative methods, such as quantum reservoir engineering and quantum state steering protocols, which rely on Markovian dynamics.
翻訳日:2023-05-16 14:25:36 公開日:2023-05-15
# 共変量シフト適応のための二重重み付け

Double-Weighting for Covariate Shift Adaptation ( http://arxiv.org/abs/2305.08637v1 )

ライセンス: Link先を確認
Jos\'e I. Segovia-Mart\'in, Santiago Mazuelas, and Anqi Liu(参考訳) 教師付き学習は、トレーニングおよびテストサンプルのインスタンス(covariates $x$)の限界分布である$\mathrm{p}_\text{tr}(x)$と$\mathrm{p}_\text{te}(x)$が異なるが、ラベル条件が一致する共変量シフトによってしばしば影響を受ける。 既存のアプローチでは、比 $\mathrm{p}_\text{te}(x)/\mathrm{p}_\text{tr}(x)$ to weight training sample (reweighting methods)、比 $\mathrm{p}_\text{tr}(x)/\mathrm{p}_\text{te}(x)$ to weight testing sample (robust methods)のいずれかを使用して、このような共変量シフトに対処する。 しかし、そのような手法の性能は、サポートミスマッチや上記の比率が大きな値を取る場合、劣る可能性がある。 本稿では,トレーニングとテストサンプルの重み付けによる制限を回避するために,共変量シフト適応のためのミニマックスリスク分類(mrc)手法を提案する。 さらに,重みを両立させ,従来のカーネル平均マッチング法を一般化する効果的な手法を開発した。 提案手法は,再重み付け法に比べて有効試料サイズが有意に増加することを示す新しい一般化境界を提供する。 提案手法は, 合成実験と実験実験の両方において, 高度な分類性能を実現する。

Supervised learning is often affected by a covariate shift in which the marginal distributions of instances (covariates $x$) of training and testing samples $\mathrm{p}_\text{tr}(x)$ and $\mathrm{p}_\text{te}(x)$ are different but the label conditionals coincide. Existing approaches address such covariate shift by either using the ratio $\mathrm{p}_\text{te}(x)/\mathrm{p}_\text{tr}(x)$ to weight training samples (reweighting methods) or using the ratio $\mathrm{p}_\text{tr}(x)/\mathrm{p}_\text{te}(x)$ to weight testing samples (robust methods). However, the performance of such approaches can be poor under support mismatch or when the above ratios take large values. We propose a minimax risk classification (MRC) approach for covariate shift adaptation that avoids such limitations by weighting both training and testing samples. In addition, we develop effective techniques that obtain both sets of weights and generalize the conventional kernel mean matching method. We provide novel generalization bounds for our method that show a significant increase in the effective sample size compared with reweighted methods. The proposed method also achieves enhanced classification performance in both synthetic and empirical experiments.
翻訳日:2023-05-16 14:25:14 公開日:2023-05-15
# SemEval-2023 Task 10: Ensemble Learningによる性行為検出におけるクラス不均衡問題の解決

AdamR at SemEval-2023 Task 10: Solving the Class Imbalance Problem in Sexism Detection with Ensemble Learning ( http://arxiv.org/abs/2305.08636v1 )

ライセンス: Link先を確認
Adam Rydelek, Daryna Dementieva, and Georg Groh(参考訳) オンラインセクシズムタスクの説明可能な検出は、3つのサブタスクを持つセクシストケースのきめ細かな分類を通して、説明可能なセクシズム検出の問題を示す。 私たちのチームは、データ拡張と損失修正技術を使って、タスク全体のクラス不均衡に対処するさまざまな方法を実験しました。 さまざまなデータセットでトレーニングされたTransformerモデルのアンサンブルを利用して、パフォーマンスと解釈可能性のバランスを見つけることで、この課題に取り組みました。 このソリューションは、各トラックの上位40対%のチームで私たちをランク付けします。

The Explainable Detection of Online Sexism task presents the problem of explainable sexism detection through fine-grained categorisation of sexist cases with three subtasks. Our team experimented with different ways to combat class imbalance throughout the tasks using data augmentation and loss alteration techniques. We tackled the challenge by utilising ensembles of Transformer models trained on different datasets, which are tested to find the balance between performance and interpretability. This solution ranked us in the top 40\% of teams for each of the tracks.
翻訳日:2023-05-16 14:24:39 公開日:2023-05-15
# Text2Gender: ブロガーの年齢と性別分析のためのディープラーニングアーキテクチャ

Text2Gender: A Deep Learning Architecture for Analysis of Blogger's Age and Gender ( http://arxiv.org/abs/2305.08633v1 )

ライセンス: Link先を確認
Vishesh Thakur and Aneesh Tickoo(参考訳) 深層学習技術はNLP研究の分野で大きな注目を集めている。 本研究の目的は,文章を検査することにより,個人の年齢と性別を予測することである。 本稿では,ブロガーの年齢と性別を予測するため,BERTに基づく分類手法を提案する。 使用するデータセットには681284行のデータが含まれており、ブロガーの年齢、性別、ブログのテキストに関する情報が含まれている。 我々は、アルゴリズムを同じ領域の前の作業と比較し、精度とF1のスコアを得る。 年齢層予測の精度は84.2%であり、性別予測の精度は86.32%であった。 本研究は,テキストデータのクラスを効率的に予測するBERTの生の能力に依存する。 本稿では,著者の人口動態を高い精度で予測し,複数の領域にまたがって適用可能であることを示す。

Deep learning techniques have gained a lot of traction in the field of NLP research. The aim of this paper is to predict the age and gender of an individual by inspecting their written text. We propose a supervised BERT-based classification technique in order to predict the age and gender of bloggers. The dataset used contains 681284 rows of data, with the information of the blogger's age, gender, and text of the blog written by them. We compare our algorithm to previous works in the same domain and achieve a better accuracy and F1 score. The accuracy reported for the prediction of age group was 84.2%, while the accuracy for the prediction of gender was 86.32%. This study relies on the raw capabilities of BERT to predict the classes of textual data efficiently. This paper shows promising capability in predicting the demographics of the author with high accuracy and can have wide applicability across multiple domains.
翻訳日:2023-05-16 14:24:28 公開日:2023-05-15
# 非バイナリLDPC符号を用いた高次元量子鍵分布の情報再構成

Information Reconciliation for High-Dimensional Quantum Key Distribution using Nonbinary LDPC codes ( http://arxiv.org/abs/2305.08631v1 )

ライセンス: Link先を確認
Ronny Mueller, Davide Bacco, Leif Katsou Oxenl{\o}we, S{\o}ren Forchhammer(参考訳) Information Reconciliationは、Slepian-Wolf符号によく似た量子鍵分配プロトコルの不可欠な部分である。 高次元離散可変量子鍵配置における情報再構成段階における非バイナリLDPC符号の適用を提案する。 quditが送信される$q$-ary対称チャネルを使用して量子チャネルをモデル化する。 量子鍵分布設定のための密度展開により最適化されたノード次数分布を示し、これらの分布を用いて構築されたコードにより、大規模アルファベット鍵の効率よく調合可能であることを示す。

Information Reconciliation is an essential part of Quantum Key distribution protocols that closely resembles Slepian-Wolf coding. The application of nonbinary LDPC codes in the Information Reconciliation stage of a high-dimensional discrete-variable Quantum Key Distribution setup is proposed. We model the quantum channel using a $q$-ary symmetric channel over which qudits are sent. Node degree distributions optimized via density evolution for the Quantum Key Distribution setting are presented, and we show that codes constructed using these distributions allow for efficient reconciliation of large-alphabet keys.
翻訳日:2023-05-16 14:24:15 公開日:2023-05-15
# 組合せ半バンド、線形バンド、mdpにおける非確率的遅延フィードバックの統一的解析

A Unified Analysis of Nonstochastic Delayed Feedback for Combinatorial Semi-Bandits, Linear Bandits, and MDPs ( http://arxiv.org/abs/2305.08629v1 )

ライセンス: Link先を確認
Dirk van der Hoeven and Lukas Zierahn and Tal Lancewicki and Aviv Rosenberg and Nicol\'o Cesa-Bianchi(参考訳) オンライン学習のためのFTRL(Follow The Regularized Leader)の新たな分析結果を得た。 遅延フィードバックのコストとバンディットフィードバックのコストを分離することで,3つの重要な設定で新たな結果を得ることができる。 一方、遅延のある組合せ半帯域に対する最初の最適(対数的要因まで)後悔境界を導出し、遅延(および既知の遷移関数)を持つ逆マルコフ決定過程を導出する。 一方,提案手法を用いて,線形帯域に対する効率の良いアルゴリズムを導出する。 我々の新しい後悔分解は、FTRLが正則化器のヘシアンに穏やかな仮定の下で複数のラウンドで安定であることを示している。

We derive a new analysis of Follow The Regularized Leader (FTRL) for online learning with delayed bandit feedback. By separating the cost of delayed feedback from that of bandit feedback, our analysis allows us to obtain new results in three important settings. On the one hand, we derive the first optimal (up to logarithmic factors) regret bounds for combinatorial semi-bandits with delay and adversarial Markov decision processes with delay (and known transition functions). On the other hand, we use our analysis to derive an efficient algorithm for linear bandits with delay achieving near-optimal regret bounds. Our novel regret decomposition shows that FTRL remains stable across multiple rounds under mild assumptions on the Hessian of the regularizer.
翻訳日:2023-05-16 14:24:07 公開日:2023-05-15
# ReLU関数を用いた非線形行列分解の高速化アルゴリズム

Accelerated Algorithms for Nonlinear Matrix Decomposition with the ReLU function ( http://arxiv.org/abs/2305.08687v1 )

ライセンス: Link先を確認
Giovanni Seraghiti, Atharva Awari, Arnaud Vandaele, Margherita Porcelli, Nicolas Gillis(参考訳) 本稿では、以下の非線形行列分解(NMD)問題を考察する: スパース非負行列 $X$ が与えられたとき、$X \approx f(\Theta)$ となるような低ランク行列 $\Theta$ を求める。 f(\cdot) = \max(0, \cdot)$,整流単位(relu)非線形活性化の場合に焦点を当てる。 対応する問題をReLU-NMDと呼ぶ。 まず、ReLU-NMDに取り組むために開発された既存のアプローチの概要を紹介する。 次に,(1)適応型ネステロフ外挿法を用いて既存のアルゴリズムを高速化するアグレッシブアクセラレーションNMD (A-NMD) と,(2)$\Theta = WH$をパラメータ化して計算コストを大幅に削減する3ブロックNMD (3B-NMD) の2つの新しいアルゴリズムを導入する。 また,階数関数の代理として,核規範に基づく効果的な初期化戦略を提案する。 合成および実世界のデータセットにおける提案アルゴリズム(gitlabで利用可能)の有効性について述べる。

In this paper, we study the following nonlinear matrix decomposition (NMD) problem: given a sparse nonnegative matrix $X$, find a low-rank matrix $\Theta$ such that $X \approx f(\Theta)$, where $f$ is an element-wise nonlinear function. We focus on the case where $f(\cdot) = \max(0, \cdot)$, the rectified unit (ReLU) non-linear activation. We refer to the corresponding problem as ReLU-NMD. We first provide a brief overview of the existing approaches that were developed to tackle ReLU-NMD. Then we introduce two new algorithms: (1) aggressive accelerated NMD (A-NMD) which uses an adaptive Nesterov extrapolation to accelerate an existing algorithm, and (2) three-block NMD (3B-NMD) which parametrizes $\Theta = WH$ and leads to a significant reduction in the computational cost. We also propose an effective initialization strategy based on the nuclear norm as a proxy for the rank function. We illustrate the effectiveness of the proposed algorithms (available on gitlab) on synthetic and real-world data sets.
翻訳日:2023-05-16 14:17:07 公開日:2023-05-15
# CLIP-VG: Pseudo-Language LabelsによるCLIPの自己ペースト適応

CLIP-VG: Self-paced Curriculum Adapting of CLIP via Exploiting Pseudo-Language Labels for Visual Grounding ( http://arxiv.org/abs/2305.08685v1 )

ライセンス: Link先を確認
Linhui Xiao, Xiaoshan Yang, Fang Peng, Ming Yan, Yaowei Wang, Changsheng Xu(参考訳) vg(visual grounding)とは、視覚言語の分野で重要な話題である、特定の画像における表現によって記述された領域の特定を指す。 ラベル付きデータへの依存を軽減するため、既存の教師なし手法はタスク非関連の擬似ラベルを用いて領域の特定を試みる。 しかし、疑似ラベルの大多数は騒がしく、言語分類学において多様性が乏しい。 v-lプリトレーニングの進歩に触発されて,vlpモデルを用いて下流地における教師なし転送学習を実現することを検討した。 そこで本研究では,vg 問題を解くために疑似言語ラベルを活用し,クリップの自己ペースのカリキュラム適応を行う新手法 clip-vg を提案する。 まず,効率的なモデル構造を構築することで,教師なしのVGに対して,より信頼性の高いクロスモーダルな擬似ラベルを段階的にサンプリングして最適なモデルを得る方法を提案する。 我々の手法は、既存の最先端の教師なしVG手法であるPseudo-Qを、6.78%〜10.67%、11.39%〜24.87%という大きなマージンを持つ単一ソースおよびマルチソースのシナリオで上回る。 コードとモデルは \url{https://github.com/linhuixiao/CLIP-VG} でリリースされる。

Visual Grounding (VG) refers to locating a region described by expressions in a specific image, which is a critical topic in vision-language fields. To alleviate the dependence on labeled data, existing unsupervised methods try to locate regions using task-unrelated pseudo-labels. However, a large proportion of pseudo-labels are noisy and diversity scarcity in language taxonomy. Inspired by the advances in V-L pretraining, we consider utilizing the VLP models to realize unsupervised transfer learning in downstream grounding task. Thus, we propose CLIP-VG, a novel method that can conduct self-paced curriculum adapting of CLIP via exploiting pseudo-language labels to solve VG problem. By elaborating an efficient model structure, we first propose a single-source and multi-source curriculum adapting method for unsupervised VG to progressively sample more reliable cross-modal pseudo-labels to obtain the optimal model, thus achieving implicit knowledge exploiting and denoising. Our method outperforms the existing state-of-the-art unsupervised VG method Pseudo-Q in both single-source and multi-source scenarios with a large margin, i.e., 6.78%~10.67% and 11.39%~24.87% on RefCOCO/+/g datasets, even outperforms existing weakly supervised methods. The code and models will be released at \url{https://github.com/linhuixiao/CLIP-VG}.
翻訳日:2023-05-16 14:16:45 公開日:2023-05-15
# 自然言語の分解と複雑な発話の解釈

Natural Language Decomposition and Interpretation of Complex Utterances ( http://arxiv.org/abs/2305.08677v1 )

ライセンス: Link先を確認
Harsh Jhamtani, Hao Fang, Patrick Xia, Eran Levy, Jacob Andreas, Ben Van Durme(参考訳) 自然言語インタフェースは、ユーザリクエストをプログラム、データベースクエリ、その他の構造化意図表現に変換するために、しばしば教師付きデータを必要とする。 例えば、単純なリクエストを処理するように設計されたシステム(例えば、$\textit{find my meeting}$や$\textit{move my meeting with my Manager to noon})では、より精巧なリクエスト(例えば、月曜と火曜日のすべての呼び出しに対して$\textit{swap)を表現できる。 本稿では,階層的な自然言語分解のプロセスを通じて,複雑な発話を処理するための単純な言語とコードモデルを導入するアプローチを提案する。 このアプローチでは,学習済みの言語モデルを用いて,複雑な発話をより小さな自然言語ステップの列に分解し,各ステップを言語からコードへのモデルで解釈する。 このアプローチをテストするために、我々はDeCU(Decomposition of Complex Utterances)を評価する新しいNL-to- programベンチマーク)を収集、リリースした。 実験により,提案手法により,複雑な訓練データを持たない複雑な発話の解釈が可能となり,かつ,標準のマイナショット・プロンプト手法を上回っていることが示された。

Natural language interfaces often require supervised data to translate user requests into programs, database queries, or other structured intent representations. During data collection, it can be difficult to anticipate and formalize the full range of user needs -- for example, in a system designed to handle simple requests (like $\textit{find my meetings tomorrow}$ or $\textit{move my meeting with my manager to noon})$, users may also express more elaborate requests (like $\textit{swap all my calls on Monday and Tuesday}$). We introduce an approach for equipping a simple language-to-code model to handle complex utterances via a process of hierarchical natural language decomposition. Our approach uses a pre-trained language model to decompose a complex utterance into a sequence of smaller natural language steps, then interprets each step using the language-to-code model. To test our approach, we collect and release DeCU -- a new NL-to-program benchmark to evaluate Decomposition of Complex Utterances. Experiments show that the proposed approach enables the interpretation of complex utterances with almost no complex training data, while outperforming standard few-shot prompting approaches.
翻訳日:2023-05-16 14:16:14 公開日:2023-05-15
# 効率的な名前不変グラフニューラル表現に基づく自動定理証明のためのアンサンブルアプローチ

An Ensemble Approach for Automated Theorem Proving Based on Efficient Name Invariant Graph Neural Representations ( http://arxiv.org/abs/2305.08676v1 )

ライセンス: Link先を確認
Achille Fokoue, Ibrahim Abdelaziz, Maxwell Crouse, Shajith Ikbal, Akihiro Kishimoto, Guilherme Lima, Ndivhuwo Makondo, Radu Marinescu(参考訳) 強化学習による定理の自動証明が最近注目を集めている。 現在のアプローチでは、これらのステートメントでよく使われる名前に依存する論理ステートメントの表現を使い、その結果、モデルが一般的にあるドメインから別のドメインに転送できない。 これらの表現のサイズと理論全体を含むか、あるいはその一部を含むかは、これらのアプローチのパフォーマンスと実行効率に影響を与える重要な決定である。 本稿では,NIAGRAというアンサンブル名のInvAriant Graph RepresentAtionを紹介する。 NIAGRAはこの問題に対処する 1) 独自の特徴と特徴に合わせた名前不変式表現学習のためのグラフニューラルネットワークの改良 2) 自動定理証明のための効率的なアンサンブル手法 実験により,各分野の複数のデータセットに対して,最高の学習ベースアプローチと比較して最大10%の改善が得られた。 さらに,移動学習実験により,我々のアプローチは他の学習ベースアプローチよりも最大28%優れていた。

Using reinforcement learning for automated theorem proving has recently received much attention. Current approaches use representations of logical statements that often rely on the names used in these statements and, as a result, the models are generally not transferable from one domain to another. The size of these representations and whether to include the whole theory or part of it are other important decisions that affect the performance of these approaches as well as their runtime efficiency. In this paper, we present NIAGRA; an ensemble Name InvAriant Graph RepresentAtion. NIAGRA addresses this problem by using 1) improved Graph Neural Networks for learning name-invariant formula representations that is tailored for their unique characteristics and 2) an efficient ensemble approach for automated theorem proving. Our experimental evaluation shows state-of-the-art performance on multiple datasets from different domains with improvements up to 10% compared to the best learning-based approaches. Furthermore, transfer learning experiments show that our approach significantly outperforms other learning-based approaches by up to 28%.
翻訳日:2023-05-16 14:15:49 公開日:2023-05-15
# 視覚言語事前学習のためのベースラインの改善

Improved baselines for vision-language pre-training ( http://arxiv.org/abs/2305.08675v1 )

ライセンス: Link先を確認
Enrico Fini and Pietro Astolfi and Adriana Romero-Soriano and Jakob Verbeek and Michal Drozdzal(参考訳) コントラスト学習はマルチモーダル表現を学習するための効率的なフレームワークとして登場した。 この領域の独創的な研究であるクリップは、コントラスト損失を使ってペア画像テキストデータをトレーニングすることで素晴らしい結果を得た。 最近の研究は、自己教師型学習にインスパイアされた非コントラスト的損失によるCLIPの改善を主張している。 しかし、モデルのトレーニングに使用されるデータ拡張や正規化といった他の実装の詳細から、これらの追加的な損失の貢献を外すのは難しい場合があります。 そこで本稿では,コントラスト学習と近年の自己教師型学習の進歩を組み合わせることで得られるいくつかの基本点を,まず提案し,実装し,評価する。 特に,視覚的自己指導学習において得られた損失関数を用いて画像とテキストのモダリティを整列させる。 これらのベースラインはCLIPの基本実装よりも優れています。 しかし、より強いトレーニングレシピを採用すると、その利点は消える。 実際、簡単なCLIPベースラインも大幅に改善され、他のサブフィールドで人気がある有名なトレーニング技術を使用することで、下流のゼロショットタスクを25%改善できることがわかった。 また,先行研究による改善のほとんどを補うために,画像やテキストの増補を適用するだけで十分であることがわかった。 clipのトレーニングレシピが改善されたことで,4つの標準データセットで最先端のパフォーマンスが得られ,従来作業(最大データセットでは最大+4%まで)を一貫して上回っています。

Contrastive learning has emerged as an efficient framework to learn multimodal representations. CLIP, a seminal work in this area, achieved impressive results by training on paired image-text data using the contrastive loss. Recent work claims improvements over CLIP using additional non-contrastive losses inspired from self-supervised learning. However, it is sometimes hard to disentangle the contribution of these additional losses from other implementation details, e.g., data augmentation or regularization techniques, used to train the model. To shed light on this matter, in this paper, we first propose, implement and evaluate several baselines obtained by combining contrastive learning with recent advances in self-supervised learning. In particular, we use the loss functions that were proven successful for visual self-supervised learning to align image and text modalities. We find that these baselines outperform a basic implementation of CLIP. However, when a stronger training recipe is employed, the advantage disappears. Indeed, we find that a simple CLIP baseline can also be improved substantially, up to a 25% relative improvement on downstream zero-shot tasks, by using well-known training techniques that are popular in other subfields. Moreover, we discover that it is enough to apply image and text augmentations to make up for most of the improvement attained by prior works. With our improved training recipe for CLIP, we obtain state-of-the-art performance on four standard datasets, and consistently outperform prior work (up to +4% on the largest dataset), while being substantially simpler.
翻訳日:2023-05-16 14:15:36 公開日:2023-05-15
# aUToLights:ロバストなマルチカメラ交通光検出・追跡システム

aUToLights: A Robust Multi-Camera Traffic Light Detection and Tracking System ( http://arxiv.org/abs/2305.08673v1 )

ライセンス: Link先を確認
Sean Wu and Nicole Amenta and Jiachen Zhou and Sandro Papais and Jonathan Kelly(参考訳) SAEオートドライブチャレンジシリーズIでの4年間の成功に続いて、トロント大学は2025年までに様々な都市交通シナリオを扱えるレベル4の自動運転旅客車を開発するシリーズIIコンペティションに参加している。 交通信号の正確な検出とその状態の正確な識別は、都市における安全な自律運転に不可欠である。 ここでは、トロント大学の自動運転車であるartemisのような自動運転車のための、最近再設計された交通光認識システムについて述べる。 ほとんどの交通光センシングシステムと同様に、私たちは主にカメラベースの物体検出器に依存しています。 複数のカメラにまたがってボックスレグレッションとトラフィック光の分類を行うためのYOLOv5検出器をデプロイし、観測結果を融合する。 頑健性を改善するため,高精細なセマンティックマップから先行情報を取り込み,隠れマルコフモデルを用いて状態フィルタリングを行う。 複数の可視交差点、交通光の変動、一時的な閉塞、点滅光状態を含む複雑な状況を処理するマルチカメラでリアルタイムな交通光認識パイプラインを実証する。 本システムを検証するために, 点滅状態と様々な閉塞型を含む様々なデータセットを収集, 注釈付けした。 実世界のシナリオにおいて,単一フレーム,単一カメラオブジェクト検出と比較して,より優れた性能を示す。

Following four successful years in the SAE AutoDrive Challenge Series I, the University of Toronto is participating in the Series II competition to develop a Level 4 autonomous passenger vehicle capable of handling various urban driving scenarios by 2025. Accurate detection of traffic lights and correct identification of their states is essential for safe autonomous operation in cities. Herein, we describe our recently-redesigned traffic light perception system for autonomous vehicles like the University of Toronto's self-driving car, Artemis. Similar to most traffic light perception systems, we rely primarily on camera-based object detectors. We deploy the YOLOv5 detector for bounding box regression and traffic light classification across multiple cameras and fuse the observations. To improve robustness, we incorporate priors from high-definition semantic maps and perform state filtering using hidden Markov models. We demonstrate a multi-camera, real time-capable traffic light perception pipeline that handles complex situations including multiple visible intersections, traffic light variations, temporary occlusion, and flashing light states. To validate our system, we collected and annotated a varied dataset incorporating flashing states and a range of occlusion types. Our results show superior performance in challenging real-world scenarios compared to single-frame, single-camera object detection.
翻訳日:2023-05-16 14:15:13 公開日:2023-05-15
# maddm: ユーティリティ最大化によるマルチアドバイザ動的バイナリ意思決定

MADDM: Multi-Advisor Dynamic Binary Decision-Making by Maximizing the Utility ( http://arxiv.org/abs/2305.08664v1 )

ライセンス: Link先を確認
Zhaori Guo, Timothy J. Norman, Enrico H. Gerding(参考訳) 複数の不完全なアドバイザーの反応から真実を推測できることは、融資、トレーディング、投資、クラウドソーシングといった多くの意思決定アプリケーションにおいて重要な問題である。 しかし実際には、一連のアドバイザーからの回答を集めるにはコストがかかる。 したがって,信頼性の高い回答を検索し,全体の有効性を最大化するアドバイザ選択戦略を見つけることは難しい問題である。 この問題に対処するために,複数の意思決定を行う必要がある連続二分決定設定において,助言者の集合を最適に選択するための新しい戦略を提案する。 重要なことは、我々は根底にある真実にアクセスできず、アドバイザーの信頼性に関する事前の知識もないと仮定する。 具体的には,(1)アドバイザーのコストと正しい意思決定価値のバランスをとることで,アドバイスを同時に選択する方法,(2)複数のアドバイザーに問い合わせることなくアドバイザーの信頼度を動的に学習する方法,(3)根底から真実にアクセスせずに最適な意思決定を行うこと,などを検討する。 本アルゴリズムをいくつかの数値実験により評価する。 その結果,本手法は最先端モデルを組み合わせた他の2つの手法よりも優れていることがわかった。

Being able to infer ground truth from the responses of multiple imperfect advisors is a problem of crucial importance in many decision-making applications, such as lending, trading, investment, and crowd-sourcing. In practice, however, gathering answers from a set of advisors has a cost. Therefore, finding an advisor selection strategy that retrieves a reliable answer and maximizes the overall utility is a challenging problem. To address this problem, we propose a novel strategy for optimally selecting a set of advisers in a sequential binary decision-making setting, where multiple decisions need to be made over time. Crucially, we assume no access to ground truth and no prior knowledge about the reliability of advisers. Specifically, our approach considers how to simultaneously (1) select advisors by balancing the advisors' costs and the value of making correct decisions, (2) learn the trustworthiness of advisers dynamically without prior information by asking multiple advisers, and (3) make optimal decisions without access to the ground truth, improving this over time. We evaluate our algorithm through several numerical experiments. The results show that our approach outperforms two other methods that combine state-of-the-art models.
翻訳日:2023-05-16 14:14:52 公開日:2023-05-15
# 長期視覚認識のための大域的および局所的混合一貫性累積学習

Global and Local Mixture Consistency Cumulative Learning for Long-tailed Visual Recognitions ( http://arxiv.org/abs/2305.08661v1 )

ライセンス: Link先を確認
Fei Du, Peng Yang and Qi Jia and Fengtao Nan and Xiaoting Chen and Yun Yang(参考訳) 本稿では,特徴抽出器の頑健さを向上するだけでなく,学習スキルとオーバーヘッドを低減しつつ,分類器のヘッドクラスへの偏見を緩和する,ロングテール視覚認識のためのシンプルな学習パラダイムを設計することを目的とする。 グローバル・ローカル混合一貫性累積学習(glmc)と呼ばれる長期視覚認識のための効率的な一段階学習戦略を提案する。 1)大域的および局所的な混合整合性損失は特徴抽出器の堅牢性を向上させる。 具体的には,同一バッチデータからグローバルミックスアップとローカルカットミックスの2つの拡張バッチを生成し,コサイン類似性を用いて差分を最小化する。 2) 累積ヘッドテールソフトラベルの再加重損失は, ヘッドクラスのバイアス問題を緩和する。 経験的クラス周波数を用いて,ロングテールデータに対するヘッドテールクラスの混合ラベルの重み付けを行い,エポック累積係数による従来の損失と再バランス損失のバランスをとる。 提案手法は, CIFAR10-LT, CIFAR100-LT, ImageNet-LTデータセットにおける最先端の精度を実現する。 バランスの取れたImageNetとCIFARに関するさらなる実験は、GLMCがバックボーンの一般化を大幅に改善できることを示した。 コードはhttps://github.com/ynu-yangpeng/GLMCで公開されている。

In this paper, our goal is to design a simple learning paradigm for long-tail visual recognition, which not only improves the robustness of the feature extractor but also alleviates the bias of the classifier towards head classes while reducing the training skills and overhead. We propose an efficient one-stage training strategy for long-tailed visual recognition called Global and Local Mixture Consistency cumulative learning (GLMC). Our core ideas are twofold: (1) a global and local mixture consistency loss improves the robustness of the feature extractor. Specifically, we generate two augmented batches by the global MixUp and local CutMix from the same batch data, respectively, and then use cosine similarity to minimize the difference. (2) A cumulative head tail soft label reweighted loss mitigates the head class bias problem. We use empirical class frequencies to reweight the mixed label of the head-tail class for long-tailed data and then balance the conventional loss and the rebalanced loss with a coefficient accumulated by epochs. Our approach achieves state-of-the-art accuracy on CIFAR10-LT, CIFAR100-LT, and ImageNet-LT datasets. Additional experiments on balanced ImageNet and CIFAR demonstrate that GLMC can significantly improve the generalization of backbones. Code is made publicly available at https://github.com/ynu-yangpeng/GLMC.
翻訳日:2023-05-16 14:14:33 公開日:2023-05-15
# 新型コロナウイルス(covid-19)の自動検出と重症度分類に向けて

Towards Automated COVID-19 Presence and Severity Classification ( http://arxiv.org/abs/2305.08660v1 )

ライセンス: Link先を確認
Dominik M\"uller, Niklas Schr\"oter, Silvan Mertes, Fabio Hellmann, Miriam Elia, Wolfgang Reif, Bernhard Bauer, Elisabeth Andr\'e, Frank Kramer(参考訳) トモグラフィーによる3次元胸郭CTによる新型コロナウイルスの存在分類と重症度予測が近年重要視されている。 特に集中治療室の容量計画では、新型コロナウイルス患者の将来の重症度を予測することが重要である。 提示されたアプローチは、これらの状況において医療専門家を支援するための最先端技術に従う。 resnet34の事前学習された3dバージョンと、covid-19分類と重症度予測のためのdancenet121をそれぞれ組み合わせた、転送学習を含む5倍クロスバリデーションによるアンサンブル学習戦略を含む。 さらに、モデル性能を最適化するためにドメイン固有の前処理を適用した。 また, 感染率, 患者年齢, 性別などの医療情報も含まれていた。 提示されたモデルでは、新型コロナウイルスの重症度を予測するためのAUCが79.0%、感染の有無を分類するためのAUCが83.7%である。 このアプローチはAUCMEDIフレームワークを使用して実装され、堅牢性と再現性を確保するためによく知られたネットワークアーキテクチャに依存している。

COVID-19 presence classification and severity prediction via (3D) thorax computed tomography scans have become important tasks in recent times. Especially for capacity planning of intensive care units, predicting the future severity of a COVID-19 patient is crucial. The presented approach follows state-of-theart techniques to aid medical professionals in these situations. It comprises an ensemble learning strategy via 5-fold cross-validation that includes transfer learning and combines pre-trained 3D-versions of ResNet34 and DenseNet121 for COVID19 classification and severity prediction respectively. Further, domain-specific preprocessing was applied to optimize model performance. In addition, medical information like the infection-lung-ratio, patient age, and sex were included. The presented model achieves an AUC of 79.0% to predict COVID-19 severity, and 83.7% AUC to classify the presence of an infection, which is comparable with other currently popular methods. This approach is implemented using the AUCMEDI framework and relies on well-known network architectures to ensure robustness and reproducibility.
翻訳日:2023-05-16 14:14:10 公開日:2023-05-15
# 最適化アルゴリズム、リャプノフ関数、微分方程式の接続について:理論と洞察

On the connections between optimization algorithms, Lyapunov functions, and differential equations: theory and insights ( http://arxiv.org/abs/2305.08658v1 )

ライセンス: Link先を確認
Paul Dobson and Jesus Maria Sanz-Serna and Konstantinos Zygalakis(参考訳) ファジラブらによって2018年に開発された線形行列不等式フレームワークを一般化することにより、リアプノフ関数を用いて微分方程式と$m$-stronglyおよび$L$-smooth convex関数の最適化アルゴリズムの接続について検討する。 新しいフレームワークを用いて、ネステロフ最適化手法の2パラメータファミリーに対する新しい(離散的な)リアプノフ関数を解析的に導き、それらの収束率を特徴づける。 これにより、これまで証明されていた係数の標準的な選択に対するネステロフの方法よりも大幅に改善された収束率を証明でき、また、最適率を得る係数の選択を特徴づけることができる。 我々は、Polyak ODE に対する新しい Lyapunov 関数を求め、この ODE と Nesterov のアルゴリズムの接続を再検討する。 さらに, 付加的ランジュ・クッタ離散化としてネステロフ法を新たに解釈し, ポリアク方程式の離散化が最適化アルゴリズムを高速化するために満たすべき構造条件を説明する。

We study connections between differential equations and optimization algorithms for $m$-strongly and $L$-smooth convex functions through the use of Lyapunov functions by generalizing the Linear Matrix Inequality framework developed by Fazylab et al. in 2018. Using the new framework we derive analytically a new (discrete) Lyapunov function for a two-parameter family of Nesterov optimization methods and characterize their convergence rate. This allows us to prove a convergence rate that improves substantially on the previously proven rate of Nesterov's method for the standard choice of coefficients, as well as to characterize the choice of coefficients that yields the optimal rate. We obtain a new Lyapunov function for the Polyak ODE and revisit the connection between this ODE and the Nesterov's algorithms. In addition discuss a new interpretation of Nesterov method as an additive Runge-Kutta discretization and explain the structural conditions that discretizations of the Polyak equation should satisfy in order to lead to accelerated optimization algorithms.
翻訳日:2023-05-16 14:13:53 公開日:2023-05-15
# 転写のない音声からテキストへの翻訳

Back Translation for Speech-to-text Translation Without Transcripts ( http://arxiv.org/abs/2305.08709v1 )

ライセンス: Link先を確認
Qingkai Fang, Yang Feng(参考訳) エンドツーエンドの音声テキスト翻訳(ST)の成功は、例えば、自動音声認識(ASR)と機械翻訳(MT)タスクを事前訓練したり、追加のASRとMTデータを導入することで、ソースの書き起こしを活用することでしばしば達成される。 残念ながら、書き起こし言語が世界中で多数存在するため、文字起こしは時折しか利用できない。 本稿では,大量のターゲット側モノリンガルデータを用いて,文字起こしなしでSTを向上させることを目的とする。 MTにおける後方翻訳の顕著な成功により,単言語対象データから擬似STデータを合成するST(BT4ST)の後方翻訳アルゴリズムを開発した。 短時間生成と一対多マッピングによって生じる課題を緩和するために, 自己教師付き離散単位を導入し, 目標間モデルと単位間モデルとをカスケードし, 逆変換を実現する。 合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。 さらなる実験により,本手法は低リソースシナリオにおいて特に有効であることが示された。

The success of end-to-end speech-to-text translation (ST) is often achieved by utilizing source transcripts, e.g., by pre-training with automatic speech recognition (ASR) and machine translation (MT) tasks, or by introducing additional ASR and MT data. Unfortunately, transcripts are only sometimes available since numerous unwritten languages exist worldwide. In this paper, we aim to utilize large amounts of target-side monolingual data to enhance ST without transcripts. Motivated by the remarkable success of back translation in MT, we develop a back translation algorithm for ST (BT4ST) to synthesize pseudo ST data from monolingual target data. To ease the challenges posed by short-to-long generation and one-to-many mapping, we introduce self-supervised discrete units and achieve back translation by cascading a target-to-unit model and a unit-to-speech model. With our synthetic ST data, we achieve an average boost of 2.3 BLEU on MuST-C En-De, En-Fr, and En-Es datasets. More experiments show that our method is especially effective in low-resource scenarios.
翻訳日:2023-05-16 14:08:52 公開日:2023-05-15
# デュアルマイクロウェーブ・ライドバーグ分光法による衛星電波検出

Satellite radio detection via dual-microwave Rydberg spectroscopy ( http://arxiv.org/abs/2305.08707v1 )

ライセンス: Link先を確認
Peter K Elgee, Joshua C Hill, Kermit-James E Leblanc, Gabriel D Ko, Paul D Kunz, David H Meyer, Kevin C Cox(参考訳) ライドバーグ電場センサは、多数のライドバーグ共鳴を利用して、広範囲の電磁スペクトルに対する感度を提供する。 しかし、超高周波数(UHF)以下で共振器状態にアクセスするのが困難であるため、現在の無線通信インフラのユビキタス帯域は、この範囲では感度が低い。 両光二重マイクロ波分光法を用いてUHF帯で動作する共振形Rydberg電界センサを提案する。 追加のマイクロ波光子を追加することで、rydbergのセンサーでよく使われる遷移よりも低い共鳴周波数の角運動量(l = 3 \rightarrow 4$)を持つrydberg状態間の遷移にアクセスできる。 我々は、UHF帯以下におけるこの種のセンサの適用性について議論し、我々のシステムの共振感度を2.3GHzで70(5)$\mu$Vm$^{-1}\text{Hz}^{-1/2}$で測定する。 また,シリウスxm衛星無線(2.320-2.345ghz)を実験室の外で受信し,原子に再送することにより,このセンシングの有効性を示す。

Rydberg electric field sensors exploit the large number of Rydberg resonances to provide sensitivity over a broad range of the electromagnetic spectrum. However, due to the difficulty of accessing resonant Rydberg states at ultra-high frequency (UHF) and below, ubiquitous bands in the world's current wireless communications infrastructure, they currently fall short in sensitivity in this range. We present a resonant Rydberg electric field sensor operating in the UHF band using a dual-optical dual-microwave spectroscopy scheme. Adding an additional microwave photon allows us to access transitions between Rydberg states with higher angular momentum ($L = 3 \rightarrow 4$), which have lower resonant frequencies than transitions typically used in Rydberg sensors. We discuss the applicability of this type of sensor across the UHF band and below, and measure the resonant sensitivity of our system at 2.3 GHz to be 70(5) $\mu$Vm$^{-1}\text{Hz}^{-1/2}$, 50 times better than the measured sensitivity with a far off-resonant probing scheme at this frequency. We also show the effectiveness of this sensing scheme by measuring Sirius XM satellite radio (2.320 - 2.345 GHz) received outside the laboratory and rebroadcast onto the atoms.
翻訳日:2023-05-16 14:08:26 公開日:2023-05-15
# 音声翻訳におけるモーダリティギャップの理解と橋渡し

Understanding and Bridging the Modality Gap for Speech Translation ( http://arxiv.org/abs/2305.08706v1 )

ライセンス: Link先を確認
Qingkai Fang, Yang Feng(参考訳) テキスト機械翻訳(MT)データを利用して、より優れたエンドツーエンド音声翻訳(ST)を実現するには? 既存の様々な技術の中で、マルチタスク学習はSTとMTの間で知識を共有する効果的な方法の1つであり、追加のMTデータがソース・ツー・ターゲットマッピングの学習に役立つ。 しかし、音声とテキストの相違により、常にSTとMTの間にギャップがある。本稿では、このモダリティギャップとターゲット側の表現差をまず理解し、そのモダリティギャップをニューラルマシン翻訳における他のよく知られた問題である露出バイアスと結びつける。 トレーニング中は,いくつかの難しいケースを除いて,モダリティギャップは比較的小さいが,カスケード効果により推論中は増加傾向にある。 これらの問題に対処するため,スケジューリングサンプリング(Cress)法を用いたクロスモーダル正規化を提案する。 具体的には,ST と MT の出力予測を正則化し,ターゲット側コンテキストは,基本真理語と自己生成語を様々な確率でサンプリングすることによって導出する。 さらに,目標トークンに対して異なるトレーニング重みを割り当てたトークンレベルの適応トレーニングを導入し,大きなモダリティギャップを持つ難しいケースに対処する。 実験と解析により,本手法はモダリティギャップを効果的に橋渡しし,MST-Cデータセットの8方向すべてで有望な結果が得られることが示された。

How to achieve better end-to-end speech translation (ST) by leveraging (text) machine translation (MT) data? Among various existing techniques, multi-task learning is one of the effective ways to share knowledge between ST and MT in which additional MT data can help to learn source-to-target mapping. However, due to the differences between speech and text, there is always a gap between ST and MT. In this paper, we first aim to understand this modality gap from the target-side representation differences, and link the modality gap to another well-known problem in neural machine translation: exposure bias. We find that the modality gap is relatively small during training except for some difficult cases, but keeps increasing during inference due to the cascading effect. To address these problems, we propose the Cross-modal Regularization with Scheduled Sampling (Cress) method. Specifically, we regularize the output predictions of ST and MT, whose target-side contexts are derived by sampling between ground truth words and self-generated words with a varying probability. Furthermore, we introduce token-level adaptive training which assigns different training weights to target tokens to handle difficult cases with large modality gaps. Experiments and analysis show that our approach effectively bridges the modality gap, and achieves promising results in all eight directions of the MuST-C dataset.
翻訳日:2023-05-16 14:08:00 公開日:2023-05-15
# スキーマ適応型知識グラフ構築

Schema-adaptable Knowledge Graph Construction ( http://arxiv.org/abs/2305.08703v1 )

ライセンス: Link先を確認
Hongbin Ye, Honghao Gui, Xin Xu, Huajun Chen, Ningyu Zhang(参考訳) 従来の知識グラフ構築(KGC)アプローチは、通常、事前定義されたスキーマの閉じたセットで静的情報抽出パラダイムに従う。 その結果、動的なシナリオやドメインに適用した場合、このようなアプローチは短くなりますが、新しいタイプの知識が生まれます。 これは、KGCの情報を取り出すために、進化するスキーマを自動で処理できるシステムを必要とする。 そこで本研究では,動的に変化するスキーマグラフに基づくエンティティ,関係,イベントの連続抽出を目的とした,スキーマ対応型kgcという新たなタスクを提案する。 まず、ベンチマークを構築するための3つの原則、すなわち水平スキーマ拡張、垂直スキーマ拡張、ハイブリッドスキーマ拡張に基づいて既存のデータセットを分割、変換し、その後、Text2Event、TANL、UIE、GPT-3といったよく知られたアプローチのスキーマ適応性パフォーマンスを調査します。 我々はさらに,スキーマ拡張型プレフィックスインストラクタとスキーマ条件付き動的デコードを含むadakgcと呼ばれる単純かつ効果的なベースラインを提案する。 総合的な実験結果から、AdaKGCはベースラインより優れているが、改善の余地があることが示された。 提案された作業がコミュニティに利益をもたらすことを願っています。 コードとデータセットはhttps://github.com/zjunlp/AdaKGCで入手できる。

Conventional Knowledge Graph Construction (KGC) approaches typically follow the static information extraction paradigm with a closed set of pre-defined schema. As a result, such approaches fall short when applied to dynamic scenarios or domains, whereas a new type of knowledge emerges. This necessitates a system that can handle evolving schema automatically to extract information for KGC. To address this need, we propose a new task called schema-adaptable KGC, which aims to continually extract entity, relation, and event based on a dynamically changing schema graph without re-training. We first split and convert existing datasets based on three principles to build a benchmark, i.e., horizontal schema expansion, vertical schema expansion, and hybrid schema expansion; then investigate the schema-adaptable performance of several well-known approaches such as Text2Event, TANL, UIE and GPT-3. We further propose a simple yet effective baseline dubbed AdaKGC, which contains schema-enriched prefix instructor and schema-conditioned dynamic decoding to better handle evolving schema. Comprehensive experimental results illustrate that AdaKGC can outperform baselines but still have room for improvement. We hope the proposed work can deliver benefits to the community. Code and datasets will be available in https://github.com/zjunlp/AdaKGC.
翻訳日:2023-05-16 14:07:35 公開日:2023-05-15
# 繰り返し事前トレーニングのためのリサイクル可能なチューニング

Recyclable Tuning for Continual Pre-training ( http://arxiv.org/abs/2305.08702v1 )

ライセンス: Link先を確認
Yujia Qin, Cheng Qian, Xu Han, Yankai Lin, Huadong Wang, Ruobing Xie, Zhiyuan Liu, Maosong Sun, and Jie Zhou(参考訳) 継続事前学習は、学習済み言語モデル(PLM)が成長するデータから新たな知識を継続的に獲得し、徐々にアップグレードされるパラダイムである。 アップグレードされたPLMがリリースされる前に、様々なタスクのためにオリジナルのPLMを調整し、適応した重みを記憶していたかもしれません。 しかし、アップグレードされたPLMをチューニングする場合、これらの時代遅れの適応した重量は無視され、廃棄され、潜在的に資源の浪費を引き起こす。 我々はこの問題を最前線に持ち込み、時代遅れの適応重量をリサイクルするための適切なアルゴリズムを開発するべきだと主張する。 この目的のために、連続的な事前学習のためのリサイクル可能なチューニングのタスクを定式化する。 パイロット実験では、継続的な事前訓練の後、アップグレードされたPLMは時代遅れの適応重量とある程度は相容れないことが判明した。 この発見に動機づけられて,事前学習されたplm間の接続を,モード接続性と機能的類似性という2つの新しい側面から分析した。 そこで本研究では,初期化法と蒸留法の両方を課題として提案する。 改良されたPLMをチューニングするための収束性および性能の向上の実現可能性を示す。 また,両手法が組み合わされ,性能が向上することを示す。 ソースコードはhttps://github.com/thunlp/recyclabletuningで公開されている。

Continual pre-training is the paradigm where pre-trained language models (PLMs) continually acquire fresh knowledge from growing data and gradually get upgraded. Before an upgraded PLM is released, we may have tuned the original PLM for various tasks and stored the adapted weights. However, when tuning the upgraded PLM, these outdated adapted weights will typically be ignored and discarded, causing a potential waste of resources. We bring this issue to the forefront and contend that proper algorithms for recycling outdated adapted weights should be developed. To this end, we formulate the task of recyclable tuning for continual pre-training. In pilot studies, we find that after continual pre-training, the upgraded PLM remains compatible with the outdated adapted weights to some extent. Motivated by this finding, we analyze the connection between continually pre-trained PLMs from two novel aspects, i.e., mode connectivity, and functional similarity. Based on the corresponding findings, we propose both an initialization-based method and a distillation-based method for our task. We demonstrate their feasibility in improving the convergence and performance for tuning the upgraded PLM. We also show that both methods can be combined to achieve better performance. The source codes are publicly available at https://github.com/thunlp/RecyclableTuning.
翻訳日:2023-05-16 14:07:11 公開日:2023-05-15
# トラップイオンのパラメトリック励起に基づく合成$\mathbb{Z}_2$ゲージ理論

Synthetic $\mathbb{Z}_2$ gauge theories based on parametric excitations of trapped ions ( http://arxiv.org/abs/2305.08700v1 )

ライセンス: Link先を確認
O. B\u{a}z\u{a}van, S. Saner, E. Tirrito, G. Araneda, R. Srinivas, A. Bermudez(参考訳) 本稿では, 捕獲イオンの結晶に基づくアナログ量子シミュレータを用いて, 動的ボソニック物質を用いた$\mathbb{z}_2$ゲージ理論の実装に関する詳細なスキームを提案する。 本稿では,イオンの内部量子ビット状態とそれらの運動を結合する異なる相互作用を用いて実装できる状態依存パラメトリック励起に基づく多用途ツールボックスを導入し,捕捉イオン量子ビットによって媒介される結晶の振動励起をトンネル化させる。 本ツールボックスの実現可能性を評価するため,現実的な実験パラメータを用いた検討手法の数値シミュレーションを行った。 この構成ブロックは、1つの閉じ込められたイオンで実装されると、量子ビットが存在する合成リンク上の最小の$\mathbb{z}_2$ゲージ理論に対応し、ゲージ場の役割を担う。 異なるトラップ軸に沿ったイオンの振動励起は、$\mathbb{Z}_2$の電荷を持つ動的物質場を模倣する。 我々は、この最小ケースをイオン数を増やすことでより複雑な設定に一般化する方法について議論する。 我々は、単一の$\mathbb{z}_2$プラーペットから$\mathbb{z}_2$ゲージチェーンへの移動を可能にする様々な可能性について記述する。 本稿では,行列積状態シミュレーションを用いてベンチマークを行ったゲージ不変ダイナミクスと閉じ込めの解析式を提案する。

We present a detailed scheme for the implementation of $\mathbb{Z}_2$ gauge theories with dynamical bosonic matter using analog quantum simulators based on crystals of trapped ions. We introduce a versatile toolbox based on a state-dependent parametric excitation, which can be implemented using different interactions that couple the ions' internal qubit states to their motion, and induces a tunneling of the vibrational excitations of the crystal mediated by the trapped-ion qubits. To evaluate the feasibility of this toolbox, we perform numerical simulations of the considered schemes using realistic experimental parameters. This building block, when implemented with a single trapped ion, corresponds to a minimal $\mathbb{Z}_2$ gauge theory on a synthetic link where the qubit resides, playing the role of the gauge field. The vibrational excitations of the ion along different trap axes mimic the dynamical matter fields carrying a $\mathbb{Z}_2$ charge. We discuss how to generalise this minimal case to more complex settings by increasing the number of ions. We describe various possibilities which allow us to move from a single $\mathbb{Z}_2$ plaquette to full $\mathbb{Z}_2$ gauge chains. We present analytical expressions for the gauge-invariant dynamics and confinement, which are benchmarked using matrix product state simulations.
翻訳日:2023-05-16 14:06:49 公開日:2023-05-15
# 連続的マルチモーダル知識グラフ構築

Continual Multimodal Knowledge Graph Construction ( http://arxiv.org/abs/2305.08698v1 )

ライセンス: Link先を確認
Xiang Chen, Jintian Zhang, Xiaohan Wang, Tongtong Wu, Shumin Deng, Yongheng Wang, Luo Si, Huajun Chen, Ningyu Zhang(参考訳) マルチモーダル知識グラフ構築(MMKC、Multimodal Knowledge Graph Construction)は、テキスト、画像、ビデオなどの複数のモダリティを通じて実体と関係を構造化した表現を作成する過程を指す。 しかし、既存のMMKCモデルは、現実世界の動的な性質により、新しい実体の導入や関係の扱いに制限がある。 さらに、mmkcの最先端の研究のほとんどは、テキストデータからのエンティティと関係抽出のみを考慮し、他のマルチモーダルな情報源を無視している。 一方、知識グラフ構築のための現在の連続的な設定は、他のマルチモーダルソースを無視しながら、テキストデータから実体と関係を抽出することしか考慮していない。 したがって、破壊的忘れの現象に対処し、異なる形式のデータから抽出された過去の知識の保持を確保するために、連続的マルチモーダル知識グラフ構築の課題を探求する必要がある。 この研究は、生涯にわたるマルチモーダルベンチマークデータセットの開発によって、この複雑なトピックを調査することに焦点を当てている。 マルチメディアデータを用いた学習において,複数の最先端mmkcモデルが,テキスト資源のみを連続的に利用するモデルに比べ,予期せぬほど過小評価される可能性があるという経験的知見に基づいて,連続多様知識グラフ構築のための生涯的マルチモーダル一貫性トランスフォーマフレームワーク(lmc)を提案する。 連続学習の文脈における一貫したkgc戦略の利点を組み合わせることで,安定性と可塑性のバランスが向上する。 本実験は,動的シナリオにおける連続学習手法やマルチモーダルアプローチよりも優れた性能を示す。 コードとデータセットはhttps://github.com/zjunlp/ContinueMKGCで見ることができる。

Multimodal Knowledge Graph Construction (MMKC) refers to the process of creating a structured representation of entities and relationships through multiple modalities such as text, images, videos, etc. However, existing MMKC models have limitations in handling the introduction of new entities and relations due to the dynamic nature of the real world. Moreover, most state-of-the-art studies in MMKC only consider entity and relation extraction from text data while neglecting other multi-modal sources. Meanwhile, the current continual setting for knowledge graph construction only consider entity and relation extraction from text data while neglecting other multi-modal sources. Therefore, there arises the need to explore the challenge of continuous multimodal knowledge graph construction to address the phenomenon of catastrophic forgetting and ensure the retention of past knowledge extracted from different forms of data. This research focuses on investigating this complex topic by developing lifelong multimodal benchmark datasets. Based on the empirical findings that several state-of-the-art MMKC models, when trained on multimedia data, might unexpectedly underperform compared to those solely utilizing textual resources in a continual setting, we propose a Lifelong MultiModal Consistent Transformer Framework (LMC) for continuous multimodal knowledge graph construction. By combining the advantages of consistent KGC strategies within the context of continual learning, we achieve greater balance between stability and plasticity. Our experiments demonstrate the superior performance of our method over prevailing continual learning techniques or multimodal approaches in dynamic scenarios. Code and datasets can be found at https://github.com/zjunlp/ContinueMKGC.
翻訳日:2023-05-16 14:06:25 公開日:2023-05-15
# 量子リピータネットワークのスケーリング限界

Scaling Limits of Quantum Repeater Networks ( http://arxiv.org/abs/2305.08696v1 )

ライセンス: Link先を確認
Mahdi Chehimi, Shahrooz Pouryousef, Nitish K. Panigrahy, Don Towsley, and Walid Saad(参考訳) 量子ネットワーク(QN)はセキュアな通信、強化されたセンシング、効率的な分散量子コンピューティングのための有望なプラットフォームである。 しかし、量子状態の脆弱な性質のため、これらのネットワークはスケーラビリティの面で大きな課題に直面している。 本稿では,量子リピータネットワーク(QRN)のスケーリング限界について解析する。 この研究の目標は、qos(application-specific quality-of-service)要件を満たす一方で、長距離量子通信を実現するqrnの全体的な長さやスケーラビリティを最大化することである。 特に、QRNのスケーラビリティを最大化することを目的とした、エンドツーエンドの忠実度とレートに関するQoS制約を満たす新しい共同最適化フレームワークを提案する。 提案手法は,QRNリピータノード数,分離距離,およびリンクレベルとエンド・ツー・エンドレベルの両方で行う蒸留ラウンド数を最適化する。 ゲートおよび測定誤差下でのQRNのスケーラビリティ,速度,忠実さのトレードオフを分析するために,広範囲なシミュレーションを行った。 得られた結果は、所定のQoS要求に対するQRNスケーリング限界を特徴づける。 提案されたアプローチは、将来のQRNデプロイメントのための有望なソリューションと設計ガイドラインを提供する。

Quantum networks (QNs) are a promising platform for secure communications, enhanced sensing, and efficient distributed quantum computing. However, due to the fragile nature of quantum states, these networks face significant challenges in terms of scalability. In this paper, the scaling limits of quantum repeater networks (QRNs) are analyzed. The goal of this work is to maximize the overall length, or scalability of QRNs such that long-distance quantum communications is achieved while application-specific quality-of-service (QoS) requirements are satisfied. In particular, a novel joint optimization framework that aims at maximizing QRN scalability, while satisfying QoS constraints on the end-to-end fidelity and rate is proposed. The proposed approach optimizes the number of QRN repeater nodes, their separation distance, and the number of distillation rounds to be performed at both link and end-to-end levels. Extensive simulations are conducted to analyze the tradeoffs between QRN scalability, rate, and fidelity under gate and measurement errors. The obtained results characterize the QRN scaling limits for a given QoS requirement. The proposed approach offers a promising solution and design guidelines for future QRN deployments.
翻訳日:2023-05-16 14:06:02 公開日:2023-05-15
# 拡散モデルから再現可能な訓練画像の抽出

A Reproducible Extraction of Training Images from Diffusion Models ( http://arxiv.org/abs/2305.08694v1 )

ライセンス: Link先を確認
Ryan Webster(参考訳) 近年、Carliiniらは、広く使われているStable Diffusionモデルが実際のトレーニングサンプルを再生成できることを示した。 本研究では,近年の攻撃に匹敵する効率的な抽出攻撃を行い,ネットワーク評価の精度を何桁も低減した。 この過程で,テンプレートの動詞をダブする新たな現象が明らかになり,拡散モデルによってトレーニングサンプルをほとんど触覚で再生する。 テンプレートの動詞は、検索とマスキングが正しいラベル付けを必要とするため、検出が難しい。 さらに、新しいシステムによっても生成され、トレーニングセットを重複しないシステムでも生成され、なぜ世代間に存在するのかについての洞察を与える。 我々は,Stable Diffusion 2.0,Deep Image Floyd,そして最後にMidjourney v4などのアートシステムから,トレーニングイメージを抽出する。 抽出攻撃の検証、攻撃の実行、および抽出されたプロンプトはすべて、 \url{https://github.com/ryanwebster90/onestep-extraction}でリリースします。

Recently, Carlini et al. demonstrated the widely used model Stable Diffusion can regurgitate real training samples, which is troublesome from a copyright perspective. In this work, we provide an efficient extraction attack on par with the recent attack, with several order of magnitudes less network evaluations. In the process, we expose a new phenomena, which we dub template verbatims, wherein a diffusion model will regurgitate a training sample largely in tact. Template verbatims are harder to detect as they require retrieval and masking to correctly label. Furthermore, they are still generated by newer systems, even those which de-duplicate their training set, and we give insight into why they still appear during generation. We extract training images from several state of the art systems, including Stable Diffusion 2.0, Deep Image Floyd, and finally Midjourney v4. We release code to verify our extraction attack, perform the attack, as well as all extracted prompts at \url{https://github.com/ryanwebster90/onestep-extraction}.
翻訳日:2023-05-16 14:05:43 公開日:2023-05-15
# 量子ビットに線形結合した有限スピン浴の長時間緩和

Long-time relaxation of a finite spin bath linearly coupled to a qubit ( http://arxiv.org/abs/2305.08692v1 )

ライセンス: Link先を確認
Jukka P. Pekola, Bayan Karimi, Marco Cattaneo, Sabrina Maniscalco(参考訳) 我々は、回転波近似における相互作用ハミルトニアンと、N$スピンの有限浴(二階系、TLS)に線形に結合した量子ビットの長時間緩和について論じる。 我々は、クォービットバス結合が弱いこと、スピン周波数の範囲が十分に広く、全てのスピンが基底状態で初期化されることを前提として、レギュラー$N\gg 1$に焦点を当てる。 モデルは完全に統合可能であるにもかかわらず、有効なシステムの緩和について興味深い2つの観察を行う。 まず、予想されるように、量子ビットはゼロ温度状態に向かって指数関数的に緩和する。 第二に、互いに結合している場合でも、浴室スピンは熱分布に向かってリラックスせず、最初の励起量子ビットの周波数でピークとなるローレンツ分布を形成する。 この挙動は、TLS周波数を連続体として扱うために$N\gg 1$という特性を利用する解析近似によって捉えられ、数値シミュレーションにより確認される。

We discuss the long-time relaxation of a qubit linearly coupled to a finite bath of $N$ spins (two-level systems, TLSs), with the interaction Hamiltonian in rotating wave approximation. We focus on the regime $N\gg 1$, assuming that the qubit-bath coupling is weak, that the range of spin frequencies is sufficiently broad, and that all the spins are initialized in the ground state. Despite the model being perfectly integrable, we make two interesting observations about the effective system relaxation. First, as one would expect, the qubit relaxes exponentially towards its zero-temperature state at a well characterized rate. Second, the bath spins, even when mutually coupled, do not relax towards a thermal distribution, but rather form a Lorentzian distribution peaked at the frequency of the initially excited qubit. This behavior is captured by an analytical approximation that makes use of the property $N\gg 1$ to treat the TLS frequencies as a continuum and is confirmed by our numerical simulations.
翻訳日:2023-05-16 14:05:22 公開日:2023-05-15
# 状態密度を持つ動的グラフの高速かつ分散的な変化検出

Fast and Attributed Change Detection on Dynamic Graphs with Density of States ( http://arxiv.org/abs/2305.08750v1 )

ライセンス: Link先を確認
Shenyang Huang, Jacob Danovitch, Guillaume Rabusseau, Reihaneh Rabbany(参考訳) 学術ネットワークにおける国際航空輸送ログからの交通障害やコラボレーションのダイナミクスの変化をどうやって検出できるのか? これらの問題は、動的グラフにおける異常な変化点の検出として定式化することができる。 現在のソリューションは、大規模な実世界のグラフに対してうまくスケールせず、大量のノードの追加/削除に対する堅牢性がなく、ノード属性の変更を見落としている。 そこで本研究では,新しいスペクトル法であるスケーラブルな変化点検出(scpd)を提案する。 SCPDは、各ステップにおけるラプラシアスペクトルの分布を効率的に近似することにより、グラフスナップショット毎に埋め込みを生成する。 scpdはまた、属性と固有ベクトルの間の相関を追跡することで、ノード属性のシフトをキャプチャできる。 合成データと実世界データを用いた広範な実験を通して、scpdは (a)最先端の成果を成し遂げる。 b) は最先端のメソッドよりもはるかに高速であり、数cpuで数百万のエッジを簡単に処理できる。 c) 大量のノード属性、追加または削除に効果的に取り組むことができる。 (d) 大きな実世界のグラフで興味深い事象を発見する。 コードはhttps://github.com/shenyangHuang/SCPD.gitで公開されている。

How can we detect traffic disturbances from international flight transportation logs or changes to collaboration dynamics in academic networks? These problems can be formulated as detecting anomalous change points in a dynamic graph. Current solutions do not scale well to large real-world graphs, lack robustness to large amounts of node additions/deletions, and overlook changes in node attributes. To address these limitations, we propose a novel spectral method: Scalable Change Point Detection (SCPD). SCPD generates an embedding for each graph snapshot by efficiently approximating the distribution of the Laplacian spectrum at each step. SCPD can also capture shifts in node attributes by tracking correlations between attributes and eigenvectors. Through extensive experiments using synthetic and real-world data, we show that SCPD (a) achieves state-of-the art performance, (b) is significantly faster than the state-of-the-art methods and can easily process millions of edges in a few CPU minutes, (c) can effectively tackle a large quantity of node attributes, additions or deletions and (d) discovers interesting events in large real-world graphs. The code is publicly available at https://github.com/shenyangHuang/SCPD.git
翻訳日:2023-05-16 13:58:01 公開日:2023-05-15
# プライバシー判断の自動化 -- 線を引く場所は?

Automating privacy decisions -- where to draw the line? ( http://arxiv.org/abs/2305.08747v1 )

ライセンス: Link先を確認
Victor Morel and Simone Fischer-H\"ubner(参考訳) ユーザは、Webやモバイル、IoT環境で起こりうる個人情報を管理するためのプライバシ決定に圧倒されることが多い。 これらの決定は、プライバシ権限やプライバシ優先の設定の決定、同意要求への対応の決定、あるいは個人データの‘reject’処理に介入するなど、さまざまな形態を取ることができ、それぞれが異なる法的影響を持つことができる。 あらゆるケースとあらゆる種類の意思決定において、学者や業界は、ユーザビリティを高めるために、さまざまなレベルでプライバシー決定のプロセスをより良く自動化するためのツールを提案してきた。 本稿では,プライバシ決定の自動化によって生じる主な課題の概要と,既存かつ想定されている作業の分類と,プライバシ決定の自動化に取り組む提案について述べる。

Users are often overwhelmed by privacy decisions to manage their personal data, which can happen on the web, in mobile, and in IoT environments. These decisions can take various forms -- such as decisions for setting privacy permissions or privacy preferences, decisions responding to consent requests, or to intervene and ``reject'' processing of one's personal data --, and each can have different legal impacts. In all cases and for all types of decisions, scholars and industry have been proposing tools to better automate the process of privacy decisions at different levels, in order to enhance usability. We provide in this paper an overview of the main challenges raised by the automation of privacy decisions, together with a classification scheme of the existing and envisioned work and proposals addressing automation of privacy decisions.
翻訳日:2023-05-16 13:57:45 公開日:2023-05-15
# ニューラルネットワークに基づく音声強調における不確かさの統合

Integrating Uncertainty into Neural Network-based Speech Enhancement ( http://arxiv.org/abs/2305.08744v1 )

ライセンス: Link先を確認
Huajian Fang, Dennis Becker, Stefan Wermter and Timo Gerkmann(参考訳) 時間周波数領域における監視マスキングアプローチは、ディープニューラルネットワークを使用して乗法マスクを推定し、クリーンな音声を抽出することを目的としている。 これにより、各入力に対する単一の見積が、信頼性の保証や測定なしで実現される。 本稿では,クリーン音声推定における不確実性モデリングの利点について検討する。 予測の不確実性は、典型的にはアレタリック不確実性とてんかん不確実性に分類される。 前者はデータに固有のランダム性を指し、後者はモデルパラメータの不確実性を記述する。 そこで本研究では,ニューラルネットワークに基づく音声強調において,失語症とてんかんの不確かさを共同でモデル化する枠組みを提案する。 提案手法では,音声の後方分布の統計的モーメントを推定し,不確実性推定を明示的に取り入れ,クリーンな音声推定をさらに改善する。 疫学的な不確実性については,モンテカルロ・ドロップアウトとディープアンサンブルという2つのベイズ的深層学習手法を用いて,ニューラルネットワークパラメータの不確かさの定量化を行う。 分析の結果,提案手法が実用的かつ信頼性の高い不確実性獲得を促進する一方で,異なる不確実性源を組み合わせることにより,より信頼性の高い予測不確実性推定が可能となった。 さらに,不確かさを考慮しない比較モデルと比較して,異なるデータセット上でフレームワークを評価することにより,音声強調性能に対する不確実性モデリングの利点を実証する。

Supervised masking approaches in the time-frequency domain aim to employ deep neural networks to estimate a multiplicative mask to extract clean speech. This leads to a single estimate for each input without any guarantees or measures of reliability. In this paper, we study the benefits of modeling uncertainty in clean speech estimation. Prediction uncertainty is typically categorized into aleatoric uncertainty and epistemic uncertainty. The former refers to inherent randomness in data, while the latter describes uncertainty in the model parameters. In this work, we propose a framework to jointly model aleatoric and epistemic uncertainties in neural network-based speech enhancement. The proposed approach captures aleatoric uncertainty by estimating the statistical moments of the speech posterior distribution and explicitly incorporates the uncertainty estimate to further improve clean speech estimation. For epistemic uncertainty, we investigate two Bayesian deep learning approaches: Monte Carlo dropout and Deep ensembles to quantify the uncertainty of the neural network parameters. Our analyses show that the proposed framework promotes capturing practical and reliable uncertainty, while combining different sources of uncertainties yields more reliable predictive uncertainty estimates. Furthermore, we demonstrate the benefits of modeling uncertainty on speech enhancement performance by evaluating the framework on different datasets, exhibiting notable improvement over comparable models that fail to account for uncertainty.
翻訳日:2023-05-16 13:57:30 公開日:2023-05-15
# グラディエントベース概要統計を用いた補修後近似

Refining Amortized Posterior Approximations using Gradient-Based Summary Statistics ( http://arxiv.org/abs/2305.08733v1 )

ライセンス: Link先を確認
Rafael Orozco, Ali Siahkoohi, Mathias Louboutin, Felix J. Herrmann(参考訳) 本稿では,ループ展開勾配降下法に触発されたベイズ逆問題の文脈における後続分布の漸近近似を改善するための反復的枠組みを提案する。 償却変分推論は、選択された変分分布の表現力と、合同データとパラメータサンプルの形式でのトレーニングデータの可用性によって制限され、償却ギャップのような近似誤差につながることが多い。 この問題に対処するために、各ステップにおける現在の補正後近似を洗練する反復的フレームワークを提案する。 本手法は,(1)グラデーションに基づく要約統計を用いて要約データ残差が生成されるデータ残差とパラメータのペアからなるトレーニングデータセットの構築,(2)このデータセット上で条件付き生成モデル -- 正規化フロー -- をトレーニングし,未知パラメータの確率的更新を得るという2つのステップを交互に実施する。 この手順は、余分なトレーニングデータを必要とせずに、償却後の近似を反復的に洗練させる。 本手法を定型化問題に適用し,制御条件下で検証し,各イテレーションにおける後方近似の改善を観察した。 さらに, 波動物理学による高次元非線形逆問題である経頭蓋超音波に適用し, 後方平均による画像再構成により, 後方品質の向上を観測することで, 実物大問題に取り組む手法の有用性を示す。

We present an iterative framework to improve the amortized approximations of posterior distributions in the context of Bayesian inverse problems, which is inspired by loop-unrolled gradient descent methods and is theoretically grounded in maximally informative summary statistics. Amortized variational inference is restricted by the expressive power of the chosen variational distribution and the availability of training data in the form of joint data and parameter samples, which often lead to approximation errors such as the amortization gap. To address this issue, we propose an iterative framework that refines the current amortized posterior approximation at each step. Our approach involves alternating between two steps: (1) constructing a training dataset consisting of pairs of summarized data residuals and parameters, where the summarized data residual is generated using a gradient-based summary statistic, and (2) training a conditional generative model -- a normalizing flow in our examples -- on this dataset to obtain a probabilistic update of the unknown parameter. This procedure leads to iterative refinement of the amortized posterior approximations without the need for extra training data. We validate our method in a controlled setting by applying it to a stylized problem, and observe improved posterior approximations with each iteration. Additionally, we showcase the capability of our method in tackling realistically sized problems by applying it to transcranial ultrasound, a high-dimensional, nonlinear inverse problem governed by wave physics, and observe enhanced posterior quality through better image reconstruction with the posterior mean.
翻訳日:2023-05-16 13:57:06 公開日:2023-05-15
# 事前学習型言語モデルの知識リミネーション

Knowledge Rumination for Pre-trained Language Models ( http://arxiv.org/abs/2305.08732v1 )

ライセンス: Link先を確認
Yunzhi Yao, Peng Wang, Shengyu Mao, Chuanqi Tan, Fei Huang, Huajun Chen, Ningyu Zhang(参考訳) これまでの研究では、バニラ事前学習言語モデル(PLM)は知識集約型NLPタスクのみを扱う能力に欠けており、いくつかの研究が外部知識をPLMに統合しようと試みている。 しかし, 有望な結果にもかかわらず, PLMは事前学習したパラメータの豊富な知識をすでにコード化しており, 知識集約型タスクに適用しても十分に活用できないことを実証的に観察する。 本稿では,学習済み言語モデルが外部コーパスから検索することなく関連する潜在知識を活用できるように,知識ラミネーションと呼ばれる新しいパラダイムを提案する。 のようなプロンプトをPLMに追加するだけで、私たちは関連する潜伏した知識をレビューして、それらを知識統合のためのモデルに注入しようとします。 提案手法をRoBERTa, DeBERTa, GPT-3, OPT など様々な言語モデルに適用する。 6つのコモンセンス推論タスクとglueベンチマークの実験結果は,提案手法の有効性を実証するものであり,plmに格納された知識を下流のパフォーマンス向上に役立てることができることをさらに証明した。 コードはhttps://github.com/zjunlp/knowledge-ruminationで入手できる。

Previous studies have revealed that vanilla pre-trained language models (PLMs) lack the capacity to handle knowledge-intensive NLP tasks alone; thus, several works have attempted to integrate external knowledge into PLMs. However, despite the promising outcome, we empirically observe that PLMs may have already encoded rich knowledge in their pre-trained parameters but fails to fully utilize them when applying to knowledge-intensive tasks. In this paper, we propose a new paradigm dubbed Knowledge Rumination to help the pre-trained language model utilize those related latent knowledge without retrieving them from the external corpus. By simply adding a prompt like ``As far as I know'' to the PLMs, we try to review related latent knowledge and inject them back to the model for knowledge consolidation. We apply the proposed knowledge rumination to various language models, including RoBERTa, DeBERTa, GPT-3 and OPT. Experimental results on six commonsense reasoning tasks and GLUE benchmarks demonstrate the effectiveness of our proposed approach, which further proves that the knowledge stored in PLMs can be better exploited to enhance the downstream performance. Code will be available in https://github.com/zjunlp/knowledge-rumination.
翻訳日:2023-05-16 13:56:38 公開日:2023-05-15
# 時間依存密度汎関数理論による断熱ダイソン方程式の数学的解析

A mathematical analysis of the adiabatic Dyson equation from time-dependent density functional theory ( http://arxiv.org/abs/2305.08731v1 )

ライセンス: Link先を確認
Thiago Carvalho Corso(参考訳) 本稿では、線形応答時間依存密度汎関数理論(LR-TDDFT)において中心的な役割を果たす密度密度応答関数(DDRF)に対するダイソン方程式を解析する。 まず,離散系(有限系と無限系)と連続系に対する一般断熱近似を伴うダイソン方程式の統一的な処理を可能にする関数解析集合を提案する。 この設定において、我々はカシダ行列の作用素バージョンの観点からダイソン方程式の解の表現公式を導出する。 カシダ行列は物理学の文献でよく知られているが、N体波動関数空間における(非有界な)作用素としての一般定式化は新しいものと思われる。 さらに、ここで得られた解公式のいくつかの帰結を導き、特に、解の安定性を議論し、フーリエ変換の最大メロモルフィック展開を特徴づける。 次に, 適切なコンパクト性条件を満たす断熱近似について, 初期密度-密度応答関数の正則継続の極大領域とダイソン方程式の解が同一であることを示す。 この結果は, ランダム位相近似 (RPA) や局所密度近似 (ALDA) など, 広く用いられている断熱近似に適用できる。 特にこれらの結果は、いずれの近似もコーン・シャム系のイオン化閾値をシフトできないことを示している。

In this article, we analyze the Dyson equation for the density-density response function (DDRF) that plays a central role in linear response time-dependent density functional theory (LR-TDDFT). First, we present a functional analytic setting that allows for a unified treatment of the Dyson equation with general adiabatic approximations for discrete (finite and infinite) and continuum systems. In this setting, we derive a representation formula for the solution of the Dyson equation in terms of an operator version of the Casida matrix. While the Casida matrix is well-known in the physics literature, its general formulation as an (unbounded) operator in the N-body wavefunction space appears to be new. Moreover, we derive several consequences of the solution formula obtained here; in particular, we discuss the stability of the solution and characterize the maximal meromorphic extension of its Fourier transform. We then show that for adiabatic approximations satisfying a suitable compactness condition, the maximal domains of meromorphic continuation of the initial density-density response function and the solution of the Dyson equation are the same. The results derived here apply to widely used adiabatic approximations such as (but not limited to) the random phase approximation (RPA) and the adiabatic local density approximation (ALDA). In particular, these results show that neither of these approximations can shift the ionization threshold of the Kohn-Sham system.
翻訳日:2023-05-16 13:56:18 公開日:2023-05-15
# ファウショット学習のためのより差別的なローカル記述子学習

Learning More Discriminative Local Descriptors for Few-shot Learning ( http://arxiv.org/abs/2305.08721v1 )

ライセンス: Link先を確認
Qijun Song and Siyun Zhou and Liwei Xu(参考訳) 画像分類のための画像分類学習は、限られたラベル付き画像から高速に学習し、新しいタスクを一般化することを目的とした、コンピュータビジョンにおけるホットトピックとして現れている。 本稿では,フィッシャースコアの考え方に動機づけられ,代表的局所記述子を適応的に選択し,追加パラメータを含まない識別的局所記述子注意(dlda)モデルを提案する。 さらに,従来の$k$-NN分類モデルを,クエリポイントからの距離に応じて,隣接する$k$の重みを調整することで変更する。 4つのベンチマークデータセットを用いた実験により,本手法は,数ショット学習における最先端手法と比較して精度が高いだけでなく,$k$の選択に対する感度も低いことがわかった。

Few-shot learning for image classification comes up as a hot topic in computer vision, which aims at fast learning from a limited number of labeled images and generalize over the new tasks. In this paper, motivated by the idea of Fisher Score, we propose a Discriminative Local Descriptors Attention (DLDA) model that adaptively selects the representative local descriptors and does not introduce any additional parameters, while most of the existing local descriptors based methods utilize the neural networks that inevitably involve the tedious parameter tuning. Moreover, we modify the traditional $k$-NN classification model by adjusting the weights of the $k$ nearest neighbors according to their distances from the query point. Experiments on four benchmark datasets show that our method not only achieves higher accuracy compared with the state-of-art approaches for few-shot learning, but also possesses lower sensitivity to the choices of $k$.
翻訳日:2023-05-16 13:55:57 公開日:2023-05-15
# m$^{6}$doc:現代の文書レイアウト分析のための大規模マルチフォーマット、マルチタイプ、マルチレイアウト、マルチ言語、マルチアノテーションカテゴリデータセット

M$^{6}$Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis ( http://arxiv.org/abs/2305.08719v1 )

ライセンス: Link先を確認
Hiuyi Cheng, Peirong Zhang, Sihang Wu, Jiaxin Zhang, Qiyuan Zhu, Zecheng Xie, Jing Li, Kai Ding, and Lianwen Jin(参考訳) 文書レイアウト解析は文書検索や変換を含む文書理解の重要な前提条件である。 ほとんどの公開データセットはpdfドキュメントしか含んでおらず、現実的なドキュメントが欠落している。 これらのデータセットでトレーニングされたモデルは、現実世界のシナリオにうまく一般化できない可能性がある。 そこで本稿では,大規模かつ多様な文書レイアウト解析データセット $m^{6}doc$ を導入する。 The $M^6$ designation represents six properties: (1) Multi-Format (including scanned, photographed, and PDF documents); (2) Multi-Type (such as scientific articles, textbooks, books, test papers, magazines, newspapers, and notes); (3) Multi-Layout (rectangular, Manhattan, non-Manhattan, and multi-column Manhattan); (4) Multi-Language (Chinese and English); (5) Multi-Annotation Category (74 types of annotation labels with 237,116 annotation instances in 9,080 manually annotated pages); and (6) Modern documents. また,TransDLANetと呼ばれる変換器を用いた文書レイアウト解析手法を提案する。この手法では,クエリの埋め込みにより,より正確な文書画像のインスタンス分割のためのセグメンテーション・ブランチを構築することができる。 我々は,様々なレイアウト解析手法を用いて$m^{6}doc$の包括的評価を行い,その効果を示す。 TransDLANetは64.5\% mAPで$M^{6}Doc$の最先端のパフォーマンスを達成する。 M^{6}Doc$データセットはhttps://github.com/HCIILAB/M6Docで入手できる。

Document layout analysis is a crucial prerequisite for document understanding, including document retrieval and conversion. Most public datasets currently contain only PDF documents and lack realistic documents. Models trained on these datasets may not generalize well to real-world scenarios. Therefore, this paper introduces a large and diverse document layout analysis dataset called $M^{6}Doc$. The $M^6$ designation represents six properties: (1) Multi-Format (including scanned, photographed, and PDF documents); (2) Multi-Type (such as scientific articles, textbooks, books, test papers, magazines, newspapers, and notes); (3) Multi-Layout (rectangular, Manhattan, non-Manhattan, and multi-column Manhattan); (4) Multi-Language (Chinese and English); (5) Multi-Annotation Category (74 types of annotation labels with 237,116 annotation instances in 9,080 manually annotated pages); and (6) Modern documents. Additionally, we propose a transformer-based document layout analysis method called TransDLANet, which leverages an adaptive element matching mechanism that enables query embedding to better match ground truth to improve recall, and constructs a segmentation branch for more precise document image instance segmentation. We conduct a comprehensive evaluation of $M^{6}Doc$ with various layout analysis methods and demonstrate its effectiveness. TransDLANet achieves state-of-the-art performance on $M^{6}Doc$ with 64.5\% mAP. The $M^{6}Doc$ dataset will be available at https://github.com/HCIILAB/M6Doc.
翻訳日:2023-05-16 13:55:39 公開日:2023-05-15
# 日本語発音に対する大規模言語モデルの感度とロバスト性

Sensitivity and Robustness of Large Language Models to Prompt in Japanese ( http://arxiv.org/abs/2305.08714v1 )

ライセンス: Link先を確認
Chengguang Gan and Tatsunori Mori(参考訳) 近年、事前訓練と大規模言語モデルの進歩により、プロンプトエンジニアリングは重要な意味を持つようになった。 しかし、これらのモデルがプロンプトテンプレートに対する感度と堅牢性の欠如、特に日本語のようなより研究の少ない言語では、この領域では重要な問題が指摘されている。 本稿では,複数の代表言語モデル (LLM) と広く利用されている事前学習モデル (PLM, T5) を包括的に評価することにより,この問題を考察する。 これらのモデルは,現在の多言語モデルの性能評価と解析を目的とした,日本語のベンチマークデータセットを用いて精査される。 実験結果から, 急激な相違が明らかとなった。 簡単なPromptテンプレートの文構造の変更により、GPT-4の精度は49.21から25.44に大幅に低下した。 この観察は、高性能なGPT-4モデルでさえ、多種多様な日本語のプロンプトテンプレートを扱う際に重大な安定性に直面するという事実を強調し、モデルの出力の一貫性を疑問視する。 これらの知見を踏まえて,本研究では,大規模言語モデルの開発と性能をさらに向上させるために,潜在的研究軌道を提案する。

Prompt Engineering has gained significant relevance in recent years, fueled by advancements in pre-trained and large language models. However, a critical issue has been identified within this domain: the lack of sensitivity and robustness of these models towards Prompt Templates, particularly in lesser-studied languages such as Japanese. This paper explores this issue through a comprehensive evaluation of several representative Large Language Models (LLMs) and a widely-utilized pre-trained model(PLM), T5. These models are scrutinized using a benchmark dataset in Japanese, with the aim to assess and analyze the performance of the current multilingual models in this context. Our experimental results reveal startling discrepancies. A simple modification in the sentence structure of the Prompt Template led to a drastic drop in the accuracy of GPT-4 from 49.21 to 25.44. This observation underscores the fact that even the highly performance GPT-4 model encounters significant stability issues when dealing with diverse Japanese prompt templates, rendering the consistency of the model's output results questionable. In light of these findings, we conclude by proposing potential research trajectories to further enhance the development and performance of Large Language Models in their current stage.
翻訳日:2023-05-16 13:55:05 公開日:2023-05-15
# sustain.AI:サステナビリティレポートを分析するレコメンダシステム

sustain.AI: a Recommender System to analyze Sustainability Reports ( http://arxiv.org/abs/2305.08711v1 )

ライセンス: Link先を確認
Lars Hillebrand, Maren Pielka, David Leonhard, Tobias Deu{\ss}er, Tim Dilmaghani, Bernd Kliem, R\"udiger Loitz, Milad Morad, Christian Temath, Thiago Bell, Robin Stenzel, Rafet Sifa(参考訳) 我々は、監査人や金融投資家や一般大衆が企業のサステナビリティレポートを効率的に分析するのを支援する、インテリジェントでコンテキスト対応のレコメンデーションシステムであるstains.AIを提示する。 このツールは、BERTベースのエンコーディングモジュールとマルチラベル分類ヘッドを結合したエンドツーエンドのトレーニング可能なアーキテクチャを活用し、持続可能性レポートからGRI(Global Reporting Initiative)標準のそれぞれの法則への関連するテキストパスを一致させる。 我々は,ドイツの新しいサステナビリティレポートデータセットを2つ評価し,複数のベースラインと比較して高い推薦性能を実現した。 今後数ヶ月以内には、すべての人が利用できるようになる。

We present sustain.AI, an intelligent, context-aware recommender system that assists auditors and financial investors as well as the general public to efficiently analyze companies' sustainability reports. The tool leverages an end-to-end trainable architecture that couples a BERT-based encoding module with a multi-label classification head to match relevant text passages from sustainability reports to their respective law regulations from the Global Reporting Initiative (GRI) standards. We evaluate our model on two novel German sustainability reporting data sets and consistently achieve a significantly higher recommendation performance compared to multiple strong baselines. Furthermore, sustain.AI will be publicly available for everyone within the next months.
翻訳日:2023-05-16 13:54:44 公開日:2023-05-15
# 問題文と課題文を用いたトークン出力のばらつきの比較

Comparing Variation in Tokenizer Outputs Using a Series of Problematic and Challenging Biomedical Sentences ( http://arxiv.org/abs/2305.08787v1 )

ライセンス: Link先を確認
Christopher Meaney, Therese A Stukel, Peter C Austin, Michael Escobar(参考訳) background & Objective: バイオメディカルテキストデータの研究がますます進んでいる。 トークン化は多くのバイオメディカルテキストマイニングパイプラインの最初のステップである。 トークン化(英: tokenization)とは、入力された生物医学的な文(デジタル文字列として表される)を単語/単語記号の離散セットに解析するプロセスである。 本研究の目的は, 一連の挑戦的生体医学的文に適用された場合のトークン出力の変動を検討することである。 方法:diaz [2015] トークン化の性能を比較するために、24の挑戦的なバイオメディカルな文章を紹介します。 本研究では,各例の生体医学的文に適用する8つのトークン化剤の出力変動を記述的に検討する。 比較対象はnltk white space tokenizer, nltk penn tree tokenizer, spacy and scispacy tokenizers, stanza/stanza-craft tokenizers, udpipe tokenizer, r-tokenizersである。 結果: 多くの例では、トークン化器も同様に効果的に動作するが、ある例では返却出力に有意な変動があった。 ホワイトスペーストークン化器は、しばしば他のトークン化器とは異なる動作をする。 規則ベースのシステム(パターンマッチングや正規表現など)を実装するトークンライザと、トークン分類のためのニューラルネットワークを実装するトークンライザのパフォーマンス類似性を観察した。 しばしば、アウトプットの最大の変化をもたらす挑戦的なトークンは、実質的で焦点を絞った生体医学的・臨床的意味(例えば、x線、IL-10、TCR/CD3、CD4+ CD8+、Ca2+)を伝達する単語である。 結論: Python と R の最先端でオープンソースのトークン化ツールを,一連の挑戦的なバイオメディカルな例文に適用すると,出力の微妙な変動が観察された。

Background & Objective: Biomedical text data are increasingly available for research. Tokenization is an initial step in many biomedical text mining pipelines. Tokenization is the process of parsing an input biomedical sentence (represented as a digital character sequence) into a discrete set of word/token symbols, which convey focused semantic/syntactic meaning. The objective of this study is to explore variation in tokenizer outputs when applied across a series of challenging biomedical sentences. Method: Diaz [2015] introduce 24 challenging example biomedical sentences for comparing tokenizer performance. In this study, we descriptively explore variation in outputs of eight tokenizers applied to each example biomedical sentence. The tokenizers compared in this study are the NLTK white space tokenizer, the NLTK Penn Tree Bank tokenizer, Spacy and SciSpacy tokenizers, Stanza/Stanza-Craft tokenizers, the UDPipe tokenizer, and R-tokenizers. Results: For many examples, tokenizers performed similarly effectively; however, for certain examples, there were meaningful variation in returned outputs. The white space tokenizer often performed differently than other tokenizers. We observed performance similarities for tokenizers implementing rule-based systems (e.g. pattern matching and regular expressions) and tokenizers implementing neural architectures for token classification. Oftentimes, the challenging tokens resulting in the greatest variation in outputs, are those words which convey substantive and focused biomedical/clinical meaning (e.g. x-ray, IL-10, TCR/CD3, CD4+ CD8+, and (Ca2+)-regulated). Conclusion: When state-of-the-art, open-source tokenizers from Python and R were applied to a series of challenging biomedical example sentences, we observed subtle variation in the returned outputs.
翻訳日:2023-05-16 13:49:19 公開日:2023-05-15
# TAA-GCN: 年齢推定のための適応型グラフ畳み込みネットワーク

TAA-GCN: A Temporally Aware Adaptive Graph Convolutional Network for Age Estimation ( http://arxiv.org/abs/2305.08779v1 )

ライセンス: Link先を確認
Matthew Korban, Peter Young, Scott T. Acton(参考訳) 本稿では,新しい年齢推定アルゴリズムtaa-gcn(timely-aware adaptive graph convolutional network)を提案する。 グラフに基づく新しい表現を用いて、TAA-GCNは、骨格、姿勢、衣服、顔情報を使用して、様々な年齢に関連する特徴セットを強化する。 このような新しいグラフ表現にはいくつかの利点がある: 第一に、表情やその他の外観の差異に対する感受性の低下;第二に、部分閉塞に対する頑健さと、ビデオ監視のような現実世界の応用において一般的な非正面平面的視点。 TAA-GCNは, 時間的依存性を計算するためのTMM (Temporal Memory Module) と, グラフの洗練と外観のばらつきに対応するためのAdaptive Graph Convolutional Layer (AGCL) の2つの新しいコンポーネントを採用している。 TAA-GCNは、UTKFace、MORPHII、CACD、FG-NETの4つの公開ベンチマークで最先端の手法よりも優れている。 さらに、TAA-GCNは異なるカメラ視点で信頼性を示し、画質が低下した。

This paper proposes a novel age estimation algorithm, the Temporally-Aware Adaptive Graph Convolutional Network (TAA-GCN). Using a new representation based on graphs, the TAA-GCN utilizes skeletal, posture, clothing, and facial information to enrich the feature set associated with various ages. Such a novel graph representation has several advantages: First, reduced sensitivity to facial expression and other appearance variances; Second, robustness to partial occlusion and non-frontal-planar viewpoint, which is commonplace in real-world applications such as video surveillance. The TAA-GCN employs two novel components, (1) the Temporal Memory Module (TMM) to compute temporal dependencies in age; (2) Adaptive Graph Convolutional Layer (AGCL) to refine the graphs and accommodate the variance in appearance. The TAA-GCN outperforms the state-of-the-art methods on four public benchmarks, UTKFace, MORPHII, CACD, and FG-NET. Moreover, the TAA-GCN showed reliability in different camera viewpoints and reduced quality images.
翻訳日:2023-05-16 13:48:40 公開日:2023-05-15
# 臨床進歩ノートから注射薬使用に関する情報を抽出する質問応答システム

Question-Answering System Extracts Information on Injection Drug Use from Clinical Progress Notes ( http://arxiv.org/abs/2305.08777v1 )

ライセンス: Link先を確認
Maria Mahbub, Ian Goethert, Ioana Danciu, Kathryn Knight, Sudarshan Srinivasan, Suzanne Tamang, Karine Rozenberg-Ben-Dror, Hugo Solares, Susana Martins, Edmon Begoli, Gregory D. Peterson(参考訳) 注射薬の使用(IDU)は、死亡率と死亡率を高める危険な健康行動である。 iduを早期に特定し、リスク軽減介入を開始することは、リスクのある個人に利益をもたらす。 しかし, 患者の電子健康記録 (EHR) からIDUの行動の抽出は, 国際疾患分類 (ICD) コードがないため困難であり, IDUの情報は構造化されていない。 自然言語処理(NLP)は、非構造化データからこの情報を効率的に抽出することができるが、検証されたツールはない。 臨床情報におけるこのギャップに対処するため,臨床進歩ノートからIDUに関する情報を抽出する質問応答(QA)フレームワークを設計,実証した。 文献で議論されている他の方法とは異なり、QAモデルは事前定義された実体、関係、概念に制約されることなく様々な種類の情報を抽出することができる。 本フレームワークは,(1)金本位QAデータセットの生成,(2)QAモデルの開発とテストの2段階を含む。 本稿では,QAモデルが時間外分布データからIDU関連情報を抽出する能力を示す。 その結果,QAモデルが抽出した情報の大部分(51%)は金標準回答と正確に一致し,そのうち73%が金標準回答といくつかの周辺単語を含むことがわかった。

Injection drug use (IDU) is a dangerous health behavior that increases mortality and morbidity. Identifying IDU early and initiating harm reduction interventions can benefit individuals at risk. However, extracting IDU behaviors from patients' electronic health records (EHR) is difficult because there is no International Classification of Disease (ICD) code and the only place IDU information can be indicated are unstructured free-text clinical progress notes. Although natural language processing (NLP) can efficiently extract this information from unstructured data, there are no validated tools. To address this gap in clinical information, we design and demonstrate a question-answering (QA) framework to extract information on IDU from clinical progress notes. Unlike other methods discussed in the literature, the QA model is able to extract various types of information without being constrained by predefined entities, relations, or concepts. Our framework involves two main steps: (1) generating a gold-standard QA dataset and (2) developing and testing the QA model. This paper also demonstrates the QA model's ability to extract IDU-related information on temporally out-of-distribution data. The results indicate that the majority (51%) of the extracted information by the QA model exactly matches the gold-standard answer and 73% of them contain the gold-standard answer with some additional surrounding words.
翻訳日:2023-05-16 13:48:17 公開日:2023-05-15
# ドメインギャップのブリッジ:基礎モデルによる自己監督型3Dシーン理解

Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with Foundation Models ( http://arxiv.org/abs/2305.08776v1 )

ライセンス: Link先を確認
Zhimin Chen, Bing Li(参考訳) ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解などの2Dおよび言語タスクにおいて大きな進歩を遂げている。 それでも、ドメインギャップのため、3dシーン表現学習を強化する可能性はほとんどない。 本稿では,このギャップに対処する革新的な手法であるBridge3Dを提案し,基礎モデルから得られる特徴,セマンティックマスク,キャプションを用いて3Dモデルを事前学習する。 具体的には,これらのモデルから得られた意味的マスクを用いて,マスク付きオートエンコーダのマスキングと再構成プロセスをガイドする。 この戦略により、ネットワークは前景のオブジェクトに集中し、3d表現学習を強化することができる。 さらに,画像キャプション基礎モデルを用いて,シーンレベルでの3次元テキストギャップを橋渡しする。 さらに, 3次元モデルへの知識の蒸留をさらに促進するため, 基礎モデルを用いて高精度なオブジェクトレベルマスクと意味テキスト情報をオブジェクトレベルで生成する新しい手法を提案する。 提案手法は,3次元物体検出と意味セグメンテーションタスクにおいて最先端手法を特に上回っている。 例えば、ScanNetデータセットでは、我々の手法が従来の最先端手法であるPiMAEを5.3%上回る。

Foundation models have made significant strides in 2D and language tasks such as image segmentation, object detection, and visual-language understanding. Nevertheless, their potential to enhance 3D scene representation learning remains largely untapped due to the domain gap. In this paper, we propose an innovative methodology Bridge3D to address this gap, pre-training 3D models using features, semantic masks, and captions sourced from foundation models. Specifically, our approach utilizes semantic masks from these models to guide the masking and reconstruction process in the masked autoencoder. This strategy enables the network to concentrate more on foreground objects, thereby enhancing 3D representation learning. Additionally, we bridge the 3D-text gap at the scene level by harnessing image captioning foundation models. To further facilitate knowledge distillation from well-learned 2D and text representations to the 3D model, we introduce a novel method that employs foundation models to generate highly accurate object-level masks and semantic text information at the object level. Our approach notably outshines state-of-the-art methods in 3D object detection and semantic segmentation tasks. For instance, on the ScanNet dataset, our method surpasses the previous state-of-the-art method, PiMAE, by a significant margin of 5.3%.
翻訳日:2023-05-16 13:47:53 公開日:2023-05-15
# 純量子状態推定のための最小正規直交基底

Minimal orthonormal bases for pure quantum state estimation ( http://arxiv.org/abs/2305.08774v1 )

ライセンス: Link先を確認
Leonardo Zambrano, Luciano Pereira, Aldo Delgado(参考訳) 有限次元ヒルベルト空間における最低3つの測定基準を用いて純量子状態を推定する解析手法を提案する。 これは、2つの基底が純粋状態に対する情報的に完備な正の演算子値測定(IC-POVM)を構築するのに十分でないため最適である。 本稿では,バイナリツリー構造を用いて,アルゴリズムによる実装手法を提案する。 本手法の性能は数値シミュレーションにより評価され,量子状態推定の有効性を示す。

We present an analytical method to estimate pure quantum states using a minimum of three measurement bases in any finite-dimensional Hilbert space. This is optimal as two bases are not sufficient to construct an informationally complete positive operator-valued measurement (IC-POVM) for pure states. We demonstrate our method using a binary tree structure, providing an algorithmic path for implementation. The performance of the method is evaluated through numerical simulations, showcasing its effectiveness for quantum state estimation.
翻訳日:2023-05-16 13:47:34 公開日:2023-05-15
# 耐久性のある機械学習のためのトランザクションPython:ビジョン、チャレンジ、実現可能性

Transactional Python for Durable Machine Learning: Vision, Challenges, and Feasibility ( http://arxiv.org/abs/2305.08770v1 )

ライセンス: Link先を確認
Supawit Chockchowwat, Zhaoheng Li, Yongjoo Park(参考訳) 機械学習(ML)では、PythonはPyTorchやScikit-learnといった主要なライブラリを扱うための便利な抽象化として機能する。 しかしdbmsとは異なり、pythonアプリケーションは、マシンの故障やヒューマンエラーによって、トレーニングされたモデルや抽出された機能などの重要なデータを失う可能性があるため、時間とリソースが浪費される。 具体的には、mlをより信頼性とユーザフレンドリにするための4つの重要な特性、すなわち耐久性、アトミック性、再現性、時間バージョニング(dart)が欠如している。 本稿では、オブジェクトレベルでアプリケーションの状態を非侵襲的に監視し、アプリケーション全体を再構築するのに十分な最小限の情報を決定することによって、ユーザプログラムやPythonカーネルにコード修正を加えることなくDARTを提供するトランザクションPythonのビジョンを示す。 公開PyTorchおよびScikit-learnアプリケーションによる概念実証実装の評価は、DARTが1.5%~15.6%のオーバーヘッドで提供可能であることを示している。

In machine learning (ML), Python serves as a convenient abstraction for working with key libraries such as PyTorch, scikit-learn, and others. Unlike DBMS, however, Python applications may lose important data, such as trained models and extracted features, due to machine failures or human errors, leading to a waste of time and resources. Specifically, they lack four essential properties that could make ML more reliable and user-friendly -- durability, atomicity, replicability, and time-versioning (DART). This paper presents our vision of Transactional Python that provides DART without any code modifications to user programs or the Python kernel, by non-intrusively monitoring application states at the object level and determining a minimal amount of information sufficient to reconstruct a whole application. Our evaluation of a proof-of-concept implementation with public PyTorch and scikit-learn applications shows that DART can be offered with overheads ranging 1.5%--15.6%.
翻訳日:2023-05-16 13:47:25 公開日:2023-05-15
# DA-LSTM:LSTMネットワークを用いた動的ドリフト適応学習フレームワーク

DA-LSTM: A Dynamic Drift-Adaptive Learning Framework for Interval Load Forecasting with LSTM Networks ( http://arxiv.org/abs/2305.08767v1 )

ライセンス: Link先を確認
Firas Bayram, Phil Aupke, Bestoun S. Ahmed, Andreas Kassler, Andreas Theocharis, Jonas Forsman(参考訳) 負荷予測は、エネルギースケジューリングの最適化とより柔軟でインテリジェントな電力グリッドシステムの実現において重要な役割を担っているため、エネルギー管理システム(ems)において重要なトピックである。 これらのシステムにより、電力事業者は電力市場の需要に迅速に対応できる。 ディープラーニング(DL)モデルは、コンセプトドリフトとして知られる顧客による消費パターンの変化に対応するために、適応メカニズムによって支持される負荷予測問題に一般的に採用されている。 ドリフト等級閾値は、ドリフトを識別するための変化検出方法を設計するために定義されるべきである。 負荷予測問題におけるドリフトマグニチュードは、時間とともに大きく変化するが、既存の文献では、システム進化中に固定されるよりも動的に調整されるべき、固定ドリフトマグニチュード閾値を仮定することが多い。 本稿では,負荷予測モデルの性能をドリフトしきい値の設定を必要とせずに向上させることができる動的ドリフト適応長短期記憶(DA-LSTM)フレームワークを提案する。 能動的および受動的適応アプローチに基づくフレームワークに,いくつかの戦略を統合する。 実生活環境でのDA-LSTMを評価するため,提案したフレームワークを徹底的に分析し,クラウドベースの環境を通じて現実の問題に展開する。 効率は、各アプローチの予測性能と計算コストの観点から評価される。 実験では,複数の評価指標における性能改善について,文献のベースライン法と比較検討した。 最後に,予測性能と計算コストのトレードオフ分析について述べる。

Load forecasting is a crucial topic in energy management systems (EMS) due to its vital role in optimizing energy scheduling and enabling more flexible and intelligent power grid systems. As a result, these systems allow power utility companies to respond promptly to demands in the electricity market. Deep learning (DL) models have been commonly employed in load forecasting problems supported by adaptation mechanisms to cope with the changing pattern of consumption by customers, known as concept drift. A drift magnitude threshold should be defined to design change detection methods to identify drifts. While the drift magnitude in load forecasting problems can vary significantly over time, existing literature often assumes a fixed drift magnitude threshold, which should be dynamically adjusted rather than fixed during system evolution. To address this gap, in this paper, we propose a dynamic drift-adaptive Long Short-Term Memory (DA-LSTM) framework that can improve the performance of load forecasting models without requiring a drift threshold setting. We integrate several strategies into the framework based on active and passive adaptation approaches. To evaluate DA-LSTM in real-life settings, we thoroughly analyze the proposed framework and deploy it in a real-world problem through a cloud-based environment. Efficiency is evaluated in terms of the prediction performance of each approach and computational cost. The experiments show performance improvements on multiple evaluation metrics achieved by our framework compared to baseline methods from the literature. Finally, we present a trade-off analysis between prediction performance and computational costs.
翻訳日:2023-05-16 13:47:07 公開日:2023-05-15
# 物理インフォームドトークントランス

Physics Informed Token Transformer ( http://arxiv.org/abs/2305.08757v1 )

ライセンス: Link先を確認
Cooper Lorsung, Zijie Li, Amir Barati Farimani(参考訳) 偏微分方程式 (Partial Differential Equations, PDE) は、科学と工学の多くの分野の中核である。 古典的なアプローチはしばしば違法に遅いが、機械学習モデルはシステム情報を完全に組み込むことができないことが多い。 過去数年間、トランスフォーマーは人工知能の分野に大きな影響を与え、PDEアプリケーションでの利用が増加している。 しかし、その成功にもかかわらず、現在トランスフォーマーは物理と推論の統合を欠いている。 本研究の目的は、PITT: Physics Informed Token Transformerを導入することである。 PITTの目的は、偏微分方程式(PDE)を学習プロセスに埋め込むことによって物理学の知識を統合することである。 PITTは方程式トークン化法を用いて解析駆動型数値更新演算子を学習する。 PDEのトークン化と部分微分の埋め込みにより、トランスフォーマーモデルは物理過程の背後にある基礎知識を認識する。 これを証明するために、PITTは1Dと2Dの両方の予測タスクにおいて、PDEニューラル演算子に挑戦するテストを行っている。 その結果,PITTはFourier Neural Operatorより優れており,制御方程式から物理的に関連のある情報を抽出する能力があることがわかった。

Solving Partial Differential Equations (PDEs) is the core of many fields of science and engineering. While classical approaches are often prohibitively slow, machine learning models often fail to incorporate complete system information. Over the past few years, transformers have had a significant impact on the field of Artificial Intelligence and have seen increased usage in PDE applications. However, despite their success, transformers currently lack integration with physics and reasoning. This study aims to address this issue by introducing PITT: Physics Informed Token Transformer. The purpose of PITT is to incorporate the knowledge of physics by embedding partial differential equations (PDEs) into the learning process. PITT uses an equation tokenization method to learn an analytically-driven numerical update operator. By tokenizing PDEs and embedding partial derivatives, the transformer models become aware of the underlying knowledge behind physical processes. To demonstrate this, PITT is tested on challenging PDE neural operators in both 1D and 2D prediction tasks. The results show that PITT outperforms the popular Fourier Neural Operator and has the ability to extract physically relevant information from governing equations.
翻訳日:2023-05-16 13:46:42 公開日:2023-05-15
# ニューラルオシレータは普遍的である

Neural Oscillators are Universal ( http://arxiv.org/abs/2305.08753v1 )

ライセンス: Link先を確認
Samuel Lanthaler and T. Konstantin Rusch and Siddhartha Mishra(参考訳) 結合発振器は、シーケンスモデリング、グラフ表現学習、アナログmlデバイスで使用される物理的ニューラルネットワークなど、機械学習(ml)アーキテクチャの基礎としてますます使われています。 これらのアーキテクチャを包含する抽象的なニューラルオシレータクラスを導入し,ニューラルオシレータが普遍的であること,すなわち,時間変化関数間の任意の連続的かつカジュアルな演算子マッピングを所望の精度で近似できることを示す。 この普遍性の結果は、発振器ベースのMLシステムの使用に関する理論的正当化を与える。 この証明は、強制調和振動子と非線形リードアウトサフィスを組み合わせることで、基礎となる作用素を近似する、独立利害の基本的な結果に基づいている。

Coupled oscillators are being increasingly used as the basis of machine learning (ML) architectures, for instance in sequence modeling, graph representation learning and in physical neural networks that are used in analog ML devices. We introduce an abstract class of neural oscillators that encompasses these architectures and prove that neural oscillators are universal, i.e, they can approximate any continuous and casual operator mapping between time-varying functions, to desired accuracy. This universality result provides theoretical justification for the use of oscillator based ML systems. The proof builds on a fundamental result of independent interest, which shows that a combination of forced harmonic oscillators with a nonlinear read-out suffices to approximate the underlying operators.
翻訳日:2023-05-16 13:46:25 公開日:2023-05-15
# アノテーションの課題:ウェアラブルセンサからのIn situおよびSelf-Recallアクティビティアノテーションに関する実証的研究

A Matter of Annotation: An Empirical Study on In Situ and Self-Recall Activity Annotations from Wearable Sensors ( http://arxiv.org/abs/2305.08752v1 )

ライセンス: Link先を確認
Alexander Hoelzemann, Kristof Van Laerhoven(参考訳) ウェアラブルセンサーから人間の活動を検出する研究は非常に活発な分野であり、フィットネスコーチングによる医療患者の保養モニタリングから手作業プロセスの合理化まで、多くの応用がある。 本稿では,実地データに焦点をあてたユーザ研究で使用される4種類のアノテーション手法を比較した経験的研究を行う。 これらのメソッドはユーザ主導のin situアノテーションでグループ化でき、アクティビティの前後で実行されるアノテーションは記録され、リコールされる。 本研究は,異なるラベル付け手法がアノテーションの品質や,データで訓練されたディープラーニング分類器の能力に直接影響を及ぼすことを示す。 In situ法はリコール法よりも精度の低いラベルを生成することがわかった。 さらに,アクティビティダイアログと可視化ツールを組み合わせることで,参加者のアクティビティデータの検査とラベル付けを可能にした。 このようなツールの導入により、欠落したアノテーションを減らし、アノテーションの一貫性を高めることができ、深層学習モデルのF1スコアは最大8%向上した(82.1から90.4%)。 さらに,本研究と比較した手法の利点と欠点,導入可能なバイアス,人間の活動認識研究における使用結果,および可能な解決策について考察した。

Research into the detection of human activities from wearable sensors is a highly active field, benefiting numerous applications, from ambulatory monitoring of healthcare patients via fitness coaching to streamlining manual work processes. We present an empirical study that compares 4 different commonly used annotation methods utilized in user studies that focus on in-the-wild data. These methods can be grouped in user-driven, in situ annotations - which are performed before or during the activity is recorded - and recall methods - where participants annotate their data in hindsight at the end of the day. Our study illustrates that different labeling methodologies directly impact the annotations' quality, as well as the capabilities of a deep learning classifier trained with the data respectively. We noticed that in situ methods produce less but more precise labels than recall methods. Furthermore, we combined an activity diary with a visualization tool that enables the participant to inspect and label their activity data. Due to the introduction of such a tool were able to decrease missing annotations and increase the annotation consistency, and therefore the F1-score of the deep learning model by up to 8% (ranging between 82.1 and 90.4% F1-score). Furthermore, we discuss the advantages and disadvantages of the methods compared in our study, the biases they may could introduce and the consequences of their usage on human activity recognition studies and as well as possible solutions.
翻訳日:2023-05-16 13:46:11 公開日:2023-05-15
# ReLUはNTK条件番号を和らげ、広帯域ニューラルネットワークの最適化を加速する

ReLU soothes the NTK condition number and accelerates optimization for wide neural networks ( http://arxiv.org/abs/2305.08813v1 )

ライセンス: Link先を確認
Chaoyue Liu, Like Hui(参考訳) 線形化線形単位(rectified linear unit, ReLU)は非線形活性化関数としてよく知られており、任意の連続関数を十分に広いニューラルネットワークで任意の精度で近似することができる。 本稿では,ReLUアクティベーション関数の興味深い特徴と重要な特徴について述べる。 我々は、ReLUが、類似したデータに対してより良い分離と、密接に関連するニューラル・タンジェント・カーネル(NTK)のより良い条件付けをもたらすことを示す。 線形ニューラルネットワークと比較して、ランダム初期化時のReLU活性化ワイドニューラルネットワークは、モデル勾配の特徴空間における類似データに対してより大きな角度分離を有し、NTKの条件数も小さいことを示す。 線形ニューラルネットワークの場合、データ分離とNTK条件数は常に線形モデルの場合と同じである。 さらに、より深いReLUネットワーク(すなわち、より多くのReLUアクティベーション操作を含む)は、浅いネットワークよりもNTK条件数が少ないことを示す。 その結果,ReLUの活性化とReLUネットワークの深度はNTK条件数と密接な関係にある勾配勾配収束率の向上に寄与することが示唆された。

Rectified linear unit (ReLU), as a non-linear activation function, is well known to improve the expressivity of neural networks such that any continuous function can be approximated to arbitrary precision by a sufficiently wide neural network. In this work, we present another interesting and important feature of ReLU activation function. We show that ReLU leads to: {\it better separation} for similar data, and {\it better conditioning} of neural tangent kernel (NTK), which are closely related. Comparing with linear neural networks, we show that a ReLU activated wide neural network at random initialization has a larger angle separation for similar data in the feature space of model gradient, and has a smaller condition number for NTK. Note that, for a linear neural network, the data separation and NTK condition number always remain the same as in the case of a linear model. Furthermore, we show that a deeper ReLU network (i.e., with more ReLU activation operations), has a smaller NTK condition number than a shallower one. Our results imply that ReLU activation, as well as the depth of ReLU network, helps improve the gradient descent convergence rate, which is closely related to the NTK condition number.
翻訳日:2023-05-16 13:40:01 公開日:2023-05-15
# autorecon: 自動3dオブジェクト発見と再構築

AutoRecon: Automated 3D Object Discovery and Reconstruction ( http://arxiv.org/abs/2305.08810v1 )

ライセンス: Link先を確認
Yuang Wang, Xingyi He, Sida Peng, Haotong Lin, Hujun Bao, Xiaowei Zhou(参考訳) 完全に自動化されたオブジェクト再構築パイプラインは、デジタルコンテンツ作成に不可欠である。 3D再構築の領域は深い発展を目撃しているが、クリーンなオブジェクトモデルを得るための背景の除去は、バウンディングボックスラベリング、マスクアノテーション、メッシュ操作など、さまざまな手作業の形式に依存している。 本稿では,多視点画像からのオブジェクトの自動発見と再構築のためのAutoReconという新しいフレームワークを提案する。 自己教師付き2次元視覚トランスフォーマー機能を利用することで,sfmポイントクラウドからフォアグラウンドオブジェクトをロバストに配置し,セグメント化できることを実証する。 次に,分解点雲による密集した監視により,分解したニューラルネットワークのシーン表現を再構成し,オブジェクトの正確な再構成とセグメンテーションを行う。 DTU、BlendedMVS、CO3D-V2データセットの実験はAutoReconの有効性と堅牢性を示している。

A fully automated object reconstruction pipeline is crucial for digital content creation. While the area of 3D reconstruction has witnessed profound developments, the removal of background to obtain a clean object model still relies on different forms of manual labor, such as bounding box labeling, mask annotations, and mesh manipulations. In this paper, we propose a novel framework named AutoRecon for the automated discovery and reconstruction of an object from multi-view images. We demonstrate that foreground objects can be robustly located and segmented from SfM point clouds by leveraging self-supervised 2D vision transformer features. Then, we reconstruct decomposed neural scene representations with dense supervision provided by the decomposed point clouds, resulting in accurate object reconstruction and segmentation. Experiments on the DTU, BlendedMVS and CO3D-V2 datasets demonstrate the effectiveness and robustness of AutoRecon.
翻訳日:2023-05-16 13:39:12 公開日:2023-05-15
# スケールでの解釈可能性:アルパカにおける因果メカニズムの解明

Interpretability at Scale: Identifying Causal Mechanisms in Alpaca ( http://arxiv.org/abs/2305.08809v1 )

ライセンス: Link先を確認
Zhengxuan Wu, Atticus Geiger, Christopher Potts, Noah D. Goodman(参考訳) 大規模で汎用的な言語モデルの人間解釈可能な説明を得ることは、AI安全性の緊急の目標である。 しかし、我々の解釈可能性法は、モデル行動の根底にある因果ダイナミクスに忠実であり、不明瞭な入力に頑健に一般化できることと同じくらい重要である。 分散アライメント探索(DAS)は、因果抽象理論に基づく強力な勾配降下法であり、解釈可能なシンボルアルゴリズムと特定のタスクに微調整された小さなディープラーニングモデルとの完全な整合性を明らかにする。 本稿では,残ったブルートフォース探索ステップを学習パラメーター(dasと呼ぶアプローチ)に置き換えることで,dasを格段にスケールする。 これにより、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索できる。 dasをalpacaモデル(7bパラメータ)に適用し、棚から外れて単純な数値推論問題を解く。 DASでは、アルパカは2つの解釈可能なブール変数を持つ因果モデルを実装することでこれを実現している。 さらに,これらの変数に対する神経表現のアライメントは,入力や命令の変化に対して頑健であることが判明した。 これらの発見は、我々の最大かつ最も広くデプロイされた言語モデルの内部動作を深く理解するための第一歩である。

Obtaining human-interpretable explanations of large, general-purpose language models is an urgent goal for AI safety. However, it is just as important that our interpretability methods are faithful to the causal dynamics underlying model behavior and able to robustly generalize to unseen inputs. Distributed Alignment Search (DAS) is a powerful gradient descent method grounded in a theory of causal abstraction that uncovered perfect alignments between interpretable symbolic algorithms and small deep learning models fine-tuned for specific tasks. In the present paper, we scale DAS significantly by replacing the remaining brute-force search steps with learned parameters -- an approach we call DAS. This enables us to efficiently search for interpretable causal structure in large language models while they follow instructions. We apply DAS to the Alpaca model (7B parameters), which, off the shelf, solves a simple numerical reasoning problem. With DAS, we discover that Alpaca does this by implementing a causal model with two interpretable boolean variables. Furthermore, we find that the alignment of neural representations with these variables is robust to changes in inputs and instructions. These findings mark a first step toward deeply understanding the inner-workings of our largest and most widely deployed language models.
翻訳日:2023-05-16 13:38:49 公開日:2023-05-15
# geomae: 自己教師付きポイントクラウド事前学習のためのマスク幾何目標予測

GeoMAE: Masked Geometric Target Prediction for Self-supervised Point Cloud Pre-Training ( http://arxiv.org/abs/2305.08808v1 )

ライセンス: Link先を確認
Xiaoyu Tian, Haoxi Ran, Yue Wang, Hang Zhao(参考訳) 本稿では,ポイントクラウドの自己教師付き学習における基本的な問題に対処しようとする。 そこで我々は,幾何学的特徴の再構成に基づくポイントクラウド表現学習フレームワークを提案する。 マスキングオートエンコーダ(mae)を直接採用し,マスキングポイントクラウドから元の座標や占有率のみを予測する最近の論文とは対照的に,画像とポイントクラウドの違いを再検討し,ポイントクラウド特有の3つの自己教師あり学習目標,すなわち遠心予測,正規推定,曲率予測を同定する。 占有予測と組み合わせることで、これらの4つの目的は非自明な自己教師付き学習タスクをもたらし、点雲の微細な幾何をより正確に推論するためのモデルを相互に促進する。 パイプラインは概念的にシンプルで,まずポイントのグループをランダムにマスキングし,次にTransformerベースのポイントクラウドエンコーダ,そして第2に,軽量なTransformerデコーダが各ボクセル内のポイントに対するセントロイド,正規,曲率を予測する。 トレーニング済みのTransformerエンコーダを下流の知覚モデルに転送する。 nuScene Datsetでは,オブジェクト検出のための3.38 mAP改良,セグメンテーションのための2.1 mIoUゲイン,マルチオブジェクト追跡のための1.7 AMOTAゲインを実現している。 waymo open datasetの実験も行っており、ベースラインよりも大幅にパフォーマンスが向上しています。

This paper tries to address a fundamental question in point cloud self-supervised learning: what is a good signal we should leverage to learn features from point clouds without annotations? To answer that, we introduce a point cloud representation learning framework, based on geometric feature reconstruction. In contrast to recent papers that directly adopt masked autoencoder (MAE) and only predict original coordinates or occupancy from masked point clouds, our method revisits differences between images and point clouds and identifies three self-supervised learning objectives peculiar to point clouds, namely centroid prediction, normal estimation, and curvature prediction. Combined with occupancy prediction, these four objectives yield an nontrivial self-supervised learning task and mutually facilitate models to better reason fine-grained geometry of point clouds. Our pipeline is conceptually simple and it consists of two major steps: first, it randomly masks out groups of points, followed by a Transformer-based point cloud encoder; second, a lightweight Transformer decoder predicts centroid, normal, and curvature for points in each voxel. We transfer the pre-trained Transformer encoder to a downstream peception model. On the nuScene Datset, our model achieves 3.38 mAP improvment for object detection, 2.1 mIoU gain for segmentation, and 1.7 AMOTA gain for multi-object tracking. We also conduct experiments on the Waymo Open Dataset and achieve significant performance improvements over baselines as well.
翻訳日:2023-05-16 13:38:25 公開日:2023-05-15
# ICEnetを用いたニューラルネットワークの平滑性と単調性制約

Smoothness and monotonicity constraints for neural networks using ICEnet ( http://arxiv.org/abs/2305.08807v1 )

ライセンス: Link先を確認
Ronald Richman, Mario W\"uthrich(参考訳) ディープニューラルネットワークは、従来の手法に比べて精度が大幅に向上しただけでなく、業界で現在使用されている一般化線形モデル(glm)との密接な接続によって、日常的なタスクで使用される重要なツールとなっている。 保険リスク要因に関連するGLMパラメータのスムーズ性や単調性を示すことは簡単だが、そのような制約をディープニューラルネットワークに組み込む手法はまだ開発されていない。 これは保険業におけるニューラルネットワーク採用の障壁であり、アクチュアリティはしばしば商業的、統計的な理由からこれらの制約を課している。 本研究では,ニューラルネットワークモデル内で制約を強制する新しい手法を提案し,これらのモデルをどのように訓練するかを示す。 さらに,実世界のデータセットを用いたサンプルアプリケーションも提供する。 提案手法をICEnetと呼び,提案手法の個別条件予測(ICE)モデル解釈可能性技術との密接な連携を強調する。

Deep neural networks have become an important tool for use in actuarial tasks, due to the significant gains in accuracy provided by these techniques compared to traditional methods, but also due to the close connection of these models to the Generalized Linear Models (GLMs) currently used in industry. Whereas constraining GLM parameters relating to insurance risk factors to be smooth or exhibit monotonicity is trivial, methods to incorporate such constraints into deep neural networks have not yet been developed. This is a barrier for the adoption of neural networks in insurance practice since actuaries often impose these constraints for commercial or statistical reasons. In this work, we present a novel method for enforcing constraints within deep neural network models, and we show how these models can be trained. Moreover, we provide example applications using real-world datasets. We call our proposed method ICEnet to emphasize the close link of our proposal to the individual conditional expectation (ICE) model interpretability technique.
翻訳日:2023-05-16 13:37:54 公開日:2023-05-15
# テキストから知識グラフを生成する基礎モデルの文脈内学習能力の探索

Exploring In-Context Learning Capabilities of Foundation Models for Generating Knowledge Graphs from Text ( http://arxiv.org/abs/2305.08804v1 )

ライセンス: Link先を確認
Hanieh Khorashadizadeh, Nandana Mihindukulasooriya, Sanju Tiwari, Jinghua Groppe and Sven Groppe(参考訳) ナレッジグラフは、エンティティとその関係を構造化され、意味的にリッチな方法で表現することができ、質問応答、レコメンデーションシステム、セマンティック検索、高度な分析など、さまざまな下流アプリケーションを可能にする。 しかしながら、現時点では、知識グラフの構築には多くの手作業が必要で、いくつかの状況においてアプリケーションの障害となるため、このプロセスの自動化は特に小さな組織にとってメリットがあります。 大量の自然言語から構造化知識グラフを自動生成することは依然として困難な課題であり、名前付きエンティティ抽出、関係抽出、エンティティと関係リンク、知識グラフ構築といったサブタスクの研究は、テキストからの知識グラフの自動構築と完成の最先端化を目的としている。 数十億のパラメータを自己教師型で訓練し,さまざまな下流タスクに適応可能な大量のトレーニングデータを持つ基礎モデルの最近の進歩は,幅広い自然言語処理(NLP)タスクにおいて高いパフォーマンスを示すのに役立っている。 この文脈では、新しいパラダイムの一つがコンテキスト内学習(in-context learning)であり、細調整のような従来のアプローチを用いてモデルのパラメータを変更することなくタスクを実行するプロンプトといくつかの例を提供する。 このように、モデルをトレーニング/微調整するためにコンピューティングリソースは不要であり、エンジニアリングの労力は最小限である。 したがって、このような機能をテキストから知識グラフを生成するために活用することは有益である。

Knowledge graphs can represent information about the real-world using entities and their relations in a structured and semantically rich manner and they enable a variety of downstream applications such as question-answering, recommendation systems, semantic search, and advanced analytics. However, at the moment, building a knowledge graph involves a lot of manual effort and thus hinders their application in some situations and the automation of this process might benefit especially for small organizations. Automatically generating structured knowledge graphs from a large volume of natural language is still a challenging task and the research on sub-tasks such as named entity extraction, relation extraction, entity and relation linking, and knowledge graph construction aims to improve the state of the art of automatic construction and completion of knowledge graphs from text. The recent advancement of foundation models with billions of parameters trained in a self-supervised manner with large volumes of training data that can be adapted to a variety of downstream tasks has helped to demonstrate high performance on a large range of Natural Language Processing (NLP) tasks. In this context, one emerging paradigm is in-context learning where a language model is used as it is with a prompt that provides instructions and some examples to perform a task without changing the parameters of the model using traditional approaches such as fine-tuning. This way, no computing resources are needed for re-training/fine-tuning the models and the engineering effort is minimal. Thus, it would be beneficial to utilize such capabilities for generating knowledge graphs from text.
翻訳日:2023-05-16 13:37:36 公開日:2023-05-15
# 文分類における多言語トランスフォーマの言語間伝達性の測定

Measuring Cross-Lingual Transferability of Multilingual Transformers on Sentence Classification ( http://arxiv.org/abs/2305.08800v1 )

ライセンス: Link先を確認
Zewen Chi, Heyan Huang, Xian-Ling Mao(参考訳) 最近の研究は、事前訓練された多言語トランスフォーマー、特に言語間トランスフォーマーの顕著な機能を示した。 しかし、現在の方法は言語間伝達性をよく測定しておらず、多言語トランスフォーマーの理解を妨げている。 本稿では,文分類タスクにおける多言語トランスフォーマタのためのクロスリンガルトランスフォーマビリティ指標であるigapを提案する。 IGapはトレーニングエラーを考慮に入れ、エンドタスクデータなしで転送可能性も推定できる。 実験の結果,IGapは転送可能性測定と転送方向ランキングの基準値よりも優れていた。 さらに,多言語変換器の転送性,微調整アルゴリズム,転送方向などを比較した系統的な実験を行った。 さらに,多言語トランスフォーマーの理解を深めるため,言語間伝達に関する3つの知見が得られた。

Recent studies have exhibited remarkable capabilities of pre-trained multilingual Transformers, especially cross-lingual transferability. However, current methods do not measure cross-lingual transferability well, hindering the understanding of multilingual Transformers. In this paper, we propose IGap, a cross-lingual transferability metric for multilingual Transformers on sentence classification tasks. IGap takes training error into consideration, and can also estimate transferability without end-task data. Experimental results show that IGap outperforms baseline metrics for transferability measuring and transfer direction ranking. Besides, we conduct extensive systematic experiments where we compare transferability among various multilingual Transformers, fine-tuning algorithms, and transfer directions. More importantly, our results reveal three findings about cross-lingual transfer, which helps us to better understand multilingual Transformers.
翻訳日:2023-05-16 13:37:10 公開日:2023-05-15
# 量子コンピュータベンチマークによる予測モデル

Predictive Models from Quantum Computer Benchmarks ( http://arxiv.org/abs/2305.08796v1 )

ライセンス: Link先を確認
Daniel Hothem, Jordan Hines, Karthik Nataraj, Robin Blume-Kohout, and Timothy Proctor(参考訳) 量子コンピュータの総合ベンチマークは、量子ハードウェアの性能のテストと要約に不可欠である。 しかし、アルゴリズムベンチマークやランダムベンチマークのような全体論的ベンチマークは、通常、ベンチマークのごく限られたテスト回路以外の回路におけるプロセッサのパフォーマンスを予測しない。 本稿では,能力モデルを用いたベンチマークデータから予測モデルを構築するための汎用フレームワークを提案する。 キャパビリティモデルは、さまざまな種類のベンチマークデータに適合し、さまざまな予測タスクに使用することができる。 この柔軟性を2つのケーススタディで実証する。 最初のケーススタディでは、我々は回路を予測します。 (i)プロセスフィディティ及び (ii)2種類のボリュームベンチマークデータに誤差率モデルを適合させることによる成功確率 エラーレートモデルは単純だが汎用性があり、個々のゲートまたはより一般的な回路コンポーネントに効果的なエラーレートを割り当てる。 第2のケーススタディでは,画像分類を訓練したニューラルネットワークresnet50に転送学習を適用し,回路成功確率を予測する能力モデルを構築した。 私たちのケーススタディでは、クラウドアクセス可能な量子コンピュータのデータとノイズの多い量子コンピュータのシミュレーションを使用します。

Holistic benchmarks for quantum computers are essential for testing and summarizing the performance of quantum hardware. However, holistic benchmarks -- such as algorithmic or randomized benchmarks -- typically do not predict a processor's performance on circuits outside the benchmark's necessarily very limited set of test circuits. In this paper, we introduce a general framework for building predictive models from benchmarking data using capability models. Capability models can be fit to many kinds of benchmarking data and used for a variety of predictive tasks. We demonstrate this flexibility with two case studies. In the first case study, we predict circuit (i) process fidelities and (ii) success probabilities by fitting error rates models to two kinds of volumetric benchmarking data. Error rates models are simple, yet versatile capability models which assign effective error rates to individual gates, or more general circuit components. In the second case study, we construct a capability model for predicting circuit success probabilities by applying transfer learning to ResNet50, a neural network trained for image classification. Our case studies use data from cloud-accessible quantum computers and simulations of noisy quantum computers.
翻訳日:2023-05-16 13:36:57 公開日:2023-05-15
# コミュニティ構造をもつソーシャルネットワーク上での公平な情報拡散

Fair Information Spread on Social Networks with Community Structure ( http://arxiv.org/abs/2305.08791v1 )

ライセンス: Link先を確認
Octavio Mesner, Elizaveta Levina, Ji Zhu(参考訳) ソーシャルネットワークに広がる情報はどこにでもある。 影響の最大化 (IM) アルゴリズムは、情報を提供していればソーシャルネットワークを通じて最大限の拡散を生み出す個人を特定することを目的としており、マーケティングを念頭に置いていた。 コミュニティ構造が極めて一般的であるソーシャルネットワークでは、拡散を最大化することだけに焦点を当てたimアルゴリズムは、公衆衛生メッセージングのような設定で問題となる、コミュニティ間の情報カバレッジに不一致をもたらす可能性がある。 一部のIMアルゴリズムは,ノード属性を用いた情報カバレッジの相違を補うことを目的としているが,コミュニティが直接情報拡散に影響を与えるため,ネットワーク自体に経験的コミュニティ構造を用いることはない。 さらに、経験的ネットワークストラクチャーを用いることで、コミュニティ検出技術を活用することができ、ノード属性が存在しない場合や、ノード属性がネットワークコミュニティ構造を正確にキャプチャしていない場合に、フェアアウェアアルゴリズムを実行できる。 他の公正なimアルゴリズムとは対照的に、この研究はモデルをソーシャルネットワークに適合させ、最適な公平な情報拡散のためのシード割り当て戦略を決定するために使用される。 我々は,最大エントロピーで定義し,適切な条件下で理論的な保証を与え,シミュラタッドネットワークと実ネットワークの両方においてその経験的精度を実証するアルゴリズムを開発した。 このアルゴリズムはネットワークモデルに依存しており、直接ネットワークに依存しないため、部分的に観察され、騒々しいソーシャルネットワークに適している。

Information spread through social networks is ubiquitous. Influence maximiza- tion (IM) algorithms aim to identify individuals who will generate the greatest spread through the social network if provided with information, and have been largely devel- oped with marketing in mind. In social networks with community structure, which are very common, IM algorithms focused solely on maximizing spread may yield signifi- cant disparities in information coverage between communities, which is problematic in settings such as public health messaging. While some IM algorithms aim to remedy disparity in information coverage using node attributes, none use the empirical com- munity structure within the network itself, which may be beneficial since communities directly affect the spread of information. Further, the use of empirical network struc- ture allows us to leverage community detection techniques, making it possible to run fair-aware algorithms when there are no relevant node attributes available, or when node attributes do not accurately capture network community structure. In contrast to other fair IM algorithms, this work relies on fitting a model to the social network which is then used to determine a seed allocation strategy for optimal fair information spread. We develop an algorithm to determine optimal seed allocations for expected fair coverage, defined through maximum entropy, provide some theoretical guarantees under appropriate conditions, and demonstrate its empirical accuracy on both simu- lated and real networks. Because this algorithm relies on a fitted network model and not on the network directly, it is well-suited for partially observed and noisy social networks.
翻訳日:2023-05-16 13:36:40 公開日:2023-05-15
# QAOA-MC:量子交互演算子Ansatzにより強化されたマルコフ連鎖モンテカルロ

QAOA-MC: Markov chain Monte Carlo enhanced by Quantum Alternating Operator Ansatz ( http://arxiv.org/abs/2305.08789v1 )

ライセンス: Link先を確認
Yuichiro Nakano, Hideaki Hakoshima, Kosuke Mitarai, Keisuke Fujii(参考訳) 量子計算は、古典計算よりも特定の計算タスクを加速することが期待されている。 その最も原始的な利点は、古典的に難解な確率分布からサンプリングできることである。 この事実を利用するための有望なアプローチは、量子回路からの出力を提案分布として利用するいわゆる量子強化マルコフ連鎖モンテカルロ (MCMC) [D. Layden, et al., arXiv:2203.12497 (2022)] である。 本研究では,量子交換演算子 Ansatz (QAOA) を量子化MCMCに適用し,そのパラメータを最適化し,奥行きを浅く保ちながら収束速度を改善する戦略を提案する。 提案したQAOA型回路は、量子化MCMCが任意のパラメータで要求する制約を満たすように設計されている。 本研究では,実験値とMCMCの受入率,および収束速度を決定するMCMC遷移行列のスペクトルギャップとの間にあるパラメータ範囲の相関関係を求める。 これにより、QAOA回路のパラメータを最適化し、収束の2次高速化を実現することができる。 MCMCは統計物理学や機械学習などの様々な分野で使われているため、この研究は量子強化MCMCを通じて現在利用可能な量子コンピュータで実用的な量子優位性を実現するための重要なステップである。

Quantum computation is expected to accelerate certain computational task over classical counterpart. Its most primitive advantage is its ability to sample from classically intractable probability distributions. A promising approach to make use of this fact is the so-called quantum-enhanced Markov chain Monte Carlo (MCMC) [D. Layden, et al., arXiv:2203.12497 (2022)] which uses outputs from quantum circuits as the proposal distributions. In this work, we propose the use of Quantum Alternating Operator Ansatz (QAOA) for quantum-enhanced MCMC and provide a strategy to optimize its parameter to improve convergence speed while keeping its depth shallow. The proposed QAOA-type circuit is designed to satisfy the specific constraint which quantum-enhanced MCMC requires with arbitrary parameters. Through our extensive numerical analysis, we find a correlation in certain parameter range between an experimentally measurable value, acceptance rate of MCMC, and the spectral gap of the MCMC transition matrix, which determines the convergence speed. This allows us to optimize the parameter in the QAOA circuit and achieve quadratic speedup in convergence. Since MCMC is used in various areas such as statistical physics and machine learning makes, this work represents an important step toward realizing practical quantum advantage with currently available quantum computers through quantum-enhanced MCMC.
翻訳日:2023-05-16 13:36:14 公開日:2023-05-15
# 直線軸推定器の直線化:ベクトル量子化ネットワークにおける最適化課題の克服

Straightening Out the Straight-Through Estimator: Overcoming Optimization Challenges in Vector Quantized Networks ( http://arxiv.org/abs/2305.08842v1 )

ライセンス: Link先を確認
Minyoung Huh, Brian Cheung, Pulkit Agrawal, Phillip Isola(参考訳) 本研究は,ベクトル量子化を用いたニューラルネットワークのストレートスルー推定による学習課題について検討する。 トレーニング不安定の主な原因は、モデル埋め込みとコードベクトル分布の相違にあることが分かりました。 我々は、コードブックの勾配スパーシティやコミットメント損失の非対称性など、この問題に寄与する要因を特定します。 コードベクトルのアフィン再パラメータ化によりこの問題に対処する。 さらに,ストレートスルー推定によって引き起こされる勾配誤差を低減するための交互最適化を提案する。 さらに,コードブック表現とモデル埋め込みとの整合性を高めるために,コミットメント損失の改善を提案する。 これらの最適化手法は、ストレートスルー推定と最終的にモデル性能の数学的近似を改善する。 我々は,AlexNet,ResNet,ViTなどの共通モデルアーキテクチャにおける手法の有効性を,画像分類や生成モデルなど様々なタスクにわたって示す。

This work examines the challenges of training neural networks using vector quantization using straight-through estimation. We find that a primary cause of training instability is the discrepancy between the model embedding and the code-vector distribution. We identify the factors that contribute to this issue, including the codebook gradient sparsity and the asymmetric nature of the commitment loss, which leads to misaligned code-vector assignments. We propose to address this issue via affine re-parameterization of the code vectors. Additionally, we introduce an alternating optimization to reduce the gradient error introduced by the straight-through estimation. Moreover, we propose an improvement to the commitment loss to ensure better alignment between the codebook representation and the model embedding. These optimization methods improve the mathematical approximation of the straight-through estimation and, ultimately, the model performance. We demonstrate the effectiveness of our methods on several common model architectures, such as AlexNet, ResNet, and ViT, across various tasks, including image classification and generative modeling.
翻訳日:2023-05-16 13:30:45 公開日:2023-05-15
# 線形マルコフ決定過程における最適近似政策最適化の理論解析

A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes ( http://arxiv.org/abs/2305.08841v1 )

ライセンス: Link先を確認
Han Zhong, Tong Zhang(参考訳) 近似ポリシー最適化(PPO)アルゴリズムは、強化学習(RL)分野において最も繁栄する手法の1つである。 その成功にもかかわらず、PPOの理論的理解は依然として不十分である。 具体的には、PPOまたはその楽観的な変種が、関数近似を持つRLで最も単純なモデルである線形マルコフ決定過程(MDP)を効果的に解くことができるかどうかは不明である。 このギャップを埋めるために、全情報フィードバックを持つエピソード線形MDPに対するPPOの楽観的な変種を提案し、それを後悔する$\tilde{\mathcal{O}}(d^{3/4}H^2K^{3/4})を確立する。 ここで$d$は線形MDPの周囲次元、$H$は各エピソードの長さ、$K$はエピソードの数である。 既存のポリシーベースのアルゴリズムと比較して,確率線形MDPと正反対線形MDPの両面において,完全な情報を持つ最先端の後悔境界を実現する。 さらに, アルゴリズム設計では, 新たなマルチバッチ更新機構を特徴とし, 理論解析では, 独立興味を持つ可能性のある値とポリシークラスに関する新たな被覆数引数を用いる。

The proximal policy optimization (PPO) algorithm stands as one of the most prosperous methods in the field of reinforcement learning (RL). Despite its success, the theoretical understanding of PPO remains deficient. Specifically, it is unclear whether PPO or its optimistic variants can effectively solve linear Markov decision processes (MDPs), which are arguably the simplest models in RL with function approximation. To bridge this gap, we propose an optimistic variant of PPO for episodic adversarial linear MDPs with full-information feedback, and establish a $\tilde{\mathcal{O}}(d^{3/4}H^2K^{3/4})$ regret for it. Here $d$ is the ambient dimension of linear MDPs, $H$ is the length of each episode, and $K$ is the number of episodes. Compared with existing policy-based algorithms, we achieve the state-of-the-art regret bound in both stochastic linear MDPs and adversarial linear MDPs with full information. Additionally, our algorithm design features a novel multi-batched updating mechanism and the theoretical analysis utilizes a new covering number argument of value and policy classes, which might be of independent interest.
翻訳日:2023-05-16 13:30:28 公開日:2023-05-15
# 知覚的類似度指標の攻撃

Attacking Perceptual Similarity Metrics ( http://arxiv.org/abs/2305.08840v1 )

ライセンス: Link先を確認
Abhijay Ghildyal and Feng Liu(参考訳) 知覚的類似度指標は、知覚的類似性に関する人間の判断と徐々に相関してきているが、近年の進歩にもかかわらず、知覚不能な歪みの追加はこれらの指標を損なう可能性がある。 本研究では,これらの指標のロバスト性について体系的に検討した。 2つの歪んだ画像と1つの参照画像による2つの交互な強制収縮実験設計の後、計量がその判断をひっくり返すまで、歪んだ画像を逆攻撃によって基準に近づける。 まず,本研究におけるすべての指標は,fgsm,pgd,one-pixel attackなどの一般的な敵攻撃によって生じる摂動に影響を受けやすいことを示した。 次に、空間変換に基づく逆転摂動(stAdv)を用いて広く採用されているLPIPSメトリックを攻撃し、ブラックボックス設定で他の類似度メトリクスに効果的に移行可能な逆転例を作成する。 また、空間攻撃 stAdv と PGD(\ell_\infty$-bounded) を組み合わせて転送可能性を高め、これらの逆例を用いて、従来および最近開発されたメトリクスの堅牢性をベンチマークする。 本ベンチマークは, 対角的摂動に対する指標の堅牢性について, 議論の出発点となる。

Perceptual similarity metrics have progressively become more correlated with human judgments on perceptual similarity; however, despite recent advances, the addition of an imperceptible distortion can still compromise these metrics. In our study, we systematically examine the robustness of these metrics to imperceptible adversarial perturbations. Following the two-alternative forced-choice experimental design with two distorted images and one reference image, we perturb the distorted image closer to the reference via an adversarial attack until the metric flips its judgment. We first show that all metrics in our study are susceptible to perturbations generated via common adversarial attacks such as FGSM, PGD, and the One-pixel attack. Next, we attack the widely adopted LPIPS metric using spatial-transformation-based adversarial perturbations (stAdv) in a white-box setting to craft adversarial examples that can effectively transfer to other similarity metrics in a black-box setting. We also combine the spatial attack stAdv with PGD ($\ell_\infty$-bounded) attack to increase transferability and use these adversarial examples to benchmark the robustness of both traditional and recently developed metrics. Our benchmark provides a good starting point for discussion and further research on the robustness of metrics to imperceptible adversarial perturbations.
翻訳日:2023-05-16 13:30:03 公開日:2023-05-15
# 断熱遷移に伴う密度のみを測定する量子コンピュータによるポテンシャルエネルギー表面の計算

Calculating potential energy surfaces with quantum computers by measuring only the density along adiabatic transitions ( http://arxiv.org/abs/2305.08837v1 )

ライセンス: Link先を確認
James Brown(参考訳) 化学精度の高いポテンシャルエネルギー表面(PES)は、異なる分子構造間の断熱遷移に沿って密度を測定することで量子コンピュータから生成できることを示す。 位相推定の代わりに、時間変化密度から得られる逆TDDFTコーンシャムポテンシャルを用いて線積分を行うことによりエネルギーを評価する。 この手法の精度は、断熱的進化そのものの妥当性とポテンシャル反転過程(理論的には正確だが数値的に不安定である)に依存するが、全進化時間は位相推定の精度決定因子である。 本手法は,第1量子化における基底状態と第1三重項状態,および第2量子化における3電子および4電子系の基底状態の2つの電子の1次元系を用いて検討する。 以上の結果から, 位相推定で求めるよりも短い伝搬時間で, フルポテンシャルエネルギー曲線の化学的精度を得るためには, 正確な測定がほとんど得られないことが示唆された。 また, 時間発展に沿って不正確な密度測定を行い, 結果として生じる密度変化を平滑化することにより, 正確なポテンシャルエネルギー曲線を計算できることを示した。 疎格子表現や機械学習密度汎関数を用いて完全なPSSを生成する方法について議論し、密度(とエネルギー)を用いた関数のトレーニングがエネルギーのみを使用するよりも伝達可能な関数を生成することが知られている。 最後に、逆ポテンシャルを用いた時間非依存コーンシャム計算による密度と測定された密度を比較して、独自の精度のチェックを古典的に行うことが可能であることに留意する必要がある。

We show that chemically-accurate potential energy surfaces (PESs) can be generated from quantum computers by measuring the density along an adiabatic transition between different molecular geometries. In lieu of using phase estimation, the energy is evaluated by performing line-integration using the inverted TDDFT Kohn-Sham potential obtained from the time-varying densities. The accuracy of this method depends on the validity of the adiabatic evolution itself and the potential inversion process (which is theoretically exact but can be numerically unstable), whereas total evolution time is the defining factor for the precision of phase estimation. We examine the method with a one-dimensional system of two electrons for both the ground and first triplet state in first quantization, as well as the ground state of three- and four- electron systems in second quantization. It is shown that few accurate measurements can be utilized to obtain chemical accuracy across the full potential energy curve, with shorter propagation time than may be required using phase estimation for a similar accuracy. We also show that an accurate potential energy curve can be calculated by making many imprecise density measurements (using few shots) along the time evolution and smoothing the resulting density evolution. We discuss how one can generate full PESs using either sparse grid representations or machine learning density functionals where it is known that training the functional using the density (along with the energy) generates a more transferable functional than only using the energy. Finally, it is important to note that the method is able to classically provide a check of its own accuracy by comparing the density resulting from a time-independent Kohn-Sham calculation using the inverted potential, with the measured density.
翻訳日:2023-05-16 13:29:39 公開日:2023-05-15
# 超低温フェルミ気体のニューラルネットワーク量子状態

Neural-network quantum states for ultra-cold Fermi gases ( http://arxiv.org/abs/2305.08831v1 )

ライセンス: Link先を確認
Jane Kim, Gabriel Pescia, Bryce Fore, Jannes Nys, Giuseppe Carleo, Stefano Gandolfi, Morten Hjorth-Jensen, Alessandro Lovato(参考訳) 超低温フェルミガスは、フェルミオン性超流動BCS状態からボゾン性超流動BEC状態への遷移を含む様々な量子力学的性質を示す。 しかし、これらの性質の理論的な説明は、強いペアリング相関の出現と、成分粒子間の相互作用の非摂動的性質により困難である。 本稿では,メッセージパッシングアーキテクチャに基づくバックフロー変換を含む新しいpfaffian-jastrowニューラルネットワーク量子状態を導入し,ペアリングと他の量子力学的相関を効率的にエンコードする。 提案手法は, Slater-Jastrow フレームワーク内で構築された ans\atze に比較して大幅に改善され, 現状拡散モンテカルロ法より優れる。 対スピン対分布関数を通して強い対相関の出現を観察する。 さらに,移動学習はニューラルネットワーク波動関数の訓練を安定化し,加速し,一元性に近いBCS-BECクロスオーバー領域の探索を可能にすることを示した。 その結果, ニューラルネットワーク量子状態は, 超低温フェルミガスの研究に有望な戦略をもたらすことが示唆された。

Ultra-cold Fermi gases display diverse quantum mechanical properties, including the transition from a fermionic superfluid BCS state to a bosonic superfluid BEC state, which can be probed experimentally with high precision. However, the theoretical description of these properties is challenging due to the onset of strong pairing correlations and the non-perturbative nature of the interaction among the constituent particles. This work introduces a novel Pfaffian-Jastrow neural-network quantum state that includes backflow transformation based on message-passing architecture to efficiently encode pairing, and other quantum mechanical correlations. Our approach offers substantial improvements over comparable ans\"atze constructed within the Slater-Jastrow framework and outperforms state-of-the-art diffusion Monte Carlo methods, as indicated by our lower ground-state energies. We observe the emergence of strong pairing correlations through the opposite-spin pair distribution functions. Moreover, we demonstrate that transfer learning stabilizes and accelerates the training of the neural-network wave function, enabling the exploration of the BCS-BEC crossover region near unitarity. Our findings suggest that neural-network quantum states provide a promising strategy for studying ultra-cold Fermi gases.
翻訳日:2023-05-16 13:29:09 公開日:2023-05-15
# pmindiasum:インドにおける多言語・言語横断の見出し要約

PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India ( http://arxiv.org/abs/2305.08828v1 )

ライセンス: Link先を確認
Ashok Urlana, Pinzhen Chen, Zheng Zhao, Shay B. Cohen, Manish Shrivastava, Barry Haddow(参考訳) 本稿では,インドの言語に焦点を当てた多言語および大規模並列な見出し要約コーパスPMIndiaSumを紹介する。 私たちのコーパスは、4つの言語ファミリー、14の言語、そしてこれまでで最大の196の言語ペアをカバーしています。 すべての言語間ペアのテストグラウンドを提供する。 データ取得、処理、品質保証を含むコーパスを構築するためのワークフローを詳述します。 さらに,単言語,言語横断,多言語要約のベンチマークを細調整,プロンプト,翻訳・要約によって公開する。 実験の結果,インド文献の要約を支援するデータの重要性が確認された。 私たちのデータセットは公開されており、自由に修正と再配布が可能です。

This paper introduces PMIndiaSum, a new multilingual and massively parallel headline summarization corpus focused on languages in India. Our corpus covers four language families, 14 languages, and the largest to date, 196 language pairs. It provides a testing ground for all cross-lingual pairs. We detail our workflow to construct the corpus, including data acquisition, processing, and quality assurance. Furthermore, we publish benchmarks for monolingual, cross-lingual, and multilingual summarization by fine-tuning, prompting, as well as translate-and-summarize. Experimental results confirm the crucial role of our data in aiding the summarization of Indian texts. Our dataset is publicly available and can be freely modified and re-distributed.
翻訳日:2023-05-16 13:28:47 公開日:2023-05-15
# 放射線医の視線からより良いコントラストビューを学ぶ

Learning Better Contrastive View from Radiologist's Gaze ( http://arxiv.org/abs/2305.08826v1 )

ライセンス: Link先を確認
Sheng Wang, Zixu Zhuang, Xi Ouyang, Lichi Zhang, Zheren Li, Chong Ma, Tianming Liu, Dinggang Shen, Qian Wang(参考訳) 最近の自己指導型コントラスト学習手法は, 正の対の距離を最小化することを目的とした, シームズ構造から大きな恩恵を受けている。 これらの手法は通常、入力された画像にランダムなデータ拡張を適用し、同じ画像の拡張ビューが類似し、ポジティブにペアリングされることを期待する。 しかし、ランダムな拡張は、画像の意味情報を見落とし、コントラスト学習における拡張ビューの品質を低下させる可能性がある。 この問題は、疾患に関連する異常が小さくなり、現在のランダムな増量計画において腐敗しやすい(例えば、切り抜かれやすい)ため、医療画像においてより困難になる。 本研究は,広く使用されているx線画像に対して,コントラスト前訓練で一般的な拡張が下流診断や分類作業に影響を及ぼすことを最初に示す。 そこで我々は,放射線医の診断における視線から学び,医用画像に対する対照的な視点を,放射線医の視覚的注意から導き出すための新しい拡張手法であるFocusContrastを提案する。 具体的には,放射線科医の視線運動を追跡し,x線画像の読解時の視覚的注意をモデル化する。 学習モデルは、新しい入力画像が与えられた放射線科医の視覚的注意を予測でき、さらに、疾患に関連した異常をほとんど無視しない注意注意強化を導くことができる。 プラグインとフレームワークに依存しないモジュールとして、FocusContrastは膝X線データセットの分類精度を4.0~7.0%改善した。

Recent self-supervised contrastive learning methods greatly benefit from the Siamese structure that aims to minimizing distances between positive pairs. These methods usually apply random data augmentation to input images, expecting the augmented views of the same images to be similar and positively paired. However, random augmentation may overlook image semantic information and degrade the quality of augmented views in contrastive learning. This issue becomes more challenging in medical images since the abnormalities related to diseases can be tiny, and are easy to be corrupted (e.g., being cropped out) in the current scheme of random augmentation. In this work, we first demonstrate that, for widely-used X-ray images, the conventional augmentation prevalent in contrastive pre-training can affect the performance of the downstream diagnosis or classification tasks. Then, we propose a novel augmentation method, i.e., FocusContrast, to learn from radiologists' gaze in diagnosis and generate contrastive views for medical images with guidance from radiologists' visual attention. Specifically, we track the gaze movement of radiologists and model their visual attention when reading to diagnose X-ray images. The learned model can predict visual attention of the radiologists given a new input image, and further guide the attention-aware augmentation that hardly neglects the disease-related abnormalities. As a plug-and-play and framework-agnostic module, FocusContrast consistently improves state-of-the-art contrastive learning methods of SimCLR, MoCo, and BYOL by 4.0~7.0% in classification accuracy on a knee X-ray dataset.
翻訳日:2023-05-16 13:28:37 公開日:2023-05-15
# Five A$^{+}$ Network: 水中画像強調のための9Kパラメータしか必要としない

Five A$^{+}$ Network: You Only Need 9K Parameters for Underwater Image Enhancement ( http://arxiv.org/abs/2305.08824v1 )

ライセンス: Link先を確認
Jingxia Jiang, Tian Ye, Jinbin Bai, Sixiang Chen, Wenhao Chai, Shi Jun, Yun Liu and Erkang Chen(参考訳) 軽量水中画像強調ネットワークは,資源制約されたプラットフォームにおいて非常に重要であるが,モデルサイズ,計算効率,拡張性能のバランスをとることは,従来のアプローチでは困難であった。 本研究では,高効率かつ軽量な水中画像強調ネットワークであるFive A$^{+}$Net(FA$^{+}$Net)を提案する。 fa$^{+}$netは2段階の強化構造を採用している。 強力な事前ステージは水中の難易度をサブプロブレムに分解することを目的としており、細粒度ステージにはマルチブランチカラーエンハンスメントモジュールとピクセルアテンションモジュールが組み込まれ、ネットワークの詳細認識を増幅する。 我々の知る限り、FA$^{+}$Netは1080P画像をリアルタイムに拡張できる唯一のネットワークである。 FA$^{+}$Netは, パラメータ数と計算複雑性の両方を著しく低減しつつ, 複数のデータセット上での最先端性能を得ることにより, 従来の手法よりも優れていることを示す。 コードはhttps://github.com/Owen718/FiveAPlus-Network.comで公開されている。

A lightweight underwater image enhancement network is of great significance for resource-constrained platforms, but balancing model size, computational efficiency, and enhancement performance has proven difficult for previous approaches. In this work, we propose the Five A$^{+}$ Network (FA$^{+}$Net), a highly efficient and lightweight real-time underwater image enhancement network with only $\sim$ 9k parameters and $\sim$ 0.01s processing time. The FA$^{+}$Net employs a two-stage enhancement structure. The strong prior stage aims to decompose challenging underwater degradations into sub-problems, while the fine-grained stage incorporates multi-branch color enhancement module and pixel attention module to amplify the network's perception of details. To the best of our knowledge, FA$^{+}$Net is the only network with the capability of real-time enhancement of 1080P images. Thorough extensive experiments and comprehensive visual comparison, we show that FA$^{+}$Net outperforms previous approaches by obtaining state-of-the-art performance on multiple datasets while significantly reducing both parameter count and computational complexity. The code is open source at https://github.com/Owen718/FiveAPlus-Network.
翻訳日:2023-05-16 13:28:10 公開日:2023-05-15
# Dragon-Alpha&cu32:高性能CUDAライブラリを備えたJavaベースのテンソルコンピューティングフレームワーク

Dragon-Alpha&cu32: A Java-based Tensor Computing Framework With its High-Performance CUDA Library ( http://arxiv.org/abs/2305.08819v1 )

ライセンス: Link先を確認
Zhiyi Zhang, Pengfei Zhang, Qi Wang(参考訳) javaは非常に強力だが、ディープラーニングの分野では、その能力は十分に活用されていないだろう。 Javaベースのディープラーニングフレームワークと比較すると,Pythonベースの(PyTorchやTensorFlowなど)が主流であることは間違いありません。 Dragon-AlphaはJavaベースのTensor Computing Frameworkで、使いやすく、高いスケーラビリティとハイパフォーマンスを持ち、ディープラーニング分野におけるJavaのジレンマを破り、より効果的にしようとしている。 Dragon-AlphaはさまざまなレベルのAPIをサポートしており、ユーザフレンドリなハイレベルAPIを通じてディープラーニングフレームワークとして使用できる。 Dragon-Alphaは、多層アーキテクチャとJavaのビッグデータエコシステムに基づいて、異種プラットフォームやデバイスにまたがるコンピューティングパワーを集約する可能性がある。 Dragon-Alphaには並列性を改善するための非同期APIと、小さな特徴マップにユニークな畳み込み演算子を採用する高度に最適化されたCUDAライブラリcu32がある。 実験によると、Dragon-Alpha&cu32はPyTorch&cuDNNと比較して、Cifar-10上で典型的なニューラルネットワーク(AlexNet、VGG、GoogleNet、ResNet)をトレーニングするために、時間とメモリ(75.38%から97.32%、29.2%から66.4%)を節約している。

Java is very powerful, but in Deep Learning field, its capabilities probably has not been sufficiently exploited. Compared to the Java-based deep-learning-frameworks, the Python-based (PyTorch, TensorFlow, etc) are undoubtedly the mainstream, due to their easy-to-use, flexibility and better ecosystem. Dragon-Alpha is a Java-based Tensor Computing Framework, with easy-to-use, high-scalability and high-performance, trying to break Java's dilemma in deep learning field and make it more effective. Dragon-Alpha supports different levels of APIs, and can be used as a deep-learning-framework through its user-friendly high-level APIs. Dragon-Alpha has potential to aggregate computing-power across heterogeneous platforms and devices, based on its multi-layer architecture and Java's big-data ecosystem. Dragon-Alpha has its asynchronized APIs to improve parallelism, and highly-optimized CUDA library cu32 which adopts unique convolution\deconvolution operators for small feature maps. The experiments show that, compared to PyTorch&cuDNN, Dragon-Alpha&cu32 costs less time and memory (75.38% to 97.32%, 29.2% to 66.4%), to train some typical neural networks (AlexNet, VGG, GoogleNet, ResNet) on Cifar-10.
翻訳日:2023-05-16 13:27:47 公開日:2023-05-15
# 改良型ニューラル会話モデルのための文レベルのカリキュラム学習

Sentence Level Curriculum Learning for Improved Neural Conversational Models ( http://arxiv.org/abs/2305.08818v1 )

ライセンス: Link先を確認
Sean Paulsen(参考訳) マシンインテリジェンスを設計して人間と会話するには、人間がどのように会話に参加するかを理解する必要があるため、会話モデリングは自然言語処理において重要な課題である。 アーキテクチャとデータ収集における新たなブレークスルーは、このような会話型AIモデルのパフォーマンスを押し上げ続けている。 しかし、デザインは、コミュニケーションを学ぶときに人間が経験する文構造と複雑さの段階的な積み重ねを無視します。 学習中,本モデルは1つ以上の文を入力として受け入れ,会話中の次の文を1ワードずつ予測しようとする。 これは、人間の学習の望ましい"ビルドアップ"コンポーネントを模倣します。 まず「短い」長さの文対だけから始め、それから「メートル」長さのペアだけから始めます。 私たちの実験の大半は、このテクニックを最適化し、テクニックのポテンシャルを適切に表現することを目的としていました。 その結果, セグメント学習モデルでは, 標準テキスト作成モデルよりも, トレーニング終了時の検証損失が低いことがわかった。 このセグメント化トレーニングは実装が容易で,今後の研究が実装と改善を行うための一般的な方向性を提供します。

Designing machine intelligence to converse with a human user necessarily requires an understanding of how humans participate in conversation, and thus conversation modeling is an important task in natural language processing. New breakthroughs in architecture and data gathering continue to push the performance of such conversational AI models. However, designs neglect the gradual buildup in sentence structure and complexity experienced by humans as we learn to communicate. During training, our model accepts one or more sentences as input and attempts to predict the next sentence in the conversation one word at a time, so our goal is to separate training into segments, with each segment's corpus comprised of longer sentence pairs than the previous one. This will mimic the desired "buildup" component of human learning. We begin with only "short" length sentence pairs, then only "medium" length pairs, and so on. A majority of our experiments were toward optimizing this technique, ensuring a proper representation of the technique's potential, since many of the details were new questions. Our segment-trained models were then able to achieve lower validation loss at the end of training than models trained with standard text preparation. This segmented training is straightforward to implement and our results provide a general direction for future research to implement and improve it.
翻訳日:2023-05-16 13:27:18 公開日:2023-05-15
# Laughing Matters:拡散モデルを用いたLaughing-Face Generationの導入

Laughing Matters: Introducing Laughing-Face Generation using Diffusion Models ( http://arxiv.org/abs/2305.08854v1 )

ライセンス: Link先を確認
Antoni Bigata Casademunt, Rodrigo Mira, Nikita Drobyshev, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic(参考訳) 音声駆動アニメーションは近年、フォトリアリスティックに近い結果が得られ、大きな注目を集めている。 しかしながら、この分野は人間の相互作用における重要性を示す証拠があるにもかかわらず、非言語コミュニケーションに関して未調査のままである。 特に、笑いの列を生成することは、この行動の複雑さとニュアンスのために、ユニークな挑戦となる。 本稿では,このギャップを埋めるために,静止画と笑いを含む音声クリップを付与し,現実的な笑いシーケンスを生成できる新しいモデルを提案する。 従来の顔アニメーション手法の失敗事例を強調し,近年の拡散モデルを利用して説得力のある笑いビデオを生成する。 さまざまな笑いデータセットでモデルをトレーニングし、笑い用に特別に設計された評価基準を導入します。 従来の音声駆動手法と比較すると,笑声生成のために再訓練された場合でも,すべての指標の最先端性能が得られた。

Speech-driven animation has gained significant traction in recent years, with current methods achieving near-photorealistic results. However, the field remains underexplored regarding non-verbal communication despite evidence demonstrating its importance in human interaction. In particular, generating laughter sequences presents a unique challenge due to the intricacy and nuances of this behaviour. This paper aims to bridge this gap by proposing a novel model capable of generating realistic laughter sequences, given a still portrait and an audio clip containing laughter. We highlight the failure cases of traditional facial animation methods and leverage recent advances in diffusion models to produce convincing laughter videos. We train our model on a diverse set of laughter datasets and introduce an evaluation metric specifically designed for laughter. When compared with previous speech-driven approaches, our model achieves state-of-the-art performance across all metrics, even when these are re-trained for laughter generation.
翻訳日:2023-05-16 13:19:48 公開日:2023-05-15
# cqe: 包括的な量抽出装置

CQE: A Comprehensive Quantity Extractor ( http://arxiv.org/abs/2305.08853v1 )

ライセンス: Link先を確認
Satya Almasian, Vivian Kazakova, Philip G\"oldner and Michael Gertz(参考訳) 事実を記述するための文書には量が必要である。 それらはファイナンス、ビジネス、医療、科学全般といったアプリケーションドメインにおいてユビキタスです。 他の情報抽出手法と比較して、テキスト中の量の適切な抽出と表現方法を記述する研究は、興味深いことにごくわずかしかない。 本稿では,テキストデータからの包括的量抽出フレームワークを提案する。 値と単位の組み合わせ、量(例えば、上昇または降下)の振る舞い、そして量に関連する概念を効率的に検出する。 本フレームワークは, 依存解析と単位辞書を利用して, 検出された量の適切な正規化と標準化を実現する。 評価のために、新しいデータセットを使用して、我々のオープンソースフレームワークが他のシステムよりも優れており、そして、我々の知る限りでは、特定された量に関連する概念を最初に検出する。 私たちのフレームワークの基盤となるコードとデータは、https://github.com/vivkaz/cqeで入手できます。

Quantities are essential in documents to describe factual information. They are ubiquitous in application domains such as finance, business, medicine, and science in general. Compared to other information extraction approaches, interestingly only a few works exist that describe methods for a proper extraction and representation of quantities in text. In this paper, we present such a comprehensive quantity extraction framework from text data. It efficiently detects combinations of values and units, the behavior of a quantity (e.g., rising or falling), and the concept a quantity is associated with. Our framework makes use of dependency parsing and a dictionary of units, and it provides for a proper normalization and standardization of detected quantities. Using a novel dataset for evaluation, we show that our open source framework outperforms other systems and -- to the best of our knowledge -- is the first to detect concepts associated with identified quantities. The code and data underlying our framework are available at https://github.com/vivkaz/CQE.
翻訳日:2023-05-16 13:19:32 公開日:2023-05-15
# 複数の実行でパレートフロントの変数を可視化するPythonツール

Python Tool for Visualizing Variability of Pareto Fronts over Multiple Runs ( http://arxiv.org/abs/2305.08852v1 )

ライセンス: Link先を確認
Shuhei Watanabe(参考訳) ハイパーパラメータ最適化は、ディープラーニングのパフォーマンス向上に不可欠である。 パフォーマンスに加えて、推論時間やメモリ要件などの他の基準は、実用上の理由により、しばしば最適化される必要がある。 これは多目的最適化(moo)の研究を動機付ける。 しかし,無作為種子による変動を考慮せずにmoo法のパレート面を示すことが多く,性能安定性の評価が困難となる。 複数の実行で不確実性のある可視化を可能にする、experimental achievement surfaceという概念があるが、experimental achievement surfaceのための主要なpythonパッケージは存在しない。 そこで我々は,この目的のためにPythonパッケージを開発し,使用法を説明する。 パッケージはhttps://github.com/nabe0928/empirical-attainment-funcで入手できる。

Hyperparameter optimization is crucial to achieving high performance in deep learning. On top of the performance, other criteria such as inference time or memory requirement often need to be optimized due to some practical reasons. This motivates research on multi-objective optimization (MOO). However, Pareto fronts of MOO methods are often shown without considering the variability caused by random seeds and this makes the performance stability evaluation difficult. Although there is a concept named empirical attainment surface to enable the visualization with uncertainty over multiple runs, there is no major Python package for empirical attainment surface. We, therefore, develop a Python package for this purpose and describe the usage. The package is available at https://github.com/nabenabe0928/empirical-attainment-func.
翻訳日:2023-05-16 13:19:18 公開日:2023-05-15
# MVマップ:マルチビュー一貫性を持つオフボードHDマップ生成

MV-Map: Offboard HD-Map Generation with Multi-view Consistency ( http://arxiv.org/abs/2305.08851v1 )

ライセンス: Link先を確認
Ziyang Xie and Ziqi Pang and Yuxiong Wang(参考訳) 鳥の目視(BEV)知覚モデルは、人間の労働力が少ない高精細地図(HD-Maps)を構築するのに有用であるが、それらの結果は信頼できないことが多く、異なる視点から予測されたHD-Mapsに顕著な矛盾を示す。 これは、BEVの知覚が一般に「オンボード」な方法で設定されるためであり、計算を制限し、アルゴリズムが複数のビューを同時に推論することを防ぐ。 本稿では,これらの制約を克服し,hd-mapが一般的にデータセンタにオフラインで構築される再利用可能なインフラストラクチャであるという事実に基づいて,計算制約を解消する,より実用的な'オフボード'なhd-map生成設定を提唱する。 そこで本研究では,マルチビューの一貫性を活かし,任意のフレーム数を扱うことのできるmv-mapと呼ばれる新しいオフボードパイプラインを提案する。 MV-Mapでは、対象のHD-Mapは、"不確実性ネットワーク"によって割り当てられた信頼スコアによって重み付けられた、オンボード予測のすべてのフレームを集約することによって作成される。 マルチビューの整合性を高めるため,ボクセル化ニューラルラジアンス場(Voxel-NeRF)によって最適化されたグローバルな3次元構造を持つ不確実性ネットワークを構築した。 nuScenesの大規模な実験により,我々のMV-MapはHD-Mapsの品質を大幅に改善し,HD-Maps生成のためのオフボード手法の重要性を強調した。

While bird's-eye-view (BEV) perception models can be useful for building high-definition maps (HD-Maps) with less human labor, their results are often unreliable and demonstrate noticeable inconsistencies in the predicted HD-Maps from different viewpoints. This is because BEV perception is typically set up in an 'onboard' manner, which restricts the computation and consequently prevents algorithms from reasoning multiple views simultaneously. This paper overcomes these limitations and advocates a more practical 'offboard' HD-Map generation setup that removes the computation constraints, based on the fact that HD-Maps are commonly reusable infrastructures built offline in data centers. To this end, we propose a novel offboard pipeline called MV-Map that capitalizes multi-view consistency and can handle an arbitrary number of frames with the key design of a 'region-centric' framework. In MV-Map, the target HD-Maps are created by aggregating all the frames of onboard predictions, weighted by the confidence scores assigned by an 'uncertainty network'. To further enhance multi-view consistency, we augment the uncertainty network with the global 3D structure optimized by a voxelized neural radiance field (Voxel-NeRF). Extensive experiments on nuScenes show that our MV-Map significantly improves the quality of HD-Maps, further highlighting the importance of offboard methods for HD-Map generation.
翻訳日:2023-05-16 13:19:07 公開日:2023-05-15
# Make-A-Protagonist: 専門家の集まりによるジェネリックビデオ編集

Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts ( http://arxiv.org/abs/2305.08850v1 )

ライセンス: Link先を確認
Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee(参考訳) テキスト駆動画像とビデオ拡散モデルは、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。 近年,拡散型生成モデルにおける既存画像や映像の編集・変動が注目されている。 しかし、以前の作品では、テキストでコンテンツを編集したり、単一の視覚的な手掛かりを使って粗いパーソナライゼーションを提供することに制限されており、細かい細かい制御を必要とする不適切なコンテンツには不向きである。 そこで本研究では,テキストおよび視覚的手がかりを用いて,個人を主人公にすることを目的とした映像編集フレームワークMake-A-Protagonistを提案する。 具体的には,複数の専門家を活用して音源映像の解析を行い,視覚およびテキストの手がかりを対象とし,マスクガイド付分節サンプリングを用いて所望の出力を生成する視覚テキスト映像生成モデルを提案する。 広範囲な結果は、Make-A-Protagonistの多彩で顕著な編集能力を示している。

The text-driven image and video diffusion models have achieved unprecedented success in generating realistic and diverse content. Recently, the editing and variation of existing images and videos in diffusion-based generative models have garnered significant attention. However, previous works are limited to editing content with text or providing coarse personalization using a single visual clue, rendering them unsuitable for indescribable content that requires fine-grained and detailed control. In this regard, we propose a generic video editing framework called Make-A-Protagonist, which utilizes textual and visual clues to edit videos with the goal of empowering individuals to become the protagonists. Specifically, we leverage multiple experts to parse source video, target visual and textual clues, and propose a visual-textual-based video generation model that employs mask-guided denoising sampling to generate the desired output. Extensive results demonstrate the versatile and remarkable editing capabilities of Make-A-Protagonist.
翻訳日:2023-05-16 13:18:38 公開日:2023-05-15
# マニフォールドの学習:ニューラルネットワークの幾何学的制御性条件を用いた普遍近似特性

Learning on Manifolds: Universal Approximations Properties using Geometric Controllability Conditions for Neural ODEs ( http://arxiv.org/abs/2305.08849v1 )

ライセンス: Link先を確認
Karthik Elamvazhuthi, Xuechen Zhang, Samet Oymak, Fabio Pasqualetti(参考訳) 多くのロボット工学や機械工学の応用において、データは回転自由度の存在により滑らかな多様体に制約されることが多い。 しかし、ニューラル常微分方程式(ODE)のような一般的なデータ駆動型および学習ベースの手法は、一般的にこれらの多様体の制約を満たすことができず、これらの応用には不十分である。 そこで本研究では, 与えられた多様体の不変性を残し, 制御アフィン系の可制御性を利用して特性を特徴づけるニューラル常微分方程式のクラスについて検討する。 特に, agrachev と caponigro によるフィードバック制御系の流れの微分同相写像近似の結果を用いて, 多様体拘束力学系の流れとして表現できる任意の写像は, 一定の制御可能性条件が満たされるたびに, 多様体拘束神経ode の流れを用いて近似できることを示した。 さらに、この普遍近似特性は、ニューラルネットワークODEが各層に限られた幅を持つときに成り立ち、近似の代わりにネットワークの深さを利用することを示す。 我々は、宇宙船や衛星などの機械系のモデル多様体である多様体 S2 と3次元直交群 SO(3) に対するPyTorch に関する数値実験を用いて、理論的知見を検証する。 また,多様体不変なニューラル・オードの性能と,多様体不変性を無視した古典的ニューラル・オードの性能を比較し,精度とサンプルの複雑さの観点から,我々のアプローチの優位性を示す。

In numerous robotics and mechanical engineering applications, among others, data is often constrained on smooth manifolds due to the presence of rotational degrees of freedom. Common datadriven and learning-based methods such as neural ordinary differential equations (ODEs), however, typically fail to satisfy these manifold constraints and perform poorly for these applications. To address this shortcoming, in this paper we study a class of neural ordinary differential equations that, by design, leave a given manifold invariant, and characterize their properties by leveraging the controllability properties of control affine systems. In particular, using a result due to Agrachev and Caponigro on approximating diffeomorphisms with flows of feedback control systems, we show that any map that can be represented as the flow of a manifold-constrained dynamical system can also be approximated using the flow of manifold-constrained neural ODE, whenever a certain controllability condition is satisfied. Additionally, we show that this universal approximation property holds when the neural ODE has limited width in each layer, thus leveraging the depth of network instead for approximation. We verify our theoretical findings using numerical experiments on PyTorch for the manifolds S2 and the 3-dimensional orthogonal group SO(3), which are model manifolds for mechanical systems such as spacecrafts and satellites. We also compare the performance of the manifold invariant neural ODE with classical neural ODEs that ignore the manifold invariant properties and show the superiority of our approach in terms of accuracy and sample complexity.
翻訳日:2023-05-16 13:18:23 公開日:2023-05-15
# 小さなモデルは大きな言語モデルにとって価値のあるプラグインである

Small Models are Valuable Plug-ins for Large Language Models ( http://arxiv.org/abs/2305.08848v1 )

ライセンス: Link先を確認
Canwen Xu and Yichong Xu and Shuohang Wang and Yang Liu and Chenguang Zhu and Julian McAuley(参考訳) GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重量は一般には公開されておらず、その大きなサイズは一般的なハードウェアで調整するのが困難である。 その結果、これらのモデルを大規模な教師付きデータで効果的に調整することは困難である。 代替として、ICL(In-Context Learning)はコンテキスト長制限のため、少数の教師付き例しか使用できない。 本稿では,ブラックボックスllmが局所的に微調整された小型モデルで動作するスーパー・イン・コンテキスト・ラーニング(supericl)を提案する。 実験により,SuperICLはテキスト内学習の不安定性問題に対処しつつ,最先端の微調整モデルよりも性能を向上できることを示した。 さらに、SuperICLは、多言語性や解釈可能性など、より小さなモデルの能力を高めることができる。

Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their weights are often publicly unavailable and their immense sizes make the models difficult to be tuned with common hardware. As a result, effectively tuning these models with large-scale supervised data can be challenging. As an alternative, In-Context Learning (ICL) can only use a small number of supervised examples due to context length limits. In this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervised tasks. Our experiments demonstrate that SuperICL can improve performance beyond state-of-the-art fine-tuned models while addressing the instability problem of in-context learning. Furthermore, SuperICL can enhance the capabilities of smaller models, such as multilinguality and interpretability.
翻訳日:2023-05-16 13:17:55 公開日:2023-05-15
# 1つのトレーニングランによるプライバシー監査

Privacy Auditing with One (1) Training Run ( http://arxiv.org/abs/2305.08846v1 )

ライセンス: Link先を確認
Thomas Steinke, Milad Nasr, Matthew Jagielski(参考訳) 本研究では,1つのトレーニングランで差分プライベート機械学習システムの監査手法を提案する。 これにより、複数のトレーニング例を独立して追加または削除できる並列性が活用される。 グループプライバシのコストを回避するために,差分プライバシーと統計一般化の接続を用いてこれを解析する。 我々の監査手法はアルゴリズムに関する最小限の仮定を必要とし、ブラックボックスやホワイトボックスの設定に適用できる。

We propose a scheme for auditing differentially private machine learning systems with a single training run. This exploits the parallelism of being able to add or remove multiple training examples independently. We analyze this using the connection between differential privacy and statistical generalization, which avoids the cost of group privacy. Our auditing scheme requires minimal assumptions about the algorithm and can be applied in the black-box or white-box setting.
翻訳日:2023-05-16 13:17:40 公開日:2023-05-15
# 大型言語モデルはレコメンダシステムのためのゼロショットランカである

Large Language Models are Zero-Shot Rankers for Recommender Systems ( http://arxiv.org/abs/2305.08845v1 )

ライセンス: Link先を確認
Yupeng Hou, Junjie Zhang, Zihan Lin, Hongyu Lu, Ruobing Xie, Julian McAuley, Wayne Xin Zhao(参考訳) 近年,大規模言語モデル (LLM) (GPT-4など) は,推薦タスクにアプローチする可能性を含む,汎用的なタスク解決能力に優れることを示した。 本研究は,レコメンダシステムのランキングモデルとして機能するllmの能力について検討することを目的としている。 本研究では,まず条件付きランキングタスクとして推薦問題を定式化し,逐次的インタラクション履歴を条件として,候補生成モデルで検索した項目を候補として検討する。 逐次的なインタラクション履歴,候補項目,ランキング指示を含むことによって,プロンプトテンプレートを慎重に設計する。 我々は、リコメンデータシステムに広く利用されている2つのデータセットについて広範な実験を行い、レコメンデータシステムにおけるLLMの使用に関するいくつかの重要な知見を導き出した。 複数の候補ジェネレータで検索した候補に対する従来の推薦モデルと競合するか、それ以上の競争力を持つLLMがゼロショットランキング能力を持つことを示す。 また,llmは歴史的相互作用の順序を知覚するのに苦労し,位置バイアスのようなバイアスの影響も受けるが,これらの問題は特別な設計のプロンプトとブートストラップ戦略によって軽減できることを示した。 この作業を再現するコードはhttps://github.com/RUCAIBox/LLMRank.comで公開されている。

Recently, large language models (LLMs) (e.g. GPT-4) have demonstrated impressive general-purpose task-solving abilities, including the potential to approach recommendation tasks. Along this line of research, this work aims to investigate the capacity of LLMs that act as the ranking model for recommender systems. To conduct our empirical study, we first formalize the recommendation problem as a conditional ranking task, considering sequential interaction histories as conditions and the items retrieved by the candidate generation model as candidates. We adopt a specific prompting approach to solving the ranking task by LLMs: we carefully design the prompting template by including the sequential interaction history, the candidate items, and the ranking instruction. We conduct extensive experiments on two widely-used datasets for recommender systems and derive several key findings for the use of LLMs in recommender systems. We show that LLMs have promising zero-shot ranking abilities, even competitive to or better than conventional recommendation models on candidates retrieved by multiple candidate generators. We also demonstrate that LLMs struggle to perceive the order of historical interactions and can be affected by biases like position bias, while these issues can be alleviated via specially designed prompting and bootstrapping strategies. The code to reproduce this work is available at https://github.com/RUCAIBox/LLMRank.
翻訳日:2023-05-16 13:17:34 公開日:2023-05-15
# RL4F: モデル出力の修復のための強化学習による自然言語フィードバックの生成

RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs ( http://arxiv.org/abs/2305.08844v1 )

ライセンス: Link先を確認
Afra Feyza Aky\"urek, Ekin Aky\"urek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon(参考訳) 前例のない成功にもかかわらず、大きな言語モデルでさえ間違いを犯します。 人間がフィードバックを使って学習し、改善する方法と同様に、以前の研究は、アウトプットを修復するための自然言語フィードバックを備えた言語モデルを提案した。 人為的な批判は高いので、研究者は人間の批判に代えて学習した批評生成装置を考案し、下流のモデルを訓練して生成されたフィードバックを活用できると仮定した。 しかし、このアプローチは微調整できないため、ブラックボックスやchatgptのような限定アクセスモデルには適用されない。 さらに,大規模汎用言語エージェントの時代には,ネットワークの複数コピーの結果,微調整は計算的にも空間的にも効率的ではない。 本稿では,200倍以上の大きさの固定モデルであるGPT-3のエンドタスク性能を最大化するために,批判生成器をトレーニングするマルチエージェント協調フレームワークであるRL4F(Reinforcement Learning for Feedback)を紹介する。 RL4Fは、GPT-3の出力の修正を支援する批評を生成する。 アクションプランニング,要約,アルファベット化の3つのデータセットを調査し,3つのタスクにまたがる強固なベースラインに対して,複数のテキスト類似度メトリクスにおける改善(平均約5%)を示す。

Despite their unprecedented success, even the largest language models make mistakes. Similar to how humans learn and improve using feedback, previous work proposed providing language models with natural language feedback to guide them in repairing their outputs. Because human-generated critiques are expensive to obtain, researchers have devised learned critique generators in lieu of human critics while assuming one can train downstream models to utilize generated feedback. However, this approach does not apply to black-box or limited access models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of large general-purpose language agents, fine-tuning is neither computationally nor spatially efficient as it results in multiple copies of the network. In this work, we introduce RL4F (Reinforcement Learning for Feedback), a multi-agent collaborative framework where the critique generator is trained to maximize end-task performance of GPT-3, a fixed model more than 200 times its size. RL4F produces critiques that help GPT-3 revise its outputs. We study three datasets for action planning, summarization and alphabetization and show improvements (~5% on average) in multiple text similarity metrics over strong baselines across all three tasks.
翻訳日:2023-05-16 13:17:07 公開日:2023-05-15
# HAHE:グローバルおよびローカルレベルのハイパーリレーショナル知識グラフに対する階層的注意

HAHE: Hierarchical Attention for Hyper-Relational Knowledge Graphs in Global and Local Level ( http://arxiv.org/abs/2305.06588v2 )

ライセンス: Link先を確認
Haoran Luo, Haihong E, Yuhao Yang, Yikai Guo, Mingzhi Sun, Tianyu Yao, Zichen Tang, Kaiyang Wan, Meina Song, Wei Lin(参考訳) ハイパーリレーショナル知識グラフ(HKG)のリンク予測は、価値のある取り組みである。 HKGは高関係事実(H-Facts)で構成され、主三重項といくつかの属性値修飾子から構成され、事実上包括的な情報を表わすことができる。 HKGの内部構造は、グローバルなハイパーグラフベースの表現と、セマンティックシーケンスベースの表現として局所的に表現することができる。 しかし、既存の研究はhkgのグラフィカルな構造とシーケンシャルな構造を同時にモデル化することはほとんどなく、hkgの表現を制限している。 この制限を克服するために,HKG埋め込み(HAHE)のための新しい階層的注意モデルを提案する。 グローバルレベルアテンションはハイパーグラフ二重アテンション層を用いてHKGのグラフィカル構造をモデル化でき、ローカルレベルアテンションはヘテロジニアス自己アテンション層を介してH-Factの内部のシーケンシャル構造を学習することができる。 実験結果から,HAHEはHKG標準データセット上のリンク予測タスクにおいて,最先端の性能を達成することが示された。 さらにHAHEは,HKGリンク予測タスクの適用性を高めるため,HKGマルチポジション予測の問題を初めて解決する。 私たちのコードは公開されています。

Link Prediction on Hyper-relational Knowledge Graphs (HKG) is a worthwhile endeavor. HKG consists of hyper-relational facts (H-Facts), composed of a main triple and several auxiliary attribute-value qualifiers, which can effectively represent factually comprehensive information. The internal structure of HKG can be represented as a hypergraph-based representation globally and a semantic sequence-based representation locally. However, existing research seldom simultaneously models the graphical and sequential structure of HKGs, limiting HKGs' representation. To overcome this limitation, we propose a novel Hierarchical Attention model for HKG Embedding (HAHE), including global-level and local-level attention. The global-level attention can model the graphical structure of HKG using hypergraph dual-attention layers, while the local-level attention can learn the sequential structure inside H-Facts via heterogeneous self-attention layers. Experiment results indicate that HAHE achieves state-of-the-art performance in link prediction tasks on HKG standard datasets. In addition, HAHE addresses the issue of HKG multi-position prediction for the first time, increasing the applicability of the HKG link prediction task. Our code is publicly available.
翻訳日:2023-05-16 11:17:49 公開日:2023-05-15
# 法律領域における事前学習型言語モデル:インド法を事例として

Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law ( http://arxiv.org/abs/2209.06049v5 )

ライセンス: Link先を確認
Shounak Paul, Arpan Mandal, Pawan Goyal and Saptarshi Ghosh(参考訳) 法律分野におけるNLPは、トランスフォーマーベースの事前訓練言語モデル(PLM)が法的テキストで事前訓練されるようになり、成功している。 ヨーロッパとアメリカの法律上のテキストで訓練されたplmは一般に公開されているが、インドなど他のドメイン(国)からの法的文書には多くの特徴がある。 各国における法律NLP適用の急増に伴い、各国の法的文書に照らして、これらのLMを事前訓練する必要性が高まっている。 本研究では,インド法域における事前訓練について検討する。 私たちは、インドの法律データに基づいて、人気のある2つの法的 PLM(LegalBERT と CaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。 我々は、これらのPLMを3つの法的NLPタスク – 事実からの違法な特定、裁判所判決文書のセマンティックセグメンテーション、および控訴判決予測 – に対して、インドと非インド(EU、英国)両方のデータセットに適用する。 提案手法は,新たなドメイン(インド文)の性能向上だけでなく,オリジナルドメイン(ヨーロッパ文,イギリス文)の性能向上にも寄与する。 また,これらの異なるPLMの質的比較のための説明可能性実験を行った。

NLP in the legal domain has seen increasing success with the emergence of Transformer-based Pre-trained Language Models (PLMs) pre-trained on legal text. PLMs trained over European and US legal text are available publicly; however, legal text from other domains (countries), such as India, have a lot of distinguishing characteristics. With the rapidly increasing volume of Legal NLP applications in various countries, it has become necessary to pre-train such LMs over legal text of other countries as well. In this work, we attempt to investigate pre-training in the Indian legal domain. We re-train (continue pre-training) two popular legal PLMs, LegalBERT and CaseLawBERT, on Indian legal data, as well as train a model from scratch with a vocabulary based on Indian legal text. We apply these PLMs over three benchmark legal NLP tasks -- Legal Statute Identification from facts, Semantic Segmentation of Court Judgment Documents, and Court Appeal Judgment Prediction -- over both Indian and non-Indian (EU, UK) datasets. We observe that our approach not only enhances performance on the new domain (Indian texts) but also over the original domain (European and UK texts). We also conduct explainability experiments for a qualitative comparison of all these different PLMs.
翻訳日:2023-05-16 11:16:32 公開日:2023-05-15
# 消費者選択のモデル化のための辺縁付き非パラメトリックアプローチ

A Nonparametric Approach with Marginals for Modeling Consumer Choice ( http://arxiv.org/abs/2208.06115v3 )

ライセンス: Link先を確認
Yanqiu Ruan, Xiaobo Li, Karthyek Murthy, Karthik Natarajan(参考訳) 異なる種類の消費者が選択したデータを考えると、重要な課題は消費者の選択行動を記述し予測する擬似モデルを開発することである。 そのような選択モデルの一つがマージン分布モデルであり、選択データを説明するために選択肢のランダムユーティリティのマージン分布の仕様のみを必要とする。 本稿では,このモデルで表現可能な選択確率の集合を正確に評価し,このモデルによる選択確率データの整合性を検証することは,多項式サイズの線形プログラムの解法と等価であることを示す。 これらの結果は、代替案がそれらのユーティリティの限界分布に基づいてグループ化される場合に拡張する。 表現可能な条件に基づいて,混合整数凸プログラムの解法を減少させる選択データに最善の適合性を見いだし,未知のソートの選択確率に対する新しい予測間隔を開発する。 計算結果から, 限界分布モデルの方が, 多項ロジットよりも表現力, 推定性能, 予測精度が優れ, ランダムユーティリティモデルよりも計算性能が優れていることがわかった。

Given data on choices made by consumers for different assortments, a key challenge is to develop parsimonious models that describe and predict consumer choice behavior. One such choice model is the marginal distribution model, which requires only the specification of the marginal distributions of the random utilities of the alternatives to explain choice data. In this paper, we develop an exact characterization of the set of choice probabilities that can be represented by this model and show that verifying the consistency of choice probability data with this model is equivalent to solving a polynomial-size linear program. We extend these results to the case where alternatives are grouped based on the marginal distribution of their utilities. Based on the representable conditions, we find the best-fit to the choice data that reduces to solving a mixed integer convex program and develop novel prediction intervals for the choice probabilities of unseen assortments. Our numerical results show that the marginal distribution model provides much better representational power, estimation performance, and prediction accuracy than multinomial logit and much better computational performance than the random utility model.
翻訳日:2023-05-16 11:16:11 公開日:2023-05-15
# Mem-Rec:代替表現を用いたメモリ効率の良いレコメンデーションシステム

Mem-Rec: Memory Efficient Recommendation System using Alternative Representation ( http://arxiv.org/abs/2305.07205v2 )

ライセンス: Link先を確認
Gopi Krishna Jha, Anthony Thomas, Nilesh Jain, Sameh Gobriel, Tajana Rosing, Ravi Iyer(参考訳) ディープラーニングベースのレコメンデーションシステム(DLRMなど)は、高品質なパーソナライズされたレコメンデーションを提供するために広く使われているAIモデルである。 現代のレコメンデーションシステムで使用されるトレーニングデータには、考えられる数万の異なる値を扱う分類的特徴が含まれている。 これらの分類トークンは通常、100GBの順序で大きな埋め込みテーブルに格納される学習されたベクトル表現に割り当てられる。 これらのテーブルの保存とアクセスは、商業展開においてかなりの負担となる。 本稿では,テーブルを埋め込む新しい代替表現手法であるMEM-RECを提案する。 MEM-RECは2つのキャッシュフレンドリーな埋め込みテーブルを使用して分類機能をエンコードするために、ブルームフィルタとハッシュ法を利用する。 第1のテーブル(トーケン埋め込み)は生の埋め込み(すなわち学習ベクトル表現)を含み、第2のテーブル(重み込み)は、より小さく、これらの生の埋め込みをスケールして各データポイントにより良い識別能力を与える重みを含む。 我々は,MEM-RECの最先端技術と比較して,精度と計算要求のトレードオフに対処するアーキテクチャ,設計,分析を行う。 本稿では,MEM-RECが推奨品質を維持するだけでなく,商業規模のレコメンデーションモデルのメモリフットプリントを大幅に削減できるだけでなく,埋め込み遅延を改善することができることを示す。 特に,MEM-RECはMLPerf CriteoTBベンチマークのDLRMモデルサイズを2900倍に圧縮し,最大3.4倍高速な埋め込みを行うとともに,完全非圧縮モデルと同じAUCを実現する。

Deep learning-based recommendation systems (e.g., DLRMs) are widely used AI models to provide high-quality personalized recommendations. Training data used for modern recommendation systems commonly includes categorical features taking on tens-of-millions of possible distinct values. These categorical tokens are typically assigned learned vector representations, that are stored in large embedding tables, on the order of 100s of GB. Storing and accessing these tables represent a substantial burden in commercial deployments. Our work proposes MEM-REC, a novel alternative representation approach for embedding tables. MEM-REC leverages bloom filters and hashing methods to encode categorical features using two cache-friendly embedding tables. The first table (token embedding) contains raw embeddings (i.e. learned vector representation), and the second table (weight embedding), which is much smaller, contains weights to scale these raw embeddings to provide better discriminative capability to each data point. We provide a detailed architecture, design and analysis of MEM-REC addressing trade-offs in accuracy and computation requirements, in comparison with state-of-the-art techniques. We show that MEM-REC can not only maintain the recommendation quality and significantly reduce the memory footprint for commercial scale recommendation models but can also improve the embedding latency. In particular, based on our results, MEM-REC compresses the MLPerf CriteoTB benchmark DLRM model size by 2900x and performs up to 3.4x faster embeddings while achieving the same AUC as that of the full uncompressed model.
翻訳日:2023-05-16 11:07:48 公開日:2023-05-15
# 量子干渉効果が文脈現実を決定する

Quantum interference effects determine contextual realities ( http://arxiv.org/abs/2305.07194v2 )

ライセンス: Link先を確認
Holger F. Hofmann(参考訳) 量子力学は、ポテンシャル測定結果の重ね合わせの観点から異なる測定コンテキスト間の関係を記述する。 この測定コンテキスト間の関係は、文脈に依存しない現実を決定できない。 本稿では, 3つの箱型パラドックスを実装した3つの経路干渉を用いて, 中間経路の重ね合わせとしての最終的な測定結果の表現が, 一見空の経路間のよく定義されたコヒーレンスを記述することを示す。

Quantum mechanics describes the relation between different measurement contexts in terms of superpositions of the potential measurement outcomes. This relation between measurement contexts makes it impossible to determine context independent realities. Here, I illustrate the problem using three path interferences that implement the three box paradox and show that the representation of the final measurement outcome as a superposition of intermediate paths describes well-defined coherences between seemingly empty paths.
翻訳日:2023-05-16 11:07:19 公開日:2023-05-15
# 分散化と加速により大規模バンドル調整が可能に

Decentralization and Acceleration Enables Large-Scale Bundle Adjustment ( http://arxiv.org/abs/2305.07026v2 )

ライセンス: Link先を確認
Taosha Fan, Joseph Ortiz, Ming Hsiao, Maurizio Monge, Jing Dong, Todd Murphey, Mustafa Mukadam(参考訳) 大規模なバンドル調整問題へのスケーリングには、複数のデバイスに分散するデータと計算が必要である。 事前作業における集中型メソッドは、計算と通信のオーバーヘッドのため、中小規模の問題を解決することしかできない。 本稿では,計算と通信のボトルネックを軽減し,任意に大きなバンドル調整問題を解決する完全分散手法を提案する。 再投射誤差を補正し、異なるデバイスから最適化変数を分離する新しい代理関数を導出することにより、これを実現する。 この関数は、最大化最小化技術を使用することを可能にし、並列で解決できる独立最適化サブプロブレムへのバンドル調整を減らす。 さらに、ネステロフの加速と適応再起動を適用し、理論的な保証を維持しながら収束を改善する。 ピアツーピア通信は限られているが,本手法は軽度条件下での1次臨界点への収束が証明可能である。 公開データセットを用いた大規模なベンチマークでは,メモリ使用量や通信負荷に類似した分散ベースラインよりもはるかに高速に収束する。 単一デバイスを用いた集中型ベースラインと比較して、我々の手法は分散化されているものの、Ceresで最大953.7倍、DeepLMで最大174.6倍の精度で解が得られる。 コード:https://github.com/facebookresearch/DABA。

Scaling to arbitrarily large bundle adjustment problems requires data and compute to be distributed across multiple devices. Centralized methods in prior works are only able to solve small or medium size problems due to overhead in computation and communication. In this paper, we present a fully decentralized method that alleviates computation and communication bottlenecks to solve arbitrarily large bundle adjustment problems. We achieve this by reformulating the reprojection error and deriving a novel surrogate function that decouples optimization variables from different devices. This function makes it possible to use majorization minimization techniques and reduces bundle adjustment to independent optimization subproblems that can be solved in parallel. We further apply Nesterov's acceleration and adaptive restart to improve convergence while maintaining its theoretical guarantees. Despite limited peer-to-peer communication, our method has provable convergence to first-order critical points under mild conditions. On extensive benchmarks with public datasets, our method converges much faster than decentralized baselines with similar memory usage and communication load. Compared to centralized baselines using a single device, our method, while being decentralized, yields more accurate solutions with significant speedups of up to 953.7x over Ceres and 174.6x over DeepLM. Code: https://github.com/facebookresearch/DABA.
翻訳日:2023-05-16 11:07:11 公開日:2023-05-15
# 対称適応摂動理論のためのフォールトトレラント量子アルゴリズム

Fault-tolerant quantum algorithm for symmetry-adapted perturbation theory ( http://arxiv.org/abs/2305.07009v2 )

ライセンス: Link先を確認
Cristian L. Cortes, Matthias Loipersberger, Robert M. Parrish, Sam Morley-Short, William Pol, Sukin Sim, Mark Steudtner, Christofer S. Tautermann, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif(参考訳) 総エネルギーを超えた可観測性の効率的な計算は、量子化学におけるフォールトトレラント量子コンピューティングアプローチの重要な課題と機会である。 ここでは、相互作用エネルギーの対称性適応摂動理論(SAPT)成分を、そのような可観測物の原型的な例と考える。 必要な計算資源を最適化しながら、フォールトトレラント量子コンピュータ上で観測可能な計算を行うためのガイドを提供する。 具体的には,1次SAPTレベルでの相互作用エネルギーをハイゼンベルク制限スケーリングで推定する量子アルゴリズムを提案する。 この目的のために,各saptを効率的に表現できる高次テンソル分解およびブロック符号化技術を利用する。 提案手法の計算コストを定量化するために,一連のベンチマーク分子に対するアルゴリズムの実行に必要な論理量子ビット数とToffoliゲート数から資源推定値を提供するとともに,固有状態生成のコストとSAPTオブザーバブルを符号化するブロックのコストを考慮に入れた。 最後に, ヘムおよびアルテミシニン複合体の資源推定をドラッグデザインで発生する大規模システムとして行い, 本ベンチマークにおけるアルゴリズムの性能を強調し, 今後の研究で改善される可能性のあるボトルネックについて考察する。

The efficient computation of observables beyond the total energy is a key challenge and opportunity for fault-tolerant quantum computing approaches in quantum chemistry. Here we consider the symmetry-adapted perturbation theory (SAPT) components of the interaction energy as a prototypical example of such an observable. We provide a guide for calculating this observable on a fault-tolerant quantum computer while optimizing the required computational resources. Specifically, we present a quantum algorithm that estimates interaction energies at the first-order SAPT level with a Heisenberg-limited scaling. To this end, we exploit a high-order tensor factorization and block encoding technique that efficiently represents each SAPT observable. To quantify the computational cost of our methodology, we provide resource estimates in terms of the required number of logical qubits and Toffoli gates to execute our algorithm for a range of benchmark molecules, also taking into account the cost of the eigenstate preparation and the cost of block encoding the SAPT observables. Finally, we perform the resource estimation for a heme and artemisinin complex as a representative large-scale system encountered in drug design, highlighting our algorithm's performance in this new benchmark study and discussing possible bottlenecks that may be improved in future work.
翻訳日:2023-05-16 11:06:49 公開日:2023-05-15
# ハイパーツリー分解によるデータログ推論の強化

Enhancing Datalog Reasoning with Hypertree Decompositions ( http://arxiv.org/abs/2305.06854v2 )

ライセンス: Link先を確認
Xinyue Zhang, Pan Hu, Yavor Nenov, Ian Horrocks(参考訳) セミナイブ評価戦略に基づくデータログ推論は、従来のジョインプランを使用してルールを評価し、特にルールが複雑である場合、実際には冗長性と非効率性をもたらすことが多い。 ハイパーツリー分解は、効率的なクエリ計画を特定し、クエリ応答における類似の冗長性を低減します。 しかし、再帰的データログプログラムによる実体化や漸進的推論にどのように適用できるかは不明である。 さらに、ハイパーツリーの分解には追加のデータ構造が必要であるため、実行時とメモリ消費の両方で無視できないオーバーヘッドが発生する。 本稿では,データログプログラムの実体化とインクリメンタル評価にハイパーツリー分解を利用するアルゴリズムを提案する。 さらに,本手法を標準データログ推論アルゴリズムとモジュール方式で組み合わせることで,分解によるオーバーヘッドを低減する。 私たちの経験的評価は、プログラムが複雑な規則を含む場合、組み合わせたアプローチは、しばしば桁違いの順序で、ベースラインアプローチよりもはるかに高速であることを示している。

Datalog reasoning based on the semina\"ive evaluation strategy evaluates rules using traditional join plans, which often leads to redundancy and inefficiency in practice, especially when the rules are complex. Hypertree decompositions help identify efficient query plans and reduce similar redundancy in query answering. However, it is unclear how this can be applied to materialisation and incremental reasoning with recursive Datalog programs. Moreover, hypertree decompositions require additional data structures and thus introduce nonnegligible overhead in both runtime and memory consumption. In this paper, we provide algorithms that exploit hypertree decompositions for the materialisation and incremental evaluation of Datalog programs. Furthermore, we combine this approach with standard Datalog reasoning algorithms in a modular fashion so that the overhead caused by the decompositions is reduced. Our empirical evaluation shows that, when the program contains complex rules, the combined approach is usually significantly faster than the baseline approach, sometimes by orders of magnitude.
翻訳日:2023-05-16 11:05:49 公開日:2023-05-15
# データ駆動型政策リファインメントの理論的理解に向けて

Towards Theoretical Understanding of Data-Driven Policy Refinement ( http://arxiv.org/abs/2305.06796v2 )

ライセンス: Link先を確認
Ali Baheri(参考訳) 本稿では,安全クリティカルなアプリケーション用に特別に設計された強化学習におけるデータ駆動型政策改善手法を提案する。 本手法は,データ駆動最適化と強化学習の強みを活かし,反復的洗練による政策の安全性と最適性を高める。 我々の主な貢献は、このデータ駆動政策改善の概念の数学的定式化にある。 このフレームワークは、データ駆動検証中に特定された反例から学習することで、強化学習ポリシーを体系的に改善する。 さらに, 収束, 頑健性境界, 一般化誤差, モデルミスマッチに対するレジリエンスなど, 本手法の重要な理論特性を明らかにする一連の定理を提案する。 これらの結果は,方法論の有効性を検証するだけでなく,異なる環境やシナリオにおける行動のより深い理解にも寄与する。

This paper presents an approach for data-driven policy refinement in reinforcement learning, specifically designed for safety-critical applications. Our methodology leverages the strengths of data-driven optimization and reinforcement learning to enhance policy safety and optimality through iterative refinement. Our principal contribution lies in the mathematical formulation of this data-driven policy refinement concept. This framework systematically improves reinforcement learning policies by learning from counterexamples identified during data-driven verification. Furthermore, we present a series of theorems elucidating key theoretical properties of our approach, including convergence, robustness bounds, generalization error, and resilience to model mismatch. These results not only validate the effectiveness of our methodology but also contribute to a deeper understanding of its behavior in different environments and scenarios.
翻訳日:2023-05-16 11:05:33 公開日:2023-05-15
# オークションベースフェデレーション学習におけるデータ消費者の実用性最大化入札戦略

Utility-Maximizing Bidding Strategy for Data Consumers in Auction-based Federated Learning ( http://arxiv.org/abs/2305.06784v2 )

ライセンス: Link先を確認
Xiaoli Tang, Han Yu(参考訳) オークションベースのフェデレートラーニング(Federated Learning, AFL)は、データ所有者が経済的手段でFLに参加する動機付け能力によって、幅広い研究の関心を集めている。 既存の研究は、1つのデータ消費者と複数のデータ所有者だけがAFL市場(すなわち独占市場)に存在すると仮定している。 そのため、データ所有者はflのデータ消費者に加入する。 しかし、この仮定は、複数のデータ消費者が各FLタスクに参加するためにデータ所有者を引き付けるために競争できる現実的なAFLマーケットプレースでは現実的ではない。 本稿では,このギャップを,フェデレートラーニング(Fed-Bidder)におけるデータ消費者のための実用性最優先入札戦略を提案することによって埋める。 複数のflデータ消費者がaflを介して効率的に、効率的にデータ所有者と競うことができる。 6つの一般的なベンチマークデータセットに基づく大規模な実験により、Fed-Bidderは4つの最先端のアプローチに比べてはるかに有利であることが示されている。

Auction-based Federated Learning (AFL) has attracted extensive research interest due to its ability to motivate data owners to join FL through economic means. Existing works assume that only one data consumer and multiple data owners exist in an AFL marketplace (i.e., a monopoly market). Therefore, data owners bid to join the data consumer for FL. However, this assumption is not realistic in practical AFL marketplaces in which multiple data consumers can compete to attract data owners to join their respective FL tasks. In this paper, we bridge this gap by proposing a first-of-its-kind utility-maximizing bidding strategy for data consumers in federated learning (Fed-Bidder). It enables multiple FL data consumers to compete for data owners via AFL effectively and efficiently by providing with utility estimation capabilities which can accommodate diverse forms of winning functions, each reflecting different market dynamics. Extensive experiments based on six commonly adopted benchmark datasets show that Fed-Bidder is significantly more advantageous compared to four state-of-the-art approaches.
翻訳日:2023-05-16 11:05:12 公開日:2023-05-15
# ジェネレーティブAI:教育における意味と応用

Generative AI: Implications and Applications for Education ( http://arxiv.org/abs/2305.07605v2 )

ライセンス: Link先を確認
Anastasia Olga (Olnancy) Tzirides, Akash Saini, Gabriela Zapata, Duane Searsmith, Bill Cope, Mary Kalantzis, Vania Castro, Theodora Kourkoulou, John Jones, Rodrigo Abrantes da Silva, Jen Whiting, Nikoleta Polyxeni Kastania(参考訳) 2022年11月のChatGPTの打ち上げは、一部の教育者の間でパニックを巻き起こし、他者からの資格ある熱意を喚起した。 Generative AIという抽象用語の下では、ChatGPTはコンピュータ生成テキスト、画像、その他のデジタルメディアを配信するための様々な技術の例である。 本稿では,1つの生成AI技術,大規模言語モデルから応答するチャットボット,C-LLMの教育効果について検討する。 複雑な学生作業のAIレビューと評価へのC-LLMの適用について報告する。 結論として,本論文では,言語コーパスに拘束される生成AIの本質的な限界と,二項表記によるテキスト表現について考察する。 これらの限界の中では、教育におけるジェネレーティブAIの出現と潜在的な応用の範囲を提案する。

The launch of ChatGPT in November 2022 precipitated a panic among some educators while prompting qualified enthusiasm from others. Under the umbrella term Generative AI, ChatGPT is an example of a range of technologies for the delivery of computer-generated text, image, and other digitized media. This paper examines the implications for education of one generative AI technology, chatbots responding from large language models, or C-LLM. It reports on an application of a C-LLM to AI review and assessment of complex student work. In a concluding discussion, the paper explores the intrinsic limits of generative AI, bound as it is to language corpora and their textual representation through binary notation. Within these limits, we suggest the range of emerging and potential applications of Generative AI in education.
翻訳日:2023-05-16 10:58:45 公開日:2023-05-15
# RHINO: ハンガリーマッチングによる動的デノーミングによる回転DETRによるオブジェクト指向物体検出

RHINO: Rotated DETR with Dynamic Denoising via Hungarian Matching for Oriented Object Detection ( http://arxiv.org/abs/2305.07598v2 )

ライセンス: Link先を確認
Hakjin Lee, Minki Song, Jamyoung Koo, Junghoon Seo(参考訳) Detection Transformer (DETR) の変種である DINO の公開により,検出トランスフォーマーは,エンドツーエンドの設計とスケーラビリティのメリットによって,オブジェクト検出ベンチマークにおける記録を破っている。 しかし、detrのオブジェクト指向オブジェクト検出への拡張は十分に研究されていないが、nmsの除去やアンカー関連コストといったエンドツーエンドアーキテクチャの利点が期待されている。 本稿では,指向オブジェクト検出のための最初の強 dino ベースラインを提案する。 指向オブジェクト検出のためのdetrの直接的採用は非重複予測を保証せず、これを緩和するための簡単なコストを提案している。 さらに、$\textit{dynamic denoising}$戦略を導入し、ハンガリーマッチングを使用して冗長なノイズクエリをフィルタリングし、$\textit{query alignment}$を使用してトランスフォーマデコーダ層間の一貫性を保つ。 提案手法は, DOTA-v1.0/v1.5/v2.0 および DIOR-R ベンチマークにおいて, 先行する DETR などの性能より優れていた。

With the publication of DINO, a variant of the Detection Transformer (DETR), Detection Transformers are breaking the record in the object detection benchmark with the merits of their end-to-end design and scalability. However, the extension of DETR to oriented object detection has not been thoroughly studied although more benefits from its end-to-end architecture are expected such as removing NMS and anchor-related costs. In this paper, we propose a first strong DINO-based baseline for oriented object detection. We found that straightforward employment of DETRs for oriented object detection does not guarantee non-duplicate prediction, and propose a simple cost to mitigate this. Furthermore, we introduce a $\textit{dynamic denoising}$ strategy that uses Hungarian matching to filter redundant noised queries and $\textit{query alignment}$ to preserve matching consistency between Transformer decoder layers. Our proposed model outperforms previous rotated DETRs and other counterparts, achieving state-of-the-art performance in DOTA-v1.0/v1.5/v2.0, and DIOR-R benchmarks.
翻訳日:2023-05-16 10:58:34 公開日:2023-05-15
# 惑星地質図作成のためのSegment Anything(SAM)モデルによる知識蒸留

Knowledge distillation with Segment Anything (SAM) model for Planetary Geological Mapping ( http://arxiv.org/abs/2305.07586v2 )

ライセンス: Link先を確認
Sahib Julka and Michael Granitzer(参考訳) 惑星科学の研究は膨大な量のリモートセンシングデータを分析し、それらはしばしば注釈や処理に費用がかかり、時間がかかる。 この分野で重要なタスクの1つは地質図で、地質学的特徴や地形を含む惑星画像に対する関心領域を特定し、概説する必要がある。 しかし、これらのイメージを手動でラベル付けするのは、相当な専門知識と努力を要する複雑で困難な作業である。 この取り組みを迅速化するために,最近導入された近縁セグメンテーション(SAM)モデルを用いた知識蒸留法を提案する。 本稿では, この素早いアノテーションと迅速な適応性のためのプロンプトベース基礎モデルの有効性を, 惑星の天空をマッピングする場合に示す。 私たちの研究は、モデルから適切なプロンプトで得られたアノテーションの小さなセットと、その後に専門化されたドメインデコーダをトレーニングすることで、このタスクで十分なセマンティックセグメンテーションを実現できることを示しています。 主な結果は, 知識蒸留の利用により, 手動アノテーションの分野の専門家が必要とする労力を大幅に削減し, 画像分割作業の効率化が期待できることを示している。 このアプローチは、火星の地形を自動的に検出し分割することで、地球外発見を加速する可能性がある。

Planetary science research involves analysing vast amounts of remote sensing data, which are often costly and time-consuming to annotate and process. One of the essential tasks in this field is geological mapping, which requires identifying and outlining regions of interest in planetary images, including geological features and landforms. However, manually labelling these images is a complex and challenging task that requires significant domain expertise and effort. To expedite this endeavour, we propose the use of knowledge distillation using the recently introduced cutting-edge Segment Anything (SAM) model. We demonstrate the effectiveness of this prompt-based foundation model for rapid annotation and quick adaptability to a prime use case of mapping planetary skylights. Our work reveals that with a small set of annotations obtained with the right prompts from the model and subsequently training a specialised domain decoder, we can achieve satisfactory semantic segmentation on this task. Key results indicate that the use of knowledge distillation can significantly reduce the effort required by domain experts for manual annotation and improve the efficiency of image segmentation tasks. This approach has the potential to accelerate extra-terrestrial discovery by automatically detecting and segmenting Martian landforms.
翻訳日:2023-05-16 10:58:13 公開日:2023-05-15
# pillaracc: エッジデバイス上のリアルタイムポイントクラウド3dオブジェクト検出のためのスパースポイントピラーズアクセラレータ

PillarAcc: Sparse PointPillars Accelerator for Real-Time Point Cloud 3D Object Detection on Edge Devices ( http://arxiv.org/abs/2305.07522v2 )

ライセンス: Link先を確認
Minjae Lee, Hyungmin Kim, Seongmin Park, Minyong Yoon, Janghwan Lee, Junwon Choi, Mingu Kang, Jungwook Choi(参考訳) ポイントクラウド(PC)データを用いた3Dオブジェクト検出は、効率的な符号化が厳しいリソースとレイテンシ要求を満たすための鍵となる、自律運転認識パイプラインにとって不可欠である。 広く採用されている鳥眼ビュー(BEV)エンコーディングであるPointPillarsは、高精度な3Dオブジェクト検出のために、3Dポイントクラウドデータを2Dピラーに集約する。 しかし、ポイントピラーを用いた最先端の手法の多くは、柱エンコードの本質的なスパースを見落としており、重要な計算量削減の機会を欠いている。 本研究では,分散畳み込み処理を高速化し,柱型3次元物体検出ネットワークにおけるスパース性利用を最大化する,画期的なアルゴリズム・ハードウエア協調設計を提案する。 精度とスパーシティの最適バランスを達成するために,高度なピラープルーニング法を用いてスパーシフィケーションの機会を調査した。 我々は,線形複雑入出力マッピング生成とコンフリクトフリーの集束メモリアクセスを通じてスパース柱の畳み込みを促進する,最先端のスパーシティ支援機構であるPillarAccを紹介する。 さらに,多種多様な操作下での最適ハードウェア利用のための柱処理スケジュールを動的に調整するデータフロー最適化手法を提案する。 我々はPillarAccを様々な最先端3Dオブジェクト検出ネットワークとベンチマークで評価し、代表的エッジプラットフォームと比較して顕著なスピードアップと省エネを実現し、極小精度で500FPSのポイントピラース速度を記録破りで実証した。

3D object detection using point cloud (PC) data is vital for autonomous driving perception pipelines, where efficient encoding is key to meeting stringent resource and latency requirements. PointPillars, a widely adopted bird's-eye view (BEV) encoding, aggregates 3D point cloud data into 2D pillars for high-accuracy 3D object detection. However, most state-of-the-art methods employing PointPillar overlook the inherent sparsity of pillar encoding, missing opportunities for significant computational reduction. In this study, we propose a groundbreaking algorithm-hardware co-design that accelerates sparse convolution processing and maximizes sparsity utilization in pillar-based 3D object detection networks. We investigate sparsification opportunities using an advanced pillar-pruning method, achieving an optimal balance between accuracy and sparsity. We introduce PillarAcc, a state-of-the-art sparsity support mechanism that enhances sparse pillar convolution through linear complexity input-output mapping generation and conflict-free gather-scatter memory access. Additionally, we propose dataflow optimization techniques, dynamically adjusting the pillar processing schedule for optimal hardware utilization under diverse sparsity operations. We evaluate PillarAcc on various cutting-edge 3D object detection networks and benchmarks, achieving remarkable speedup and energy savings compared to representative edge platforms, demonstrating record-breaking PointPillars speed of 500FPS with minimal compromise in accuracy.
翻訳日:2023-05-16 10:57:49 公開日:2023-05-15
# HFLIC:強化された変換による人間フレンドリーな学習画像圧縮

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform ( http://arxiv.org/abs/2305.07519v2 )

ライセンス: Link先を確認
Peirong Ning, Wei Jiang, Ronggang Wang(参考訳) 近年,低ビットレートでも細部を細部まで保持し,レート分散知覚圧縮を優先する学習画像圧縮技術が急速に進歩している。 しかし、現在の学習に基づく画像圧縮手法は、しばしば人間にやさしい圧縮を犠牲にし、長い復号時間を必要とする。 本稿では、既存の画像圧縮モデルのバックボーンネットワークとロス関数の強化を提案し、人間の知覚と効率の改善に焦点をあてる。 提案手法は,復号時間が少なく,人間に優しい圧縮を提供するとともに,最先端の学習画像圧縮手法や古典的手法と比較して,競合する主観的な結果が得られる。 経験的評価により,提案手法の有効性を実証し,25%以上のビットレートを同じ主観的品質で節約できることを示した。

In recent years, there has been rapid development in learned image compression techniques that prioritize ratedistortion-perceptual compression, preserving fine details even at lower bit-rates. However, current learning-based image compression methods often sacrifice human-friendly compression and require long decoding times. In this paper, we propose enhancements to the backbone network and loss function of existing image compression model, focusing on improving human perception and efficiency. Our proposed approach achieves competitive subjective results compared to state-of-the-art end-to-end learned image compression methods and classic methods, while requiring less decoding time and offering human-friendly compression. Through empirical evaluation, we demonstrate the effectiveness of our proposed method in achieving outstanding performance, with more than 25% bit-rate saving at the same subjective quality.
翻訳日:2023-05-16 10:57:20 公開日:2023-05-15
# 対角情報を用いた連続視覚言語表現学習

Continual Vision-Language Representation Learning with Off-Diagonal Information ( http://arxiv.org/abs/2305.07437v2 )

ライセンス: Link先を確認
Zixuan Ni and Longhui Wei and Siliang Tang and Yueting Zhuang and Qi Tian(参考訳) 本稿では,ストリーミングデータによるCLIPモデルの継続的なトレーニングの実現可能性について論じる。 次に, 連続更新クリップモデルにおける表現ベクトルの方向変化を追跡することにより, 空間変動を, モーダル内回転とモーダル間偏差に区分できる空間性障害 (sd) として探索し, 要約する。 さらに, モーダル内回転とモーダル間偏差が, 経験的・理論的に相互モーダル検索タスクにおけるCLIPの性能低下につながることを示す。 空間的障害を緩和するため,単純な連続学習フレームワーク Mod-X: \textbf{M}aintain \textbf{o}ff-\textbf{d}iagonal information-matri\textbf{X} を提案する。 異なるスケールとスコープを持つ一般的なデータセットに対する実験 (ref{method}, \ref{experiments}, appendix \ref{appendix_to_experiments}) は,本手法の有効性を示すものである。

This paper discusses the feasibility of continuously training the CLIP model through streaming data. Then, by tracking the directional changes of the representation vectors in the continuously updated CLIP model, we explore and summarize these spatial variations as Spatial Disorder (SD), which can be divided into Intra-modal Rotation and Inter-modal Deviation. Moreover, we demonstrate how intra-modal rotation and inter-modal deviation lead to a performance decline for CLIP on cross-modal retrieval tasks in both empirically and theoretically. To alleviate the spatial disorder, we propose a simple yet effective continual learning framework Mod-X: \textbf{M}aintain \textbf{o}ff-\textbf{d}iagonal information-matri\textbf{X}. The experiments (in Section \ref{method}, \ref{experiments} and Appendix \ref{Appendix_to_experiments}) on commonly used datasets with different scales and scopes have illustrated the effectiveness of our method.
翻訳日:2023-05-16 10:57:03 公開日:2023-05-15
# ChatGPTは良い因果共振器か? 総合評価

Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation ( http://arxiv.org/abs/2305.07375v2 )

ライセンス: Link先を確認
Jinglong Gao, Xiao Ding, Bing Qin, Ting Liu(参考訳) 因果推論能力は多くのNLPアプリケーションに不可欠である。 様々なNLPタスクにおけるChatGPTの顕著な出現能力にもかかわらず、ChatGPTが因果推論においてどの程度優れているかは明らかでない。 本稿では,chatgptの因果推論能力について,最初の包括的評価を行う。 実験の結果,ChatGPTは因果的推論に優れず,因果的解釈に優れていた。 加えて、ChatGPTは因果推論に深刻な幻覚を持っているが、それはおそらく、自然言語における因果関係と非因果関係のバイアスの報告と、RLHFのようなChatGPTのアップグレードプロセスによるものである。 In-Context Learning (ICL) と Chain-of-Though (COT) の技術は、このような因果幻覚をさらに悪化させる可能性がある。 さらに、ChatGPTの因果推論能力は、因果概念をプロンプトで表現するために使われる単語に敏感であり、クローズドプロンプトはオープンエンドプロンプトよりも優れている。 文中のイベントに対して、chatgptは暗黙の因果関係よりも明示的な因果関係を捉えるのに優れており、イベント密度が低く、イベント間の語彙距離が小さい文ではよりよく機能する。

Causal reasoning ability is crucial for numerous NLP applications. Despite the impressive emerging ability of ChatGPT in various NLP tasks, it is unclear how well ChatGPT performs in causal reasoning. In this paper, we conduct the first comprehensive evaluation of the ChatGPT's causal reasoning capabilities. Experiments show that ChatGPT is not a good causal reasoner, but a good causal interpreter. Besides, ChatGPT has a serious hallucination on causal reasoning, possibly due to the reporting biases between causal and non-causal relationships in natural language, as well as ChatGPT's upgrading processes, such as RLHF. The In-Context Learning (ICL) and Chain-of-Though (COT) techniques can further exacerbate such causal hallucination. Additionally, the causal reasoning ability of ChatGPT is sensitive to the words used to express the causal concept in prompts, and close-ended prompts perform better than open-ended prompts. For events in sentences, ChatGPT excels at capturing explicit causality rather than implicit causality, and performs better in sentences with lower event density and smaller lexical distance between events.
翻訳日:2023-05-16 10:56:43 公開日:2023-05-15
# 深層学習に基づく単分子宇宙空間の推定に関する調査:現状,限界,展望

A Survey on Deep Learning-Based Monocular Spacecraft Pose Estimation: Current State, Limitations and Prospects ( http://arxiv.org/abs/2305.07348v2 )

ライセンス: Link先を確認
Leo Pauly, Wassim Rharbaoui, Carl Shneider, Arunkumar Rathinam, Vincent Gaudilliere, Djamila Aouada(参考訳) 非協力的な宇宙船の姿勢を推定することは、軌道上への自動ビジョンベースのシステムの導入を可能にする重要なコンピュータビジョンの問題である。 コンピュータビジョンの一般的な傾向に続き、この問題を解決するためにディープラーニング(DL)手法を活用する研究がますます増えている。 しかし、有望な研究段階の結果にもかかわらず、そのような方法が現実のミッションで使われるのを防ぐ大きな課題が今も残っている。 特に、そのような計算集約アルゴリズムの展開はまだ検討されていないが、実際の画像の合成とテストのトレーニングではパフォーマンスが低下している。 本調査の主な目的は、現在のDLベースの宇宙船のポーズ推定手法を包括的に記述することである。 第二の目標は、信頼性の高い自律視覚ベースのアプリケーションに対して、DLベースの宇宙船の効果的な配置に対する制限を定義することである。 この目的のために、調査はまず、ハイブリッドなモジュラーパイプラインとエンドツーエンドの直接回帰メソッドという2つのアプローチに従って、既存のアルゴリズムをまとめる。 アルゴリズムの比較は、ポーズの精度だけでなく、ネットワークアーキテクチャやモデルのサイズにも焦点をあてることで、潜在的な展開を念頭に置いている。 次に、現在の単分子宇宙船がこれらの手法を訓練・試験するために使用する推定データセットについて述べる。 データ生成方法:シミュレータとテストベッド、ドメインギャップ、合成生成画像とラボ/スペース収集画像と潜在的なソリューション間のパフォーマンス低下についても論じる。 最後に、この分野におけるオープンな研究課題と今後の方向性を提示し、他のコンピュータビジョンアプリケーションと平行に描画する。

Estimating the pose of an uncooperative spacecraft is an important computer vision problem for enabling the deployment of automatic vision-based systems in orbit, with applications ranging from on-orbit servicing to space debris removal. Following the general trend in computer vision, more and more works have been focusing on leveraging Deep Learning (DL) methods to address this problem. However and despite promising research-stage results, major challenges preventing the use of such methods in real-life missions still stand in the way. In particular, the deployment of such computation-intensive algorithms is still under-investigated, while the performance drop when training on synthetic and testing on real images remains to mitigate. The primary goal of this survey is to describe the current DL-based methods for spacecraft pose estimation in a comprehensive manner. The secondary goal is to help define the limitations towards the effective deployment of DL-based spacecraft pose estimation solutions for reliable autonomous vision-based applications. To this end, the survey first summarises the existing algorithms according to two approaches: hybrid modular pipelines and direct end-to-end regression methods. A comparison of algorithms is presented not only in terms of pose accuracy but also with a focus on network architectures and models' sizes keeping potential deployment in mind. Then, current monocular spacecraft pose estimation datasets used to train and test these methods are discussed. The data generation methods: simulators and testbeds, the domain gap and the performance drop between synthetically generated and lab/space collected images and the potential solutions are also discussed. Finally, the paper presents open research questions and future directions in the field, drawing parallels with other computer vision applications.
翻訳日:2023-05-16 10:56:15 公開日:2023-05-15
# Few-Shot Semantic Segmentationのための4次相関学習

Quaternion-valued Correlation Learning for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2305.07283v2 )

ライセンス: Link先を確認
Zewen Zheng, Guoheng Huang, Xiaochen Yuan, Chi-Man Pun, Hongrui Liu, and Wing-Kuen Ling(参考訳) Few-shot segmentation (FSS) は、いくつかの注釈付きサンプルのみを与えられた未確認クラスをセグメントすることを目的としている。 ベースクラスから学んだセマンティックな特徴を、新しいクラスを表現するのに十分なトレーニングサンプルで活用することで、FSSの進歩を加速させた。 相関に基づく手法は、実数値化された2次元畳み込みの性質から、2つの部分空間マッチングスコアの相互作用を考慮できない。 本稿では,相関学習に関する四元数視点を提案し,高次元相関テンソルの計算負担を軽減し,確立された四元数代数によって定義された演算を活用して,クエリとサポート画像間の内部潜在相互作用を探索することを目的とした,新しい四元数値相関学習ネットワーク(qclnet)を提案する。 具体的には、qclnetは超複素値ネットワークとして定式化され、四元数領域における相関テンソルを表し、四元数値畳み込みを用いて四元数空間における支援部分次元の隠れた関係を考える際にクエリ部分空間の外部関係を探索する。 PASCAL-5i と COCO-20i データセットの大規模な実験により,本手法が既存の最先端手法を効果的に上回ることを示す。 私たちのコードはhttps://github.com/zwzheng98/QCLNetで利用可能です。

Few-shot segmentation (FSS) aims to segment unseen classes given only a few annotated samples. Encouraging progress has been made for FSS by leveraging semantic features learned from base classes with sufficient training samples to represent novel classes. The correlation-based methods lack the ability to consider interaction of the two subspace matching scores due to the inherent nature of the real-valued 2D convolutions. In this paper, we introduce a quaternion perspective on correlation learning and propose a novel Quaternion-valued Correlation Learning Network (QCLNet), with the aim to alleviate the computational burden of high-dimensional correlation tensor and explore internal latent interaction between query and support images by leveraging operations defined by the established quaternion algebra. Specifically, our QCLNet is formulated as a hyper-complex valued network and represents correlation tensors in the quaternion domain, which uses quaternion-valued convolution to explore the external relations of query subspace when considering the hidden relationship of the support sub-dimension in the quaternion space. Extensive experiments on the PASCAL-5i and COCO-20i datasets demonstrate that our method outperforms the existing state-of-the-art methods effectively. Our code is available at https://github.com/zwzheng98/QCLNet
翻訳日:2023-05-16 10:55:49 公開日:2023-05-15
# 準二次元量子異常に対する着飾った分子理論

The dressed molecules theory for the quasi-two-dimensional quantum anomaly ( http://arxiv.org/abs/2305.07210v2 )

ライセンス: Link先を確認
Fan Wu, Jian-shen Hu and Lianyi He(参考訳) この研究において、服を着た分子理論は、最近の実験系における呼吸モードの2次元量子異常を記述するために用いられる。 平均場、ガウス対ゆらぎ理論の助けを借りて、我々は、アキシャル励起状態とフェシュバッハ分子状態を特徴づけるために服を着た分子状態を使用し、完全な低エネルギー効果理論を提案する。 バーディーン=クーパー=シュリーファー(BCS)超流動からボース=アインシュタイン凝縮体(BEC)へのクロスオーバー全体において、我々は低エネルギー領域における2次元実験系を正確に記述できることを示した。 呼吸モードの周波数が期待より小さくなる実験結果について, 完璧に解説する。 擬似低次元量子系における共形異常を理解するためには、2次元フェルミオンの着衣分子理論の確立が不可欠である。

In this work, the dressed molecules theory is used to describe the two-dimensional quantum anomaly of breathing mode in the recent experimental system\cite{Holten2018,Peppler2018}. With the aid of a beyond mean-field, Gaussian pair fluctuation theory, we employ the dressed molecules states to characterize the axial excited states and the Feshbach molecular states, and propose a complete low energy effective theory. We show that, in the whole crossover from a Bardeen-Cooper-Schrieffer (BCS) superfluid to a Bose-Einstein condensate (BEC), our theory can describe the two-dimensional experimental systems precisely in low energe region. We explain the the puzzling experimental observations of the smaller than expected breathing mode frequency perfectly. Our establishment of the dressed molecules theory for 2D fermions is crucial to understand the conformal anomaly in the quasi low-dimensional quantum systems.
翻訳日:2023-05-16 10:55:27 公開日:2023-05-15