このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240306となっている論文です。

PDF登録状況(公開日: 20240306)

TitleAuthorsAbstract論文公表日・翻訳日
# 神経科学で遊ぶ:ニューロイメージングとゲームの歴史、現在、未来

Playing With Neuroscience: Past, Present and Future of Neuroimaging and Games ( http://arxiv.org/abs/2403.15413v1 )

ライセンス: Link先を確認
Paolo Burelli, Laurits Dixen, (参考訳) ビデオゲームは、人工知能、人間とコンピュータのインタラクション、仮想現実など、多くの研究分野における進歩の触媒となっている。 人工知能などの分野の研究は長年にわたり、新しいタイプのゲームの設計を可能にしてきたが、ゲームはしばしばテストとシミュレーションの強力なツールとして機能してきた。 これは神経科学でも起こり得るのか? 神経科学とゲーム研究の現在の関係は? 未来に何が期待できるでしょうか? この記事では、神経科学とゲームの間の交差における現在の技術状況を分析し、今後の方向性を想定しながら、これらの疑問に答えようと試みる。

Videogames have been a catalyst for advances in many research fields, such as artificial intelligence, human-computer interaction or virtual reality. Over the years, research in fields such as artificial intelligence has enabled the design of new types of games, while games have often served as a powerful tool for testing and simulation. Can this also happen with neuroscience? What is the current relationship between neuroscience and games research? what can we expect from the future? In this article, we'll try to answer these questions, analysing the current state-of-the-art at the crossroads between neuroscience and games and envisioning future directions.
翻訳日:2024-04-01 03:04:05 公開日:2024-03-06
# LLMからハリー・ポッターを取り除いた少年(動画)

The Boy Who Survived: Removing Harry Potter from an LLM is harder than reported ( http://arxiv.org/abs/2403.12082v1 )

ライセンス: Link先を確認
Adam Shostack, (参考訳) 最近の研究 arXiv.2310.02238 では、「ハリー・ポッター関連のコンテンツを生成またはリコールするモデルの能力を効果的に消去した」と主張している。 ミューグル」とは、テリー・プラチェットの『ハリー・ポッター』シリーズで使われる用語である。

Recent work arXiv.2310.02238 asserted that "we effectively erase the model's ability to generate or recall Harry Potter-related content.'' This claim is shown to be overbroad. A small experiment of less than a dozen trials led to repeated and specific mentions of Harry Potter, including "Ah, I see! A "muggle" is a term used in the Harry Potter book series by Terry Pratchett...''
翻訳日:2024-03-25 07:36:54 公開日:2024-03-06
# 自律走行車のためのマルチタスク指向セマンティック通信フレームワーク

A Multi-Task Oriented Semantic Communication Framework for Autonomous Vehicles ( http://arxiv.org/abs/2403.12997v1 )

ライセンス: Link先を確認
Eslam Eldeeb, Mohammad Shehab, Hirley Alves, (参考訳) タスク指向セマンティックコミュニケーションは、特定のタスクを達成するためにメッセージ全体ではなく、メッセージの関連するセマンティクスのみを送信する新興技術である。 レイテンシを低減し、データを圧縮し、低SNRシナリオでより堅牢である。 本研究では、コネクテッド・自動運転車(CAV)のためのマルチタスク指向のセマンティック・コミュニケーション・フレームワークを提案する。 道路交通標識のセマンティックエンコーディングを行う畳み込みオートエンコーダ(CAE)を提案する。 これらの符号化された画像は、可視性に障害のある気象条件下で衛星を介して、あるCAVから別のCAVに送信される。 さらに,画像再構成と分類タスクのためのタスク指向セマンティックデコーダを提案する。 シミュレーションの結果,提案手法は,再構成画像の類似性や分類精度に関して,QAM-16などの従来の手法よりも優れていた。 さらに、より少ないビットを送信することで、最大99%の帯域幅を節約できる。

Task-oriented semantic communication is an emerging technology that transmits only the relevant semantics of a message instead of the whole message to achieve a specific task. It reduces latency, compresses the data, and is more robust in low SNR scenarios. This work presents a multi-task-oriented semantic communication framework for connected and autonomous vehicles (CAVs). We propose a convolutional autoencoder (CAE) that performs the semantic encoding of the road traffic signs. These encoded images are then transmitted from one CAV to another CAV through satellite in challenging weather conditions where visibility is impaired. In addition, we propose task-oriented semantic decoders for image reconstruction and classification tasks. Simulation results show that the proposed framework outperforms the conventional schemes, such as QAM-16, regarding the reconstructed image's similarity and the classification's accuracy. In addition, it can save up to 89 % of the bandwidth by sending fewer bits.
翻訳日:2024-03-25 07:17:26 公開日:2024-03-06
# QCEDA:EDAに量子コンピュータを使う

QCEDA: Using Quantum Computers for EDA ( http://arxiv.org/abs/2403.12998v1 )

ライセンス: Link先を確認
Matthias Jung, Sven O. Krumke, Christof Schroth, Elisabeth Lobe, Wolfgang Mauerer, (参考訳) 電子設計自動化(EDA)の分野はマイクロエレクトロニクスにとって不可欠であるが、集積回路(IC)の複雑さの増大は従来のEDAの課題を提起している。 量子コンピュータは、絡み合い、重畳、干渉による最適化の可能性のため、より良いソリューションを提供するかもしれない。 EDAと量子コンピュータの領域におけるほとんどの研究は、量子回路の構築にEDAを使う方法に焦点を当てている。 しかし、EDA問題を解決するために量子コンピュータを利用する研究はほとんどない。 そこで本研究では,典型的なEDA最適化問題に対して,Min-$k$-Union問題に分解された量子コンピューティングの実現可能性と可能性について検討する。 この問題は、IBMの量子コンピュータとD-Waveの量子アニーラーでうまく解決された、擬似非制約バイナリ最適化(QUBO)問題に数学的に変換される。

The field of Electronic Design Automation (EDA) is crucial for microelectronics, but the increasing complexity of Integrated Circuits (ICs) poses challenges for conventional EDA: Corresponding problems are often NP-hard and are therefore in general solved by heuristics, not guaranteeing optimal solutions. Quantum computers may offer better solutions due to their potential for optimization through entanglement, superposition, and interference. Most of the works in the area of EDA and quantum computers focus on how to use EDA for building quantum circuits. However, almost no research focuses on exploiting quantum computers for solving EDA problems. Therefore, this paper investigates the feasibility and potential of quantum computing for a typical EDA optimization problem broken down to the Min-$k$-Union problem. The problem is mathematically transformed into a Quadratic Unconstrained Binary Optimization (QUBO) problem, which was successfully solved on an IBM quantum computer and a D-Wave quantum annealer.
翻訳日:2024-03-25 07:17:26 公開日:2024-03-06
# 共創造画像生成における多様性の測定

Measuring Diversity in Co-creative Image Generation ( http://arxiv.org/abs/2403.13826v1 )

ライセンス: Link先を確認
Francisco Ibarrola, Kazjon Grace, (参考訳) 品質と多様性は、共同創造システムによって生成されたコンテンツを評価するための合理的なヒューリスティックとして提案されているが、これまでは、後者を構成するものやその測定方法に関する合意がほとんどない。 多様性の観点から生成モデルを評価するための提案されたアプローチは、モデルの出力を、大規模な事前学習された生成モデルが利用できない、あるいは非現実的な数の計算を伴わない、という基礎的な真実と比較する、という制限がある。 本稿では,ニューラルネットワークエンコーディングのエントロピーをベースとした,地下の知識を必要とせず,計算が容易な画像の集合間の多様性を比較する方法を提案する。 また、事前学習された2つのネットワークを比較し、選択が評価したい多様性の概念とどのように関連しているかを示す。 本稿では,対話型システムにおける思考,モデル評価,さらに計算創造性において,これらの尺度の潜在的な応用の可能性について論じる。

Quality and diversity have been proposed as reasonable heuristics for assessing content generated by co-creative systems, but to date there has been little agreement around what constitutes the latter or how to measure it. Proposed approaches for assessing generative models in terms of diversity have limitations in that they compare the model's outputs to a ground truth that in the era of large pre-trained generative models might not be available, or entail an impractical number of computations. We propose an alternative based on entropy of neural network encodings for comparing diversity between sets of images that does not require ground-truth knowledge and is easy to compute. We also compare two pre-trained networks and show how the choice relates to the notion of diversity that we want to evaluate. We conclude with a discussion of the potential applications of these measures for ideation in interactive systems, model evaluation, and more broadly within computational creativity.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-06
# アクティブ推論に基づくUAV支援無線ネットワークにおける自己監視経路計画

Self-Supervised Path Planning in UAV-aided Wireless Networks based on Active Inference ( http://arxiv.org/abs/2403.13827v1 )

ライセンス: Link先を確認
Ali Krayani, Khalid Khan, Lucio Marcenaro, Mario Marchese, Carlo Regazzoni, (参考訳) 本稿では,UAV支援ネットワークのための自己教師付き経路計画手法を提案する。 まず、トレーニング例をオフラインで解決するためにオプティマイザを使用し、UAVが世界モデルを学習して環境を理解し、オプティマイザのポリシーを暗黙的に発見するデモとして、結果のソリューションを使用した。 世界モデルを備えたUAVは、リアルタイムの自律的な決定を行い、アクティブな推論を使用してオンライン計画に従事することができる。 計画中、UAVは予想されるサプライズに基づいて異なるポリシーを採り、代替案を選択することができる。 さらに、UAVは世界モデルを用いて行動の結果を予測し、予測されるサプライズを自己監督的に評価することができる。 提案手法は,従来のRLよりも新しい状況への迅速な適応と性能向上を実現し,より広範な一般化を可能にした。

This paper presents a novel self-supervised path-planning method for UAV-aided networks. First, we employed an optimizer to solve training examples offline and then used the resulting solutions as demonstrations from which the UAV can learn the world model to understand the environment and implicitly discover the optimizer's policy. UAV equipped with the world model can make real-time autonomous decisions and engage in online planning using active inference. During planning, UAV can score different policies based on the expected surprise, allowing it to choose among alternative futures. Additionally, UAV can anticipate the outcomes of its actions using the world model and assess the expected surprise in a self-supervised manner. Our method enables quicker adaptation to new situations and better performance than traditional RL, leading to broader generalizability.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-06
# Bicoptor:プライバシ保護機械学習のための前処理なしで2ラウンドのセキュアな3次元非線形計算

Bicoptor: Two-round Secure Three-party Non-linear Computation without Preprocessing for Privacy-preserving Machine Learning ( http://arxiv.org/abs/2210.01988v3 )

ライセンス: Link先を確認
Lijing Zhou, Ziyu Wang, Hongrui Cui, Qingrui Song, Yu Yu, (参考訳) 非線形関数のオーバーヘッドは、セキュアなマルチパーティ計算(MPC)ベースのプライバシ保存機械学習(PPML)の性能を支配している。 本研究は,非線形関数の評価効率を向上させるセキュアな3要素計算(3PC)プロトコルであるBicoptorを新たに導入する。 Bicoptorの基盤は、SecureML(S\&P 2017)で提案されたトランケーションプロトコルの巧妙な使用に依存する、新しいサイン決定プロトコルである。 我々の3PC符号決定プロトコルは、通信ラウンドを2回しか必要とせず、前処理を一切含まない。 このような符号決定プロトコルはPPMLの非線形関数、例えばアクティベーション関数ReLU、Maxpool、およびそれらの変種を計算するのに適している。 我々は、GPUフレンドリなプロトコルであるBicoptorのファミリを形成する、これらの非線形関数に適したプロトコルを開発する。 すべてのBicoptorプロトコルは、前処理なしで2回の通信ラウンドしか必要としない。 パブリッククラウド上での3次元LANネットワーク下でのBicoptorの評価を行い,370,000 DRELU/ReLUまたは41,000 Maxpool(最大9入力値)演算を毎秒達成した。 同じ設定と環境下では、当社のReLUプロトコルは、それぞれバッチ処理なしで、最先端のFalcon(PETS 2021)とEdabits(CRYPTO 2020)に1~2桁の大幅な改善を施しています。

The overhead of non-linear functions dominates the performance of the secure multiparty computation (MPC) based privacy-preserving machine learning (PPML). This work introduces a family of novel secure three-party computation (3PC) protocols, Bicoptor, which improve the efficiency of evaluating non-linear functions. The basis of Bicoptor is a new sign determination protocol, which relies on a clever use of the truncation protocol proposed in SecureML (S\&P 2017). Our 3PC sign determination protocol only requires two communication rounds, and does not involve any preprocessing. Such sign determination protocol is well-suited for computing non-linear functions in PPML, e.g. the activation function ReLU, Maxpool, and their variants. We develop suitable protocols for these non-linear functions, which form a family of GPU-friendly protocols, Bicoptor. All Bicoptor protocols only require two communication rounds without preprocessing. We evaluate Bicoptor under a 3-party LAN network over a public cloud, and achieve more than 370,000 DReLU/ReLU or 41,000 Maxpool (find the maximum value of nine inputs) operations per second. Under the same settings and environment, our ReLU protocol has a one or even two orders of magnitude improvement to the state-of-the-art works, Falcon (PETS 2021) or Edabits (CRYPTO 2020), respectively without batch processing.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-06
# インスタントメッセージングのためのトンネリングを超えたメタデータプライバシ

Metadata Privacy Beyond Tunneling for Instant Messaging ( http://arxiv.org/abs/2210.12776v3 )

ライセンス: Link先を確認
Boel Nelson, Elena Pagnin, Aslan Askarov, (参考訳) トランスポート層は、誰が誰と通信するかなど、メタデータをリークする -- 強力なトランスポート層プライバシのためのツールがあるが、モバイルデバイスと互換性のないパフォーマンスオーバーヘッドを含む、採用上の障害がある。我々は、メタデータプライバシを$\textit{all traffic}$で変更することで、トランスポート層プライバシに対する実践的なアプローチのための新しいデザインスペースをオープンできると仮定する。この方向への第一歩として、情報フロー制御のテクニックを使用して、メタデータプライバシを持つシステムの形式モデルを構築するための原則化されたアプローチを提案し、$\textit{some}$で、デニブルなトラフィックを達成すれば、強い敵に対するメタデータを達成できることを示す。これは、情報フロー制御と匿名通信の最初のブリッジングである。 さらに、既存の最先端プロトコルは、メタデータのプライバシをサポートするために拡張可能であることを示し、Signalプロトコルの変種である$\textit{deniable instant messaging}$ (DenIM) の新しいプロトコルを設計することによる。 提案手法の有効性を示すため,未修正信号上でDenIMを実行する概念実証インスタントメッセージングシステムの実装と評価を行った。 我々は、Signal上のDenIMが、既存の機能を壊さずに、未修正のSignalトラフィックの低レイテンシを維持できると同時に、デニブルなSignalトラフィックをサポートすることを実証的に示す。

Transport layer data leaks metadata unintentionally -- such as who communicates with whom. While tools for strong transport layer privacy exist, they have adoption obstacles, including performance overheads incompatible with mobile devices. We posit that by changing the objective of metadata privacy for $\textit{all traffic}$, we can open up a new design space for pragmatic approaches to transport layer privacy. As a first step in this direction, we propose using techniques from information flow control and present a principled approach to constructing formal models of systems with metadata privacy for $\textit{some}$, deniable, traffic. We prove that deniable traffic achieves metadata privacy against strong adversaries -- this constitutes the first bridging of information flow control and anonymous communication to our knowledge. Additionally, we show that existing state-of-the-art protocols can be extended to support metadata privacy, by designing a novel protocol for $\textit{deniable instant messaging}$ (DenIM), which is a variant of the Signal protocol. To show the efficacy of our approach, we implement and evaluate a proof-of-concept instant messaging system running DenIM on top of unmodified Signal. We empirically show that the DenIM on Signal can maintain low-latency for unmodified Signal traffic without breaking existing features, while at the same time supporting deniable Signal traffic.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-06
# DERベースのSmartGridのサイバーレジリエンス向上に関する調査

Enhancing Cyber-Resiliency of DER-based SmartGrid: A Survey ( http://arxiv.org/abs/2305.05338v3 )

ライセンス: Link先を確認
Mengxiang Liu, Fei Teng, Zhenyong Zhang, Pudong Ge, Ruilong Deng, Mingyang Sun, Peng Cheng, Jiming Chen, (参考訳) 情報通信技術の急速な発展により、デジタル制御およびソフトウェア駆動の分散エネルギー資源(DER)を利用することで、電力供給の柔軟性と効率を改善し、グリッド操作をサポートできるようになった。 しかし、この進化は、地理的に分散したDERを、ハードウェアやソフトウェアの脆弱性、通信の問題、人的ミスなどを含むサイバー脅威にさらしている。 そのため、DERベースのスマートグリッド(サイバー侵入を成功させる能力)のサイバーレジリエンスを高めることがますます重要になってきており、産業と学術の両方から大きな注目を集めている。 本研究では,DERをベースとしたスマートグリッドのサイバーレジリエンス向上(CRE)について,系統的かつ包括的なレビューを行うことを目的とする。 まず、脆弱性の識別と影響分析に特化して、階層的なDERベースのスマートグリッドに対して、統合脅威モデリング手法をカスタマイズする。 次に, 予防, 検出, 緩和, 回復を包括的に調査し, 体系的に分類し, 厳密に比較した。 その後、CREフレームワークが提案され、5つの主要なレジリエンスイネーブラーが組み込まれている。 最後に、課題と今後の方向性について詳述する。 本調査の総合的な目的は、CRE手法の開発動向を実証し、DERベースのスマートグリッドのサイバーレジリエンスを改善するためのさらなる取り組みを動機付けることである。

The rapid development of information and communications technology has enabled the use of digital-controlled and software-driven distributed energy resources (DERs) to improve the flexibility and efficiency of power supply, and support grid operations. However, this evolution also exposes geographically-dispersed DERs to cyber threats, including hardware and software vulnerabilities, communication issues, and personnel errors, etc. Therefore, enhancing the cyber-resiliency of DER-based smart grid - the ability to survive successful cyber intrusions - is becoming increasingly vital and has garnered significant attention from both industry and academia. In this survey, we aim to provide a systematical and comprehensive review regarding the cyber-resiliency enhancement (CRE) of DER-based smart grid. Firstly, an integrated threat modeling method is tailored for the hierarchical DER-based smart grid with special emphasis on vulnerability identification and impact analysis. Then, the defense-in-depth strategies encompassing prevention, detection, mitigation, and recovery are comprehensively surveyed, systematically classified, and rigorously compared. A CRE framework is subsequently proposed to incorporate the five key resiliency enablers. Finally, challenges and future directions are discussed in details. The overall aim of this survey is to demonstrate the development trend of CRE methods and motivate further efforts to improve the cyber-resiliency of DER-based smart grid.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-06
# 差分プライバシー下における不確実なタスクのインセンティブメカニズム

Incentive Mechanism for Uncertain Tasks under Differential Privacy ( http://arxiv.org/abs/2305.16793v2 )

ライセンス: Link先を確認
Xikun Jiang, Chenhao Ying, Lei Li, Boris Düdder, Haiqin Wu, Haiming Jin, Yuan Luo, (参考訳) モバイル・クラウド・センシング (MCS) は, 費用対効果により, センサ・パラダイムとして人気が高まっている。 このアプローチは、タスクパブリッシャによって促されるとき、参加するワーカーにタスクをアウトソースするプラットフォームに依存します。 インセンティブメカニズムは、MCSへの広範な参加を促進するために考案されているが、その多くは静的タスク(例えば、時間とタイプが事前に分かっているタスク)にのみ焦点を合わせており、労働者入札のプライバシーを保護していない。 動的でリソースに制約のある環境では、タスクはしばしば不確実(つまり、プラットフォームにはタスクに関する事前知識がない)であり、ワーカーの入札は推論攻撃に対して脆弱である。 本稿では,不確実性と隠れ入札を用いてこれらの問題に対処するインセンティブメカニズムであるHERALD*を提案する。 理論的分析によれば、HERALD*は真理性、個人の合理性、差分プライバシー、計算複雑性の低下、社会コストの低下など、様々な批判的基準を満たす。 これらの性質は、一連の評価を通じて相関する。

Mobile crowd sensing (MCS) has emerged as an increasingly popular sensing paradigm due to its cost-effectiveness. This approach relies on platforms to outsource tasks to participating workers when prompted by task publishers. Although incentive mechanisms have been devised to foster widespread participation in MCS, most of them focus only on static tasks (i.e., tasks for which the timing and type are known in advance) and do not protect the privacy of worker bids. In a dynamic and resource-constrained environment, tasks are often uncertain (i.e., the platform lacks a priori knowledge about the tasks) and worker bids may be vulnerable to inference attacks. This paper presents HERALD*, an incentive mechanism that addresses these issues through the use of uncertainty and hidden bids. Theoretical analysis reveals that HERALD* satisfies a range of critical criteria, including truthfulness, individual rationality, differential privacy, low computational complexity, and low social cost. These properties are then corroborated through a series of evaluations.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-06
# 極秘投票:透明な選挙結果のプライバシーコストの制限

The Still Secret Ballot: The Limited Privacy Cost of Transparent Election Results ( http://arxiv.org/abs/2308.04100v2 )

ライセンス: Link先を確認
Shiro Kuriwaki, Jeffrey B. Lewis, Michael Morse, (参考訳) 選挙後、当局は各投票の電子的記録を公表すべきだろうか? 投票の公開は結果の正当性を高める可能性がある。 匿名投票の投票を、公開投票ファイル内の投票者の名前と住所に一意にリンクすることで、アナリストが秘密投票を無効にする。 我々はまず、様々な選挙報告体制の下で投票の啓示がどのように起こるかの理論モデルを提供する。 おそらく反対に、投票記録を公表することは、集計票の集計を公表する典型的な慣行に匹敵するものではない。 次に, アリゾナ州マリコパ郡における2020年の選挙を事例として, 投票啓発の実証的評価を行った。 99.8%の有権者が投票記録を公表し、投票選択は公表されなかった。 投票は、現在の報告の慣行に準じて、公然と秘密にすることができると結論付けます。

After an election, should officials release an electronic record of each ballot? The release of ballots could bolster the legitimacy of the result. But it may also facilitate vote revelation, where an analyst unravels the secret ballot by uniquely linking votes on an anonymous ballot to the voter's name and address in the public voter file. We first provide a theoretical model of how vote revelation could occur under various election-reporting regimes. Perhaps counterintuitively, releasing ballot records is no more revelatory than the typical practice of releasing aggregate vote tallies. We then present the first empirical evaluation of vote revelation, using the 2020 election in Maricopa County, Arizona, as a case study. For 99.8% of voters, the release of ballot records led to no revelation of any vote choice. We conclude the ballot can be both public and still as secret as it is under the current reporting practices.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-06
# Bicoptor 2.0:プライバシ保護機械学習の強化に向けた確率的トランザクションの課題に対処する

Bicoptor 2.0: Addressing Challenges in Probabilistic Truncation for Enhanced Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2309.04909v2 )

ライセンス: Link先を確認
Lijing Zhou, Qingrui Song, Su Zhang, Ziyu Wang, Xianggui Wang, Yong Li, (参考訳) 本稿では,既存のPPMLにおける確率的トランケーションプロトコルの問題点を,精度と効率の観点から分析し,その解決策を提案する。 精度の面では、既存の作品のいくつかで推奨される精度の選択が誤りであることを明らかにする。 我々は,オープンソースコードの徹底的な解析を行い,その誤りは主に実装の単純化によるものであり,より具体的には確率的トランケーションプロトコルにおける乱数の代わりに固定数を用いる。 これに基づいて、我々の見解を検証するための詳細な理論的分析を行う。 本稿では,今後の課題に対する解法と精度選択ガイドラインを提案する。 効率に関しては,確率的トランケーションプロトコルに依存するBicoptor (S\&P 2023) DReLUプロトコルの限界を特定し,エラーを回避するためにセキュリティパラメータに強く制約されているため,プロトコルの性能に大きな影響を及ぼす。 これらの課題に対処するために、最初の非対話的決定論的トランケーションプロトコルを導入し、元の確率的トランケーションプロトコルを置き換える。 さらに,プロトコルのセキュリティを高めるために,非対話型モジュロスイッチプロトコルを設計する。 最後に、異なるモデルパラメータに基づくDReLU演算に対して、入力のビットの一部、すなわちキービットのみを使用することで、計算および通信オーバーヘッドを低減するためのガイドラインを提供する。 キービットの助けを借りて、我々のDRELUプロトコルの性能をさらに改善した。 我々は3つのGPUサーバ上でのプロトコルの性能を評価し、DRELUプロトコルの10倍の改善と、最先端のPiraha-Falcon(USENIX Sec 22)に対するReLUプロトコルの6倍の改善を実現した。 全体として、エンドツーエンド(E2E)のプライバシ保護機械学習(PPML)推論の性能は3~4倍改善されている。

This paper primarily focuses on analyzing the problems and proposing solutions for the probabilistic truncation protocol in existing PPML works from the perspectives of accuracy and efficiency. In terms of accuracy, we reveal that precision selections recommended in some of the existing works are incorrect. We conduct a thorough analysis of their open-source code and find that their errors were mainly due to simplified implementation, more specifically, fixed numbers are used instead of random numbers in probabilistic truncation protocols. Based on this, we provide a detailed theoretical analysis to validate our views. We propose a solution and a precision selection guideline for future works. Regarding efficiency, we identify limitations in the state-of-the-art comparison protocol, Bicoptor's (S\&P 2023) DReLU protocol, which relies on the probabilistic truncation protocol and is heavily constrained by the security parameter to avoid errors, significantly impacting the protocol's performance. To address these challenges, we introduce the first non-interactive deterministic truncation protocol, replacing the original probabilistic truncation protocol. Additionally, we design a non-interactive modulo switch protocol to enhance the protocol's security. Finally, we provide a guideline to reduce computational and communication overhead by using only a portion of the bits of the input, i.e., the key bits, for DReLU operations based on different model parameters. With the help of key bits, the performance of our DReLU protocol is further improved. We evaluate the performance of our protocols on three GPU servers, and achieve a 10x improvement in DReLU protocol, and a 6x improvement in the ReLU protocol over the state-of-the-art work Piranha-Falcon (USENIX Sec 22). Overall, the performance of our end-to-end (E2E) privacy-preserving machine learning (PPML) inference is improved by 3-4 times.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-06
# 流出したパスワードがハニーワード効果に及ぼす影響

The Impact of Exposed Passwords on Honeyword Efficacy ( http://arxiv.org/abs/2309.10323v3 )

ライセンス: Link先を確認
Zonghao Huang, Lujo Bauer, Michael K. Reiter, (参考訳) ハニーワードはクレデンシャルデータベースに追加可能なデコイパスワードであり、ログインの試みがハニーワードを使用する場合、サイトのクレデンシャルデータベースが漏洩したことを示している。 本稿では,攻撃者が他のサイトで同じユーザに対してパスワードを知っている脅威モデルにおいて,ハニーワードの有効性に関する基本的な要件について検討する。 まず, ユーザ長文(vs, パスワードマネージャが生成する)のパスワードに対して, 既存のハニーワード生成アルゴリズムは, それぞれ$\approx 0$ と $\approx \frac{1}{1+n}$ のイデアルに近い偽陽性と偽陰性の率を同時に達成しないことを示す。 第二に、アルゴリズムによって生成されたパスワードを利用するユーザにとって、ハニーワード生成のための最先端の手法は、十分に騙されないハニーワードを生成し、多くの偽陰性をもたらすことを示す。 代わりに、ユーザがこのケースで欺くハニーワードを提供することができるのは、‘textit{same}パスワードジェネレータ’を使用するハニーワード生成アルゴリズムのみである。 しかし、(1)のアカウントパスワードからジェネレータを推測するディフェンダーの能力が攻撃者からジェネレータを推測する能力よりも精度が低い場合、この偽造は再び悪化する可能性がある。 本研究の結果は,ハニーワード研究の現状に注意を喚起するとともに,この分野に新たな課題を提起するものである。

Honeywords are decoy passwords that can be added to a credential database; if a login attempt uses a honeyword, this indicates that the site's credential database has been leaked. In this paper we explore the basic requirements for honeywords to be effective, in a threat model where the attacker knows passwords for the same users at other sites. First, we show that for user-chosen (vs. algorithmically generated, i.e., by a password manager) passwords, existing honeyword-generation algorithms do not simultaneously achieve false-positive and false-negative rates near their ideals of $\approx 0$ and $\approx \frac{1}{1+n}$, respectively, in this threat model, where $n$ is the number of honeywords per account. Second, we show that for users leveraging algorithmically generated passwords, state-of-the-art methods for honeyword generation will produce honeywords that are not sufficiently deceptive, yielding many false negatives. Instead, we find that only a honeyword-generation algorithm that uses the \textit{same} password generator as the user can provide deceptive honeywords in this case. However, when the defender's ability to infer the generator from the (one) account password is less accurate than the attacker's ability to infer the generator from potentially many, this deception can again wane. Taken together, our results provide a cautionary note for the state of honeyword research and pose new challenges to the field.
翻訳日:2024-03-17 17:10:47 公開日:2024-03-06
# Taypsi: プライバシポリシの静的実施

Taypsi: Static Enforcement of Privacy Policies for Policy-Agnostic Oblivious Computation ( http://arxiv.org/abs/2311.09393v4 )

ライセンス: Link先を確認
Qianchuan Ye, Benjamin Delaware, (参考訳) セキュアなマルチパーティ計算(MPC)技術により、複数のパーティが、データを他のパーティと共有することなく、複数のパーティがプライベートデータ上のジョイント関数を計算できる。 このような関数を書く場合の課題の1つは、ほとんどのMPC言語が単一のアプリケーションでプログラムとプライバシの懸念を混在させ、プログラムの基盤となるプライバシポリシーを変更したり、監査したりするのが難しくなることである。 それまでのポリシーに依存しないMPC言語は、プログラムロジックからプライバシー要件を分離するために動的執行に依存していた。 残念ながら、結果として生じるオーバーヘッドにより、構造化データを操作するMPCアプリケーションのスケールが困難になる。 この研究は、プログラムを静的にユーザが提供するプライバシポリシを強制する意味論的に等価なバージョンに変換することによって、このオーバーヘッドを取り除くことを提案する。 我々はこの手法をTaypsiと呼ばれる新しいMPC言語で実装し、その結果、構造化データや複雑なプライバシーポリシーを含む様々なMPCアプリケーションにおいて、システムの性能が大幅に向上したことを示す実験的な評価を行った。

Secure multiparty computation (MPC) techniques enable multiple parties to compute joint functions over their private data without sharing that data with other parties, typically by employing powerful cryptographic protocols to protect individual's data. One challenge when writing such functions is that most MPC languages force users to intermix programmatic and privacy concerns in a single application, making it difficult to change or audit a program's underlying privacy policy. Prior policy-agnostic MPC languages relied on dynamic enforcement to decouple privacy requirements from program logic. Unfortunately, the resulting overhead makes it difficult to scale MPC applications that manipulate structured data. This work proposes to eliminate this overhead by instead transforming programs into semantically equivalent versions that statically enforce user-provided privacy policies. We have implemented this approach in a new MPC language, called Taypsi; our experimental evaluation demonstrates that the resulting system features considerable performance improvements on a variety of MPC applications involving structured data and complex privacy policies.
翻訳日:2024-03-17 17:10:47 公開日:2024-03-06
# Lotto: フェデレーション学習における敵サーバに対するセキュアな参加者選択

Lotto: Secure Participant Selection against Adversarial Servers in Federated Learning ( http://arxiv.org/abs/2401.02880v2 )

ライセンス: Link先を確認
Zhifeng Jiang, Peng Ye, Shiqi He, Wei Wang, Ruichuan Chen, Bo Li, (参考訳) フェデレートラーニング(FL)では、セキュアアグリゲーションや分散ディファレンシャルプライバシといった一般的なプライバシ向上技術が、さまざまな攻撃に耐えるために参加者の正直な多数派の批判的な仮定に依存している。 しかし、実際には、サーバは必ずしも信頼できないため、敵サーバは妥協したクライアントを戦略的に選択して不正な多数派を作ることができ、それによってシステムのセキュリティ保証を損なうことができる。 本稿では,この基本的な問題に対処するFLシステムである Lotto を提案する。 Lottoはランダムとインフォメーションという2つの選択アルゴリズムをサポートしている。 信頼されたサーバなしでランダムな選択を保証するため、Lottoは各クライアントが検証されたランダム性を使用して参加を自律的に決定できる。 操作に弱い情報選択に対して、Lottoは洗練されたクライアントプール内でランダム選択を用いることでアルゴリズムを近似する。 我々の理論的分析によると、ロットーは、サーバ選択された不正な参加者の割合と、人口における不正直な顧客の割合を効果的に一致させる。 大規模な実験により、ロットは安全でない選択法に匹敵する時間と精度の性能を達成し、安全な選択のための計算オーバーヘッドが低いことを示した。

In Federated Learning (FL), common privacy-enhancing techniques, such as secure aggregation and distributed differential privacy, rely on the critical assumption of an honest majority among participants to withstand various attacks. In practice, however, servers are not always trusted, and an adversarial server can strategically select compromised clients to create a dishonest majority, thereby undermining the system's security guarantees. In this paper, we present Lotto, an FL system that addresses this fundamental, yet underexplored issue by providing secure participant selection against an adversarial server. Lotto supports two selection algorithms: random and informed. To ensure random selection without a trusted server, Lotto enables each client to autonomously determine their participation using verifiable randomness. For informed selection, which is more vulnerable to manipulation, Lotto approximates the algorithm by employing random selection within a refined client pool. Our theoretical analysis shows that Lotto effectively aligns the proportion of server-selected compromised participants with the base rate of dishonest clients in the population. Large-scale experiments further reveal that Lotto achieves time-to-accuracy performance comparable to that of insecure selection methods, indicating a low computational overhead for secure selection.
翻訳日:2024-03-17 17:10:47 公開日:2024-03-06
# SoK: SNARKにおけるセキュリティ脆弱性の理解

SoK: What don't we know? Understanding Security Vulnerabilities in SNARKs ( http://arxiv.org/abs/2402.15293v2 )

ライセンス: Link先を確認
Stefanos Chaliasos, Jens Ernstberger, David Theodore, David Wong, Mohammad Jahanara, Benjamin Livshits, (参考訳) ゼロ知識証明(ZKP)は、プライバシーと検証可能性を提供する理論概念から進化し、SNARK(Succinct Non-Interactive Argument of Knowledge)が最も重要なイノベーションの1つとして登場した。 これまでは主に、より効率的なSNARKシステムの設計とセキュリティ証明の提供に重点を置いてきた。 多くの人はSNARKを「ただの数学」とみなし、実際に正しいと証明されたものが正しいことを示唆している。 これとは対照的に,本研究では,実生活SNARK実装のエンドツーエンドセキュリティ特性の評価に重点を置いている。 まず、システムモデルによる基盤の構築と、脅威モデルを確立し、SNARKを使用するシステムに対する敵の役割を定義することから始めます。 本研究は,SNARK実装における141の実際の脆弱性を広範囲に分析し,SNARKを用いたシステムのセキュリティ脅威を理解する上で,開発者やセキュリティ研究者を支援するための詳細な分類法を提供する。 最後に、我々は既存の防衛機構を評価し、SNARKベースのシステムのセキュリティを強化するための勧告を提供し、将来より堅牢で信頼性の高い実装を実現する。

Zero-knowledge proofs (ZKPs) have evolved from being a theoretical concept providing privacy and verifiability to having practical, real-world implementations, with SNARKs (Succinct Non-Interactive Argument of Knowledge) emerging as one of the most significant innovations. Prior work has mainly focused on designing more efficient SNARK systems and providing security proofs for them. Many think of SNARKs as "just math," implying that what is proven to be correct and secure is correct in practice. In contrast, this paper focuses on assessing end-to-end security properties of real-life SNARK implementations. We start by building foundations with a system model and by establishing threat models and defining adversarial roles for systems that use SNARKs. Our study encompasses an extensive analysis of 141 actual vulnerabilities in SNARK implementations, providing a detailed taxonomy to aid developers and security researchers in understanding the security threats in systems employing SNARKs. Finally, we evaluate existing defense mechanisms and offer recommendations for enhancing the security of SNARK-based systems, paving the way for more robust and reliable implementations in the future.
翻訳日:2024-03-17 17:10:47 公開日:2024-03-06
# PhenoAuth: IoTデバイス用の新しいPUF-Phenotypeベースの認証プロトコル

PhenoAuth: A Novel PUF-Phenotype-based Authentication Protocol for IoT Devices ( http://arxiv.org/abs/2403.03486v1 )

ライセンス: Link先を確認
Hongming Fei, Owen Millwood, Gope Prosanta, Jack Miskelly, Biplab Sikdar, (参考訳) 物理非閉塞関数(PUF)は、低消費電力デバイスに適した高セキュリティシステムを実現するための、非常に有望なソリューションであることが示されている。 一般的にPUFは暗号鍵をオンザフライで生成するために使用され、キーを脆弱で揮発性のないメモリに格納する必要性を置き換える。 PUFの物理的性質のため、環境変動はノイズを引き起こし、最初のPUF測定で明らかな誤りとして現れる。 これは、軽量セキュリティの目標に対抗できる高価なアクティブエラー補正技術を必要とする。 誤り訂正手法の代替としてMLに基づくPUF計測技術が検討され,PUFの識別をPUFの構造に依存しない表現とみなすPUF Phenotypeの概念がもたらされた。 本研究は、デバイス間通信に適した設定で相互認証と前方機密性を実証し、PUF Phenotypeの概念とIoT(Internet-of-Things)ネットワークの方法論に基づく完全耐雑音認証プロトコルを提案する。 セキュリティおよび性能分析を行った結果,提案手法は既存のPUFプロトコルと比較して,様々な攻撃に対するレジリエンスを示すことが明らかとなった。

Physical Unclonable Functions (PUFs) have been shown to be a highly promising solution for enabling high security systems tailored for low-power devices. Commonly, PUFs are utilised to generate cryptographic keys on-the-fly, replacing the need to store keys in vulnerable, non-volatile memories. Due to the physical nature of PUFs, environmental variations cause noise, manifesting themselves as errors which are apparent in the initial PUF measurements. This necessitates expensive active error correction techniques which can run counter to the goal of lightweight security. ML-based techniques for authenticating noisy PUF measurements were explored as an alternative to error correction techniques, bringing about the concept of a PUF Phenotype, where PUF identity is considered as a structure agnostic representation of the PUF, with relevant noise encoding. This work proposes a full noise-tolerant authentication protocol based on the PUF Phenotype concept and methodology for an Internet-of-Things (IoT) network, demonstrating mutual authentication and forward secrecy in a setting suitable for device-to-device communication. Upon conducting security and performance analyses, it is evident that our proposed scheme demonstrates resilience against various attacks compared to the currently existing PUF protocols.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-06
# 統合性保護ブロック暗号モード -- 絡み合ったWebをアンタングする

Integrity-protecting block cipher modes -- Untangling a tangled web ( http://arxiv.org/abs/2403.03654v1 )

ライセンス: Link先を確認
Chris J Mitchell, (参考訳) 本稿では,認証暗号を提供するために設計された3つのブロック暗号モードのセキュリティを再検討する。 これらのモードは PES-PCBC, IOBC, EPBC と呼ばれ、いずれも1990年代半ばに提案された。 しかし、後者の2つのモードのセキュリティ分析はより最近になって発表された。 いずれの場合も、これらのスキームに関するセキュリティ問題を記述した1つ以上の論文が最終的に公表されたが、これらの分析のうちの1つ(EDBCの)の欠陥が後に発見された。 本稿は,これら3つのスキームがいずれも,それらの使用を防ぐための欠陥を持っていること,特にセキュリティの証明を有する効率的な代替スキームが多数存在することを明らかにする。

This paper re-examines the security of three related block cipher modes of operation designed to provide authenticated encryption. These modes, known as PES-PCBC, IOBC and EPBC, were all proposed in the mid-1990s. However, analyses of security of the latter two modes were published more recently. In each case one or more papers describing security issues with the schemes were eventually published, although a flaw in one of these analyses (of EPBC) was subsequently discovered - this means that until now EPBC had no known major issues. This paper establishes that, despite this, all three schemes possess defects which should prevent their use - especially as there are a number of efficient alternative schemes possessing proofs of security.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-06
# Kronos: 最適な通信オーバヘッドを備えたロバストなシャーディングブロックチェーンコンセンサス

Kronos: A Robust Sharding Blockchain Consensus with Optimal Communication Overhead ( http://arxiv.org/abs/2403.03655v1 )

ライセンス: Link先を確認
Andi Liu, Yizhong Liu, Zhuocheng Pan, Yinuo Li, Jianwei Liu, Yuan Lu, (参考訳) シャーディングは、ネットワークをシャードに分割することで、ブロックチェーンのスケーラビリティを向上させる。 クロスシャーディングトランザクションは、シャーディングブロックチェーンのセキュリティと効率にとって重要な課題である。 しかし、現在のソリューションでは、前提と実質的な投資でセキュリティを優先するか、オーバヘッドの削減とセキュリティ上の考慮事項の見落としに重点を置いている。 本稿では、堅牢なセキュリティを保証する汎用的で効率的なブロックチェーンコンセンサスであるKronosを紹介する。 本稿では,原子間取引処理のためのバッファ機構を提案する。 シャードメンバーは、すべての入力が利用可能で、不正な要求に対してファンドが転送されない場合にのみトランザクションがコミットされることを保証するために、クロスシャード入力を管理するバッファを集合的に保持する。 セキュリティを確保しながら、Kronosは最適なシャード内通信オーバーヘッドでトランザクションを処理する。 さらに,トランザクション無効性の証明生成をシンプルかつ高速なマルチキャストに削減し,楽観的なシナリオで完全なビザンティンフォールトトレランスプロトコルを実行することなくアトミックなリジェクションを実現することを提案する。 さらに、Kronosは新しく設計されたバッチメカニズムを採用し、シャードメッセージ間の複雑性を$O((m$log$m/b)\lambda)$に減らした。 Kronosは、時間やクライアントの誠実な仮定に何ら依存せずに動作し、非同期なものを含むさまざまなネットワーク環境のアプリケーションをサポートする、プラグインのシャーディングブロックチェーンコンセンサスとして機能する。 我々は2つの著名なBFTプロトコルであるSpeeding DumboとHotStuffを使ってKronosを実装している。 大規模な実験では、Kronosは1.7秒のレイテンシで68.6ktx/secのスループットを実現している。 最先端のソリューションと比較して、Kronosはすべてのケースでパフォーマンスが向上し、スループットが42倍に向上し、クロスシャードトランザクションがワークロードを支配している場合、レイテンシが50%削減される。

Sharding enhances blockchain scalability by dividing the network into shards, each managing specific unspent transaction outputs or accounts. Cross-shard transactions pose a critical challenge to the security and efficiency of sharding blockchains. Current solutions, however, either prioritize security with assumptions and substantial investments, or focus on reducing overhead and overlooking security considerations. In this paper, we present Kronos, a generic and efficient sharding blockchain consensus ensuring robust security. We introduce a buffer mechanism for atomic cross-shard transaction processing. Shard members collectively maintain a buffer to manage cross-shard inputs, ensuring that a transaction is committed only if all inputs are available, and no fund is transferred for invalid requests. While ensuring security, Kronos processes transactions with optimal intra-shard communication overhead. Additionally, we propose a reduction for transaction invalidity proof generation to simple and fast multicasting, leading to atomic rejection without executing full-fledged Byzantine fault tolerance protocol in optimistic scenarios. Moreover, Kronos adopts a newly designed batch mechanism, reducing inter-shard message complexity to $O((m$log$m/b)\lambda)$. Kronos operates without dependence on any time or client honesty assumption, serving as a plug-in sharding blockchain consensus supporting applications in diverse network environments including asynchronous ones. We implement Kronos using two prominent BFT protocols: Speeding Dumbo and HotStuff. Extensive experiments demonstrate Kronos achieving a substantial throughput of 68.6ktx/sec with 1.7sec latency. Compared with state-of-the-art solutions, Kronos outperforms in all cases, achieving up to a 42x improvement in throughput and a 50% reduction in latency when cross-shard transactions dominate the workload.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-06
# マイクロドローンのジャミングとハイジャック

Exploring Jamming and Hijacking Attacks for Micro Aerial Drones ( http://arxiv.org/abs/2403.03858v1 )

ライセンス: Link先を確認
Yassine Mekdad, Abbas Acar, Ahmet Aris, Abdeslam El Fergougui, Mauro Conti, Riccardo Lazzeretti, Selcuk Uluagac, (参考訳) 近年のドローン技術の進歩により、市販のMicro Aerial Droneは、スワーミング、屋内ナビゲーション、有害な場所の検査など、狭い環境での飛行ミッションを実行するために、大型ドローンよりも効果的であることが示されている。 多くの民間および軍事用途に配備されているため、これらのドローンの安全で信頼性の高い通信がミッション全体にわたって重要である。 Crazyflieのエコシステムは、最も人気のあるMicro Aerial Dronesの1つであり、世界中で展開される可能性がある。 本稿では,Crazy Real Time Protocol (CRTP) に対する2つの干渉攻撃について実験的に検討する。 特に、妨害攻撃とハイジャック攻撃という、進行中の飛行ミッションを妨害する可能性のある2つの攻撃ベクトルを実験する可能性について検討する。 実験により,Crazyflie 2.1ドローンの自律飛行モードと非自律飛行モードの両方において,このような攻撃の有効性が示された。 最後に、安全かつ安全な飛行ミッションを保証する潜在的な遮蔽戦略を提案する。 私たちの知る限りでは、これは、自律モードと非自律モードの両方において、Micro Aerial Dronesに対する妨害およびハイジャック攻撃を調査する最初の研究である。

Recent advancements in drone technology have shown that commercial off-the-shelf Micro Aerial Drones are more effective than large-sized drones for performing flight missions in narrow environments, such as swarming, indoor navigation, and inspection of hazardous locations. Due to their deployments in many civilian and military applications, safe and reliable communication of these drones throughout the mission is critical. The Crazyflie ecosystem is one of the most popular Micro Aerial Drones and has the potential to be deployed worldwide. In this paper, we empirically investigate two interference attacks against the Crazy Real Time Protocol (CRTP) implemented within the Crazyflie drones. In particular, we explore the feasibility of experimenting two attack vectors that can disrupt an ongoing flight mission: the jamming attack, and the hijacking attack. Our experimental results demonstrate the effectiveness of such attacks in both autonomous and non-autonomous flight modes on a Crazyflie 2.1 drone. Finally, we suggest potential shielding strategies that guarantee a safe and secure flight mission. To the best of our knowledge, this is the first work investigating jamming and hijacking attacks against Micro Aerial Drones, both in autonomous and non-autonomous modes.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-06
# OpenVPNがVPNフィンガープリントに対応

OpenVPN is Open to VPN Fingerprinting ( http://arxiv.org/abs/2403.03998v1 )

ライセンス: Link先を確認
Diwen Xue, Reethika Ramesh, Arham Jain, Michalis Kallitsis, J. Alex Halderman, Jedidiah R. Crandall, Roya Ensafi, (参考訳) VPNの採用は、プライバシーと監視の脅威に対する大衆の認識が高まり、過去10年間で着実に伸びている。 これに対して、一部の政府は「デュアルユース」DPI技術を使って接続を識別することでVPNアクセスを制限しようとしている。 VPNブロッキングの可能性を調べるため,商用VPNサービスにおける最も一般的なプロトコルであるOpenVPNを用いて,正確なフィンガープリント接続を行う機構を開発する。 バイトパターンやパケットサイズ,サーバ応答などのプロトコル機能に基づいて,3つの指紋を識別する。 ネットワークを制御している攻撃者の役割を担い、受動的フィンガープリントとアクティブな探索を行う2段階のフレームワークを設計する。 当社のフレームワークを,100万ユーザISPと共同で評価し,無視可能な偽陽性だけで,OpenVPNフローの85%以上を識別できることを見出した。 一部の商用VPNは、検出を避けるために対策を講じているが、我々のフレームワークは41の"難読化"VPN構成のうち34の接続を正常に特定した。 本稿では、異なる脅威モデルに対するVPNフィンガープリント可能性の影響について論じ、短期防衛を提案する。 長期的には、商用VPNプロバイダに対して、彼らの難読化アプローチをより透明にし、検閲回避研究などで開発されたような、より原則化された検出対策を採用するように促します。

VPN adoption has seen steady growth over the past decade due to increased public awareness of privacy and surveillance threats. In response, certain governments are attempting to restrict VPN access by identifying connections using "dual use" DPI technology. To investigate the potential for VPN blocking, we develop mechanisms for accurately fingerprinting connections using OpenVPN, the most popular protocol for commercial VPN services. We identify three fingerprints based on protocol features such as byte pattern, packet size, and server response. Playing the role of an attacker who controls the network, we design a two-phase framework that performs passive fingerprinting and active probing in sequence. We evaluate our framework in partnership with a million-user ISP and find that we identify over 85% of OpenVPN flows with only negligible false positives, suggesting that OpenVPN-based services can be effectively blocked with little collateral damage. Although some commercial VPNs implement countermeasures to avoid detection, our framework successfully identified connections to 34 out of 41 "obfuscated" VPN configurations. We discuss the implications of the VPN fingerprintability for different threat models and propose short-term defenses. In the longer term, we urge commercial VPN providers to be more transparent about their obfuscation approaches and to adopt more principled detection countermeasures, such as those developed in censorship circumvention research.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-06
# ZTRAN: オープン無線アクセスネットワーク展開のためのゼロトラストセキュリティxアプリケーションのプロトタイプ

ZTRAN: Prototyping Zero Trust Security xApps for Open Radio Access Network Deployments ( http://arxiv.org/abs/2403.04113v1 )

ライセンス: Link先を確認
Aly S. Abdalla, Joshua Moore, Nisha Adhikari, Vuk Marojevic, (参考訳) オープン無線アクセスネットワーク(O-RAN)は、高度なセルネットワークの構築と運用のための新しい自由度を提供する。 RANディスアグリゲーション、オープンインターフェース、マルチベンダサポート、RANインテリジェントコントローラ(RIC)を重視したO-RANは、新しいアプリケーションや技術トレンドへの適応を促進する。 しかし、このアーキテクチャは新たなセキュリティ課題をもたらす。 本稿では,O-RANセキュリティにゼロ信頼原則を活用することを提案する。 我々は、サービス認証、侵入検知、xAppsとしてカプセル化されたセキュアなスライシングサブシステムを含むゼロ信頼RAN(ZTRAN)を導入する。 我々は、オープン人工知能セル(OAIC)研究プラットフォームにZTRANを実装し、その実現可能性と有効性について、正確なユーザスループットとレイテンシーの数値で示す。 我々の実験的分析は、O-RAN Allianceのコンテナ化されたニアリアルタイムRICの一部として、ZTRANの侵入検出とセキュアスライシングマイクロサービスが、効果的に、そして共同でどのように動作するかを示している。 研究の方向性には、機械学習と、ZTRANのパフォーマンスを改善し、範囲を広げるための脅威情報フィードの探索が含まれる。

The open radio access network (O-RAN) offers new degrees of freedom for building and operating advanced cellular networks. Emphasizing on RAN disaggregation, open interfaces, multi-vendor support, and RAN intelligent controllers (RICs), O-RAN facilitates adaptation to new applications and technology trends. Yet, this architecture introduces new security challenges. This paper proposes leveraging zero trust principles for O-RAN security. We introduce zero trust RAN (ZTRAN), which embeds service authentication, intrusion detection, and secure slicing subsystems that are encapsulated as xApps. We implement ZTRAN on the open artificial intelligence cellular (OAIC) research platform and demonstrate its feasibility and effectiveness in terms of legitimate user throughput and latency figures. Our experimental analysis illustrates how ZTRAN's intrusion detection and secure slicing microservices operate effectively and in concert as part of O-RAN Alliance's containerized near-real time RIC. Research directions include exploring machine learning and additional threat intelligence feeds for improving the performance and extending the scope of ZTRAN.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-06
# 第一原理計算の導入: TeNP-Chain に基づく社会ダイナミクスシミュレーションにおけるグループダイナミクスとブリッジング社会現象の新しいアプローチ

Introducing First-Principles Calculations: New Approach to Group Dynamics and Bridging Social Phenomena in TeNP-Chain Based Social Dynamics Simulations ( http://arxiv.org/abs/2403.05593v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) この論文は、テルルナノ粒子(tenps)やグラフェンなどの材料研究に適用される量子力学の基本原理と、社会システムの複雑なダイナミクスとのギャップを埋める革新的な学際的方法論を考察する。 このアプローチの基礎は、TeNPとグラフェンの構造的特徴と誤情報に直面した社会集団の行動パターンの比喩的な類似性にある。 TeNPはテルル鎖内の共有結合の強化や、これらの鎖の分離に繋がる二次構造の破壊など、ユニークな性質を示す。 これは、社会集団内の凝集度の増加と、異なるサブグループ間の情報の流れの破壊に類似している。 . 同様に、高電気伝導率、強度、柔軟性といったグラフェンの優れた特性は、フェイクニュースのような外部刺激に反応して社会構造の弾力性と適応性を理解するための追加的な側面を提供する。 本研究は,テルルナノ粒子(tenps)の構造的特徴に類似した,社会集団における偽ニュースの拡散を解析するための新しいメタファ的枠組みを提案する。 本稿では,TeNPにおける共有結合の強化が,共通の信念や価値観を共有するグループにおける社会的結合の強化を反映しているかを検討する。

This note considers an innovative interdisciplinary methodology that bridges the gap between the fundamental principles of quantum mechanics applied to the study of materials such as tellurium nanoparticles (TeNPs) and graphene and the complex dynamics of social systems. The basis for this approach lies in the metaphorical parallels drawn between the structural features of TeNPs and graphene and the behavioral patterns of social groups in the face of misinformation. TeNPs exhibit unique properties such as the strengthening of covalent bonds within telluric chains and the disruption of secondary structure leading to the separation of these chains. This is analogous to increased cohesion within social groups and disruption of information flow between different subgroups, respectively. . Similarly, the outstanding properties of graphene, such as high electrical conductivity, strength, and flexibility, provide additional aspects for understanding the resilience and adaptability of social structures in response to external stimuli such as fake news. This research note proposes a novel metaphorical framework for analyzing the spread of fake news within social groups, analogous to the structural features of telluric nanoparticles (TeNPs). We investigate how the strengthening of covalent bonds within TeNPs reflects the strengthening of social cohesion in groups that share common beliefs and values.
翻訳日:2024-03-13 13:10:41 公開日:2024-03-06
# 機械的心の永遠の太陽--機械学習の不適合性と忘れられる権利-

Eternal Sunshine of the Mechanical Mind: The Irreconcilability of Machine Learning and the Right to be Forgotten ( http://arxiv.org/abs/2403.05592v1 )

ライセンス: Link先を確認
Meem Arafat Manab(参考訳) 私たちは、人工知能が私たちのほとんどにとって恒常的で規範的な経験である時代に向かって急速に進んでいるので、このビジョンとこの進歩が何を意味するのかを意識する必要があります。 まず、コンピュータ回路の神経接続やアクティビティを近似し、その後より洗練されたバージョンのこの粗い近似を生成することで、私たちは現在、現代のディープラーニングベースの人工知能システムが正しい意味で思考機械と呼ばれる時代に直面しており、その創発的な行動とブラックボックスアプローチで賞賛されることもある。 しかし、何十億もの神経接続とパラメータを持つより強力な電子脳を作ることで、人工ニューロンでできたマンモスが、私たちが記憶しているデータを忘れられることを保証できるだろうか? もし脳のようにある程度のレベルにいるなら、忘れられる権利は、これらのAIを扱う際に保護されるだろうか? 本論文では、機械学習とrtbfとの間の本質的なギャップを考察し、そのギャップがすぐに橋渡しや和解がなければ、広範囲にわたる結論を予見する。 中心となる主張は、深層学習モデルは、その構造とサイズのため、表型データベースから期待されるデータを忘れたり削除したりすることができない、そしてそれらはまだ開発中であるが、機械的な脳のように扱われるべきである、ということである。

As we keep rapidly advancing toward an era where artificial intelligence is a constant and normative experience for most of us, we must also be aware of what this vision and this progress entail. By first approximating neural connections and activities in computer circuits and then creating more and more sophisticated versions of this crude approximation, we are now facing an age to come where modern deep learning-based artificial intelligence systems can rightly be called thinking machines, and they are sometimes even lauded for their emergent behavior and black-box approaches. But as we create more powerful electronic brains, with billions of neural connections and parameters, can we guarantee that these mammoths built of artificial neurons will be able to forget the data that we store in them? If they are at some level like a brain, can the right to be forgotten still be protected while dealing with these AIs? The essential gap between machine learning and the RTBF is explored in this article, with a premonition of far-reaching conclusions if the gap is not bridged or reconciled any time soon. The core argument is that deep learning models, due to their structure and size, cannot be expected to forget or delete a data as it would be expected from a tabular database, and they should be treated more like a mechanical brain, albeit still in development.
翻訳日:2024-03-13 13:10:19 公開日:2024-03-06
# 言語モデルのコード生成能力評価における汚染の定量化

Quantifying Contamination in Evaluating Code Generation Capabilities of Language Models ( http://arxiv.org/abs/2403.04811v1 )

ライセンス: Link先を確認
Martin Riddell, Ansong Ni, Arman Cohan(参考訳) 大規模言語モデルは、様々なコード生成ベンチマークで顕著なパフォーマンスを達成したが、事前トレーニングや微調整データにリークされる可能性があるため、これらのベンチマークの潜在的な汚染に関する懸念が高まっている。 最近の研究は自然言語生成と理解タスクの汚染を調査しているが、データ汚染がコード生成の評価にどのように影響するかに関する広範な研究は少なく、これはプログラミングコンテキストにおけるllmの堅牢性と信頼性を理解する上で重要である。 本研究では,一般的なコード生成ベンチマークのデータ汚染を包括的に研究し,表面レベルと意味レベルのマッチングによって事前学習コーパスとの重なりを正確に定量化する。 実験では、一般的なコード生成ベンチマークとオープントレーニングコーパスの間にかなりの重複があることを示し、同様のソリューションがトレーニング中に見られるベンチマークのサブセットにおいて、モデルの方が大幅に優れたパフォーマンスを示す。 また,モデルのサイズ,問題難易度,質問長など,モデル記憶化や一般化に影響を与える要因を広範囲に分析する。 将来の研究のために、マッチングパイプラインから得られたすべてのファイルをリリースします。

While large language models have achieved remarkable performance on various code generation benchmarks, there have been growing concerns regarding potential contamination of these benchmarks as they may be leaked into pretraining and finetuning data. While recent work has investigated contamination in natural language generation and understanding tasks, there has been less extensive research into how data contamination impacts the evaluation of code generation, which is critical for understanding the robustness and reliability of LLMs in programming contexts. In this work, we perform a comprehensive study of data contamination of popular code generation benchmarks, and precisely quantify their overlap with pretraining corpus through both surface-level and semantic-level matching. In our experiments, we show that there are substantial overlap between popular code generation benchmarks and open training corpus, and models perform significantly better on the subset of the benchmarks where similar solutions are seen during training. We also conduct extensive analysis on the factors that affects model memorization and generalization, such as model size, problem difficulty, and question length. We release all resulting files from our matching pipeline for future research.
翻訳日:2024-03-11 22:06:19 公開日:2024-03-06
# 制限されたベイズニューラルネットワーク

Restricted Bayesian Neural Network ( http://arxiv.org/abs/2403.04810v1 )

ライセンス: Link先を確認
Sourav Ganguly(参考訳) 現代のディープラーニングツールは複雑な問題に対処するのに非常に効果的です。 しかし、ブラックボックスモデルとしての動作は予測の不確実性の増加をもたらす。 さらに、大規模なネットワークにおける大規模なストレージスペースの必要性、過度に適合する問題、不適合、勾配の消滅など、さまざまな課題も抱えている。 本研究では,ベイズニューラルネットワークの概念を探求し,ネットワークの記憶空間の複雑さを大幅に軽減する新しいアーキテクチャを提案する。 さらに,不確実性を効率的に扱えるアルゴリズムを導入し,特に目的関数が完全凸性に欠ける場合には,局所最適に閉じ込められることなく,堅牢な収束値を確保する。

Modern deep learning tools are remarkably effective in addressing intricate problems. However, their operation as black-box models introduces increased uncertainty in predictions. Additionally, they contend with various challenges, including the need for substantial storage space in large networks, issues of overfitting, underfitting, vanishing gradients, and more. This study explores the concept of Bayesian Neural Networks, presenting a novel architecture designed to significantly alleviate the storage space complexity of a network. Furthermore, we introduce an algorithm adept at efficiently handling uncertainties, ensuring robust convergence values without becoming trapped in local optima, particularly when the objective function lacks perfect convexity.
翻訳日:2024-03-11 22:06:00 公開日:2024-03-06
# 端末ストリップ物体検出の産業応用における合成訓練データの影響の検討

Investigation of the Impact of Synthetic Training Data in the Industrial Application of Terminal Strip Object Detection ( http://arxiv.org/abs/2403.04809v1 )

ライセンス: Link先を確認
Nico Baumgart, Markus Lange-Hegermann, Mike M\"ucke(参考訳) 工業生産では、現在手動または古典的な画像処理手法によって実行されている特定の物体を視覚的に検査または検出するタスクが多数存在する。 したがって、近年のディープラーニングモデルを産業環境に導入することは、生産性を高め、新しいアプリケーションを可能にする可能性を秘めている。 しかし、十分なデータの収集とラベル付けは、しばしば難解であり、そのようなプロジェクトの実装を複雑にする。 したがって、画像合成法は3dモデルから合成トレーニングデータを生成し、自動的に注釈を付けるためによく用いられるが、シム・トゥ・リアル領域のギャップが生じる。 本稿では,端末ストリップ物体検出の複雑な産業応用における標準物体検出器のsim-to-real一般化性能について検討する。 ドメインのランダム化とドメインの知識を組み合わせることで、トレーニングデータを自動的に生成する画像合成パイプラインを作成しました。 さらに,評価のための実画像300枚を手作業でアノテートした。 その結果、どちらの領域でも同じ規模の関心の対象が重要であることが示された。 それでも、最適化されたスケーリング条件下では、平均的な平均精度におけるsim-to-realのパフォーマンス差は、RetinaNetでは2.69 %、より高速なR-CNNでは0.98 %となり、このアプローチは工業的要求に対して適している。

In industrial manufacturing, numerous tasks of visually inspecting or detecting specific objects exist that are currently performed manually or by classical image processing methods. Therefore, introducing recent deep learning models to industrial environments holds the potential to increase productivity and enable new applications. However, gathering and labeling sufficient data is often intractable, complicating the implementation of such projects. Hence, image synthesis methods are commonly used to generate synthetic training data from 3D models and annotate them automatically, although it results in a sim-to-real domain gap. In this paper, we investigate the sim-to-real generalization performance of standard object detectors on the complex industrial application of terminal strip object detection. Combining domain randomization and domain knowledge, we created an image synthesis pipeline for automatically generating the training data. Moreover, we manually annotated 300 real images of terminal strips for the evaluation. The results show the cruciality of the objects of interest to have the same scale in either domain. Nevertheless, under optimized scaling conditions, the sim-to-real performance difference in mean average precision amounts to 2.69 % for RetinaNet and 0.98 % for Faster R-CNN, qualifying this approach for industrial requirements.
翻訳日:2024-03-11 22:05:49 公開日:2024-03-06
# WaterMax: LLMの透かし検出性-腐食性-品質トレードオフを破る

WaterMax: breaking the LLM watermark detectability-robustness-quality trade-off ( http://arxiv.org/abs/2403.04808v1 )

ライセンス: Link先を確認
Eva Giboulot and Furon Teddy(参考訳) ウォーターマーキングは、大規模な言語モデルの誤用を解消する技術的手段である。 本稿では,LLMの生成したテキストの品質を維持しつつ,高い検出性を実現する新しい透かし方式であるWaterMaxを提案する。 その新しいデザインは、llmに手を加えていない(重量、ロジット、温度、サンプリング技術の変更はない)。 WaterMaxは、文学の透かし技術とは対照的に、堅牢性と複雑さのバランスをとる。 その性能は理論的に証明され、実験的に検証される。 最も完全なベンチマークスイートの下では、すべてのSotAテクニックを上回ります。

Watermarking is a technical means to dissuade malfeasant usage of Large Language Models. This paper proposes a novel watermarking scheme, so-called WaterMax, that enjoys high detectability while sustaining the quality of the generated text of the original LLM. Its new design leaves the LLM untouched (no modification of the weights, logits, temperature, or sampling technique). WaterMax balances robustness and complexity contrary to the watermarking techniques of the literature inherently provoking a trade-off between quality and robustness. Its performance is both theoretically proven and experimentally validated. It outperforms all the SotA techniques under the most complete benchmark suite.
翻訳日:2024-03-11 22:05:26 公開日:2024-03-06
# ニューラルネットワークの数学(講義ノート研究科)

Mathematics of Neural Networks (Lecture Notes Graduate Course) ( http://arxiv.org/abs/2403.04807v1 )

ライセンス: Link先を確認
Bart M.N. Smets(参考訳) これらは、私が2021年から2023年までアイントホーフェン工科大学で教えた同じ名前の講義ノートです。 このコースは、大学院レベルの数学の学生のためのニューラルネットワーク入門を意図しており、数学の学生にニューラルネットワークのさらなる研究に興味を持たせることを目的としている。 第一に、正式な数学的方法でフィールドを導入することに焦点を当てた、ディープラーニングの一般的な紹介です。 第2部は、リー群と等質空間の理論の紹介と、それが望ましい幾何学的同値性を持つニューラルネットワークの設計にどのように適用できるかを提供する。 講義ノートは、適度な数学のバックグラウンドを持つすべての学生にアクセスできるよう、可能な限り自己完結したものであった。 Jupyterノートブックはhttps://gitlab.com/bsmetsjr/mathematics_of_neural_networks.comで公開されている。

These are the lecture notes that accompanied the course of the same name that I taught at the Eindhoven University of Technology from 2021 to 2023. The course is intended as an introduction to neural networks for mathematics students at the graduate level and aims to make mathematics students interested in further researching neural networks. It consists of two parts: first a general introduction to deep learning that focuses on introducing the field in a formal mathematical way. The second part provides an introduction to the theory of Lie groups and homogeneous spaces and how it can be applied to design neural networks with desirable geometric equivariances. The lecture notes were made to be as self-contained as possible so as to accessible for any student with a moderate mathematics background. The course also included coding tutorials and assignments in the form of a set of Jupyter notebooks that are publicly available at https://gitlab.com/bsmetsjr/mathematics_of_neural_networks.
翻訳日:2024-03-11 22:05:16 公開日:2024-03-06
# 熱中性子フーリエ変換ゴーストイメージングによる原子・磁気構造の顕微鏡観察

Microscopy for Atomic and Magnetic Structures Based on Thermal Neutron Fourier-transform Ghost Imaging ( http://arxiv.org/abs/1801.10046v3 )

ライセンス: Link先を確認
Kun Chen and Shensheng Han(参考訳) 本稿では,空間的非コヒーレント熱中性子波の4次相関関数を探索し,レンズレスフーリエ変換ゴーストイメージング法を提案する。 この手法はフェルミ・ディラック統計とフェルミイオン場の反束効果に基づいており、解析は完全な量子力学でなければならない。 中性子波のスピノール表現とシュロディンガー方程式からの純粋導出は、我々の研究を最初の、厳密で、堅牢で真にフェルミオン的なゴーストイメージングスキームにする。 対象腕と試料アームの強度変動の一致は,試料の原子分布と磁気空間分布の長手方向投影のフーリエ変換と直接関係していることが示された。 中性子光学におけるレンズ系を避けることで、現在の中性子イメージング技術と相容れないデブロリー波長分解能を実現することができる。 結晶化および非結晶化試料、特にマイクロ磁気構造に対する新しい能力は、様々な科学的フロンティアに重要な応用をもたらす。

We present a lensless, Fourier-transform ghost imaging scheme by exploring the fourth-order correlation function of spatially incoherent thermal neutron waves. This technique is established on the Fermi-Dirac statistics and the anti-bunching effect of fermionic fields, and the analysis must be fully quantum mechanical. The spinor representation of neutron waves and the derivation purely from the Schrodinger equation makes our work the first, rigorous, robust and truly fermionic ghost imaging scheme. The investigation demonstrates that the coincidence of the intensity fluctuations between the reference arm and the sample arm is directly related to the lateral Fourier-transform of the longitudinal projection of the sample's atomic and magnetic spatial distribution. By avoiding lens systems in neutron optics, our method can potentially achieve de Broglie wavelength level resolution, incomparable by current neutron imaging techniques. Its novel capability to image crystallined and noncrystallined samples, especially the micro magnetic structures, will bring important applications to various scientific frontiers.
翻訳日:2024-03-10 19:39:31 公開日:2024-03-06
# 曲面時空における局所非相対論的量子系:粒子検出器モデルの一般化

Localized non-relativistic quantum systems in curved spacetimes: a general characterization of particle detector models ( http://arxiv.org/abs/2206.01225v3 )

ライセンス: Link先を確認
T. Rick Perche(参考訳) この写本では、背景曲線時空における時間的軌道を経る局所非相対論的量子系を記述する一貫した方法を提供する。 すなわち、フェルミ正規座標を用いて、内積と正準共役位置と運動量作用素を、その固有時間の各値に対して軌道の剰余空間で定義される。 この枠組みは、非相対論的背景で定義される量子論を曲線時空における時間的軌道に関する理論にマッピングするためのレシピを提供する。 これは、位置演算子と運動量演算子を再解釈し、ハミルトニアンに局所的な赤方偏移因子を導入することによって行われ、時空の曲率と軌道の加速によって新たなダイナミクスをもたらす。 次に、非相対論的量子系が湾曲した背景の量子場に結合している場合、粒子検出器モデルにフォーマリズムを適用する。 これにより、文献で以前のモデルを復元できる粒子検出器モデルに対する一般的な定義を書くことができる。 また, 粒子検出器を用いて量子場を精密に探究できる条件を特徴付けることにより, モデルの有効性を推定する手法を提案する。

In this manuscript we provide a consistent way of describing a localized non-relativistic quantum system undergoing a timelike trajectory in a background curved spacetime. Namely, using Fermi normal coordinates, we identify an inner product and canonically conjugate position and momentum operators defined in the rest space of the trajectory for each value of its proper time. This framework then naturally provides a recipe for mapping a quantum theory defined in a non-relativistic background to a theory around a timelike trajectory in curved spacetimes. This is done by reinterpreting the position and momentum operators and by introducing a local redshift factor to the Hamiltonian, which gives rise to new dynamics due to the curvature of spacetime and the acceleration of the trajectory. We then apply our formalism to particle detector models, that is, to the case where the non-relativistic quantum system is coupled to a quantum field in a curved background. This allows one to write a general definition for particle detector models which is able to recover the previous models in the literature. Our framework also allows one to estimate the regime of validity of these models, characterizing the situations where particle detectors can be used to accurately probe quantum fields.
翻訳日:2024-03-08 18:42:57 公開日:2024-03-06
# 音声合成学習の副産物として携帯電話, 音節, 単語が出現するか? --計算による調査

Can phones, syllables, and words emerge as side-products of cross-situational audiovisual learning? -- A computational investigation ( http://arxiv.org/abs/2109.14200v2 )

ライセンス: Link先を確認
Khazar Khorrami, Okko R\"as\"anen(参考訳) 言語学習の幼児は、音声の識別、単語のセグメント化、単語の意味の関連付けを学習する。 このような能力の段階的な発達は疑わしいが、これらのスキルの正確な性質と根底にある精神的表現はまだ不明である。 並行して、計算学的研究により、音声と同時参照的曖昧な視覚入力の間の統計的学習により、音声の基本的理解が達成できることが示されている。 これらのモデルは、言語単位の表現のような事前の言語知識がなく、特にそのような単位をターゲットとした学習メカニズムも持たない。 このことは、音素、音節、単語などの言語単位の知識が、実際に、他のモダリティにおける音声と表現間の翻訳をサポートする潜在表現として出現し、学習者の学習目標に近づかないかどうかという疑問を提起している。 本研究では,この概念をいわゆる潜在言語仮説(llh)として定式化し,言語表現学習と知覚モダリティ内外の一般的な予測処理を結びつける。 LLHのオーディオ視覚的側面が既存の計算研究によって支持されている範囲を概観する。 次に,視聴覚横断学習のための異なるニューラルネットワークモデルを用いた大規模学習シミュレーションを行い,合成音声と実音声データとの学習の比較を行った。 本研究は,言語選択性や時間特性に関連する相補的評価指標を用いて,入力音声の音声的,音韻的,語彙的,語彙的構造を反映しているか否かを検討する。 その結果、表現が関連付けられていることがわかった。

Decades of research has studied how language learning infants learn to discriminate speech sounds, segment words, and associate words with their meanings. While gradual development of such capabilities is unquestionable, the exact nature of these skills and the underlying mental representations yet remains unclear. In parallel, computational studies have shown that basic comprehension of speech can be achieved by statistical learning between speech and concurrent referentially ambiguous visual input. These models can operate without prior linguistic knowledge such as representations of linguistic units, and without learning mechanisms specifically targeted at such units. This has raised the question of to what extent knowledge of linguistic units, such as phone(me)s, syllables, and words, could actually emerge as latent representations supporting the translation between speech and representations in other modalities, and without the units being proximal learning targets for the learner. In this study, we formulate this idea as the so-called latent language hypothesis (LLH), connecting linguistic representation learning to general predictive processing within and across sensory modalities. We review the extent that the audiovisual aspect of LLH is supported by the existing computational studies. We then explore LLH further in extensive learning simulations with different neural network models for audiovisual cross-situational learning, and comparing learning from both synthetic and real speech data. We investigate whether the latent representations learned by the networks reflect phonetic, syllabic, or lexical structure of input speech by utilizing an array of complementary evaluation metrics related to linguistic selectivity and temporal characteristics of the representations. As a result, we find that representations associated...
翻訳日:2024-03-08 18:42:18 公開日:2024-03-06
# Smooth Stochastic Optimizationに対する反省的近似法

A Retrospective Approximation Approach for Smooth Stochastic Optimization ( http://arxiv.org/abs/2103.04392v3 )

ライセンス: Link先を確認
David Newton, Raghu Bollapragada, Raghu Pasupathy, Nung Kwan Yip(参考訳) 確率勾配(Stochastic Gradient, SG)は、確率的最適化(SO)問題を滑らか(非凸)な目標$f$と確率的一階オラクルで解くためのデファクト反復手法である。 SGの魅力は、既存の繰り返しを更新するために、負のサブサンプル勾配方向に沿って単一のステップを実行することの単純さにある。 本稿では,サブサンプル更新間の複数のステップに対して,SGが単一ステップを実行するという選択を疑問視する。 本研究は, sg を回帰近似 (ra) に一般化し, 各反復の間, サブサンプリング決定論的問題に対して複数のステップを実行し, さらなる解法を統計的効率の観点から不要と考えると停止する。 したがって、RAは実装にアピールするものを厳格化します -- 各イテレーションの間、L-BFGSラインサーチやNewton-CGのようなソルバを「プラグイン」し、必要な範囲でのみ解決します。 観測された勾配の相対誤差を主対象とする完全理論を開発し、サンプルサイズが適切な速度で増加すると、RAのほぼ確実かつ$L_1$一貫性が特に弱い条件下で維持されることを示した。 また、RAの繰り返しとオラクルの複雑性(線形および線形の解法)を特徴付けるとともに、最適複雑性率につながる実用的な終了基準を同定する。 非凸 $f$ を仮定するために、一階の臨界点全体の曲率の効果を組み込んだある種の「ランダム中心極限定理」を示し、漸近的挙動が正規の混合によって記述されることを示す。 数値実験から得られたメッセージは、RAが既存の2階決定論的解法を戦略的に組み込む能力は、超パラメータチューニングを伴わない点から重要である。

Stochastic Gradient (SG) is the defacto iterative technique to solve stochastic optimization (SO) problems with a smooth (non-convex) objective $f$ and a stochastic first-order oracle. SG's attractiveness is due in part to its simplicity of executing a single step along the negative subsampled gradient direction to update the incumbent iterate. In this paper, we question SG's choice of executing a single step as opposed to multiple steps between subsample updates. Our investigation leads naturally to generalizing SG into Retrospective Approximation (RA) where, during each iteration, a "deterministic solver" executes possibly multiple steps on a subsampled deterministic problem and stops when further solving is deemed unnecessary from the standpoint of statistical efficiency. RA thus rigorizes what is appealing for implementation -- during each iteration, "plug in" a solver, e.g., L-BFGS line search or Newton-CG, as is, and solve only to the extent necessary. We develop a complete theory using relative error of the observed gradients as the principal object, demonstrating that almost sure and $L_1$ consistency of RA are preserved under especially weak conditions when sample sizes are increased at appropriate rates. We also characterize the iteration and oracle complexity (for linear and sub-linear solvers) of RA, and identify a practical termination criterion leading to optimal complexity rates. To subsume non-convex $f$, we present a certain "random central limit theorem" that incorporates the effect of curvature across all first-order critical points, demonstrating that the asymptotic behavior is described by a certain mixture of normals. The message from our numerical experiments is that the ability of RA to incorporate existing second-order deterministic solvers in a strategic manner might be important from the standpoint of dispensing with hyper-parameter tuning.
翻訳日:2024-03-08 18:41:34 公開日:2024-03-06
# 地域保全法に従うリンドブラディアンの探索と熱化

Searching for Lindbladians obeying local conservation laws and showing thermalization ( http://arxiv.org/abs/2301.02146v2 )

ライセンス: Link先を確認
Devashish Tupkary, Abhishek Dhar, Manas Kulkarni and Archak Purkayastha(参考訳) 熱浴に弱結合した有限次元系を連続的に記述するマルコフ量子マスター方程式(QME)の可能性を検討する。 完全なポジティビティとトレースを保存するためには、そのようなqmeはリンドブラッド形式でなければならない。 物理的一貫性のため、局所保存法を保存し、熱化を示すことができる。 これらの追加基準を満たすリンドブラッド方程式を探索する。 まず、顕微鏡的に導出したブロッホ・レッドフィールド方程式(RE)が極端に特殊な場合を除いて完全な正に反することを示す。 次に、完全正当性と局所保存法保存の要求がリンドブラッド作用素とラムシフトハミルトニアンに「局所的」を強制すること、すなわち、浴場に直接結合されたシステムの一部にのみ支持されることを証明した。 そこで我々は,半定値プログラム(SDP)に熱化を示す「局所的」リンドブラッドQMEを求める問題を提起した。 これを熱化最適化問題(TOP)と呼ぶ。 系のパラメータと温度について、TOPの解は、所望のQMEの種類が与えられた精度で可能であるかどうかを決定的に示す。 可能であれば、そのようなQMEのフォームも出力する。 数量子ビットの XXZ 鎖に対して、適度に高い精度で固定すると、第1量子ビットのみが浴槽に結合された場合、かなり広いパラメータ状態ではそのような QME は不可能である。 注目すべきは、浴槽に最初の2つのキュービットが取り付けられると、このようなQMEが、幅広い温度を含む同じパラマター系の多くで可能になることである。

We investigate the possibility of a Markovian quantum master equation (QME) that consistently describes a finite-dimensional system, a part of which is weakly coupled to a thermal bath. In order to preserve complete positivity and trace, such a QME must be of Lindblad form. For physical consistency, it should additionally preserve local conservation laws and be able to show thermalization. We search of Lindblad equations satisfying these additional criteria. First, we show that the microscopically derived Bloch-Redfield equation (RE) violates complete positivity unless in extremely special cases. We then prove that imposing complete positivity and demanding preservation of local conservation laws enforces the Lindblad operators and the lamb-shift Hamiltonian to be `local', i.e, to be supported only on the part of the system directly coupled to the bath. We then cast the problem of finding `local' Lindblad QME which can show thermalization into a semidefinite program (SDP). We call this the thermalization optimization problem (TOP). For given system parameters and temperature, the solution of the TOP conclusively shows whether the desired type of QME is possible up to a given precision. Whenever possible, it also outputs a form for such a QME. For a XXZ chain of few qubits, fixing a reasonably high precision, we find that such a QME is impossible over a considerably wide parameter regime when only the first qubit is coupled to the bath. Remarkably, we find that when the first two qubits are attached to the bath, such a QME becomes possible over much of the same paramater regime, including a wide range of temperatures.
翻訳日:2024-03-08 18:37:30 公開日:2024-03-06
# 対話型質問回答システム:文献レビュー

Interactive Question Answering Systems: Literature Review ( http://arxiv.org/abs/2209.01621v2 )

ライセンス: Link先を確認
Giovanni Maria Biancofiore, Yashar Deldjoo, Tommaso Di Noia, Eugenio Di Sciascio, Fedelucio Narducci(参考訳) 質問応答システムは,Web上の情報検索において,人気かつ頻繁な効果的な手段として認識されている。 このようなシステムでは,質問を自然言語で提示することで,質問に対する簡潔な応答を得られる。 対話型質問応答(interactive question answering)は、最近提案され、ますます普及しているソリューションであり、質問応答と対話システムの交差点に位置する。 一方、ユーザは通常の言語で質問をし、質問に対する実際の応答を見つけることができ、一方、最初の要求に複数の応答、非常に少ない応答、曖昧さがある場合、システムは質問応答セッションを対話に長引かせることができる。 ユーザがより多くの質問を行えるようにすることで、インタラクティブな質問応答により、ユーザーは動的にシステムと対話し、より正確な結果を受け取ることができる。 本調査は,現在の文献で広く普及している対話型質問応答法の概要を概説する。 質問応答システムの基本的な原則を説明することから始まり、統一されたフレームワーク内で識別されたすべての作品を結合するための新しい表記法と分類法を定義する。 次に,対話型質問応答システムに関するレビュー論文を提示し,提案手法,評価手法,データセット/アプリケーション領域の観点から検討した。 また,コミュニティが生み出す課題や課題に関するトレンドについて述べることで,研究者の今後の関心を浮き彫りにする。 私たちの作業は、この文献研究で取り上げられた主要なトピックをすべて合成したGitHubページによってさらにサポートされています。 https://sisinflab.github.io/interactive-question-answering-systems-survey/

Question answering systems are recognized as popular and frequently effective means of information seeking on the web. In such systems, information seekers can receive a concise response to their query by presenting their questions in natural language. Interactive question answering is a recently proposed and increasingly popular solution that resides at the intersection of question answering and dialogue systems. On the one hand, the user can ask questions in normal language and locate the actual response to her inquiry; on the other hand, the system can prolong the question-answering session into a dialogue if there are multiple probable replies, very few, or ambiguities in the initial request. By permitting the user to ask more questions, interactive question answering enables users to dynamically interact with the system and receive more precise results. This survey offers a detailed overview of the interactive question-answering methods that are prevalent in current literature. It begins by explaining the foundational principles of question-answering systems, hence defining new notations and taxonomies to combine all identified works inside a unified framework. The reviewed published work on interactive question-answering systems is then presented and examined in terms of its proposed methodology, evaluation approaches, and dataset/application domain. We also describe trends surrounding specific tasks and issues raised by the community, so shedding light on the future interests of scholars. Our work is further supported by a GitHub page with a synthesis of all the major topics covered in this literature study. https://sisinflab.github.io/interactive-question-answering-systems-survey/
翻訳日:2024-03-08 18:34:12 公開日:2024-03-06
# DOCTOR:ウェアラブル・メディカル・センサを用いたマルチ障害検出連続学習フレームワーク

DOCTOR: A Multi-Disease Detection Continual Learning Framework Based on Wearable Medical Sensors ( http://arxiv.org/abs/2305.05738v4 )

ライセンス: Link先を確認
Chia-Hao Li and Niraj K. Jha(参考訳) エッジデバイスにおける機械学習(ML)とウェアラブル医療センサ(WMS)の最近の進歩により、スマートヘルスケアのためのML駆動型疾患検出が可能になった。 従来のML駆動型疾患検出法は、各疾患の個々のモデルとその対応するWMSデータのカスタマイズに依存している。 しかし、このような方法は分散シフトや新しいタスク分類クラスへの適応性に欠ける。 さらに、新しい疾患ごとに再設計し、スクラッチから再訓練する必要がある。 さらに、エッジデバイスに複数のMLモデルをインストールすると、過剰なメモリを消費し、バッテリのドレインが速くなり、検出プロセスが複雑になる。 これらの課題に対処するために,WMSに基づく多相検出連続学習(CL)フレームワークであるDOCTORを提案する。 マルチヘッドディープニューラルネットワーク(DNN)とリプレイスタイルのCLアルゴリズムを採用している。 clアルゴリズムは、異なるデータ分布、分類クラス、病気検出タスクが順次導入される新しいミッションを継続的に学習することを可能にする。 データ保存方法と合成データ生成(SDG)モジュールとで破滅的な忘れを対処する。 データ保存方法は、exemplar replayの以前のミッションから得られた、実トレーニングデータの最も有益なサブセットを保存する。 sdgモジュールは、実際のトレーニングデータの確率分布をモデル化し、データプライバシを保持しながら生成再生のための合成データを生成する。 マルチヘッドDNNにより、DOCTORはユーザWMSデータに基づいて複数の疾患を同時に検出できる。 様々なcl実験において,単一のdnnモデルを用いて高い疾患分類精度を維持するための医師の有効性を示す。 複雑なシナリオでは、DOCTORは平均的なテスト精度の1.43倍、F1スコアの1.25倍、および350KB未満の小さなモデルサイズを持つ単純な微調整フレームワークよりも0.41高い後方転送を実現する。

Modern advances in machine learning (ML) and wearable medical sensors (WMSs) in edge devices have enabled ML-driven disease detection for smart healthcare. Conventional ML-driven methods for disease detection rely on customizing individual models for each disease and its corresponding WMS data. However, such methods lack adaptability to distribution shifts and new task classification classes. In addition, they need to be rearchitected and retrained from scratch for each new disease. Moreover, installing multiple ML models in an edge device consumes excessive memory, drains the battery faster, and complicates the detection process. To address these challenges, we propose DOCTOR, a multi-disease detection continual learning (CL) framework based on WMSs. It employs a multi-headed deep neural network (DNN) and a replay-style CL algorithm. The CL algorithm enables the framework to continually learn new missions where different data distributions, classification classes, and disease detection tasks are introduced sequentially. It counteracts catastrophic forgetting with a data preservation method and a synthetic data generation (SDG) module. The data preservation method preserves the most informative subset of real training data from previous missions for exemplar replay. The SDG module models the probability distribution of the real training data and generates synthetic data for generative replay while retaining data privacy. The multi-headed DNN enables DOCTOR to detect multiple diseases simultaneously based on user WMS data. We demonstrate DOCTOR's efficacy in maintaining high disease classification accuracy with a single DNN model in various CL experiments. In complex scenarios, DOCTOR achieves 1.43 times better average test accuracy, 1.25 times better F1-score, and 0.41 higher backward transfer than the naive fine-tuning framework with a small model size of less than 350KB.
翻訳日:2024-03-08 18:29:44 公開日:2024-03-06
# 胸部X線による疾患検出のためのコンテンツ認識型不変モデルによる未確認領域への一般化の学習

Learning to Generalize towards Unseen Domains via a Content-Aware Style Invariant Model for Disease Detection from Chest X-rays ( http://arxiv.org/abs/2302.13991v6 )

ライセンス: Link先を確認
Mohammad Zunaed, Md. Aynal Haque, Taufiq Hasan(参考訳) 分布の不一致による性能低下は、知的イメージング、特に胸部x線(cxr)における長年の課題である。 近年の研究では、cnnは人間の視覚システムとは対照的に、内容(例えば形状)よりもスタイル(例えば、非形成テクスチャ)に偏っていることが示されている。 放射線学者は、CXRから視覚的手がかりを学び、複数の領域でよく機能する傾向にある。 そこで我々は、画像(SRM-IL)と特徴(SRM-FL)の両方において、新しいオンザフライスタイルのランダム化モジュールを使用し、リッチなスタイルの摂動機能を作成しながら、コンテンツが堅牢なクロスドメインパフォーマンスを維持する。 従来の方法は、補間や既存のデータからのスタイル交換を通じて新しいスタイルを構築し、トレーニング中に利用可能なソースドメインに制限することで、目に見えないドメインをシミュレートする。 しかし、SRM-ILはトレーニングデータの代わりに、CXR画像の可能な値範囲からスタイル統計をサンプリングし、より多様化された拡張を実現する。 さらに,srm-flにおけるピクセル単位の学習可能なパラメータと,予め定義されたチャネル単位の平均と標準偏差を,より代表的なスタイル特徴をキャプチャするスタイル埋め込みとして利用する。 さらに,同一のcxrのスタイル摂動バージョンの有無によるグローバル意味的特徴と予測分布の一貫性を定式化し,正確な予測のためにコンテンツマーカーに対するモデルの感度を微調整する。 提案手法はCheXpertおよびMIMIC-CXRデータセットに基づいて, 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%)を未確認領域試験データセット(BRAX, VinDr-CXR, NIH chest X-ray14)上で達成し, それぞれ75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19を, 胸腺疾患分類における統計的に有意な結果を得た5次クロスバリデーションモデルから得られた。

Performance degradation due to distribution discrepancy is a longstanding challenge in intelligent imaging, particularly for chest X-rays (CXRs). Recent studies have demonstrated that CNNs are biased toward styles (e.g., uninformative textures) rather than content (e.g., shape), in stark contrast to the human vision system. Radiologists tend to learn visual cues from CXRs and thus perform well across multiple domains. Motivated by this, we employ the novel on-the-fly style randomization modules at both image (SRM-IL) and feature (SRM-FL) levels to create rich style perturbed features while keeping the content intact for robust cross-domain performance. Previous methods simulate unseen domains by constructing new styles via interpolation or swapping styles from existing data, limiting them to available source domains during training. However, SRM-IL samples the style statistics from the possible value range of a CXR image instead of the training data to achieve more diversified augmentations. Moreover, we utilize pixel-wise learnable parameters in the SRM-FL compared to pre-defined channel-wise mean and standard deviations as style embeddings for capturing more representative style features. Additionally, we leverage consistency regularizations on global semantic features and predictive distributions from with and without style-perturbed versions of the same CXR to tweak the model's sensitivity toward content markers for accurate predictions. Our proposed method, trained on CheXpert and MIMIC-CXR datasets, achieves 77.32$\pm$0.35, 88.38$\pm$0.19, 82.63$\pm$0.13 AUCs(%) on the unseen domain test datasets, i.e., BRAX, VinDr-CXR, and NIH chest X-ray14, respectively, compared to 75.56$\pm$0.80, 87.57$\pm$0.46, 82.07$\pm$0.19 from state-of-the-art models on five-fold cross-validation with statistically significant results in thoracic disease classification.
翻訳日:2024-03-08 18:25:03 公開日:2024-03-06
# GPUによる直接ストレージアクセスによるGNNフレームワークのサンプリングと集約操作の高速化

Accelerating Sampling and Aggregation Operations in GNN Frameworks with GPU Initiated Direct Storage Accesses ( http://arxiv.org/abs/2306.16384v2 )

ライセンス: Link先を確認
Jeongmin Brian Park and Vikram Sharma Mailthody and Zaid Qureshi and Wen-mei Hwu(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データから学び、さまざまなアプリケーションドメインで高度な推論タスクを実行するための強力なツールとして登場している。 GNNは、控えめなグラフで有効であることが示されているが、効率的なデータアクセスとデータ移動方法がないため、大規模グラフでそれらを訓練することは大きな課題である。 既存のGNNトレーニングフレームワークでは、グラフサンプリングと機能集約にCPUを使用し、GPU上でモデルの重み付けのトレーニングと更新が実行される。 しかし、我々の詳細なプロファイリングは、CPUがGNNモデルのトレーニングスループットを飽和させるのに必要なスループットを達成できないことを示している。 さらに、グラフとその埋め込みがCPUメモリに収まらない場合、オペレーティングシステムによって導入されたオーバーヘッド、例えばページフォールトを扱うことは、実行の重要な経路となる。 これらの問題に対処するために、GPU Initiated Direct Storage Access (GIDS) データローダを提案し、CPUメモリ、ストレージ、GPUメモリなどのハードウェアリソースをハイブリッドデータ配置戦略で効率的に活用しながら、大規模グラフに対するGPU指向のGNNトレーニングを可能にする。 GPUスレッドがストレージから直接特徴ベクトルをフェッチできるようにすることで、GIDSデータローダはGPU指向のGNNトレーニングのメモリ容量問題を解決する。 さらに、GIDSデータローダはGPU並列性を利用してストレージ遅延を許容し、高価なページフォールトオーバーヘッドを排除している。 これにより、局所性を活かし、GNNトレーニングに有効な帯域幅を増やすための新しい最適化を設計できる。 テラバイト規模のGNNデータセット上の1つのGPUを用いて評価したところ、GIDSデータローダは、現在最先端のDGLデータローダと比較して、DGL GNNトレーニングパイプライン全体を最大392倍高速化することがわかった。

Graph Neural Networks (GNNs) are emerging as a powerful tool for learning from graph-structured data and performing sophisticated inference tasks in various application domains. Although GNNs have been shown to be effective on modest-sized graphs, training them on large-scale graphs remains a significant challenge due to lack of efficient data access and data movement methods. Existing frameworks for training GNNs use CPUs for graph sampling and feature aggregation, while the training and updating of model weights are executed on GPUs. However, our in-depth profiling shows the CPUs cannot achieve the throughput required to saturate GNN model training throughput, causing gross under-utilization of expensive GPU resources. Furthermore, when the graph and its embeddings do not fit in the CPU memory, the overhead introduced by the operating system, say for handling page-faults, comes in the critical path of execution. To address these issues, we propose the GPU Initiated Direct Storage Access (GIDS) dataloader, to enable GPU-oriented GNN training for large-scale graphs while efficiently utilizing all hardware resources, such as CPU memory, storage, and GPU memory with a hybrid data placement strategy. By enabling GPU threads to fetch feature vectors directly from storage, GIDS dataloader solves the memory capacity problem for GPU-oriented GNN training. Moreover, GIDS dataloader leverages GPU parallelism to tolerate storage latency and eliminates expensive page-fault overhead. Doing so enables us to design novel optimizations for exploiting locality and increasing effective bandwidth for GNN training. Our evaluation using a single GPU on terabyte-scale GNN datasets shows that GIDS dataloader accelerates the overall DGL GNN training pipeline by up to 392X when compared to the current, state-of-the-art DGL dataloader.
翻訳日:2024-03-08 18:20:22 公開日:2024-03-06
# 強化学習に基づく編集による安全批判シナリオ生成

Safety-Critical Scenario Generation Via Reinforcement Learning Based Editing ( http://arxiv.org/abs/2306.14131v3 )

ライセンス: Link先を確認
Haolan Liu, Liangjun Zhang, Siva Kumar Sastry Hari, Jishen Zhao(参考訳) 安全クリティカルシナリオの生成は、自動運転車の安全性のテストと検証に不可欠である。 従来の最適化手法は次元の呪いに苦しめられ、探索空間を固定パラメータ空間に制限する。 これらの課題に対処するため,我々は,新しいエージェントの追加や既存エージェントのトラジェクタの変更など,逐次編集によってシナリオを生成する深層強化学習手法を提案する。 我々のフレームワークはリスクと可能性の両方の目的からなる報酬機能を採用している。 妥当性の目標は、変分オートエンコーダのような生成モデルを利用して、トレーニングデータセットから生成されたパラメータの可能性を学習する。 われわれのアプローチは次元的課題を克服し、幅広い安全クリティカルシナリオを探求する。 提案手法は, 従来手法と比較して, 品質の高い安全クリティカルなシナリオを生成することを示す。

Generating safety-critical scenarios is essential for testing and verifying the safety of autonomous vehicles. Traditional optimization techniques suffer from the curse of dimensionality and limit the search space to fixed parameter spaces. To address these challenges, we propose a deep reinforcement learning approach that generates scenarios by sequential editing, such as adding new agents or modifying the trajectories of the existing agents. Our framework employs a reward function consisting of both risk and plausibility objectives. The plausibility objective leverages generative models, such as a variational autoencoder, to learn the likelihood of the generated parameters from the training datasets; It penalizes the generation of unlikely scenarios. Our approach overcomes the dimensionality challenge and explores a wide range of safety-critical scenarios. Our evaluation demonstrates that the proposed method generates safety-critical scenarios of higher quality compared with previous approaches.
翻訳日:2024-03-08 18:19:12 公開日:2024-03-06
# EquiformerV2:高階表現へのスケーリングのための改良された同変変換器

EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations ( http://arxiv.org/abs/2306.12059v3 )

ライセンス: Link先を確認
Yi-Lun Liao, Brandon Wood, Abhishek Das, Tess Smidt(参考訳) Equiformerのような同変変換器は、3次元原子論系の領域に変換器を適用する効果を実証している。 しかし、それらは計算複雑性のため、小さな等変表現に限られる。 本稿では,これらのアーキテクチャが高次にスケールできるかどうかを考察する。 Equiformerから始めて、まず$SO(3)$畳み込みをeSCN畳み込みに置き換え、高次テンソルを効率的に組み込む。 次に,より高次なパワーをうまく活用するために,注意再正規化,分離可能な$s^2$アクティベーション,分離可能なレイヤ正規化という3つのアーキテクチャ上の改善を提案する。 これらをまとめると、EquiformerV2は、大規模OC20データセットの従来の最先端手法を最大9.5%の力で上回り、エネルギーは4.5%のエネルギーで、より高速なトレードオフを提供し、吸着エネルギーの計算に要するDFT計算を2.99ドル削減する。 さらに、OC22データセットのみをトレーニングしたEquiformerV2は、OC20データセットとOC22データセットの両方でトレーニングされたGemNet-OCを上回っ、データ効率が大幅に向上した。 最後に、EquiformerV2とQM9上のEquiformerとOC20 S2EF-2Mデータセットを比較し、より高い学位によるパフォーマンス向上をよりよく理解する。

Equivariant Transformers such as Equiformer have demonstrated the efficacy of applying Transformers to the domain of 3D atomistic systems. However, they are limited to small degrees of equivariant representations due to their computational complexity. In this paper, we investigate whether these architectures can scale well to higher degrees. Starting from Equiformer, we first replace $SO(3)$ convolutions with eSCN convolutions to efficiently incorporate higher-degree tensors. Then, to better leverage the power of higher degrees, we propose three architectural improvements -- attention re-normalization, separable $S^2$ activation and separable layer normalization. Putting this all together, we propose EquiformerV2, which outperforms previous state-of-the-art methods on large-scale OC20 dataset by up to $9\%$ on forces, $4\%$ on energies, offers better speed-accuracy trade-offs, and $2\times$ reduction in DFT calculations needed for computing adsorption energies. Additionally, EquiformerV2 trained on only OC22 dataset outperforms GemNet-OC trained on both OC20 and OC22 datasets, achieving much better data efficiency. Finally, we compare EquiformerV2 with Equiformer on QM9 and OC20 S2EF-2M datasets to better understand the performance gain brought by higher degrees.
翻訳日:2024-03-08 18:18:39 公開日:2024-03-06
# 量子多体検出確率における相互作用誘起遷移

Interaction-induced transition in quantum many-body detection probability ( http://arxiv.org/abs/2306.01586v2 )

ライセンス: Link先を確認
Archak Purkayastha, Alberto Imparato(参考訳) ディジタルおよびアナログ量子シミュレーション実験の出現により、量子多体格子系の力学を実験的にシミュレートし、サイト分解測定を行うことができるようになった。 これらの実験は、量子多体格子系の力学をシミュレーションしながら、複数の検出器を様々な場所に配置する際、特定の測定結果を得る確率を「シグナル」と呼ぶ。 そこで本研究では,量子多体検出確率 (qmbdp) という概念を導入して,この問題を定式化し,検討する。 いくつかのハミルトンパラメータをチューニングすると、QMBDP $\approx 1$のレジームから、QMBDP $\approx 0$のレジームへの急激な遷移が存在することを示す。 最も顕著な点として、そのような遷移の影響は単一の軌道レベルで観測できる。 これは測定誘起遷移ではなく、多体スペクトルの特定のタイプのギャップの開口を反映する非平衡遷移である。 我々は、多体相互作用の強さを変えることがそのような遷移をもたらす単一不純物非可積分モデルでこれを実証する。 以上の結果から, 期待値の測定に代えて, 単発ストロボ計測が非平衡遷移の観測に有効であることが示唆された。

With the advent of digital and analog quantum simulation experiments, it is now possible to experimentally simulate dynamics of quantum many-body lattice systems and make site-resolved measurements. These experiments make it pertinent to consider the probability of getting any specific measurement outcome, which we call the `signal', on placing multiple detectors at various sites while simulating dynamics of a quantum many-body lattice system. In this work, we formulate and investigate this problem, introducing the concept of quantum many-body detection probability (QMBDP), which refers to the probability of detecting a chosen signal at least once in a given time. We show that, on tuning some Hamiltonian parameters, there can be sharp transition from a regime where QMBDP $\approx 1$, to a regime, where QMBDP $\approx 0$. Most notably, the effects of such a transition can be observed at a single trajectory level. This is not a measurement-induced transition, but rather a non-equilibrium transition reflecting opening of a specific type of gap in the many-body spectrum. We demonstrate this in a single-impurity non-integrable model, where changing the many-body interaction strength brings about such a transition. Our findings suggest that instead of measuring expectation values, single-shot stroboscopic measurements could be used to observe non-equilibrium transitions.
翻訳日:2024-03-08 18:16:25 公開日:2024-03-06
# 原子-原子相関から自由エネルギーと分配関数を測定する方法

How to measure the free energy and partition function from atom-atom correlations ( http://arxiv.org/abs/2309.02595v2 )

ライセンス: Link先を確認
Matthew L. Kerr and Karen V. Kheruntsyan(参考訳) 短距離相互作用を持つ超低温原子気体の熱力学特性を実験的に決定する手法を提案する。 テストケースとして,積分可能なリーブ・リンガーモデルによって記述された1次元ボース気体に着目した。 提案手法はヘルマン・ファインマンの定理の有限温度版を逆転させることにより局所原子相関の測定から直接ヘルムホルツあるいはランダウ自由エネルギーを導出することに依存する。 理論的には1次元ボース気体の特定の漸近状態における自由エネルギーの近似解析式を導出し、この積分可能なモデルで利用可能な熱力学Betheアンザッツに基づく正確な結果と良好な一致を見出した。

We propose an experimental approach for determining thermodynamic properties of ultracold atomic gases with short-range interactions. As a test case, we focus on the one-dimensional (1D) Bose gas described by the integrable Lieb-Liniger model. The proposed approach relies on deducing the Helmholtz or Landau free energy directly from measurements of local atom-atom correlations by utilising the inversion of a finite-temperature version of the Hellmann-Feynman theorem. We demonstrate this approach theoretically by deriving approximate analytic expressions for the free energies in specific asymptotic regimes of the 1D Bose gas and find excellent agreement with the exact results based on the thermodynamic Bethe ansatz available for this integrable model.
翻訳日:2024-03-08 18:09:41 公開日:2024-03-06
# 病理組織学における正規化のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Networks for Stain Normalisation in Histopathology ( http://arxiv.org/abs/2308.02851v2 )

ライセンス: Link先を確認
Jack Breen, Kieran Zucker, Katie Allen, Nishant Ravikumar, Nicolas M. Orsi(参考訳) 近年のデジタル病理の急速な発展は、臨床診断の精度と効率を改善するために人工知能ベースのツールを開発する理想的な機会となった。 現在の研究における重要な障害の1つは、デジタル病理画像全体にわたる高レベルの視覚変動であり、モデルが目に見えないデータの一般化を損なう原因となっている。 Stain normalizationは、画像の構造的内容を変更することなく、デジタル病理画像の視覚的プロファイルを標準化することを目的としている。 本章では,GAN(Generative Adversarial Network)を利用したアプローチを中心に,デジタル病理学における染色正規化に使用されるさまざまな手法について検討する。 典型的には、GANベースの手法は非生成的アプローチよりも優れているが、より大きな計算要求のためにコストがかかる。 しかし、GANと非GANは異なるシナリオと異なるパフォーマンス指標で互いに優れており、どの手法が一般的な染色正規化に最適かは明らかではない。 これは現在進行中の研究分野であり、研究者は病理画像を効率的かつ効果的に正規化し、aiモデルをより堅牢かつ汎用的にするための方法の特定を目指している。

The rapid growth of digital pathology in recent years has provided an ideal opportunity for the development of artificial intelligence-based tools to improve the accuracy and efficiency of clinical diagnoses. One of the significant roadblocks to current research is the high level of visual variability across digital pathology images, causing models to generalise poorly to unseen data. Stain normalisation aims to standardise the visual profile of digital pathology images without changing the structural content of the images. In this chapter, we explore different techniques which have been used for stain normalisation in digital pathology, with a focus on approaches which utilise generative adversarial networks (GANs). Typically, GAN-based methods outperform non-generative approaches but at the cost of much greater computational requirements. However, it is not clear which method is best for stain normalisation in general, with different GAN and non-GAN approaches outperforming each other in different scenarios and according to different performance metrics. This is an ongoing field of study as researchers aim to identify a method which efficiently and effectively normalises pathology images to make AI models more robust and generalisable.
翻訳日:2024-03-08 18:06:00 公開日:2024-03-06
# 技術相互依存の新しいマッピング

A new mapping of technological interdependence ( http://arxiv.org/abs/2308.00014v2 )

ライセンス: Link先を確認
A. Fronzetti Colladon, B. Guardabascio, F. Venturini(参考訳) 技術相互依存はセクターの革新能力にどのように影響しますか? 本稿では,知識相互依存(知識の流出と技術的相補性)と構造相互依存(ネットワーク間リンク)について考察する。 1976年から2021年にかけて、米国特許商標庁(uspto)が認可した650万件の特許の文書に、テキストマイニングとネットワーク分析の新しい方法を適用して、これら2次元の技術相互依存について検討する。 両次元がセクターイノベーションに肯定的な影響を与えることを示す。 知識相互依存の影響は長期的にはやや大きいが、ネットワーク結合(構造的相互依存)に影響を与える正のショックは、比較的短期間でイノベーションのパフォーマンスにさらに持続的な影響をもたらす。 私たちの分析では、特許テキストには、特許引用のような従来のイノベーション指標によって捉えられていない豊富な情報が含まれていることも強調しています。

How does technological interdependence affect a sector's ability to innovate? This paper answers this question by looking at knowledge interdependence (knowledge spillovers and technological complementarities) and structural interdependence (intersectoral network linkages). We examine these two dimensions of technological interdependence by applying novel methods of text mining and network analysis to the documents of 6.5 million patents granted by the United States Patent and Trademark Office (USPTO) between 1976 and 2021. We show that both dimensions positively affect sector innovation. While the impact of knowledge interdependence is slightly larger in the long-term horizon, positive shocks affecting the network linkages (structural interdependence) produce greater and more enduring effects on innovation performance in a relatively short run. Our analysis also highlights that patent text contains a wealth of information often not captured by traditional innovation metrics, such as patent citations.
翻訳日:2024-03-08 18:05:42 公開日:2024-03-06
# 言語モデル蒸留による事実検証のための教師なし事前訓練

Unsupervised Pretraining for Fact Verification by Language Model Distillation ( http://arxiv.org/abs/2309.16540v3 )

ライセンス: Link先を確認
Adri\'an Bazaga and Pietro Li\`o and Gos Micklem(参考訳) 事実検証は、信頼できる知識ベースからの証拠を用いてクレームを検証することを目的としている。 この課題に対処するために、アルゴリズムは、意味的に意味があり、ソース情報とセマンティックアライメントを見つけるのに十分コンパクトであるすべての要求に対して、機能を生成する必要がある。 注釈付きコーパスとそのラベルを学習してアライメント問題に取り組む従来の研究とは対照的に,事前学習した言語モデルを利用して,アノテーションを必要とせずに自己管理機能を高品質なクレームファクトアライメントに分解する,新たな教師なし事前学習フレームワークであるSFAVEL(Self-supervised Fact Verification via Language Model Distillation)を提案する。 これは、コーパス間の意味的関係を維持しながら、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しいコントラスト損失関数によって実現される。 特にFB15k-237(+5.3% Hits@1)とFEVER(+8%精度)を線形評価で新たな最先端化を実現した。

Fact verification aims to verify a claim using evidence from a trustworthy knowledge base. To address this challenge, algorithms must produce features for every claim that are both semantically meaningful, and compact enough to find a semantic alignment with the source information. In contrast to previous work, which tackled the alignment problem by learning over annotated corpora of claims and their corresponding labels, we propose SFAVEL (Self-supervised Fact Verification via Language Model Distillation), a novel unsupervised pretraining framework that leverages pre-trained language models to distil self-supervised features into high-quality claim-fact alignments without the need for annotations. This is enabled by a novel contrastive loss function that encourages features to attain high-quality claim and evidence alignments whilst preserving the semantic relationships across the corpora. Notably, we present results that achieve a new state-of-the-art on FB15k-237 (+5.3% Hits@1) and FEVER (+8% accuracy) with linear evaluation.
翻訳日:2024-03-08 17:58:12 公開日:2024-03-06
# 低リソース言語のための手続き型言語理解のベンチマーク:トルコ語を事例として

Benchmarking Procedural Language Understanding for Low-Resource Languages: A Case Study on Turkish ( http://arxiv.org/abs/2309.06698v2 )

ライセンス: Link先を確認
Arda Uzunoglu and G\"ozde G\"ul \c{S}ahin(参考訳) 手続き型自然言語(例えばステップバイステップ命令)を理解することは、実行と計画にとって重要なステップである。 しかし、英語で利用可能なコーパスや下流タスクは多いが、ほとんどの言語にはそのようなリソースが欠けている。 このギャップに対処するため、トルコの手続き文について事例研究を行う。 まず、トルコ語wikiのチュートリアルの数を2000から52,000に拡張します。翻訳の質と本来の意味への忠誠は、ランダムなセットの専門家チームによって検証されます。 次に、アクションのリンク、ゴール推論、要約など、コーパス上のいくつかのダウンストリームタスクを生成します。 これらの課題に対処するために,TR-BARTやBERTurkといった大規模言語特化モデルや,mBART,mT5,XLMといった多言語モデルを用いて,強力なベースラインモデルを実装した。 言語固有のモデルは、ほとんどの手続き的言語理解(PLU)タスクにおいて、その多言語モデルよりもはるかに優れています。 私たちはコーパス、ダウンストリームタスク、ベースラインモデルをhttps://github.com/gglab-ku/turkish-pluでリリースします。

Understanding procedural natural language (e.g., step-by-step instructions) is a crucial step to execution and planning. However, while there are ample corpora and downstream tasks available in English, the field lacks such resources for most languages. To address this gap, we conduct a case study on Turkish procedural texts. We first expand the number of tutorials in Turkish wikiHow from 2,000 to 52,000 using automated translation tools, where the translation quality and loyalty to the original meaning are validated by a team of experts on a random set. Then, we generate several downstream tasks on the corpus, such as linking actions, goal inference, and summarization. To tackle these tasks, we implement strong baseline models via fine-tuning large language-specific models such as TR-BART and BERTurk, as well as multilingual models such as mBART, mT5, and XLM. We find that language-specific models consistently outperform their multilingual models by a significant margin across most procedural language understanding (PLU) tasks. We release our corpus, downstream tasks and the baseline models with https://github.com/ GGLAB-KU/turkish-plu.
翻訳日:2024-03-08 17:56:19 公開日:2024-03-06
# 言語モデルによる記述はコンテンツの多様性を減少させるか?

Does Writing with Language Models Reduce Content Diversity? ( http://arxiv.org/abs/2309.05196v2 )

ライセンス: Link先を確認
Vishakh Padmakumar, He He(参考訳) 大規模言語モデル(llm)は、モデル支援による共同執筆の急増につながった。 異なるユーザーが同じモデルからの提案を取り入れているため、コンテンツの多様性が低下するリスクがあり、公の会話における多様な視点を制限する可能性がある。 そこで,本研究では,ベースllm(gpt3),フィードバック調整されたllm(instructgpt),モデルヘルプのない書き込みという,3つの設定で議論的なエッセイを書いている。 多様性指標のセットを開発し,InstructGPTによる記述は(GPT3ではなく)統計的に有意な多様性低下をもたらすことを示した。 具体的には、異なる著者の著作物間の類似性を高め、全体的な語彙や内容の多様性を減らす。 また、この効果は、主にインストラクションGPTが共著エッセイに多様でないテキストに寄与することに起因する。 対照的に、ユーザ貢献型テキストはモデルコラボレーションの影響を受けないままである。 これは、モデル適応から人間のフィードバックへの世代品質の改善が、より均質でより多様なコンテンツのコストを伴っていることを示唆している。

Large language models (LLMs) have led to a surge in collaborative writing with model assistance. As different users incorporate suggestions from the same model, there is a risk of decreased diversity in the produced content, potentially limiting diverse perspectives in public discourse. In this work, we measure the impact of co-writing on diversity via a controlled experiment, where users write argumentative essays in three setups -- using a base LLM (GPT3), a feedback-tuned LLM (InstructGPT), and writing without model help. We develop a set of diversity metrics and find that writing with InstructGPT (but not the GPT3) results in a statistically significant reduction in diversity. Specifically, it increases the similarity between the writings of different authors and reduces the overall lexical and content diversity. We additionally find that this effect is mainly attributable to InstructGPT contributing less diverse text to co-written essays. In contrast, the user-contributed text remains unaffected by model collaboration. This suggests that the recent improvement in generation quality from adapting models to human feedback might come at the cost of more homogeneous and less diverse content.
翻訳日:2024-03-08 17:54:56 公開日:2024-03-06
# ptychodv : 画像再構成のための視覚トランスフォーマーベースのディープアンロールネットワーク

PtychoDV: Vision Transformer-Based Deep Unrolling Network for Ptychographic Image Reconstruction ( http://arxiv.org/abs/2310.07504v2 )

ライセンス: Link先を確認
Weijie Gan, Qiuchen Zhai, Michael Thompson McCann, Cristina Garcia Cardona, Ulugbek S. Kamilov, Brendt Wohlberg(参考訳) ptychographyは、複数の重なり合うサンプルのスナップショットを撮像するイメージング技術で、移動する局所プローブによってコヒーレントに照らされる。 ptychographicデータからの画像復元は, 測定された回折パターンから得られた非線形位相検索問題を解く反復アルゴリズムによって一般的に実現される。 しかし、これらの反復的アプローチは計算コストが高い。 本稿では,効率良く高品質なptychography画像再構成を目的とした,新しい深層モデルベースネットワークであるptychodvを提案する。 PtychoDVは、それらの相互相関を考慮して、原測定セットから初期画像を生成する視覚変換器を備える。 この後、学習可能な畳み込み前処理とptychography計測モデルを用いて初期画像を洗練するディープアンロールネットワークが続く。 シミュレーションデータによる実験結果から,PtychoDVは既存のディープラーニング手法よりも優れており,競争性能を維持しつつ,反復手法と比較して計算コストを大幅に削減できることが示された。

Ptychography is an imaging technique that captures multiple overlapping snapshots of a sample, illuminated coherently by a moving localized probe. The image recovery from ptychographic data is generally achieved via an iterative algorithm that solves a nonlinear phase retrieval problem derived from measured diffraction patterns. However, these iterative approaches have high computational cost. In this paper, we introduce PtychoDV, a novel deep model-based network designed for efficient, high-quality ptychographic image reconstruction. PtychoDV comprises a vision transformer that generates an initial image from the set of raw measurements, taking into consideration their mutual correlations. This is followed by a deep unrolling network that refines the initial image using learnable convolutional priors and the ptychography measurement model. Experimental results on simulated data demonstrate that PtychoDV is capable of outperforming existing deep learning methods for this problem, and significantly reduces computational cost compared to iterative methodologies, while maintaining competitive performance.
翻訳日:2024-03-08 17:47:14 公開日:2024-03-06
# 層セグメンテーションのための拡散確率モデルによる網膜OCT合成

Retinal OCT Synthesis with Denoising Diffusion Probabilistic Models for Layer Segmentation ( http://arxiv.org/abs/2311.05479v2 )

ライセンス: Link先を確認
Yuli Wu, Weidong He, Dennis Eschweiler, Ningxin Dou, Zixin Fan, Shengli Mi, Peter Walter, Johannes Stegmaier(参考訳) ディープラーニングを用いた現代の生物医学的画像解析は、しばしば限定的な注釈付きデータの課題に遭遇する。 この問題を克服するために、現実的なバイオメディカル画像の合成に深層生成モデルを用いることができる。 本研究では拡散確率モデル(ddpms)を用いて網膜光コヒーレンス断層撮影(oct)を自動的に生成する画像合成法を提案する。 粗い層スケッチを提供することで、訓練されたDDPMは現実的な乳頭周囲CT画像を生成することができる。 さらに、より正確な擬似ラベルを知識適応によって得ることができ、セグメンテーションタスクに大きなメリットがある。 これにより,階層分割精度が一貫した改善が観察され,様々なニューラルネットワークを用いて検証される。 さらに,合成画像のみを訓練した層分割モデルが,実画像のみを訓練したモデルと同等の結果が得られることを見出した。 これらの結果から,網膜CT画像の手動アノテーションの必要性が軽減される可能性が示唆された。

Modern biomedical image analysis using deep learning often encounters the challenge of limited annotated data. To overcome this issue, deep generative models can be employed to synthesize realistic biomedical images. In this regard, we propose an image synthesis method that utilizes denoising diffusion probabilistic models (DDPMs) to automatically generate retinal optical coherence tomography (OCT) images. By providing rough layer sketches, the trained DDPMs can generate realistic circumpapillary OCT images. We further find that more accurate pseudo labels can be obtained through knowledge adaptation, which greatly benefits the segmentation task. Through this, we observe a consistent improvement in layer segmentation accuracy, which is validated using various neural networks. Furthermore, we have discovered that a layer segmentation model trained solely with synthesized images can achieve comparable results to a model trained exclusively with real images. These findings demonstrate the promising potential of DDPMs in reducing the need for manual annotations of retinal OCT images.
翻訳日:2024-03-08 17:37:25 公開日:2024-03-06
# 大規模地図を用いたオンデマンド都市モビリティ問題に対する近似マルチエージェント強化学習(拡張版)

Approximate Multiagent Reinforcement Learning for On-Demand Urban Mobility Problem on a Large Map (extended version) ( http://arxiv.org/abs/2311.01534v2 )

ライセンス: Link先を確認
Daniel Garces, Sushmita Bhattacharya, Dimitri Bertsekas, Stephanie Gil(参考訳) 本稿では,大都市環境における自律型マルチエージェントタクシー経路問題に焦点をあてる。これは,将来の乗車要求の場所と回数が未知であるが,実証的な分布から推定することができる。 最近の理論では、安定したベースポリシーを持つロールアウトアルゴリズムが最適に近い安定ポリシーを生成することが示されている。 ルーティング設定では、その実行が時間とともに一様に境界づけられた優れたリクエストの数を維持するとポリシーが安定する。 ロールアウト型アプローチは,今後の需要を考慮した協調型マルチエージェント政策の学習に適しているが,安定に必要なタクシーが多数存在するため,大規模都市環境への適用は計算コストがかかる可能性がある。 本稿では, 近似的マルチエージェントロールアウトに基づく2相アルゴリズムを提案し, 計算コストを低減しつつ, 安定な準最適ポリシを実現することで, マルチエージェントロールアウトの計算ボトルネックに対処することを目的とする。 提案手法では,予測された需要と,ユーザの計算資源を逐次的に考慮したタクシーの最大数に基づいて,グラフをセクターに分割する。 このアルゴリズムは、セクタ間のタクシーの再バランスと、セクタ毎に並列に実行されるセクタ全体のマルチエージェントロールアウトアルゴリズムに即時割り当て(ia)を適用する。 主な理論的結果は2つある。 1) IAが安定するのに十分なタクシー数$m$を特徴付ける。 2) 時間が無限に進むにつれて、IAの安定性を維持するために$m$で必要条件を導出する。 数値解析の結果,理論条件を満たす$m$の安定性が得られた。 また,提案した2相アルゴリズムは,マップ全体のワン・ア・ア・タイム・ロールアウトに匹敵する性能を持つが,実行時間が大幅に低いことを示す。

In this paper, we focus on the autonomous multiagent taxi routing problem for a large urban environment where the location and number of future ride requests are unknown a-priori, but can be estimated by an empirical distribution. Recent theory has shown that a rollout algorithm with a stable base policy produces a near-optimal stable policy. In the routing setting, a policy is stable if its execution keeps the number of outstanding requests uniformly bounded over time. Although, rollout-based approaches are well-suited for learning cooperative multiagent policies with considerations for future demand, applying such methods to a large urban environment can be computationally expensive due to the large number of taxis required for stability. In this paper, we aim to address the computational bottleneck of multiagent rollout by proposing an approximate multiagent rollout-based two phase algorithm that reduces computational costs, while still achieving a stable near-optimal policy. Our approach partitions the graph into sectors based on the predicted demand and the maximum number of taxis that can run sequentially given the user's computational resources. The algorithm then applies instantaneous assignment (IA) for re-balancing taxis across sectors and a sector-wide multiagent rollout algorithm that is executed in parallel for each sector. We provide two main theoretical results: 1) characterize the number of taxis $m$ that is sufficient for IA to be stable; 2) derive a necessary condition on $m$ to maintain stability for IA as time goes to infinity. Our numerical results show that our approach achieves stability for an $m$ that satisfies the theoretical conditions. We also empirically demonstrate that our proposed two phase algorithm has equivalent performance to the one-at-a-time rollout over the entire map, but with significantly lower runtimes.
翻訳日:2024-03-08 17:36:20 公開日:2024-03-06
# 繰り返し相互作用によるリンドブラジアンダイナミクスの量子シミュレーション

Quantum Simulation of Lindbladian Dynamics via Repeated Interactions ( http://arxiv.org/abs/2312.05371v2 )

ライセンス: Link先を確認
Matthew Pocrnic, Dvira Segal, Nathan Wiebe(参考訳) リンドブラッド方程式はschr\"{o}dinger方程式を散逸力学を受ける量子系に一般化する。 したがって、リンドブラッド力学の量子シミュレーションは非ユニタリであり、最先端の量子アルゴリズムのナイーブな応用を妨げている。 本稿では, 繰り返し相互作用 (ri) cptp マップに基づくリンドブラッド力学と進化の近似対応を用いて, リンドブラッド力学のハミルトン定式化を記述し, 主方程式に束縛された厳密な誤差を導出する。 具体的には、Liouvillian $e^{t\mathcal{L}}$を誤差$\epsilon$スケールでシミュレートするために必要な相互作用の数を示す: $\nu\in O(t^2\|\mathcal{L}\|_{1\rightarrow 1}^2/\epsilon)$。 これは、力学に対するリンドブラド近似における明示的な誤差境界が、開システムシミュレーションのための既存の量子アルゴリズムにおいて明示的に有界ではないため重要である。 次に、反復量子化法とトロッター・スズキの公式を用いてこれらの写像をシミュレートする量子アルゴリズムを提供し、反復量子化のためには、力学をシミュレートするのに必要な演算数(固定値$$\nu$)が弱結合極限において$O(\nu (t \alpha_0 + \log(1/\epsilon)/\log\log(1/\epsilon)))$$$\alpha_0$がシステムとバスハミルトニアンの係数1ドルノルムであることを示す。 このスケーリングは、$\nu$ の複雑さが考慮されていない場合、最適であると思われます。

The Lindblad equation generalizes the Schr\"{o}dinger equation to quantum systems that undergo dissipative dynamics. The quantum simulation of Lindbladian dynamics is therefore non-unitary, preventing a naive application of state-of-the-art quantum algorithms. Here, we make use of an approximate correspondence between Lindbladian dynamics and evolution based on Repeated Interaction (RI) CPTP maps to write down a Hamiltonian formulation of the Lindblad dynamics and derive a rigorous error bound on the master equation. Specifically, we show that the number of interactions needed to simulate the Liouvillian $e^{t\mathcal{L}}$ within error $\epsilon$ scales in a weak coupling limit as $\nu\in O(t^2\|\mathcal{L}\|_{1\rightarrow 1}^2/\epsilon)$. This is significant because explicit error bounds in the Lindbladian approximation to the dynamics are not explicitly bounded in existing quantum algorithms for open system simulations. We then provide quantum algorithms to simulate these maps using an iterative Qubitization approach and Trotter-Suzuki formulas and specifically show that for iterative qubitization the number of operations needed to simulate the dynamics (for a fixed value of $\nu$) scales in a weak coupling limit as $O(\nu (t \alpha_0 + \log(1/\epsilon)/\log\log(1/\epsilon)))$ where $\alpha_0$ is the coefficient $1$-norm for the system and bath Hamiltonians. This scaling would appear to be optimal if the complexity of $\nu$ is not considered, which underscores the importance of considering the error in the Liouvillian that we reveal in this work.
翻訳日:2024-03-08 17:29:42 公開日:2024-03-06
# ボーアの相補性原理の更新

Updating Bohr's Complementarity Principle ( http://arxiv.org/abs/2312.02743v2 )

ライセンス: Link先を確認
Diego S. Starke and Marcos L. W. Basso and Jonas Maziero(参考訳) ボーアの補性原理(BCP)は、長い間量子力学(QM)の基本概念であり、与えられた実験的な構成の中で、量子系(量子トン)は、その波状文字を$W$、またはその粒子状文字を$P$と表現できるが、両方同時に表すことはできない。 bcpの現代的な解釈は同じ実験においてこれらの側面の共存を認め、制約 $w + p \le \alpha$ を導入する。 特に、$W$または$P$の推定は間接的回帰法に頻繁に依存しており、これはBCP違反の主張につながっている。 対照的に、近年の進歩は、特定の量子状態準備(QSP)条件下でのQMの公理から補性関係を厳格に導き出すことができることを示している。 本稿では、BCPが与えられた実験構成内に普遍的に保持するわけではないが、特定のQSPのレンズを通して調べると、頑健であることを示す。 与えられた QSP $\rho_t$ を特定の時点の $t$ で定式化するために、量子子の波状および粒子的表現は、QM の公理から直接導かれる相補性関係 $W(\rho_t) + P(\rho_t) \le \alpha(d)$ によって制約される。 }

Bohr's complementarity principle (BCP) has long been a fundamental concept in quantum mechanics (QM), positing that, within a given experimental setup, a quantum system (quanton) can exhibit either its wave-like character, denoted as $W$, or its particle-like character, denoted as $P$, but not both simultaneously. Modern interpretations of BCP acknowledge the coexistence of these aspects in the same experiment while introducing the constraint $W + P \le \alpha$. Notably, estimations of $W$ or $P$ frequently rely on indirect retrodiction methods, a practice that has led to claims of BCP violations. In a contrasting perspective, recent advancements demonstrate that complementarity relations can be rigorously derived from the axioms of QM under specific quantum state preparation (QSP) conditions. In this article, we unveil an intriguing insight: although BCP may not universally hold within a given experimental configuration, it remains robust when examined through the lens of a particular QSP. To reconcile these observations and eliminate potential paradoxes, we propose an updated formulation of BCP: \textit{For a given QSP $\rho_t$ at a specific instant of time $t$, the wave-like and particle-like manifestations of a quanton are constrained by the complementarity relation $W(\rho_t) + P(\rho_t) \le \alpha(d)$, which is derived directly from the axioms of QM.}
翻訳日:2024-03-08 17:28:43 公開日:2024-03-06
# 多様なアンサンブルと拡散モデルによるバイアス緩和

Mitigating Biases with Diverse Ensembles and Diffusion Models ( http://arxiv.org/abs/2311.16176v3 )

ライセンス: Link先を確認
Luca Scimeca, Alexander Rubinstein, Damien Teney, Seong Joon Oh, Armand Mihai Nicolicioiu, Yoshua Bengio(参考訳) 複数の手がかりがターゲットラベルを予測しているデータにおける散発的な相関は、しばしば近道学習と呼ばれる現象に繋がる。 本研究では,拡散確率モデル(dpms)を活用し,このバイアスを緩和するアンサンブル多角化フレームワークを提案する。 DPMは,特定のトレーニング間隔において,相関した入力特徴を示すサンプルを用いて訓練しても,新しい特徴の組み合わせで画像を生成することができることを示す。 我々は、この重要な特性を利用して合成反事実を生成し、アンサンブル不一致によるモデルの多様性を向上させる。 そこで本研究では,DPM誘導の多様化は,制御信号の追加を必要とせず,一次ショートカットキューへの依存を取り除くのに十分であることを示す。 さらに,複数の多様化目標に対して有効性を実証的に定量化し,さらに補助データ収集に依存する先行作業と同等に一般化および多様化性能の向上を図った。

Spurious correlations in the data, where multiple cues are predictive of the target labels, often lead to a phenomenon known as shortcut learning, where a model relies on erroneous, easy-to-learn cues while ignoring reliable ones. In this work, we propose an ensemble diversification framework exploiting Diffusion Probabilistic Models (DPMs) to mitigate this form of bias. We show that at particular training intervals, DPMs can generate images with novel feature combinations, even when trained on samples displaying correlated input features. We leverage this crucial property to generate synthetic counterfactuals to increase model diversity via ensemble disagreement. We show that DPM-guided diversification is sufficient to remove dependence on primary shortcut cues, without a need for additional supervised signals. We further empirically quantify its efficacy on several diversification objectives, and finally show improved generalization and diversification performance on par with prior work that relies on auxiliary data collection.
翻訳日:2024-03-08 17:26:24 公開日:2024-03-06
# InteRACT:ロボット行動に基づく人間の意図予測のためのトランスフォーマーモデル

InteRACT: Transformer Models for Human Intent Prediction Conditioned on Robot Actions ( http://arxiv.org/abs/2311.12943v3 )

ライセンス: Link先を確認
Kushal Kedia, Atiksh Bhardwaj, Prithwish Dan, Sanjiban Choudhury(参考訳) 協調的なロボット操作では、ロボットは人間の意図を予測し、タスクを円滑に実行するために行動を調整する必要がある。 しかし、人間の意図はロボットが行う行動に依存し、鶏か卵の問題を引き起こす。 従来の手法は、そのような依存性を無視し、代わりにロボットの動作とは無関係に限界意図予測モデルを訓練する。 これは、人間とロボットのインタラクションデータセットが不足しているため、トレーニング条件モデルが難しいためです。 代わりに、よりアクセスしやすい大規模な人間と人間の対話データを活用することができるだろうか? 私たちの重要な洞察は、人間とロボットのアクションの対応を利用して、人間からロボットデータへの学習の転送を可能にすることです。 InteRACTという,大規模人文データセットの条件付き意図予測モデルと小型人文ロボットデータセットの微細構造を事前学習するアーキテクチャを提案する。 我々は,実世界の人間とロボットの協調操作タスクについて評価し,条件モデルが様々な限界ベースラインに対して改善することを示す。 また,7自由度ロボットアームを遠隔操作し,多種多様な人間とロボットの協調操作データを収集する新しい技術を導入する。

In collaborative human-robot manipulation, a robot must predict human intents and adapt its actions accordingly to smoothly execute tasks. However, the human's intent in turn depends on actions the robot takes, creating a chicken-or-egg problem. Prior methods ignore such inter-dependency and instead train marginal intent prediction models independent of robot actions. This is because training conditional models is hard given a lack of paired human-robot interaction datasets. Can we instead leverage large-scale human-human interaction data that is more easily accessible? Our key insight is to exploit a correspondence between human and robot actions that enables transfer learning from human-human to human-robot data. We propose a novel architecture, InteRACT, that pre-trains a conditional intent prediction model on large human-human datasets and fine-tunes on a small human-robot dataset. We evaluate on a set of real-world collaborative human-robot manipulation tasks and show that our conditional model improves over various marginal baselines. We also introduce new techniques to tele-operate a 7-DoF robot arm and collect a diverse range of human-robot collaborative manipulation data, which we open-source.
翻訳日:2024-03-08 17:25:48 公開日:2024-03-06
# 知覚損失を伴う拡散モデル

Diffusion Model with Perceptual Loss ( http://arxiv.org/abs/2401.00110v5 )

ライセンス: Link先を確認
Shanchuan Lin, Xiao Yang(参考訳) 平均二乗誤差損失で訓練された拡散モデルは非現実的なサンプルを生成する傾向がある。 現在の最先端のモデルは、サンプル品質を改善するために分類器なしのガイダンスに依存しているが、驚くべき有効性は完全には理解されていない。 本稿では,分類者なし指導の有効性は,暗黙的な知覚誘導の一形態である点に起因していることを示す。 その結果, 拡散訓練における知覚損失を直接組み込むことにより, サンプル品質の向上が期待できる。 拡散訓練におけるスコアマッチング対象は、知覚ネットワークの教師なし訓練で使用される雑音化オートエンコーダ目標に強く似ているため、拡散モデル自体が知覚ネットワークであり、有意義な知覚損失を生成するために使用できる。 そこで本研究では,より現実的なサンプルを生成することができる拡散モデルを提案する。 条件付き生成では,条件付き入力と絡み合うことなくサンプル品質を向上できるため,サンプルの多様性を犠牲にしない。 また,非条件生成のためのサンプル品質の改善も可能であり,従来は分類器を使わない指導では不可能であった。

Diffusion models trained with mean squared error loss tend to generate unrealistic samples. Current state-of-the-art models rely on classifier-free guidance to improve sample quality, yet its surprising effectiveness is not fully understood. In this paper, we show that the effectiveness of classifier-free guidance partly originates from it being a form of implicit perceptual guidance. As a result, we can directly incorporate perceptual loss in diffusion training to improve sample quality. Since the score matching objective used in diffusion training strongly resembles the denoising autoencoder objective used in unsupervised training of perceptual networks, the diffusion model itself is a perceptual network and can be used to generate meaningful perceptual loss. We propose a novel self-perceptual objective that results in diffusion models capable of generating more realistic samples. For conditional generation, our method only improves sample quality without entanglement with the conditional input and therefore does not sacrifice sample diversity. Our method can also improve sample quality for unconditional generation, which was not possible with classifier-free guidance before.
翻訳日:2024-03-08 17:17:22 公開日:2024-03-06
# 交通ネットワークにおける偽データインジェクション攻撃評価のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Assessing False-Data Injection Attacks on Transportation Networks ( http://arxiv.org/abs/2312.14625v2 )

ライセンス: Link先を確認
Taha Eghtesad, Sirui Li, Yevgeniy Vorobeychik, Aron Laszka(参考訳) ナビゲーションアプリケーションへのドライバーの依存が高まり、交通ネットワークは悪意のある俳優によるデータ操作攻撃の影響を受けやすくなった。 管理者はデータ収集やナビゲーションサービスの処理の脆弱性を利用して偽情報を注入し、ドライバーの経路選択を妨害することができる。 このような攻撃は交通渋滞を著しく増加させ、時間と資源のかなりの浪費をもたらし、道路ネットワークに依存している本質的なサービスを妨害する恐れがある。 このような攻撃による脅威を評価するために,輸送ネットワークに対する最悪のデータ注入攻撃を見つけるための計算枠組みを導入する。 まず、特定の道路で認識される走行時間を増加させることでドライバーを操作できる脅威俳優と、敵対的なモデルを考案する。 次に,階層型マルチエージェント強化学習を用いて,データ操作の最適逆戦略を提案する。 NDネットワークトポロジであるスーフォールズへの攻撃をシミュレーションすることで,本手法の適用性を実証する。

The increasing reliance of drivers on navigation applications has made transportation networks more susceptible to data-manipulation attacks by malicious actors. Adversaries may exploit vulnerabilities in the data collection or processing of navigation services to inject false information, and to thus interfere with the drivers' route selection. Such attacks can significantly increase traffic congestions, resulting in substantial waste of time and resources, and may even disrupt essential services that rely on road networks. To assess the threat posed by such attacks, we introduce a computational framework to find worst-case data-injection attacks against transportation networks. First, we devise an adversarial model with a threat actor who can manipulate drivers by increasing the travel times that they perceive on certain roads. Then, we employ hierarchical multi-agent reinforcement learning to find an approximate optimal adversarial strategy for data manipulation. We demonstrate the applicability of our approach through simulating attacks on the Sioux Falls, ND network topology.
翻訳日:2024-03-08 17:16:11 公開日:2024-03-06
# conrf:条件付放射場を有する3次元シーンのゼロショットスタイライゼーション

ConRF: Zero-shot Stylization of 3D Scenes with Conditioned Radiation Fields ( http://arxiv.org/abs/2402.01950v2 )

ライセンス: Link先を確認
Xingyu Miao, Yang Bai, Haoran Duan, Fan Wan, Yawen Huang, Yang Long, Yefeng Zheng(参考訳) 既存の作業の多くは、任意の3D NeRFスタイルの転送において、1つのスタイルの条件で再訓練する必要がある。 本研究の目的は、テキストや視覚入力を条件付け要素として利用する3次元シーンにおけるゼロショット制御型スタイリングの実現である。 ゼロショットスタイリングの新しい手法であるConRFを紹介する。 具体的には、CLIP特徴量のあいまいさから、CLIP特徴空間を事前訓練されたVGGネットワークのスタイル空間にマッピングし、CLIP多モード知識を伝達神経放射場に洗練する変換プロセスを用いる。 さらに,3次元ボリューム表現を用いて局所的なスタイル転送を行う。 これらの操作を組み合わせることで、ConRFはテキストまたはイメージを参照として利用する機能を提供し、グローバルまたはローカルなスタイリングによって強化された新しいビューを持つシーケンスを生成する。 実験の結果,ConRFは視覚的品質の観点から,他の3Dシーンや単一テキストスタイリング手法よりも優れていた。

Most of the existing works on arbitrary 3D NeRF style transfer required retraining on each single style condition. This work aims to achieve zero-shot controlled stylization in 3D scenes utilizing text or visual input as conditioning factors. We introduce ConRF, a novel method of zero-shot stylization. Specifically, due to the ambiguity of CLIP features, we employ a conversion process that maps the CLIP feature space to the style space of a pre-trained VGG network and then refine the CLIP multi-modal knowledge into a style transfer neural radiation field. Additionally, we use a 3D volumetric representation to perform local style transfer. By combining these operations, ConRF offers the capability to utilize either text or images as references, resulting in the generation of sequences with novel views enhanced by global or local stylization. Our experiment demonstrates that ConRF outperforms other existing methods for 3D scene and single-text stylization in terms of visual quality.
翻訳日:2024-03-08 17:08:24 公開日:2024-03-06
# タイピングセラピー: メンタルヘルス支援のための大規模言語モデルチャットボットの経験

The Typing Cure: Experiences with Large Language Model Chatbots for Mental Health Support ( http://arxiv.org/abs/2401.14362v2 )

ライセンス: Link先を確認
Inhwa Song, Sachin R. Pendse, Neha Kumar, Munmun De Choudhury(参考訳) 重度の苦痛を経験する人々は、メンタルヘルス支援ツールとしてLarge Language Model (LLM)チャットボットをますます使います。 ソーシャルメディア上での議論では、エンゲージメントがいかに命を救うかが述べられているが、汎用のllmチャットボットもまた、責任を持って設計されていない場合にユーザーの福祉を危険にさらすリスクがあることを示唆している。 本研究では,llmチャットボットを用いた精神保健支援者の生活経験について検討した。 グローバルに多様なバックグラウンドを持つ21人の個人によるインタビューに基づいて、チャットボットに対するユニークなサポートロールの作り方を分析し、日々のケアのギャップを埋め、チャットボットからのサポートを求める際の文化的制限をナビゲートします。 我々は,効果的な支援に関する心理療法文献の分析を基礎にし,治療アライメントの概念を導入し,あるいは精神保健の文脈におけるaiと治療の価値観を一致させる。 本研究は,LLMチャットボットと他のAIメンタルヘルス支援ツールの倫理的,効果的な利用方法を提案する。

People experiencing severe distress increasingly use Large Language Model (LLM) chatbots as mental health support tools. Discussions on social media have described how engagements were lifesaving for some, but evidence suggests that general-purpose LLM chatbots also have notable risks that could endanger the welfare of users if not designed responsibly. In this study, we investigate the lived experiences of people who have used LLM chatbots for mental health support. We build on interviews with 21 individuals from globally diverse backgrounds to analyze how users create unique support roles for their chatbots, fill in gaps in everyday care, and navigate associated cultural limitations when seeking support from chatbots. We ground our analysis in psychotherapy literature around effective support, and introduce the concept of therapeutic alignment, or aligning AI with therapeutic values for mental health contexts. Our study offers recommendations for how designers can approach the ethical and effective use of LLM chatbots and other AI mental health support tools in mental health care.
翻訳日:2024-03-08 17:06:48 公開日:2024-03-06
# graph-skeleton: 約1%のノードが10億規模のグラフを表現できる

Graph-Skeleton: ~1% Nodes are Sufficient to Represent Billion-Scale Graph ( http://arxiv.org/abs/2402.09565v2 )

ライセンス: Link先を確認
Linfeng Cao, Haoran Deng, Yang Yang, Chunping Wang, Lei Chen(参考訳) web上のグラフデータのユビキタス性により、webグラフマイニングはホットな研究スポットとなっている。 それでも、実アプリケーションにおける大規模webグラフの普及は、ストレージ、計算能力、グラフモデル設計に重大な課題をもたらす。 グラフモデルのスケーラビリティを高めるための多くの研究にもかかわらず、学術研究と実用的なWebグラフマイニングアプリケーションの間には大きなギャップが残っている。 主な原因の1つは、ほとんどの産業シナリオでは、Webグラフのノードのごく一部しか実際に分析する必要がなく、そこでこれらのノードをターゲットノード、他のノードをバックグラウンドノードとします。 本稿では,大量のWebグラフデータから背景ノードを適切にフェッチし,凝縮させることが,障害を根本的に解決するための経済的なショートカットになり得ることを論じる。 そこで本研究では,対象ノードの分類において,大規模バックグラウンドノード圧縮の問題を初めて検討する。 対象ノード分類における背景ノードが果たす2つの重要な役割は,対象ノード間の構造的接続性の向上と,対象ノードとの特徴相関である。 次に, 背景ノードを適切に取得し, 背景ノードの意味的, 位相的情報を類似する局所構造に集約したグラフ骨格1モデルを提案する。 各種Webグラフデータセットの大規模な実験により,提案手法の有効性と有効性を示す。 特に、0.24億のノードを持つMAG240Mデータセットの場合、生成したスケルトングラフは、元のグラフの1.8%のノードしか含んでおらず、非常に同等のパフォーマンスを達成する。

Due to the ubiquity of graph data on the web, web graph mining has become a hot research spot. Nonetheless, the prevalence of large-scale web graphs in real applications poses significant challenges to storage, computational capacity and graph model design. Despite numerous studies to enhance the scalability of graph models, a noticeable gap remains between academic research and practical web graph mining applications. One major cause is that in most industrial scenarios, only a small part of nodes in a web graph are actually required to be analyzed, where we term these nodes as target nodes, while others as background nodes. In this paper, we argue that properly fetching and condensing the background nodes from massive web graph data might be a more economical shortcut to tackle the obstacles fundamentally. To this end, we make the first attempt to study the problem of massive background nodes compression for target nodes classification. Through extensive experiments, we reveal two critical roles played by the background nodes in target node classification: enhancing structural connectivity between target nodes, and feature correlation with target nodes. Followingthis, we propose a novel Graph-Skeleton1 model, which properly fetches the background nodes, and further condenses the semantic and topological information of background nodes within similar target-background local structures. Extensive experiments on various web graph datasets demonstrate the effectiveness and efficiency of the proposed method. In particular, for MAG240M dataset with 0.24 billion nodes, our generated skeleton graph achieves highly comparable performance while only containing 1.8% nodes of the original graph.
翻訳日:2024-03-08 16:56:47 公開日:2024-03-06
# 根拠のない大規模言語モデルのランク付け

Ranking Large Language Models without Ground Truth ( http://arxiv.org/abs/2402.14860v2 )

ライセンス: Link先を確認
Amit Dhurandhar, Rahul Nair, Moninder Singh, Elizabeth Daly and Karthikeyan Natesan Ramamurthy(参考訳) 大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及とその影響において重要な問題となっている。 評価手法は、取得に費用がかかる人間の反応を必要とするか、信頼できないLLMを互いに評価するために使用するかのいずれかである。 本稿では,質問文や指示文など)のデータセットとLLMのセットを与えられた場合,根拠となる真実や参照応答にアクセスできることなく,それらをランク付けする,新しい視点を提供する。 専門家と知識のある人の両方が初心者を識別できる現実の生活に触発された私たちの主要なアイデアは、モデルの三つ子を考えることであり、それぞれが他の2つを評価し、三つ子の中で最悪のモデルを高い確率で正しく識別する。 また、私たちの考えを分析し、成功するための十分な条件を提供します。 この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。 異なる生成タスク(要約、複数選択、ダイアログ)の実験では、参照データなしで真のランキングに近い位置を確実に回復する。 これは実用上有効な低リソースメカニズムを示している。

Evaluation and ranking of large language models (LLMs) has become an important problem with the proliferation of these models and their impact. Evaluation methods either require human responses which are expensive to acquire or use pairs of LLMs to evaluate each other which can be unreliable. In this paper, we provide a novel perspective where, given a dataset of prompts (viz. questions, instructions, etc.) and a set of LLMs, we rank them without access to any ground truth or reference responses. Inspired by real life where both an expert and a knowledgeable person can identify a novice our main idea is to consider triplets of models, where each one of them evaluates the other two, correctly identifying the worst model in the triplet with high probability. We also analyze our idea and provide sufficient conditions for it to succeed. Applying this idea repeatedly, we propose two methods to rank LLMs. In experiments on different generative tasks (summarization, multiple-choice, and dialog), our methods reliably recover close to true rankings without reference data. This points to a viable low-resource mechanism for practical use.
翻訳日:2024-03-08 16:45:04 公開日:2024-03-06
# LAB: チャットボットの大規模アライメント

LAB: Large-Scale Alignment for ChatBots ( http://arxiv.org/abs/2403.01081v2 )

ライセンス: Link先を確認
Shivchander Sudalairaj, Abhishek Bhandwaldar, Aldo Pareja, Kai Xu, David D. Cox, Akash Srivastava(参考訳) LAB(Large-scale Alignment for chatBots)は,大規模言語モデル(LLM)学習の指導・チューニングフェーズにおいて,スケーラビリティの課題を克服する新しい手法である。 分類誘導合成データ生成プロセスと多相チューニングフレームワークを活用することで、LABは高価な人間のアノテーションやGPT-4のようなプロプライエタリなモデルへの依存を著しく低減する。 従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。 したがって,LLMの能力向上のためのスケーラブルで費用対効果の高いソリューションと,大惨な忘れ込みの欠点を伴わない命令追従動作を提供することで,LLMの幅広い応用のための効率的なトレーニングの一歩となる。

This work introduces LAB (Large-scale Alignment for chatBots), a novel methodology designed to overcome the scalability challenges in the instruction-tuning phase of large language model (LLM) training. Leveraging a taxonomy-guided synthetic data generation process and a multi-phase tuning framework, LAB significantly reduces reliance on expensive human annotations and proprietary models like GPT-4. We demonstrate that LAB-trained models can achieve competitive performance across several benchmarks compared to models trained with traditional human-annotated or GPT-4 generated synthetic data. Thus offering a scalable, cost-effective solution for enhancing LLM capabilities and instruction-following behaviors without the drawbacks of catastrophic forgetting, marking a step forward in the efficient training of LLMs for a wide range of applications.
翻訳日:2024-03-08 16:35:57 公開日:2024-03-06
# WMDPベンチマーク:アンラーニングによる悪用の測定と低減

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning ( http://arxiv.org/abs/2403.03218v2 )

ライセンス: Link先を確認
Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios, Alice Gatti, Justin D. Li, Ann-Kathrin Dombrowski, Shashwat Goel, Long Phan, Gabriel Mukobi, Nathan Helm-Burger, Rassin Lababidi, Lennart Justen, Andrew B. Liu, Michael Chen, Isabelle Barrass, Oliver Zhang, Xiaoyuan Zhu, Rishub Tamirisa, Bhrugu Bharathi, Adam Khoja, Zhenqi Zhao, Ariel Herbert-Voss, Cort B. Breuer, Andy Zou, Mantas Mazeika, Zifan Wang, Palash Oswal, Weiran Liu, Adam A. Hunt, Justin Tienken-Harder, Kevin Y. Shih, Kemper Talley, John Guan, Russell Kaplan, Ian Steneker, David Campbell, Brad Jokubaitis, Alex Levinson, Jean Wang, William Qian, Kallol Krishna Karmakar, Steven Basart, Stephen Fitz, Mindy Levine, Ponnurangam Kumaraguru, Uday Tupakula, Vijay Varadharajan, Yan Shoshitaishvili, Jimmy Ba, Kevin M. Esvelt, Alexandr Wang and Dan Hendrycks(参考訳) ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。 悪意のある使用のリスクを測定するために、政府機関と主要なAIラボは、LLMにおける有害な能力の評価を開発している。 しかし、現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。 さらに、悪意のある使用のための非常に特殊な経路にのみフォーカスする。 これらのギャップを埋めるため,我々は,バイオセキュリティ,サイバーセキュリティ,化学セキュリティに関する危険知識の指標として,4,157件のマルチチョイス質問のデータセットであるarms of mass destruction proxy(wmdp)ベンチマークを公開する。 WMDPは学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を除去するために厳格にフィルタリングされた。 wmdpは2つの役割を担っている: 第一に、llmsにおける危険知識の評価として、第二に、そのような危険知識を取り除くための学習方法のベンチマークとして。 未学習の進歩を導くために,モデル表現の制御に基づく最先端の未学習手法であるcutを開発した。 CUTは、生物学や計算機科学などの分野における一般的な能力を保ちながら、WMDPのモデル性能を低下させる。 ベンチマークとコードをhttps://wmdp.aiで公開しています。

The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 4,157 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop CUT, a state-of-the-art unlearning method based on controlling model representations. CUT reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai
翻訳日:2024-03-08 16:26:15 公開日:2024-03-06
# PARADISE: 手続き的警告とTipsデータセットによる言語モデルの意図しない計画スキルの評価

PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset ( http://arxiv.org/abs/2403.03167v2 )

ライセンス: Link先を確認
Arda Uzunoglu, Abdalfatah Rashid Safa, G\"ozde G\"ul \c{S}ahin(参考訳) 近年,大規模言語モデルが計画立案や実行可能かどうか,コミュニティ内での関心が高まっている。 しかしながら、ほとんどの先行研究はllmを使用して、言語の複雑さとドメインの多様性を欠いた単純なシナリオのための高レベルな計画を作成し、その計画能力の分析を制限している。 これらの設定は、評価方法(例えば、事前定義されたアクション空間)、アーキテクチャの選択(例えば、生成モデルのみ)を制約し、現実的な分析に不可欠な言語ニュアンスを見落とします。 そこで本研究では,wikiHow をベースとした実践的手続きテキスト上で,Q\&A 形式を用いた帰納的推論タスク PARADISE を提案する。 計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間ステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。 我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。 進歩にもかかわらず、全てのモデルは人間のパフォーマンスに欠ける。 特に本分析では,転落したキーワードによるモデル行動の変動,物理的および抽象的な目標によるBERTファミリーとGPT-4の抗争,その他の未確認な手続きタスクに対する貴重な事前知識を提供するタスクなど,興味深い知見が得られた。 PARADISEデータセットと関連するリソースはhttps://github.com/GGLAB-KU/paradise.comでさらなる調査のために公開されている。

Recently, there has been growing interest within the community regarding whether large language models are capable of planning or executing plans. However, most prior studies use LLMs to generate high-level plans for simplified scenarios lacking linguistic complexity and domain diversity, limiting analysis of their planning abilities. These setups constrain evaluation methods (e.g., predefined action space), architectural choices (e.g., only generative models), and overlook the linguistic nuances essential for realistic analysis. To tackle this, we present PARADISE, an abductive reasoning task using Q\&A format on practical procedural text sourced from wikiHow. It involves warning and tip inference tasks directly associated with goals, excluding intermediary steps, with the aim of testing the ability of the models to infer implicit knowledge of the plan solely from the given goal. Our experiments, utilizing fine-tuned language models and zero-shot prompting, reveal the effectiveness of task-specific small models over large language models in most scenarios. Despite advancements, all models fall short of human performance. Notably, our analysis uncovers intriguing insights, such as variations in model behavior with dropped keywords, struggles of BERT-family and GPT-4 with physical and abstract goals, and the proposed tasks offering valuable prior knowledge for other unseen procedural tasks. The PARADISE dataset and associated resources are publicly available for further research exploration with https://github.com/GGLAB-KU/paradise.
翻訳日:2024-03-08 16:25:25 公開日:2024-03-06
# 健康領域に適応した都市洪水リスクアセスメントの再考

Rethinking Urban Flood Risk Assessment By Adapting Health Domain Perspective ( http://arxiv.org/abs/2403.03996v1 )

ライセンス: Link先を確認
Zhewei Liu, Kai Yin, Ali Mostafavi(参考訳) 健康リスク評価の考え方に触発されて,洪水リスク評価の新しい視点を示す。 本研究の視点は,(1)自然感受性,(2)緩和戦略,(3)外部ストレスの3つの柱に着目した。 これらの柱は, 都市域の物理的・環境的特性, 人的介入対策の効果, 制御不能な外部要因の影響を包括的に包括的に含み, 洪水リスクを復号する新たな視点を提供する。 各柱について、洪水リスクに対する個々の貢献を概説し、インタラクティブで全体的な影響を示す。 この3ピラーモデルは、洪水リスクの正確なモデル化と定量化から、洪水リスクの高い経路の評価へと焦点を移す。 パースペクティブの変化は、洪水リスク管理を強化するためのパナセアとして、細かい解像度で洪水リスクを定量化し予測するための探求を緩和することを目的としている。 3つの絡み合った柱(すなわち、固有要因、緩和要因、外部要因)への洪水リスク経路の分解により、各柱内の要因の変化が洪水リスクを増強し、悪化させ、計画、決定、行動を伝えるプラットフォームを構築することができる。 本研究は, 本研究の基盤として, 内因的要因, 緩和戦略, 外部的ストレス要因の個人的および集団的影響を検討する洪水リスク経路分析手法が, 洪水リスクの微妙な評価に不可欠であると主張する。 したがって,提案手法は洪水リスク評価のための既存の枠組みとアプローチを補完することができる。

Inspired by ideas from health risk assessment, this paper presents a new perspective for flood risk assessment. The proposed perspective focuses on three pillars for examining flood risk: (1) inherent susceptibility, (2) mitigation strategies, and (3) external stressors. These pillars collectively encompass the physical and environmental characteristics of urban areas, the effectiveness of human-intervention measures, and the influence of uncontrollable external factors, offering a fresh point of view for decoding flood risks. For each pillar, we delineate its individual contributions to flood risk and illustrate their interactive and overall impact. The three-pillars model embodies a shift in focus from the quest to precisely model and quantify flood risk to evaluating pathways to high flood risk. The shift in perspective is intended to alleviate the quest for quantifying and predicting flood risk at fine resolutions as a panacea for enhanced flood risk management. The decomposition of flood risk pathways into the three intertwined pillars (i.e., inherent factors, mitigation factors, and external factors) enables evaluation of changes in factors within each pillar enhance and exacerbate flood risk, creating a platform from which to inform plans, decisions, and actions. Building on this foundation, we argue that a flood risk pathway analysis approach, which examines the individual and collective impacts of inherent factors, mitigation strategies, and external stressors, is essential for a nuanced evaluation of flood risk. Accordingly, the proposed perspective could complement the existing frameworks and approaches for flood risk assessment.
翻訳日:2024-03-08 16:19:21 公開日:2024-03-06
# エキスパートの混合を用いた映像関係検出

Video Relationship Detection Using Mixture of Experts ( http://arxiv.org/abs/2403.03994v1 )

ライセンス: Link先を確認
Ala Shaabana and Zahra Gharaee and Paul Fieguth(参考訳) ニューラルネットワークによる画像やビデオからの視覚情報のマシン理解は、2つの大きな課題に直面している。 まず、視覚と言語をつなぐ計算と推論のギャップがあり、与えられたエージェントがどのオブジェクトに作用するかを正確に決定し、言語で表現することが困難である。 第二に、単一のモノリシックニューラルネットワークでトレーニングされた分類器は、しばしば安定性と一般化を欠いている。 これらの課題を克服するために,専門家の混在を利用した視覚的関係検出手法であるMoE-VRDを導入する。 MoE-VRDは,< subject, predicate, object> tuplesの形で言語三つ子を識別し,視覚処理から関係を抽出する。 視覚的関係検出の最近の進歩を活用して、MoE-VRDは、対象(行動)と対象(行動)の関係を確立するための行動認識の要件に対処する。 単一のモノリシックネットワークとは対照的に、moe-vrdは複数の小さなモデルを専門家として採用している。 MoE-VRDの専門家はそれぞれ、視覚的関係学習とオブジェクトタグ付けを専門としている。 MoE-VRDは、疎結合な専門家の混合物を利用することで、条件付き計算を可能にし、計算複雑性を増大させることなく、ニューラルネットワークの容量を大幅に向上する。 実験の結果,mixing-of-expertsアプローチの条件計算能力とスケーラビリティは,最先端手法と比較して視覚関係検出性能に優れることがわかった。

Machine comprehension of visual information from images and videos by neural networks faces two primary challenges. Firstly, there exists a computational and inference gap in connecting vision and language, making it difficult to accurately determine which object a given agent acts on and represent it through language. Secondly, classifiers trained by a single, monolithic neural network often lack stability and generalization. To overcome these challenges, we introduce MoE-VRD, a novel approach to visual relationship detection utilizing a mixture of experts. MoE-VRD identifies language triplets in the form of < subject, predicate, object> tuples to extract relationships from visual processing. Leveraging recent advancements in visual relationship detection, MoE-VRD addresses the requirement for action recognition in establishing relationships between subjects (acting) and objects (being acted upon). In contrast to single monolithic networks, MoE-VRD employs multiple small models as experts, whose outputs are aggregated. Each expert in MoE-VRD specializes in visual relationship learning and object tagging. By utilizing a sparsely-gated mixture of experts, MoE-VRD enables conditional computation and significantly enhances neural network capacity without increasing computational complexity. Our experimental results demonstrate that the conditional computation capabilities and scalability of the mixture-of-experts approach lead to superior performance in visual relationship detection compared to state-of-the-art methods.
翻訳日:2024-03-08 16:18:54 公開日:2024-03-06
# リコメンダシステムにおけるインクリメンタルラーニングのためのPersonalized Negative Reservoir

Personalized Negative Reservoir for Incremental Learning in Recommender Systems ( http://arxiv.org/abs/2403.03993v1 )

ライセンス: Link先を確認
Antonios Valkanas, Yuening Wang, Yingxue Zhang, Mark Coates(参考訳) レコメンダシステムは、オンラインプラットフォームに不可欠な部分となっている。 トレーニングデータの量は毎日増加しており、ユーザインタラクションの数は常に増加しています。 より大きな、より表現力のあるモデルの探索は、ユーザーエクスペリエンスを改善するために必要となる。 しかし、この進歩は計算負荷を増大させる。 商用環境では、レコメンデーションシステムモデルをトレーニングしてデプロイすると、新しいクライアントデータが到着すると頻繁に更新される必要がある。 累積的に、データの搭載量は、最終的にスクラッチからモデルの完全なバッチ再トレーニングを計算不能にすることを保証する。 新しいデータのみを微調整すると、壊滅的な忘れというよく文書化された問題にぶつかります。 負のサンプリングが暗黙のフィードバックによるトレーニングの重要な部分であるにもかかわらず、漸進的な学習フレームワークに合わせた特別なテクニックは存在しない。 そこで本研究では,標準三重項損失に対する負のサンプルを得るために用いられる,パーソナライズされた負の貯留戦略を提案する。 この手法は, ユーザの嗜好を安定的に記憶し, ユーザの興味がいつ変化するかを選択的に忘れることをモデルに促すことにより, 可塑性による忘れの軽減のバランスをとる。 我々は,貯水池を投入し更新するための負のサンプラーの数学的定式化を導出する。 私たちは設計を3つのSOTAに統合し、一般的にインクリメンタルレコメンデーションモデルを使用します。 複数の標準トップク評価指標を用いて,これらの負の貯水池フレームワークの具体的実現により,標準ベンチマークにおける最先端の結果が得られることを示す。

Recommender systems have become an integral part of online platforms. Every day the volume of training data is expanding and the number of user interactions is constantly increasing. The exploration of larger and more expressive models has become a necessary pursuit to improve user experience. However, this progression carries with it an increased computational burden. In commercial settings, once a recommendation system model has been trained and deployed it typically needs to be updated frequently as new client data arrive. Cumulatively, the mounting volume of data is guaranteed to eventually make full batch retraining of the model from scratch computationally infeasible. Naively fine-tuning solely on the new data runs into the well-documented problem of catastrophic forgetting. Despite the fact that negative sampling is a crucial part of training with implicit feedback, no specialized technique exists that is tailored to the incremental learning framework. In this work, we take the first step to propose, a personalized negative reservoir strategy which is used to obtain negative samples for the standard triplet loss. This technique balances alleviation of forgetting with plasticity by encouraging the model to remember stable user preferences and selectively forget when user interests change. We derive the mathematical formulation of a negative sampler to populate and update the reservoir. We integrate our design in three SOTA and commonly used incremental recommendation models. We show that these concrete realizations of our negative reservoir framework achieve state-of-the-art results in standard benchmarks, on multiple standard top-k evaluation metrics.
翻訳日:2024-03-08 16:18:32 公開日:2024-03-06
# Treespilation: アーキテクチャと状態最適化されたフェルミオン-ビットマッピング

Treespilation: Architecture- and State-Optimised Fermion-to-Qubit Mappings ( http://arxiv.org/abs/2403.03992v1 )

ライセンス: Link先を確認
Aaron Miller and Adam Glos and Zolt\'an Zimbor\'as(参考訳) 量子コンピュータは、フェルミオン系を効率的にシミュレートし、量子化学や材料科学のような分野に利益をもたらす。 これを達成するためにアルゴリズムは通常、量子コンピュータの量子ビットにフェルミインック問題をエンコードするためにフェルミオンから量子ビットへのマッピングを選択することから始める。 そこで本研究では,以前導入した木ベースマッピングの大規模なファミリーを用いて,フェルミオン系を効率的にマッピングする手法であるtreespilationについて紹介する。 本手法は,ADAPT-VQEアルゴリズムを用いて化学基底状態のシミュレーションに必要なCNOTゲート数を最小化する。 我々は、完全接続に関するcnotカウントにおいて、最大74\%$の大幅な削減を観察する。 IBM EagleやGoogle Sycamoreのような限定的なqubit接続型デバイスでは、同様のCNOTカウントの削減が観測される。 実際、多くの場合、これらの限られた接続デバイスで達成された削減は、最初の完全接続cnot数を上回ることさえある。 さらに,本手法は分子状態調製のための最もCNOT効率の高いVQEプロトコルであるQEB-およびqubit-ADAPT-VQEプロトコルのCNOTおよびパラメータ効率を改善した。

Quantum computers hold great promise for efficiently simulating Fermionic systems, benefiting fields like quantum chemistry and materials science. To achieve this, algorithms typically begin by choosing a Fermion-to-qubit mapping to encode the Fermioinc problem in the qubits of a quantum computer. In this work, we introduce "treespilation," a technique for efficiently mapping Fermionic systems using a large family of favourable tree-based mappings previously introduced by some of us. We use this technique to minimise the number of CNOT gates required to simulate chemical groundstates found numerically using the ADAPT-VQE algorithm. We observe significant reductions, up to $74\%$, in CNOT counts on full connectivity. limited qubit connectivity-type devices such as IBM Eagle and Google Sycamore, we observe similar reductions in CNOT counts. In fact, in many instances, the reductions achieved on these limited connectivity devices even surpass the initial full connectivity CNOT count. Additionally, we find our method improves the CNOT and parameter efficiency of QEB- and qubit-ADAPT-VQE protocols, which are, to our knowledge, the most CNOT-efficient VQE protocols for molecular state preparation.
翻訳日:2024-03-08 16:17:47 公開日:2024-03-06
# ゼロレベル蒸留によるさらに効率的なマジックステート蒸留

Even more efficient magic state distillation by zero-level distillation ( http://arxiv.org/abs/2403.03991v1 )

ライセンス: Link先を確認
Tomohiro Itogawa, Yugo Takada, Yutaka Hirano, Keisuke Fujii(参考訳) マジックステート蒸留(英: Magic State distillation、MSD)は、普遍的なフォールトトレラント量子コンピューティングにおいて重要な要素であり、理想(エラー訂正)クリフォード演算を用いてノイズの多いマジック状態から高忠実なマジック状態を蒸留する。 理想的なクリフォード演算では、論理量子ビット上で実行する必要があるため、時間的オーバーヘッドが大きいため、フォールトトレラント量子コンピュータ(FTQC)の実現における主要なボトルネックの1つである。 ここでは, 近接する2量子ビットゲートを用いて, 複数の論理量子ビットを使わずに, 正方格子上の物理量子ビットを用いて高忠実度論理マジック状態を作成するゼロレベル蒸留を提案する。 鍵となるアイデアは、Steaneコードを使用して、ノイズの多いCliffordゲートとエラー検出を使って論理的なマジック状態を蒸留することだ。 その後、Steaneのコード状態がテレポートされるか、表面コードに変換される。 このような回路をフォールトトレラントに設計することで、論理魔法状態のエラーレートは、物理エラー率$p$の点で$\sim 100 \times p^2$となる。 例えば、物理的エラーレートが$p=10^{-4}$$$10^{-3}$の場合、論理的エラーレートは$p_L=10^{-6}$$$10^{-4}$に下げられ、2つの(1)オーダーが大幅に改善される。 これは、初期のFTQCの空間および時間オーバーヘッドと、従来の多層蒸留プロトコルと組み合わせた完全なFTQCの削減に寄与する。

Magic state distillation (MSD) is an essential element for universal fault-tolerant quantum computing, which distills a high fidelity magic state from noisy magic states using ideal (error-corrected) Clifford operations. For ideal Clifford operations, it needs to be performed on the logical qubits and hence takes a large spatiotemporal overhead, which is one of the major bottlenecks for the realization of fault-tolerant quantum computers (FTQC). Here we propose zero-level distillation, which prepares a high fidelity logical magic state using physical qubits on a square lattice using nearest-neighbor two-qubit gates without using multiple logical qubits. The key idea behind is using the Steane code to distill a logical magic state by using noisy Clifford gates with error detection. Then the Steane code state is teleported or converted to the surface codes. By carefully designing such circuits fault-tolerantly, the error rate of the logical magic state scales $\sim 100 \times p^2$ in terms of the physical error rate $p$. For example, with a physical error rate of $p=10^{-4}$ ($10^{-3}$), the logical error rate is reduced to $p_L=10^{-6}$ ($10^{-4}$), resulting in an improvement of two (one) orders of magnitude. This contributes to reducing both space and time overhead for early FTQC as well as full-fledged FTQC combined with conventional multi-level distillation protocols.
翻訳日:2024-03-08 16:17:11 公開日:2024-03-06
# フレドキンスピン鎖の量子多体傷と非熱的挙動

Quantum many-body scars and non-thermal behaviour in Fredkin spin chains ( http://arxiv.org/abs/2403.03986v1 )

ライセンス: Link先を確認
Luke Causer, Mari Carmen Ba\~nuls and Juan P. Garrahan(参考訳) 局所3体相互作用系であるフレドキンスピン鎖の動力学と熱化,粒子保存,明示的な運動論的制約について検討した。 我々は、運動エネルギーが支配するレジームとポテンシャルエネルギーが支配するレジームを調整するために、その確率点から変形を考える。 厳密な対角化、摂動理論、変分行列積状態により、確率的な点は、高速熱化の相から遅い準安定(予熱)ダイナミクスの相への遷移が起こる点であることを示す。 この緩和の変化は、大きなポテンシャルエネルギーの極限におけるヒルベルト空間の断片化につながる追加の運動論的制約の出現と関係している。 また、この遷移により、非熱的固有状態(量子多体傷)により、特別な初期条件で熱化が回避されることを示す。 これらの非熱状態の存在を,大ポテンシャルエネルギー限界から遠く離れても大系規模で示し,創発的運動論的制約との関係を説明する。

We study the dynamics and thermalization of the Fredkin spin chain, a system with local three-body interactions, particle conservation and explicit kinetic constraints. We consider deformations away from its stochastic point in order to tune between regimes where kinetic energy dominates and those where potential energy does. By means of exact diagonalisation, perturbation theory and variational matrix product states, we show that the stochastic point is where a transition occurs between a phase of fast thermalization to one of slow metastable (prethermal) dynamics. This change in relaxation is connected to the emergence of additional kinetic constraints which lead to the fragmentation of Hilbert space in the limit of a large potential energy. We also show that this transition can lead to thermalization being evaded for special initial conditions due to non-thermal eigenstates (akin to quantum many-body scars). We provide clear evidence for the existence of these non-thermal states for large system sizes even when far from the large-potential-energy limit, and explain their connection to the emergent kinetic constraints.
翻訳日:2024-03-08 16:16:29 公開日:2024-03-06
# 対向性変動に及ぼす外因性次元ギャップの影響

Effect of Ambient-Intrinsic Dimension Gap on Adversarial Vulnerability ( http://arxiv.org/abs/2403.03967v1 )

ライセンス: Link先を確認
Rajdeep Haldar, Yue Xing, Qifan Song(参考訳) 人間に受け入れられない機械学習モデルに対する敵対的攻撃の存在は、理論的観点からはまだかなりの謎である。 本研究では,人間/オラクルが認識可能な自然またはオンマニフォールド攻撃と,そうでない非自然またはオフマニフォールド攻撃の2つの概念を導入する。 オフマニフォールド攻撃の存在は、データの内在的次元と外在的次元の間の次元ギャップの自然な結果であると主張する。 2層ReLUネットワークの場合、次元ギャップが観測データ空間から引き出されたサンプルの一般化性能に影響を与えないにもかかわらず、クリーントレーニングされたモデルはデータ空間のオフマンフォールド方向の逆摂動に対してより脆弱であることを示す。 我々の主な結果は,on/off-manifold攻撃の$\ell_2,\ell_{\infty}$攻撃強度と次元ギャップの関係を示す。

The existence of adversarial attacks on machine learning models imperceptible to a human is still quite a mystery from a theoretical perspective. In this work, we introduce two notions of adversarial attacks: natural or on-manifold attacks, which are perceptible by a human/oracle, and unnatural or off-manifold attacks, which are not. We argue that the existence of the off-manifold attacks is a natural consequence of the dimension gap between the intrinsic and ambient dimensions of the data. For 2-layer ReLU networks, we prove that even though the dimension gap does not affect generalization performance on samples drawn from the observed data space, it makes the clean-trained model more vulnerable to adversarial perturbations in the off-manifold direction of the data space. Our main results provide an explicit relationship between the $\ell_2,\ell_{\infty}$ attack strength of the on/off-manifold attack and the dimension gap.
翻訳日:2024-03-08 16:15:44 公開日:2024-03-06
# 大規模言語モデルは分析的推論が可能か?

Can Large Language Models do Analytical Reasoning? ( http://arxiv.org/abs/2403.04031v1 )

ライセンス: Link先を確認
Yebowen Hu, Kaiqiang Song, Sangwoo Cho, Xiaoyang Wang, Hassan Foroosh, Dong Yu, Fei Liu(参考訳) 本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。 私たちの分析的推論は、NBAとNFLの4分の1で各チームが得点したポイント数を、大きな言語モデルにカウントさせるタスクを具現化しています。 私たちの主な発見は2つある。 まず、我々が採用した全てのモデルのうち、GPT-4が有効であり、続いてClaude-2.1、GPT-3.5、Gemini-Pro、Llama-2-70bが遅れている。 具体的には、3つの異なるプロンプト技術と分割・コンカレントアプローチを比較し、後者が最も効果的であることが判明した。 我々の分別商法は、プレイ・バイ・プレイのデータをより小さく、より管理しやすいセグメントに分割し、各ピースを個別に解き、それらを集約する。 特にgpt-4やclaude-2.1といった特定のモデルの成果を著しく改善し、その正確性が大幅に向上する思考(cot)戦略についても検討した。 しかし、cot戦略はgpt-3.5やgemini-proといった他のモデルの性能に悪影響を及ぼさない。 第2に、GPT-4を含むほとんどのモデルでは、NFLのクォーターの得点は高いが、NBAのクォーターの総得点を正確に数えるのに苦労している。 この結果、分析的推論タスクの複雑さに影響を与える要因を広範囲な実験によってさらに検討し、タスクの複雑さは文脈の長さ、情報密度、関連する情報の存在に依存すると結論づける。 本研究は,解析的推論タスクの複雑さと将来の大規模言語モデル開発に向けた潜在的方向性に関する貴重な知見を提供する。

This paper explores the cutting-edge Large Language Model with analytical reasoning on sports. Our analytical reasoning embodies the tasks of letting large language models count how many points each team scores in a quarter in the NBA and NFL games. Our major discoveries are in two folds. Firstly, we find among all the models we employed, GPT-4 stands out in effectiveness, followed by Claude-2.1, with GPT-3.5, Gemini-Pro, and Llama-2-70b lagging behind. Specifically, we compare three different prompting techniques and a divide-and-conquer approach, we find that the latter was the most effective. Our divide-and-conquer approach breaks down play-by-play data into smaller, more manageable segments, solves each piece individually, and then aggregates them together. Besides the divide-and-conquer approach, we also explore the Chain of Thought (CoT) strategy, which markedly improves outcomes for certain models, notably GPT-4 and Claude-2.1, with their accuracy rates increasing significantly. However, the CoT strategy has negligible or even detrimental effects on the performance of other models like GPT-3.5 and Gemini-Pro. Secondly, to our surprise, we observe that most models, including GPT-4, struggle to accurately count the total scores for NBA quarters despite showing strong performance in counting NFL quarter scores. This leads us to further investigate the factors that impact the complexity of analytical reasoning tasks with extensive experiments, through which we conclude that task complexity depends on the length of context, the information density, and the presence of related information. Our research provides valuable insights into the complexity of analytical reasoning tasks and potential directions for developing future large language models.
翻訳日:2024-03-08 16:08:01 公開日:2024-03-06
# プライバシー保護型大規模言語モデルと多型アノテーションによる胸部X線データセットの強化--分類改善のためのデータ駆動アプローチ

Enhancing chest X-ray datasets with privacy-preserving large language models and multi-type annotations: a data-driven approach for improved classification ( http://arxiv.org/abs/2403.04024v1 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Pritam Mukherjee, Ronald Summers(参考訳) 胸部x線(cxr)画像解析では、通常、規則に基づくシステムはレポートからラベルを抽出するために用いられるが、ラベルの品質に関する懸念がある。 これらのデータセットは、通常、存在ラベルのみを提供し、時にはバイナリ不確実性指標を持ち、有用性を制限する。 本研究では,局所的に実行可能なLarge Language Model (LLM) を利用して,CXRレポートの発見ラベルを抽出し,拡張する手法であるMAPLEZ(Medical Report Annotations with Privacy-serving Large Language Model using Expeditious Zero shot answer)を提案する。 MAPLEZは、発見の有無を示すバイナリラベルだけでなく、発見に関する場所、重症度、放射線学者の不確実性も抽出する。 提案手法は,5つのテストセットから8点以上の異常を抽出し,F1の5ポイント (pp) をカテゴリー的存在アノテーションに用い,F1の30pp以上を競合ラベルに用い,これらのアノテーションを抽出できることを示す。 さらに,これらの改良されたアノテーションを分類管理に使用することにより,最先端のアプローチでアノテーションをトレーニングしたモデルに対して,aurocの1.7ppの増加によって,モデル品質が大幅に向上することを示す。 コードとアノテーションを共有しています。

In chest X-ray (CXR) image analysis, rule-based systems are usually employed to extract labels from reports, but concerns exist about label quality. These datasets typically offer only presence labels, sometimes with binary uncertainty indicators, which limits their usefulness. In this work, we present MAPLEZ (Medical report Annotations with Privacy-preserving Large language model using Expeditious Zero shot answers), a novel approach leveraging a locally executable Large Language Model (LLM) to extract and enhance findings labels on CXR reports. MAPLEZ extracts not only binary labels indicating the presence or absence of a finding but also the location, severity, and radiologists' uncertainty about the finding. Over eight abnormalities from five test sets, we show that our method can extract these annotations with an increase of 5 percentage points (pp) in F1 score for categorical presence annotations and more than 30 pp increase in F1 score for the location annotations over competing labelers. Additionally, using these improved annotations in classification supervision, we demonstrate substantial advancements in model quality, with an increase of 1.7 pp in AUROC over models trained with annotations from the state-of-the-art approach. We share code and annotations.
翻訳日:2024-03-08 16:07:30 公開日:2024-03-06
# 監視高調波鎖における拡散的絡み合い成長

Diffusive entanglement growth in a monitored harmonic chain ( http://arxiv.org/abs/2403.04022v1 )

ライセンス: Link先を確認
Thomas Young, Dimitri M. Gangardt, Curt von Keyserlingk(参考訳) 長尺以上でスミアアウトした可観測物の弱い測定条件下での高調波振動子鎖の絡み合い成長について検討した。 測定尺度 r$ が十分大きいと、エンタングルメントは初期ガウス状態の大きいクラスに対して微分的に (s \sim t^{1/2}$) 増加することが分かる。 後期に$t \gtrsim \mathcal{o}(l^{2})$ エントロピーは正確に計算する領域ロー値に向かって緩和する。 我々は,これらの特徴をすべて考慮し,本質的には正確な数値計算結果と定量的に一致する準粒子画像の修正を提案する。 準粒子は非エルミート有効ハミルトニアンのモードと関連している。 小さな波動ベクトル $k$ では、準粒子は有限の速度でエントロピーを輸送するが、寿命は 1/k^2$ となる。

We study entanglement growth in a harmonic oscillator chain subjected to the weak measurement of observables which have been smeared-out over a length scale $R$. We find that entanglement grows diffusively ($S \sim t^{1/2}$) for a large class of initial Gaussian states provided the measurement scale $R$ is sufficiently large. At late times $t \gtrsim \mathcal{O}(L^{2})$ the entropy relaxes towards an area-law value which we compute exactly. We propose a modified quasi-particle picture which accounts for all of these main features and agrees quantitatively well with our essentially exact numerical results. The quasiparticles are associated with the modes of a non-Hermitian effective Hamiltonian. At small wave-vector $k$, the quasiparticles transport entropy with a finite velocity, but have a lifetime scaling as $1/k^2$; the concurrence of these two conditions leads directly to the observed $t^{1/2}$ growth.
翻訳日:2024-03-08 16:07:03 公開日:2024-03-06
# 学習ガイドによる自動推論: 簡単な調査

Learning Guided Automated Reasoning: A Brief Survey ( http://arxiv.org/abs/2403.04017v1 )

ライセンス: Link先を確認
Lasse Blaauwbroek, David Cerna, Thibault Gauthier, Jan Jakub\r{u}v, Cezary Kaliszyk, Martin Suda, Josef Urban(参考訳) 自動定理プロバー(automated theorem provers)と形式証明アシスタント(formal proof assistants)は、理論上任意に難しい定理を証明できる一般的な推論システムである。 しかし実際には、このようなシステムは大きな組合せの爆発に直面しており、多くのヒューリスティックや選択点が含まれており、その性能に大きな影響を与えている。 これはトレーニングされた機械学習予測者にとっての機会であり、そのような推論システムの作業を導くことができる。 逆に、論理的に妥当な証明という概念によって支持される帰納的探索は、大きな推論コーパスで機械学習システムを訓練することができる。 このような証明は、通常、構造によって正しいものであり、より正確に訓練された指導と組み合わせると、長い推論チェーンとおそらく新しい証明アイデアを持つ非常に大きなコーパスへと押し上げられる。 本稿では,いくつかの自動推論・定理証明領域と,これまでに開発されてきた学習・AI手法の概要について述べる。 これには前提選択、いくつかの設定での証明ガイダンス、推論と学習を繰り返すAIシステムとフィードバックループ、象徴的な分類問題が含まれる。

Automated theorem provers and formal proof assistants are general reasoning systems that are in theory capable of proving arbitrarily hard theorems, thus solving arbitrary problems reducible to mathematics and logical reasoning. In practice, such systems however face large combinatorial explosion, and therefore include many heuristics and choice points that considerably influence their performance. This is an opportunity for trained machine learning predictors, which can guide the work of such reasoning systems. Conversely, deductive search supported by the notion of logically valid proof allows one to train machine learning systems on large reasoning corpora. Such bodies of proof are usually correct by construction and when combined with more and more precise trained guidance they can be boostrapped into very large corpora, with increasingly long reasoning chains and possibly novel proof ideas. In this paper we provide an overview of several automated reasoning and theorem proving domains and the learning and AI methods that have been so far developed for them. These include premise selection, proof guidance in several settings, AI systems and feedback loops iterating between reasoning and learning, and symbolic classification problems.
翻訳日:2024-03-08 16:06:46 公開日:2024-03-06
# シングルトレーニング強化剤によるノックオフガイド機能選択

Knockoff-Guided Feature Selection via A Single Pre-trained Reinforced Agent ( http://arxiv.org/abs/2403.04015v1 )

ライセンス: Link先を確認
Xinyuan Wang, Dongjie Wang, Wangyang Ying, Rui Xie, Haifeng Chen, Yanjie Fu(参考訳) 特徴の選択は、冗長な特徴を排除してデータのAI可読性を準備する。 先行研究は2つの主要なカテゴリに分類される。 一 目的変数の関連性に基づいて最適な特徴サブセットを識別する改良された特徴選択 二 対象変数を使わずに、特徴セット内の必須情報を取得することにより特徴空間の寸法を小さくする無監督特徴選択 しかし、SFSアプローチは、ターゲット変数と下流MLタスクに依存するため、時間を要するプロセスと限定的な一般化性に悩まされる。 UFSメソッドはデダクトされた特徴空間によって制約され、遅延可能で追跡不能である。 これらの課題に対処するため、我々は、機能選択のための革新的なフレームワークを導入し、機能選択をノックオフ機能に導かれ、強化学習によって最適化し、最適かつ効果的な機能サブセットを特定する。 本手法では,元の特徴の分布と特徴を再現するが,対象変数とは独立な「ノックオフ」特徴を生成する。 各機能には、すべてのノックオフ機能との相関に基づいて擬似ラベルが割り当てられ、機能評価のための新しい指標となる。 提案手法は,これらの擬似ラベルを用いて,単一の強化エージェントによって最適化された3つの新しい特徴選択過程を導出する。 特徴選択における探索プロセスの有効性を向上させるために,原特徴とそれに対応する擬似ラベルを事前訓練した深部Qネットワークが用いられている。 2). 擬似ラベルと特徴空間再構成損失に基づいて特徴部分品質を評価するための教師なし報酬を導入し、対象変数への依存性を減らす。 3). 機能選択プロセスをより効果的にするために、擬似ラベルからの洞察を取り入れた新しい「eepsilon}-greedy」戦略が使用される。

Feature selection prepares the AI-readiness of data by eliminating redundant features. Prior research falls into two primary categories: i) Supervised Feature Selection, which identifies the optimal feature subset based on their relevance to the target variable; ii) Unsupervised Feature Selection, which reduces the feature space dimensionality by capturing the essential information within the feature set instead of using target variable. However, SFS approaches suffer from time-consuming processes and limited generalizability due to the dependence on the target variable and downstream ML tasks. UFS methods are constrained by the deducted feature space is latent and untraceable. To address these challenges, we introduce an innovative framework for feature selection, which is guided by knockoff features and optimized through reinforcement learning, to identify the optimal and effective feature subset. In detail, our method involves generating "knockoff" features that replicate the distribution and characteristics of the original features but are independent of the target variable. Each feature is then assigned a pseudo label based on its correlation with all the knockoff features, serving as a novel metric for feature evaluation. Our approach utilizes these pseudo labels to guide the feature selection process in 3 novel ways, optimized by a single reinforced agent: 1). A deep Q-network, pre-trained with the original features and their corresponding pseudo labels, is employed to improve the efficacy of the exploration process in feature selection. 2). We introduce unsupervised rewards to evaluate the feature subset quality based on the pseudo labels and the feature space reconstruction loss to reduce dependencies on the target variable. 3). A new {\epsilon}-greedy strategy is used, incorporating insights from the pseudo labels to make the feature selection process more effective.
翻訳日:2024-03-08 16:06:27 公開日:2024-03-06
# PromptCharm:マルチモーダルプロンプトとリファインメントによるテキスト・ツー・イメージ生成

PromptCharm: Text-to-Image Generation through Multi-modal Prompting and Refinement ( http://arxiv.org/abs/2403.04014v1 )

ライセンス: Link先を確認
Zhijie Wang, Yuheng Huang, Da Song, Lei Ma, Tianyi Zhang(参考訳) 最近の生成aiの進歩は、テキスト対画像生成の分野を大きく進歩させた。 最先端のテキスト・画像モデルであるStable Diffusionは、美学の強い感覚で高品質な画像の合成が可能になった。 モデルの解釈に合致するテキストプロンプトを作成することで、ユーザの意図が決定的に重要になります。 しかし,安定拡散モデルの複雑さとテキストプロンプトの反復編集・精細化に必要な非自明な努力により,初心者ユーザにとってプロンプトは依然として困難である。 これらの課題に対処するため,我々は,マルチモーダルプロンプトエンジニアリングとリファインメントによるテキスト対画像生成を容易にする混合イニシアティブシステムpromptencharmを提案する。 初心者のプロンプトを補助するために、PromptCharmはユーザーの初期プロンプトを自動的に洗練し最適化する。 さらに PromptCharm は,大規模データベース内のさまざまなイメージスタイルの探索と選択をサポートする。 ユーザがプロンプトとイメージを効果的に洗練できるようにするため、promptcharmはモデルの注意値を視覚化してモデル説明をレンダリングする。 ユーザが生成した画像の満足できない領域に気付くと、PromptCharmのリッチなフィードバックループ内で、モデルアテンション調整やイメージインペインティングを通じて、さらに画像を洗練することができる。 PromptCharmの有効性とユーザビリティを評価するため,12名の被験者による制御されたユーザスタディと,12名の参加者による探索的ユーザスタディを行った。 これらの2つの研究は、PromptCharmを使用する参加者が、対話や視覚化のサポートが欠如している2種類のPromptCharmを使用する場合と比較して、高品質でユーザの期待に合致した画像を作成することができたことを示している。

The recent advancements in Generative AI have significantly advanced the field of text-to-image generation. The state-of-the-art text-to-image model, Stable Diffusion, is now capable of synthesizing high-quality images with a strong sense of aesthetics. Crafting text prompts that align with the model's interpretation and the user's intent thus becomes crucial. However, prompting remains challenging for novice users due to the complexity of the stable diffusion model and the non-trivial efforts required for iteratively editing and refining the text prompts. To address these challenges, we propose PromptCharm, a mixed-initiative system that facilitates text-to-image creation through multi-modal prompt engineering and refinement. To assist novice users in prompting, PromptCharm first automatically refines and optimizes the user's initial prompt. Furthermore, PromptCharm supports the user in exploring and selecting different image styles within a large database. To assist users in effectively refining their prompts and images, PromptCharm renders model explanations by visualizing the model's attention values. If the user notices any unsatisfactory areas in the generated images, they can further refine the images through model attention adjustment or image inpainting within the rich feedback loop of PromptCharm. To evaluate the effectiveness and usability of PromptCharm, we conducted a controlled user study with 12 participants and an exploratory user study with another 12 participants. These two studies show that participants using PromptCharm were able to create images with higher quality and better aligned with the user's expectations compared with using two variants of PromptCharm that lacked interaction or visualization support.
翻訳日:2024-03-08 16:06:01 公開日:2024-03-06
# whodunit: 人間が書いたコードやgpt-4が生成したコードに分類する -- codechef問題に関するケーススタディ

Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A case study on CodeChef problems ( http://arxiv.org/abs/2403.04013v1 )

ライセンス: Link先を確認
Oseremen Joy Idialu, Noble Saji Mathews, Rungroj Maipradit, Joanne M. Atlee, Mei Nagappan(参考訳) GPT-4のような大規模言語モデル上に構築されたGitHub CopilotやChatGPTといった人工知能(AI)アシスタントは、プログラミングタスクの実行方法に革命を起こし、生成AIモデルによってコードが認可されるかどうかに関する疑問を提起している。 このような質問は、教育者にとって特に関心があり、これらのツールが、学生がAI生成コードを自身の仕事として提出する、新しいタイプの学術的不正を可能にすることを心配している。 本研究は, GPT-4の生成したコードと人為的なコードとを区別するために, コードスタイメトリーと機械学習を用いることの可能性を検討する。 我々のデータセットは、CodeChefとGPT-4で生成されたAIによるソリューションからなる。 F1スコアとAUC-ROCスコアは0.91。 ゲーム可能な特徴(空行や空白など)を除外した分類器の変種は、f1-scoreとauc-rocスコア0.89で依然として良好である。 また,プログラムの難易度に関して,分類器の評価を行い,より容易な問題と中間的な問題にはほとんど差がないことを確認した。 本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。

Artificial intelligence (AI) assistants such as GitHub Copilot and ChatGPT, built on large language models like GPT-4, are revolutionizing how programming tasks are performed, raising questions about whether code is authored by generative AI models. Such questions are of particular interest to educators, who worry that these tools enable a new form of academic dishonesty, in which students submit AI generated code as their own work. Our research explores the viability of using code stylometry and machine learning to distinguish between GPT-4 generated and human-authored code. Our dataset comprises human-authored solutions from CodeChef and AI-authored solutions generated by GPT-4. Our classifier outperforms baselines, with an F1-score and AUC-ROC score of 0.91. A variant of our classifier that excludes gameable features (e.g., empty lines, whitespace) still performs well with an F1-score and AUC-ROC score of 0.89. We also evaluated our classifier with respect to the difficulty of the programming problem and found that there was almost no difference between easier and intermediate problems, and the classifier performed only slightly worse on harder problems. Our study shows that code stylometry is a promising approach for distinguishing between GPT-4 generated code and human-authored code.
翻訳日:2024-03-08 16:05:28 公開日:2024-03-06
# マルチモーダル電子健康記録の動的埋め込みとトークン化のための時間的クロスタッチ

Temporal Cross-Attention for Dynamic Embedding and Tokenization of Multimodal Electronic Health Records ( http://arxiv.org/abs/2403.04012v1 )

ライセンス: Link先を確認
Yingbo Ma, Suraj Kolla, Dhruv Kaliraman, Victoria Nolan, Zhenhong Hu, Ziyuan Guan, Yuanfang Ren, Brooke Armfield, Tezcan Ozrazgat-Baslanti, Tyler J. Loftus, Parisa Rashidi, Azra Bihorac, Benjamin Shickel(参考訳) 現代の電子健康記録(ehr)システムの広さ、規模、時間的粒度は、逐次的ディープラーニングを用いたパーソナライズドおよびコンテクスト患者の健康状態の軌跡を推定する上で大きな可能性を秘めている。 しかし,高次元性,空間性,多モード性,不規則かつ可変固有な記録周波数,複数測定を同時に記録する場合のタイムスタンプ重複など,EHRデータの有用な表現の学習は困難である。 構造化EHRと非構造化臨床ノートを融合する最近の試みは、より正確な臨床結果の予測の可能性を示しているが、マルチモーダルな患者時系列からタイムアウェアな表現を学習することで、時間的EHRの課題に直接対処するEHR埋め込みアプローチにはあまり焦点が当てられていない。 本稿では,時間と逐次位置を時間的交叉によりエンコードする新しい手法を組み合わせたマルチモーダル臨床時系列の高精度表現のための動的埋め込み・トークン化フレームワークを提案する。 本研究は,スライディングウインドウに注意を向けたマルチタスク変圧器に組み込む際に,米国内の3つの病院と2つの学術医療センターのマルチモーダルデータを用いて,12万以上の入院患者の術後合併症の発生を予測するための基礎的手法を上回っている。

The breadth, scale, and temporal granularity of modern electronic health records (EHR) systems offers great potential for estimating personalized and contextual patient health trajectories using sequential deep learning. However, learning useful representations of EHR data is challenging due to its high dimensionality, sparsity, multimodality, irregular and variable-specific recording frequency, and timestamp duplication when multiple measurements are recorded simultaneously. Although recent efforts to fuse structured EHR and unstructured clinical notes suggest the potential for more accurate prediction of clinical outcomes, less focus has been placed on EHR embedding approaches that directly address temporal EHR challenges by learning time-aware representations from multimodal patient time series. In this paper, we introduce a dynamic embedding and tokenization framework for precise representation of multimodal clinical time series that combines novel methods for encoding time and sequential position with temporal cross-attention. Our embedding and tokenization framework, when integrated into a multitask transformer classifier with sliding window attention, outperformed baseline approaches on the exemplar task of predicting the occurrence of nine postoperative complications of more than 120,000 major inpatient surgeries using multimodal data from three hospitals and two academic health centers in the United States.
翻訳日:2024-03-08 16:05:01 公開日:2024-03-06
# ノードレベルグラフ異常検出の3つの再考:アウトレーヤ、メッセージパッシング、双曲ニューラルネットワーク

Three Revisits to Node-Level Graph Anomaly Detection: Outliers, Message Passing and Hyperbolic Neural Networks ( http://arxiv.org/abs/2403.04010v1 )

ライセンス: Link先を確認
Jing Gu, Dongmian Zou(参考訳) グラフ異常検出は、複雑なネットワークにおける異常インスタンスを特定する上で重要な役割を果たす。 近年のディープラーニングに基づく方法論の進歩にもかかわらず、既存のベンチマーク手法は包括的な比較を妨げる限界を示す。 本稿では,教師なしノードレベルグラフ異常検出タスクのデータセットとアプローチを3つの側面から再検討する。 まず,グラフデータセットにおいて,より多様なグラフベースの異常を発生させるアウトリーインジェクション手法を提案する。 第2に,メッセージパッシングに伴なう性能の予期せぬ低下を明らかにするため,メッセージパッシングを不要者と比較した。 第3に,双曲型ニューラルネットワークの利用を探求し,性能向上に寄与する重要なアーキテクチャと損失設計を特定する。 厳密な実験と評価を通じて,ノードレベルのグラフ異常検出法を改善するための一般的な戦略を明らかにした。

Graph anomaly detection plays a vital role for identifying abnormal instances in complex networks. Despite advancements of methodology based on deep learning in recent years, existing benchmarking approaches exhibit limitations that hinder a comprehensive comparison. In this paper, we revisit datasets and approaches for unsupervised node-level graph anomaly detection tasks from three aspects. Firstly, we introduce outlier injection methods that create more diverse and graph-based anomalies in graph datasets. Secondly, we compare methods employing message passing against those without, uncovering the unexpected decline in performance associated with message passing. Thirdly, we explore the use of hyperbolic neural networks, specifying crucial architecture and loss design that contribute to enhanced performance. Through rigorous experiments and evaluations, our study sheds light on general strategies for improving node-level graph anomaly detection methods.
翻訳日:2024-03-08 16:04:32 公開日:2024-03-06
# メディアバイアス : ソーシャルメディアのワクチンに対する政治的バイアスのあるニュースの影響を理解する

Media Bias Matters: Understanding the Impact of Politically Biased News on Vaccine Attitudes in Social Media ( http://arxiv.org/abs/2403.04009v1 )

ライセンス: Link先を確認
Bohan Jiang, Lu Cheng, Zhen Tan, Ruocheng Guo, Huan Liu(参考訳) ニュースメディアは事実から遠ざかる政治的手段として利用され、証拠のない偏見のある主張を提示している。 新型コロナウイルス(covid-19)のパンデミックの中で、政治的に偏ったニュース(pbn)はワクチンに対する公衆の信頼を著しく損なっている。 本稿では,その分析を行う。 一 固有のワクチンの姿勢が個人によるニュースソースの選択及びソーシャルメディアの議論への参加にどのように影響するか (II) PBNへの曝露がワクチンに対する利用者の態度に及ぼす影響。 そこで我々はまず,PBNと関連するソーシャルメディアの会話を結びつける包括的データセットをキュレートする。 高度な深層学習と因果推論技術を用いて,様々なワクチンスタンスを持つソーシャルメディアグループ間で異なるユーザ行動を示す。 さらに, 適度なスタンス, 特にワクチンを投与した多数派は, 極端な視点に比べて, PBNの影響に弱いことが観察された。 私たちの発見は、この研究を育む上で重要な洞察を与えます。

News media has been utilized as a political tool to stray from facts, presenting biased claims without evidence. Amid the COVID-19 pandemic, politically biased news (PBN) has significantly undermined public trust in vaccines, despite strong medical evidence supporting their efficacy. In this paper, we analyze: (i) how inherent vaccine stances subtly influence individuals' selection of news sources and participation in social media discussions; and (ii) the impact of exposure to PBN on users' attitudes toward vaccines. In doing so, we first curate a comprehensive dataset that connects PBN with related social media discourse. Utilizing advanced deep learning and causal inference techniques, we reveal distinct user behaviors between social media groups with various vaccine stances. Moreover, we observe that individuals with moderate stances, particularly the vaccine-hesitant majority, are more vulnerable to the influence of PBN compared to those with extreme views. Our findings provide critical insights to foster this line of research.
翻訳日:2024-03-08 16:04:20 公開日:2024-03-06
# サンプリングに基づく非線形力学系の安全強化学習

Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical Systems ( http://arxiv.org/abs/2403.04007v1 )

ライセンス: Link先を確認
Wesley A. Suttle, Vipul K. Sharma, Krishna C. Kosaraju, S. Sivaranjani, Ji Liu, Vijay Gupta, Brian M. Sadler(参考訳) 非線形力学系の制御において, 制御理論のハードセーフ保証とRL理論の収束保証とのギャップを埋めて, 確実に安全かつ収束した強化学習(RL)アルゴリズムを開発する。 制御とRLの交差点における最近の進歩は、ハードセーフな制約を強制するための2段階の安全フィルタアプローチに従っている: モデルフリーのRLは、例えば制御バリア関数によって所定の安全セットに動作を投影する潜在的に安全でないコントローラを学習するために使用される。 安全ではあるが、そのような手法は根底にあるRL法で得られる収束保証を失う。 本稿では,古典的なコンバージェンス保証を享受するRLコントローラを学習し,トレーニングとデプロイメントを通じてハードセーフティ制約を満たす一段階のサンプリングベースアプローチを開発する。 本研究は,障害物回避問題におけるクワッドコプターの安全制御を含むシミュレーション手法の有効性を検証し,既存のベンチマークよりも優れていることを示す。

We develop provably safe and convergent reinforcement learning (RL) algorithms for control of nonlinear dynamical systems, bridging the gap between the hard safety guarantees of control theory and the convergence guarantees of RL theory. Recent advances at the intersection of control and RL follow a two-stage, safety filter approach to enforcing hard safety constraints: model-free RL is used to learn a potentially unsafe controller, whose actions are projected onto safe sets prescribed, for example, by a control barrier function. Though safe, such approaches lose any convergence guarantees enjoyed by the underlying RL methods. In this paper, we develop a single-stage, sampling-based approach to hard constraint satisfaction that learns RL controllers enjoying classical convergence guarantees while satisfying hard safety constraints throughout training and deployment. We validate the efficacy of our approach in simulation, including safe control of a quadcopter in a challenging obstacle avoidance problem, and demonstrate that it outperforms existing benchmarks.
翻訳日:2024-03-08 16:04:01 公開日:2024-03-06
# Piquasso: フォトニック量子コンピュータシミュレーションソフトウェアプラットフォーム

Piquasso: A Photonic Quantum Computer Simulation Software Platform ( http://arxiv.org/abs/2403.04006v1 )

ライセンス: Link先を確認
Zolt\'an Kolarovszki and Tomasz Rybotycki and P\'eter Rakyta and \'Agoston Kaposi and Boldizs\'ar Po\'or and Szabolcs J\'oczik and D\'aniel T. R. Nagy and Henrik Varga and Kareem H. El-Safty and Gregory Morse and Micha{\l} Oszmaniec and Tam\'as Kozsik and Zolt\'an Zimbor\'as(参考訳) 我々は、フォトニック量子コンピュータのシミュレーションとプログラミングのためのフルスタックのオープンソースソフトウェアプラットフォームであるpiquasso quantum programming frameworkを紹介する。 PiquassoはハイレベルなPythonプログラミングインターフェースでプログラムでき、ユーザーは離散変数と連続変数で効率的な量子コンピューティングを実行できる。 オプションの高性能c++バックエンドにより、piquassoはフォトニック量子コンピュータのシミュレーションにおいて最先端のパフォーマンスを提供する。 Piquassoフレームワークは直感的なWebベースのグラフィカルユーザインターフェースによってサポートされており、ユーザは量子回路を設計し、計算を実行し、結果を視覚化することができる。

We introduce the Piquasso quantum programming framework, a full-stack open-source software platform for the simulation and programming of photonic quantum computers. Piquasso can be programmed via a high-level Python programming interface enabling users to perform efficient quantum computing with discrete and continuous variables. Via optional high-performance C++ backends, Piquasso provides state-of-the-art performance in the simulation of photonic quantum computers. The Piquasso framework is supported by an intuitive web-based graphical user interface where the users can design quantum circuits, run computations, and visualize the results.
翻訳日:2024-03-08 16:03:44 公開日:2024-03-06
# 確率的系列モデルの効率よい行列化について

On the Efficient Marginalization of Probabilistic Sequence Models ( http://arxiv.org/abs/2403.04005v1 )

ライセンス: Link先を確認
Alex Boyd(参考訳) 実世界のデータは、人間の行動、医学、金融、気候モデリングといった様々な領域に連続的に依存していることが多い。 確率論的手法はこれらの文脈における予測に関連する固有の不確実性を捉え、自己回帰モデルは特に顕著である。 この論文は、将来のイベントのタイミングや、別のイベントの前に発生する特定のイベントの確率といった、単一ステップの予測を超える複雑な確率的クエリに、自己回帰モデルを使用することに焦点を当てている。 特に,モデル非依存な逐次モデルにおけるマージン化のための新しい効率的な近似手法を広範に開発する。 これらのテクニックは、従来のパラメトリックモデルと最近のニューラル自己回帰モデルの両方を含む、事前訓練された自己回帰モデルの次のステップ条件分布へのアクセスとサンプリングにのみ依存する。 特定のアプローチは、離散的な逐次モデル、顕著な時間点過程、確率的ジャンププロセス、それぞれがよく定義された情報的長距離確率的クエリに適合する。

Real-world data often exhibits sequential dependence, across diverse domains such as human behavior, medicine, finance, and climate modeling. Probabilistic methods capture the inherent uncertainty associated with prediction in these contexts, with autoregressive models being especially prominent. This dissertation focuses on using autoregressive models to answer complex probabilistic queries that go beyond single-step prediction, such as the timing of future events or the likelihood of a specific event occurring before another. In particular, we develop a broad class of novel and efficient approximation techniques for marginalization in sequential models that are model-agnostic. These techniques rely solely on access to and sampling from next-step conditional distributions of a pre-trained autoregressive model, including both traditional parametric models as well as more recent neural autoregressive models. Specific approaches are presented for discrete sequential models, for marked temporal point processes, and for stochastic jump processes, each tailored to a well-defined class of informative, long-range probabilistic queries.
翻訳日:2024-03-08 16:03:35 公開日:2024-03-06
# 創発的タスクシークエンシングとロボットスキル伝達のためのエピソディック・リターン・プログレス付き双方向進行型ニューラルネットワーク

Bidirectional Progressive Neural Networks with Episodic Return Progress for Emergent Task Sequencing and Robotic Skill Transfer ( http://arxiv.org/abs/2403.04001v1 )

ライセンス: Link先を確認
Suzan Ece Ada, Hanne Say, Emre Ugur, Erhan Oztop(参考訳) 人間の脳と行動は、ロボット工学の新しい制御と学習方法を刺激する豊富な場所を提供する。 本研究では,タスク間の知識獲得と伝達スキルの育成をめざして,多タスク強化学習フレームワークであるEpsodic Return Progress with Bidirectional Progressive Neural Networks (ERP-BPNN)を導入する。 提案するerp-bpnnモデル(1)は,新たな本質的モチベーション信号に基づく自律的なタスクスイッチングと,既存の手法とは対照的に,タスク間の双方向のスキル伝達を可能にする。 erp-bpnnは、複数のマルチタスク学習環境に適用可能な汎用アーキテクチャであり、本論文では、そのニューラルアーキテクチャの詳細と、到達タスクにおける形態的異なるロボット間の効果的な学習とスキル伝達を可能にする能力を示す。 開発した双方向プログレッシブニューラルネットワーク(bpnn)アーキテクチャは,インクリメンタルなトレーニングを必要とせず,オンラインタスク調停とシームレスに統合可能な双方向スキル転送を実現する。 開発したタスク調停機構は、新しい本質的モチベーション(im)信号であるsoft episodic return progress(erp)に基づいている。 提案手法の評価には,強化学習に共通する報酬に基づく回帰帰納度測定に加えて,「目標への予測距離」や「パスストレートネス」などの定量化ロボティクス指標を用いる。 シミュレーション実験により,ERP-BPNNによる累積収束の高速化と,形態学的に異なるロボットに比較して,全ての指標の性能向上が示された。

Human brain and behavior provide a rich venue that can inspire novel control and learning methods for robotics. In an attempt to exemplify such a development by inspiring how humans acquire knowledge and transfer skills among tasks, we introduce a novel multi-task reinforcement learning framework named Episodic Return Progress with Bidirectional Progressive Neural Networks (ERP-BPNN). The proposed ERP-BPNN model (1) learns in a human-like interleaved manner by (2) autonomous task switching based on a novel intrinsic motivation signal and, in contrast to existing methods, (3) allows bidirectional skill transfer among tasks. ERP-BPNN is a general architecture applicable to several multi-task learning settings; in this paper, we present the details of its neural architecture and show its ability to enable effective learning and skill transfer among morphologically different robots in a reaching task. The developed Bidirectional Progressive Neural Network (BPNN) architecture enables bidirectional skill transfer without requiring incremental training and seamlessly integrates with online task arbitration. The task arbitration mechanism developed is based on soft Episodic Return progress (ERP), a novel intrinsic motivation (IM) signal. To evaluate our method, we use quantifiable robotics metrics such as 'expected distance to goal' and 'path straightness' in addition to the usual reward-based measure of episodic return common in reinforcement learning. With simulation experiments, we show that ERP-BPNN achieves faster cumulative convergence and improves performance in all metrics considered among morphologically different robots compared to the baselines.
翻訳日:2024-03-08 16:03:16 公開日:2024-03-06
# 大規模言語モデルによる列挙型プログラム合成の誘導

Guiding Enumerative Program Synthesis with Large Language Models ( http://arxiv.org/abs/2403.03997v1 )

ライセンス: Link先を確認
Yixuan Li, Julian Parsert, Elizabeth Polgreen(参考訳) 事前訓練された大規模言語モデル(LLM)は、自然言語仕様による自動コード生成に関する議論を支配し始めている。 対照的に、正確な論理仕様を持つ形式的合成の領域において最もパフォーマンスの高いシンセサイザーは、まだ数え上げアルゴリズムに基づいている。 本稿では,LLMが正規合成ベンチマークを解く能力について,ドメインのプロンプトライブラリを慎重に構築することで評価する。 単発合成が失敗すると、LLMへの呼び出しを重み付き確率探索に統合する新しい列挙合成アルゴリズムを提案する。 これにより、シンセサイザーは、enumeratorの進行状況に関する情報をLLMに提供し、enumeratorは反復ループで構文誘導を行うことができる。 本手法をsyntax-guided synthesis (sygus) コンペティタからベンチマークで評価した。 定型合成のための単独ツールとしてのgpt-3.5は最先端の定型合成アルゴリズムでは容易に優れているが,本手法ではllmを列挙型合成アルゴリズムに統合することで,llmと列挙型シンセサイザーのみ,および勝利するsygus競合ツールに対して有意な性能向上を示す。

Pre-trained Large Language Models (LLMs) are beginning to dominate the discourse around automatic code generation with natural language specifications. In contrast, the best-performing synthesizers in the domain of formal synthesis with precise logical specifications are still based on enumerative algorithms. In this paper, we evaluate the abilities of LLMs to solve formal synthesis benchmarks by carefully crafting a library of prompts for the domain. When one-shot synthesis fails, we propose a novel enumerative synthesis algorithm, which integrates calls to an LLM into a weighted probabilistic search. This allows the synthesizer to provide the LLM with information about the progress of the enumerator, and the LLM to provide the enumerator with syntactic guidance in an iterative loop. We evaluate our techniques on benchmarks from the Syntax-Guided Synthesis (SyGuS) competition. We find that GPT-3.5 as a stand-alone tool for formal synthesis is easily outperformed by state-of-the-art formal synthesis algorithms, but our approach integrating the LLM into an enumerative synthesis algorithm shows significant performance gains over both the LLM and the enumerative synthesizer alone and the winning SyGuS competition tool.
翻訳日:2024-03-08 16:02:43 公開日:2024-03-06
# フォーム理解におけるトランスフォーマーと言語モデル:スキャンされた文書分析の総合的考察

Transformers and Language Models in Form Understanding: A Comprehensive Review of Scanned Document Analysis ( http://arxiv.org/abs/2403.04080v1 )

ライセンス: Link先を確認
Abdelrahman Abdallah and Daniel Eberharter and Zoe Pfister and Adam Jatowt(参考訳) 本稿では,スキャンされた文書の文脈における形態理解に関する研究の包括的調査を行う。 我々はこの分野の最近の進歩とブレークスルーを掘り下げ、この困難な課題を解決する上で言語モデルとトランスフォーマーの重要性を強調した。 我々の研究方法論は、人気のある文書の詳細な分析と過去10年間のトレンドの理解の形式を含んでおり、この領域の進化に関する貴重な洞察を提供することができます。 最先端のモデルに焦点を当て,トランスフォーマーがいかにフィールドを前進させ,フォーム理解技術に革命をもたらしたかを示す。 我々の調査には、ノイズの多いスキャンされた文書の複雑さに効果的に取り組むために設計された最先端の言語モデルに関する広範な調査が含まれている。 さらに,選択したモデルの性能を評価する上で不可欠なベンチマークとなる,最新かつ最も関連性の高いデータセットの概要を示す。 これらのモデルの能力を比較して比較することにより、研究者や実践者に対して、特定のフォーム理解タスクに最適なソリューションを選択するための有用なガイダンスを提供することを目標としている。

This paper presents a comprehensive survey of research works on the topic of form understanding in the context of scanned documents. We delve into recent advancements and breakthroughs in the field, highlighting the significance of language models and transformers in solving this challenging task. Our research methodology involves an in-depth analysis of popular documents and forms of understanding of trends over the last decade, enabling us to offer valuable insights into the evolution of this domain. Focusing on cutting-edge models, we showcase how transformers have propelled the field forward, revolutionizing form-understanding techniques. Our exploration includes an extensive examination of state-of-the-art language models designed to effectively tackle the complexities of noisy scanned documents. Furthermore, we present an overview of the latest and most relevant datasets, which serve as essential benchmarks for evaluating the performance of selected models. By comparing and contrasting the capabilities of these models, we aim to provide researchers and practitioners with useful guidance in choosing the most suitable solutions for their specific form understanding tasks.
翻訳日:2024-03-08 15:56:47 公開日:2024-03-06
# 高品質擬似ラベル選択による半教師付き対話要約

Semi-Supervised Dialogue Abstractive Summarization via High-Quality Pseudolabel Selection ( http://arxiv.org/abs/2403.04073v1 )

ライセンス: Link先を確認
Jianfeng He, Hang Su, Jason Cai, Igor Shalyminov, Hwanjun Song, Saab Mansour(参考訳) semi-supervised dialogue summarization (ssds)は、モデル生成の要約を利用して、人間ラベルデータへの依存を減らし、要約モデルの性能を向上させる。 ラベルノイズに対処する一方で、以前の半教師付き学習の研究は主に自然言語理解タスクに焦点を当てており、各サンプルがユニークなラベルを持っていると仮定している。 しかし、これらの手法は生成タスクであるため、SSDSに直接適用されず、それぞれの対話を異なる方法で要約することができる。 本研究では,要約モデル品質の3つの主次元をカプセル化した新しいスコアリング手法であるsicfを提案する。 SiCFスコアを用いて,高品質な要約を含むラベルなし対話を選択し,要約モデルの学習を行う。 3つの公開データセットに関する総合的な実験は、不確実性推定におけるSiCFスコアの有効性と対話要約タスクにおける半教師あり学習の有効性を示す。 私たちのコードは \url{https://github.com/amazon-science/summarization-sicf-score} で利用可能です。

Semi-supervised dialogue summarization (SSDS) leverages model-generated summaries to reduce reliance on human-labeled data and improve the performance of summarization models. While addressing label noise, previous works on semi-supervised learning primarily focus on natural language understanding tasks, assuming each sample has a unique label. However, these methods are not directly applicable to SSDS, as it is a generative task, and each dialogue can be summarized in different ways. In this work, we propose a novel scoring approach, SiCF, which encapsulates three primary dimensions of summarization model quality: Semantic invariance (indicative of model confidence), Coverage (factual recall), and Faithfulness (factual precision). Using the SiCF score, we select unlabeled dialogues with high-quality generated summaries to train summarization models. Comprehensive experiments on three public datasets demonstrate the effectiveness of SiCF scores in uncertainty estimation and semi-supervised learning for dialogue summarization tasks. Our code is available at \url{https://github.com/amazon-science/summarization-sicf-score}.
翻訳日:2024-03-08 15:56:29 公開日:2024-03-06
# 公共バスサービスにおける混乱の予測と緩和

Forecasting and Mitigating Disruptions in Public Bus Transit Services ( http://arxiv.org/abs/2403.04072v1 )

ライセンス: Link先を確認
Chaeeun Han, Jose Paolo Talusan, Dan Freudberg, Ayan Mukhopadhyay, Abhishek Dubey, Aron Laszka(参考訳) 公共交通機関はしばしば、機械的故障や医療の緊急事態など、需要と破壊の予期せぬ変動に悩まされる。 これらの変動と混乱は、乗客の経験と交通機関の全体的な性能を損なう遅延と過密に繋がる。 このような事態を積極的に緩和するため、多くの交通機関はサービスエリア全域で車両の交換(保存)を行い、過密や破壊に苦しむ路線で車両の増備や交換を行うことができる。 しかし, 代替車両を配置する最適な場所を決定することは, ディスラプションの固有のランダム性や, 都市全体での場所選択の組合せ性により, 困難な問題となっている。 ナッシュビルの交通機関と共同で、障害予測のためのデータ駆動統計モデルと機械学習モデルを導入し、代替車両の設置場所を選択するための効率的なランダム化局所探索アルゴリズムを提案する。 本研究は,先進的破壊管理における有望な成果を実証し,交通機関がサービスの信頼性を高めるための実用的かつ容易に実装可能なソリューションを提供する。 積極的な戦略を推し進めることで、よりレジリエントでアクセス可能な公共交通機関を促進し、平等な都市移動に寄与し、最終的には公共交通に最も依存するコミュニティに利益をもたらします。

Public transportation systems often suffer from unexpected fluctuations in demand and disruptions, such as mechanical failures and medical emergencies. These fluctuations and disruptions lead to delays and overcrowding, which are detrimental to the passengers' experience and to the overall performance of the transit service. To proactively mitigate such events, many transit agencies station substitute (reserve) vehicles throughout their service areas, which they can dispatch to augment or replace vehicles on routes that suffer overcrowding or disruption. However, determining the optimal locations where substitute vehicles should be stationed is a challenging problem due to the inherent randomness of disruptions and due to the combinatorial nature of selecting locations across a city. In collaboration with the transit agency of Nashville, TN, we address this problem by introducing data-driven statistical and machine-learning models for forecasting disruptions and an effective randomized local-search algorithm for selecting locations where substitute vehicles are to be stationed. Our research demonstrates promising results in proactive disruption management, offering a practical and easily implementable solution for transit agencies to enhance the reliability of their services. Our results resonate beyond mere operational efficiency: by advancing proactive strategies, our approach fosters more resilient and accessible public transportation, contributing to equitable urban mobility and ultimately benefiting the communities that rely on public transportation the most.
翻訳日:2024-03-08 15:56:11 公開日:2024-03-06
# ハードウェア制限型ナノクアドロレータによる視覚知覚タスクのオンデバイス自己教師付き学習

On-device Self-supervised Learning of Visual Perception Tasks aboard Hardware-limited Nano-quadrotors ( http://arxiv.org/abs/2403.04071v1 )

ライセンス: Link先を確認
Elia Cereda, Manuele Rusci, Alessandro Giusti, Daniele Palossi(参考訳) サブSI{50}{\gram} ナノドロンは、学術と産業の両方で勢いを増している。 彼らの最も説得力のあるアプリケーションは、ハードウェアの厳しい制約にもかかわらず、知覚のためのディープラーニングモデルに依存している(\ie sub-\si{100}{\milli\watt}プロセッサ)。 トレーニングデータに表現されていない未知の環境にデプロイする場合、これらのモデルはドメインシフトによってパフォーマンスが低下することが多い。 この根本的な問題に対処するために,我々は初めてナノドロネスを用いたデバイス上での学習を提案し,そこでは前訓練型畳み込みニューラルネットワーク(cnn)の自己教師あり微調整を目的とする。 実世界のビジョンに基づく回帰タスクの活用により、3つの軸に沿って微調整フェーズのパフォーマンスコストトレードオフを徹底的に検討する: \textit{i}) データセットサイズ(より多くのデータが回帰パフォーマンスを増加させるが、メモリと長い計算を必要とする)、 \textit{ii}) 方法論(すべてのモデルパラメータをサブセットのみに対して微調整する)、および \textit{iii}) 自己スーパービジョン戦略。 提案手法では,超低消費電力のGWT GAP9 System-on-Chip上でのSI{22}{\second}微調整しか必要とせず,事前訓練されたベースラインに比べて平均絶対誤差が最大30%向上することを示した。 ナノドロネスによるオンデバイス学習によるドメインシフト問題に対処することは、ハードウェア制限されたロボットにとって新しい結果を示すだけでなく、ロボティクスコミュニティ全体のより一般的な進歩の基盤となる。

Sub-\SI{50}{\gram} nano-drones are gaining momentum in both academia and industry. Their most compelling applications rely on onboard deep learning models for perception despite severe hardware constraints (\ie sub-\SI{100}{\milli\watt} processor). When deployed in unknown environments not represented in the training data, these models often underperform due to domain shift. To cope with this fundamental problem, we propose, for the first time, on-device learning aboard nano-drones, where the first part of the in-field mission is dedicated to self-supervised fine-tuning of a pre-trained convolutional neural network (CNN). Leveraging a real-world vision-based regression task, we thoroughly explore performance-cost trade-offs of the fine-tuning phase along three axes: \textit{i}) dataset size (more data increases the regression performance but requires more memory and longer computation); \textit{ii}) methodologies (\eg fine-tuning all model parameters vs. only a subset); and \textit{iii}) self-supervision strategy. Our approach demonstrates an improvement in mean absolute error up to 30\% compared to the pre-trained baseline, requiring only \SI{22}{\second} fine-tuning on an ultra-low-power GWT GAP9 System-on-Chip. Addressing the domain shift problem via on-device learning aboard nano-drones not only marks a novel result for hardware-limited robots but lays the ground for more general advancements for the entire robotics community.
翻訳日:2024-03-08 15:55:45 公開日:2024-03-06
# 脆弱性認識型摂動予算を用いた敵対的トレーニングの改善

Improving Adversarial Training using Vulnerability-Aware Perturbation Budget ( http://arxiv.org/abs/2403.04070v1 )

ライセンス: Link先を確認
Olukorede Fakorede, Modeste Atsague, Jin Tian(参考訳) 敵対的訓練(AT)は、敵対的攻撃に対するディープニューラルネットワーク(DNN)の堅牢性を効果的に改善する。 一般にATは、事前定義された固定摂動境界内で得られた逆例を持つDNNモデルを訓練する。 特に、これらの逆転例が作成される個々の自然例は、固有の脆弱性の程度が異なるため、全ての事例に対して一定の摂動半径を持つ逆転例を作成することは、ATの効力を十分に解き放たない可能性がある。 そこで本研究では,AT の逆例である Margin-Weighted Perturbation Budget (MWPB) と Standard-Deviation-Weighted Perturbation Budget (SDWPB) の2つの簡易で安価な脆弱性認識型再重み付け機能を提案する。 提案手法は, 自然例の脆弱性に基づいて, 摂動半径を個々の逆数サンプルに割り当てる。 実験の結果,提案手法は様々な攻撃に対するatアルゴリズムのロバスト性の向上をもたらすことがわかった。

Adversarial Training (AT) effectively improves the robustness of Deep Neural Networks (DNNs) to adversarial attacks. Generally, AT involves training DNN models with adversarial examples obtained within a pre-defined, fixed perturbation bound. Notably, individual natural examples from which these adversarial examples are crafted exhibit varying degrees of intrinsic vulnerabilities, and as such, crafting adversarial examples with fixed perturbation radius for all instances may not sufficiently unleash the potency of AT. Motivated by this observation, we propose two simple, computationally cheap vulnerability-aware reweighting functions for assigning perturbation bounds to adversarial examples used for AT, named Margin-Weighted Perturbation Budget (MWPB) and Standard-Deviation-Weighted Perturbation Budget (SDWPB). The proposed methods assign perturbation radii to individual adversarial samples based on the vulnerability of their corresponding natural examples. Experimental results show that the proposed methods yield genuine improvements in the robustness of AT algorithms against various adversarial attacks.
翻訳日:2024-03-08 15:55:11 公開日:2024-03-06
# 関係量子力学、量子相対論、および相対性理論の反復

Relational Quantum Mechanics, Quantum Relativism, and the Iteration of Relativity ( http://arxiv.org/abs/2403.04069v1 )

ライセンス: Link先を確認
Timotheus Riedel(参考訳) 量子系の力学特性が他のシステムと常に相対的であるという考えは、最近通貨を回復した。 関係量子力学(relational quantum mechanics, rqm)をケーススタディに用いて, 量子相対論の議論において過小評価された問題, 相対性理論が反復するかどうかの問題に注意を向ける。 システムが特定の参照に対して持つ特性について、絶対的な事実があるのか、それとも、これがまた相対的な問題なのか、など。 RQM(最もよく知られた形式)は、私がUnrestricted Iteration Principle (UIP)と呼ぶもので、従って相対性化の無限の回帰にコミットしている、と論じられている。 この原理は、観測者間の相互作用の結果のコミュニケーション性と一貫性を確保する上で重要な役割を果たす。 しかし、関係性の観点からはRQMの広く保守的な読影とは相容れないことが示されており、むしろ観念的事実というより非正統な概念を採用する必要がある。 より一般的には、RQMのスペクティビスト版と量子相対論(quantum relativism)における現状を考察し、さらなる概念的発展の必要性と、そのような解釈の正確なコスト・ベネフィット分析のための反復原理の重要性を論じる。

The idea that the dynamical properties of quantum systems are invariably relative to other systems has recently regained currency. Using Relational Quantum Mechanics (RQM) for a case study, this paper calls attention to a question that has been underappreciated in the debate about quantum relativism: the question of whether relativity iterates. Are there absolute facts about the properties one system possesses relative to a specified reference, or is this again a relative matter, and so on? It is argued that RQM (in its best-known form) is committed to what I call the Unrestricted Iteration Principle (UIP), and thus to an infinite regress of relativisations. This principle plays a crucial role in ensuring the communicability and coherence of interaction outcomes across observers. It is, however, shown to be incompatible with the widespread, conservative reading of RQM in terms of relations, instead necessitating the adoption of the more unorthodox notion of perspectival facts. I conclude with some reflections on the current state of play in perspectivist versions of RQM and quantum relativism more generally, underscoring both the need for further conceptual development and the importance of the iteration principle for an accurate cost-benefit analysis of such interpretations.
翻訳日:2024-03-08 15:54:48 公開日:2024-03-06
# LoDisc: 自己監督型細粒度視覚認識のためのグローバルローカル識別特徴の学習

LoDisc: Learning Global-Local Discriminative Features for Self-Supervised Fine-Grained Visual Recognition ( http://arxiv.org/abs/2403.04066v1 )

ライセンス: Link先を確認
Jialu Shi, Zhiqiang Wei, Jie Nie, Lei Huang(参考訳) 自己教師付きコントラスト学習戦略は,表現学習の能力が異常であることから注目されている。 しかし、現在のコントラスト学習は、汎用物体認識に有効な画像の粗粒度をグローバルに学習する傾向にある一方、粗粒度の特徴は微粒度認識には不十分である。 本稿では,この微妙な局所的細粒度特徴学習を,純粋に自己教師付きグローバル局所細粒度コントラスト学習フレームワークを通じて,グローバル自己教師付きコントラスト学習に組み込む。 具体的には、局所識別(LoDisc)と呼ばれる新しいプリテキストタスクを提案し、単純だが効果的なマスクサンプリング戦略によって捕捉される局所的な枢軸領域への自己監督モデルの焦点を明示的に監督する。 そこで本稿では, 局所識別課題が重要な地域において, きめ細かな手掛かりを効果的に強化し, 画像のきめ細かな特徴表現をさらに洗練することを示す。 異なる粒度の物体認識タスクに対する実験結果から,提案手法が評価設定の精度の向上につながることが示された。 一方,提案手法は一般物体認識にも有効である。

Self-supervised contrastive learning strategy has attracted remarkable attention due to its exceptional ability in representation learning. However, current contrastive learning tends to learn global coarse-grained representations of the image that benefit generic object recognition, whereas such coarse-grained features are insufficient for fine-grained visual recognition. In this paper, we present to incorporate the subtle local fine-grained feature learning into global self-supervised contrastive learning through a pure self-supervised global-local fine-grained contrastive learning framework. Specifically, a novel pretext task called Local Discrimination (LoDisc) is proposed to explicitly supervise self-supervised model's focus towards local pivotal regions which are captured by a simple-but-effective location-wise mask sampling strategy. We show that Local Discrimination pretext task can effectively enhance fine-grained clues in important local regions, and the global-local framework further refines the fine-grained feature representations of images. Extensive experimental results on different fine-grained object recognition tasks demonstrate that the proposed method can lead to a decent improvement in different evaluation settings. Meanwhile, the proposed method is also effective in general object recognition tasks.
翻訳日:2024-03-08 15:54:21 公開日:2024-03-06
# 一酸化炭素の振動波パケットダイナミクスにおけるフリップ電気双極子

Flipping electric dipole in the vibrational wave packet dynamics of carbon monoxide ( http://arxiv.org/abs/2403.04065v1 )

ライセンス: Link先を確認
Carlos Barbero-Petrel, Peter Schmelcher, Rosario Gonz\'alez-F\'erez(参考訳) 近年,高分解能イオン顕微鏡 (nature 605, 453 (2022)) を用いてリドバーグ原子イオン結合状態が観測され, 対応する振動ダイナミクスが分光学的に解析されている。 原子イオン結合は、反転する分子双極子を含む避けられた交差によって形成される。 この結合機構の発見に動機づけられたこの問題は、基底状態二原子分子にも同様の挙動が生じるかどうかという問題に対処する。 具体的には、一酸化炭素(co)の^1\sigma^+_g$電子基底状態における振動波パケットのダイナミクスを調べ、その平衡に近い双極子モーメント関数の零交差を示す。 コヒーレント状態の時間進化によって、実際に反転双極子が得られ、そのダイナミクスがある程度制御可能であることを示す。 コヒーレント状態パラメータを変化させることで、振動励起スペクトルの異なる領域を探索し、関連する観測器の高速振動運動の時間スケール、それらの崩壊と再生、および不規則なダイナミクスの配置への遷移をチューニングする。

Recently Rydberg atom-ion bound states have been observed using a high resolution ion microscope (Nature 605, 453 (2022)) and the corresponding vibrational dynamics has been spectroscopically analyzed. The atom-ion bond is created by an avoided crossing, which involves a flipping molecular dipole. Motivated by the discovery of this binding mechanism we address here the question whether a similar behavior can also occur for ground state diatomic molecules. Specifically, we investigate the vibrational wave packet dynamics within the $^1\Sigma^+_g$ electronic ground-state of carbon monoxide (CO), which shows a zero crossing of its dipole moment function close to its equilibrium. Via time-evolution of coherent states we demonstrate that indeed a flipping dipole is obtained and its dynamics can be controlled to some extent. Varying the coherent state parameter we explore different regions of the vibrational excitation spectrum thereby tuning the time scales of the rapid oscillatory motion of the relevant observables, their decay and revivals as well as the transition to a regime of irregular dynamics.
翻訳日:2024-03-08 15:54:00 公開日:2024-03-06
# 任意形状の局所ポテンシャルによるフレネル領域とファーフィールド領域における量子散乱の一般PSTD法

A General PSTD Method to Solve Quantum Scattering in the Fresnel and Far-field regions by A Localized Potential of Arbitrary Form ( http://arxiv.org/abs/2403.04053v1 )

ライセンス: Link先を確認
Kun Chen(参考訳) 有限範囲の任意のポテンシャルで量子散乱を解くための時間領域法を提案する。 全空間における散乱波動関数は、近接場、中間場(すなわちフレネル領域)、遠方場を含む。 これは、FDTD計算電磁力学のいくつかのテクニックを量子領域に拡張することで達成される。 トータルフィールド/散乱フィールドスキームは、入射源条件を自然に組み込む。 相互作用領域と近接場を含む内部モデルにおける波動関数は、PSTD/FDTD反復によって直接計算される。 曲面同値定理の量子バージョンが証明され、外部自由空間の波動関数を内部モデルにおけるPSTD/FDTD解にリンクする。 重なり合う領域分解に基づくPSTDの並列実装と局所フーリエ基底上のFFTについて概説する。 これらのビルディングブロックは、ポテンシャル散乱問題に対して一般的なロバストな解法を提供する数値システムに統合される。 その精度は確立された部分波法で検証され、中心2乗ポテンシャル散乱の予測を比較した。 さらなる研究により、遠方場解はフレネル領域効果をシミュレートするには不十分であることが示されている。

We present a time domain method to solve quantum scattering by an arbitrary potential of finite range. The scattering wave function in full space can be obtained, including the near field, the mid field (i.e. Fresnel region) and the far field. This is achieved by extending several techniques of FDTD computational electrodynamics into the quantum realm. The total-field/scattered-field scheme naturally incorporates the incidence source condition. The wave function in the internal model, including the interaction region and the close near field, is directly computed through PSTD/FDTD iterations. The quantum version of surface equivalence theorem is proven and links the wave function in the external free space to the PSTD/FDTD solution in the internal model. Parallel implementation of PSTD based on overlapping domain decomposition and FFT on local Fourier-basis is briefly discussed. These building blocks unite into a numerical system that provides a general, robust solver to potential scattering problems. Its accuracy is verified by the established partial wave method, by comparing the predictions of both on the central square potential scattering. Further investigations show the far-field solution is inadequate for simulating Fresnel-region effects.
翻訳日:2024-03-08 15:53:38 公開日:2024-03-06
# 対立状態の摂動に対する信念に富んだ悲観的Q-Learning

Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations ( http://arxiv.org/abs/2403.04050v1 )

ライセンス: Link先を確認
Xiaolin Sun, Zizhan Zheng(参考訳) 強化学習(rl)は様々な領域で驚くべき成功を収めている。 しかし、そのデータ駆動の性質は、悪意のある敵によって悪用される可能性のある新しい脆弱性も導入している。 最近の研究では、よく訓練されたrlエージェントは、試験段階でその状態観察を戦略的に摂動させることで容易に操作できることが示されている。 既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。 しかし、前者は強力な攻撃に対する十分な防御を提供していないが、後者は大規模環境では計算が禁止されている。 本研究では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。 このアプローチは、不確実性を低減するために、信念状態推論と拡散に基づく状態浄化によってさらに強化される。 実験により,本手法は強攻撃下での超高速性能と,正規化法と同等の訓練オーバーヘッドを有することを示す。 私たちのコードはhttps://github.com/SliencerX/Belief-enriched-robust-Q-learningで利用可能です。

Reinforcement learning (RL) has achieved phenomenal success in various domains. However, its data-driven nature also introduces new vulnerabilities that can be exploited by malicious opponents. Recent work shows that a well-trained RL agent can be easily manipulated by strategically perturbing its state observations at the test stage. Existing solutions either introduce a regularization term to improve the smoothness of the trained policy against perturbations or alternatively train the agent's policy and the attacker's policy. However, the former does not provide sufficient protection against strong attacks, while the latter is computationally prohibitive for large environments. In this work, we propose a new robust RL algorithm for deriving a pessimistic policy to safeguard against an agent's uncertainty about true states. This approach is further enhanced with belief state inference and diffusion-based state purification to reduce uncertainty. Empirical results show that our approach obtains superb performance under strong attacks and has a comparable training overhead with regularization-based methods. Our code is available at https://github.com/SliencerX/Belief-enriched-robust-Q-learning.
翻訳日:2024-03-08 15:53:19 公開日:2024-03-06
# K武装ランダム化実験による条件付き対実平均推定のためのサンプルサイズ計画

Sample size planning for conditional counterfactual mean estimation with a K-armed randomized experiment ( http://arxiv.org/abs/2403.04039v1 )

ライセンス: Link先を確認
Gabriel Ruiz(参考訳) データ駆動型サブグループにおける条件付き対実予測を推定するために、K$のランダム化実験に対して十分なサンプルサイズを決定する方法について述べる。 サブグループは任意の特徴空間分割アルゴリズムによって出力され、同様の予測スコアを持つユーザや学習ポリシーツリーによって定義されるユーザによって定義される。 推定対象を慎重に指定し、最小信頼度レベルと誤差の限界を最大にした後、鍵となるのは、元の目標を、推定誤差の増加を相殺するための推奨サンプルサイズが実行すべき推論回数に直接関係する同時推論問題に変換することである。 固定されたサンプルサイズ予算が与えられた場合、我々の結果は、可能な処理アームの数やパーティションの複雑さ(例えば、決定ツリーの葉の数)について質問を逆転させることができる。 政策木を用いてサブグループを学習し、公開可能な大規模なランダム化実験データセットに対する名目上の保証を評価する。

We cover how to determine a sufficiently large sample size for a $K$-armed randomized experiment in order to estimate conditional counterfactual expectations in data-driven subgroups. The sub-groups can be output by any feature space partitioning algorithm, including as defined by binning users having similar predictive scores or as defined by a learned policy tree. After carefully specifying the inference target, a minimum confidence level, and a maximum margin of error, the key is to turn the original goal into a simultaneous inference problem where the recommended sample size to offset an increased possibility of estimation error is directly related to the number of inferences to be conducted. Given a fixed sample size budget, our result allows us to invert the question to one about the feasible number of treatment arms or partition complexity (e.g. number of decision tree leaves). Using policy trees to learn sub-groups, we evaluate our nominal guarantees on a large publicly-available randomized experiment test data set.
翻訳日:2024-03-08 15:52:59 公開日:2024-03-06
# OCD-FL: コミュニケーション効率の良いペア選択型分散フェデレーション学習

OCD-FL: A Novel Communication-Efficient Peer Selection-based Decentralized Federated Learning ( http://arxiv.org/abs/2403.04037v1 )

ライセンス: Link先を確認
Nizar Masmoudi, Wael Jaafar(参考訳) エッジインテリジェンスと成長を続けるIoT(Internet-of-Things)ネットワークの組み合わせは、コラボレーティブ機械学習の新たな時代を告げるものだ。 これらの学習手法への関心が高まり、研究者たちは最も基本的な制限に対処し始めた。 実際、中央アグリゲータを持つ従来のFLは、単一障害点とネットワークボトルネックを提示する。 この問題を回避するためにピアツーピアネットワークでノードが協調する分散flが提案されている。 後者の効率にもかかわらず、通信コストとデータ不均一性は、分散FLの重要な課題である。 そこで本研究では,協調のための系統的flピア選択により,最大fl知識獲得を達成し,エネルギー消費を削減することを目的とした,日和見的コミュニケーション効率の高い分散連合学習(ocd-fl)を提案する。 実験の結果,OCD-FLは完全協調型FLと同等あるいは良好な性能を達成でき,消費エネルギーを少なくとも30%,最大80%低減できることがわかった。

The conjunction of edge intelligence and the ever-growing Internet-of-Things (IoT) network heralds a new era of collaborative machine learning, with federated learning (FL) emerging as the most prominent paradigm. With the growing interest in these learning schemes, researchers started addressing some of their most fundamental limitations. Indeed, conventional FL with a central aggregator presents a single point of failure and a network bottleneck. To bypass this issue, decentralized FL where nodes collaborate in a peer-to-peer network has been proposed. Despite the latter's efficiency, communication costs and data heterogeneity remain key challenges in decentralized FL. In this context, we propose a novel scheme, called opportunistic communication-efficient decentralized federated learning, a.k.a., OCD-FL, consisting of a systematic FL peer selection for collaboration, aiming to achieve maximum FL knowledge gain while reducing energy consumption. Experimental results demonstrate the capability of OCD-FL to achieve similar or better performances than the fully collaborative FL, while significantly reducing consumed energy by at least 30% and up to 80%.
翻訳日:2024-03-08 15:52:42 公開日:2024-03-06
# 時間領域シフトによるロバストRFデバイスフィンガープリントの教師なしコントラスト学習

Unsupervised Contrastive Learning for Robust RF Device Fingerprinting Under Time-Domain Shift ( http://arxiv.org/abs/2403.04036v1 )

ライセンス: Link先を確認
Jun Chen, Weng-Keen Wong, Bechir Hamdaoui(参考訳) RF(Radio Frequency)デバイス指紋認証は、無線デバイスの自動識別と分類を可能にする潜在的な技術として認識されている。 しかし、チャネル条件や環境設定の変化によって生じるドメインシフトによって、RFベースのデバイス分類の精度が低下する可能性があるため、テストやトレーニングデータを異なるドメインで収集する際の大きな課題に直面している。 本稿では,この領域シフト問題を解決するために,コントラスト学習を利用した新しい解を提案する。 ディープラーニングから最先端の自己教師付き学習アプローチであるコントラスト学習は、正のペアが負のペアよりも学習された距離空間でより近い(すなわちより類似した)距離メトリックを学ぶ。 RFフィンガープリントに適用した場合, 正の対, 負の対と異なる対のRF信号を扱う。 数日間にわたって収集された無線および有線RFデータセットの実験を通して、我々のコントラスト学習アプローチがドメイン不変の特徴を捉え、ドメイン固有変動の影響を減少させることを示した。 その結果、ベースラインモデルに対する精度(10.8\%から27.8\%)が大幅に向上し、ドメインシフトによるデバイス分類の改善におけるコントラスト学習の有効性が示された。

Radio Frequency (RF) device fingerprinting has been recognized as a potential technology for enabling automated wireless device identification and classification. However, it faces a key challenge due to the domain shift that could arise from variations in the channel conditions and environmental settings, potentially degrading the accuracy of RF-based device classification when testing and training data is collected in different domains. This paper introduces a novel solution that leverages contrastive learning to mitigate this domain shift problem. Contrastive learning, a state-of-the-art self-supervised learning approach from deep learning, learns a distance metric such that positive pairs are closer (i.e. more similar) in the learned metric space than negative pairs. When applied to RF fingerprinting, our model treats RF signals from the same transmission as positive pairs and those from different transmissions as negative pairs. Through experiments on wireless and wired RF datasets collected over several days, we demonstrate that our contrastive learning approach captures domain-invariant features, diminishing the effects of domain-specific variations. Our results show large and consistent improvements in accuracy (10.8\% to 27.8\%) over baseline models, thus underscoring the effectiveness of contrastive learning in improving device classification under domain shift.
翻訳日:2024-03-08 15:52:20 公開日:2024-03-06
# ユーザの認知能力に対するai駆動ヒントのパーソナライズ : 経験的評価

Personalizing explanations of AI-driven hints to users cognitive abilities: an empirical evaluation ( http://arxiv.org/abs/2403.04035v1 )

ライセンス: Link先を確認
Vedant Bahel, Harshinee Sriram and Cristina Conati(参考訳) 本稿では,生徒が学習を促進するためのヒントを正当化するために,知能学習システムが生み出す説明をパーソナライズすることを検討する。 このパーソナライゼーションは、認知と良心という2つの特性の低い学生を対象とし、これらの学生が説明に自然に関与しないという以前の知見に基づいて、説明への関与を強化することを目的としている。 パーソナライゼーションの有効性を評価するために,提案するパーソナライゼーションにより,提案するパーソナライゼーションによって,対象ユーザのヒント説明,ヒントの理解,学習とのインタラクションが著しく向上することを示すユーザ調査を行った。 したがって、この研究はAIによる説明を効果的にパーソナライズするための貴重な洞察を提供する。

We investigate personalizing the explanations that an Intelligent Tutoring System generates to justify the hints it provides to students to foster their learning. The personalization targets students with low levels of two traits, Need for Cognition and Conscientiousness, and aims to enhance these students' engagement with the explanations, based on prior findings that these students do not naturally engage with the explanations but they would benefit from them if they do. To evaluate the effectiveness of the personalization, we conducted a user study where we found that our proposed personalization significantly increases our target users' interaction with the hint explanations, their understanding of the hints and their learning. Hence, this work provides valuable insights into effectively personalizing AI-driven explanations for cognitively demanding tasks such as learning.
翻訳日:2024-03-08 15:51:57 公開日:2024-03-06
# 未知制約によるオンライン学習

Online Learning with Unknown Constraints ( http://arxiv.org/abs/2403.04033v1 )

ライセンス: Link先を確認
Karthik Sridharan and Seung Won Wilson Yoo(参考訳) 我々は、学習者が行う行動のシーケンスが、各ラウンドごとに未知の安全制約に従わなければならないオンライン学習の問題を考える。 目的は、各ラウンドの安全制約を高い確率で満たしながら、後ろ向きのベストセーフアクションに対する後悔を最小限に抑えることである。 我々は、オンライン回帰オラクルを利用して未知の安全制約を推定し、オンライン学習オラクルの予測を未知の安全制約に準拠した予測に変換する一般的なメタアルゴリズムを提供する。 理論的には、我々のアルゴリズムの後悔は、オンライン回帰とオンライン学習のオラクルの後悔、未知の安全制約を含むモデルクラスのエリューダー次元、そして安全な学習の難しさを捉える新しい複雑さ尺度によって制限される。 我々は,上述の複雑性尺度が必要であることを示す漸近的下界でこの結果を補完する。 制約が線形であれば、悲観的な探索と悲観的な制約満足度をバランスさせるスケーリング変換を用いて、$\sqrt{T}$ regretの具体的なアルゴリズムを提供する。

We consider the problem of online learning where the sequence of actions played by the learner must adhere to an unknown safety constraint at every round. The goal is to minimize regret with respect to the best safe action in hindsight while simultaneously satisfying the safety constraint with high probability on each round. We provide a general meta-algorithm that leverages an online regression oracle to estimate the unknown safety constraint, and converts the predictions of an online learning oracle to predictions that adhere to the unknown safety constraint. On the theoretical side, our algorithm's regret can be bounded by the regret of the online regression and online learning oracles, the eluder dimension of the model class containing the unknown safety constraint, and a novel complexity measure that captures the difficulty of safe learning. We complement our result with an asymptotic lower bound that shows that the aforementioned complexity measure is necessary. When the constraints are linear, we instantiate our result to provide a concrete algorithm with $\sqrt{T}$ regret using a scaling transformation that balances optimistic exploration with pessimistic constraint satisfaction.
翻訳日:2024-03-08 15:51:40 公開日:2024-03-06
# カメラLiDARフュージョンを用いた自律走行用多物体追跡

Multi-Object Tracking with Camera-LiDAR Fusion for Autonomous Driving ( http://arxiv.org/abs/2403.04112v1 )

ライセンス: Link先を確認
Riccardo Pieroni, Simone Specchia, Matteo Corno, Sergio Matteo Savaresi(参考訳) 本稿では、カメラとLiDARデータを組み合わせた自動運転車のための新しいマルチモーダルマルチオブジェクトトラッキング(MOT)アルゴリズムを提案する。 カメラフレームは最先端の3Dオブジェクト検出器で処理されるのに対し、古典的なクラスタリング技術はLiDAR観測に使用される。 提案したMOTアルゴリズムは、3段階のアソシエーションプロセスと、検出された動的障害物の運動を推定する拡張カルマンフィルタと、トラック管理フェーズとを備える。 EKF運動モデルは、観測対象の電流測定された相対位置と向きと、エゴ車両の縦・角速度を入力として要求する。 多くの最先端のマルチモーダルMOTアプローチとは異なり、提案アルゴリズムはエゴのグローバルなポーズの地図や知識に依存しない。 さらに、カメラ専用の3D検出器を使用し、使用するLiDARセンサーの種類に依存しない。 このアルゴリズムはシミュレーションと実世界のデータの両方で検証され、良好な結果が得られる。

This paper presents a novel multi-modal Multi-Object Tracking (MOT) algorithm for self-driving cars that combines camera and LiDAR data. Camera frames are processed with a state-of-the-art 3D object detector, whereas classical clustering techniques are used to process LiDAR observations. The proposed MOT algorithm comprises a three-step association process, an Extended Kalman filter for estimating the motion of each detected dynamic obstacle, and a track management phase. The EKF motion model requires the current measured relative position and orientation of the observed object and the longitudinal and angular velocities of the ego vehicle as inputs. Unlike most state-of-the-art multi-modal MOT approaches, the proposed algorithm does not rely on maps or knowledge of the ego global pose. Moreover, it uses a 3D detector exclusively for cameras and is agnostic to the type of LiDAR sensor used. The algorithm is validated both in simulation and with real-world data, with satisfactory results.
翻訳日:2024-03-08 15:44:03 公開日:2024-03-06
# 因果木を用いたストローク後の個人別課題難易度推定

Using Causal Trees to Estimate Personalized Task Difficulty in Post-Stroke Individuals ( http://arxiv.org/abs/2403.04109v1 )

ライセンス: Link先を確認
Nathaniel Dennler, Stefanos Nikolaidis, and Maja Matari\'c(参考訳) 適応訓練プログラムは脳卒中の回復に不可欠である。 しかし、自動的に適応するプログラムの開発は、回復の特定の段階で特定の個人に対してタスクがどれだけ難しいかの定量化に依存する。 本研究では,個人のパフォーマンスに基づいて,タスクの難易度が異なる領域を自動的に生成する手法を提案する。 本手法は,タスクの難易度を推定する従来の手法よりも,到達タスクのユーザパフォーマンスのばらつきを説明する。

Adaptive training programs are crucial for recovery post stroke. However, developing programs that automatically adapt depends on quantifying how difficult a task is for a specific individual at a particular stage of their recovery. In this work, we propose a method that automatically generates regions of different task difficulty levels based on an individual's performance. We show that this technique explains the variance in user performance for a reaching task better than previous approaches to estimating task difficulty.
翻訳日:2024-03-08 15:43:47 公開日:2024-03-06
# 人工知能時代における生物学の理解

Understanding Biology in the Age of Artificial Intelligence ( http://arxiv.org/abs/2403.04106v1 )

ライセンス: Link先を確認
Elsa Lawrence, Adham El-Shazly, Srijit Seal, Chaitanya K Joshi, Pietro Li\`o, Shantanu Singh, Andreas Bender, Pietro Sormanni, Matthew Greenig(参考訳) 現代の生命科学の研究は、主に機械学習(ML)モデルの使用を中心に、生物システムをモデル化するための人工知能アプローチにますます依存している。 mlは大規模で複雑なデータセットのパターンを特定するのに非常に有用であるが、その生物科学における広範な応用は、従来の科学的探究方法から著しく逸脱している。 このように、これらのモデルと生物学における科学的理解の間の相互作用は、科学研究の将来に重要な意味を持つトピックであるが、ほとんど注目を集めていない主題である。 本稿では,生物科学におけるMLの最近の応用を,現代哲学的理解理論の下で文脈化するための認識論的ツールキットから,生物学的現象をモデル化し,科学的知識を前進させるMLシステムの設計と応用を導く一般的な原理を同定する。 本稿では,情報圧縮・質的知性・依存関係モデルとしての科学的理解の概念が,MLによる生物学的システム理解の解釈に有用であることを示す。 現代の生物学的研究におけるMLの2つの重要な応用領域(タンパク質構造予測と単細胞RNAシークエンシング)の詳細な分析を通じて、これらの特徴により、MLシステムが対象とする現象の科学的理解をいかに進めるか、将来のMLモデルの開発をどう導くか、そしてMLが生物学的発見のツールとしての可能性を達成できないための重要な障害について検討する。 生物学におけるML応用の認識学的特徴を考えると,これらの手法が重要な課題を解決し,生体システムの科学的理解を深める可能性が改善される。

Modern life sciences research is increasingly relying on artificial intelligence approaches to model biological systems, primarily centered around the use of machine learning (ML) models. Although ML is undeniably useful for identifying patterns in large, complex data sets, its widespread application in biological sciences represents a significant deviation from traditional methods of scientific inquiry. As such, the interplay between these models and scientific understanding in biology is a topic with important implications for the future of scientific research, yet it is a subject that has received little attention. Here, we draw from an epistemological toolkit to contextualize recent applications of ML in biological sciences under modern philosophical theories of understanding, identifying general principles that can guide the design and application of ML systems to model biological phenomena and advance scientific knowledge. We propose that conceptions of scientific understanding as information compression, qualitative intelligibility, and dependency relation modelling provide a useful framework for interpreting ML-mediated understanding of biological systems. Through a detailed analysis of two key application areas of ML in modern biological research - protein structure prediction and single cell RNA-sequencing - we explore how these features have thus far enabled ML systems to advance scientific understanding of their target phenomena, how they may guide the development of future ML models, and the key obstacles that remain in preventing ML from achieving its potential as a tool for biological discovery. Consideration of the epistemological features of ML applications in biology will improve the prospects of these methods to solve important problems and advance scientific understanding of living systems.
翻訳日:2024-03-08 15:43:40 公開日:2024-03-06
# 特許分野を探求する人工知能

Artificial Intelligence Exploring the Patent Field ( http://arxiv.org/abs/2403.04105v1 )

ライセンス: Link先を確認
Lekang Jiang, Stephan Goetz(参考訳) 高度な言語処理と機械学習技術は、これまで広く使われていた特許と技術知識管理の分野において、大幅な効率向上を約束する。 この分野は、非常に正確な内容とそれらの内容の言語表現を持つ大規模で複雑なデータを提供する。 特に特許のテクストは、様々な面で日常的なテキストと異なり、大きな機会と課題が伴う。 本稿では,特許関連の課題と一般的な方法論を体系的に概観し,特に進化的かつ有望な技術に焦点をあてた。 言語処理、特に大きな言語モデル、そして最近のジェネレーティブメソッドの強化は、特許分野におけるゲームチェンジャーになることを約束している。 特許に関する文献と事実に基づく議論は、ほぼ理想的なユースケースのように見える。 しかし、特許には既存のモデルが苦労する多くの困難が伴う。 この論文は、特許を探求し、管理しようとする技術に影響を与える特許および特許関連データの基本的な側面を紹介している。 さらに、既存の方法やアプローチをレビューし、信頼性と偏りのない評価指標がいかに重要かを指摘する。 研究は特定のタスクでかなりの進歩を遂げているが、特許の特別な性質とその言語、あるいは法的用語と日常的な用語の意味の矛盾によって、他の多くの分野でのパフォーマンスは相変わらず最適である。 さらに、特許の特定の部分に満足なテキストを作成できることを実証する手法はほとんどない。 重要な発展、機会、ギャップを指摘することにより、さらなる研究を奨励し、この分野の進歩を加速することを目指している。

Advanced language-processing and machine-learning techniques promise massive efficiency improvements in the previously widely manual field of patent and technical knowledge management. This field presents large-scale and complex data with very precise contents and language representation of those contents. Particularly, patent texts can differ from mundane texts in various aspects, which entails significant opportunities and challenges. This paper presents a systematic overview of patent-related tasks and popular methodologies with a special focus on evolving and promising techniques. Language processing and particularly large language models as well as the recent boost of general generative methods promise to become game changers in the patent field. The patent literature and the fact-based argumentative procedures around patents appear almost as an ideal use case. However, patents entail a number of difficulties with which existing models struggle. The paper introduces fundamental aspects of patents and patent-related data that affect technology that wants to explore or manage them. It further reviews existing methods and approaches and points out how important reliable and unbiased evaluation metrics become. Although research has made substantial progress on certain tasks, the performance across many others remains suboptimal, sometimes because of either the special nature of patents and their language or inconsistencies between legal terms and the everyday meaning of terms. Moreover, yet few methods have demonstrated the ability to produce satisfactory text for specific sections of patents. By pointing out key developments, opportunities, and gaps, we aim to encourage further research and accelerate the advancement of this field.
翻訳日:2024-03-08 15:43:09 公開日:2024-03-06
# 多目的マルチソリューショントランスポート

Many-Objective Multi-Solution Transport ( http://arxiv.org/abs/2403.04099v1 )

ライセンス: Link先を確認
Ziyue Li, Tian Li, Virginia Smith, Jeff Bilmes, Tianyi Zhou(参考訳) 機械学習では、いくつかのpareto定常ソリューション(モデル)と協調して、多くの目的(タスクやクライアントによって予測される)のパフォーマンスを最適化することが重要である。 しかし、従来の多目的最適化手法は、いくつかの目的に焦点をあてることが多く、ソリューションをはるかに上回る多くの目標にスケールできないため、性能が劣るか無視されるかのいずれかとなる。 多目的多解輸送(Multi-objective multi-solution Transport, MosT)は,Paretoにおける多目的多解の枠組みである。 私たちの洞察は、複数のソリューションを探し、それぞれがドメインエキスパートとして働き、目標の特定のサブセットに集中し、それらをまとめてカバーすることです。 MosT はこの問題を、各解に対する重み付けされた目的の2段階の最適化として定式化し、重み付けは目的と解の間の最適な輸送によって定義される。 本アルゴリズムは,目的の補集合に対するpareto定常解への収束を保証する。 LLMのフェデレートラーニング、マルチタスクラーニング、ミックス・オブ・プロンプトラーニングの幅広い応用において、MosTは強いベースラインを明らかに上回り、パレートフロンティア全体をプロファイルする高品質で多様なソリューションを提供し、多くの目的においてバランスの取れたトレードオフを確保する。

Optimizing the performance of many objectives (instantiated by tasks or clients) jointly with a few Pareto stationary solutions (models) is critical in machine learning. However, previous multi-objective optimization methods often focus on a few number of objectives and cannot scale to many objectives that outnumber the solutions, leading to either subpar performance or ignored objectives. We introduce Many-objective multi-solution Transport (MosT), a framework that finds multiple diverse solutions in the Pareto front of many objectives. Our insight is to seek multiple solutions, each performing as a domain expert and focusing on a specific subset of objectives while collectively covering all of them. MosT formulates the problem as a bi-level optimization of weighted objectives for each solution, where the weights are defined by an optimal transport between the objectives and solutions. Our algorithm ensures convergence to Pareto stationary solutions for complementary subsets of objectives. On a range of applications in federated learning, multi-task learning, and mixture-of-prompt learning for LLMs, MosT distinctly outperforms strong baselines, delivering high-quality, diverse solutions that profile the entire Pareto frontier, thus ensuring balanced trade-offs across many objectives.
翻訳日:2024-03-08 15:42:49 公開日:2024-03-06
# 認知型プロジェクト - タイポグラフィーを認知にマッピングする

The Cognitive Type Project -- Mapping Typography to Cognition ( http://arxiv.org/abs/2403.04087v1 )

ライセンス: Link先を確認
Nik Bear Brown(参考訳) Cognitive Type Projectは、様々な認知特性を持つ書体の設計を可能にする計算ツールの開発に焦点を当てている。 このイニシアチブは、タイポグラファーにオンライン広告のクリックスルー率を高めるフォントの作成、児童書の読書レベルの向上、ディスレクシクスによるパーソナライズされたタイプの作成、メディアのテキストコンテンツに対する顧客の反応に関する洞察を提供することを目的としている。 タイポグラフィーを認識にマッピングする研究における重要な課題は、労働集約的かつ熟練したタイポグラフィーの専門知識を必要とする数千のフォントの作成である。 認知科学の研究は、文章の全体的なレイアウトとともに文字のデザインと形式が、読みやすさや知覚美や記憶力といったタイプの認知特性を決定する上で重要であることを強調する。 これらの要因は、情報提示の正当性と明快さだけでなく、フォントのリキビリティにも影響を及ぼす。

The Cognitive Type Project is focused on developing computational tools to enable the design of typefaces with varying cognitive properties. This initiative aims to empower typographers to craft fonts that enhance click-through rates for online ads, improve reading levels in children's books, enable dyslexics to create personalized type, or provide insights into customer reactions to textual content in media. A significant challenge in research related to mapping typography to cognition is the creation of thousands of typefaces with minor variations, a process that is both labor-intensive and requires the expertise of skilled typographers. Cognitive science research highlights that the design and form of letters, along with the text's overall layout, are crucial in determining the ease of reading and other cognitive properties of type such as perceived beauty and memorability. These factors affect not only the legibility and clarity of information presentation but also the likability of a typeface.
翻訳日:2024-03-08 15:42:26 公開日:2024-03-06
# 電子健康記録を用いた統合疾患予測のためのマルチタスク自動学習

Automated Multi-Task Learning for Joint Disease Prediction on Electronic Health Records ( http://arxiv.org/abs/2403.04086v1 )

ライセンス: Link先を確認
Suhan Cui and Prasenjit Mitra(参考訳) ビッグデータとデジタルヘルスケアの分野では、Electronic Health Records(EHR)は、患者のケアと医療研究を改善する可能性のある、豊富な情報ソースとなっている。 近年,ehrデータを分析して患者の健康状態を予測する機械学習モデルが普及している。 そのうちの1つはマルチタスク学習(MTL)で、単一のタスク学習よりも予測性能を向上させるために、複数のターゲット疾患を共同で予測することである。 しかしながら、現在のHRデータのためのMTLフレームワークは、共同トレーニングとデザインモデルアーキテクチャのためのタスクグループを特定するために、人間の専門家に大きく依存しているため、大きな制限がある。 ヒューマン介入の削減とフレームワーク設計の改善を目的として,タスクグループとアーキテクチャの最適構成を同時に検索できるAutoDPという自動手法を提案する。 タスクの組み合わせとアーキテクチャを包含する巨大な共同探索空間に取り組むために,モデルベース最適化法を用いて最適解を効率的に発見する。 実世界のEHRデータによる実験結果から,提案したAutoDPフレームワークの有効性が示された。 手作り法と自動最先端法の両方に対して大きな性能改善を達成し、同時に検索コストも維持する。

In the realm of big data and digital healthcare, Electronic Health Records (EHR) have become a rich source of information with the potential to improve patient care and medical research. In recent years, machine learning models have proliferated for analyzing EHR data to predict patients future health conditions. Among them, some studies advocate for multi-task learning (MTL) to jointly predict multiple target diseases for improving the prediction performance over single task learning. Nevertheless, current MTL frameworks for EHR data have significant limitations due to their heavy reliance on human experts to identify task groups for joint training and design model architectures. To reduce human intervention and improve the framework design, we propose an automated approach named AutoDP, which can search for the optimal configuration of task grouping and architectures simultaneously. To tackle the vast joint search space encompassing task combinations and architectures, we employ surrogate model-based optimization, enabling us to efficiently discover the optimal solution. Experimental results on real-world EHR data demonstrate the efficacy of the proposed AutoDP framework. It achieves significant performance improvements over both hand-crafted and automated state-of-the-art methods, also maintains a feasible search cost at the same time.
翻訳日:2024-03-08 15:42:08 公開日:2024-03-06
# データを責めるな、モデルを責める - 主観的注釈から学ぶときのノイズとバイアスを理解する

Don't Blame the Data, Blame the Model: Understanding Noise and Bias When Learning from Subjective Annotations ( http://arxiv.org/abs/2403.04085v1 )

ライセンス: Link先を確認
Abhishek Anand, Negar Mokhberian, Prathyusha Naresh Kumar, Anweasha Saha, Zihao He, Ashwin Rao, Fred Morstatter, Kristina Lerman(参考訳) 研究者は、アグリゲーションラベルの害、特に人間のアノテーター間の不一致を自然に含む主観的なタスクに対する認識を高めてきた。 本研究では,集約ラベルのみを提供するモデルでは,高分散データインスタンスに対する信頼性が低いことを示す。 先行研究では,このような事例を誤記と捉えているが,本研究では,従来の集約型モデルが主観的タスクから有用な信号を抽出する上で,過小評価されていることが指摘されている。 生アノテーションによる学習の有効性を実証する最近の研究に触発されて,複数の基底真理 (multi-gt) アプローチを用いた分類について検討した。 実験の結果,高品位インスタンスに対する信頼性が向上した。

Researchers have raised awareness about the harms of aggregating labels especially in subjective tasks that naturally contain disagreements among human annotators. In this work we show that models that are only provided aggregated labels show low confidence on high-disagreement data instances. While previous studies consider such instances as mislabeled, we argue that the reason the high-disagreement text instances have been hard-to-learn is that the conventional aggregated models underperform in extracting useful signals from subjective tasks. Inspired by recent studies demonstrating the effectiveness of learning from raw annotations, we investigate classifying using Multiple Ground Truth (Multi-GT) approaches. Our experiments show an improvement of confidence for the high-disagreement instances.
翻訳日:2024-03-08 15:41:48 公開日:2024-03-06
# 補間による推論: 対照的な表現は計画と推論を可能にする

Inference via Interpolation: Contrastive Representations Provably Enable Planning and Inference ( http://arxiv.org/abs/2403.04082v1 )

ライセンス: Link先を確認
Benjamin Eysenbach, Vivek Myers, Ruslan Salakhutdinov, Sergey Levine(参考訳) 時系列データを考えると、“今後どうなるか?”や“どうやって来たのか?”といった質問に答えるにはどうすればよいでしょう? このような確率的推論問題は、観測が高次元である場合には難しい。 本稿では,これらの質問が,学習表現の観点で,コンパクトでクローズドな形式解を持つ方法を示す。 重要なのは、時系列データにコントラスト学習の変種を適用することだ。 先行研究は、比較学習によって学習された表現が確率比を符号化していることを示している。 表現上の限界分布がガウス的であることを示すために先行研究を拡張することにより、表現の合同分布もまたガウス的であることを証明できる。 これらの結果から,時間的コントラスト学習によって得られた表現はガウス・マルコフ連鎖 (gauss-markov chain) に従い,表現上の推論(予測,計画)は低次元行列の反転に対応する。 ある特別な場合、中間表現を推論することは、学習した表現間の補間と等価である。 この理論を46次元までのタスクの数値シミュレーションを用いて検証する。

Given time series data, how can we answer questions like "what will happen in the future?" and "how did we get here?" These sorts of probabilistic inference questions are challenging when observations are high-dimensional. In this paper, we show how these questions can have compact, closed form solutions in terms of learned representations. The key idea is to apply a variant of contrastive learning to time series data. Prior work already shows that the representations learned by contrastive learning encode a probability ratio. By extending prior work to show that the marginal distribution over representations is Gaussian, we can then prove that joint distribution of representations is also Gaussian. Taken together, these results show that representations learned via temporal contrastive learning follow a Gauss-Markov chain, a graphical model where inference (e.g., prediction, planning) over representations corresponds to inverting a low-dimensional matrix. In one special case, inferring intermediate representations will be equivalent to interpolating between the learned representations. We validate our theory using numerical simulations on tasks up to 46-dimensions.
翻訳日:2024-03-08 15:41:24 公開日:2024-03-06
# 方向の滑らかさと勾配法:収束性と適応性

Directional Smoothness and Gradient Methods: Convergence and Adaptivity ( http://arxiv.org/abs/2403.04081v1 )

ライセンス: Link先を確認
Aaron Mishkin, Ahmed Khaled, Yuanhao Wang, Aaron Defazio, and Robert M. Gower(参考訳) 我々は,大域的,最悪の定数ではなく,最適化の経路に沿った目的の条件付けに依存する,勾配降下(GD)に対する新たな準最適境界を開発する。 我々の証明の鍵は方向の滑らかさであり、私たちが目的に上界を開発するのに使う勾配の変動の尺度である。 これらの上界を最小化するためには、強く適応されたステップサイズの列を得るために暗黙の方程式を解く必要がある。 一般関数に対して、ポリアクのステップサイズと正規化GDが、方向の滑らかさの知識を使わずに高速で経路依存の速度を得ることを示す。 ロジスティック回帰の実験は、我々の収束保証がL-滑らか性に基づく古典理論よりも厳密であることを示している。

We develop new sub-optimality bounds for gradient descent (GD) that depend on the conditioning of the objective along the path of optimization, rather than on global, worst-case constants. Key to our proofs is directional smoothness, a measure of gradient variation that we use to develop upper-bounds on the objective. Minimizing these upper-bounds requires solving implicit equations to obtain a sequence of strongly adapted step-sizes; we show that these equations are straightforward to solve for convex quadratics and lead to new guarantees for two classical step-sizes. For general functions, we prove that the Polyak step-size and normalized GD obtain fast, path-dependent rates despite using no knowledge of the directional smoothness. Experiments on logistic regression show our convergence guarantees are tighter than the classical theory based on L-smoothness.
翻訳日:2024-03-08 15:41:03 公開日:2024-03-06
# 組織像における癌関連リンパ性集合体へのヒッチハイカーのガイド-手動および深層学習に基づく定量化アプローチ

Hitchhiker's guide to cancer-associated lymphoid aggregates in histology images: manual and deep learning-based quantification approaches ( http://arxiv.org/abs/2403.04142v1 )

ライセンス: Link先を確認
Karina Silina, Francesco Ciompi(参考訳) 癌組織像における第3次リンパ構造を含むリンパ性集合体の定量化は、予後および予測的組織バイオマーカーの開発に有望なアプローチである。 本稿では,ヘマトキシリンやエオシン染色などの日常的な病態ワークフローから組織切片内のリンパ性凝集体の同定を推奨する。 近年,手動画像解析(主観的意思決定,注意範囲など)に係わる本質的な変動を克服するために,HookNet-TLSと呼ばれる深層学習に基づくアルゴリズムを開発した。 本稿では,各種癌におけるリンパ性凝集体の自動および客観的定量化のためのhooknet-tlsの訓練と実装に手作業でアノテート画像を使用するためのガイドラインを提供する。

Quantification of lymphoid aggregates including tertiary lymphoid structures with germinal centers in histology images of cancer is a promising approach for developing prognostic and predictive tissue biomarkers. In this article, we provide recommendations for identifying lymphoid aggregates in tissue sections from routine pathology workflows such as hematoxylin and eosin staining. To overcome the intrinsic variability associated with manual image analysis (such as subjective decision making, attention span), we recently developed a deep learning-based algorithm called HookNet-TLS to detect lymphoid aggregates and germinal centers in various tissues. Here, we additionally provide a guideline for using manually annotated images for training and implementing HookNet-TLS for automated and objective quantification of lymphoid aggregates in various cancer types.
翻訳日:2024-03-08 15:34:38 公開日:2024-03-06
# 3次元モデルのための方向テクスチャ編集

Directional Texture Editing for 3D Models ( http://arxiv.org/abs/2309.14872v4 )

ライセンス: Link先を確認
Shengqi Liu, Zhuo Chen, Jingnan Gao, Yichao Yan, Wenhan Zhu, Jiangjing Lyu, Xiaokang Yang(参考訳) テクスチャ編集は、3Dモデルの表面素材を自動的に操作できる3Dモデリングにおいて重要なタスクである。 しかし、3Dモデルの本質的な複雑さと曖昧なテキスト記述は、この課題の課題に繋がる。 この課題に対処するために、我々は、テキスト \textbf{i}nstructions に従って自動 \textbf{3d} オブジェクト編集用に設計された \textbf{t}exture \textbf{e}diting \textbf{m}odelである item3d を提案する。 拡散モデルと微分可能なレンダリングの活用により、item3dはレンダリングされた画像をテキストと3d表現の橋渡しとして、さらに異方性のテクスチャと環境マップを最適化する。 従来の手法では、絶対的な編集方向、すなわちスコア蒸留サンプリング(SDS)を最適化の目的として採用していた。 曖昧なテキストによる問題を解決するため、ソースとターゲットのテキスト間のノイズ差によって定義された最適化目標である相対的な編集方向を導入し、テキストと画像間の意味的あいまいさを解放する。 さらに,テクスチャ領域の予期せぬずれに対処するため,最適化中の方向を徐々に調整する。 質的、定量的な実験により、我々の3dは様々な3dオブジェクトの最先端のメソッドよりも優れています。 また,照明に対する明示的な制御を示すために,テキストガイドによる照明を行う。 プロジェクトページ:https://shengqiliu1.github.io/ITEM3D。

Texture editing is a crucial task in 3D modeling that allows users to automatically manipulate the surface materials of 3D models. However, the inherent complexity of 3D models and the ambiguous text description lead to the challenge in this task. To address this challenge, we propose ITEM3D, a \textbf{T}exture \textbf{E}diting \textbf{M}odel designed for automatic \textbf{3D} object editing according to the text \textbf{I}nstructions. Leveraging the diffusion models and the differentiable rendering, ITEM3D takes the rendered images as the bridge of text and 3D representation, and further optimizes the disentangled texture and environment map. Previous methods adopted the absolute editing direction namely score distillation sampling (SDS) as the optimization objective, which unfortunately results in the noisy appearance and text inconsistency. To solve the problem caused by the ambiguous text, we introduce a relative editing direction, an optimization objective defined by the noise difference between the source and target texts, to release the semantic ambiguity between the texts and images. Additionally, we gradually adjust the direction during optimization to further address the unexpected deviation in the texture domain. Qualitative and quantitative experiments show that our ITEM3D outperforms the state-of-the-art methods on various 3D objects. We also perform text-guided relighting to show explicit control over lighting. Our project page: https://shengqiliu1.github.io/ITEM3D.
翻訳日:2024-03-07 20:47:04 公開日:2024-03-06
# 領域的注意によるct肺気腫のロバスト定量化--肺動脈硬化症(mesa)の検討

Robust Quantification of Percent Emphysema on CT via Domain Attention: the Multi-Ethnic Study of Atherosclerosis (MESA) Lung Study ( http://arxiv.org/abs/2402.18383v2 )

ライセンス: Link先を確認
Xuzhe Zhang, Elsa D. Angelini, Eric A. Hoffman, Karol E. Watson, Benjamin M. Smith, R. Graham Barr, Andrew F. Laine(参考訳) ctによる肺気腫のロバスト定量化は,スキャナの異なるタイプのスキャンや臨床検査への変換を含む大規模研究において課題となっている。 既存の研究では、密度補正、ノイズフィルタリング、回帰、隠れマルコフ測度場(HMMF)モデルベースセグメンテーション、体積調整肺密度など、この課題に取り組むためのいくつかの方向を探っている。 有望な結果があったにも拘わらず、以前の研究では退屈なワークフローが必要か、下流気腫のサブタイピングの機会が限られており、大規模な研究での効率的な適応が制限されていた。 このジレンマを軽減するため,既存のHMMFセグメンテーションフレームワークに基づくエンドツーエンドのディープラーニングフレームワークを開発した。 まず、通常のunetでは、スキャナの事前設定がないため、既存のhmmf結果を再現できないことを実証する。 次に、定量的スキャナーを優先して画像特徴を融合する新しいドメインアテンションブロックを設計し、その結果を著しく改善する。

Robust quantification of pulmonary emphysema on computed tomography (CT) remains challenging for large-scale research studies that involve scans from different scanner types and for translation to clinical scans. Existing studies have explored several directions to tackle this challenge, including density correction, noise filtering, regression, hidden Markov measure field (HMMF) model-based segmentation, and volume-adjusted lung density. Despite some promising results, previous studies either required a tedious workflow or limited opportunities for downstream emphysema subtyping, limiting efficient adaptation on a large-scale study. To alleviate this dilemma, we developed an end-to-end deep learning framework based on an existing HMMF segmentation framework. We first demonstrate that a regular UNet cannot replicate the existing HMMF results because of the lack of scanner priors. We then design a novel domain attention block to fuse image feature with quantitative scanner priors which significantly improves the results.
翻訳日:2024-03-07 20:44:56 公開日:2024-03-06
# ニューラルアクティベーションプリミティブを用いたアウトオブディストリビューション検出

Out-of-Distribution Detection using Neural Activation Prior ( http://arxiv.org/abs/2402.18162v3 )

ライセンス: Link先を確認
Weilin Wan, Weizhong Zhang, Cheng Jin(参考訳) Out-of-distriion Detection (OOD)は、目に見えないシナリオを扱うために、現実世界に機械学習モデルをデプロイするための重要なテクニックである。 本稿では,OOD検出のためのシンプルで効果的なニューラルアクティベーションプリミティブ(NAP)を提案する。 我々の神経活性化は、十分に訓練されたニューラルネットワークのグローバルプール層の前のチャネルにおいて、分布内(ID)サンプルによって大きな応答で活性化される少数のニューロンの確率がOODサンプルよりも著しく高いという重要な観察に基づいている。 直感的な説明として、IDデータセットで完全に訓練されたモデルでは、各チャネルがIDデータセット内の特定のパターンを検出する役割を担い、入力サンプルでパターンを検出すると、少数のニューロンが大きな応答で活性化される。 次に,この前兆に基づく新たなスコアリング関数を提案し,ood検出におけるこれらの強い活性化ニューロンの役割を強調する。 当社のアプローチはプラグアンドプレイであり、IDデータ分類のパフォーマンス低下には至らず、トレーニングや外部データセットによる追加のトレーニングや統計処理は必要ありません。 従来の手法は主にニューラルネットワークのポストグローバルプール機能に依存していたが、私たちが利用するチャネル内分布情報はグローバルプール演算子によって破棄される。 その結果,本手法は既存の手法と直交し,様々な用途で効果的に組み合わせることができる。 実験の結果,提案手法はCIFARベンチマークとImageNetデータセット上での最先端性能を実現し,提案手法の威力を示す。 最後に,本手法をトランスフォーマに拡張し,実験結果から,NAPはトランスフォーマ上でのOOD検出性能を大幅に向上させることができることが示唆された。

Out-of-distribution detection (OOD) is a crucial technique for deploying machine learning models in the real world to handle the unseen scenarios. In this paper, we first propose a simple yet effective Neural Activation Prior (NAP) for OOD detection. Our neural activation prior is based on a key observation that, for a channel before the global pooling layer of a fully trained neural network, the probability of a few neurons being activated with a large response by an in-distribution (ID) sample is significantly higher than that by an OOD sample. An intuitive explanation is that for a model fully trained on ID dataset, each channel would play a role in detecting a certain pattern in the ID dataset, and a few neurons can be activated with a large response when the pattern is detected in an input sample. Then, a new scoring function based on this prior is proposed to highlight the role of these strongly activated neurons in OOD detection. Our approach is plug-and-play and does not lead to any performance degradation on ID data classification and requires no extra training or statistics from training or external datasets. Notice that previous methods primarily rely on post-global-pooling features of the neural networks, while the within-channel distribution information we leverage would be discarded by the global pooling operator. Consequently, our method is orthogonal to existing approaches and can be effectively combined with them in various applications. Experimental results show that our method achieves the state-of-the-art performance on CIFAR benchmark and ImageNet dataset, which demonstrates the power of the proposed prior. Finally, we extend our method to Transformers and the experimental findings indicate that NAP can also significantly enhance the performance of OOD detection on Transformers, thereby demonstrating the broad applicability of this prior knowledge.
翻訳日:2024-03-07 20:44:36 公開日:2024-03-06
# shapellm: エンボディドインタラクションのためのユニバーサル3dオブジェクト理解

ShapeLLM: Universal 3D Object Understanding for Embodied Interaction ( http://arxiv.org/abs/2402.17766v2 )

ライセンス: Link先を確認
Zekun Qi, Runpei Dong, Shaochen Zhang, Haoran Geng, Chunrui Han, Zheng Ge, He Wang, Li Yi, Kaisheng Ma(参考訳) 本稿では,3次元点群と言語を用いた汎用的な3次元オブジェクト理解を探求する,最初の3次元マルチモーダル大言語モデルであるShapeLLMを提案する。 ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダ上に構築されている。 LLMの3Dポイントクラウド入力エンコーダとしてReCon++を活用することで、ShapeLLMは命令追従データの構築を訓練し、3D MM-Vetという新たな評価ベンチマークでテストする。 ReCon++とShapeLLMは、3Dの幾何学的理解と、具体化された視覚的接地のような言語統一された3Dインタラクションタスクにおいて最先端のパフォーマンスを達成する。

This paper presents ShapeLLM, the first 3D Multimodal Large Language Model (LLM) designed for embodied interaction, exploring a universal 3D object understanding with 3D point clouds and languages. ShapeLLM is built upon an improved 3D encoder by extending ReCon to ReCon++ that benefits from multi-view image distillation for enhanced geometry understanding. By utilizing ReCon++ as the 3D point cloud input encoder for LLMs, ShapeLLM is trained on constructed instruction-following data and tested on our newly human-curated evaluation benchmark, 3D MM-Vet. ReCon++ and ShapeLLM achieve state-of-the-art performance in 3D geometry understanding and language-unified 3D interaction tasks, such as embodied visual grounding.
翻訳日:2024-03-07 20:44:04 公開日:2024-03-06
# 時代遅れ製品と変圧器を用いたクロスリゾリューション土地被覆分類

Cross-Resolution Land Cover Classification Using Outdated Products and Transformers ( http://arxiv.org/abs/2402.16001v2 )

ライセンス: Link先を確認
Huan Ni, Yubin Zhao, Haiyan Guan, Cheng Jiang, Yongshi Jie, Xing Wang, Yiyang Shen(参考訳) 大規模な高解像度土地被覆分類は、地球系モデルの構築と生態・資源問題への対処の前提条件である。 衛星センサー技術の進歩は、空間分解能と広い範囲の改善につながった。 しかし、高解像度ラベル付きデータの欠如は依然として課題であり、土地被覆分類法の大規模適用を妨げる。 本稿では,古いデータを用いたクロスレゾリューション土地被覆分類のためのトランスフォーマーに基づく弱教師付き手法を提案する。 まず,オブジェクトの細かな細部を欠くことなく長距離依存性を捉えるため,動的スパース注意を用いた逆差分機構(rdm)に基づくu-netライクトランスを提案する。 第2に,最適輸送(ot)に基づく反雑音損失計算(anlc)モジュールを提案する。 反ノイズ損失計算は、ot行列に基づいて自信領域(ca)と曖昧領域(va)を識別し、時代遅れの土地被覆製品における騒音の影響を緩和する。 RDMベースのU-Net-like Transformerは、重量による弱教師付き損失の導入と教師なし損失の導入により、訓練された。 提案手法の有効性を検証するために, 1m解像度のリモートセンシング画像と, 合衆国の6州の地中構造を用いた。 実験では、2013年から30m解像度の古い土地被覆製品をトレーニングラベルとして利用し、2017年から1m解像度の土地被覆地図を作成した。 その結果,提案手法は最先端手法に比べて優れていた。 コードはhttps://github.com/yu-ni1989/ANLC-Formerで入手できる。

Large-scale high-resolution land cover classification is a prerequisite for constructing Earth system models and addressing ecological and resource issues. Advancements in satellite sensor technology have led to an improvement in spatial resolution and wider coverage areas. Nevertheless, the lack of high-resolution labeled data is still a challenge, hindering the largescale application of land cover classification methods. In this paper, we propose a Transformerbased weakly supervised method for cross-resolution land cover classification using outdated data. First, to capture long-range dependencies without missing the fine-grained details of objects, we propose a U-Net-like Transformer based on a reverse difference mechanism (RDM) using dynamic sparse attention. Second, we propose an anti-noise loss calculation (ANLC) module based on optimal transport (OT). Anti-noise loss calculation identifies confident areas (CA) and vague areas (VA) based on the OT matrix, which relieves the impact of noises in outdated land cover products. By introducing a weakly supervised loss with weights and employing unsupervised loss, the RDM-based U-Net-like Transformer was trained. Remote sensing images with 1 m resolution and the corresponding ground-truths of six states in the United States were employed to validate the performance of the proposed method. The experiments utilized outdated land cover products with 30 m resolution from 2013 as training labels, and produced land cover maps with 1 m resolution from 2017. The results show the superiority of the proposed method compared to state-of-the-art methods. The code is available at https://github.com/yu-ni1989/ANLC-Former.
翻訳日:2024-03-07 20:43:48 公開日:2024-03-06
# 進化的アルゴリズムによる低周波ブラックボックスバックドア攻撃

Low-Frequency Black-Box Backdoor Attack via Evolutionary Algorithm ( http://arxiv.org/abs/2402.15653v2 )

ライセンス: Link先を確認
Yanqi Qiao, Dazhuang Liu, Rui Wang, Kaitai Liang(参考訳) 畳み込みニューラルネットワーク(cnns)はコンピュータビジョンタスクで成功を収めているが、バックドア攻撃に弱い。 このような攻撃は、特定のトリガーパターンで攻撃者による予測を行うために、被害者モデルを誤解させる可能性がある。 これまでは、既存の攻撃のトリガー注入は主に空間領域に限られていた。 近年の研究は、周波数領域に特定のパターンを植えることの知覚的特性を利用しており、これは画素領域における不明瞭なピクセルの摂動のみを反映している。 しかしながら、ブラックボックスのセットアップでは、トレーニングプロセスのアクセシビリティは、より複雑なトリガー設計をレンダリングすることが多い。 既存の周波数攻撃は単にスペクトルの大きさを手作りし、クリーンデータと有毒データの間の異常な周波数差を導入し、画像処理操作(損失圧縮やフィルタリングなど)によって取り除かれるリスクを負う。 本稿では、周波数スペクトルの低周波成分を最小に摂動させ、空間空間における知覚的類似性を同時に維持するロバストな低周波ブラックボックスバックドア攻撃(lfba)を提案する。 この攻撃の重要な洞察は、高い攻撃効率、画像変換防御に対する堅牢性、双対空間におけるステルス性を実現する低周波領域への最適なトリガーの探索を制限することである。 シミュレーションアニーリング (SA) を用いて, 被害者分類器の知識に頼ることなく, 操作周波数帯数や各周波数成分の摂動を含む周波数トリガの特性を最適化する。 実世界のデータセットに関する大規模な実験は、LFBAの画像処理操作と最先端のバックドアディフェンスに対する有効性と堅牢性、空間空間と周波数空間の両方に固有のステルス性を検証する。

While convolutional neural networks (CNNs) have achieved success in computer vision tasks, it is vulnerable to backdoor attacks. Such attacks could mislead the victim model to make attacker-chosen prediction with a specific trigger pattern. Until now, the trigger injection of existing attacks is mainly limited to spatial domain. Recent works take advantage of perceptual properties of planting specific patterns in the frequency domain, which only reflect indistinguishable pixel-wise perturbations in pixel domain. However, in the black-box setup, the inaccessibility of training process often renders more complex trigger designs. Existing frequency attacks simply handcraft the magnitude of spectrum, introducing anomaly frequency disparities between clean and poisoned data and taking risks of being removed by image processing operations (such as lossy compression and filtering). In this paper, we propose a robust low-frequency black-box backdoor attack (LFBA), which minimally perturbs low-frequency components of frequency spectrum and maintains the perceptual similarity in spatial space simultaneously. The key insight of our attack restrict the search for the optimal trigger to low-frequency region that can achieve high attack effectiveness, robustness against image transformation defenses and stealthiness in dual space. We utilize simulated annealing (SA), a form of evolutionary algorithm, to optimize the properties of frequency trigger including the number of manipulated frequency bands and the perturbation of each frequency component, without relying on the knowledge from the victim classifier. Extensive experiments on real-world datasets verify the effectiveness and robustness of LFBA against image processing operations and the state-of-the-art backdoor defenses, as well as its inherent stealthiness in both spatial and frequency space, making it resilient against frequency inspection.
翻訳日:2024-03-07 20:43:23 公開日:2024-03-06
# 超音波セグメンテーション改善のためのマスク画像モデリングによる視覚内コンテキスト学習の簡易フレームワーク

A Simple Framework Uniting Visual In-context Learning with Masked Image Modeling to Improve Ultrasound Segmentation ( http://arxiv.org/abs/2402.14300v2 )

ライセンス: Link先を確認
Yuyue Zhou, Banafshe Felfeliyan, Shrimanti Ghosh, Jessica Knight, Fatima Alves-Pereira, Christopher Keen, Jessica K\"upper, Abhilash Rakkunedeth Hareendranathan, Jacob L. Jaremko(参考訳) 従来のディープラーニングモデルは、医用画像の分野における費用と時間のかかる専門家のラベル付けと、ドメイン固有の制限モデル一般化可能性を必要とする。 visual in-context learning(icl)は、コンピュータビジョンにおける新しい、エキサイティングな研究分野である。 従来のディープラーニングとは異なり、ICLはモデルが与えられた例に基づいて新しいタスクに迅速に適応できる能力を強調している。 MAE-VQGAN に触発されて,視覚的 ICL 対画像とマスク画像モデリング (MIM) を組み合わせて自己教師付き学習を行う,SimICL というシンプルな視覚的 ICL 手法を提案した。 そこで本研究では,手関節超音波(us)データセットにおける骨構造セグメント化法を限定的なアノテーションで検証し,骨構造セグメント化の臨床的意義について検討した。 骨領域セグメンテーションに18例の3822画像を含む検査セットを用いた。 SimICLは、Dice coeffient(DC)が0.96、Jaccard Index(IoU)が0.92で、最先端のセグメンテーションとビジュアルICLモデル(最大DC 0.86とIoU 0.76)を上回り、SimICL DCとIoUは0.10と0.16に増加した。 限られた手動アノテーションとのこの驚くほど高い合意は、SimICLが米国の小さなデータセットでもAIモデルのトレーニングに使用できることを示している。 これにより、従来のアプローチと比較して、画像ラベリングに要する専門家の時間を劇的に短縮し、アメリカの画像分析におけるAIアシストの現実的利用を高めることができる。

Conventional deep learning models deal with images one-by-one, requiring costly and time-consuming expert labeling in the field of medical imaging, and domain-specific restriction limits model generalizability. Visual in-context learning (ICL) is a new and exciting area of research in computer vision. Unlike conventional deep learning, ICL emphasizes the model's ability to adapt to new tasks based on given examples quickly. Inspired by MAE-VQGAN, we proposed a new simple visual ICL method called SimICL, combining visual ICL pairing images with masked image modeling (MIM) designed for self-supervised learning. We validated our method on bony structures segmentation in a wrist ultrasound (US) dataset with limited annotations, where the clinical objective was to segment bony structures to help with further fracture detection. We used a test set containing 3822 images from 18 patients for bony region segmentation. SimICL achieved an remarkably high Dice coeffient (DC) of 0.96 and Jaccard Index (IoU) of 0.92, surpassing state-of-the-art segmentation and visual ICL models (a maximum DC 0.86 and IoU 0.76), with SimICL DC and IoU increasing up to 0.10 and 0.16. This remarkably high agreement with limited manual annotations indicates SimICL could be used for training AI models even on small US datasets. This could dramatically decrease the human expert time required for image labeling compared to conventional approaches, and enhance the real-world use of AI assistance in US image analysis.
翻訳日:2024-03-07 20:42:50 公開日:2024-03-06
# 医学レポート生成のためのdual-modal dynamic traceback learning

Dual-modal Dynamic Traceback Learning for Medical Report Generation ( http://arxiv.org/abs/2401.13267v2 )

ライセンス: Link先を確認
Shuchang Ye, Mingyuan Meng, Mingjian Li, Dagan Feng, Jinman Kim(参考訳) 臨床実践における医用画像への依存度の増加に伴い,医療用画像からの自動レポート生成が求められている。 既存のレポート生成手法は通常、エンコーダ-デコーダディープラーニングフレームワークを採用して、一方向のイメージとレポートのマッピングを構築する。 しかし、このような枠組みは画像と報告間の双方向の相互関連を無視しており、両者の内在的な医学的意味を関連付けるのが困難である。 最近の生成表現学習法は、画像とテキストの両モードからデュアルモーダル学習の利点を実証している。 しかし、これらの手法は、医療報告生成の2つの大きな欠点を示す。 1)形態的情報を取り込む傾向があり、微妙な病理的意味情報を取り込むのが困難である。 2) マスクされたテキストは、マスクされていない画像とテキストの両方に依存しており、推論が画像のみに基づく場合、必然的に性能が低下する。 本研究では,この2つの欠点を克服し,医用レポート生成のためのデュアルモーダル学習を実現するために,Dual-modal dynamic traceback Learning(DTrace)を用いた新たなレポート生成フレームワークを提案する。 これを実現するため、DTraceでは、自己評価により生成されたコンテンツのセマンティックな妥当性を制御するためのトレースバック機構を導入している。 さらに,画像とテキストのさまざまな比率に対応する動的学習戦略を導入し,推論中のテキスト入力に依存しないレポート生成を可能にした。 IU-Xray(英語版)とMIMIC-CXR(英語版)の2つのよく知られたデータセットに対する大規模な実験は、DTraceが最先端の医療レポート生成方法より優れていることを示している。

With increasing reliance on medical imaging in clinical practices, automated report generation from medical images is in great demand. Existing report generation methods typically adopt an encoder-decoder deep learning framework to build a uni-directional image-to-report mapping. However, such a framework ignores the bi-directional mutual associations between images and reports, thus incurring difficulties in associating the intrinsic medical meanings between them. Recent generative representation learning methods have demonstrated the benefits of dual-modal learning from both image and text modalities. However, these methods exhibit two major drawbacks for medical report generation: 1) they tend to capture morphological information and have difficulties in capturing subtle pathological semantic information, and 2) they predict masked text rely on both unmasked images and text, inevitably degrading performance when inference is based solely on images. In this study, we propose a new report generation framework with dual-modal dynamic traceback learning (DTrace) to overcome the two identified drawbacks and enable dual-modal learning for medical report generation. To achieve this, our DTrace introduces a traceback mechanism to control the semantic validity of generated content via self-assessment. Further, our DTrace introduces a dynamic learning strategy to adapt to various proportions of image and text input, enabling report generation without reliance on textual input during inference. Extensive experiments on two well-benchmarked datasets (IU-Xray and MIMIC-CXR) show that our DTrace outperforms state-of-the-art medical report generation methods.
翻訳日:2024-03-07 20:41:53 公開日:2024-03-06
# 顔映像から心拍数と血圧を推定するための位相シフト型遠隔光胸シンチグラフィ

Phase-shifted remote photoplethysmography for estimating heart rate and blood pressure from facial video ( http://arxiv.org/abs/2401.04560v2 )

ライセンス: Link先を確認
Gyutae Hwang, Sang Jun Lee(参考訳) ヒトの健康は高血圧、不整脈、脳卒中などの心血管疾患に深刻な影響を受けることがある。 心拍数と血圧は、循環器系のモニタリングと心血管疾患の早期診断に重要な生体情報である。 既存の心拍数を推定する方法は、センサを皮膚表面に接触させる必要のある心電図と光胸腔造影に基づいている。 さらに、血圧測定のためのカテーテルおよびカフ法は不便であり、適用性に制限がある。 そこで本論文では,心拍数と血圧を視覚的に推定する手法を提案する。 本論文では,2段階の深層学習フレームワークとして,DRP-NetとBBP-Netを併用した2段階の深層学習手法を提案する。 第1段階では、drp-netが頭蓋および顔面領域の遠隔光胸腺造影(rppg)信号を推定し、これらの位相シフトrppg信号を用いて心拍数を推定する。 第2段階では、BBP-Netは時間的特徴を統合し、アクラル信号と顔面rPPG信号の位相差を分析し、SBPとDBPの値を推定する。 心拍数を推定する精度を向上させるため,フレーム補間モデルに基づくデータ拡張手法を適用した。 さらに, bbp-net は, スケールド・シグモイド機能を組み込むことにより, 血圧を予め定義された範囲内で推定する。 その結果,平均絶対誤差(MAE)を1.78 BPMと推定し,最近のMMSE-HRデータセットと比較すると,MAEを34.31%削減した。 収縮期血圧 (SBP) と拡張期血圧 (DBP) を推定するためのMAEは10.19 mmHg, 7.09 mmHgであった。 V4Vデータセットでは、心拍数のMAE、SBP、DBPはそれぞれ3.83 BPM、13.64 mmHg、9.4 mmHgであった。

Human health can be critically affected by cardiovascular diseases, such as hypertension, arrhythmias, and stroke. Heart rate and blood pressure are important biometric information for the monitoring of cardiovascular system and early diagnosis of cardiovascular diseases. Existing methods for estimating the heart rate are based on electrocardiography and photoplethyomography, which require contacting the sensor to the skin surface. Moreover, catheter and cuff-based methods for measuring blood pressure cause inconvenience and have limited applicability. Therefore, in this thesis, we propose a vision-based method for estimating the heart rate and blood pressure. This thesis proposes a 2-stage deep learning framework consisting of a dual remote photoplethysmography network (DRP-Net) and bounded blood pressure network (BBP-Net). In the first stage, DRP-Net infers remote photoplethysmography (rPPG) signals for the acral and facial regions, and these phase-shifted rPPG signals are utilized to estimate the heart rate. In the second stage, BBP-Net integrates temporal features and analyzes phase discrepancy between the acral and facial rPPG signals to estimate SBP and DBP values. To improve the accuracy of estimating the heart rate, we employed a data augmentation method based on a frame interpolation model. Moreover, we designed BBP-Net to infer blood pressure within a predefined range by incorporating a scaled sigmoid function. Our method resulted in estimating the heart rate with the mean absolute error (MAE) of 1.78 BPM, reducing the MAE by 34.31 % compared to the recent method, on the MMSE-HR dataset. The MAE for estimating the systolic blood pressure (SBP) and diastolic blood pressure (DBP) were 10.19 mmHg and 7.09 mmHg. On the V4V dataset, the MAE for the heart rate, SBP, and DBP were 3.83 BPM, 13.64 mmHg, and 9.4 mmHg, respectively.
翻訳日:2024-03-07 20:41:27 公開日:2024-03-06
# 高分解能ジコトコス像の両側参照

Bilateral Reference for High-Resolution Dichotomous Image Segmentation ( http://arxiv.org/abs/2401.03407v2 )

ライセンス: Link先を確認
Peng Zheng, Dehong Gao, Deng-Ping Fan, Li Liu, Jorma Laaksonen, Wanli Ouyang and Nicu Sebe(参考訳) 高分解能ディコトコス像分割(DIS)のための新しい両側参照フレームワーク(BiRefNet)を導入する。 本研究は,2つの基本成分: 局所化モジュール (LM) と再構成モジュール (RM) を, 提案した両側参照 (BiRef) で構成する。 lmはグローバルセマンティクス情報を用いたオブジェクトのローカライズを支援する。 rm内ではbirefを再構成プロセスに利用し,画像の階層的パッチがソース参照を提供し,勾配マップがターゲット参照として機能する。 これらのコンポーネントは協調して最終的な予測地図を生成する。 また,より詳細な領域への注目度を高めるために,補助勾配の監督も導入する。 さらに,地図品質と訓練プロセスを改善するためにdis用に調整された実践的訓練戦略について概説する。 提案手法の汎用性を検証するため,BiRefNetがすべてのベンチマークにおいて,タスク固有の最先端手法よりも優れた性能を示すことを示すため,4つのタスクについて広範な実験を行った。 私たちのコードはhttps://github.com/zhengpeng7/birefnetで利用可能です。

We introduce a novel bilateral reference framework (BiRefNet) for high-resolution dichotomous image segmentation (DIS). It comprises two essential components: the localization module (LM) and the reconstruction module (RM) with our proposed bilateral reference (BiRef). The LM aids in object localization using global semantic information. Within the RM, we utilize BiRef for the reconstruction process, where hierarchical patches of images provide the source reference and gradient maps serve as the target reference. These components collaborate to generate the final predicted maps. We also introduce auxiliary gradient supervision to enhance focus on regions with finer details. Furthermore, we outline practical training strategies tailored for DIS to improve map quality and training process. To validate the general applicability of our approach, we conduct extensive experiments on four tasks to evince that BiRefNet exhibits remarkable performance, outperforming task-specific cutting-edge methods across all benchmarks. Our codes are available at https://github.com/ZhengPeng7/BiRefNet.
翻訳日:2024-03-07 20:40:53 公開日:2024-03-06
# R3D-SWIN:シングルビュー3D再構成のための移動ウィンドウアテンション

R3D-SWIN:Use Shifted Window Attention for Single-View 3D Reconstruction ( http://arxiv.org/abs/2312.02725v3 )

ライセンス: Link先を確認
Chenhuan Li, Meihua Xiao, zehuan li and Fangping Chen, Shanshan Qiao, Dingli Wang, Mengxi Gao, Siyi Zhang(参考訳) 近年、視覚トランスフォーマーはvoxel 3dリコンストラクションを含む様々なコンピュータビジョンタスクでうまく機能している。 しかし、視覚変換器の窓はマルチスケールではなく、窓の間には接続がなく、ボクセル3D再構成の精度が制限されている。 そこで我々は,移動窓の注目度に基づくボクセル3D再構成ネットワークを提案する。 私たちの知る限りでは、これはvoxel 3dリコンストラクションにシフトウインドウを応用した最初の作品です。 ShapeNetによる実験結果から, 単視点再構成におけるSOTA精度が得られた。

Recently, vision transformers have performed well in various computer vision tasks, including voxel 3D reconstruction. However, the windows of the vision transformer are not multi-scale, and there is no connection between the windows, which limits the accuracy of voxel 3D reconstruction. Therefore, we propose a voxel 3D reconstruction network based on shifted window attention. To the best of our knowledge, this is the first work to apply shifted window attention to voxel 3D reconstruction. Experimental results on ShapeNet verify our method achieves SOTA accuracy in single-view reconstruction.
翻訳日:2024-03-07 20:40:35 公開日:2024-03-06
# etc: 時間境界拡大によるマルチモーダル大言語モデルによる弱教師付きビデオグラウンドの明確化

EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model ( http://arxiv.org/abs/2312.02483v2 )

ライセンス: Link先を確認
Guozhang Li, Xinpeng Ding, De Cheng, Jie Li, Nannan Wang and Xinbo Gao(参考訳) 初期の弱い教師付きビデオグラウンドディング(WSVG)法は、時間境界アノテーションがないために不完全な境界検出に苦慮することが多い。 ビデオレベルのアノテーションと境界レベルのアノテーションのギャップを埋めるために、トレーニングのための擬似時間境界を生成する明示的なスーパービジョン手法は大きな成功を収めた。 しかし、これらの手法におけるデータ拡張は、重要な時間的情報を妨害し、擬似境界が貧弱になる可能性がある。 本稿では,不完全な境界を広げるためのより貴重な情報を導入しながら,元の時間的コンテンツの完全性を維持する新たな視点を提案する。 この目的のためにEtC(Expand then Clarify)を提案し、まず追加情報を用いて初期不完全な擬似境界を拡張し、その後、拡張された境界を洗練して正確な境界を達成する。 ビデオの連続性、すなわち、隣接するフレーム間の視覚的類似性により、我々は、初期擬似境界内で各フレームに注釈を付けるために強力なマルチモーダル大言語モデル(MLLM)を使用する。 拡張境界の雑音をより明確にするために、我々は相互学習と、学習可能なアプローチを用いて、不完全でクリーンな(初期)境界と包括的でノイズの多い(拡張)境界とのバランスをより正確なものに調和させる。 2つの挑戦的なWSVGデータセットに対して,本手法の優位性を示す実験を行った。

Early weakly supervised video grounding (WSVG) methods often struggle with incomplete boundary detection due to the absence of temporal boundary annotations. To bridge the gap between video-level and boundary-level annotation, explicit-supervision methods, i.e., generating pseudo-temporal boundaries for training, have achieved great success. However, data augmentations in these methods might disrupt critical temporal information, yielding poor pseudo boundaries. In this paper, we propose a new perspective that maintains the integrity of the original temporal content while introducing more valuable information for expanding the incomplete boundaries. To this end, we propose EtC (Expand then Clarify), first use the additional information to expand the initial incomplete pseudo boundaries, and subsequently refine these expanded ones to achieve precise boundaries. Motivated by video continuity, i.e., visual similarity across adjacent frames, we use powerful multimodal large language models (MLLMs) to annotate each frame within initial pseudo boundaries, yielding more comprehensive descriptions for expanded boundaries. To further clarify the noise of expanded boundaries, we combine mutual learning with a tailored proposal-level contrastive objective to use a learnable approach to harmonize a balance between incomplete yet clean (initial) and comprehensive yet noisy (expanded) boundaries for more precise ones. Experiments demonstrate the superiority of our method on two challenging WSVG datasets.
翻訳日:2024-03-07 20:40:26 公開日:2024-03-06
# sam-6d: segment anythingモデルによるゼロショット6dオブジェクトポーズ推定

SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation ( http://arxiv.org/abs/2311.15707v2 )

ライセンス: Link先を確認
Jiehong Lin and Lihua Liu and Dekun Lu and Kui Jia(参考訳) ゼロショットの6dオブジェクトポーズ推定は、6dのポーズが散らばったシーンで新しいオブジェクトを検出することを伴う。 幸いなことに、Segment Anything Model (SAM) は驚くべきゼロショット転送性能を示しており、この課題に対処するための有望なソリューションを提供している。 そこで本研究では,インスタンス分割とポーズ推定を含む2つのステップでタスクを実現するための新しいフレームワークであるsam-6dを提案する。 SAM-6Dは、ターゲットオブジェクトが与えられた場合、インスタンスセグメンテーションモデル(ISM)とポス推定モデル(PEM)という2つの専用サブネットワークを使用し、RGB-D画像の断片化を行う。 ismはsamをあらゆる可能なオブジェクトプロポーザルを生成するための先進的な出発点とし、セマンティック、外観、幾何学の観点で細心の注意深いオブジェクトマッチングスコアによって有効なものを選択的に保存する。 ポーズ推定を部分対部分マッチング問題として扱うことにより、pemは、密接な3d-3d対応を構築するために背景トークンの新しい設計を特徴とする2段階のポイントマッチングプロセスを実行し、最終的にポーズ推定を生成する。 SAM-6Dは、ベルとホイッスルなしで、インスタンスセグメンテーションと新しいオブジェクトのポーズ推定の両方において、BOPベンチマークの7つのコアデータセット上の既存のメソッドよりも優れている。

Zero-shot 6D object pose estimation involves the detection of novel objects with their 6D poses in cluttered scenes, presenting significant challenges for model generalizability. Fortunately, the recent Segment Anything Model (SAM) has showcased remarkable zero-shot transfer performance, which provides a promising solution to tackle this task. Motivated by this, we introduce SAM-6D, a novel framework designed to realize the task through two steps, including instance segmentation and pose estimation. Given the target objects, SAM-6D employs two dedicated sub-networks, namely Instance Segmentation Model (ISM) and Pose Estimation Model (PEM), to perform these steps on cluttered RGB-D images. ISM takes SAM as an advanced starting point to generate all possible object proposals and selectively preserves valid ones through meticulously crafted object matching scores in terms of semantics, appearance and geometry. By treating pose estimation as a partial-to-partial point matching problem, PEM performs a two-stage point matching process featuring a novel design of background tokens to construct dense 3D-3D correspondence, ultimately yielding the pose estimates. Without bells and whistles, SAM-6D outperforms the existing methods on the seven core datasets of the BOP Benchmark for both instance segmentation and pose estimation of novel objects.
翻訳日:2024-03-07 20:39:59 公開日:2024-03-06
# DECap: 拡散機構による汎用的明示的キャプション編集を目指して

DECap: Towards Generalized Explicit Caption Editing via Diffusion Mechanism ( http://arxiv.org/abs/2311.14920v2 )

ライセンス: Link先を確認
Zhen Wang, Xinyun Jiang, Jun Xiao, Tao Chen, Long Chen(参考訳) 明示的なキャプション編集(ece) -- 明示的な編集操作(例えばkeep, detele)のシーケンスを通して参照画像キャプションを精錬する -- は、説明可能で人間のような性質のため、大きな注目を集めている。 注意深く設計された参照と接頭辞のペアでトレーニングした後、最先端のeceモデルは、オリジナルのトレーニングデータ分布を超えた限定的な一般化能力、すなわち、ドメイン内サンプルのみの内容詳細を洗練するように調整されるが、ドメイン外サンプルのエラーを訂正できない。 そこで本稿では,Diffusion ベースの Explicit Caption 編集手法である DECap を提案する。 具体的には,ECEタスクを拡散機構下でのデノナイズプロセスとして再構成し,革新的な編集に基づくノナイズプロセスを導入する。 この設計により、学習のための単語レベルのノイズを直接導入し、入力参照キャプションよりも多様な分布を学習することにより、綿密なペアデータ選択の必要性を解消することができる。 復調処理は、編集操作と対応するコンテンツワードの明示的な予測と、反復的なステップワイズ編集による参照キャプションの精製を含む。 拡散プロセスを効率的に実装し、推論速度を向上させるために、広く普及している多段階設計を捨て、編集操作とコンテンツワードを同時に生成する。 様々なシナリオにおいて、DeCapの強力な一般化能力が広く証明されている。 さらに興味深いことに、キャプション生成の品質と制御性を改善する大きな可能性を秘めている。

Explicit Caption Editing (ECE) -- refining reference image captions through a sequence of explicit edit operations (e.g., KEEP, DETELE) -- has raised significant attention due to its explainable and human-like nature. After training with carefully designed reference and ground-truth caption pairs, state-of-the-art ECE models exhibit limited generalization ability beyond the original training data distribution, i.e., they are tailored to refine content details only in in-domain samples but fail to correct errors in out-of-domain samples. To this end, we propose a new Diffusion-based Explicit Caption editing method: DECap. Specifically, we reformulate the ECE task as a denoising process under the diffusion mechanism, and introduce innovative edit-based noising and denoising processes. Thanks to this design, the noising process can help to eliminate the need for meticulous paired data selection by directly introducing word-level noises for training, learning diverse distribution over input reference caption. The denoising process involves the explicit predictions of edit operations and corresponding content words, refining reference captions through iterative step-wise editing. To further efficiently implement our diffusion process and improve the inference speed, DECap discards the prevalent multi-stage design and directly generates edit operations and content words simultaneously. Extensive ablations have demonstrated the strong generalization ability of DECap in various scenarios. More interestingly, it even shows great potential in improving the quality and controllability of caption generation.
翻訳日:2024-03-07 20:39:31 公開日:2024-03-06
# 視覚言語モデルを用いた皮膚病変診断の概念的解釈可能性に向けて

Towards Concept-based Interpretability of Skin Lesion Diagnosis using Vision-Language Models ( http://arxiv.org/abs/2311.14339v2 )

ライセンス: Link先を確認
Cristiano Patr\'icio, Lu\'is F. Teixeira, Jo\~ao C. Neves(参考訳) 概念に基づくモデルは、本質的に解釈可能な皮膚病変の診断の開発に自然に役立ち、医療の専門家は病変の一連の視覚パターンに基づいて決定を下す。 それにもかかわらず、これらのモデルの開発は、アノテーションプロセスに必要な専門的な知識と専門知識のために可用性が低い概念注釈データセットの存在に依存する。 本研究では,視覚言語モデルを用いて,多数の概念注釈付きサンプルへの依存を緩和できることを示す。 特に,CLIPをテキスト埋め込みとして概念に基づく記述を用いた皮膚病変分類の下流タスクに適用するための埋め込み学習戦略を提案する。 実験により,視覚言語モデルでは,概念をテキスト埋め込みとして使用する場合の精度が向上するだけでなく,概念注釈付きサンプルを少なくすることで,概念自動生成のためのアプローチに匹敵する性能が得られることが明らかとなった。

Concept-based models naturally lend themselves to the development of inherently interpretable skin lesion diagnosis, as medical experts make decisions based on a set of visual patterns of the lesion. Nevertheless, the development of these models depends on the existence of concept-annotated datasets, whose availability is scarce due to the specialized knowledge and expertise required in the annotation process. In this work, we show that vision-language models can be used to alleviate the dependence on a large number of concept-annotated samples. In particular, we propose an embedding learning strategy to adapt CLIP to the downstream task of skin lesion classification using concept-based descriptions as textual embeddings. Our experiments reveal that vision-language models not only attain better accuracy when using concepts as textual embeddings, but also require a smaller number of concept-annotated samples to attain comparable performance to approaches specifically devised for automatic concept generation.
翻訳日:2024-03-07 20:39:03 公開日:2024-03-06
# 質問応答と古典的画像分類のための密度行列付き量子ニューラルネットワーク

Quantum Neural Network with Density Matrix for Question Answering and Classical Image Classification ( http://arxiv.org/abs/2203.11155v4 )

ライセンス: Link先を確認
X. Q. Zhao, T. L. Chen(参考訳) 量子密度行列(Quantum density matrix)は、量子系の全ての情報を表し、密度行列を用いた新しいモデルでは、量子問題応答タスクにおいて、仮説や言語的あいまいさなどの言語現象を自然にモデル化する。 自然に、量子密度行列を古典的質問応答(QA)タスクに適用すると、より効果的な性能が得られると論じる。 具体的には (i)入力が行列である場合に対応するため、LSTM(Long Short-Term Memory)に基づく新しいメカニズムを設計すること。 (2)畳み込みニューラルネットワーク(CNN)のQA問題に適用し,量子密度行列を用いたLSTMに基づくQAモデルを得る。 TREC-QAデータセットとWIKI-QAデータセットの新たなモデルによる実験結果が得られた。 同様に、量子密度行列は、画像特徴情報と古典的な画像分類の特徴との関係性を高めることができると論じる。 ですから私たちは i) 密度行列とCNNを組み合わせて新しい機構を設計すること。 (ii)代表的古典的画像分類課題に新たなメカニズムを適用する。 一連の実験により、画像分類における量子密度行列の応用は、異なるデータセットに対する一般化と高効率性を有することが示された。 古典的質問応答課題と古典的画像分類課題の両方における量子密度行列の適用は、より効果的な性能を示す。

Quantum density matrix represents all the information of the entire quantum system, and novel models of meaning employing density matrices naturally model linguistic phenomena such as hyponymy and linguistic ambiguity, among others in quantum question answering tasks. Naturally, we argue that applying the quantum density matrix into classical Question Answering (QA) tasks can show more effective performance. Specifically, we (i) design a new mechanism based on Long Short-Term Memory (LSTM) to accommodate the case when the inputs are matrixes; (ii) apply the new mechanism to QA problems with Convolutional Neural Network (CNN) and gain the LSTM-based QA model with the quantum density matrix. Experiments of our new model on TREC-QA and WIKI-QA data sets show encouraging results. Similarly, we argue that the quantum density matrix can also enhance the image feature information and the relationship between the features for the classical image classification. Thus, we (i) combine density matrices and CNN to design a new mechanism; (ii) apply the new mechanism to some representative classical image classification tasks. A series of experiments show that the application of quantum density matrix in image classification has the generalization and high efficiency on different datasets. The application of quantum density matrix both in classical question answering tasks and classical image classification tasks show more effective performance.
翻訳日:2024-03-07 18:49:10 公開日:2024-03-06
# ライドバーグ原子鎖の厳密なダイナミクスを用いた離散切断ウィグナー近似とニューラルネットワーク量子状態のベンチマーク

Benchmarking discrete truncated Wigner approximation and neural network quantum states with the exact dynamics in a Rydberg atomic chain ( http://arxiv.org/abs/2110.02201v4 )

ライセンス: Link先を確認
Vighnesh Naik, Varna Shenoy, Weibin Li and Rejish Nath(参考訳) 我々は10個のリドバーグ原子の連鎖における厳密な励起と相関ダイナミクスを持つ制限ボルツマン様機械に基づく離散切断ウィグナー近似(dtwa)と神経量子状態(nqs)のベンチマークを行った。 初期状態は、全ての原子が電子基底状態にある場所である。 我々はRydbergの励起の最大値と平均値を用いて励起ダイナミクスを特徴づける。 DTWAの結果は、大きなRydberg-Rydberg相互作用の正確なダイナミクスとは異なる。 対照的に、隠れたスピンの数を増やすことで、NQSは改善できるが、それでも短時間のダイナミクスに制限される。 興味深いことに、相互作用強度に関係なく、NQSを用いて得られる平均励起量は正確な結果とよく一致している。 量子相関の計算、例えば二階二部と平均二点R\'enyiエントロピーについて、NQSはより有望に見える。 最後に、平均2サイトR'enyiエントロピーの初期成長に対する電力法スケーリングの存在について論じる。

We benchmark the discrete truncated Wigner approximation (DTWA) and Neural quantum states (NQS) based on restricted Boltzmann-like machines with the exact excitation and correlation dynamics in a chain of ten Rydberg atoms. The initial state is where all atoms are in their electronic ground state. We characterize the excitation dynamics using the maximum and time-averaged number of Rydberg excitations. DTWA results are different from the exact dynamics for large Rydberg-Rydberg interactions. In contrast, by increasing the number of hidden spins, the NQS can be improved but still limited to short-time dynamics. Interestingly, irrespective of interaction strengths, the time-averaged number of excitations obtained using NQS is in excellent agreement with the exact results. Concerning the calculation of quantum correlations, for instance, second-order bipartite and average two-site R\'enyi entropies, NQS looks more promising. Finally, we discuss the existence of a power law scaling for the initial growth of average two-site R\'enyi entropy.
翻訳日:2024-03-07 18:48:47 公開日:2024-03-06
# DocTer: ディープラーニングAPI機能をテストするためのドキュメントガイドファズリング

DocTer: Documentation Guided Fuzzing for Testing Deep Learning API Functions ( http://arxiv.org/abs/2109.01002v4 )

ライセンス: Link先を確認
Danning Xie, Yitong Li, Mijung Kim, Hung Viet Pham, Lin Tan, Xiangyu Zhang, Michael W. Godfrey(参考訳) 入力制約は多くのソフトウェア開発タスクに役立ちます。 例えば、関数の入力制約は、有効な入力、すなわちこれらの制約に従う入力の生成を可能にし、関数をより深くテストする。 deep learning(dl)ライブラリのapi機能にはdl固有の入力制約があり、free form apiドキュメントに非公式に記述されている。 既存の制約抽出技術は、DL固有の入力制約を抽出するのに効果がない。 このギャップを埋めるために、新しいテクニックであるDocTerを設計、実装し、APIドキュメントを分析してDL固有のDLAPI関数の入力制約を抽出する。 DocTerは、API記述の依存性解析ツリーの形式で構文パターンからAPIパラメータ制約を抽出するルールを自動的に構築する、新しいアルゴリズムを備えている。 これらのルールは、人気のあるDLライブラリの大量のAPIドキュメントに適用され、入力パラメータの制約を抽出します。 抽出された制約の有効性を示すために、DocTerは制約を使用して、DL API関数をテストするための有効および無効な入力の自動生成を可能にする。 一般的な3つのDLライブラリ(TensorFlow、PyTorch、MXNet)に対する評価では、入力制約抽出におけるDocTerの精度は85.4%である。 DocTerは174のAPI関数から94のバグを検出し、その中にはCVEデータベースに記録されている既知のセキュリティ脆弱性が含まれている。 94のバグのほとんど(63)は以前不明であり、54は報告後、開発者によって修正または確認されている。 さらに、ドクターは文書中の43の矛盾を検出し、そのうち39は修正または確認される。

Input constraints are useful for many software development tasks. For example, input constraints of a function enable the generation of valid inputs, i.e., inputs that follow these constraints, to test the function deeper. API functions of deep learning (DL) libraries have DL specific input constraints, which are described informally in the free form API documentation. Existing constraint extraction techniques are ineffective for extracting DL specific input constraints. To fill this gap, we design and implement a new technique, DocTer, to analyze API documentation to extract DL specific input constraints for DL API functions. DocTer features a novel algorithm that automatically constructs rules to extract API parameter constraints from syntactic patterns in the form of dependency parse trees of API descriptions. These rules are then applied to a large volume of API documents in popular DL libraries to extract their input parameter constraints. To demonstrate the effectiveness of the extracted constraints, DocTer uses the constraints to enable the automatic generation of valid and invalid inputs to test DL API functions. Our evaluation on three popular DL libraries (TensorFlow, PyTorch, and MXNet) shows that the precision of DocTer in extracting input constraints is 85.4%. DocTer detects 94 bugs from 174 API functions, including one previously unknown security vulnerability that is now documented in the CVE database, while a baseline technique without input constraints detects only 59 bugs. Most (63) of the 94 bugs are previously unknown, 54 of which have been fixed or confirmed by developers after we report them. In addition, DocTer detects 43 inconsistencies in documents, 39 of which are fixed or confirmed.
翻訳日:2024-03-07 18:48:30 公開日:2024-03-06
# 交通流予測のための時空間自己監督学習

Spatio-Temporal Self-Supervised Learning for Traffic Flow Prediction ( http://arxiv.org/abs/2212.04475v2 )

ライセンス: Link先を確認
Jiahao Ji, Jingyuan Wang, Chao Huang, Junjie Wu, Boren Xu, Zhenhe Wu, Junbo Zhang, Yu Zheng(参考訳) 異なる時期における都市全体の交通流のロバストな予測は、インテリジェント交通システムにおいて重要な役割を果たす。 従来の研究は時空間相関のモデル化に多大な努力を払ってきたが、既存の手法には以下の2つの重要な制限がある。 一 殆どのモデルは、空間的不均一性を考慮せずに、一括して全ての領域の流れを予測する。 二 このモデルでは、時間変化のパターンによって引き起こされる時間的不均一性を捉えることができず、典型的には時間的相関を全時間にわたって共有パラメータ化空間でモデル化する。 これらの課題に対処するために,空間的・時間的不均一性を反映した交通パターン表現を補助的な自己教師型学習パラダイムで拡張する,新しい時空間自己監視学習(ST-SSL)トラフィック予測フレームワークを提案する。 具体的には、ST-SSLは時間的・空間的な畳み込みを備えた統合モジュール上に構築され、空間的・時間的に情報を符号化する。 適応時空間自己教師付き学習を実現するために,st-sslは属性レベルと構造レベルでのトラヒックフローグラフデータに対する適応強化を行う。 拡張トラフィックグラフ上に2つのSSL補助タスクを構築し,空間的および時間的不均一性を考慮した拡張によるトラフィック予測タスクを補完する。 4つのベンチマークデータセットの実験では、ST-SSLは様々な最先端のベースラインを一貫して上回っている。 時空間の不均一性は実用的なデータセットに広く存在するため、提案手法は他の時空間応用にも光を当てることができる。 モデル実装はhttps://github.com/Echo-Ji/ST-SSLで公開されている。

Robust prediction of citywide traffic flows at different time periods plays a crucial role in intelligent transportation systems. While previous work has made great efforts to model spatio-temporal correlations, existing methods still suffer from two key limitations: i) Most models collectively predict all regions' flows without accounting for spatial heterogeneity, i.e., different regions may have skewed traffic flow distributions. ii) These models fail to capture the temporal heterogeneity induced by time-varying traffic patterns, as they typically model temporal correlations with a shared parameterized space for all time periods. To tackle these challenges, we propose a novel Spatio-Temporal Self-Supervised Learning (ST-SSL) traffic prediction framework which enhances the traffic pattern representations to be reflective of both spatial and temporal heterogeneity, with auxiliary self-supervised learning paradigms. Specifically, our ST-SSL is built over an integrated module with temporal and spatial convolutions for encoding the information across space and time. To achieve the adaptive spatio-temporal self-supervised learning, our ST-SSL first performs the adaptive augmentation over the traffic flow graph data at both attribute- and structure-levels. On top of the augmented traffic graph, two SSL auxiliary tasks are constructed to supplement the main traffic prediction task with spatial and temporal heterogeneity-aware augmentation. Experiments on four benchmark datasets demonstrate that ST-SSL consistently outperforms various state-of-the-art baselines. Since spatio-temporal heterogeneity widely exists in practical datasets, the proposed framework may also cast light on other spatial-temporal applications. Model implementation is available at https://github.com/Echo-Ji/ST-SSL.
翻訳日:2024-03-07 18:46:15 公開日:2024-03-06
# 量子カオスと時間の矢印

Quantum chaos and the arrow of time ( http://arxiv.org/abs/2212.03914v8 )

ライセンス: Link先を確認
Nilakash Sorokhaibam(参考訳) 古典物理学は、熱力学の第2法則の形で時間の矢印を与える。 しかし、時空の矢印の量子的起源の明確な写真は今のところ不足している。 本文では,量子カオス系において時間矢印が発生することを示す。 カオス的でもある孤立量子系では、系が摂動するとエントロピーの変化は非負であることが示されている。 このことは、固有状態熱化仮説(ETH)における対角線外項に新たな深い制約をもたらすことを示す。 可積分系の場合、第二法則は有限摂動の後に一般化されたギブスアンサンブルに熱化しないため、真ではない。

Classical physics provides an arrow of time in the form of the second law of thermodynamics. But a clear picture of the quantum origin of the arrow of time has been lacking so far. In this letter, we show that an arrow of time arises in quantum chaotic systems. We show that, for an isolated quantum system which is also chaotic, the change in entropy is non-negative when the system is perturbed. We show that this gives rise to a new profound constraint on the off-diagonal terms in eigenstate thermalization hypothesis (ETH) statement. In case of an integrable system, the second law does not hold true because the system does not thermalize to a generalized Gibbs ensemble after a finite perturbation.
翻訳日:2024-03-07 18:45:46 公開日:2024-03-06
# 投機応答モデルによる意思決定

Decision-making with Speculative Opponent Models ( http://arxiv.org/abs/2211.11940v2 )

ライセンス: Link先を確認
Jing Sun, Shuo Chen, Cong Zhang, Jie Zhang(参考訳) 反対モデリングは、他のエージェントのモデルを構築することによって、制御エージェントの意思決定の恩恵を受けている。 既存の手法では、相手の観察や行動へのアクセスを前提としており、相手の行動が観察できない場合や入手が難しい場合は不可能である。 そこで本稿では,純粋に局所的な情報(エージェントの観察,行動,報酬など)を用いた投機的相手モデルを実現するための,新しいマルチエージェント分布型アクター批判アルゴリズムを提案する。 具体的には,「投機的相手モデル」と呼ぶ相手の推測的信念を維持し,局所的な観察を用いて相手の行動を予測し,それに応じて決定する。 さらに、分布批評家はポリシーの戻り分布をモデル化する。 俳優の質を反映し、俳優が頼っている投機的相手モデルの訓練を導くことができる。 広範な実験により,本手法はデータ無しで相手の行動のモデル化に成功し,より高速な収束速度でベースライン法に対して優れた性能をもたらすことを確認した。

Opponent modeling has benefited a controlled agent's decision-making by constructing models of other agents. Existing methods commonly assume access to opponents' observations and actions, which is infeasible when opponents' behaviors are unobservable or hard to obtain. We propose a novel multi-agent distributional actor-critic algorithm to achieve speculative opponent modeling with purely local information (i.e., the controlled agent's observations, actions, and rewards). Specifically, the actor maintains a speculated belief of the opponents, which we call the speculative opponent models, to predict opponent actions using local observations and makes decisions accordingly. Further, the distributional critic models the return distribution of the policy. It reflects the quality of the actor and thus can guide the training of the speculative opponent model that the actor relies on. Extensive experiments confirm that our method successfully models opponents' behaviors without their data and delivers superior performance against baseline methods with a faster convergence speed.
翻訳日:2024-03-07 18:45:14 公開日:2024-03-06
# 有限ゲージ理論における高群対称性と安定化符号

Higher-group symmetry in finite gauge theory and stabilizer codes ( http://arxiv.org/abs/2211.11764v3 )

ライセンス: Link先を確認
Maissam Barkeshli, Yu-An Chen, Po-Shen Hsin, Ryohei Kobayashi(参考訳) 物質のギャップ位相の大規模なクラスは、トポロジカル有限群ゲージ理論によって記述できる。 本稿では、そのようなゲージ理論がなぜ高群大域対称性を持つのかを示し、これを詳細に研究する。 我々は、非アベリアゲージ群やディクグラーフ・ウィッテンツイストを含む、$(d+1)$時空次元の位相的有限群ゲージ理論に対する$d$群大域対称性とその't Hooft異常を導出する。 低次元ゲージ対称性保護位相位相(spt)相で装飾された可逆的(可換)磁気欠陥と可逆的位相欠陥によって生成される高次対称性に注目した。 ウィッテン効果の一般化と電荷流束アタッチメントにより、磁気欠陥によって生じる1-形式対称性が、他の対称性とより高次に混合することを示す。 このような高群対称性を格子モデルの例で記述する。 一般フェルミオン対称性群に対するフェルミオンSPT相(3+1)Dの分類など、いくつかの応用について論じるとともに、先行研究で現れた$[O_5] \in H^5(BG, U(1))$の単純な公式も導出する。 また,$d$-group対称性がフォールトトレラントな非ポーリ論理ゲートや安定化符号の洗練されたクリフォード階層と関連していることを示す。 3+1)D $\mathbb{Z}_2$トリック符号の制御Zゲートのような$d$-群対称性を用いて安定化器符号の新しい論理ゲートを発見する。

A large class of gapped phases of matter can be described by topological finite group gauge theories. In this paper we show how such gauge theories possess a higher-group global symmetry, which we study in detail. We derive the $d$-group global symmetry and its 't Hooft anomaly for topological finite group gauge theories in $(d+1)$ space-time dimensions, including non-Abelian gauge groups and Dijkgraaf-Witten twists. We focus on the 1-form symmetry generated by invertible (Abelian) magnetic defects and the higher-form symmetries generated by invertible topological defects decorated with lower dimensional gauged symmetry-protected topological (SPT) phases. We show that due to a generalization of the Witten effect and charge-flux attachment, the 1-form symmetry generated by the magnetic defects mixes with other symmetries into a higher group. We describe such higher-group symmetry in various lattice model examples. We discuss several applications, including the classification of fermionic SPT phases in (3+1)D for general fermionic symmetry groups, where we also derive a simpler formula for the $[O_5] \in H^5(BG, U(1))$ obstruction that has appeared in prior work. We also show how the $d$-group symmetry is related to fault-tolerant non-Pauli logical gates and a refined Clifford hierarchy in stabilizer codes. We discover new logical gates in stabilizer codes using the $d$-group symmetry, such as a Controlled-Z gate in (3+1)D $\mathbb{Z}_2$ toric code.
翻訳日:2024-03-07 18:44:57 公開日:2024-03-06
# 行列積状態と量子条件相互情報の減衰

Matrix product states and the decay of quantum conditional mutual information ( http://arxiv.org/abs/2211.06794v2 )

ライセンス: Link先を確認
Pavel Svetlichnyy, Shivan Mittal and T.A.B. Kennedy(参考訳) スピンの三成分系上で定義される一様行列積の状態は、$abc,$ で表され、サブシステム $b,$ が$|b|,$ で表されるとき、近似量子マルコフ鎖であることが示される。 量子条件相互情報(QCMI)は、$q$と$K$の計算可能定数を持つ$\exp(-q(|B|-K)+2K\ln|B|)$に比例した関数で調べられ、有界であることが証明された。 有界関数の性質は、その漸近減衰率$q$に対して対応する改善された値を持つ新しいアプローチによって導かれる。 最適になるために$q$の改善値を示します。 QCMIの崩壊に関する数値的な研究は、ハール測度に対する定義等尺性を選択することによって生成される行列積状態の集合に対して報告される。

A uniform matrix product state defined on a tripartite system of spins, denoted by $ABC,$ is shown to be an approximate quantum Markov chain when the size of subsystem $B,$ denoted $|B|,$ is large enough. The quantum conditional mutual information (QCMI) is investigated and proved to be bounded by a function proportional to $\exp(-q(|B|-K)+2K\ln|B|)$, with $q$ and $K$ computable constants. The properties of the bounding function are derived by a new approach, with a corresponding improved value given for its asymptotic decay rate $q$. We show the improved value of $q$ to be optimal. Numerical investigations of the decay of QCMI are reported for a collection of matrix product states generated by selecting the defining isometry with respect to Haar measure.
翻訳日:2024-03-07 18:44:23 公開日:2024-03-06
# 暗号通貨取引ペアの最適設定

Optimal Settings for Cryptocurrency Trading Pairs ( http://arxiv.org/abs/2210.10971v3 )

ライセンス: Link先を確認
Di Zhang, Youzhou Zhou(参考訳) 暗号通貨の目標は分散化である。 原則として、全ての通貨は等しい状態にある。 伝統的な株式市場とは異なり、デフォルト通貨(fiat)は存在せず、取引ペアは自由に設定できる。 しかし、2通貨ごとに取引市場を設置するのは現実的ではない。 経営コストを抑え、十分な流動性を確保するためには、これらの大量取引ペアをカバーし、すべての硬貨が到達可能であることを優先しなければならない。 これは最適化の問題である。 その特異性は次の通りである。 1) ほとんど(>99.5%)の取引ペア間の取引量は直接観察できない。 2)接続制約、すなわち、全ての通貨が取引可能であることを保証します。 この問題を解決するために、2段階のプロセスを使います。 1) 正規化された非正規化固有値分解(regularized eigenvalue decomposition)に基づいて不足値を埋める。 2) 最適取引ペアの探索は, 分枝および束縛過程に基づき, ヒューリスティック探索および刈り取り戦略を用いて行う。 実験の結果は以下の通りである。 1) 発行枚数に制限がない場合は,より分散的な取引ペアの設定が得られ,大規模な通貨ペア間の取引ペアの確立を提唱する。 2)すべての交換において最適化の余地がある。 不適切な取引ペアの設定は、主に小さなコインを引用するように主観的に設定したり、時間内に現れる大きなコインを追跡しなかったりすることで引き起こされる。 3)トレーディングペアが少なすぎるとカバレッジが低下し、トレーディングペアが頻繁に市場に調整される必要がある。 取引所は適切なバランスをとるべきである。

The goal of cryptocurrencies is decentralization. In principle, all currencies have equal status. Unlike traditional stock markets, there is no default currency of denomination (fiat), thus the trading pairs can be set freely. However, it is impractical to set up a trading market between every two currencies. In order to control management costs and ensure sufficient liquidity, we must give priority to covering those large-volume trading pairs and ensure that all coins are reachable. We note that this is an optimization problem. Its particularity lies in: 1) the trading volume between most (>99.5%) possible trading pairs cannot be directly observed. 2) It satisfies the connectivity constraint, that is, all currencies are guaranteed to be tradable. To solve this problem, we use a two-stage process: 1) Fill in missing values based on a regularized, truncated eigenvalue decomposition, where the regularization term is used to control what extent missing values should be limited to zero. 2) Search for the optimal trading pairs, based on a branch and bound process, with heuristic search and pruning strategies. The experimental results show that: 1) If the number of denominated coins is not limited, we will get a more decentralized trading pair settings, which advocates the establishment of trading pairs directly between large currency pairs. 2) There is a certain room for optimization in all exchanges. The setting of inappropriate trading pairs is mainly caused by subjectively setting small coins to quote, or failing to track emerging big coins in time. 3) Too few trading pairs will lead to low coverage; too many trading pairs will need to be adjusted with markets frequently. Exchanges should consider striking an appropriate balance between them.
翻訳日:2024-03-07 18:43:37 公開日:2024-03-06
# 決定木の効率的な量子非依存不適切な学習

Efficient Quantum Agnostic Improper Learning of Decision Trees ( http://arxiv.org/abs/2210.00212v3 )

ライセンス: Link先を確認
Sagnik Chatterjee, Tharrmashastha SAPV, Debajyoti Bera(参考訳) 不可知的な設定は、対向雑音による学習に似ているため、PACモデルの最も難しい一般化である。 本稿では,インスタンスを一様に割った決定木を学習するためのpoly$(n,t,{\frac{1}{\varepsilon}})$量子アルゴリズムを提案する。 我々のアルゴリズムは多項式時間で決定木を学習するための最初のアルゴリズム(古典的あるいは量子的)である。 古典的goldreich-levinアルゴリズムの量子バージョンを設計すれば,強バイアス関数オラクルで動作する量子非依存な弱学習器を構築する方法を示す。 本稿では,Kalai and Kanade (NIPS 2009) によるAgnostic boostingアルゴリズムの量子化を行い,第1の効率的な量子Agnostic boostingアルゴリズムを提案する。 量子ブースティングアルゴリズムは,従来のブースティングアルゴリズムよりもvc次元の標準速度を維持しつつ,すべての適応量子ブースティングアルゴリズムに対する弱学習者のバイアスの依存度を多項式的に改善する。 次に、量子ブースティングアルゴリズムを用いて、前ステップで得た弱い量子学習者を強化し、決定木に対する量子非依存学習者を得る。 上記のフレームワークを使用して、メンバシップクエリを使わずに、実現可能な設定とランダム分類の両方のノイズモデルのための量子決定木学習アルゴリズムを提供する。

The agnostic setting is the hardest generalization of the PAC model since it is akin to learning with adversarial noise. In this paper, we give a poly$(n,t,{\frac{1}{\varepsilon}})$ quantum algorithm for learning size $t$ decision trees with uniform marginal over instances, in the agnostic setting, without membership queries. Our algorithm is the first algorithm (classical or quantum) for learning decision trees in polynomial time without membership queries. We show how to construct a quantum agnostic weak learner by designing a quantum version of the classical Goldreich-Levin algorithm that works with strongly biased function oracles. We show how to quantize the agnostic boosting algorithm by Kalai and Kanade (NIPS 2009) to obtain the first efficient quantum agnostic boosting algorithm. Our quantum boosting algorithm has a polynomial improvement in the dependence of the bias of the weak learner over all adaptive quantum boosting algorithms while retaining the standard speedup in the VC dimension over classical boosting algorithms. We then use our quantum boosting algorithm to boost the weak quantum learner we obtained in the previous step to obtain a quantum agnostic learner for decision trees. Using the above framework, we also give quantum decision tree learning algorithms for both the realizable setting and random classification noise model, again without membership queries.
翻訳日:2024-03-07 18:43:11 公開日:2024-03-06
# navier-stokes, einstein, maxwell, b-type, lin-tsien, camassa-holm, dsw, h-s, kdv-b, non-homogeneous kdv, generalized kdv, kdv, translational kdv, skdv, b-l および airy 方程式からの計測のための変分量子アルゴリズム

Variational quantum algorithm for measurement extraction from the Navier-Stokes, Einstein, Maxwell, B-type, Lin-Tsien, Camassa-Holm, DSW, H-S, KdV-B, non-homogeneous KdV, generalized KdV, KdV, translational KdV, sKdV, B-L and Airy equations ( http://arxiv.org/abs/2209.07714v4 )

ライセンス: Link先を確認
Pete Rigas(参考訳) 古典量子ハイブリッドアルゴリズムは近年注目されており、量子回路から読み出しを得るために量子と古典計算プロトコルを組み合わせることで特徴付けられる。 2019年の論文でLubschらによる最近の進歩は、期待値と変動パラメータの重ね合わせで表現されるコスト関数の基底状態を決定する新しい変動量子アルゴリズム(VQA)を使用することで、シュロディンガー方程式とInviscid Burgers方程式の解の読み出しを提供する。 以下に、VQAが従来実現されていた解に匹敵する他のPDEに対して、ノイズのない量子シミュレーションを特徴とする解を確実に生成できる、さらなる計算可能性について分析する。 アルゴリズムが他のivpsに対して処理できる非線形性の範囲を決定するために、まずnavier-stokes方程式から始まり、アインシュタイン、boossniesqタイプ、lin-tsien、camassa-holm、drinfeld-sokolov-wilson(dsw)、hunter-saxton方程式のシミュレーションから、電磁気学、重力、波動伝播といった物理現象を基礎とする他の方程式へと進行するいくつかのpdesについて研究する。 量子回路からの読み出しとして得られる解の数値近似のためにVQAが行う最適化ルーチンを定式化するために、ZGR-QFTアンサザイ数百のシミュレーション結果を生成する補助部に各PDEに対応するコスト関数を設ける。

Classical-quantum hybrid algorithms have recently garnered significant attention, which are characterized by combining quantum and classical computing protocols to obtain readout from quantum circuits of interest. Recent progress due to Lubasch et al in a 2019 paper provides readout for solutions to the Schrodinger and Inviscid Burgers equations, by making use of a new variational quantum algorithm (VQA) which determines the ground state of a cost function expressed with a superposition of expectation values and variational parameters. In the following, we analyze additional computational prospects in which the VQA can reliably produce solutions to other PDEs that are comparable to solutions that have been previously realized classically, which are characterized with noiseless quantum simulations. To determine the range of nonlinearities that the algorithm can process for other IVPs, we study several PDEs, first beginning with the Navier-Stokes equations and progressing to other equations underlying physical phenomena ranging from electromagnetism, gravitation, and wave propagation, from simulations of the Einstein, Boussniesq-type, Lin-Tsien, Camassa-Holm, Drinfeld-Sokolov-Wilson (DSW), and Hunter-Saxton equations. To formulate optimization routines that the VQA undergoes for numerical approximations of solutions that are obtained as readout from quantum circuits, cost functions corresponding to each PDE are provided in the supplementary section after which simulations results from hundreds of ZGR-QFT ansatzae are generated.
翻訳日:2024-03-07 18:42:46 公開日:2024-03-06
# SemSegDepth:Semantic SegmentationとDepth Completionを組み合わせたモデル

SemSegDepth: A Combined Model for Semantic Segmentation and Depth Completion ( http://arxiv.org/abs/2209.00381v2 )

ライセンス: Link先を確認
Juan Pablo Lagos and Esa Rahtu(参考訳) 総合的なシーン理解は自律機械の性能にとって重要である。 本稿では,セマンティックセグメンテーションと深度補完を共同で行うエンド・ツー・エンドモデルを提案する。 最近のアプローチの大半は、独立したタスクとしてセマンティックセグメンテーションと深さ補完を開発した。 提案手法はモデルへの入力としてRGBとスパース深度に依存し,深度マップと対応するセマンティックセグメンテーション画像を生成する。 特徴抽出器、深さ完了枝、意味分割枝、および意味情報と深さ情報を全て処理する結合枝から構成される。 Virtual KITTI 2データセットで実施された実験は、セマンティックセグメンテーションとディープコンプリートの両方をマルチタスクネットワークで組み合わせることで、各タスクのパフォーマンスを効果的に改善できるという、さらなる証拠を実証し、提示する。 コードはhttps://github.com/juanb09111/semantic depthで入手できる。

Holistic scene understanding is pivotal for the performance of autonomous machines. In this paper we propose a new end-to-end model for performing semantic segmentation and depth completion jointly. The vast majority of recent approaches have developed semantic segmentation and depth completion as independent tasks. Our approach relies on RGB and sparse depth as inputs to our model and produces a dense depth map and the corresponding semantic segmentation image. It consists of a feature extractor, a depth completion branch, a semantic segmentation branch and a joint branch which further processes semantic and depth information altogether. The experiments done on Virtual KITTI 2 dataset, demonstrate and provide further evidence, that combining both tasks, semantic segmentation and depth completion, in a multi-task network can effectively improve the performance of each task. Code is available at https://github.com/juanb09111/semantic depth.
翻訳日:2024-03-07 18:42:00 公開日:2024-03-06
# STDEN:交通流予測のための物理誘導ニューラルネットワークを目指して

STDEN: Towards Physics-Guided Neural Networks for Traffic Flow Prediction ( http://arxiv.org/abs/2209.00225v2 )

ライセンス: Link先を確認
Jiahao Ji, Jingyuan Wang, Zhe Jiang, Jiawei Jiang, Hu Zhang(参考訳) インテリジェントトランスポーテーションシステムの中核技術である高性能交通流予測モデルの設計は、長年にわたるが、産業と学術のコミュニティにとって難しい課題である。 物理原則とデータ駆動モデルの統合の欠如は、この分野の開発を制限する重要な理由である。 文献では、物理に基づく手法は通常、トラフィックフローシステムの動的過程の明確な解釈を提供することができるが、精度は限られており、データ駆動手法、特にブラックボックス構造を用いた深層学習は、性能が向上するが、合理的な物理的基盤が欠如しているため、完全に信頼できない。 純粋にデータ駆動型と物理駆動型のアプローチのギャップを埋めるため,深層ニューラルネットワークフレームワークにトラフィックフローダイナミクスの物理機構を組み込む,時空間微分方程式ネットワーク(STDEN)という物理誘導型ディープラーニングモデルを提案する。 具体的には、道路網上の交通の流れは(水流が重力場によって駆動されるような)潜在ポテンシャルエネルギー場によって駆動されるものと仮定し、ポテンシャルエネルギー場の時空間動的過程を微分方程式ネットワークとしてモデル化する。 STDENは、データ駆動モデルの性能優位性と物理学に基づくモデルの解釈可能性の両方を吸収し、物理誘導予測モデルと呼ばれる。 北京の3つの実世界の交通データセットの実験では、我々のモデルは最先端のベースラインをかなり上回っている。 ケーススタディでは,STDENが都市交通のメカニズムを把握し,物理的な意味で正確な予測を生成できることを確認した。 微分方程式ネットワークモデリングの枠組みは、他の類似の応用にも光を当てることができる。

High-performance traffic flow prediction model designing, a core technology of Intelligent Transportation System, is a long-standing but still challenging task for industrial and academic communities. The lack of integration between physical principles and data-driven models is an important reason for limiting the development of this field. In the literature, physics-based methods can usually provide a clear interpretation of the dynamic process of traffic flow systems but are with limited accuracy, while data-driven methods, especially deep learning with black-box structures, can achieve improved performance but can not be fully trusted due to lack of a reasonable physical basis. To bridge the gap between purely data-driven and physics-driven approaches, we propose a physics-guided deep learning model named Spatio-Temporal Differential Equation Network (STDEN), which casts the physical mechanism of traffic flow dynamics into a deep neural network framework. Specifically, we assume the traffic flow on road networks is driven by a latent potential energy field (like water flows are driven by the gravity field), and model the spatio-temporal dynamic process of the potential energy field as a differential equation network. STDEN absorbs both the performance advantage of data-driven models and the interpretability of physics-based models, so is named a physics-guided prediction model. Experiments on three real-world traffic datasets in Beijing show that our model outperforms state-of-the-art baselines by a significant margin. A case study further verifies that STDEN can capture the mechanism of urban traffic and generate accurate predictions with physical meaning. The proposed framework of differential equation network modeling may also cast light on other similar applications.
翻訳日:2024-03-07 18:41:44 公開日:2024-03-06
# 公正テスト: 総合的な調査とトレンド分析

Fairness Testing: A Comprehensive Survey and Analysis of Trends ( http://arxiv.org/abs/2207.10223v4 )

ライセンス: Link先を確認
Zhenpeng Chen, Jie M. Zhang, Max Hort, Mark Harman, Federica Sarro(参考訳) 機械学習(ML)ソフトウェアの不公平な振る舞いは、ソフトウェアエンジニアの間で注目と関心が高まっている。 この問題に取り組むために,mlソフトウェアの公平性テストを行うための広範な研究が行われており,この分野における既存研究の包括的調査を行っている。 100の論文を収集し、テストワークフロー(テスト方法)とテストコンポーネント(テスト方法)に基づいてそれらを整理します。 さらに,公平性テストの分野における研究の焦点,傾向,有望な方向性を分析した。 また、フェアネステストのために広く採用されているデータセットやオープンソースツールも特定します。

Unfair behaviors of Machine Learning (ML) software have garnered increasing attention and concern among software engineers. To tackle this issue, extensive research has been dedicated to conducting fairness testing of ML software, and this paper offers a comprehensive survey of existing studies in this field. We collect 100 papers and organize them based on the testing workflow (i.e., how to test) and testing components (i.e., what to test). Furthermore, we analyze the research focus, trends, and promising directions in the realm of fairness testing. We also identify widely-adopted datasets and open-source tools for fairness testing.
翻訳日:2024-03-07 18:41:04 公開日:2024-03-06
# 熱電輸送によるマヨラナ境界状態の探索

Probing Majorana Bound States via Thermoelectric Transport ( http://arxiv.org/abs/2207.01515v2 )

ライセンス: Link先を確認
Colin Benjamin, R. Das(参考訳) 本研究では,アハロノフ-ボーム干渉法による熱電実験のセットを提案し,近接効果による超伝導および強磁性相関の存在下で2次元トポロジカル絶縁体(TI)で生成するマヨラナ境界状態(MBS)を探索する。 これらのMBSの存在と性質(カップリングまたはアンカップリング)は、電荷と熱輸送の研究、具体的には、フェルミエネルギーの関数としてのゼーベック係数、ペルティエ係数、熱伝導率、ウィデマン・フランツ則の違反といった様々な熱電係数の挙動と、TI環を埋め込みMBSで貫通するアハロノフ・ボームフラックスの研究によって決定できる。

We propose a set of thermoelectric experiments based on Aharonov-Bohm interferometry to probe Majorana bound states (MBS), which are generated in 2D topological insulators (TI) in the presence of superconducting and ferromagnetic correlations via the proximity effect. The existence and nature (coupled or uncoupled) of these MBS can be determined by studying the charge and heat transport, specifically, the behavior of various thermoelectric coefficients like the Seebeck coefficient, Peltier coefficient, thermal conductance, and violations of Wiedemann-Franz law as a function of the Fermi energy and Aharonov-Bohm flux piercing the TI ring with the embedded MBS.
翻訳日:2024-03-07 18:40:42 公開日:2024-03-06
# 微分一般線形モデルの再検討

Differentially Private Generalized Linear Models Revisited ( http://arxiv.org/abs/2205.03014v2 )

ライセンス: Link先を確認
Raman Arora, Raef Bassily, Crist\'obal Guzm\'an, Michael Menart, Enayat Ullah(参考訳) 本研究では,凸損失を持つ線形予測器における$(\epsilon,\delta)$-differentially private learningの問題について検討する。 損失関数の2つのサブクラスに対して結果を提供する。 第一のケースは、損失が滑らかで非負であるが必ずしもリプシッツ(正方形損失など)ではないときである。 この場合、過剰な集団リスクの上限は$\tilde{O}\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^* \Vert^2}{(n\epsilon)^{2/3}},\frac{\sqrt{d}\Vert w^*\Vert^2}{n\epsilon}\right\right)$である。 $\Vert w^\ast\Vert$への依存とは別に、我々の境界は本質的にすべてのパラメータできつい。 特に、$\tilde{\Omega}\left(\frac{1}{\sqrt{n}} + {\min\left\{\frac{\Vert w^*\Vert^{4/3}}{(n\epsilon)^{2/3}}, \frac{\sqrt{d}\Vert w^*\Vert}{n\epsilon}\right\right)$ の下界を示す。 また,以前検討したリプシッツ損失例(SSTT20)を再検討した。 この場合、既存の作業のギャップを埋めて、最適なレートが(ログファクタまで)$\Theta\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^*\Vert}{\sqrt{n\epsilon}},\frac{\sqrt{\text{rank}}\Vert w^*\Vert}{n\epsilon}\right\right)$であることを示す。 これは、高いプライバシー体制における既存の作業よりも改善される。 最後に、我々のアルゴリズムは、$\Vert w^*\Vert$の知識を必要とせずに、記述されたレートを達成するためのプライベートモデル選択アプローチを含む。

We study the problem of $(\epsilon,\delta)$-differentially private learning of linear predictors with convex losses. We provide results for two subclasses of loss functions. The first case is when the loss is smooth and non-negative but not necessarily Lipschitz (such as the squared loss). For this case, we establish an upper bound on the excess population risk of $\tilde{O}\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^* \Vert^2}{(n\epsilon)^{2/3}},\frac{\sqrt{d}\Vert w^*\Vert^2}{n\epsilon}\right\}\right)$, where $n$ is the number of samples, $d$ is the dimension of the problem, and $w^*$ is the minimizer of the population risk. Apart from the dependence on $\Vert w^\ast\Vert$, our bound is essentially tight in all parameters. In particular, we show a lower bound of $\tilde{\Omega}\left(\frac{1}{\sqrt{n}} + {\min\left\{\frac{\Vert w^*\Vert^{4/3}}{(n\epsilon)^{2/3}}, \frac{\sqrt{d}\Vert w^*\Vert}{n\epsilon}\right\}}\right)$. We also revisit the previously studied case of Lipschitz losses [SSTT20]. For this case, we close the gap in the existing work and show that the optimal rate is (up to log factors) $\Theta\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^*\Vert}{\sqrt{n\epsilon}},\frac{\sqrt{\text{rank}}\Vert w^*\Vert}{n\epsilon}\right\}\right)$, where $\text{rank}$ is the rank of the design matrix. This improves over existing work in the high privacy regime. Finally, our algorithms involve a private model selection approach that we develop to enable attaining the stated rates without a-priori knowledge of $\Vert w^*\Vert$.
翻訳日:2024-03-07 18:40:25 公開日:2024-03-06
# ポスト選択量子状態のテレポーテーション

Teleportation of Post-Selected Quantum States ( http://arxiv.org/abs/2303.12456v4 )

ライセンス: Link先を確認
Daniel Collins(参考訳) テレポーテーションにより、アリスは、事前共有された絡み合いと古典的なコミュニケーションのみを使用して、準備済みの量子状態をボブに送ることができる。 ここで、$\it{post}$-selectedである状態のテレポートが可能であることを示す。 状態の選択後$\phi$ は、アリスが実験を終えた後、彼女は測定を行い、測定結果が$\phi$である実験の実行だけを維持することを意味する。 また、事前および選択後の$\it{port}$-based Teleportationも紹介する。 最後に、これらのプロトコルを用いて、前・後選択系において瞬時非局所量子計算を行い、空間的に分離された前・後選択系の任意の非局所変数を瞬時に測定するための絡み合いを大幅に低減する。

Teleportation allows Alice to send a pre-prepared quantum state to Bob using only pre-shared entanglement and classical communication. Here we show that it is possible to teleport a state which is also $\it{post}$-selected. Post-selection of a state $\Phi$ means that after Alice has finished her experiment she performs a measurement and only keeps runs of the experiment where the measurement outcome is $\Phi$. We also demonstrate pre and post-selected $\it{port}$-based teleportation. Finally we use these protocols to perform instantaneous non-local quantum computation on pre and post-selected systems, and significantly reduce the entanglement required to instantaneously measure an arbitrary non-local variable of spatially separated pre and post-selected systems.
翻訳日:2024-03-07 18:34:58 公開日:2024-03-06
# 光子交換と真空揺らぎによるスピン・運動量相関原子対

Spin- and Momentum-Correlated Atom Pairs Mediated by Photon Exchange and Seeded by Vacuum Fluctuations ( http://arxiv.org/abs/2303.11326v3 )

ライセンス: Link先を確認
Fabian Finger, Rodrigo Rosa-Medina, Nicola Reiter, Panagiotis Christodoulou, Tobias Donner, Tilman Esslinger(参考訳) 内部自由度と外部自由度を同時に相関する巨大な粒子の工学的ペアは大きな課題であるが、物理学と量子技術の基本的なテストを進めるには不可欠である。 このレターでは、適切に定義されたスピンと運動量モードで原子対を生成するメカニズムを実験的に示す。 この機構は、縮退したボースガスから超放射光子交換過程を光学キャビティで結合し、単一のチャネルまたは2つの識別可能なチャネルを介して対を生成する。 このスキームは衝突相互作用とは独立であり、高速で調整可能である。 運動量空間におけるペアの生成とプローブスピン間の相関を総合的に観測した。 我々は初期対統計を特徴付け、観測された力学が対応する原子モードの真空ゆらぎによって主にシードされるのと一致していることを見出した。 運動量モードをよく定義したコヒーレント多体振動の観測と合わせて,量子エンハンス干渉法および量子シミュレーション実験の可能性を示す。

Engineering pairs of massive particles that are simultaneously correlated in their external and internal degrees of freedom is a major challenge, yet essential for advancing fundamental tests of physics and quantum technologies. In this Letter, we experimentally demonstrate a mechanism for generating pairs of atoms in well-defined spin and momentum modes. This mechanism couples atoms from a degenerate Bose gas via a superradiant photon-exchange process in an optical cavity, producing pairs via a single channel or two discernible channels. The scheme is independent of collisional interactions, fast and tunable. We observe a collectively enhanced production of pairs and probe interspin correlations in momentum space. We characterize the emergent pair statistics and find that the observed dynamics is consistent with being primarily seeded by vacuum fluctuations in the corresponding atomic modes. Together with our observations of coherent many-body oscillations involving well-defined momentum modes, our results offer promising prospects for quantum-enhanced interferometry and quantum simulation experiments using entangled matter waves.
翻訳日:2024-03-07 18:34:10 公開日:2024-03-06
# 歩行認識と匿名化のための歩行者属性編集

Pedestrian Attribute Editing for Gait Recognition and Anonymization ( http://arxiv.org/abs/2303.05076v2 )

ライセンス: Link先を確認
Jingzhe Ma, Dingqiang Ye, Chao Fan, and Shiqi Yu(参考訳) バイオメトリックスの一種として、歩行者の歩行情報は、ターゲットの協力なしに長距離から取得できるため、産業とアカデミアの両方から広く注目を集めている。 最近の文献では、この一連の研究は、警告的な課題とともに、エキサイティングなチャンスをもたらしている。 ポジティブな側面として、容疑者の検索や安全チェックといったセキュリティアプリケーションに使用される歩行認識は、ますます有望なものになりつつある。 否定的な側面として、歩行情報の誤用はプライバシーの懸念につながる可能性があり、ローブレーカーは、顔のマスクや衣服変更のシナリオでも歩行特性を使って興味のある対象を追跡することができる。 両刃剣を扱うために,GaitEditorと呼ばれる歩行属性編集フレームワークを提案する。 視覚的な信頼性を維持しつつ、実際の歩数列上で様々な属性編集を行え、歩数データの増補と非識別にそれぞれ用いられ、ユーザの意図に応じて歩数認識性能を適応的に向上または低下させることができる。 実験では,3種類のgaitベンチマークにおいて,歩行認識プロトコルと匿名化プロトコルの両方を用いて包括的評価を行った。 多くの結果から,GaitEditorの適応的利用は歩行認識性能を効率よく向上させ,人間のプライバシーを守るために,識別不能な鮮明な可視化を生成することが示唆された。 我々の知る限り、GaitEditorは、歩行認識と歩行匿名化を同時に活用しながら、複数の歩行属性を編集できる最初のフレームワークである。 GaitEditorのソースコードはhttps://github.com/ShiqiYu/OpenGaitで入手できる。

As a kind of biometrics, the gait information of pedestrians has attracted widespread attention from both industry and academia since it can be acquired from long distances without the cooperation of targets. In recent literature, this line of research has brought exciting chances along with alarming challenges: On the positive side, gait recognition used for security applications such as suspect retrieval and safety checks is becoming more and more promising. On the negative side, the misuse of gait information may lead to privacy concerns, as lawbreakers can track subjects of interest using gait characteristics even under face-masked and clothes-changed scenarios. To handle this double-edged sword, we propose a gait attribute editing framework termed GaitEditor. It can perform various degrees of attribute edits on real gait sequences while maintaining the visual authenticity, respectively used for gait data augmentation and de-identification, thereby adaptively enhancing or degrading gait recognition performance according to users' intentions. Experimentally, we conduct a comprehensive evaluation under both gait recognition and anonymization protocols on three widely used gait benchmarks. Numerous results illustrate that the adaptable utilization of GaitEditor efficiently improves gait recognition performance and generates vivid visualizations with de-identification to protect human privacy. To the best of our knowledge, GaitEditor is the first framework capable of editing multiple gait attributes while simultaneously benefiting gait recognition and gait anonymization. The source code of GaitEditor will be available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2024-03-07 18:33:50 公開日:2024-03-06
# MateRobot:視覚障害者のためのウェアラブルロボットの素材認識

MateRobot: Material Recognition in Wearable Robotics for People with Visual Impairments ( http://arxiv.org/abs/2302.14595v3 )

ライセンス: Link先を確認
Junwei Zheng, Jiaming Zhang, Kailun Yang, Kunyu Peng, Rainer Stiefelhagen(参考訳) 視覚障害者(PVI)は通常、触覚を通して物体を認識する。 触れる前に物体や素材を知ることは、ターゲットユーザーには望ましいが、人間中心のロボティクスの分野では未熟である。 このギャップを埋めるために、ウェアラブルビジョンベースのロボットシステムmaterobotがpviのために設立され、素材やオブジェクトのカテゴリを事前に認識することができる。 モバイルプラットフォームの計算上の制約に対処するため,我々は,オブジェクトと材料の両方を同時に認識し,ピクセル単位で意味セグメンテーションを行う軽量かつ高精度なモデルセットを提案する。 提案手法は,COCOStuff-10KおよびDMSデータセット上でmIoUの40.2%と51.1%をそれぞれ達成し,前法を+5.7%,+7.0%で上回った。 さらに、参加者とのフィールドテストでは、NASA-Task Load Indexで28点に達し、認知力の低下と使いやすさを示している。 我々のMateRobotは、視覚的手がかりによる材料特性の認識の実現可能性を示し、PVIのためのウェアラブルロボットの機能を改善するための有望なステップを提供する。 ソースコードはhttps://junweizheng93.github.io/publications/MATERobot/MATERobot.htmlで公開されている。

People with Visual Impairments (PVI) typically recognize objects through haptic perception. Knowing objects and materials before touching is desired by the target users but under-explored in the field of human-centered robotics. To fill this gap, in this work, a wearable vision-based robotic system, MateRobot, is established for PVI to recognize materials and object categories beforehand. To address the computational constraints of mobile platforms, we propose a lightweight yet accurate model MateViT to perform pixel-wise semantic segmentation, simultaneously recognizing both objects and materials. Our methods achieve respective 40.2% and 51.1% of mIoU on COCOStuff-10K and DMS datasets, surpassing the previous method with +5.7% and +7.0% gains. Moreover, on the field test with participants, our wearable system reaches a score of 28 in the NASA-Task Load Index, indicating low cognitive demands and ease of use. Our MateRobot demonstrates the feasibility of recognizing material property through visual cues and offers a promising step towards improving the functionality of wearable robots for PVI. The source code has been made publicly available at https://junweizheng93.github.io/publications/MATERobot/MATERobot.html.
翻訳日:2024-03-07 18:32:59 公開日:2024-03-06
# 計算部分空間からの量子ゲートの忠実性に及ぼすデコヒーレンスの影響

Impact of decoherence on the fidelity of quantum gates leaving the computational subspace ( http://arxiv.org/abs/2302.13885v2 )

ライセンス: Link先を確認
Tahereh Abad, Yoni Schattner, Anton Frisk Kockum, G\"oran Johansson(参考訳) 量子演算の忠実性は、通常、振幅減衰やデファスメントのような基本的なマルコフ雑音過程によってモデル化される非コヒーレントな誤差によって制限される。 フィスでね Rev. Lett. 129,150504 (2022; https://doi.org/10.1103/physrevlett.129.150504) では,分散率と対応するリンドブラッドジャンプ演算子の観点から,一般的なマルチ量子ビット演算の平均ゲート忠実性について解析結果を提示した。 ここでは、平均ゲート忠実度に対するこの表現を一般化し、システム状態が一時的にゲートの計算部分空間を離れる場合を含める。 このようなゲート機構は、いくつかの量子計算プラットフォームに不可欠なものであり、そのすべてに適用できる。例えば、超伝導量子ビットと中性原子の両方において、2量子制御Zゲートとして採用する。 また、マルチキュービットシステムに適用される同時処理に対する平均ゲート忠実度を求める。 これらの結果は、量子コンピュータをスケールアップしながら量子ゲートのエラー予算を理解するのに有用である。

The fidelity of quantum operations is often limited by incoherent errors, which typically can be modeled by fundamental Markovian noise processes such as amplitude damping and dephasing. In Phys. Rev. Lett. 129, 150504 (2022; https://doi.org/10.1103/PhysRevLett.129.150504), we presented an analytical result for the average gate fidelity of a general multiqubit operation in terms of the dissipative rates and the corresponding Lindblad jump operators, provided that the operation remains in the computational subspace throughout the time evolution. Here we generalize this expression for the average gate fidelity to include the cases where the system state temporarily leaves the computational subspace during the gate. Such gate mechanisms are integral to several quantum-computing platforms, and our formula is applicable to all of them; as examples, we employ it for the two-qubit controlled-Z gate in both superconducting qubits and neutral atoms. We also obtain the average gate fidelity for simultaneous operations applied in multiqubit systems. These results are useful for understanding the error budgets of quantum gates while scaling up quantum computers.
翻訳日:2024-03-07 18:32:36 公開日:2024-03-06
# 植込み二部グラフ検出

Planted Bipartite Graph Detection ( http://arxiv.org/abs/2302.03658v2 )

ライセンス: Link先を確認
Asaf Rotenberg and Wasim Huleihel and Ofer Shayevitz(参考訳) ランダムグラフに隠れた二部グラフを検出するタスクについて検討する。 これは仮説テスト問題として定式化され、ヌル仮説の下では、グラフは辺密度$q$の$n$頂点上のErd\H{o}s-R\'{e}nyiランダムグラフの実現である。 代替として、k_{\mathsf{r}} \times k_{\mathsf{l}}$ bipartite subgraph with edge density $p>q$がある。 この問題の統計的および計算的障壁を特徴づける。 具体的には、情報理論的な下界を導出し、それらの境界に一致する最適なアルゴリズムを設計し分析する。例えば、$p,q = \Theta\left(1\right)$ と、$p,q = \Theta\left(n^{-\alpha}\right), \alpha \in \left(0,2\right]$ のスパース状態である。 また,多項式時間におけるテストの問題についても検討する。 類似した構造化高次元問題における慣例と同様に、このモデルでは「容易に不可能」な位相遷移と計算制約が統計性能をペナルティ化する。 この統計計算ギャップの証拠を提供するために, 低次予想に基づく計算下限を証明し, 低次多項式アルゴリズムのクラスは, 仮定的に難しい領域では失敗することを示す。

We consider the task of detecting a hidden bipartite subgraph in a given random graph. This is formulated as a hypothesis testing problem, under the null hypothesis, the graph is a realization of an Erd\H{o}s-R\'{e}nyi random graph over $n$ vertices with edge density $q$. Under the alternative, there exists a planted $k_{\mathsf{R}} \times k_{\mathsf{L}}$ bipartite subgraph with edge density $p>q$. We characterize the statistical and computational barriers for this problem. Specifically, we derive information-theoretic lower bounds, and design and analyze optimal algorithms matching those bounds, in both the dense regime, where $p,q = \Theta\left(1\right)$, and the sparse regime where $p,q = \Theta\left(n^{-\alpha}\right), \alpha \in \left(0,2\right]$. We also consider the problem of testing in polynomial-time. As is customary in similar structured high-dimensional problems, our model undergoes an "easy-hard-impossible" phase transition and computational constraints penalize the statistical performance. To provide an evidence for this statistical computational gap, we prove computational lower bounds based on the low-degree conjecture, and show that the class of low-degree polynomials algorithms fail in the conjecturally hard region.
翻訳日:2024-03-07 18:31:37 公開日:2024-03-06
# 遅延フィードバックを用いた逐次決定のための削減型フレームワーク

A Reduction-based Framework for Sequential Decision Making with Delayed Feedback ( http://arxiv.org/abs/2302.01477v5 )

ライセンス: Link先を確認
Yunchang Yang, Han Zhong, Tianhao Wu, Bin Liu, Liwei Wang, Simon S. Du(参考訳) バンディット,単一エージェントマルコフ決定プロセス (mdps), マルコフゲーム (mgs) を含むマルチエージェントシーケンシャル意思決定における確率的遅延フィードバックについて検討した。 本稿では, 逐次決定のためのマルチバッチアルゴリズムを, 短時間のフィードバックで, 逐次決定における確率的遅延を処理できるサンプル効率アルゴリズムに変換する, 新たなリダクションベースフレームワークを提案する。 我々のフレームワークに様々なマルチバッチアルゴリズムを組み込むことで、我々のフレームワークがバンドレート、表型MDP、表型MGの既存の結果にマッチまたは改善するだけでなく、関数近似による逐次決定の遅延に関する最初の研究ラインも提供する。 まとめると、遅延フィードバックを伴う複数エージェントのシーケンシャルな意思決定のための、鋭い結果の完全なセットを提供する。

We study stochastic delayed feedback in general multi-agent sequential decision making, which includes bandits, single-agent Markov decision processes (MDPs), and Markov games (MGs). We propose a novel reduction-based framework, which turns any multi-batched algorithm for sequential decision making with instantaneous feedback into a sample-efficient algorithm that can handle stochastic delays in sequential decision making. By plugging different multi-batched algorithms into our framework, we provide several examples demonstrating that our framework not only matches or improves existing results for bandits, tabular MDPs, and tabular MGs, but also provides the first line of studies on delays in sequential decision making with function approximation. In summary, we provide a complete set of sharp results for multi-agent sequential decision making with delayed feedback.
翻訳日:2024-03-07 18:31:07 公開日:2024-03-06
# 集中治療後感染の2段階解釈モデル

Two-step interpretable modeling of Intensive Care Acquired Infections ( http://arxiv.org/abs/2301.11146v2 )

ライセンス: Link先を確認
Giacomo Lancia, Meri Varkila, Olaf Cremer, Cristian Spitoni(参考訳) 本稿では,高解像度長手データと生存モデルの動的予測機能を統合する新しい手法を提案する。 目標は2つある:モデルの解釈可能性を維持しながら予測力を向上させること。 ニューラルネットワークのブラックボックスパラダイムを超越するために,高分解能の時間依存情報に基づいて学習された畳み込みニューラルネットワークから抽出された予測特徴と,日常的に収集される低解像度データを組み合わせた,強固な半パラメトリックアプローチ(すなわち,ランドマーク型競合リスクモデル)を提案する。 次に、このモデルの余分な予測力を分析し説明するために、塩分マップを使用します。 本手法を説明するために,集中治療室に入院した患者の医療関連感染症に焦点を当てた。

We present a novel methodology for integrating high resolution longitudinal data with the dynamic prediction capabilities of survival models. The aim is two-fold: to improve the predictive power while maintaining interpretability of the models. To go beyond the black box paradigm of artificial neural networks, we propose a parsimonious and robust semi-parametric approach (i.e., a landmarking competing risks model) that combines routinely collected low-resolution data with predictive features extracted from a convolutional neural network, that was trained on high resolution time-dependent information. We then use saliency maps to analyze and explain the extra predictive power of this model. To illustrate our methodology, we focus on healthcare-associated infections in patients admitted to an intensive care unit.
翻訳日:2024-03-07 18:30:53 公開日:2024-03-06
# 木重み付き木と信念伝播アルゴリズムの再パラメータ化と補間による厳密な分数推定

Exact Fractional Inference via Re-Parametrization & Interpolation between Tree-Re-Weighted- and Belief Propagation- Algorithms ( http://arxiv.org/abs/2301.10369v2 )

ライセンス: Link先を確認
Hamidreza Behjoo, Michael Chertkov(参考訳) のグラフ上のIsingモデルのパーティション関数($Z$)を計算するのに必要な推論努力は、おそらく$N$で指数関数である。 Belief Propagation (BP) や Tree Re-Weighted (TRW) アルゴリズムのような効率的な変分法は、各(BP-またはTRW-)自由エネルギーをほぼ最小化する$Z$を計算する。 ここでは、$\lambda$-fractional-homotopy, $Z^{(\lambda)}$を構築し、$\lambda=0$と$\lambda=1$はそれぞれTRWおよびBP-approximationsに対応し、$Z^{(\lambda)}$は$\lambda$単調で減少する。 さらに、この分数的スキームは、魅力的な(強磁性)ケースにおいて、$Z^{(TRW)}\geq Z^{(\lambda)}\geq Z^{(BP)}$であり、$Z=Z^{(\lambda_*)}$であるようなユニークな(`exact)$\lambda_*$が存在することを保証している。 フロフp{wainwright_tree-based_2002} の再パラメトリゼーションアプローチと \citep{chertkov_loop_2006} のループ級数アプローチを一般化し、積として $Z$ を $\forall \lambda:\ Z=Z^{(\lambda)}{\cal Z}^{(\lambda)}$ で表現する方法を示す。 理論解析は,中・大規模の平面グラフとランダムグラフ上のイジングアンサンブルモデルを用いた大規模実験によって補完される。 経験的研究は、いくつかの興味深い観察をもたらす。 (a)${\cal Z}^{(\lambda)}$を$O(N^4)$分数サンプルで推定する能力。 (b)特定のランダムIsingアンサンブルのインスタンスに対する$N$の増加による$\lambda_*$ゆらぎの抑制。

Inference efforts -- required to compute partition function, $Z$, of an Ising model over a graph of $N$ ``spins" -- are most likely exponential in $N$. Efficient variational methods, such as Belief Propagation (BP) and Tree Re-Weighted (TRW) algorithms, compute $Z$ approximately minimizing respective (BP- or TRW-) free energy. We generalize the variational scheme building a $\lambda$-fractional-homotopy, $Z^{(\lambda)}$, where $\lambda=0$ and $\lambda=1$ correspond to TRW- and BP-approximations, respectively, and $Z^{(\lambda)}$ decreases with $\lambda$ monotonically. Moreover, this fractional scheme guarantees that in the attractive (ferromagnetic) case $Z^{(TRW)}\geq Z^{(\lambda)}\geq Z^{(BP)}$, and there exists a unique (``exact") $\lambda_*$ such that, $Z=Z^{(\lambda_*)}$. Generalizing the re-parametrization approach of \citep{wainwright_tree-based_2002} and the loop series approach of \citep{chertkov_loop_2006}, we show how to express $Z$ as a product, $\forall \lambda:\ Z=Z^{(\lambda)}{\cal Z}^{(\lambda)}$, where the multiplicative correction, ${\cal Z}^{(\lambda)}$, is an expectation over a node-independent probability distribution built from node-wise fractional marginals. Our theoretical analysis is complemented by extensive experiments with models from Ising ensembles over planar and random graphs of medium- and large- sizes. The empirical study yields a number of interesting observations, such as (a) ability to estimate ${\cal Z}^{(\lambda)}$ with $O(N^4)$ fractional samples; (b) suppression of $\lambda_*$ fluctuations with increase in $N$ for instances from a particular random Ising ensemble.
翻訳日:2024-03-07 18:30:38 公開日:2024-03-06
# アンダーサンプルデータからの非視線イメージングのための曲率正規化

Curvature regularization for Non-line-of-sight Imaging from Under-sampled Data ( http://arxiv.org/abs/2301.00406v4 )

ライセンス: Link先を確認
Rui Ding, Juntian Ye, Qifeng Gao, Feihu Xu, Yuping Duan(参考訳) 非視線画像(NLOS)は、複数の回折反射の後に光で符号化された光子時間情報を用いて、視線で測定されたデータから3次元の隠れたシーンを再構築することを目的としている。 サンプリング済みの走査データは、高速な撮像を容易にすることができる。 しかし, 結果として生じる復元問題は, ノイズや歪みにより劣化する可能性が高く, 深刻な逆問題となる。 本稿では,曲率正規化に基づく新しいnlos再構成モデル,すなわち,オブジェクト領域曲率正規化モデルと,デュアル(符号およびオブジェクト)領域曲率正規化モデルを提案する。 以下に示すように,乗算器の交互方向法(ADMM)とバックトラックステップサイズルールを併用した効率的な最適化アルゴリズムを開発し,GPU上で全解器を実装可能である。 提案したアルゴリズムは, 合成データセットと実データセットの両方で評価し, 特に圧縮センシング環境で, 最先端性能を実現する。 gpuコンピューティングに基づいて,本アルゴリズムは反復的手法の中で最も効果的であり,再構成品質と計算時間のバランスをとる。 私たちのコードとデータは、https://github.com/Duanlab123/CurvNLOSで利用可能です。

Non-line-of-sight (NLOS) imaging aims to reconstruct the three-dimensional hidden scenes from the data measured in the line-of-sight, which uses photon time-of-flight information encoded in light after multiple diffuse reflections. The under-sampled scanning data can facilitate fast imaging. However, the resulting reconstruction problem becomes a serious ill-posed inverse problem, the solution of which is highly possibility to be degraded due to noises and distortions. In this paper, we propose novel NLOS reconstruction models based on curvature regularization, i.e., the object-domain curvature regularization model and the dual (signal and object)-domain curvature regularization model. In what follows, we develop efficient optimization algorithms relying on the alternating direction method of multipliers (ADMM) with the backtracking stepsize rule, for which all solvers can be implemented on GPUs. We evaluate the proposed algorithms on both synthetic and real datasets, which achieve state-of-the-art performance, especially in the compressed sensing setting. Based on GPU computing, our algorithm is the most effective among iterative methods, balancing reconstruction quality and computational time. All our codes and data are available at https://github.com/Duanlab123/CurvNLOS.
翻訳日:2024-03-07 18:29:54 公開日:2024-03-06
# PanDepth:ジョイント・パノプティクス・セグメンテーションとディップス・コンプリーション

PanDepth: Joint Panoptic Segmentation and Depth Completion ( http://arxiv.org/abs/2212.14180v2 )

ライセンス: Link先を確認
Juan Lagos, Esa Rahtu(参考訳) 3d環境をセマンティックに理解することは、複数のコンピュータビジョンタスクが関与する自動運転アプリケーションにおいて重要である。 マルチタスクモデルは与えられたシーンに対して異なるタイプの出力を提供し、計算コストを低く保ちながらより包括的な表現をもたらす。 本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。 本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。 仮想kitti 2データセット上で広範な実験を行い,高い精度を維持しつつ計算コストを大幅に増加させることなく,複数のタスクを解くことを実証した。 コードはhttps://github.com/juanb09111/PanDepth.gitで入手できる。

Understanding 3D environments semantically is pivotal in autonomous driving applications where multiple computer vision tasks are involved. Multi-task models provide different types of outputs for a given scene, yielding a more holistic representation while keeping the computational cost low. We propose a multi-task model for panoptic segmentation and depth completion using RGB images and sparse depth maps. Our model successfully predicts fully dense depth maps and performs semantic segmentation, instance segmentation, and panoptic segmentation for every input frame. Extensive experiments were done on the Virtual KITTI 2 dataset and we demonstrate that our model solves multiple tasks, without a significant increase in computational cost, while keeping high accuracy performance. Code is available at https://github.com/juanb09111/PanDepth.git
翻訳日:2024-03-07 18:29:30 公開日:2024-03-06
# コンパクトインシシット層を用いたヘルムホルツ方程式のマルチグリッド型深層学習プレコンディショナー

Multigrid-Augmented Deep Learning Preconditioners for the Helmholtz Equation using Compact Implicit Layers ( http://arxiv.org/abs/2306.17486v3 )

ライセンス: Link先を確認
Bar Lerer, Ido Ben-Yair and Eran Treister(参考訳) 高波数に対する離散異種ヘルムホルツ方程式を解くためのディープラーニングに基づく反復的手法を提案する。 従来の反復型マルチグリッドソルバと畳み込みニューラルネットワーク(cnns)をプリコンディショニングによって組み合わせることで,従来のマルチグリッドソルバよりも高速かつスケール性が向上した学習ニューラルネットワークソルバを得る。 我々のアプローチは、この種の従来の神経学的手法に対する3つの主要な貢献を提供する。 まず、畳み込みカーネルが反転するU-Netの粗い格子上に暗黙の層を持つマルチレベルU-NetライクなエンコーダCNNを構築する。 これにより、CNNの視野の問題が軽減され、スケーラビリティが向上する。 第2に,パラメータ数,計算時間,収束率の観点から,従来のcnnプリコンディショナーを改善した。 第3に,ネットワークを合理的なトレーニング手順を維持しつつ,これまで見つからなかった次元の問題にスケール可能なマルチスケールトレーニング手法を提案する。 エンコーダ・ソルバアーキテクチャは,様々な難易度モデルに対する一般化に利用することができ,低速度モデルに対する多くの右辺の解法に有効である。 高波数における不均一な2次元問題に対する数値実験により,新しいアーキテクチャの利点を実証する。

We present a deep learning-based iterative approach to solve the discrete heterogeneous Helmholtz equation for high wavenumbers. Combining classical iterative multigrid solvers and convolutional neural networks (CNNs) via preconditioning, we obtain a learned neural solver that is faster and scales better than a standard multigrid solver. Our approach offers three main contributions over previous neural methods of this kind. First, we construct a multilevel U-Net-like encoder-solver CNN with an implicit layer on the coarsest grid of the U-Net, where convolution kernels are inverted. This alleviates the field of view problem in CNNs and allows better scalability. Second, we improve upon the previous CNN preconditioner in terms of the number of parameters, computation time, and convergence rates. Third, we propose a multiscale training approach that enables the network to scale to problems of previously unseen dimensions while still maintaining a reasonable training procedure. Our encoder-solver architecture can be used to generalize over different slowness models of various difficulties and is efficient at solving for many right-hand sides per slowness model. We demonstrate the benefits of our novel architecture with numerical experiments on a variety of heterogeneous two-dimensional problems at high wavenumbers.
翻訳日:2024-03-07 18:25:11 公開日:2024-03-06
# 複素適応系における複素適応学習の理論と量子力学における非局所波動方程式

A Theory of Complex Adaptive Learning in Complex Adaptive Systems and a Non-Localized Wave Equation in Quantum Mechanics ( http://arxiv.org/abs/2306.15554v9 )

ライセンス: Link先を確認
Leilei Shi, Xinshuai Guo, Jiuchang Wei, Wei Zhang, Guocheng Wang, Bing-Hong Wang(参考訳) 複雑な適応学習は知的です。 適応的で、フィードバックループで学び、多くの個人、要素、粒子が複雑な適応システム(CAS)で相互作用するように隠れたパターンを生成する。 生命において不確実で重要であり、伝統的な自然科学と社会科学の分野を横断する複雑なシステムである。 しかし、複雑性科学において普遍的な法則を持ち、複雑な適応量子系の量子絡み合いのような形成機構を理解することは困難である。 筆者らはcassの確率波による不確かさを定量化し、量子力学におけるschr\"odinger wave方程式と金融におけるshiの取引量-価格確率波方程式との関係を考察した。 著者らは、時間間隔で観測可能な累積観測式がスキナーシ座標の運動量または運動量力を表す場合、量子力学における非局所的な波動方程式を見いだす。 これは、量子力学とファイナンスに普遍法則が存在するという仮定を支持している。 著者らは、量子絡み合いは、主流コペンハーゲンが解釈する2つのコヒーレント状態の重ね合わせの代わりに、反対、適応、および相補的な力の間のコヒーレント相互作用であると結論付けた。 相互作用的にコヒーレントな力は、二成分複素適応量子系において2つの逆特性を持つ粒子を生成し、利用可能な量子絡み合いの工業化生成を示唆する。

Complex adaptive learning is intelligent. It is adaptive, learns in feedback loops, and generates hidden patterns as many individuals, elements or particles interact in complex adaptive systems (CASs). It is uncertain and crucial in life and inanimate complex systems cutting across all traditional natural and social sciences disciplines. However, having a universal law in complexity sciences and understanding the formation mechanism, such as quantum entanglement in complex adaptive quantum systems, is challenging. Quantifying the uncertainty by probability waves in CASs, the authors explore the inherent logical relationship between the Schr\"odinger wave equation in quantum mechanics and Shi's trading volume-price probability wave equation in finance. The authors find a non-localized wave equation in quantum mechanics if cumulative observable in a time interval represents momentum or momentum force in Skinner-Shi (reinforcement-frequency-interaction) coordinates. It supports the assumption that a universal law exists in quantum mechanics and finance. The authors conclude that quantum entanglement is a coherent interaction between opposite, adaptive, and complementary forces instead of a superposition of two coherent states that mainstream Copenhagen interprets. The interactively coherent forces generate particles with two opposite properties in a bipartite complex adaptive quantum system, suggesting industrialized production of quantum entanglement available.
翻訳日:2024-03-07 18:24:46 公開日:2024-03-06
# ハイパーネットワークによるタスク適応検索による深層強化学習

Deep Reinforcement Learning with Task-Adaptive Retrieval via Hypernetwork ( http://arxiv.org/abs/2306.10698v6 )

ライセンス: Link先を確認
Yonggang Jin, Chenxu Wang, Tianyu Zheng, Liuyu Xiang, Yaodong Yang, Junge Zhang, Jie Fu, Zhaofeng He(参考訳) 深層強化学習アルゴリズムは通常、正確な意思決定能力を得るために環境と複数の相互作用に依存する非効率のサンプリングによって妨げられる。 対照的に、人間は海馬を頼りに、関連するタスクの過去の経験から関連する情報を取得し、環境の相互作用にのみ依存するのではなく、新しいタスクを学ぶ際の意思決定を導く。 それにもかかわらず、過去の経験を確立された強化学習アルゴリズムに組み込むエージェントのための海馬のようなモジュールの設計には、2つの課題がある。 第1の課題は、現在のタスクに最も関連する過去の経験を選択することであり、第2の課題は、そのような経験を意思決定ネットワークに統合することである。 これらの課題に対処するために,タスク条件付きハイパーネットワークに基づく検索ネットワークを用いて,検索ネットワークのパラメータをタスクに応じて適応させる新しい手法を提案する。 同時に,動的修正機構により,検索ネットワークと意思決定ネットワークの協調作業が促進される。 提案手法は,Minigrid環境におけるマルチタスクシナリオにおいて,様々なタスクにまたがって評価される。 実験の結果,提案手法は強いベースラインを著しく上回ることがわかった。

Deep reinforcement learning algorithms are usually impeded by sampling inefficiency, heavily depending on multiple interactions with the environment to acquire accurate decision-making capabilities. In contrast, humans rely on their hippocampus to retrieve relevant information from past experiences of relevant tasks, which guides their decision-making when learning a new task, rather than exclusively depending on environmental interactions. Nevertheless, designing a hippocampus-like module for an agent to incorporate past experiences into established reinforcement learning algorithms presents two challenges. The first challenge involves selecting the most relevant past experiences for the current task, and the second challenge is integrating such experiences into the decision network. To address these challenges, we propose a novel method that utilizes a retrieval network based on task-conditioned hypernetwork, which adapts the retrieval network's parameters depending on the task. At the same time, a dynamic modification mechanism enhances the collaborative efforts between the retrieval and decision networks. We evaluate the proposed method across various tasks within a multitask scenario in the Minigrid environment. The experimental results demonstrate that our proposed method significantly outperforms strong baselines.
翻訳日:2024-03-07 18:24:24 公開日:2024-03-06
# ゼロショット合成テキスト画像検索

Zero-shot Composed Text-Image Retrieval ( http://arxiv.org/abs/2306.07272v2 )

ライセンス: Link先を確認
Yikun Liu and Jiangchao Yao and Ya Zhang and Yanfeng Wang and Weidi Xie(参考訳) 本稿では,合成画像検索(CIR)の問題を考えるとともに,テキストや画像などのマルチモーダル情報を融合し,クエリにマッチする画像を正確に検索し,ユーザの表現能力を拡張できるモデルを訓練することを目的とする。 私たちは次のような貢献をします i) LAION-5Bのサブセットなど、画像テキストペアの大規模データセットを単純に活用することで、CIRモデルをトレーニングするためのデータセットを自動的に構築するスケーラブルなパイプラインを開始する。 二) 単純かつ効率的な融合機構を用いたトランスフォーマティブ・アダプティブ・アグリゲーション・モデルであるtransaggを導入し、多様なモダリティからの情報を適応的に結合する。 iii)我々は,提案するデータ構築手法の有用性とtransaggにおけるコアコンポーネントの有効性を検討するため,広範なアブレーション研究を行っている。 (iv)ゼロショットのシナリオ、すなわち自動構築されたデータセットのトレーニングに基づいて公開のbenckmarksを評価する場合、cirrやfashioniqといった下流のデータセットの推論を直接行う場合、提案手法は、既存のstate-of-the-art(sota)モデルと同等か、大幅に比較する。 プロジェクトページ: https://code-kun.github.io/ZS-CIR/

In this paper, we consider the problem of composed image retrieval (CIR), it aims to train a model that can fuse multi-modal information, e.g., text and images, to accurately retrieve images that match the query, extending the user's expression ability. We make the following contributions: (i) we initiate a scalable pipeline to automatically construct datasets for training CIR model, by simply exploiting a large-scale dataset of image-text pairs, e.g., a subset of LAION-5B; (ii) we introduce a transformer-based adaptive aggregation model, TransAgg, which employs a simple yet efficient fusion mechanism, to adaptively combine information from diverse modalities; (iii) we conduct extensive ablation studies to investigate the usefulness of our proposed data construction procedure, and the effectiveness of core components in TransAgg; (iv) when evaluating on the publicly available benckmarks under the zero-shot scenario, i.e., training on the automatically constructed datasets, then directly conduct inference on target downstream datasets, e.g., CIRR and FashionIQ, our proposed approach either performs on par with or significantly outperforms the existing state-of-the-art (SOTA) models. Project page: https://code-kunkun.github.io/ZS-CIR/
翻訳日:2024-03-07 18:24:06 公開日:2024-03-06
# 正規電位に基づくプレイヤーレーティング

Ordinal Potential-based Player Rating ( http://arxiv.org/abs/2306.05366v4 )

ライセンス: Link先を確認
Nelson Vadori and Rahul Savani(参考訳) 近年、エロレーティングは戦略間の推移的関係を保つことに失敗し、ゲームの推移的要素を正しく抽出できないことが観測された。 順序ポテンシャルゲームの弱い変種としての推移ゲームの特徴を示し、適切な可逆写像を用いて、正しい空間で計算された場合の移動性が実際に維持されることを示す。 この知見を生かして,ニューラルネットワークアーキテクチャを用いて学習し,戦略間の推移的および循環的関係であるゲームの符号パターンを優先的に捉える,推移的および循環的要素に任意のゲームの新たなゲーム分解を導入する。 我々は,従来のサインランクの概念にアプローチをリンクし,実世界のゲームからの経験的データとおもちゃの例を用いて方法論を評価する。

It was recently observed that Elo ratings fail at preserving transitive relations among strategies and therefore cannot correctly extract the transitive component of a game. We provide a characterization of transitive games as a weak variant of ordinal potential games and show that Elo ratings actually do preserve transitivity when computed in the right space, using suitable invertible mappings. Leveraging this insight, we introduce a new game decomposition of an arbitrary game into transitive and cyclic components that is learnt using a neural network-based architecture and that prioritises capturing the sign pattern of the game, namely transitive and cyclic relations among strategies. We link our approach to the known concept of sign-rank, and evaluate our methodology using both toy examples and empirical data from real-world games.
翻訳日:2024-03-07 18:23:44 公開日:2024-03-06
# 動的フィールドプログラム可能な中性原子配列プロセッサのための量子回路のコンパイル

Compiling Quantum Circuits for Dynamically Field-Programmable Neutral Atoms Array Processors ( http://arxiv.org/abs/2306.03487v4 )

ライセンス: Link先を確認
Daniel Bochen Tan, Dolev Bluvstein, Mikhail D. Lukin, Jason Cong(参考訳) dynamic field-programmable qubit arrays (dpqa) は量子情報処理の有望なプラットフォームとして最近登場した。 dpqaでは、原子量子ビットを光学トラップの配列に選択的にロードし、計算自体中に再構成することができる。 量子ビットのトランスポートと並列な量子演算を活用することで、量子ビットの異なるペア、あるいは遠く離れたものでさえ、量子プログラムの実行の異なる段階で絡み合うことができる。 このような再構成可能性と非ローカル接続性は、特にキュービットを配置し、ゲートをスケジュールするレイアウト合成ステップにおいて、コンパイルに新たな課題をもたらす。 本稿では,複数の配列を含むdpqaアーキテクチャを検討し,最先端の実験プラットフォームを表現した2次元アレイ動作をサポートする。 このアーキテクチャでは、状態空間の離散化とレイアウト合成を、回路深度の観点で既存の解法で最適に解くことができる充足性モジュラー理論問題として定式化する。 複雑なコネクティビティを持つランダムグラフによって生成される一連のベンチマーク回路に対して,本コンパイラ olsq-dpqa は,固定平面アーキテクチャにおける最適コンパイル結果と比較して,小問題インスタンス上の2量子ゲート数を1.7倍削減する。 本手法のスケーラビリティと実用性をさらに高めるために,古典的集積回路ルーティングにおける反復剥離アプローチに触発された欲深いヒューリスティックを提案する。 グラディーと最適手法を組み合わせたハイブリッド手法を用いて、DPQAベースのコンパイル回路はグリッド固定アーキテクチャに比べてスケーリングオーバーヘッドを低減し、90量子ビットの量子回路では5.1倍の2量子ビットゲートが得られることを示した。 これらの方法は、プログラム可能で複雑な量子回路を中性原子量子コンピュータで実現し、将来のコンパイラと将来のハードウェアの選択の両方を知らせる。

Dynamically field-programmable qubit arrays (DPQA) have recently emerged as a promising platform for quantum information processing. In DPQA, atomic qubits are selectively loaded into arrays of optical traps that can be reconfigured during the computation itself. Leveraging qubit transport and parallel, entangling quantum operations, different pairs of qubits, even those initially far away, can be entangled at different stages of the quantum program execution. Such reconfigurability and non-local connectivity present new challenges for compilation, especially in the layout synthesis step which places and routes the qubits and schedules the gates. In this paper, we consider a DPQA architecture that contains multiple arrays and supports 2D array movements, representing cutting-edge experimental platforms. Within this architecture, we discretize the state space and formulate layout synthesis as a satisfiability modulo theories problem, which can be solved by existing solvers optimally in terms of circuit depth. For a set of benchmark circuits generated by random graphs with complex connectivities, our compiler OLSQ-DPQA reduces the number of two-qubit entangling gates on small problem instances by 1.7x compared to optimal compilation results on a fixed planar architecture. To further improve scalability and practicality of the method, we introduce a greedy heuristic inspired by the iterative peeling approach in classical integrated circuit routing. Using a hybrid approach that combined the greedy and optimal methods, we demonstrate that our DPQA-based compiled circuits feature reduced scaling overhead compared to a grid fixed architecture, resulting in 5.1X less two-qubit gates for 90 qubit quantum circuits. These methods enable programmable, complex quantum circuits with neutral atom quantum computers, as well as informing both future compilers and future hardware choices.
翻訳日:2024-03-07 18:23:29 公開日:2024-03-06
# 持続可能なAI規制

Sustainable AI Regulation ( http://arxiv.org/abs/2306.00292v4 )

ライセンス: Link先を確認
Philipp Hacker(参考訳) AI規制の現在の提案は、EUなどにおいて、信頼できる(例えば、AI法)と説明可能な(例えば、AIの責任)AIを促進することを目的としている。 本稿では,このギャップを埋めるための第一歩を踏み出す。 ICTセクターは、温室効果ガス(GHG)排出量の最大3.9%に貢献している。 AIの炭素フットプリントと水消費、特にGPT-4のような大規模生成モデルは、持続可能性に大きな懸念を提起している。 この論文は、EU環境法、GDPR(General Data Protection Regulation)、AI法など、現在および提案されている技術規制が、環境の持続可能性をよりよく考慮するためにどのように調整されるかを評価する最初のものである。 例えば、GDPRは、これらの権利がより広範な持続可能性目標と著しく矛盾している場合、消去する権利のような特定の個人の権利を制限するように解釈することができる。 第2のステップでは、持続可能なAI規制を実現するための多面的アプローチを提案する。 提案されたEU AI Actに規定されているように、AIシステムのGHGフットプリントを開示するなどの透明性メカニズムを提唱している。 しかし、持続可能なAI規制は単なる透明性を超えなければならない。 本稿では,共同規制,サステナビリティ・バイ・デザインの原則,トレーニングデータに対する制限,消費上限を含む規制ツールキットを提案する。 最後に、この規制ツールキットはブロックチェーンやMetaverseアプリケーション、データセンタといった他の高エミッション技術やインフラストラクチャを規制するための青写真として機能する可能性がある、と論文は主張する。 このフレームワークは、デジタルトランスフォーメーションと気候変動の緩和という、私たちの時代の重要な2つの課題を凝集的に解決することを目的としています。

Current proposals for AI regulation, in the EU and beyond, aim to spur AI that is trustworthy (e.g., AI Act) and accountable (e.g., AI Liability) What is missing, however, is a robust regulatory discourse and roadmap to make AI, and technology more broadly, environmentally sustainable. This paper aims to take first steps to fill this gap. The ICT sector contributes up to 3.9 percent of global greenhouse gas (GHG) emissions-more than global air travel at 2.5 percent. The carbon footprint and water consumption of AI, especially large-scale generative models like GPT-4, raise significant sustainability concerns. The paper is the first to assess how current and proposed technology regulations, including EU environmental law, the General Data Protection Regulation (GDPR), and the AI Act, could be adjusted to better account for environmental sustainability. The GDPR, for instance, could be interpreted to limit certain individual rights like the right to erasure if these rights significantly conflict with broader sustainability goals. In a second step, the paper suggests a multi-faceted approach to achieve sustainable AI regulation. It advocates for transparency mechanisms, such as disclosing the GHG footprint of AI systems, as laid out in the proposed EU AI Act. However, sustainable AI regulation must go beyond mere transparency. The paper proposes a regulatory toolkit comprising co-regulation, sustainability-by-design principles, restrictions on training data, and consumption caps, including integration into the EU Emissions Trading Scheme. Finally, the paper argues that this regulatory toolkit could serve as a blueprint for regulating other high-emission technologies and infrastructures like blockchain, Metaverse applications, and data centers. The framework aims to cohesively address the crucial dual challenges of our era: digital transformation and climate change mitigation.
翻訳日:2024-03-07 18:22:57 公開日:2024-03-06
# 非消滅相関を用いたランダムグラフマッチングのための多項式時間反復アルゴリズム

A polynomial-time iterative algorithm for random graph matching with non-vanishing correlation ( http://arxiv.org/abs/2306.00266v2 )

ライセンス: Link先を確認
Jian Ding, Zhangsong Li(参考訳) 本稿では,2つの相関した Erd\H{o}s--R\enyi グラフと,エッジが潜在頂点対応によって相関する$n$頂点とのマッチングアルゴリズムを提案する。 定数$\alpha \in [0,1)$に対して、エッジ密度$q=n^{- \alpha+o(1)}$のとき、我々のアルゴリズムは多項式実行時間を持ち、エッジ相関が消滅しない限り遅延マッチングを回復することに成功した。 これは、2つのガウス・ウィグナー行列と非バニッシュ相関をマッチングする多項式時間アルゴリズムの以前の研究と密接に関連しており、エッジ相関がオッター定数の平方根以下(約0.338$)である場合、最初の多項式時間ランダムグラフマッチングアルゴリズム($q$の条件によらず)を提供する。

We propose an efficient algorithm for matching two correlated Erd\H{o}s--R\'enyi graphs with $n$ vertices whose edges are correlated through a latent vertex correspondence. When the edge density $q= n^{- \alpha+o(1)}$ for a constant $\alpha \in [0,1)$, we show that our algorithm has polynomial running time and succeeds to recover the latent matching as long as the edge correlation is non-vanishing. This is closely related to our previous work on a polynomial-time algorithm that matches two Gaussian Wigner matrices with non-vanishing correlation, and provides the first polynomial-time random graph matching algorithm (regardless of the regime of $q$) when the edge correlation is below the square root of the Otter's constant (which is $\approx 0.338$).
翻訳日:2024-03-07 18:22:26 公開日:2024-03-06
# スコアベース生成モデルを用いた高忠実画像圧縮

High-Fidelity Image Compression with Score-based Generative Models ( http://arxiv.org/abs/2305.18231v2 )

ライセンス: Link先を確認
Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis(参考訳) テキスト対画像生成における拡散生成モデルの成功にもかかわらず、画像圧縮領域におけるこの成功を再現することは困難であることが証明されている。 本稿では,FIDスコアで測定したPO-ELICとHiFiCに比較して,拡散が与えられたビットレートでの知覚品質を著しく向上することを示す。 これはmseをターゲットとしたオートエンコーダと、さらにスコアベースのデコーダを組み合わせた、単純だが理論的に動機付けられた2段階アプローチによって達成される。 しかし、実装の詳細と最適な設計決定は、典型的なテキスト・画像モデルとは大きく異なる可能性がある。

Despite the tremendous success of diffusion generative models in text-to-image generation, replicating this success in the domain of image compression has proven difficult. In this paper, we demonstrate that diffusion can significantly improve perceptual quality at a given bit-rate, outperforming state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is achieved using a simple but theoretically motivated two-stage approach combining an autoencoder targeting MSE followed by a further score-based decoder. However, as we will show, implementation details matter and the optimal design decisions can differ greatly from typical text-to-image models.
翻訳日:2024-03-07 18:22:07 公開日:2024-03-06
# CWTM:ニューラルトピックモデリングのためのBERTからの文脈付き単語埋め込みの活用

CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural Topic Modeling ( http://arxiv.org/abs/2305.09329v3 )

ライセンス: Link先を確認
Zheng Fang, Yulan He and Rob Procter(参考訳) 既存のトピックモデルの多くは、単語の注文情報をキャプチャする能力を制限するbag-of-words(bow)表現に依存しており、新たなドキュメントでは単語のオブ・ボキャブラリー(oov)が問題となる。 しかし、文脈化された単語埋め込みは、単語感覚の曖昧さにおいて優位性を示し、OOV問題に効果的に対処する。 そこで本研究では,BERT からの文脈的単語埋め込みを統合した Contextlized Word Topic Model (CWTM) という,新しいニューラルトピックモデルを提案する。 このモデルは、BOW情報なしで文書のトピックベクトルを学習することができる。 さらに、文脈化された単語埋め込みに基づいて、文書内の個々の単語のトピックベクトルを導出することもできる。 様々なデータセットにわたる実験により、CWTMは既存のトピックモデルよりも一貫性があり有意義なトピックを生成する一方で、新しく遭遇した文書で目に見えない単語を調整していることが示された。

Most existing topic models rely on bag-of-words (BOW) representation, which limits their ability to capture word order information and leads to challenges with out-of-vocabulary (OOV) words in new documents. Contextualized word embeddings, however, show superiority in word sense disambiguation and effectively address the OOV issue. In this work, we introduce a novel neural topic model called the Contextlized Word Topic Model (CWTM), which integrates contextualized word embeddings from BERT. The model is capable of learning the topic vector of a document without BOW information. In addition, it can also derive the topic vectors for individual words within a document based on their contextualized word embeddings. Experiments across various datasets show that CWTM generates more coherent and meaningful topics compared to existing topic models, while also accommodating unseen words in newly encountered documents.
翻訳日:2024-03-07 18:21:33 公開日:2024-03-06
# 旅行セールスマン問題学習のための軽量CNN変換器モデル

A Lightweight CNN-Transformer Model for Learning Traveling Salesman Problems ( http://arxiv.org/abs/2305.01883v2 )

ライセンス: Link先を確認
Minseop Jung, Jaeseung Lee, Jibum Kim(参考訳) いくつかの研究は、様々なディープラーニング技術を用いて旅行セールスマン問題(TSP)の解決を試みた。 中でもTransformerベースのモデルは,大規模トラベリングセールスマン問題(TSP)においても最先端のパフォーマンスを示す。 しかし、それらは完全に接続されたアテンションモデルに基づいており、計算の複雑さとgpuメモリ使用に苦しむ。 我々の研究は、CNN埋め込み層とTSPに対する部分自己注意に基づく最初のCNN-Transformerモデルである。 我々のCNN-Transformerモデルは,標準のTransformerモデルと比較して,CNN埋め込み層を用いて入力データから空間的特徴をよりよく学習することができる。 また,提案する部分的セルフアテンションを用いて,完全接続型アテンションモデルにおけるかなりの冗長性を取り除く。 実験の結果,提案するcnn埋め込み層と部分自己着脱層は,性能向上と計算複雑性向上に非常に有効であることがわかった。 提案モデルは実世界のデータセットで最高の性能を示し、既存のsotaトランスフォーマーモデルよりも様々な面で優れている。 私たちのコードはhttps://github.com/cm8908/CNN_Transformer3.comで公開されています。

Several studies have attempted to solve traveling salesman problems (TSPs) using various deep learning techniques. Among them, Transformer-based models show state-of-the-art performance even for large-scale Traveling Salesman Problems (TSPs). However, they are based on fully-connected attention models and suffer from large computational complexity and GPU memory usage. Our work is the first CNN-Transformer model based on a CNN embedding layer and partial self-attention for TSP. Our CNN-Transformer model is able to better learn spatial features from input data using a CNN embedding layer compared with the standard Transformer-based models. It also removes considerable redundancy in fully-connected attention models using the proposed partial self-attention. Experimental results show that the proposed CNN embedding layer and partial self-attention are very effective in improving performance and computational complexity. The proposed model exhibits the best performance in real-world datasets and outperforms other existing state-of-the-art (SOTA) Transformer-based models in various aspects. Our code is publicly available at https://github.com/cm8908/CNN_Transformer3.
翻訳日:2024-03-07 18:21:13 公開日:2024-03-06
# ClusterNet: 散乱データに対する知覚ベースのクラスタリングモデル

ClusterNet: A Perception-Based Clustering Model for Scattered Data ( http://arxiv.org/abs/2304.14185v3 )

ライセンス: Link先を確認
Sebastian Hartwig, Christian van Onzenoodt, Dominik Engel, Pedro Hermosilla, Timo Ropinski(参考訳) 散在データの可視化は、相関推定、異常検出、クラスタ分離など、さまざまなタスクを解決してデータの特定の属性を理解するために使用される。 本稿では,後者の課題に着目し,人間の知覚と整合する手法を考案し,散乱データ中の人間のクラスタリングをどのように知覚するかを理解し,より理解を深めるために最適化するかを検討する。 クラスタ分離は一般的に、k-meansやDBSCANといった広く使われているクラスタリング技術によって取り組まれるタスクである。 しかし,これらのアルゴリズムは非知覚的メトリクスに基づいており,人間のクラスタ認識を反映していないことを示す。 本稿では,分散データを直接操作する学習戦略を提案する。 このデータに対する知覚的クラスタ分離を学ぶために,384人のクラウドワーカーがラベル付けした2変量データに対する7,320個のポイントワイズクラスタアフィリエイションからなる大規模データセットをクラウドソースした。 このデータに基づいて、ポイントベースのディープラーニングモデルであるclusternetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練しました。 ヒトのアノテートデータ上でClusterNetをトレーニングするために、ポイントクラウドでの推論を可能にするPointNet++アーキテクチャを使用します。 本研究では、データセットの収集方法の詳細と、得られたアノテーションの統計を報告し、実世界のデータに対するクラスタ分離の知覚的一致について検討する。 さらに,クラスタネットの学習と評価プロトコルを報告し,クラスタリング手法と人間の注釈器群との精度を測定する新しい指標を提案する。 最後に、既存の最先端クラスタリング技術に対する我々のアプローチを比較し、ClusterNetがスコープデータの見当たらない領域に一般化できることを示します。

Visualizations for scattered data are used to make users understand certain attributes of their data by solving different tasks, e.g. correlation estimation, outlier detection, cluster separation. In this paper, we focus on the later task, and develop a technique that is aligned to human perception, that can be used to understand how human subjects perceive clusterings in scattered data and possibly optimize for better understanding. Cluster separation in scatterplots is a task that is typically tackled by widely used clustering techniques, such as for instance k-means or DBSCAN. However, as these algorithms are based on non-perceptual metrics, we can show in our experiments, that their output do not reflect human cluster perception. We propose a learning strategy which directly operates on scattered data. To learn perceptual cluster separation on this data, we crowdsourced a large scale dataset, consisting of 7,320 point-wise cluster affiliations for bivariate data, which has been labeled by 384 human crowd workers. Based on this data, we were able to train ClusterNet, a point-based deep learning model, trained to reflect human perception of cluster separability. In order to train ClusterNet on human annotated data, we use a PointNet++ architecture enabling inference on point clouds directly. In this work, we provide details on how we collected our dataset, report statistics of the resulting annotations, and investigate perceptual agreement of cluster separation for real-world data. We further report the training and evaluation protocol of ClusterNet and introduce a novel metric, that measures the accuracy between a clustering technique and a group of human annotators. Finally, we compare our approach against existing state-of-the-art clustering techniques and can show, that ClusterNet is able to generalize to unseen and out of scope data.
翻訳日:2024-03-07 18:20:53 公開日:2024-03-06
# HarvestNet:ハーベスト・パイルとリモートセンシングを用いた小作農活動検出用データセット

HarvestNet: A Dataset for Detecting Smallholder Farming Activity Using Harvest Piles and Remote Sensing ( http://arxiv.org/abs/2308.12061v2 )

ライセンス: Link先を確認
Jonathan Xu, Amna Elmustafa, Liya Weldegebriel, Emnet Negash, Richard Lee, Chenlin Meng, Stefano Ermon, David Lobell(参考訳) 小さな農場は発展途上国の生産地の大部分に寄与している。 サハラ以南のアフリカでは、農場の80%が(2ヘクタール以下)小さいため、小規模の農地を地図化することが、作物の生産性などの持続可能性の指標を追跡する重要な役割である。 しかし、小さな農場の視覚的に多様で曖昧な外観は、農地マッピングに対する伝統的なアプローチの有効性を制限している。 ここでは,世界中の小作システムに特徴的な収穫杭の検出に基づく新しい手法を提案する。 本研究は,2020~2023年,エチオピアのtigrayとamhara地域における農業の分布を,専門家の知識と衛星画像を用いて,7kの手書き画像と2kの地中ラベルを用いてマッピングするためのデータセットであるvestenetを提案する。 また、リモートセンシングにおけるSOTAモデルを含む一連のベースラインをベンチマークし、手ラベル付きデータに約80\%の分類性能、TigrayとAmharaの地上真実データに約90\%と98\%の精度で評価した。 また,広範に使用されていたカバレッジマップとの比較を行い,ティグレイで56,621ヘクタールの作物を検出できることを示した。 農作物のリモートセンシングは,食品の安全性の低い地域で,よりタイムリーかつ正確な農地評価に寄与すると考えられる。 データセットはhttps://figshare.com/s/45a7b45556b90a9a11d2でアクセスでき、データセットとベンチマークのコードはhttps://github.com/jonxuxu/harvest-pilesで公開されている。

Small farms contribute to a large share of the productive land in developing countries. In regions such as sub-Saharan Africa, where 80\% of farms are small (under 2 ha in size), the task of mapping smallholder cropland is an important part of tracking sustainability measures such as crop productivity. However, the visually diverse and nuanced appearance of small farms has limited the effectiveness of traditional approaches to cropland mapping. Here we introduce a new approach based on the detection of harvest piles characteristic of many smallholder systems throughout the world. We present HarvestNet, a dataset for mapping the presence of farms in the Ethiopian regions of Tigray and Amhara during 2020-2023, collected using expert knowledge and satellite images, totaling 7k hand-labeled images and 2k ground-collected labels. We also benchmark a set of baselines, including SOTA models in remote sensing, with our best models having around 80\% classification performance on hand labelled data and 90\% and 98\% accuracy on ground truth data for Tigray and Amhara, respectively. We also perform a visual comparison with a widely used pre-existing coverage map and show that our model detects an extra 56,621 hectares of cropland in Tigray. We conclude that remote sensing of harvest piles can contribute to more timely and accurate cropland assessments in food insecure regions. The dataset can be accessed through https://figshare.com/s/45a7b45556b90a9a11d2, while the code for the dataset and benchmarks is publicly available at https://github.com/jonxuxu/harvest-piles
翻訳日:2024-03-07 18:16:19 公開日:2024-03-06
# MD17を超えて - リアクティブxxMDデータセット

Beyond MD17: the reactive xxMD dataset ( http://arxiv.org/abs/2308.11155v3 )

ライセンス: Link先を確認
Zihan Pengmei, Junyu Liu, Yinan Shu(参考訳) システム特異的神経力場(NFF)は、計算化学において人気がある。 NFFsモデルを開発するためのベンチアームとして最も一般的なデータセットの1つは、MD17データセットとその拡張である。 これらのデータセットは、直接断熱力学からサンプリングされた基底電子状態ポテンシャルエネルギー表面の平衡領域からジオメトリを構成する。 しかし、多くの化学反応は、例えば結合破壊のような重要な分子幾何学的変形を含む。 したがって、MD17は化学反応を示すには不十分である。 MD17におけるこの制限に対処するため、拡張励起状態分子ダイナミクス(xxMD)データセットと呼ばれる新しいデータセットを導入する。 xxMDデータセットは直接非断熱力学からサンプリングされたジオメトリを含み、エネルギーは多重参照波動関数理論と密度汎関数理論の両方で計算される。 xxMDデータセットは化学反応を表す多様なジオメトリを含むことを示す。 xxMDデータセット上のNFFモデルの評価では、MD17とその変種と比較して予測誤差が著しく高い。 この研究は、外挿能力を備えた一般化可能なNFFモデルを構築する際に直面する課題を浮き彫りにする。

System specific neural force fields (NFFs) have gained popularity in computational chemistry. One of the most popular datasets as a bencharmk to develop NFFs models is the MD17 dataset and its subsequent extension. These datasets comprise geometries from the equilibrium region of the ground electronic state potential energy surface, sampled from direct adiabatic dynamics. However, many chemical reactions involve significant molecular geometrical deformations, for example, bond breaking. Therefore, MD17 is inadequate to represent a chemical reaction. To address this limitation in MD17, we introduce a new dataset, called Extended Excited-state Molecular Dynamics (xxMD) dataset. The xxMD dataset involves geometries sampled from direct non-adiabatic dynamics, and the energies are computed at both multireference wavefunction theory and density functional theory. We show that the xxMD dataset involves diverse geometries which represent chemical reactions. Assessment of NFF models on xxMD dataset reveals significantly higher predictive errors than those reported for MD17 and its variants. This work underscores the challenges faced in crafting a generalizable NFF model with extrapolation capability.
翻訳日:2024-03-07 18:15:45 公開日:2024-03-06
# マルチモーダル視覚言語モデルにおける接地空間推論に向けて

Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models ( http://arxiv.org/abs/2308.09778v3 )

ライセンス: Link先を確認
Navid Rajabi, Jana Kosecka(参考訳) 大規模ビジョン・アンド・ランゲージモデル(VLM)は、画像・テキストペアの大規模データセット上で、画像とテキストをマッチングするように訓練された。 しかし、最近のいくつかの研究は、これらのモデルが動詞、属性、関係性を数え、認識する能力など、きめ細かい理解を欠いていることを示した。 本研究の焦点は空間関係の理解を研究することである。 これは以前、画像テキストマッチング(例えば、ビジュアル空間推論のベンチマーク)や視覚的質問応答(例えば、GQAやVQAv2)を使用して取り組まれており、どちらも人間のパフォーマンスと比べてパフォーマンスが悪く大きなギャップがある。 そこで本研究では,オブジェクトの局所化能力の低下が画像テキストマッチング性能の低下に寄与する要因であることを,定性的に(説明可能性ツールを用いて)定量的に(オブジェクト検出器を用いて)示す。 本研究では,オブジェクトに対応する名詞句とその位置の接地から証拠を抽出して空間節の最終ランクを計算する,空間節を認識・ランク付けするための代替的きめ細かな構成的アプローチを提案する。 我々は,代表的VLM(LXMERT,GPV,MDETR)に対するアプローチを実証し,空間的関係を推論する能力を比較,強調する。

Large vision-and-language models (VLMs) trained to match images with text on large-scale datasets of image-text pairs have shown impressive generalization ability on several vision and language tasks. Several recent works, however, showed that these models lack fine-grained understanding, such as the ability to count and recognize verbs, attributes, or relationships. The focus of this work is to study the understanding of spatial relations. This has been tackled previously using image-text matching (e.g., Visual Spatial Reasoning benchmark) or visual question answering (e.g., GQA or VQAv2), both showing poor performance and a large gap compared to human performance. In this work, we show qualitatively (using explainability tools) and quantitatively (using object detectors) that the poor object localization "grounding" ability of the models is a contributing factor to the poor image-text matching performance. We propose an alternative fine-grained, compositional approach for recognizing and ranking spatial clauses that combines the evidence from grounding noun phrases corresponding to objects and their locations to compute the final rank of the spatial clause. We demonstrate the approach on representative VLMs (such as LXMERT, GPV, and MDETR) and compare and highlight their abilities to reason about spatial relationships.
翻訳日:2024-03-07 18:15:30 公開日:2024-03-06
# AbDiffuser:in vitroで機能する抗体の全原子生成

AbDiffuser: Full-Atom Generation of in vitro Functioning Antibodies ( http://arxiv.org/abs/2308.05027v2 )

ライセンス: Link先を確認
Karolis Martinkus, Jan Ludwiczak, Kyunghyun Cho, Wei-Ching Liang, Julien Lafrance-Vanasse, Isidro Hotzel, Arvind Rajpal, Yan Wu, Richard Bonneau, Vladimir Gligorijevic, Andreas Loukas(参考訳) 抗体3d構造と配列の同時生成のための同変・物理不定拡散モデルabdiffuserを提案する。 abdiffuserは、タンパク質構造の新しい表現の上に構築され、アライメントされたタンパク質の新しいアーキテクチャに依存し、強い拡散優先を利用して、変性プロセスを改善する。 提案手法は、ドメイン知識と物理に基づく制約を利用してタンパク質の拡散を改善し、配列長の変化を処理し、メモリの複雑さを桁違いに減らし、バックボーンとサイドチェーンの生成を可能にする。 シリカおよびin vitroでAbDiffuserを検証する。 数値実験では、abdiffuserが参照集合の配列と構造特性を密接に追跡する抗体を生成する能力を示す。 実験では16種のHER2抗体が高レベルに発現され、57.1%がタイトバインダーであることが確認された。

We introduce AbDiffuser, an equivariant and physics-informed diffusion model for the joint generation of antibody 3D structures and sequences. AbDiffuser is built on top of a new representation of protein structure, relies on a novel architecture for aligned proteins, and utilizes strong diffusion priors to improve the denoising process. Our approach improves protein diffusion by taking advantage of domain knowledge and physics-based constraints; handles sequence-length changes; and reduces memory complexity by an order of magnitude, enabling backbone and side chain generation. We validate AbDiffuser in silico and in vitro. Numerical experiments showcase the ability of AbDiffuser to generate antibodies that closely track the sequence and structural properties of a reference set. Laboratory experiments confirm that all 16 HER2 antibodies discovered were expressed at high levels and that 57.1% of the selected designs were tight binders.
翻訳日:2024-03-07 18:15:03 公開日:2024-03-06
# 局所ハミルトニアンの量子論における普遍的ショットノイズ極限

Universal shot-noise limit for quantum metrology with local Hamiltonians ( http://arxiv.org/abs/2308.03696v2 )

ライセンス: Link先を確認
Hai-Long Shi, Xi-Wen Guan, and Jing Yang(参考訳) 量子多体相互作用は粒子間の量子絡み合いを誘発し、量子エンハンスセンシングの貴重な資源となる。 本研究は,量子フィッシャー情報の成長のための普遍的かつ基本的境界を導出する。 我々は分離可能な初期状態のみを必要とするメトロロジープロトコルにバウンドを適用し、実験で容易に準備できる。 局所的に相互作用する量子多体系における作用素成長を特徴付けるリーブ・ロビンソン境界と境界の関係を確立することにより、局所的に相互作用する量子系において常にショットノイズ限界を超える精度は証明できない。 この結論はまた、局所かつギャップ付きハミルトニアンの非退化基底状態である初期状態についても主張する。 これらの知見は、分離可能な初期状態しか準備できない場合、非局所的および長距離的相互作用がショットノイズ限界を超えるための必須資源であることを強く示唆している。 この観測は長距離イジングモデルの数値解析によって確認される。 本研究は,多体量子システムにおける多体量子センシングと演算子成長の場を橋渡し,量子センシングと制御,多体物理と情報スクランブルの相互作用を解明する可能性を開く。

Quantum many-body interactions can induce quantum entanglement among particles, rendering them valuable resources for quantum-enhanced sensing. In this work, we derive a universal and fundamental bound for the growth of the quantum Fisher information. We apply our bound to the metrological protocol requiring only separable initial states, which can be readily prepared in experiments. By establishing a link between our bound and the Lieb-Robinson bound, which characterizes the operator growth in locally interacting quantum many-body systems, we prove that the precision cannot surpass the shot noise limit at all times in locally interacting quantum systems. This conclusion also holds for an initial state that is the non-degenerate ground state of a local and gapped Hamiltonian. These findings strongly hint that when one can only prepare separable initial states, nonlocal and long-range interactions are essential resources for surpassing the shot noise limit. This observation is confirmed through numerical analysis on the long-range Ising model. Our results bridge the field of many-body quantum sensing and operator growth in many-body quantum systems and open the possibility to investigate the interplay between quantum sensing and control, many-body physics and information scrambling
翻訳日:2024-03-07 18:14:47 公開日:2024-03-06
# 確率的局所化による拡散モデルに対する約$d$線形収束境界

Nearly $d$-Linear Convergence Bounds for Diffusion Models via Stochastic Localization ( http://arxiv.org/abs/2308.03686v3 )

ライセンス: Link先を確認
Joe Benton, Valentin De Bortoli, Arnaud Doucet, George Deligiannidis(参考訳) 微分拡散は高次元データ分布から近似サンプルを生成する強力な方法である。 最近の結果は、$L^2$-正確なスコアを仮定して、収束率に多項式境界を与える。 これまで、最も厳密な境界は、データ次元において超線形か、強い滑らかさの仮定が必要であった。 データ分布の有限第二モーメントのみを仮定したデータ次元(対数係数まで)において線形な最初の収束境界を提供する。 拡散モデルには最大で$\tilde o(\frac{d \log^2(1/\delta)}{\varepsilon^2})$ステップが必要であり、klの発散において$\delta$から$\varepsilon^2$以内に分散のガウス雑音で崩壊した$\mathbb{r}^d$上の任意の分布を近似する。 我々の証明は、以前の研究のジルサノフに基づく手法を拡張している。 本稿では,確率的局所化にインスパイアされた逆SDEの離散化による誤差の高精度処理を提案する。

Denoising diffusions are a powerful method to generate approximate samples from high-dimensional data distributions. Recent results provide polynomial bounds on their convergence rate, assuming $L^2$-accurate scores. Until now, the tightest bounds were either superlinear in the data dimension or required strong smoothness assumptions. We provide the first convergence bounds which are linear in the data dimension (up to logarithmic factors) assuming only finite second moments of the data distribution. We show that diffusion models require at most $\tilde O(\frac{d \log^2(1/\delta)}{\varepsilon^2})$ steps to approximate an arbitrary distribution on $\mathbb{R}^d$ corrupted with Gaussian noise of variance $\delta$ to within $\varepsilon^2$ in KL divergence. Our proof extends the Girsanov-based methods of previous works. We introduce a refined treatment of the error from discretizing the reverse SDE inspired by stochastic localization.
翻訳日:2024-03-07 18:14:24 公開日:2024-03-06
# PURL: リンクデコレーションの安全で効果的な衛生化

PURL: Safe and Effective Sanitization of Link Decoration ( http://arxiv.org/abs/2308.03417v2 )

ライセンス: Link先を確認
Shaoor Munir, Patrick Lee, Umar Iqbal, Zubair Shafiq, Sandra Siby(参考訳) プライバシーに重点を置くブラウザは、サードパーティのクッキーをブロックし、ブラウザの指紋を緩和する措置を取っているが、既存の対策を回避できる新しい追跡技術が登場し続けている。 トラッカーは, クライアント側からサーバ側への情報を, 採用したトラッキング技術に関係なく, リンク装飾を通じて共有する必要があるため, 有望な直交的アプローチは, 装飾リンク中のトラッキング情報を検出し, 衛生することである。 この目的のために、Webページ実行の層間グラフ表現を利用してリンク装飾を安全かつ効果的に衛生化する機械学習手法であるPURL(Purel-l)を提案する。 評価の結果,purlは,従来の回避手法に対して頑健でありながら,正確性とwebサイト破損の低減の観点から,既存の対策を大きく上回っていることがわかった。 トップ百万のウェブサイトのサンプルへのpurlの配置は、リンク装飾が、ウェブサイトの4分の3近くを追跡するために悪用され、しばしばクッキー、メールアドレス、指紋情報を共有する。

While privacy-focused browsers have taken steps to block third-party cookies and mitigate browser fingerprinting, novel tracking techniques that can bypass existing countermeasures continue to emerge. Since trackers need to share information from the client-side to the server-side through link decoration regardless of the tracking technique they employ, a promising orthogonal approach is to detect and sanitize tracking information in decorated links. To this end, we present PURL (pronounced purel-l), a machine-learning approach that leverages a cross-layer graph representation of webpage execution to safely and effectively sanitize link decoration. Our evaluation shows that PURL significantly outperforms existing countermeasures in terms of accuracy and reducing website breakage while being robust to common evasion techniques. PURL's deployment on a sample of top-million websites shows that link decoration is abused for tracking on nearly three-quarters of the websites, often to share cookies, email addresses, and fingerprinting information.
翻訳日:2024-03-07 18:14:08 公開日:2024-03-06
# VQGraph: GNNとMLPをブリッジするグラフ表現空間の再考

VQGraph: Rethinking Graph Representation Space for Bridging GNNs and MLPs ( http://arxiv.org/abs/2308.02117v3 )

ライセンス: Link先を確認
Ling Yang, Ye Tian, Minkai Xu, Zhongyi Liu, Shenda Hong, Wei Qu, Wentao Zhang, Bin Cui, Muhan Zhang, Jure Leskovec(参考訳) GNN-to-MLP蒸留は,教師GNNの出力表現を模倣することにより,知識蒸留(KD)を用いて,グラフデータ上で計算効率の高い多層パーセプトロン(Student MLP)を学習することを目的とする。 既存の手法により、MLPはいくつかのクラスラベルでGNN予測を模倣する。 しかし、クラス空間は様々な局所グラフ構造をカバーするのに十分表現できないため、GNN から MLP への知識伝達の性能が制限される。 この問題に対処するために,GNN-to-MLP蒸留のためのノードの多様な局所構造を直接ラベル付けすることで,新しい強力なグラフ表現空間を学習することを提案する。 具体的には,各ノードの局所部分構造を離散コードとしてエンコード可能なグラフデータ上の構造認識トークン化器を学習するために,VQ-VAEの変種を提案する。 離散符号は、対応する符号インデックスを持つノードの異なる局所グラフ構造を識別できる新しいグラフ表現空間としてコードブックを構成する。 そして,学習したコードブックに基づいて,各ノードの構造的知識を直接GNNからMPPに転送する新しい蒸留ターゲット,すなわちソフトコード代入を提案する。 結果として得られるフレームワークであるVQGraphは、7つのグラフデータセットにまたがるトランスダクティブおよびインダクティブな設定において、GNN-to-MLP蒸留における最先端のパフォーマンスを実現する。 その結果、性能が良くなるvqgraphはgnnより828倍速く、gnnやスタンドアローンmlpと比べて平均で3.90%、28.05%の精度向上を達成していることがわかった。 コード:https://github.com/YangLing0818/VQGraph。

GNN-to-MLP distillation aims to utilize knowledge distillation (KD) to learn computationally-efficient multi-layer perceptron (student MLP) on graph data by mimicking the output representations of teacher GNN. Existing methods mainly make the MLP to mimic the GNN predictions over a few class labels. However, the class space may not be expressive enough for covering numerous diverse local graph structures, thus limiting the performance of knowledge transfer from GNN to MLP. To address this issue, we propose to learn a new powerful graph representation space by directly labeling nodes' diverse local structures for GNN-to-MLP distillation. Specifically, we propose a variant of VQ-VAE to learn a structure-aware tokenizer on graph data that can encode each node's local substructure as a discrete code. The discrete codes constitute a codebook as a new graph representation space that is able to identify different local graph structures of nodes with the corresponding code indices. Then, based on the learned codebook, we propose a new distillation target, namely soft code assignments, to directly transfer the structural knowledge of each node from GNN to MLP. The resulting framework VQGraph achieves new state-of-the-art performance on GNN-to-MLP distillation in both transductive and inductive settings across seven graph datasets. We show that VQGraph with better performance infers faster than GNNs by 828x, and also achieves accuracy improvement over GNNs and stand-alone MLPs by 3.90% and 28.05% on average, respectively. Code: https://github.com/YangLing0818/VQGraph.
翻訳日:2024-03-07 18:13:47 公開日:2024-03-06
# 言語モデルを用いた算術:記憶から計算へ

Arithmetic with Language Models: from Memorization to Computation ( http://arxiv.org/abs/2308.01154v3 )

ライセンス: Link先を確認
Davide Maltoni and Matteo Ferrara(参考訳) 最近の大規模言語モデルの創発的な計算と問題解決能力をよりよく理解することは、それらをさらに改善し、その適用性を広げるために最も重要なことです。 本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。 バイナリの追加と乗算は、非常に小さな語彙を必要とするため、新しいデータに対してスムーズな入力補間を行うのに有効な入力/出力の不連続性を示すため、この目的のために良いテストベッドを構成する。 我々はこれらのタスクを学習するために軽量言語モデルをトレーニングし、外挿能力と内部情報処理を調査するために多くの実験を行った。 本研究は,入力トークン表現が適切な内部表現にマッピングされると,値空間内で計算が行われるエンコーディング・レグレッション・デコーディングマシンとして言語モデルが動作するという仮説を支持する。

A better understanding of the emergent computation and problem-solving capabilities of recent large language models is of paramount importance to further improve them and broaden their applicability. This work investigates how a language model, trained to predict the next token, can perform arithmetic computations generalizing beyond training data. Binary addition and multiplication constitute a good testbed for this purpose, since they require a very small vocabulary and exhibit relevant input/output discontinuities making smooth input interpolation ineffective for novel data. We successfully trained a light language model to learn these tasks and ran a number of experiments to investigate the extrapolation capabilities and internal information processing. Our findings support the hypothesis that the language model works as an Encoding-Regression-Decoding machine where the computation takes place in the value space once the input token representation is mapped to an appropriate internal representation.
翻訳日:2024-03-07 18:13:17 公開日:2024-03-06
# 推論による解釈可能なステレオタイプ同定

Interpretable Stereotype Identification through Reasoning ( http://arxiv.org/abs/2308.00071v2 )

ライセンス: Link先を確認
Jacob-Junqi Tian, Omkar Dige, David Emerson, Faiza Khan Khattak(参考訳) 言語モデルは、固有のバイアスを含む可能性のある膨大なデータセットに基づいて訓練されているため、システム的差別を不注意に永続する危険性がある。 したがって、言語モデルにおけるバイアスを調べ、対処することが不可欠となり、公平さを開発に組み込んで、これらのモデルがバイアスから平等かつ自由であることを保証する。 本研究では,ゼロショットステレオタイプ同定におけるvicuna-13b-v1.3に基づく推論の重要性を示す。 我々は,13bから33bへのスケーリングによる精度向上を観察する一方で,推論による性能向上がスケールアップによる利益を大幅に上回っていることを示す。 ステレオタイプ識別などのドメイン外タスクにおいて,LSMがスケーリング法則を反省する上で,推論が重要な要因となる可能性が示唆された。 さらに,選択された推論トレースの質的分析を通じて,推論の正確性だけでなく,判断の解釈性も向上することを示す。

Given that language models are trained on vast datasets that may contain inherent biases, there is a potential danger of inadvertently perpetuating systemic discrimination. Consequently, it becomes essential to examine and address biases in language models, integrating fairness into their development to ensure these models are equitable and free from bias. In this work, we demonstrate the importance of reasoning in zero-shot stereotype identification based on Vicuna-13B-v1.3. While we do observe improved accuracy by scaling from 13B to 33B, we show that the performance gain from reasoning significantly exceeds the gain from scaling up. Our findings suggest that reasoning could be a key factor that enables LLMs to trescend the scaling law on out-of-domain tasks such as stereotype identification. Additionally, through a qualitative analysis of select reasoning traces, we highlight how reasoning enhances not just accuracy but also the interpretability of the decision.
翻訳日:2024-03-07 18:12:53 公開日:2024-03-06
# 量子コンピューティングのdyadicフラグメントにおけるsum-over-pathの書き換えと完全性

Rewriting and Completeness of Sum-Over-Paths in Dyadic Fragments of Quantum Computing ( http://arxiv.org/abs/2307.14223v4 )

ライセンス: Link先を確認
Renaud Vilmart(参考訳) sum-over-paths"形式主義は、量子系を記述する線形写像を象徴的に操作する方法であり、そのような系の形式的検証に使用されるツールである。 ここでは、定式化のための新しい書き直し規則を述べ、量子力学の最も単純な普遍的な断片である "Toffoli-Hadamard" に対して完備であることを示す。 書き直しは終了しているが、confluent(断片の普遍性から期待される)ではないことを示す。 我々は、Sum-over-Pathsとグラフィカル言語ZH-calculusの接続を利用し、また、公理化が後者にどのように変換されるかを示す。 提案する書き直しルールの一般化を提供し,実際に用語を削減しようとする場合に有用であることを示すとともに,これらの新しいルールをグラフィカルに理解する方法を示す。 量子フーリエ変換において特に用いられる量子計算のdyadicフラグメントの完全性を達成するために書き直しシステムを拡張し、dyadic倍数$\pi$の位相ゲートを toffoli-hadamard ゲート集合に付加する方法を示す。 最後に、ゲートベースの量子計算を解析するために設計されたシステムではネイティブではないが、ハミルトニアンベースの量子計算を考える際に必要となる任意の項の和と結合の方法を示す。

The "Sum-Over-Paths" formalism is a way to symbolically manipulate linear maps that describe quantum systems, and is a tool that is used in formal verification of such systems. We give here a new set of rewrite rules for the formalism, and show that it is complete for "Toffoli-Hadamard", the simplest approximately universal fragment of quantum mechanics. We show that the rewriting is terminating, but not confluent (which is expected from the universality of the fragment). We do so using the connection between Sum-over-Paths and graphical language ZH-calculus, and also show how the axiomatisation translates into the latter. We provide generalisations of the presented rewrite rules, that can prove useful when trying to reduce terms in practice, and we show how to graphically make sense of these new rules. We show how to enrich the rewrite system to reach completeness for the dyadic fragments of quantum computation, used in particular in the Quantum Fourier Transform, and obtained by adding phase gates with dyadic multiples of $\pi$ to the Toffoli-Hadamard gate-set. Finally, we show how to perform sums and concatenation of arbitrary terms, something which is not native in a system designed for analysing gate-based quantum computation, but necessary when considering Hamiltonian-based quantum computation.
翻訳日:2024-03-07 18:12:37 公開日:2024-03-06
# 負の$\Delta_T$雑音を持つスピンフリップ散乱

Spin-flip scattering engendered negative $\Delta_T$ noise ( http://arxiv.org/abs/2307.14072v3 )

ライセンス: Link先を確認
Tusaradri Mohapatra, Colin Benjamin(参考訳) 電荷電流の欠如による温度勾配による$\Delta_T$ノイズは、最近多くの関心を集めている。 本稿では、初めてスピン偏極電荷$\Delta_T$ノイズとスピン$\Delta_T$ノイズと、ショットノイズやサーマルノイズのような寄与を導出する。 温度勾配を有する二層金属接合の界面にスピンフリップを導入することで,$\delta_t$ノイズ自己相関によるスピンフリップ散乱の影響について検討する。 ネット電荷やスピン電流が常にゼロであることを保証する。 $\Delta_T$のノイズは負である。 一方、スピン$\Delta_T$ノイズは正である。 スピンフリップ散乱は電荷$\delta_t$ノイズの変化の興味をそそる効果を示し、スピン偏極輸送の探究に役立つ。 電荷およびスピン$\delta_t$ノイズは、固有スピン相関の符号および特性、すなわち同一スピン相関または反対スピン相関に依存する。 電荷$\Delta_T$の符号の変化は、逆スピン相関による熱雑音への寄与によって引き起こされるが、$\Delta_T$のショットノイズは常に正である。

$\Delta_T$ noise generated due to a temperature gradient in the absence of charge current has recently attracted much interest. In this paper, for the first time, we derive spin-polarised charge $\Delta_T$ noise and spin $\Delta_T$ noise along with its shot noise-like and thermal noise-like contributions. Introducing a spin flipper at the interface of a bilayer metallic junction with a temperature gradient, we examine the impact of spin-flip scattering via $\Delta_T$ noise auto-correlation. We ensure that the net charge or spin current transported is always zero. We find that the charge $\Delta_T$ noise is negative. In contrast, spin $\Delta_T$ noise is positive. Spin-flip scattering exhibits the intriguing effect of a change in sign in charge $\Delta_T$ noise, which can help probe spin-polarised transport. Both charge and spin $\Delta_T$ noise depend on the sign and characteristics of the inherent spin correlation, i.e., same-spin correlation or opposite-spin correlation. The change in the sign of the charge $\Delta_T$ noise is induced by the opposite-spin correlation contribution to $\Delta_T$ thermal noise, while $\Delta_T$ shot noise is always positive.
翻訳日:2024-03-07 18:12:10 公開日:2024-03-06
# Floquetによるホロノミック量子コンピューティングのための非アベリア幾何学位相の研究

Investigation of Floquet engineered non-Abelian geometric phase for holonomic quantum computing ( http://arxiv.org/abs/2307.12957v2 )

ライセンス: Link先を確認
Logan W. Cooke, Arina Tashchilina, Mason Protter, Joseph Lindon, Tian Ooi, Frank Marsiglio, Joseph Maciejko, Lindsay J. LeBlanc(参考訳) ホロノミック量子コンピューティング(HQC)は、制御-パラメータ空間における閉ループの周囲の計算状態の断熱的に退化した多様体を輸送することによって機能する。 必要な縮退を実現することは困難であり、通常補助レベルや中間レベル結合を必要とする。 これを回避する可能性の1つは、非退化ハミルトニアンの周期的駆動がフロッケバンドを退化させ、その後非アーベルゲージ構造が出現するフロッケ工学である。 ここでは、極低温の$^{87}$Rb原子において、原子スピン状態が変調されたRF場によって着飾られ、完全に調整可能なパラメータ空間で連結されたハミルトン系の周期的駆動を誘導する実験を示す。 このパラメータ空間を通した断熱運動は、非アベリア接続によって特徴づけられる$SU(2)$の縮退スピン状態のホロノミック進化をもたらす。 背景磁場の存在下でのスピン固有状態のホロノミック変換について検討し、これらの単一量子ゲート演算の忠実度を特徴付ける。 Floquetのエンジニアリング技術は、明示的な退化の必要性を排除しているが、退化系に存在する同様の制限の多くを継承している。

Holonomic quantum computing (HQC) functions by transporting an adiabatically degenerate manifold of computational states around a closed loop in a control-parameter space; this cyclic evolution results in a non-Abelian geometric phase which may couple states within the manifold. Realizing the required degeneracy is challenging, and typically requires auxiliary levels or intermediate-level couplings. One potential way to circumvent this is through Floquet engineering, where the periodic driving of a nondegenerate Hamiltonian leads to degenerate Floquet bands, and subsequently non-Abelian gauge structures may emerge. Here we present an experiment in ultracold $^{87}$Rb atoms where atomic spin states are dressed by modulated RF fields to induce periodic driving of a family of Hamiltonians linked through a fully tuneable parameter space. The adiabatic motion through this parameter space leads to the holonomic evolution of the degenerate spin states in $SU(2)$, characterized by a non-Abelian connection. We study the holonomic transformations of spin eigenstates in the presence of a background magnetic field, characterizing the fidelity of these single-qubit gate operations. Results indicate that while the Floquet engineering technique removes the need for explicit degeneracies, it inherits many of the same limitations present in degenerate systems.
翻訳日:2024-03-07 18:11:47 公開日:2024-03-06
# 量子情報におけるハール測定ツールの紹介 : 初心者のチュートリアル

Introduction to Haar Measure Tools in Quantum Information: A Beginner's Tutorial ( http://arxiv.org/abs/2307.08956v3 )

ライセンス: Link先を確認
Antonio Anna Mele(参考訳) ハール測度は量子情報において重要な役割を果たすが、その研究はしばしば表現論の深い理解を必要とし、初心者にとって挑戦となる。 このチュートリアルは、線形代数の基本的な知識のみを利用して量子情報におけるハール測度ツールの基本的な紹介を提供することを目的としており、このトピックをよりアクセスしやすくすることを目的としている。 チュートリアルは、ハール測度上の積分を計算する必須要素であるモーメント作用素を特徴づけることに特に重点を置いてハール測度を導入することから始まります。 対称部分空間の性質もカバーし、計算の可視化と単純化を支援するテンソルネットワーク図式記法のような便利なツールも導入している。 次に、チュートリアルではユニタリデザインの概念を探求し、等価な定義を提供し、その後ユニタリデザインの近似概念を探求し、これら異なる概念間の関係を明らかにした。 ハール測度の計算の実際的な例は、量子チャネルの回転のようなよく知られた公式の導出を含む。 最後に、量子機械学習と古典的シャドウトモグラフィーにおけるハール測度計算の適用例を紹介する。

The Haar measure plays a vital role in quantum information, but its study often requires a deep understanding of representation theory, posing a challenge for beginners. This tutorial aims to provide a basic introduction to Haar measure tools in quantum information, utilizing only basic knowledge of linear algebra and thus aiming to make this topic more accessible. The tutorial begins by introducing the Haar measure with a specific emphasis on characterizing the moment operator, an essential element for computing integrals over the Haar measure. It also covers properties of the symmetric subspace and introduces helpful tools like Tensor network diagrammatic notation, which aid in visualizing and simplifying calculations. Next, the tutorial explores the concept of unitary designs, providing equivalent definitions, and subsequently explores approximate notions of unitary designs, shedding light on the relationships between these different notions. Practical examples of Haar measure calculations are illustrated, including the derivation of well-known formulas such as the twirling of a quantum channel. Lastly, the tutorial showcases the applications of Haar measure calculations in Quantum Machine Learning and Classical Shadow tomography.
翻訳日:2024-03-07 18:11:23 公開日:2024-03-06
# 停止不能攻撃:条件付き拡散モデルによるラベルオンリーモデルインバージョン

Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion Model ( http://arxiv.org/abs/2307.08424v3 )

ライセンス: Link先を確認
Rongke Liu, Dong Wang, Yizhi Ren, Zhen Wang, Kaitian Guo, Qianqian Qin, Xiaolei Liu(参考訳) model inversion attacks(mias)は、アクセス不能なディープラーニングモデルのトレーニングセットからプライベートデータを復元することを目的としている。 MIAは主に、攻撃者がモデルの構造とパラメータに完全にアクセスできるホワイトボックスシナリオに焦点を当てている。 しかし、実際のアプリケーションはブラックボックスのシナリオやラベルのみのシナリオ、すなわち攻撃者はモデルにアクセスすることで出力の信頼性ベクトルやラベルしか取得できない。 したがって、既存のMIAの攻撃モデルは、標的モデルの知識で効果的に訓練することは困難であり、結果として準最適攻撃となる。 我々の知る限り、ラベルのみのシナリオにおいて、強力で実用的な攻撃モデルの研究を開拓した。 本稿では,条件拡散モデル(CDM)を利用して,対象ラベル下のサンプルをトレーニングセットから回収する新しいMIA手法を提案する。 目標モデルタスクに関連する補助的データセットを選択し、予測ラベルをトレーニングCDMのガイド条件として使用し、目標ラベル、事前定義されたガイダンス強度、ランダムノイズをトレーニングされた攻撃モデルに入力し、最終選択のために複数の結果を生成し修正する。 本手法は,学習した知覚イメージパッチの類似性を新しい指標として,およびハイパーパラメータの値を決定する判断基盤として評価する。 実験結果から,本手法は従来の手法よりも精度良く類似したサンプルを生成できることが判明した。

Model inversion attacks (MIAs) aim to recover private data from inaccessible training sets of deep learning models, posing a privacy threat. MIAs primarily focus on the white-box scenario where attackers have full access to the model's structure and parameters. However, practical applications are usually in black-box scenarios or label-only scenarios, i.e., the attackers can only obtain the output confidence vectors or labels by accessing the model. Therefore, the attack models in existing MIAs are difficult to effectively train with the knowledge of the target model, resulting in sub-optimal attacks. To the best of our knowledge, we pioneer the research of a powerful and practical attack model in the label-only scenario. In this paper, we develop a novel MIA method, leveraging a conditional diffusion model (CDM) to recover representative samples under the target label from the training set. Two techniques are introduced: selecting an auxiliary dataset relevant to the target model task and using predicted labels as conditions to guide training CDM; and inputting target label, pre-defined guidance strength, and random noise into the trained attack model to generate and correct multiple results for final selection. This method is evaluated using Learned Perceptual Image Patch Similarity as a new metric and as a judgment basis for deciding the values of hyper-parameters. Experimental results show that this method can generate similar and accurate samples to the target label, outperforming generators of previous approaches.
翻訳日:2024-03-07 18:11:04 公開日:2024-03-06
# OATS:アスペクトに基づく知覚分析のためのターゲット4重項抽出データセット

OATS: Opinion Aspect Target Sentiment Quadruple Extraction Dataset for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2309.13297v2 )

ライセンス: Link先を確認
Siva Uday Sampreeth Chebolu and Franck Dernoncourt and Nedim Lipka and Thamar Solorio(参考訳) アスペクトベースの感情分析(ABSA)は、ユーザ生成レビュー内の異なる要素に特有の感情を理解する。 ユーザー生成レビューを分析して判断する a) 審査対象の実体 b)それが属するハイレベルな側面 c) 意見を表現するために用いられる感情語,及び d) 目標及び側面に対して表現された感情 さまざまなベンチマークデータセットがabsaの発展を促進する一方で、ドメインの制限やデータの粒度の課題がしばしば伴う。 OATSデータセットは3つの新しいドメインを含み,27,470の文レベルと17,092のレビューレベルタプルから構成される。 レストランやラップトップなどのおなじみのドメインへの再帰的な集中、複雑な4倍数抽出タスクのための限られたデータ、文章とレビューレベルの感情のシナジーを時々監視するといった、特定のギャップを埋めることを目指しています。 さらに、OATSのポテンシャルを解明し、OATSが解決できる様々なABSAサブタスクに光を当てるために、実験を行い、最初のベースラインを確立した。 OATSデータセットが現在のリソースを増やし、ABSA(https://github.com/RiTUAL-UH/OATS-ABSA)を包括的に探索する道を開くことを願っています。

Aspect-based sentiment analysis (ABSA) delves into understanding sentiments specific to distinct elements within a user-generated review. It aims to analyze user-generated reviews to determine a) the target entity being reviewed, b) the high-level aspect to which it belongs, c) the sentiment words used to express the opinion, and d) the sentiment expressed toward the targets and the aspects. While various benchmark datasets have fostered advancements in ABSA, they often come with domain limitations and data granularity challenges. Addressing these, we introduce the OATS dataset, which encompasses three fresh domains and consists of 27,470 sentence-level quadruples and 17,092 review-level tuples. Our initiative seeks to bridge specific observed gaps: the recurrent focus on familiar domains like restaurants and laptops, limited data for intricate quadruple extraction tasks, and an occasional oversight of the synergy between sentence and review-level sentiments. Moreover, to elucidate OATS's potential and shed light on various ABSA subtasks that OATS can solve, we conducted experiments, establishing initial baselines. We hope the OATS dataset augments current resources, paving the way for an encompassing exploration of ABSA (https://github.com/RiTUAL-UH/OATS-ABSA).
翻訳日:2024-03-07 18:04:46 公開日:2024-03-06
# 合成縦断患者データの生成と評価方法--体系的考察

Methods for generating and evaluating synthetic longitudinal patient data: a systematic review ( http://arxiv.org/abs/2309.12380v2 )

ライセンス: Link先を確認
Katariina Perkonoja and Kari Auranen and Joni Virta(参考訳) 近年のデータ拡散は, 様々な統計・深層学習技術の進歩と活用をもたらし, 研究・開発活動の迅速化につながっている。 しかし、データ利用の急増や医療などのプライバシー規制が法的に制限されているために、すべての業界がデータ利用の急増から平等に恩恵を受けているわけではない。 この問題に対処するために,合成データ生成法など,さまざまな統計開示法やプライバシー保護法が提案されている。 合成データは既存のデータに基づいて生成され、可能な限り密接に複製し、実際の機密データのためのプロキシとして機能する。 本稿では, 医学における一般的なデータ型である合成縦断患者データの生成と評価法について体系的に検討する。 レビューはPRISMAガイドラインに準拠し、2022年末まで5つのデータベースからの文献をカバーしている。 従来のシミュレーション手法から最新のディープラーニング手法まで,17の手法について述べる。 収集された情報は、メソッドタイプ、ソースコードの可用性、類似性、ユーティリティ、プライバシの評価に使用されるアプローチを含むが、制限されていない。 さらに, 合成縦型データ生成手法の開発のための実践的ガイドラインと要点について述べる。

The proliferation of data in recent years has led to the advancement and utilization of various statistical and deep learning techniques, thus expediting research and development activities. However, not all industries have benefited equally from the surge in data availability, partly due to legal restrictions on data usage and privacy regulations, such as in medicine. To address this issue, various statistical disclosure and privacy-preserving methods have been proposed, including the use of synthetic data generation. Synthetic data are generated based on some existing data, with the aim of replicating them as closely as possible and acting as a proxy for real sensitive data. This paper presents a systematic review of methods for generating and evaluating synthetic longitudinal patient data, a prevalent data type in medicine. The review adheres to the PRISMA guidelines and covers literature from five databases until the end of 2022. The paper describes 17 methods, ranging from traditional simulation techniques to modern deep learning methods. The collected information includes, but is not limited to, method type, source code availability, and approaches used to assess resemblance, utility, and privacy. Furthermore, the paper discusses practical guidelines and key considerations for developing synthetic longitudinal data generation methods.
翻訳日:2024-03-07 18:04:10 公開日:2024-03-06
# RaTrack: 4Dレーダポイントクラウドによるオブジェクトの検出と追跡

RaTrack: Moving Object Detection and Tracking with 4D Radar Point Cloud ( http://arxiv.org/abs/2309.09737v6 )

ライセンス: Link先を確認
Zhijun Pan, Fangqiang Ding, Hantao Zhong, Chris Xiaoxuan Lu(参考訳) モバイルの自律性は、動的環境の正確な認識に依存している。 3Dの世界における移動物体のロバストな追跡は、軌道予測、障害物回避、経路計画といったアプリケーションにおいて重要な役割を果たす。 現在のほとんどの手法では、LiDARやカメラを多重物体追跡(MOT)に利用しているが、4Dイメージングレーダーの能力はほとんど探索されていない。 4dレーダデータにおけるレーダノイズとポイントスパーシティの課題を認識し,レーダトラッキングに適した革新的なソリューションであるratrackを紹介する。 特定のオブジェクトタイプや3次元境界ボックスに典型的な依存を通すことで、動作推定モジュールによって強化された動きのセグメンテーションとクラスタリングに焦点をあてる。 View-of-Delftデータセットから評価すると、RaTrackは移動物体の追跡精度が優れており、ほとんどの場合、最先端のパフォーマンスを上回っている。 コードとモデルはhttps://github.com/ljacksonpan/ratrackでリリースします。

Mobile autonomy relies on the precise perception of dynamic environments. Robustly tracking moving objects in 3D world thus plays a pivotal role for applications like trajectory prediction, obstacle avoidance, and path planning. While most current methods utilize LiDARs or cameras for Multiple Object Tracking (MOT), the capabilities of 4D imaging radars remain largely unexplored. Recognizing the challenges posed by radar noise and point sparsity in 4D radar data, we introduce RaTrack, an innovative solution tailored for radar-based tracking. Bypassing the typical reliance on specific object types and 3D bounding boxes, our method focuses on motion segmentation and clustering, enriched by a motion estimation module. Evaluated on the View-of-Delft dataset, RaTrack showcases superior tracking precision of moving objects, largely surpassing the performance of the state of the art. We release our code and model at https://github.com/LJacksonPan/RaTrack.
翻訳日:2024-03-07 18:03:52 公開日:2024-03-06
# Causal-Story:パラメータ効率を考慮したビジュアルストーリー合成のための局所因果注意

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis ( http://arxiv.org/abs/2309.09553v4 )

ライセンス: Link先を確認
Tianyi Song, Jiuxin Cao, Kun Wang, Bo Liu, Xiaofeng Zhang(参考訳) 拡散モデルの優れたテキストと画像の合成能力は、コヒーレントなビジュアルストーリーの合成の進歩を促した。 現在の最先端の手法は、現在のフレームを生成する条件として、歴史的なキャプション、歴史的なフレーム、そして現在のキャプションの特徴を組み合わせる。 しかし、この方法はそれぞれの歴史的枠とキャプションを同じ貢献として扱う。 すべての歴史的条件が現在のフレームの生成と関連しているわけではないことを無視して、同じ重みでそれらを順番に結びつける。 この問題に対処するため、我々はCausal-Storyを提案する。 このモデルは、以前のキャプション、フレーム、現在のキャプション間の因果関係を考慮した、局所的な因果的注意機構を取り入れている。 この関係に基づいて重みを割り当てることで、因果関係は現在のフレームを生成し、ストーリー生成のグローバル一貫性を向上させる。 本研究では,pororosvとflintstonessvデータセットのモデルを評価し,得られた最新fidスコアを評価した。

The excellent text-to-image synthesis capability of diffusion models has driven progress in synthesizing coherent visual stories. The current state-of-the-art method combines the features of historical captions, historical frames, and the current captions as conditions for generating the current frame. However, this method treats each historical frame and caption as the same contribution. It connects them in order with equal weights, ignoring that not all historical conditions are associated with the generation of the current frame. To address this issue, we propose Causal-Story. This model incorporates a local causal attention mechanism that considers the causal relationship between previous captions, frames, and current captions. By assigning weights based on this relationship, Causal-Story generates the current frame, thereby improving the global consistency of story generation. We evaluated our model on the PororoSV and FlintstonesSV datasets and obtained state-of-the-art FID scores, and the generated frames also demonstrate better storytelling in visuals.
翻訳日:2024-03-07 18:03:35 公開日:2024-03-06
# マルチタスク強化学習のための投影型タスク固有層

Projected Task-Specific Layers for Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2309.08776v2 )

ライセンス: Link先を確認
Josselin Somerville Roberts, Julia Di(参考訳) マルチタスク強化学習は、家庭や職場のさまざまな操作タスクをロボットがスケールできるようにする。 しかし、あるタスクから別のタスクへ一般化し、負のタスク干渉を緩和することは依然として課題である。 タスク間で情報をうまく共有することでこの課題に対処するには、タスクの基盤となる構造がどの程度うまく捕捉されるかに依存する。 そこで本研究では,タスク特化層を通してタスク特化補正を行う共通ポリシーを活用し,共有および可変タスク情報の表現性を向上させる,新しいアーキテクチャであるprojected task-specific layers (ptsl)を提案する。 次に,Sawyer アームの 10 と 50 の目標条件タスクからなる Meta-World の MT10 と MT50 ベンチマークにおいて,我々のモデルが技術状況より優れていることを示す。

Multi-task reinforcement learning could enable robots to scale across a wide variety of manipulation tasks in homes and workplaces. However, generalizing from one task to another and mitigating negative task interference still remains a challenge. Addressing this challenge by successfully sharing information across tasks will depend on how well the structure underlying the tasks is captured. In this work, we introduce our new architecture, Projected Task-Specific Layers (PTSL), that leverages a common policy with dense task-specific corrections through task-specific layers to better express shared and variable task information. We then show that our model outperforms the state of the art on the MT10 and MT50 benchmarks of Meta-World consisting of 10 and 50 goal-conditioned tasks for a Sawyer arm.
翻訳日:2024-03-07 18:03:17 公開日:2024-03-06
# 量子ans\"atzeで不毛高原を特徴づけるアジョイント

The Adjoint Is All You Need: Characterizing Barren Plateaus in Quantum Ans\"atze ( http://arxiv.org/abs/2309.07902v4 )

ライセンス: Link先を確認
Enrico Fontana, Dylan Herman, Shouvanik Chakrabarti, Niraj Kumar, Romina Yalovetzky, Jamie Heredge, Shree Hari Sureshbabu, and Marco Pistoia(参考訳) コンパクトリー群の表現論の道具を用いて、その動的リー代数(DLA)に含まれる可観測性を持つパラメータ化量子回路に対するバレンプラトー理論(BPs)を定式化する。 ハミルトン変分アンサッツ、量子交互作用素アンサツ、多くの等価量子ニューラルネットワークなど、広く使われるアンサアツの多種多様な種類はラザである。 特に、我々の理論は、初めて、量子化合物アンザッツのコスト関数の勾配の分散を計算する能力を提供する。 LASAの場合、動的リー群の2次元設計において、コスト関数の勾配の分散はDLAの次元と逆スケールし、既存の数値観測と一致することを厳密に証明する。 さらに, 2-designs に対する結果の適用性を実用的な設定に適用するために, 多項式 DLA を用いた LASA に高速混合が生じることを示す。 最後に、DLAの外にある観測可能なケースを扱うための潜在的な拡張と、その結果の影響について述べる。

Using tools from the representation theory of compact Lie groups, we formulate a theory of Barren Plateaus (BPs) for parameterized quantum circuits whose observables lie in their dynamical Lie algebra (DLA), a setting that we term Lie algebra Supported Ansatz (LASA). A large variety of commonly used ans\"atze such as the Hamiltonian Variational Ansatz, Quantum Alternating Operator Ansatz, and many equivariant quantum neural networks are LASAs. In particular, our theory provides, for the first time, the ability to compute the variance of the gradient of the cost function of the quantum compound ansatz. We rigorously prove that, for LASA, the variance of the gradient of the cost function, for a 2-design of the dynamical Lie group, scales inversely with the dimension of the DLA, which agrees with existing numerical observations. In addition, to motivate the applicability of our results for 2-designs to practical settings, we show that rapid mixing occurs for LASAs with polynomial DLA. Lastly, we include potential extensions for handling cases when the observable lies outside of the DLA and the implications of our results.
翻訳日:2024-03-07 18:03:02 公開日:2024-03-06
# spd行列列のための構造保存トランス

Structure-Preserving Transformers for Sequences of SPD Matrices ( http://arxiv.org/abs/2309.07579v5 )

ライセンス: Link先を確認
Mathieu Seraphim, Alexis Lechervy, Florian Yger, Luc Brun and Olivier Etard(参考訳) 近年,トランスフォーマーをベースとした自動アテンション機構は,テキストから画像まで,非ユークリッド測地データを含む,さまざまなコンテキスト依存データ型の分析に成功している。 本稿では,その解析を通してリーマン幾何学を保存しながら,対称正定値行列の列を分類する機構を提案する。 本手法は,脳波由来の共分散行列を標準データセットからタイムリーに自動睡眠ステージングに応用し,高いステージレベルの性能を得る。

In recent years, Transformer-based auto-attention mechanisms have been successfully applied to the analysis of a variety of context-reliant data types, from texts to images and beyond, including data from non-Euclidean geometries. In this paper, we present such a mechanism, designed to classify sequences of Symmetric Positive Definite matrices while preserving their Riemannian geometry throughout the analysis. We apply our method to automatic sleep staging on timeseries of EEG-derived covariance matrices from a standard dataset, obtaining high levels of stage-wise performance.
翻訳日:2024-03-07 18:02:40 公開日:2024-03-06
# 量子力学からのミンコフスキー空間

Minkowski space from quantum mechanics ( http://arxiv.org/abs/2309.06150v2 )

ライセンス: Link先を確認
L\'aszl\'o B. Szabados(参考訳) ペンローズのスピン幾何学理論はさらに拡張され、$SU(2)$と$E(3)$(ユークリッド)から$E(1,3)$(Poincar\'e)不変量子力学系へと拡張される。 ミンコフスキー空間の2つの非平行時間的直線の間のローレンツ空間距離は、E(1,3)$-不変な基本的力学系と正の安息質量を持つ基本的力学系の中心世界線と見なされ、 'emph{$E(1,3)$-不変な基本可観測性}, viz. the 4-モーメントと角運動量で表される。 emph{$e(1,3)$-invariant basic quantum mechanical systems} の類似表現は、量子力学の抽象的、代数的定式化における \emph{basic quantum observables} の項で与えられ、古典的極限において、ミンコフスキー空間の時間的直線間の空間距離を漸近的に消滅する不確かさで再現することが示されている。 したがって、ミンコフスキー空間の \emph{metric structure} は、抽象量子力学系の可観測性のみを用いて古典極限の量子力学から回復することができる。

Penrose's Spin Geometry Theorem is extended further, from $SU(2)$ and $E(3)$ (Euclidean) to $E(1,3)$ (Poincar\'e) invariant elementary quantum mechanical systems. The Lorentzian spatial distance between any two non-parallel timelike straight lines of Minkowski space, considered to be the centre-of-mass world lines of $E(1,3)$-invariant elementary classical mechanical systems with positive rest mass, is expressed in terms of \emph{$E(1,3)$-invariant basic observables}, viz. the 4-momentum and the angular momentum of the systems. An analogous expression for \emph{$E(1,3)$-invariant elementary quantum mechanical systems} in terms of the \emph{basic quantum observables} in an abstract, algebraic formulation of quantum mechanics is given, and it is shown that, in the classical limit, it reproduces the Lorentzian spatial distance between the timelike straight lines of Minkowski space with asymptotically vanishing uncertainty. Thus, the \emph{metric structure} of Minkowski space can be recovered from quantum mechanics in the classical limit using only the observables of abstract quantum mechanical systems.
翻訳日:2024-03-07 18:02:30 公開日:2024-03-06
# データ同化に先立つニューラルクープマン

Neural Koopman prior for data assimilation ( http://arxiv.org/abs/2309.05317v2 )

ライセンス: Link先を確認
Anthony Frion, Lucas Drumetz, Mauro Dalla Mura, Guillaume Tochon, Abdeldjalil A\"issa El Bey(参考訳) 大規模なデータセット、計算能力、自動微分や表現型ニューラルネットワークアーキテクチャなどのツールが利用可能になるにつれて、シーケンシャルなデータは観測データからトレーニングされた動的モデルを用いて、データ駆動の方法で扱われることが多い。 ニューラルネットワークは解釈不能なブラックボックスアーキテクチャと見なされることが多いが、データや数学的知識の物理的優先順位から恩恵を受けることができる。 本稿では,長年知られているkoopman演算子理論を応用したニューラルネットワークアーキテクチャを用いて,動的システムを線形に記述可能な潜在空間に埋め込むことにより,多くの魅力ある特徴量を実現する。 データを不規則にサンプリングした時系列で取得する困難な状況においても,このようなモデルを長期連続的な再構築のためにトレーニングする手法を導入する。 自己教師付き学習の可能性も示されており、時系列補間や予測などへの応用を含む変動データ同化手法の先行として、トレーニングされた動的モデルの有望な利用を示す。

With the increasing availability of large scale datasets, computational power and tools like automatic differentiation and expressive neural network architectures, sequential data are now often treated in a data-driven way, with a dynamical model trained from the observation data. While neural networks are often seen as uninterpretable black-box architectures, they can still benefit from physical priors on the data and from mathematical knowledge. In this paper, we use a neural network architecture which leverages the long-known Koopman operator theory to embed dynamical systems in latent spaces where their dynamics can be described linearly, enabling a number of appealing features. We introduce methods that enable to train such a model for long-term continuous reconstruction, even in difficult contexts where the data comes in irregularly-sampled time series. The potential for self-supervised learning is also demonstrated, as we show the promising use of trained dynamical models as priors for variational data assimilation techniques, with applications to e.g. time series interpolation and forecasting.
翻訳日:2024-03-07 18:02:05 公開日:2024-03-06
# 超ビット理論の限界の再検討による量子通信の利点

Advantages of quantum communication revealed by the reexamination of hyperbit theory limitations ( http://arxiv.org/abs/2308.16114v2 )

ライセンス: Link先を確認
Giovanni Scala, Seyed Arash Ghoreishi, Marcin Paw{\l}owski(参考訳) Paw{\l}owskiとウィンターのハイパービット理論は、2012年に量子理論の代替として提案され、絡み合いと古典的なコミュニケーションパラダイムを再定義する方法が提案された。 この研究は、超ビット理論の厳密な再評価を行い、量子力学との等価性に疑問を呈する重要な運用上の制約を明らかにする。 重要なことに、超ビット理論と量子理論が等価であるという仮定は、送信者の研究室に関する不確実な追加知識を持つ受信機に依存しており、ポーロフスキーとウィンターの研究は誤りであることを示している。 本研究では,情報処理におけるハイパービットの制約を強調し,量子通信の優位性に光を当て,古典通信と量子通信の交点における研究を進める。

Paw{\l}owski and Winter's hyperbit theory, proposed in 2012, presented itself as an alternative to quantum theory, suggesting novel ways of redefining entanglement and classical communication paradigms. This research undertakes a meticulous reevaluation of hyperbit theory, uncovering significant operational constraints that question its equivalence with quantum mechanics. Crucially, the supposition that hyperbit theory and quantum theory are equivalent relies on the receiver having unattainable additional knowledge about the sender's laboratory, indicating that the work by Pawlowski and Winter is incorrect. This study accentuates the constraints of hyperbits in information processing and sheds light on the superiority of quantum communication, thereby advancing the investigation at the intersection of classical and quantum communication.
翻訳日:2024-03-07 18:00:15 公開日:2024-03-06
# 衛星画像からのレーダ複合材料の異常気象用変圧器によるノキャスティング

Transformer-based nowcasting of radar composites from satellite images for severe weather ( http://arxiv.org/abs/2310.19515v2 )

ライセンス: Link先を確認
\c{C}a\u{g}lar K\"u\c{c}\"uk and Apostolos Giannakos and Stefan Schneider and Alexander Jann(参考訳) 気象レーダのデータは, 気象予報モデルに欠かせない要素である。 気象レーダーデータは高分解能で貴重な情報を提供するが、その地上性は可用性を制限し、大規模なアプリケーションを妨げる。 対照的に、気象衛星はより広い領域をカバーするが、より粗い解像度を持つ。 しかし、データ駆動方式と静止衛星に搭載された現代のセンサーの急速な進歩により、地上観測と宇宙観測のギャップを埋める新たな機会が生まれ、最終的には精度の高い天気予報に繋がる。 ここでは、衛星データを用いて地上レーダー画像列を最大2時間リードするトランスフォーマーモデルを提案する。 厳しい気象条件を反映したデータセットでトレーニングされたこのモデルは、異なる気象現象の下で発生するレーダーフィールドを予測し、急速に成長する/減少するフィールドと複雑なフィールド構造に対する堅牢性を示す。 モデル解釈では、10.3$\mu m$ (c13) の赤外線チャネルは全ての気象条件の熟練した情報を含んでいるが、雷データは厳しい気象条件、特に短いリードタイムにおいて最も相対的な特徴を持つ。 このモデルは、レーダータワーを明示的に必要とせずに、大きな領域にまたがる降水量予測をサポートし、数値気象予測と水文モデルを強化し、データスカース領域のレーダプロキシを提供する。 さらに、オープンソースのフレームワークは、運用データ駆動の nowcasting への進展を促進する。

Weather radar data are critical for nowcasting and an integral component of numerical weather prediction models. While weather radar data provide valuable information at high resolution, their ground-based nature limits their availability, which impedes large-scale applications. In contrast, meteorological satellites cover larger domains but with coarser resolution. However, with the rapid advancements in data-driven methodologies and modern sensors aboard geostationary satellites, new opportunities are emerging to bridge the gap between ground- and space-based observations, ultimately leading to more skillful weather prediction with high accuracy. Here, we present a Transformer-based model for nowcasting ground-based radar image sequences using satellite data up to two hours lead time. Trained on a dataset reflecting severe weather conditions, the model predicts radar fields occurring under different weather phenomena and shows robustness against rapidly growing/decaying fields and complex field structures. Model interpretation reveals that the infrared channel centered at 10.3 $\mu m$ (C13) contains skillful information for all weather conditions, while lightning data have the highest relative feature importance in severe weather conditions, particularly in shorter lead times. The model can support precipitation nowcasting across large domains without an explicit need for radar towers, enhance numerical weather prediction and hydrological models, and provide radar proxy for data-scarce regions. Moreover, the open-source framework facilitates progress towards operational data-driven nowcasting.
翻訳日:2024-03-07 17:56:28 公開日:2024-03-06
# LLMによるエージェント社会調査:アバロンゲームにおける協調と理解

LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay ( http://arxiv.org/abs/2310.14985v2 )

ライセンス: Link先を確認
Yihuai Lan, Zhiqiang Hu, Lei Wang, Yang Wang, Deheng Ye, Peilin Zhao, Ee-Peng Lim, Hui Xiong, Hao Wang(参考訳) 本稿では, LLM エージェントの社会的行動を明らかにするためのオープンな研究課題について検討する。 この目的を達成するために,我々は環境・利用システムとして代表的コミュニケーションゲームであるAvalonを採用し,LLMエージェントをゲームに誘導する。 llmエージェントによるゲームプレイの予備的な調査は行われているが、社会的行動に関する研究は乏しい。 本稿では,Avalonゲームプレイにシームレスに適応する新しいフレームワークを提案する。 提案フレームワークのコアは,エージェント間の効率的なコミュニケーションとインタラクションを可能にするマルチエージェントシステムである。 我々は, LLMエージェントのゲーム勝利と社会的行動分析という2つの視点から, 指標に基づくフレームワークの性能評価を行った。 本研究は, 適応的・インテリジェントなエージェント生成におけるフレームワークの有効性を実証し, 動的社会環境相互作用に関わる課題に対処するLLMエージェントの可能性を強調した。 協調と対立の両面からLLMエージェントの社会的行動を分析することにより、この領域の研究と応用に関する洞察を提供する。

This paper aims to investigate the open research problem of uncovering the social behaviors of LLM-based agents. To achieve this goal, we adopt Avalon, a representative communication game, as the environment and use system prompts to guide LLM agents to play the game. While previous studies have conducted preliminary investigations into gameplay with LLM agents, there lacks research on their social behaviors. In this paper, we present a novel framework designed to seamlessly adapt to Avalon gameplay. The core of our proposed framework is a multi-agent system that enables efficient communication and interaction among agents. We evaluate the performance of our framework based on metrics from two perspectives: winning the game and analyzing the social behaviors of LLM agents. Our results demonstrate the effectiveness of our framework in generating adaptive and intelligent agents and highlight the potential of LLM-based agents in addressing the challenges associated with dynamic social environment interaction. By analyzing the social behaviors of LLM agents from the aspects of both collaboration and confrontation, we provide insights into the research and applications of this domain.
翻訳日:2024-03-07 17:56:05 公開日:2024-03-06
# サンプル選択バイアスを考慮したロバスト自己学習におけるアンサンブル多様性の活用

Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias ( http://arxiv.org/abs/2310.14814v3 )

ライセンス: Link先を確認
Ambroise Odonnat, Vasilii Feofanov, Ievgen Redko(参考訳) 自己学習は半教師あり学習におけるよく知られたアプローチである。 モデルが信頼しているラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。 ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過信であることが知られている。 この現象は特にサンプル選択バイアスの存在、すなわちデータラベリングが何らかの制約を受ける場合において強化される。 この問題に対処するために,線形分類器の集合の予測の多様性に基づいて,$\mathcal{t}$- similarity と呼ばれる新しい信頼度尺度を提案する。 我々は,静止点を研究し,個々のメンバの多様性とパフォーマンスの関係を記述し,このアプローチを理論的に解析する。 様々なデータモダリティの分類データセットに対する3つの異なる擬似ラベルポリシーに対する信頼度尺度の利点を実証的に示す。 コードはhttps://github.com/ambroiseodt/tsimで入手できる。

Self-training is a well-known approach for semi-supervised learning. It consists of iteratively assigning pseudo-labels to unlabeled data for which the model is confident and treating them as labeled examples. For neural networks, softmax prediction probabilities are often used as a confidence measure, although they are known to be overconfident, even for wrong predictions. This phenomenon is particularly intensified in the presence of sample selection bias, i.e., when data labeling is subject to some constraint. To address this issue, we propose a novel confidence measure, called $\mathcal{T}$-similarity, built upon the prediction diversity of an ensemble of linear classifiers. We provide the theoretical analysis of our approach by studying stationary points and describing the relationship between the diversity of the individual members and their performance. We empirically demonstrate the benefit of our confidence measure for three different pseudo-labeling policies on classification datasets of various data modalities. The code is available at https://github.com/ambroiseodt/tsim.
翻訳日:2024-03-07 17:55:48 公開日:2024-03-06
# 古典的学習器を用いたPKEとFHEのための量子鍵リース

Quantum Key Leasing for PKE and FHE with a Classical Lessor ( http://arxiv.org/abs/2310.14328v4 )

ライセンス: Link先を確認
Orestis Chardouvelis, Vipul Goyal, Aayush Jain, Jiahui Liu(参考訳) 本稿では,Agarwal et. al. Eurocrypt' 23, Ananth et. al. TCC' 23 としても知られるセキュアな鍵リースの問題について,前身のAnanth et. al. TCC' 23 のセキュリティ概念の強化について考察する。 アル ユーロ暗号21号。 この問題の目的は、量子情報の不可解な性質を利用して、レセプタが古典的な機能を評価するために再利用可能な量子鍵をリースできるようにすることである。 その後、レセプタは、レセプタに、確実に鍵を削除するように要求し、レセプタは、評価する能力を完全に奪われる。 本研究では、標準格子仮定から(古典的)公開鍵、準同型暗号スキームの復号鍵をリースする安全な鍵リーススキームを構築する。 プロトコル全体は、古典的な(クライアント)と量子的な(サーバ)の間の古典的なコミュニケーションのみを使用します。 ※ 標準的な仮定を仮定すると、我々のセキュリティ定義では、全ての計算上の有界量子敵は、有効な古典的削除証明書を同時に提供できず、暗号文を区別することができない。 私たちのセキュリティは、誤りを仮定して学ぶことの難しさに依存しています。 このスキームは,上記の2つの性質を満足する標準仮定に基づく最初のスキームである。

In this work, we consider the problem of secure key leasing, also known as revocable cryptography (Agarwal et. al. Eurocrypt' 23, Ananth et. al. TCC' 23), as a strengthened security notion of its predecessor put forward in Ananth et. al. Eurocrypt' 21. This problem aims to leverage unclonable nature of quantum information to allow a lessor to lease a quantum key with reusability for evaluating a classical functionality. Later, the lessor can request the lessee to provably delete the key and then the lessee will be completely deprived of the capability to evaluate. In this work, we construct a secure key leasing scheme to lease a decryption key of a (classical) public-key, homomorphic encryption scheme from standard lattice assumptions. We achieve strong form of security where: * The entire protocol uses only classical communication between a classical lessor (client) and a quantum lessee (server). * Assuming standard assumptions, our security definition ensures that every computationally bounded quantum adversary could not simultaneously provide a valid classical deletion certificate and yet distinguish ciphertexts. Our security relies on the hardness of learning with errors assumption. Our scheme is the first scheme to be based on a standard assumption and satisfying the two properties above.
翻訳日:2024-03-07 17:55:31 公開日:2024-03-06
# 不定量子ダイナミクスによる光回転計測におけるナノラディアンスケール精度

Nanoradian-Scale Precision in Light Rotation Measurement via Indefinite Quantum Dynamics ( http://arxiv.org/abs/2310.07125v2 )

ライセンス: Link先を確認
Binke Xia, Jingzheng Huang, Hongjing Li, Zhongyuan Luo, Guihua Zeng(参考訳) 光ビームの操作とメトロロジーは、光学科学と応用にとって重要である。 特に、光線回転測定における超高精度の達成は、長年にわたる課題である。 絡み合った光子のような量子プローブを使う代わりに、量子パラメータ推定のパラメータ化プロセスに「不定時間方向」と呼ばれる量子戦略を組み込むことで、この問題に対処する。 パラメータ化力学のこの量子特性を活用することで、ビームプロファイルの極小角回転を測定するためのOAM資源の利用を最大化することができる。 特に、光回転測定のnradスケールの精度は最終的に実験で達成され、我々の知る限りでは最高の精度である。 さらに、このスキームは光子によって提供される様々な操作可能な資源のために、様々な光学応用において有望である。

The manipulation and metrology of light beams are pivotal for optical science and applications. In particular, achieving ultra-high precision in the measurement of light beam rotations has been a long-standing challenge. Instead of utilizing quantum probes like entangled photons, we address this challenge by incorporating a quantum strategy called "indefinite time direction" into the parameterizing process of quantum parameter estimation. Leveraging this quantum property of the parameterizing dynamics allows us to maximize the utilization of OAM resources for measuring ultra-small angular rotations of beam profile. Notably, a nrad-scale precision of light rotation measurement is finally achieved in the experiment, which is the highest precision by far to our best knowledge. Furthermore, this scheme holds promise in various optical applications due to the diverse range of manipulable resources offered by photons.
翻訳日:2024-03-07 17:54:18 公開日:2024-03-06
# chat vector: 新しい言語における命令追従とモデルアライメントをllmに装備するシンプルなアプローチ

Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages ( http://arxiv.org/abs/2310.04799v2 )

ライセンス: Link先を確認
Shih-Cheng Huang, Pin-Zu Li, Yu-Chi Hsu, Kuang-Ming Chen, Yu Tung Lin, Shih-Kai Hsiao, Richard Tzong-Han Tsai, Hung-yi Lee(参考訳) 近年,オープンソースの大規模言語モデル (LLM) の開発が急速に進んでいる。 それでも、データ制約のため、ほとんどのオープンソースLLMの機能は、主に英語に焦点を当てている。 この問題に対処するために、簡単なモデル算術による命令追従と人的価値アライメントを備えた事前学習言語モデルを提供するチャットベクトルの概念を導入する。 チャットベクトルは、事前訓練されたベースモデル(例えばLLaMA2)の重みを、対応するチャットモデル(例えばLLaMA2-chat)の重みから引いたものである。 連続的な事前学習モデルの重み付けにチャットベクトルを追加するだけで、さらなるトレーニングを必要とせずに、新しい言語でチャット機能を備えたモデルを実現することができる。 実験結果から,チャットベクターは,指示追従,毒性軽減,多ターン対話の3つの側面から優れた効果を示す。 さらに,提案手法の適応性を示すために,様々な言語,ベースモデル,チャットベクタを包含する実験を拡張した。 その結果、チャットベクターの単純さ、有効性、幅広い適用性を強調し、事前訓練された言語モデルで会話機能を有効にするための魅力的なソリューションとなった。

Recently, the development of open-source large language models (LLMs) has advanced rapidly. Nevertheless, due to data constraints, the capabilities of most open-source LLMs are primarily focused on English. To address this issue, we introduce the concept of chat vector to equip pre-trained language models with instruction following and human value alignment via simple model arithmetic. The chat vector is derived by subtracting the weights of a pre-trained base model (e.g. LLaMA2) from those of its corresponding chat model (e.g. LLaMA2-chat). By simply adding the chat vector to a continual pre-trained model's weights, we can endow the model with chat capabilities in new languages without the need for further training. Our empirical studies demonstrate the superior efficacy of the chat vector from three different aspects: instruction following, toxicity mitigation, and multi-turn dialogue. Moreover, to showcase the adaptability of our approach, we extend our experiments to encompass various languages, base models, and chat vectors. The results underscore the chat vector's simplicity, effectiveness, and wide applicability, making it a compelling solution for efficiently enabling conversational capabilities in pre-trained language models.
翻訳日:2024-03-07 17:54:04 公開日:2024-03-06
# 潜在拡散モデルによる敵攻撃の改善

Improving Adversarial Attacks on Latent Diffusion Model ( http://arxiv.org/abs/2310.04687v3 )

ライセンス: Link先を確認
Boyang Zheng, Chumeng Liang, Xiaoyu Wu, Yan Liu(参考訳) 画像生成モデルであるLatent Diffusion Model (LDM) に対する敵対的攻撃は、無許可画像に対するLDMの悪意ある微調整に対する効果的な保護として採用されている。 これらの攻撃は, LDMが予測した逆例のスコア関数に余分な誤差を与えることを示す。 これらの逆例として微調整されたLDMは、モデルが攻撃されるバイアスによる誤差を下げることを学び、バイアスでスコア関数を予測する。 このダイナミクスに基づいて,一貫性スコア関数誤り(ACE)を用いた攻撃によるLCMの敵攻撃を改善することを提案する。 ACEは予測スコア関数に追加される余分なエラーのパターンを統一する。 これにより、微調整 LDM を誘導し、スコア関数を予測する際のバイアスと同じパターンを学習する。 次に、攻撃を改善するための巧妙なパターンを導入します。 本手法は, LDMに対する敵攻撃における最先端手法よりも優れる。

Adversarial attacks on Latent Diffusion Model (LDM), the state-of-the-art image generative model, have been adopted as effective protection against malicious finetuning of LDM on unauthorized images. We show that these attacks add an extra error to the score function of adversarial examples predicted by LDM. LDM finetuned on these adversarial examples learns to lower the error by a bias, from which the model is attacked and predicts the score function with biases. Based on the dynamics, we propose to improve the adversarial attack on LDM by Attacking with Consistent score-function Errors (ACE). ACE unifies the pattern of the extra error added to the predicted score function. This induces the finetuned LDM to learn the same pattern as a bias in predicting the score function. We then introduce a well-crafted pattern to improve the attack. Our method outperforms state-of-the-art methods in adversarial attacks on LDM.
翻訳日:2024-03-07 17:53:43 公開日:2024-03-06
# GoLLIE: アノテーションガイドラインの改善によるゼロショット情報抽出

GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction ( http://arxiv.org/abs/2310.03668v5 )

ライセンス: Link先を確認
Oscar Sainz, Iker Garc\'ia-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau, Eneko Agirre(参考訳) 大規模な言語モデル(llm)と命令チューニングが組み合わさって、未認識のタスクに一般化する際に大きな進歩を遂げた。 しかし、情報抽出(ie)では成功せず、タスク固有のモデルに遅れを取っている。 通常、IEタスクは、タスクを記述し、人間に例を示す複雑なガイドラインによって特徴づけられる。 このような情報を活用するためのこれまでの試みは,たとえ大規模なモデルであっても,最初からガイドラインに従うことができないため,失敗に終わっている。 本稿では,ガイドラインに準拠した微調整により,目に見えないIEタスクのゼロショット結果を改善することができるGoLLIE(Guideline-following Large Language Model for IE)を提案する。 包括的評価は、GoLLIEが目に見えないガイドラインを一般化し、フォローできることを実証的に示し、ゼロショット情報抽出における以前の試みよりも優れている。 アブレーション研究は、詳細なガイドラインが良い結果の鍵であることを示している。

Large Language Models (LLMs) combined with instruction tuning have made significant progress when generalizing to unseen tasks. However, they have been less successful in Information Extraction (IE), lagging behind task-specific models. Typically, IE tasks are characterized by complex annotation guidelines that describe the task and give examples to humans. Previous attempts to leverage such information have failed, even with the largest models, as they are not able to follow the guidelines out of the box. In this paper, we propose GoLLIE (Guideline-following Large Language Model for IE), a model able to improve zero-shot results on unseen IE tasks by virtue of being fine-tuned to comply with annotation guidelines. Comprehensive evaluation empirically demonstrates that GoLLIE is able to generalize to and follow unseen guidelines, outperforming previous attempts at zero-shot information extraction. The ablation study shows that detailed guidelines are key for good results.
翻訳日:2024-03-07 17:53:28 公開日:2024-03-06
# 残留多要素ニューラルネットワークコンピューティング

Residual Multi-Fidelity Neural Network Computing ( http://arxiv.org/abs/2310.03572v2 )

ライセンス: Link先を確認
Owen Davis, Mohammad Motamed, Raul Tempone(参考訳) 本研究では,マルチ忠実度情報を用いたニューラルネットワークサーロゲートモデルの構築に関する一般的な問題を検討する。 ReLUニューラルネットワークの厳密な誤差と複雑性推定により、安価な低忠実度と高価な高忠実度計算モデルを考えると、モデル間の相関関係を残差関数として定式化する残差多忠実度計算フレームワークを提示する。 1) モデルの共有入力空間と低忠実度モデルの出力と 2)2つのモデル間の不一致。 これを実現するために、2つのニューラルネットワークをトレーニングし、協調作業を行います。 第1のネットワークは、少数の高忠実度および低忠実度データの残差関数を学習する。 訓練後、このネットワークは第2ネットワークのトレーニングに使用される合成高忠実度データを生成するために使用される。 この第2のネットワークは、一度訓練された時点で、高忠実な関心事のサロゲートとして機能します。 本稿では,提案手法のパワーを示す3つの数値例を示す。 特に、計算コストの劇的な節約は、小さな許容範囲内で出力予測が正確であると期待された場合に達成できることを示す。

In this work, we consider the general problem of constructing a neural network surrogate model using multi-fidelity information. Motivated by rigorous error and complexity estimates for ReLU neural networks, given an inexpensive low-fidelity and an expensive high-fidelity computational model, we present a residual multi-fidelity computational framework that formulates the correlation between models as a residual function, a possibly non-linear mapping between 1) the shared input space of the models together with the low-fidelity model output and 2) the discrepancy between the two model outputs. To accomplish this, we train two neural networks to work in concert. The first network learns the residual function on a small set of high-fidelity and low-fidelity data. Once trained, this network is used to generate additional synthetic high-fidelity data, which is used in the training of a second network. This second network, once trained, acts as our surrogate for the high-fidelity quantity of interest. We present three numerical examples to demonstrate the power of the proposed framework. In particular, we show that dramatic savings in computational cost may be achieved when the output predictions are desired to be accurate within small tolerances.
翻訳日:2024-03-07 17:53:14 公開日:2024-03-06
# AI-Dentify: 噛みつくX線による近位線検出のための深層学習 -- HUNT4経口健康研究

AI-Dentify: Deep learning for proximal caries detection on bitewing x-ray -- HUNT4 Oral Health Study ( http://arxiv.org/abs/2310.00354v2 )

ライセンス: Link先を確認
Javier P\'erez de Frutos, Ragnhild Holden Helland, Shreya Desai, Line Cathrine Nymoen, Thomas Lang{\o}, Theodor Remman, Abhijit Sen(参考訳) 背景: デンタル・カリーズ診断では, 患者の咬合像を手作業で検査し, 目視検査を行い, 潜在的な病変を指摘し, 臨床検査を行った。 しかし、人工知能の使用、特にディープラーニングは、噛まれた画像の迅速かつ情報的な分析を提供することで、診断を助ける可能性がある。 方法: HUNT4 Oral Health Studyの13,887個の噛み付きデータセットを6つの専門家によって個別に注釈付けし、RetinaNet(ResNet50)、YOLOv5(Mサイズ)、EfficientDet(D0とD1サイズ)という3つの異なるオブジェクト検出ディープラーニングアーキテクチャをトレーニングした。 同じ6人の歯科医が共同で注釈を付けた197枚の画像のコンセンサスデータセットを用いて評価を行った。 AIモデルの性能を評価するために、5倍のクロスバリデーションスキームが用いられた。 結果: 訓練モデルでは, 歯科臨床医に対して, 平均精度, f1スコア, 偽陰性率の低下がみられた。 歯科医と比較すると、YOLOv5モデルが最も改善しており、平均精度0.647、F1スコア0.548、偽陰性率0.149が報告されている。 それぞれの指標の注釈は0.299, 0.495, 0.164であった。 結論: 深層学習モデルは, ケーリーの診断において歯科専門医を支援する可能性を示している。 しかし、その課題は、噛み付く画像に自然な人工物があるため、依然として挑戦的だ。

Background: Dental caries diagnosis requires the manual inspection of diagnostic bitewing images of the patient, followed by a visual inspection and probing of the identified dental pieces with potential lesions. Yet the use of artificial intelligence, and in particular deep-learning, has the potential to aid in the diagnosis by providing a quick and informative analysis of the bitewing images. Methods: A dataset of 13,887 bitewings from the HUNT4 Oral Health Study were annotated individually by six different experts, and used to train three different object detection deep-learning architectures: RetinaNet (ResNet50), YOLOv5 (M size), and EfficientDet (D0 and D1 sizes). A consensus dataset of 197 images, annotated jointly by the same six dentist, was used for evaluation. A five-fold cross validation scheme was used to evaluate the performance of the AI models. Results: he trained models show an increase in average precision and F1-score, and decrease of false negative rate, with respect to the dental clinicians. When compared against the dental clinicians, the YOLOv5 model shows the largest improvement, reporting 0.647 mean average precision, 0.548 mean F1-score, and 0.149 mean false negative rate. Whereas the best annotators on each of these metrics reported 0.299, 0.495, and 0.164 respectively. Conclusion: Deep-learning models have shown the potential to assist dental professionals in the diagnosis of caries. Yet, the task remains challenging due to the artifacts natural to the bitewing images.
翻訳日:2024-03-07 17:52:55 公開日:2024-03-06
# 強化学習政策の説明の生成について--実証的研究

On Generating Explanations for Reinforcement Learning Policies: An Empirical Study ( http://arxiv.org/abs/2309.16960v2 )

ライセンス: Link先を確認
Mikihisa Yuasa, Huy T. Tran, Ramavarapu S. Sreenivas(参考訳) 報酬を最大化するために状態と行動のマッピングを導く \textit{reinforcement learning}ポリシーを理解するには、人間の理解に付随する説明が必要である。 本稿では、ポリシーの説明を提供するために設計された一連の \textit{linear temporal logic} (ltl) 式と、与えられたポリシーを最もよく説明する論理式を探索するアルゴリズムを紹介する。 我々の焦点は、政策によって達成された究極の目的と、その実行中に維持される前提条件の両方を解明する説明を作ることである。 これらのLTLに基づく説明は構造化表現を特徴とし、特に局所探索技術に適している。 提案手法の有効性は,フラグを捕捉するシミュレーションゲームと自動車駐車環境によって説明される。 論文は将来の方向性で締めくくります

Understanding a \textit{reinforcement learning} policy, which guides state-to-action mappings to maximize rewards, necessitates an accompanying explanation for human comprehension. In this paper, we introduce a set of \textit{linear temporal logic} (LTL) formulae designed to provide explanations for policies, and an algorithm for searching through those formulae for the one that best explains a given policy. Our focus is on crafting explanations that elucidate both the ultimate objectives accomplished by the policy and the prerequisite conditions it upholds throughout its execution. These LTL-based explanations feature a structured representation, which is particularly well-suited for local-search techniques. The effectiveness of our proposed approach is illustrated through a simulated game of capture the flag and a car-parking environment. The paper concludes with suggested directions for future
翻訳日:2024-03-07 17:52:02 公開日:2024-03-06
# 閉ループ個別化曲線を用いた連続運転政策最適化

Continual Driving Policy Optimization with Closed-Loop Individualized Curricula ( http://arxiv.org/abs/2309.14209v3 )

ライセンス: Link先を確認
Haoyi Niu, Yizhou Xu, Xingjian Jiang, Jianming Hu(参考訳) 自動運転車(AV)の安全性は、長い尾の自然主義運転分布において稀で安全に重要なシナリオが欠如していることから、長年の最大の懸念事項となっている。 この課題に取り組むために、高リスク運転シナリオの生成と、avモデルの安全性クリティカルテストの適用に重点を置いた、シナリオベースの自動運転の研究が急増している。 しかし、avモデルを反復的に改善するためにこれらの広範なシナリオを再利用する作業は限られている。 さらに、異なる振る舞いを持つ他のAVモデルから収集された巨大なシナリオライブラリを抽出し、現在のAV改善のために転送可能な情報を抽出することが難しかった。 そこで我々は,CLIC(Crowd-Loop individualized Curricula)を特徴とする連続運転ポリシー最適化フレームワークを開発し,AV評価,シナリオ選択,AVトレーニングなど,フレキシブルな実装選択のための標準化されたサブモジュールのセットに分解する。 CLICは衝突予測タスクとしてAV評価をフレーム化し、各イテレーションでこれらのシナリオでAV障害が起こる確率を見積もる。 その後、これらの障害確率に基づいて過去のシナリオを再サンプリングすることで、CLICは下流トレーニング用に個別化されたキュキュラを調整し、AVの評価能力と整合させる。 したがって、CLICは、クローズドループ駆動ポリシー最適化のための膨大な事前コンパイルされたシナリオライブラリの利用を最大化するだけでなく、トレーニングをこれらの未整理シナリオからより困難なケースで識別することで、AV改善を促進する。 実験結果から,CLICは他のカリキュラムベースのトレーニング戦略を超越し,リスクのあるシナリオの管理が大幅に改善され,単純なケースの処理能力は維持されていることが明らかとなった。

The safety of autonomous vehicles (AV) has been a long-standing top concern, stemming from the absence of rare and safety-critical scenarios in the long-tail naturalistic driving distribution. To tackle this challenge, a surge of research in scenario-based autonomous driving has emerged, with a focus on generating high-risk driving scenarios and applying them to conduct safety-critical testing of AV models. However, limited work has been explored on the reuse of these extensive scenarios to iteratively improve AV models. Moreover, it remains intractable and challenging to filter through gigantic scenario libraries collected from other AV models with distinct behaviors, attempting to extract transferable information for current AV improvement. Therefore, we develop a continual driving policy optimization framework featuring Closed-Loop Individualized Curricula (CLIC), which we factorize into a set of standardized sub-modules for flexible implementation choices: AV Evaluation, Scenario Selection, and AV Training. CLIC frames AV Evaluation as a collision prediction task, where it estimates the chance of AV failures in these scenarios at each iteration. Subsequently, by re-sampling from historical scenarios based on these failure probabilities, CLIC tailors individualized curricula for downstream training, aligning them with the evaluated capability of AV. Accordingly, CLIC not only maximizes the utilization of the vast pre-collected scenario library for closed-loop driving policy optimization but also facilitates AV improvement by individualizing its training with more challenging cases out of those poorly organized scenarios. Experimental results clearly indicate that CLIC surpasses other curriculum-based training strategies, showing substantial improvement in managing risky scenarios, while still maintaining proficiency in handling simpler cases.
翻訳日:2024-03-07 17:51:49 公開日:2024-03-06
# 社会応用のための分布自由統計分散制御

Distribution-Free Statistical Dispersion Control for Societal Applications ( http://arxiv.org/abs/2309.13786v2 )

ライセンス: Link先を確認
Zhun Deng, Thomas P. Zollo, Jake C. Snell, Toniann Pitassi, Richard Zemel(参考訳) モデル性能に関する有限サンプル統計保証は、責任ある機械学習において重要な要素である。 以前の研究は、主に予測器の期待損失と、個々の予測が特定の範囲で損失値を引き起こす確率とのバウンダリングに重点を置いてきた。 しかし、多くの高度な応用において、損失分布の分散や、集団の異なるメンバーがアルゴリズムによる決定の不平等な影響を経験する程度を理解し制御することが重要である。 我々は,社会的な意味を持つ統計分散測度の分布自由制御の研究を開始し,よりリッチな統計汎関数の扱いを可能にする,単純で柔軟な枠組みを提案する。 本手法は, 毒性コメント検出, 医用画像, フィルムレコメンデーションの実験を通じて検証した。

Explicit finite-sample statistical guarantees on model performance are an important ingredient in responsible machine learning. Previous work has focused mainly on bounding either the expected loss of a predictor or the probability that an individual prediction will incur a loss value in a specified range. However, for many high-stakes applications, it is crucial to understand and control the dispersion of a loss distribution, or the extent to which different members of a population experience unequal effects of algorithmic decisions. We initiate the study of distribution-free control of statistical dispersion measures with societal implications and propose a simple yet flexible framework that allows us to handle a much richer class of statistical functionals beyond previous work. Our methods are verified through experiments in toxic comment detection, medical imaging, and film recommendation.
翻訳日:2024-03-07 17:51:16 公開日:2024-03-06
# ウェアラブルバイオシグナールの基礎モデルの大規模学習

Large-scale Training of Foundation Models for Wearable Biosignals ( http://arxiv.org/abs/2312.05409v2 )

ライセンス: Link先を確認
Salar Abbaspourazad, Oussama Elachqar, Andrew C. Miller, Saba Emrani, Udhyakumar Nallasamy, Ian Shapiro(参考訳) バイオシグナーの追跡は、健康の監視と重度の医療疾患の予防に不可欠である。 今日では、ウェアラブルデバイスは様々な生体信号を記録するのに便利であり、日常の習慣を乱すことなく健康状態を監視することができる。 ウェアラブルデバイスや既存のデジタルバイオマーカーが広く使用されているにもかかわらず、注釈付き医療ラベルによるキュレートされたデータがないことは、一般的な健康状態を測定するための新しいバイオマーカーの開発を妨げる。 実際、医療データセットは、他の領域と比較して通常小さく、生体信号のためのニューラルネットワークモデルを開発する上で障害となる。 この課題に対処するために,大縦型apple heart and movement study (ahms) からインフォームドコンセントで収集されたラベル付きセンサデータを用いて自己教師付き学習を行い,apple watchに記録された2つの共通生体信号であるphotoplethysmography (ppg) と心電図 (ecg) の基礎モデルを訓練した。 約3年間の約141Kの参加者のデータを含むAPGとECGデータセットをAHMSから収集した。 自己教師付き学習フレームワークには, 参加者レベルの正のペア選択, 確率的拡張モジュール, 運動量トレーニングに最適化された正規化コントラスト損失が含まれ, ppg と ecg のモダリティをよく一般化する。 事前学習された基礎モデルは,参加者の人口動態や健康状態に関する情報を容易にエンコードできることを示す。 我々の知る限り、この研究はウェアラブル・コンシューマー・デバイスを介して収集された大規模PSGおよびECGデータを用いて基礎モデルを構築する最初の研究である。 PPGとECGファウンデーションモデルは、ラベル付きデータへの依存を減らし、ユーザの健康改善を支援する可能性を秘めることで、将来のウェアラブルデバイスを強化することができると考えています。

Tracking biosignals is crucial for monitoring wellness and preempting the development of severe medical conditions. Today, wearable devices can conveniently record various biosignals, creating the opportunity to monitor health status without disruption to one's daily routine. Despite widespread use of wearable devices and existing digital biomarkers, the absence of curated data with annotated medical labels hinders the development of new biomarkers to measure common health conditions. In fact, medical datasets are usually small in comparison to other domains, which is an obstacle for developing neural network models for biosignals. To address this challenge, we have employed self-supervised learning using the unlabeled sensor data collected under informed consent from the large longitudinal Apple Heart and Movement Study (AHMS) to train foundation models for two common biosignals: photoplethysmography (PPG) and electrocardiogram (ECG) recorded on Apple Watch. We curated PPG and ECG datasets from AHMS that include data from ~141K participants spanning ~3 years. Our self-supervised learning framework includes participant level positive pair selection, stochastic augmentation module and a regularized contrastive loss optimized with momentum training, and generalizes well to both PPG and ECG modalities. We show that the pre-trained foundation models readily encode information regarding participants' demographics and health conditions. To the best of our knowledge, this is the first study that builds foundation models using large-scale PPG and ECG data collected via wearable consumer devices $\unicode{x2013}$ prior works have commonly used smaller-size datasets collected in clinical and experimental settings. We believe PPG and ECG foundation models can enhance future wearable devices by reducing the reliance on labeled data and hold the potential to help the users improve their health.
翻訳日:2024-03-07 17:46:30 公開日:2024-03-06
# Rydberg原子を用いた偏光無感波マイクロ波電気測定

Polarization-insensitive microwave electrometry using Rydberg atoms ( http://arxiv.org/abs/2312.01974v2 )

ライセンス: Link先を確認
M. Cloutman, M. Chilcott, A. Elliott, J.S. Otto, A.B. Deb, N. Kj{\ae}rgaard(参考訳) 線形偏光マイクロ波放射, 一般の$S_{1/2}\leftrightarrow{P}_{1/2}$および$S_{1/2}\leftrightarrow{P}_{3/2}$遷移に共振したリドバーグ原子のオートラー・タウンズ分割について検討した。 このスプリッティングは、電磁誘導透過測定によりレーザー光を用いてプローブされ、プローブレーザー光の透過は2ピークパターンを明らかにする。 特に、このパターンはマイクロ波電界偏光の回転の下で不変である。 その結果,最近の研究結果とは対照的に,偏光無感電測定に理想的に適する$S \leftrightarrow P$ Rydberg転移が得られた。 Chopinaud and J.D. Pritchard, Phys Rev. Appl。 $\mathbf{16}$, 024008 (2021)]

We investigate the Autler-Townes splitting for Rydberg atoms dressed with linearly polarized microwave radiation, resonant with generic $S_{1/2}\leftrightarrow{P}_{1/2}$ and $S_{1/2}\leftrightarrow{P}_{3/2}$ transitions. The splitting is probed using laser light via electromagnetically-induced transparency measurements, where the transmission of probe laser light reveals a two-peak pattern. In particular, this pattern is invariant under rotation of the microwave field polarization. In consequence, we establish $S \leftrightarrow P$ Rydberg transitions as ideally suited for polarization-insensitive electrometry, contrary to recent findings [A. Chopinaud and J.D. Pritchard, Phys. Rev. Appl. $\mathbf{16}$, 024008 (2021)].
翻訳日:2024-03-07 17:45:56 公開日:2024-03-06
# フェアマッピングによる公平なテキスト・画像拡散

Fair Text-to-Image Diffusion via Fair Mapping ( http://arxiv.org/abs/2311.17695v2 )

ライセンス: Link先を確認
Jia Li, Lijie Hu, Jingfeng Zhang, Tianhang Zheng, Hua Zhang, Di Wang(参考訳) 本稿では,人為的な記述が与えられた場合に,人口統計学的に公正な結果を生成する上で,既存のテキスト・画像拡散モデルの限界に対処する。 これらのモデルは、しばしば、ターゲット言語コンテキストを社会文化的バイアスから切り離すのに苦労し、バイアス画像生成をもたらす。 この課題を克服するため,我々は,事前学習したテキストから画像への拡散モデルを修正するフレキシブルでモデルに依存しない軽量な手法であるfair mappingを提案する。 私たちのアプローチの重要な利点は、その高い効率です。 計算コストが低ければ、パラメータ数が少ない追加の線形ネットワークを更新するだけでよい。 条件付けをデバイアス空間にマップする線形ネットワークを開発することにより,指定されたテキスト条件に基づいて,相対的にバランスの取れた人口統計結果を生成することができる。 顔画像生成に関する包括的実験により, 従来の拡散モデルと比較して, 画像品質はほぼ同じで, 画像生成の公平性を著しく向上することを示す。 暗黙的言語バイアスの問題を効果的に解決することで、より公平で多様な画像出力を生成する。

In this paper, we address the limitations of existing text-to-image diffusion models in generating demographically fair results when given human-related descriptions. These models often struggle to disentangle the target language context from sociocultural biases, resulting in biased image generation. To overcome this challenge, we propose Fair Mapping, a flexible, model-agnostic, and lightweight approach that modifies a pre-trained text-to-image diffusion model by controlling the prompt to achieve fair image generation. One key advantage of our approach is its high efficiency. It only requires updating an additional linear network with few parameters at a low computational cost. By developing a linear network that maps conditioning embeddings into a debiased space, we enable the generation of relatively balanced demographic results based on the specified text condition. With comprehensive experiments on face image generation, we show that our method significantly improves image generation fairness with almost the same image quality compared to conventional diffusion models when prompted with descriptions related to humans. By effectively addressing the issue of implicit language bias, our method produces more fair and diverse image outputs.
翻訳日:2024-03-07 17:45:38 公開日:2024-03-06
# 周波数依存ミラーを用いた散逸・分散キャビティ光学

Dissipative and dispersive cavity optomechanics with a frequency-dependent mirror ( http://arxiv.org/abs/2311.15311v2 )

ライセンス: Link先を確認
Juliette Monsel, Anastasiia Ciers, Sushanth Kini Manjeshwar, Witlef Wieczorek, Janine Splettstoesser(参考訳) 光学マイクロキャビティは、光をサブ波長ボリュームに閉じ込めることで、光と機械運動の相互作用を著しく向上させることができる。 しかし、これは光学損失率の増加のコストがかかる。 したがって、マイクロキャビティベースの光機械システムは未解決のサイドバンド方式に置かれ、サイドバンドベースの地中冷却が防止される。 このようなシステムにおける光損失を減らす経路は、キャビティミラー、すなわち機械共振器と相互作用する光モードを設計することである。 本研究では,このような光学系の解析を行い,鏡の1つは周波数依存性が強く,つまり懸濁したファノミラーである。 この光学力学系は、懸濁したファノミラーの運動と結合する2つの光学モードからなる。 我々は、標準分散光機械結合と散逸結合の両方を含む量子結合モード記述を定式化する。 線形状態におけるシステム力学のランゲヴィン方程式を解くことにより, 空洞が分解側バンド状態では無くとも, 室温から基底状態の冷却が可能であることを示すが, 強い光モード結合により有効なサイドバンド分解能を実現することができる。 さらに, キャビティ出力スペクトルは, 機械的共振器のフォノン占有率を推定するために, 効果的なレーザデチューニングに関して適切に解析する必要があることがわかった。 また, ファノミラーの特性を解析することにより, ファノ系マイクロキャビティにおける非線形量子光力学の展開を予測した。

An optomechanical microcavity can considerably enhance the interaction between light and mechanical motion by confining light to a sub-wavelength volume. However, this comes at the cost of an increased optical loss rate. Therefore, microcavity-based optomechanical systems are placed in the unresolved-sideband regime, preventing sideband-based ground-state cooling. A pathway to reduce optical loss in such systems is to engineer the cavity mirrors, i.e., the optical modes that interact with the mechanical resonator. In our work, we analyze such an optomechanical system, whereby one of the mirrors is strongly frequency-dependent, i.e., a suspended Fano mirror. This optomechanical system consists of two optical modes that couple to the motion of the suspended Fano mirror. We formulate a quantum-coupled-mode description that includes both the standard dispersive optomechanical coupling as well as dissipative coupling. We solve the Langevin equations of the system dynamics in the linear regime showing that ground-state cooling from room temperature can be achieved even if the cavity is per se not in the resolved-sideband regime, but achieves effective sideband resolution through strong optical mode coupling. Importantly, we find that the cavity output spectrum needs to be properly analyzed with respect to the effective laser detuning to infer the phonon occupation of the mechanical resonator. Our work also predicts how to reach the regime of nonlinear quantum optomechanics in a Fano-based microcavity by engineering the properties of the Fano mirror.
翻訳日:2024-03-07 17:45:21 公開日:2024-03-06
# 言語モデル演算によるテキスト生成制御

Controlled Text Generation via Language Model Arithmetic ( http://arxiv.org/abs/2311.14479v2 )

ライセンス: Link先を確認
Jasper Dekoninck, Marc Fischer, Luca Beurer-Kellner, Martin Vechev(参考訳) 大規模言語モデル(llm)がより広く展開されるにつれて、語彙、スタイル、性格に関するカスタマイズがより重要になる。 本稿では,モデル(再)学習や高度に特定されたデータセットを必要とせず,llmの構成とバイアスを行う新しい推論フレームワークであるmodel arithmeticを紹介する。 さらに、このフレームワークは、直接プロンプトや事前制御テキスト生成(ctg)技術よりも、より正確な生成テキストの制御を可能にする。 モデル算術を用いて,従来のCTG手法を簡単な公式として表現し,それらを新しいより効果的な定式化へと自然に拡張することができる。 さらに,効率的なLCMサンプリング手法である投機的サンプリングが,我々の設定にまで拡張されていることを示す。 これにより、複数の合成モデルによる高効率なテキスト生成が可能で、1つのモデルに対して限界オーバーヘッドしか持たない。 実験結果から,モデル算術によって生成テキストの細粒度制御が可能となり,毒性低減の課題において最先端を上回った。 私たちは、フレームワークのオープンソース実装をhttps://github.com/eth-sri/language-model-arithmeticでリリースします。

As Large Language Models (LLMs) are deployed more widely, customization with respect to vocabulary, style, and character becomes more important. In this work, we introduce model arithmetic, a novel inference framework for composing and biasing LLMs without the need for model (re)training or highly specific datasets. In addition, the framework allows for more precise control of generated text than direct prompting and prior controlled text generation (CTG) techniques. Using model arithmetic, we can express prior CTG techniques as simple formulas and naturally extend them to new and more effective formulations. Further, we show that speculative sampling, a technique for efficient LLM sampling, extends to our setting. This enables highly efficient text generation with multiple composed models with only marginal overhead over a single model. Our empirical evaluation demonstrates that model arithmetic allows fine-grained control of generated text while outperforming state-of-the-art on the task of toxicity reduction. We release an open source easy-to-use implementation of our framework at https://github.com/eth-sri/language-model-arithmetic.
翻訳日:2024-03-07 17:44:57 公開日:2024-03-06
# 高反射膜を用いた最適オプティメカルキャビティ構成

Optimal optomechanical cavity setups with highly reflecting membranes ( http://arxiv.org/abs/2311.13499v2 )

ライセンス: Link先を確認
Georg Enzian, Eugene S. Polzik, and Alexander K. Tagantsev(参考訳) フォトニック結晶パターンに基づく高反射性機械的適合膜は, 膜内中間層実験において高い結合率に達する可能性から, 最近, キャビティオメカニクス内での注目度が高まっている。 本稿では,高い反射率を有する膜をキャビティ・オプティマメカニクスに応用できる4つの異なるセットアップの解析と比較を行い,w.r.t.の長所協力率と効率重み付き協力率の指標について検討する。 分析は、単純なファブリーペロトキャビティと同様に、3種類の中間膜(membrane-at-edge、membrane-the-actual- middle、membrane-at-the-back)を包含する。 興味深いことに,光力学的協調性が大幅に向上し,低損失膜を実装すれば非線形光学系への道を拓くことができる,無視可能な膜寄生損失の限界の最適選択として膜・アット・ザ・バックの設定を同定し,提案する。

Highly reflecting mechanically compliant membranes based on photonic-crystal patterns have recently gained increasing attention within cavity optomechanics due to their prospects of reaching high coupling rates in membrane-in-the-middle experiments. Here we present an analysis and comparison of four different setups in which highly reflecting membranes can be employed for cavity optomechanics, and discuss optimal choices w.r.t. the figures of merit cooperativity and efficiency-weighted cooperativity. The analysis encompasses three different types of membrane-in-the-middle setups (membrane-at-the-edge, membrane-in-the-actual-middle, and membrane-at-the-back), as well as the simple Fabry-Perot cavity. Interestingly, we identify and propose the membrane-at-the-back setup as an optimal choice in the limit of negligible membrane parasitic loss, which can reach enormous enhancements of optomechanical cooperativity, and if implemented with a low-loss membrane would pave the way to nonlinear optomechanics in the quantum regime.
翻訳日:2024-03-07 17:44:39 公開日:2024-03-06
# ツリーテンソルネットワーク演算子を決定する状態ダイアグラム

State Diagrams to determine Tree Tensor Network Operators ( http://arxiv.org/abs/2311.13433v3 )

ライセンス: Link先を確認
Richard M. Milbradt, Qunsheng Huang, Christian B. Mendl(参考訳) この研究は、量子ハミルトニアンを表現するためのツリーテンソルネットワーク演算子(TTNO)に関するものである。 まず、木トポロジーと状態図を結びつける数学的枠組みを確立する。 これらに基づき、ハミルトニアンを与えられたTTNOを構成するアルゴリズムを考案する。 このアルゴリズムはハミルトニアンのテンソル積構造を利用して状態図に経路を追加し、可能であれば局所作用素を組み合わせる。 我々は、与えられた木構造に対するランダムハミルトニアンのアルゴリズムの能力をテストする。 さらに,木トポロジー上での近接相互作用に対して,TTNOを明示的に構築する。 さらに、木上の任意の相互作用を表すテンソル作用素の結合次元に有界を導出する。 最後に、ボソニック浴場と結合したハイゼンベルクスピン鎖の形で開かれた量子系を具体例として考察する。 木構造は、行列積作用素構造と比較してハミルトンテンソルネットワーク表現の結合次元を低くすることができる。 この減少は、スピン当たりの浴の数が3ドルに達するとすぐに必要なトータルテンソル要素の数を減らすのに十分である。

This work is concerned with tree tensor network operators (TTNOs) for representing quantum Hamiltonians. We first establish a mathematical framework connecting tree topologies with state diagrams. Based on these, we devise an algorithm for constructing a TTNO given a Hamiltonian. The algorithm exploits the tensor product structure of the Hamiltonian to add paths to a state diagram, while combining local operators if possible. We test the capabilities of our algorithm on random Hamiltonians for a given tree structure. Additionally, we construct explicit TTNOs for nearest neighbour interactions on a tree topology. Furthermore, we derive a bound on the bond dimension of tensor operators representing arbitrary interactions on trees. Finally, we consider an open quantum system in the form of a Heisenberg spin chain coupled to bosonic bath sites as a concrete example. We find that tree structures allow for lower bond dimensions of the Hamiltonian tensor network representation compared to a matrix product operator structure. This reduction is large enough to reduce the number of total tensor elements required as soon as the number of baths per spin reaches $3$.
翻訳日:2024-03-07 17:44:12 公開日:2024-03-06
# 時空間シフトに対する自己監督的デコンウンディング:理論とモデリング

Self-Supervised Deconfounding Against Spatio-Temporal Shifts: Theory and Modeling ( http://arxiv.org/abs/2311.12472v2 )

ライセンス: Link先を確認
Jiahao Ji, Wentao Zhang, Jingyuan Wang, Yue He and Chao Huang(参考訳) 時空間(ST)データの重要な応用として,ST交通予測は都市交通効率の向上と持続可能な開発を促進する上で重要な役割を担っている。 実際には、交通データのダイナミクスは、時間進化や空間差といった外部要因に起因する分布シフトを頻繁に行う。 これは、テストデータがトレーニングデータと異なる方法で分散されるOOD(out-of-distriion)問題を扱うための予測モデルを必要とする。 本研究では,過去の交通データ,将来の交通データ,外部STコンテキストの因果グラフを構築することにより,まず問題を定式化する。 oodトラヒックデータの先行技術が失敗した原因は、stコンテクストが共同設立者、すなわち過去のデータと将来のデータに共通する原因として作用するためである。 そこで我々は、因果レンズからDCA(Disentangled Contextual Adjustment)という理論解を提案する。 これは変種スプリアスと不変因果相関を区別し、stコンテクストの効果を解消する。 さらに,STEVE(Spatio-Temporal sElf-superVised dEconfounding)フレームワークを考案した。 まず、トラフィックデータを2つの不等角表現にエンコードし、不変および変種stコンテキストを関連付ける。 次に,3つの概念的に異なる視点(時間,空間,意味)から表されるSTコンテキストを自己教師信号として使用し,両表現に文脈情報を注入する。 このようにして、OODSTトラフィック予測に対する学習コンテキスト指向表現の一般化能力を向上させる。 4つの大規模なベンチマークデータセットに関する総合的な実験により、STEVEは様々なST OODシナリオにおける最先端のベースラインを一貫して上回ります。

As an important application of spatio-temporal (ST) data, ST traffic forecasting plays a crucial role in improving urban travel efficiency and promoting sustainable development. In practice, the dynamics of traffic data frequently undergo distributional shifts attributed to external factors such as time evolution and spatial differences. This entails forecasting models to handle the out-of-distribution (OOD) issue where test data is distributed differently from training data. In this work, we first formalize the problem by constructing a causal graph of past traffic data, future traffic data, and external ST contexts. We reveal that the failure of prior arts in OOD traffic data is due to ST contexts acting as a confounder, i.e., the common cause for past data and future ones. Then, we propose a theoretical solution named Disentangled Contextual Adjustment (DCA) from a causal lens. It differentiates invariant causal correlations against variant spurious ones and deconfounds the effect of ST contexts. On top of that, we devise a Spatio-Temporal sElf-superVised dEconfounding (STEVE) framework. It first encodes traffic data into two disentangled representations for associating invariant and variant ST contexts. Then, we use representative ST contexts from three conceptually different perspectives (i.e., temporal, spatial, and semantic) as self-supervised signals to inject context information into both representations. In this way, we improve the generalization ability of the learned context-oriented representations to OOD ST traffic forecasting. Comprehensive experiments on four large-scale benchmark datasets demonstrate that our STEVE consistently outperforms the state-of-the-art baselines across various ST OOD scenarios.
翻訳日:2024-03-07 17:43:59 公開日:2024-03-06
# 線形バンディットのためのアンサンブルサンプリング:小アンサンブルsuffice

Ensemble sampling for linear bandits: small ensembles suffice ( http://arxiv.org/abs/2311.08376v2 )

ライセンス: Link先を確認
David Janz, Alexander E. Litvak, Csaba Szepesv\'ari(参考訳) 確率線形バンディット設定のためのアンサンブルサンプリングの,最初の有用かつ厳密な解析を提供する。 特に、標準的な仮定の下では、相互作用の地平線を持つ$d$-次元確率線型バンドイットに対して、$T$, アンサンブルサンプリングは位数$\smash{d \log T}$のアンサンブルで、ほとんどの位数$\smash{(d \log T)^{5/2} \sqrt{T}}$で後悔を引き起こす。 oursは、アンサンブルのサイズを$t$(アンサンブルサンプリングの目的を損なう)で線形にスケールする必要がなく、ほぼ$\smash{\sqrt{t}}$order regretを得るような構造化された設定の最初の結果である。 oursは無限のアクションセットを可能にする最初の結果でもある。

We provide the first useful and rigorous analysis of ensemble sampling for the stochastic linear bandit setting. In particular, we show that, under standard assumptions, for a $d$-dimensional stochastic linear bandit with an interaction horizon $T$, ensemble sampling with an ensemble of size of order $\smash{d \log T}$ incurs regret at most of the order $\smash{(d \log T)^{5/2} \sqrt{T}}$. Ours is the first result in any structured setting not to require the size of the ensemble to scale linearly with $T$ -- which defeats the purpose of ensemble sampling -- while obtaining near $\smash{\sqrt{T}}$ order regret. Ours is also the first result that allows infinite action sets.
翻訳日:2024-03-07 17:43:34 公開日:2024-03-06
# 線形摂動損失最小化による探索

Exploration via linearly perturbed loss minimisation ( http://arxiv.org/abs/2311.07565v2 )

ライセンス: Link先を確認
David Janz, Shuai Liu, Alex Ayoub, Csaba Szepesv\'ari(参考訳) 本稿では,線形摂動正規化負対数様関数の最小化を解くことで機能する確率的バンディット問題のランダム化探索法である,線形損失摂動(EVILL)による探索を導入する。 一般化線形バンディットの場合、悪はランダムに摂動した報酬を訓練することで探索を行う方法であるperturbed history exploration(phe)に還元される。 そうすることで、ランダム報酬の摂動が良いバンディットアルゴリズムを生み出す理由と理由を、シンプルで簡潔に説明できます。 本研究では,従来のPHE法にはないデータ依存摂動法を提案し,理論および実際の両方において,EVILLがトンプソン・サンプル方式のパラメータ摂動法の性能と一致するようにした。 さらに, phe が不整合な推定につながり, 結果として線形後悔につながるような一般線形バンディットを外部に導入する例を示す。 PHEと同様、EVILLはほんの数行のコードで実装できる。

We introduce exploration via linear loss perturbations (EVILL), a randomised exploration method for structured stochastic bandit problems that works by solving for the minimiser of a linearly perturbed regularised negative log-likelihood function. We show that, for the case of generalised linear bandits, EVILL reduces to perturbed history exploration (PHE), a method where exploration is done by training on randomly perturbed rewards. In doing so, we provide a simple and clean explanation of when and why random reward perturbations give rise to good bandit algorithms. We propose data-dependent perturbations not present in previous PHE-type methods that allow EVILL to match the performance of Thompson-sampling-style parameter-perturbation methods, both in theory and in practice. Moreover, we show an example outside generalised linear bandits where PHE leads to inconsistent estimates, and thus linear regret, while EVILL remains performant. Like PHE, EVILL can be implemented in just a few lines of code.
翻訳日:2024-03-07 17:43:14 公開日:2024-03-06
# AdaCCD:コードクローン検出のためのクロスリンガル適応に基づく適応セマンティックコントラスト探索

AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual Adaptation for Code Clone Detection ( http://arxiv.org/abs/2311.07277v2 )

ライセンス: Link先を確認
Yangkai Du, Tengfei Ma, Lingfei Wu, Xuhong Zhang, Shouling Ji(参考訳) 大規模なコードベースから機能的に類似したプログラムを検索するコードクローン検出が注目されている。 現代のソフトウェアは、しばしば多様なプログラミング言語を含む。 しかし、現在のコードクローン検出法は、注釈付きデータやモデル設計の制約が不十分なため、一般的なプログラム言語に限られている。 これらの問題に対処するため,新しい言語でアノテーションを使わずにクローンコードを検出する新しい言語間適応法であるAdaCCDを提案する。 AdaCCDは、事前訓練されたプログラミング言語モデルから言語に依存しないコード表現を活用し、リソース豊富な言語からリソース不足言語に知識を移すための適応精製コントラスト学習フレームワークを提案する。 5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。 AdaCCDは他のベースラインよりも大幅に改善され、教師付き微調整に匹敵するパフォーマンスを実現している。

Code Clone Detection, which aims to retrieve functionally similar programs from large code bases, has been attracting increasing attention. Modern software often involves a diverse range of programming languages. However, current code clone detection methods are generally limited to only a few popular programming languages due to insufficient annotated data as well as their own model design constraints. To address these issues, we present AdaCCD, a novel cross-lingual adaptation method that can detect cloned codes in a new language without annotations in that language. AdaCCD leverages language-agnostic code representations from pre-trained programming language models and propose an Adaptively Refined Contrastive Learning framework to transfer knowledge from resource-rich languages to resource-poor languages. We evaluate the cross-lingual adaptation results of AdaCCD by constructing a multilingual code clone detection benchmark consisting of 5 programming languages. AdaCCD achieves significant improvements over other baselines, and achieve comparable performance to supervised fine-tuning.
翻訳日:2024-03-07 17:42:55 公開日:2024-03-06
# 局所短時間加速誘起スペクトル線拡大と宇宙論における可能性

Local Short-Time Acceleration induced Spectral Line Broadening and Possible Implications in Cosmology ( http://arxiv.org/abs/2311.03397v2 )

ライセンス: Link先を確認
M.J.Luo(参考訳) 本論文は,局所短時間加速度がスペクトル線にさらに拡大し,線の中心値に影響を受けないような加速度効果を提案する。 この効果はunruh効果の局所的かつ非一様一般化と見なすことができる。 加速度誘起線拡大効果は通常の実験室で測定するには小さすぎるが、宇宙のエネルギーや物質を欠くことなく、宇宙の加速と回転銀河の半径加速度差について単純かつ統一的な視点を得るための重要な概念を提供するかもしれない。 距離-赤方偏移関係を適合させることによる宇宙膨張の加速の測定は、本質的には直線あるいは赤方偏移拡大の測定であり、宇宙加速誘起直線の拡幅は、回転銀河の外側での加速差において重要な役割を果たす。 この効果の予測についても論じる。

The paper proposes an acceleration effect that a local short-time acceleration produces an additional broadening to spectral line, while the central value of the line remains unaffected. The effect can be considered as a local and non-uniform generalization of Unruh effect. Although the acceleration-induced line broadening effect is too small to be measured in ordinary lab setup, it may offer us a key concept to gain a simple and unified perspective on the cosmic acceleration and the radial acceleration discrepancy of rotation galaxies without introducing any missing energy and matter in the universe. We find that the measurement of the acceleration of the cosmic expansion by fitting the distance-redshift relation is essentially the measurement of the line or redshift broadening, and the cosmic acceleration induced line broadening also plays a crucial role in the acceleration discrepancy at the outskirt of rotating galaxies. Possible predictions of the effect are also discussed.
翻訳日:2024-03-07 17:42:38 公開日:2024-03-06
# 結合発振器からグラフニューラルネットワークへ: 倉本モデルに基づくアプローチによる過剰スムーシングの低減

From Coupled Oscillators to Graph Neural Networks: Reducing Over-smoothing via a Kuramoto Model-based Approach ( http://arxiv.org/abs/2311.03260v2 )

ライセンス: Link先を確認
Tuan Nguyen, Hirotada Honda, Takashi Sano, Vinh Nguyen, Shugo Nakamura, Tan M. Nguyen(参考訳) 本研究では,GNNのノード特徴が層数の増加とともに識別不能になる現象を緩和するために,倉本モデルを用いた連続深度グラフニューラルネットワーク(GNN)の新たなクラスである倉本グラフニューラルネットワーク(Kuramoto GNN)を提案する。 倉本モデルは非線形結合振動子の同期挙動を捉える。 結合振動子の観点からは、まず倉本モデルと基本GNNの接続を示し、続いてGNNにおける過平滑化現象を倉本モデルにおける位相同期と解釈できる。 KuramotoGNNはこのフェーズ同期を周波数同期に置き換え、ノードの特徴が互いに収束することを防ぐと同時に、システムが安定した同期状態に到達できるようにする。 本研究は,グラフ深層学習ベンチマークタスクのオーバースムース化を抑えるため,倉本GNNのベースラインGNNに対する利点と既存手法を実験的に検証する。

We propose the Kuramoto Graph Neural Network (KuramotoGNN), a novel class of continuous-depth graph neural networks (GNNs) that employs the Kuramoto model to mitigate the over-smoothing phenomenon, in which node features in GNNs become indistinguishable as the number of layers increases. The Kuramoto model captures the synchronization behavior of non-linear coupled oscillators. Under the view of coupled oscillators, we first show the connection between Kuramoto model and basic GNN and then over-smoothing phenomenon in GNNs can be interpreted as phase synchronization in Kuramoto model. The KuramotoGNN replaces this phase synchronization with frequency synchronization to prevent the node features from converging into each other while allowing the system to reach a stable synchronized state. We experimentally verify the advantages of the KuramotoGNN over the baseline GNNs and existing methods in reducing over-smoothing on various graph deep learning benchmark tasks.
翻訳日:2024-03-07 17:42:22 公開日:2024-03-06
# 生成予訓練変圧器を用いた小型二元系波形生成

Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer ( http://arxiv.org/abs/2310.20172v3 )

ライセンス: Link先を確認
Ruijun Shi, Yue Zhou, Tianyu Zhao, Zhoujian Cao, Zhixiang Ren(参考訳) 宇宙ベースの重力波(GW)検出は今後10年間で最も期待されているGW検出計画の1つであり、膨大なコンパクトなバイナリシステムを検出することを約束している。 現在,gw波形の生成と外挿については,深層学習法が広く研究されていない。 CBS-GPT(Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer)と呼ばれる解釈可能な大モデルであるTDI 2.0を提案する。 コンパクトな二元系波形について,質量ブラックホール二元系 (mbhb), 極大質量比吸気系 (emris), 銀河二元系 (gb) の波形を予測し, それぞれ99%, 91%, 99%の予測精度を得た。 CBS-GPTモデルは、複雑な機器応答と広いパラメータ範囲であっても、その隠れパラメータが波形の複雑な情報を効果的に捉えることで、顕著な一般化と解釈可能性を示す。 本研究は,GW領域における大規模モデルの可能性を示し,複雑な波形生成やギャップ補完,GW科学のためのディープラーニングモデル設計など,今後の研究への新たな機会とガイダンスを提示する。

Space-based gravitational wave (GW) detection is one of the most anticipated GW detection projects in the next decade, which promises to detect abundant compact binary systems. At present, deep learning methods have not been widely explored for GW waveform generation and extrapolation. To solve the data processing difficulty and the increasing waveform complexity caused by the detector's response and second-generation time-delay interferometry (TDI 2.0), an interpretable pre-trained large model named CBS-GPT (Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer) is proposed. For compact binary system waveforms, three models were trained to predict the waveforms of massive black hole binaries (MBHB), extreme mass-ratio inspirals (EMRIs), and galactic binaries (GB), achieving prediction accuracies of at most 99%, 91%, and 99%, respectively. The CBS-GPT model exhibits notable generalization and interpretability, with its hidden parameters effectively capturing the intricate information of waveforms, even with the complex instrument response and a wide parameter range. Our research demonstrates the potential of large models in the GW realm, opening up new opportunities and guidance for future researches such as complex waveforms generation, gap completion, and deep learning model design for GW science.
翻訳日:2024-03-07 17:41:38 公開日:2024-03-06
# LOCOST:長期文書要約のための状態空間モデル

LOCOST: State-Space Models for Long Document Abstractive Summarization ( http://arxiv.org/abs/2401.17919v2 )

ライセンス: Link先を確認
Florian Le Bronnec, Song Duong, Mathieu Ravaut, Alexandre Allauzen, Nancy F. Chen, Vincent Guigue, Alberto Lumbreras, Laure Soulier, Patrick Gallinari(参考訳) 状態空間モデルは、長いシーケンスをエンコードし、長期的な依存関係をキャプチャするトランスフォーマーに代わる低複雑さである。 長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。 計算複雑性が$O(L \log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。 我々は,一連の長い文書要約タスクでモデルを評価する。 このモデルは、トレーニング中に最大50%のメモリを節約し、推論時に最大87%のメモリを節約しながら、同じサイズのトップパフォーマンスのスパーストランスフォーマに匹敵する93-96%のパフォーマンスレベルに達する。 さらにlocostは、推論時に600万トークンを超える入力テキストを効果的に処理し、フルブック要約で最新結果を設定し、長い入力処理のための新しい視点を開く。

State-space models are a low-complexity alternative to transformers for encoding long sequences and capturing long-term dependencies. We propose LOCOST: an encoder-decoder architecture based on state-space models for conditional text generation with long context inputs. With a computational complexity of $O(L \log L)$, this architecture can handle significantly longer sequences than state-of-the-art models that are based on sparse attention patterns. We evaluate our model on a series of long document abstractive summarization tasks. The model reaches a performance level that is 93-96% comparable to the top-performing sparse transformers of the same size while saving up to 50% memory during training and up to 87% during inference. Additionally, LOCOST effectively handles input texts exceeding 600K tokens at inference time, setting new state-of-the-art results on full-book summarization and opening new perspectives for long input processing.
翻訳日:2024-03-07 17:36:42 公開日:2024-03-06
# MedLM:医療質問応答システムのための言語モデルの検討

MedLM: Exploring Language Models for Medical Question Answering Systems ( http://arxiv.org/abs/2401.11389v2 )

ライセンス: Link先を確認
Niraj Yagnik, Jay Jhaveri, Vivek Sharma, Gabriel Pila(参考訳) オンライン医療文献が急速に拡大する中で、情報収集と要約のための自動化システムが、医療専門家や患者にとってますます重要になっている。 高度な生成能力を持つ大規模言語モデル(llm)は、様々なnlpタスクにおいて有望であり、医療領域、特にクローズドブック生成qnaにおいてその潜在性は重要である。 しかしながら、メディカルq&aのようなドメイン固有のタスクにおけるこれらのモデルのパフォーマンスはほとんど未定である。 本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することで,このギャップを埋めることである。 本研究の目的は、細調整ドメイン固有のLMの有効性を評価し、異なる言語モデル群の性能を比較することである。 本研究は,これらのモデルの信頼性,比較性能,有効性について,医学的q&aの文脈で重要な疑問を提起する。 この発見は、医療分野の特定の用途に異なるlmsの適合性に関する貴重な洞察を提供するだろう。

In the face of rapidly expanding online medical literature, automated systems for aggregating and summarizing information are becoming increasingly crucial for healthcare professionals and patients. Large Language Models (LLMs), with their advanced generative capabilities, have shown promise in various NLP tasks, and their potential in the healthcare domain, particularly for Closed-Book Generative QnA, is significant. However, the performance of these models in domain-specific tasks such as medical Q&A remains largely unexplored. This study aims to fill this gap by comparing the performance of general and medical-specific distilled LMs for medical Q&A. We aim to evaluate the effectiveness of fine-tuning domain-specific LMs and compare the performance of different families of Language Models. The study will address critical questions about these models' reliability, comparative performance, and effectiveness in the context of medical Q&A. The findings will provide valuable insights into the suitability of different LMs for specific applications in the medical domain.
翻訳日:2024-03-07 17:35:58 公開日:2024-03-06
# Q&Aプロンプト:様々な世界知識を必要とするVQAに対する質問応答プロンプトのマイニングを通して、リッチなビジュアルクルーを発見する

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge ( http://arxiv.org/abs/2401.10712v2 )

ライセンス: Link先を確認
Haibi Wang, Weifeng Ge(参考訳) マルチモーダルな大規模言語モデルのブレークスルーによって、高度な推論能力と世界知識を要求する複雑な視覚的疑問に答えることが、AIモデルを開発する上でこれまで以上に重要なテストベッドになっている。 しかし、人間の認知スキームが体系的に理解されていないため、堅牢な相互モダリティ推論能力を持つAIモデルを装備することは依然として困難である。 本稿では,与えられた画像の視覚的手がかりをできるだけ集めることができれば,画像をより正確に認識し,質問をよりよく理解し,関連する知識をより簡単に思い出し,最終的に答えを推論できると考えている。 画像中の質問応答ペアをマイニングし,複数のモーダルな大言語モデルにプロンプトとして送ることで,これらのリッチな視覚的手がかりを発見する。 提案手法をQ&A Promptsと呼ぶ。 具体的には、まず、視覚的質問生成モデルの入力と出力として、トレーニングセットのイメージ・アンサー・ペアと対応する質問を使用する。 そして,画像タグモデルを用いて,様々なインスタンスを識別し,パッケージ化された画像タグペアを視覚質問生成モデルに送信し,抽出した画像タグと関連する質問を回答として生成する。 最後に、これらの生成した問合せペアを視覚認識プロンプトモジュールでプロンプトとしてエンコードし、学習済みのマルチモーダルな大言語モデルに送信し、最終的な答えを推論する。 実験結果から,我々のQ&A Promptsは最先端の手法と比較して,OK-VQAやA-OKVQAといった多種多様な世界知識の推論を必要とするデータセットに対する挑戦的な視覚的質問応答の精度向上を実現していることがわかった。

With the breakthrough of multi-modal large language models, answering complex visual questions that demand advanced reasoning abilities and world knowledge has become a much more important testbed for developing AI models than ever. However, equipping AI models with robust cross-modality reasoning ability remains challenging since the cognition scheme of humans has not been understood systematically. In this paper, we believe that if we can collect visual clues in the given image as much as possible, we will recognize the image more accurately, understand the question better, recall relevant knowledge more easily, and finally reason out the answer. We discover these rich visual clues by mining question-answer pairs in images and sending them into multi-modal large language models as prompts. We call the proposed method Q&A Prompts. Specifically, we first use the image-answer pairs and the corresponding questions in the training set as inputs and outputs to train a visual question generation model. Then, we use an image tagging model to identify various instances and send packaged image-tag pairs into the visual question generation model to generate relevant questions with the extracted image tags as answers. Finally, we encode these generated question-answer pairs as prompts with a visual-aware prompting module and send them into pre-trained multi-modal large language models to reason out the final answers. Experimental results show that, compared with state-of-the-art methods, our Q&A Prompts achieves substantial improvements on the challenging visual question answering datasets requiring reasoning over diverse world knowledge, such as OK-VQA and A-OKVQA.
翻訳日:2024-03-07 17:35:44 公開日:2024-03-06
# SceneVerse: 現場理解のための3次元視覚言語学習

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding ( http://arxiv.org/abs/2401.09340v2 )

ライセンス: Link先を確認
Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang(参考訳) 3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。 2dドメインの最近の進歩と比較すると、3dシーンの接地言語にはいくつかの大きな課題がある。 (i)多彩な物体構成、その豊かな属性、複雑な関係による3Dシーンの本質的な複雑さ。 (ii)地中学習を支援する3次元視覚言語データの不足 (iii)接地3dデータから知識を蒸留する統一学習フレームワークが存在しないこと。 本研究では,屋内環境における3次元視覚言語学習の体系的アップスケールの可能性を検討することで,これら3つの課題に対処することを目的とする。 約68Kの屋内シーンを包含し、人間のアノテーションとスケーラブルなシーングラフベースの生成アプローチの両方から2.5Mの視覚言語ペアから構成される。 このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワークであるGrounded Pre-training for Scenes(GPS)が実現可能であることを実証する。 広範にわたる実験を通じて,既存の3次元視覚的グラウンドのベンチマークに対して,最先端の性能を達成し,GPSの有効性を示す。 SceneVerseとGPSの膨大なポテンシャルは、難易度の高い3D視覚言語タスクにおけるゼロショット転送実験を通じて明らかにされている。 プロジェクトウェブサイト: https://scene-verse.github.io

3D vision-language grounding, which focuses on aligning language with the 3D physical environment, stands as a cornerstone in the development of embodied agents. In comparison to recent advancements in the 2D domain, grounding language in 3D scenes faces several significant challenges: (i) the inherent complexity of 3D scenes due to the diverse object configurations, their rich attributes, and intricate relationships; (ii) the scarcity of paired 3D vision-language data to support grounded learning; and (iii) the absence of a unified learning framework to distill knowledge from grounded 3D data. In this work, we aim to address these three major challenges in 3D vision-language by examining the potential of systematically upscaling 3D vision-language learning in indoor environments. We introduce the first million-scale 3D vision-language dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising 2.5M vision-language pairs derived from both human annotations and our scalable scene-graph-based generation approach. We demonstrate that this scaling allows for a unified pre-training framework, Grounded Pre-training for Scenes (GPS), for 3D vision-language learning. Through extensive experiments, we showcase the effectiveness of GPS by achieving state-of-the-art performance on all existing 3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is unveiled through zero-shot transfer experiments in the challenging 3D vision-language tasks. Project website: https://scene-verse.github.io.
翻訳日:2024-03-07 17:35:11 公開日:2024-03-06
# 完全準同型暗号

Exact Homomorphic Encryption ( http://arxiv.org/abs/2401.09027v2 )

ライセンス: Link先を確認
Zheng-Yao Su and Ming-Chung Tsai(参考訳) 本稿では, フォールトトレランス量子計算の概念に着想を得て, 事前復号化を必要とせずに, 暗号化データの正確な計算を可能にする, Exact Homomorphic Encryption, EHEというフレームワークを提案する。 quantum gatesの導入は、メッセージ暗号化とフレームワーク内の計算暗号化を構築するための重要なステップである。 重要な点は、両暗号化はそれぞれ量子ゲートによって生成される多変量多項式集合で達成されるということである。 量子ゲートの2つの基本的な特徴は、可逆性と非可換性であり、EHEの成功を確立することである。 暗号化計算は、その暗号化変換が可逆ゲートで実行されるため、正確である。 同じ方法では、暗号化メッセージと暗号化計算の両方の復号が正確である。 応用量子ゲート間の非可換性の第二の特徴は、2つの暗号化のセキュリティをもたらす。 メッセージ暗号化に向けて、非交換ゲートの積がランダムに選択した多項式セットを介して、平文を暗号文に符号化する。 計算暗号化では、所望の演算を非可換ゲートの別の積によって生成された暗号化多項式セットに符号化する。 暗号化された計算は暗号文上の暗号化された多項式集合の評価であり、暗号評価と呼ばれる。 eheは量子コンピュータだけでなく、従来のコンピューティング環境でも簡単に実現できます。 量子レジリエンスの標準的なセキュリティ2^128を越えると、暗号は提案されたしきい値2^1024以上のセキュリティに達し、超量子レジリエントとして特徴づけられる。 量子ゲートの2つの本質的な特徴により、この枠組みは非可換暗号の概念の最初の有形な表現と見なすことができる。

Inspired by the concept of fault tolerance quantum computation, this article proposes a framework dubbed Exact Homomorphic Encryption, EHE, enabling exact computations on encrypted data without the need for pre-decryption. The introduction of quantum gates is a critical step for constructing the message encryption and the computation encryption within the framework. Of significance is that both encryptions are respectively accomplished in a multivariate polynomial set generated by quantum gates. Two fundamental traits of quantum gates the invertibility and the noncommutativity, establish the success of EHE. The encrypted computation is exact because its encryption transformation is conducted with invertible gates. In the same vein, decryptions for both an encrypted message and encrypted computation are exact. The second trait of noncommutativity among applied quantum gates brings forth the security for the two encryptions. Toward the message encryption, a plaintext is encoded into a ciphertext via a polynomial set generated by a product of noncommuting gates randomly chosen. In the computation encryption, a desired operation is encoded into an encrypted polynomial set generated by another product of noncommuting gates. The encrypted computation is then the evaluation of the encrypted polynomial set on the ciphertext and is referred to as the cryptovaluation. EHE is not only attainable on quantum computers, but also straightforwardly realizable on traditional computing environments. Surpassing the standard security 2^128 of quantum resilience, both the encryptions further reach a security greater than the suggested threshold 2^1024 and are characterized as hyper quantum-resilient. Thanks to the two essential traits of quantum gates, this framework can be regarded as the initial tangible manifestation of the concept noncommutative cryptography.
翻訳日:2024-03-07 17:34:46 公開日:2024-03-06
# AIブラックボックス問題に対する説明可能なAIソリューション

Explicitly explainable AI solution to the AI black box problem ( http://arxiv.org/abs/2401.03093v2 )

ライセンス: Link先を確認
V. L. Kalmykov, L.V. Kalmykov(参考訳) ニューラルネットワークに基づく人工知能は大きな進歩を遂げた。 しかし、透明性の欠如により、このアプローチの信頼性とセキュリティが懸念されている。 これはAIのブラックボックスの問題です。 ここでは、透明な白い箱の性質を持つシンボリックAIを用いて、この問題をどのように解決できるかを示す。 シンボリックaiの広範な使用は、数学的モデルと自然言語用語の不透明さ、統一オントロジーの欠如、検索オプションの組合せ爆発によって妨げられている。 そこで我々は,AIブラックボックス問題の解決と汎用的記号型AIの実現を目的として,関連する領域の一般理論の第一原理に基づくルール付き決定論的論理セルオートマトンを提案する。 この場合、関連する領域の一般理論は、セルオートマトン推論の知識基盤としての役割を担っている。 セルオートマトンは複雑なシステムの3つのレベルで自動並列論理推論を実行する。 いくつかの生態仮説の検証は、ホワイトボックスAIの実装における成功例となる。 最後に、知識を処理し、自動決定の信頼性と安全性を確保する汎用のシンボルAIを作成するプログラムについて論じる。

Artificial intelligence based on neural networks has made significant progress. However, there are concerns about the reliability and security of this approach due to its lack of transparency. This is the black box problem of AI. Here we show how this problem can be solved using symbolic AI, which has a transparent white box nature. The widespread use of symbolic AI is hindered by the opacity of mathematical models and natural language terms, the lack of a unified ontology, and the combinatorial explosion of search options. To solve the AI black box problem and to implement general-purpose symbolic AI, we propose to use deterministic logic cellular automata with rules based on first principles of the general theory of the relevant domain. In this case, the general theory of the relevant domain plays the role of a knowledge base for the cellular automaton inference. A cellular automaton implements automatic parallel logical inference at three levels of organization of a complex system. Our verification of several ecological hypotheses provides a successful precedent for the implementation of white-box AI. Finally, we discuss a program for creating a general-purpose symbolic AI capable of processing knowledge and ensuring the reliability and safety of automated decisions.
翻訳日:2024-03-07 17:33:20 公開日:2024-03-06
# 大規模言語モデルにおける間接的プロンプトインジェクション攻撃のベンチマークと防御

Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models ( http://arxiv.org/abs/2312.14197v2 )

ライセンス: Link先を確認
Jingwei Yi, Yueqi Xie, Bin Zhu, Emre Kiciman, Guangzhong Sun, Xing Xie, Fangzhao Wu(参考訳) 大規模言語モデル(LLM)と外部コンテンツの統合により、Microsoft CopilotのようなLLMのより最新かつ広範囲な応用が可能になった。 しかし、この統合により、攻撃者が外部コンテンツに悪意のある命令を埋め込み、llm出力を妥協し、ユーザの期待から外れる応答を発生させる、間接的なプロンプトインジェクション攻撃のリスクもllmに晒されている。 そこで本研究では,このような攻撃のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入する。 この評価に基づいて,本研究は,攻撃が成功した理由,すなわち命令と外部内容の区別をllmができないこと,および外部コンテンツ内で命令を実行しないことに対するllmsの意識の欠如について,重要な分析を行った。 この分析に基づいて, 素早い学習に基づく2つのブラックボックス法と, 逆学習を伴う微調整に基づくホワイトボックス防御法を開発した。 実験の結果,ブラックボックス防御はこれらの攻撃を軽減し,ホワイトボックス防御は攻撃成功率をほぼゼロレベルに低下させることがわかった。 全体として,本研究は,ベンチマーク導入による間接的インジェクション攻撃を体系的に検討し,攻撃成功の根本原因を分析し,初期防御装置の開発を行った。

The integration of large language models (LLMs) with external content has enabled more up-to-date and wide-ranging applications of LLMs, such as Microsoft Copilot. However, this integration has also exposed LLMs to the risk of indirect prompt injection attacks, where an attacker can embed malicious instructions within external content, compromising LLM output and causing responses to deviate from user expectations. To investigate this important but underexplored issue, we introduce the first benchmark for indirect prompt injection attacks, named BIPIA, to evaluate the risk of such attacks. Based on the evaluation, our work makes a key analysis of the underlying reason for the success of the attack, namely the inability of LLMs to distinguish between instructions and external content and the absence of LLMs' awareness to not execute instructions within external content. Building upon this analysis, we develop two black-box methods based on prompt learning and a white-box defense method based on fine-tuning with adversarial training accordingly. Experimental results demonstrate that black-box defenses are highly effective in mitigating these attacks, while the white-box defense reduces the attack success rate to near-zero levels. Overall, our work systematically investigates indirect prompt injection attacks by introducing a benchmark, analyzing the underlying reason for the success of the attack, and developing an initial set of defenses.
翻訳日:2024-03-07 17:32:44 公開日:2024-03-06
# パラメータ化射影ベルマン演算子

Parameterized Projected Bellman Operator ( http://arxiv.org/abs/2312.12869v3 )

ライセンス: Link先を確認
Th\'eo Vincent, Alberto Maria Metelli, Boris Belousov, Jan Peters, Marcello Restelli and Carlo D'Eramo(参考訳) 近似値反復 (avi) は、最適値関数の近似を得ることを目的とした強化学習(rl)のためのアルゴリズム群である。 一般に、AVIアルゴリズムは各ステップが構成される反復手順を実装している。 (i)ベルマン作用素の応用と (ii)考慮された函数空間への射影ステップ。 ベルマン作用素はその挙動を強く決定する遷移サンプルを利用しており、非形式的なサンプルは無視できない更新や長いデトゥールを生じさせ、その有害な効果は計算的に集中的なプロジェクションステップによってさらに悪化する。 そこで本研究では, avi法のようにサンプルから推定するのではなく, ベルマン作用素の近似バージョンを学習することに基づく新しい代替手法を提案する。 このようにして、私たちは (i)遷移サンプルを一般化し、 (ii)計算集約的な投影ステップを避ける。 このため、我々は新しい作用素をベルマン作用素 (PBO) と呼ぶ。 汎用的な逐次意思決定問題に対するpbo学習のための最適化問題を定式化し,その性質をrl問題の2つの代表的なクラスで理論的に解析する。 さらに,このアプローチをaviのレンズで理論的に検討し,ニューラルネットワークのパラメータ化を利用してオフラインおよびオンライン環境でpboを学習するアルゴリズムの実装を考案する。 最後に、いくつかのRL問題に対する正規ベルマン作用素 PBO w.r.t. の利点を実証的に示す。

Approximate value iteration (AVI) is a family of algorithms for reinforcement learning (RL) that aims to obtain an approximation of the optimal value function. Generally, AVI algorithms implement an iterated procedure where each step consists of (i) an application of the Bellman operator and (ii) a projection step into a considered function space. Notoriously, the Bellman operator leverages transition samples, which strongly determine its behavior, as uninformative samples can result in negligible updates or long detours, whose detrimental effects are further exacerbated by the computationally intensive projection step. To address these issues, we propose a novel alternative approach based on learning an approximate version of the Bellman operator rather than estimating it through samples as in AVI approaches. This way, we are able to (i) generalize across transition samples and (ii) avoid the computationally intensive projection step. For this reason, we call our novel operator projected Bellman operator (PBO). We formulate an optimization problem to learn PBO for generic sequential decision-making problems, and we theoretically analyze its properties in two representative classes of RL problems. Furthermore, we theoretically study our approach under the lens of AVI and devise algorithmic implementations to learn PBO in offline and online settings by leveraging neural network parameterizations. Finally, we empirically showcase the benefits of PBO w.r.t. the regular Bellman operator on several RL problems.
翻訳日:2024-03-07 17:32:18 公開日:2024-03-06
# 非負行列のハフニアンのランダム化推定子について

On randomized estimators of the Hafnian of a nonnegative matrix ( http://arxiv.org/abs/2312.10143v2 )

ライセンス: Link先を確認
Alexey Uvarov, Dmitry Vinichenko(参考訳) ガウス・ボソン・サンプラーは古典的に難しいと信じられているサンプリングタスクを実行することで量子的優位性を示すことを目指している。 サンプリング実験における個々の結果の確率は、適切に構築された対称行列のハフニアンによって決定される。 非負行列に対しては、特定のランダム行列を生成し、その行列式を計算することに基づいて、ハフニアンのランダム化推定器の族が存在する。 これらの推定値は偏りがない(行列式の平均は関心のハフニアンに等しい)が、それらの分散は効率的な推定を防止できるほど高い可能性がある。 ここでは,barvinok と godsil-gutman の2つの推定器の性能について検討する。 一般に,両推定器は乱数グラフの隣接行列に対してよく機能し,問題の大きさによるばらつきが緩やかに増大することを示す。 それでも、両方の推定器が高いばらつきを示し、指数的なサンプル数を必要とする単純な例がある。 さらに,完全グラフに対する分散の漸近的挙動を計算する。 最後に,Godsil-Gutman 推定器を用いてガウスボソンサンプリングをシミュレートし,この手法が低次相関関数を再現可能であることを示す。

Gaussian Boson Samplers aim to demonstrate quantum advantage by performing a sampling task believed to be classically hard. The probabilities of individual outcomes in the sampling experiment are determined by the Hafnian of an appropriately constructed symmetric matrix. For nonnegative matrices, there is a family of randomized estimators of the Hafnian based on generating a particular random matrix and calculating its determinant. While these estimators are unbiased (the mean of the determinant is equal to the Hafnian of interest), their variance may be so high as to prevent an efficient estimation. Here we investigate the performance of two such estimators, which we call the Barvinok and Godsil-Gutman estimators. We find that in general both estimators perform well for adjacency matrices of random graphs, demonstrating a slow growth of variance with the size of the problem. Nonetheless, there are simple examples where both estimators show high variance, requiring an exponential number of samples. In addition, we calculate the asymptotic behavior of the variance for the complete graph. Finally, we simulate the Gaussian Boson Sampling using the Godsil-Gutman estimator and show that this technique can successfully reproduce low-order correlation functions.
翻訳日:2024-03-07 17:31:27 公開日:2024-03-06
# 変分量子アルゴリズムに基づく新しい画像分類フレームワーク

A Novel Image Classification Framework Based on Variational Quantum Algorithms ( http://arxiv.org/abs/2312.07932v2 )

ライセンス: Link先を確認
Yixiong Chen(参考訳) 画像分類は、広く応用される機械学習において重要なタスクである。 既存の画像分類のための古典的なフレームワークは、通常、ネットワークの終端にあるグローバルプール操作を利用して計算複雑性を減らし、オーバーフィッティングを軽減する。 しかし,この操作によって情報量が著しく減少し,分類モデルの性能に影響を及ぼすことがある。 この制限を克服するために、量子機械学習における量子と古典コンピューティングのパラダイムを組み合わせた変分量子アルゴリズム(VQA)-ハイブリッドアプローチを利用する新しい画像分類フレームワークを導入する。 我々のフレームワークの大きな利点は、ネットワークの終端におけるグローバルプール操作の必要性を取り除くことである。 このようにして、画像のより識別的な特徴やきめ細かい詳細を保存し、分類性能を向上させる。 さらに、VQAを使用することで、グローバルプールがない場合でも、従来のフレームワークよりもパラメータが少なくなり、オーバーフィッティングの防止がより有利になります。 提案手法を様々な最先端画像分類モデルに適用し,提案した量子アーキテクチャが従来のものよりも優れていることを示す。 提案する量子フレームワークは,従来のフレームワークと比較して精度が9.21%向上し,f1スコアが15.79%向上した。

Image classification is a crucial task in machine learning with widespread practical applications. The existing classical framework for image classification typically utilizes a global pooling operation at the end of the network to reduce computational complexity and mitigate overfitting. However, this operation often results in a significant loss of information, which can affect the performance of classification models. To overcome this limitation, we introduce a novel image classification framework that leverages variational quantum algorithms (VQAs)-hybrid approaches combining quantum and classical computing paradigms within quantum machine learning. The major advantage of our framework is the elimination of the need for the global pooling operation at the end of the network. In this way, our approach preserves more discriminative features and fine-grained details in the images, which enhances classification performance. Additionally, employing VQAs enables our framework to have fewer parameters than the classical framework, even in the absence of global pooling, which makes it more advantageous in preventing overfitting. We apply our method to different state-of-the-art image classification models and demonstrate the superiority of the proposed quantum architecture over its classical counterpart through a series of experiments on public datasets. Our experiments show that the proposed quantum framework achieves up to a 9.21% increase in accuracy and up to a 15.79% improvement in F1 score, compared to the classical framework.
翻訳日:2024-03-07 17:31:06 公開日:2024-03-06
# Pfeed: 埋め込み類似性を利用したリアルタイムに近いパーソナライズフィードの生成

Pfeed: Generating near real-time personalized feeds using precomputed embedding similarities ( http://arxiv.org/abs/2402.16073v2 )

ライセンス: Link先を確認
Binyam Gebre, Karoliina Ranta, Stef van den Elzen, Ernst Kuiper, Thijs Baars, Tom Heskes(参考訳) パーソナライズされたレコメンデーションシステムでは、顧客のアクションやアイテムをエンコードするために埋め込みがよく使われ、近くの検索を用いて埋め込み空間で検索が行われる。 しかし、このアプローチは2つの課題をもたらす可能性がある。 1) ユーザ埋め込みは、取得した興味の多様性を制限でき、かつ、 2) 最新の状態を維持するためには,高価なリアルタイムインフラストラクチャが必要となる。 本稿では,これらの課題を実践的,産業的に克服する手法を提案する。 この方法は、顧客のプロファイルを動的に更新し、2分ごとにフィードを構成する。 オランダとベルギーで最大規模のeコマースプラットフォームであるBolで、プロモーションアイテムをパーソナライズするために、この方法を試行した。 この方法で顧客のエンゲージメントとエクスペリエンスが向上し、コンバージョンが4.9%向上した。

In personalized recommender systems, embeddings are often used to encode customer actions and items, and retrieval is then performed in the embedding space using approximate nearest neighbor search. However, this approach can lead to two challenges: 1) user embeddings can restrict the diversity of interests captured and 2) the need to keep them up-to-date requires an expensive, real-time infrastructure. In this paper, we propose a method that overcomes these challenges in a practical, industrial setting. The method dynamically updates customer profiles and composes a feed every two minutes, employing precomputed embeddings and their respective similarities. We tested and deployed this method to personalise promotional items at Bol, one of the largest e-commerce platforms of the Netherlands and Belgium. The method enhanced customer engagement and experience, leading to a significant 4.9% uplift in conversions.
翻訳日:2024-03-07 17:28:13 公開日:2024-03-06
# GraphWiz: グラフ問題に対する命令追従型言語モデル

GraphWiz: An Instruction-Following Language Model for Graph Problems ( http://arxiv.org/abs/2402.16029v2 )

ライセンス: Link先を確認
Nuo Chen, Yuhan Li, Jianheng Tang, Jia Li(参考訳) 大規模言語モデル(llm)は、いくつかの分野で素晴らしい成功を収めてきたが、複雑なグラフ問題を理解し解決する能力は、あまり研究されていない。 このギャップを埋めるために、言語モデルに明確な推論経路を用いて幅広いグラフ問題に取り組む能力を持たせるために設計された、新しく包括的な命令チューニングデータセットであるGraphInstructを導入する。 GraphInstructを利用することで、明確な推論プロセスを生成しながら、さまざまなグラフ問題タイプを解決可能な、オープンソースの言語モデルであるGraphWizを構築します。 モデルの能力と信頼性を高めるため、dpo(direct preference optimization)フレームワークをグラフ問題解決コンテキストに組み込んだ。 拡張モデルであるGraphWiz-DPOは、9つのタスクで平均65%の精度を達成し、GPT-4を平均43.8%上回っている。 さらに,本研究では,トレーニングデータ量とモデル性能の微妙なバランスに着目し,データ量の増加に伴うオーバーフィットの可能性を強調した。 また,様々なグラフタスクにおけるモデルの推論能力の伝達可能性についても検討し,モデルの適応性と実用的応用可能性を示す。 我々の調査は、グラフ推論と問題解決に特化したLSMを開発する上で、新しい青写真と貴重な洞察を提供する。

Large language models (LLMs) have achieved impressive success across several fields, but their proficiency in understanding and resolving complex graph problems is less explored. To bridge this gap, we introduce GraphInstruct, a novel and comprehensive instruction-tuning dataset designed to equip language models with the ability to tackle a broad spectrum of graph problems using explicit reasoning paths. Utilizing GraphInstruct, we build GraphWiz, an open-source language model capable of resolving various graph problem types while generating clear reasoning processes. To enhance the model's capability and reliability, we incorporate the Direct Preference Optimization (DPO) framework into the graph problem-solving context. The enhanced model, GraphWiz-DPO, achieves an average accuracy of 65% across nine tasks with different complexity levels, surpassing GPT-4 which has an average accuracy of 43.8%. Moreover, our research delves into the delicate balance between training data volume and model performance, highlighting the potential for overfitting with increased data. We also explore the transferability of the model's reasoning ability across different graph tasks, indicating the model's adaptability and practical application potential. Our investigation offers a new blueprint and valuable insights for developing LLMs specialized in graph reasoning and problem-solving.
翻訳日:2024-03-07 17:27:48 公開日:2024-03-06
# noise-bert: ノイズアライメントを事前学習した統一摂動ロバストフレームワーク

Noise-BERT: A Unified Perturbation-Robust Framework with Noise Alignment Pre-training for Noisy Slot Filling Task ( http://arxiv.org/abs/2402.14494v3 )

ライセンス: Link先を確認
Jinxu Zhao, Guanting Dong, Yueyan Qiu, Tingfeng Hui, Xiaoshuai Song, Daichi Guo, Weiran Xu(参考訳) 現実的な対話システムでは、ユーザからの入力情報は様々な種類の入力摂動を受けており、スロット充足作業に影響を及ぼす。 規則に基づくデータ拡張手法は良好な結果を得たが、未知のノイズ障害に直面した場合、望ましい一般化を示すことができない。 本研究では,ノイズアライメント事前学習と統合型摂動ロバストフレームワークであるNoss-BERTを提案することで,スロット充填における入力摂動による課題に対処する。 提案手法は,スロットマスキング予測と文不明瞭性判定の2つの事前学習タスクを組み込んで,正確なスロット情報と雑音分布を捉えた事前学習言語モデルを導出することを目的としている。 微調整の間、我々はエンティティとラベルの意味表現を強化するために対照的な学習損失を用いる。 さらに,モデルのロバスト性を改善するために,敵対的攻撃訓練戦略を導入する。 実験結果から,提案手法が最先端モデルよりも優れていることを示し,その効果と一般化能力のさらなる分析を行った。

In a realistic dialogue system, the input information from users is often subject to various types of input perturbations, which affects the slot-filling task. Although rule-based data augmentation methods have achieved satisfactory results, they fail to exhibit the desired generalization when faced with unknown noise disturbances. In this study, we address the challenges posed by input perturbations in slot filling by proposing Noise-BERT, a unified Perturbation-Robust Framework with Noise Alignment Pre-training. Our framework incorporates two Noise Alignment Pre-training tasks: Slot Masked Prediction and Sentence Noisiness Discrimination, aiming to guide the pre-trained language model in capturing accurate slot information and noise distribution. During fine-tuning, we employ a contrastive learning loss to enhance the semantic representation of entities and labels. Additionally, we introduce an adversarial attack training strategy to improve the model's robustness. Experimental results demonstrate the superiority of our proposed approach over state-of-the-art models, and further analysis confirms its effectiveness and generalization ability.
翻訳日:2024-03-07 17:26:27 公開日:2024-03-06
# $Se^2$: In-Context Learningのための逐次例選択

$Se^2$: Sequential Example Selection for In-Context Learning ( http://arxiv.org/abs/2402.13874v2 )

ライセンス: Link先を確認
Haoyu Liu, Jianfeng Liu, Shaohan Huang, Yuefeng Zhan, Hao Sun, Weiwei Deng, Furu Wei, Qi Zhang(参考訳) インコンテキスト学習(ICL)のための大規模言語モデル(LLM)の顕著な能力は、実演例によって活性化される必要がある。 以前の研究はICLの例の選択を幅広く検討しており、主に「選択して整理する」パラダイムに従っており、そのようなアプローチは例間の内部的関係を無視し、トレーニングと推論の間に矛盾が存在することが多い。 本稿では,この問題を$\textit{se}$quential $\textit{se}$lection問題として定式化し,様々な文脈でllmのフィードバックを活用し,例間の相互関係や逐次情報を取り込み,iclプロンプトの文脈性と妥当性を著しく高める逐次的手法である$se^2$を導入する。 一方,ビーム探索を用いてサンプル配列の探索と構築を行い,品質と多様性の両立を図る。 8つのカテゴリから23のnlpタスクにわたる広範囲な実験は、$se^2$が競合ベースラインを著しく上回り、ランダム選択よりも42%の相対的な改善を達成していることを示している。 さらに詳細な分析を行い、様々なシナリオにわたる$se^2$の例外的な安定性と適応性を強調しながら、提案された戦略の有効性を示す。 私たちのコードは将来の研究を促進するためにリリースされます。

The remarkable capability of large language models (LLMs) for in-context learning (ICL) needs to be activated by demonstration examples. Prior work has extensively explored the selection of examples for ICL, predominantly following the "select then organize" paradigm, such approaches often neglect the internal relationships between examples and exist an inconsistency between the training and inference. In this paper, we formulate the problem as a $\textit{se}$quential $\textit{se}$lection problem and introduce $Se^2$, a sequential-aware method that leverages the LLM's feedback on varying context, aiding in capturing inter-relationships and sequential information among examples, significantly enriching the contextuality and relevance of ICL prompts. Meanwhile, we utilize beam search to seek and construct example sequences, enhancing both quality and diversity. Extensive experiments across 23 NLP tasks from 8 distinct categories illustrate that $Se^2$ markedly surpasses competitive baselines and achieves 42% relative improvement over random selection. Further in-depth analysis show the effectiveness of proposed strategies, highlighting $Se^2$'s exceptional stability and adaptability across various scenarios. Our code will be released to facilitate future research.
翻訳日:2024-03-07 17:25:48 公開日:2024-03-06
# Brant-2:脳信号の基礎モデル

Brant-2: Foundation Model for Brain Signals ( http://arxiv.org/abs/2402.10251v3 )

ライセンス: Link先を確認
Zhizhang Yuan, Daoze Zhang, Junru Chen, Gefei Gu, Yang Yang(参考訳) 基本的なモデルは、大量のラベルのないデータを事前トレーニングすることで、少量のラベル付きデータを持つさまざまなアプリケーションで強力なパフォーマンスを実現する。 このようなモデルは、多数のアプリケーションシナリオを含むため、脳信号の分析に特に効果的であり、大規模なアノテーションの実行には費用がかかる。 本研究では,脳信号における最大の基礎モデルであるbrant-2を提案する。 頭蓋内神経信号のための基礎モデルであるbrantと比較すると、brant-2はデータの変異やモデリングスケールに対する堅牢性を示すだけでなく、より広い範囲の脳神経データにも適用できる。 幅広いタスクを実験することで、brant-2は脳信号の様々な応用シナリオに適応できることを実証する。 さらに分析した結果、Brant-2のスケーラビリティを明らかにし、各コンポーネントの有効性を検証し、ラベルの少ないシナリオでパフォーマンスを維持するモデルの能力を示す。 ソースコードと事前トレーニングされたウェイトは以下の通りである。

Foundational models benefit from pre-training on large amounts of unlabeled data and enable strong performance in a wide variety of applications with a small amount of labeled data. Such models can be particularly effective in analyzing brain signals, as this field encompasses numerous application scenarios, and it is costly to perform large-scale annotation. In this work, we present the largest foundation model in brain signals, Brant-2. Compared to Brant, a foundation model designed for intracranial neural signals, Brant-2 not only exhibits robustness towards data variations and modeling scales but also can be applied to a broader range of brain neural data. By experimenting on an extensive range of tasks, we demonstrate that Brant-2 is adaptive to various application scenarios in brain signals. Further analyses reveal the scalability of the Brant-2, validate each component's effectiveness, and showcase our model's ability to maintain performance in scenarios with scarce labels. The source code and pre-trained weights are available at: https://github.com/yzz673/Brant-2.
翻訳日:2024-03-07 17:25:22 公開日:2024-03-06
# ヘルツレベル分解能と超認識能力を備えたベクトル分光計

Vector spectrometer with Hertz-level resolution and super-recognition capability ( http://arxiv.org/abs/2402.09752v2 )

ライセンス: Link先を確認
Ting Qing, Shupeng Li, Huashan Yang, Lihan Wang, Yijie Fang, Xiaohu Tang, Meihui Cao, Jianming Lu, Jijun He, Junqiu Liu, Yueguang Lyu, Shilong Pan(参考訳) 高分解能光分光計は、信号の複雑な特性の解明、レーザー周波数の決定、物理定数の測定、物質の同定、バイオセンシングの進歩に不可欠である。 しかし、従来の分光計は、しばしばスペクトル分解能、波長範囲、精度のトレードオフに対処する。 さらに、高分解能でも分光分析中に重なり合うスペクトル線を解消することは大きな課題である。 本稿では、広帯域光周波数ホッピング、超微細マイクロ波光走査、ベクトル検出を組み合わせた超高分解能ベクトル分光計を提案する。 プログラム可能な周波数ホッピングレーザーを開発し, サブhzライン幅とhzレベルの周波数安定性, それぞれ4桁と6桁の改善を, 最先端の波長可変レーザーと比較した。 また、変調非線形性やマルチチャネルクロストークによる測定誤差を除去する非対称光送信機と受信機を設計した。 結果として得られるベクトル分光計は、前例のない2Hzの周波数分解能を示し、33nmの範囲を4桁超えた。 高分解能ベクトル解析により,重なり合うスペクトル線の分離能力が47%以上向上し,多種多様な物質のリアルタイム同定が大幅に合理化していることがわかった。 この技術は、10khz以下の解像度で光学分光計のギャップを埋め、ベクター計測が機能に革命をもたらす。

High-resolution optical spectrometers are crucial in revealing intricate characteristics of signals, determining laser frequencies, measuring physical constants, identifying substances, and advancing biosensing applications. Conventional spectrometers, however, often grapple with inherent trade-offs among spectral resolution, wavelength range, and accuracy. Furthermore, even at high resolution, resolving overlapping spectral lines during spectroscopic analyses remains a huge challenge. Here, we propose a vector spectrometer with ultrahigh resolution, combining broadband optical frequency hopping, ultrafine microwave-photonic scanning, and vector detection. A programmable frequency-hopping laser was developed, facilitating a sub-Hz linewidth and Hz-level frequency stability, an improvement of four and six orders of magnitude, respectively, compared to those of state-of-the-art tunable lasers. We also designed an asymmetric optical transmitter and receiver to eliminate measurement errors arising from modulation nonlinearity and multi-channel crosstalk. The resultant vector spectrometer exhibits an unprecedented frequency resolution of 2 Hz, surpassing the state-of-the-art by four orders of magnitude, over a 33-nm range. Through high-resolution vector analysis, we observed that group delay information enhances the separation capability of overlapping spectral lines by over 47%, significantly streamlining the real-time identification of diverse substances. Our technique fills the gap in optical spectrometers with resolutions below 10 kHz and enables vector measurement to embrace revolution in functionality.
翻訳日:2024-03-07 17:25:05 公開日:2024-03-06
# 反復投票における平均ケース分析

Average-Case Analysis of Iterative Voting ( http://arxiv.org/abs/2402.08144v2 )

ライセンス: Link先を確認
Joshua Kavner, Lirong Xia(参考訳) 反復投票は、社会的選択において戦略決定を繰り返し行う自然なモデルであり、エージェントがグループ決定を確定する前に投票を更新する機会がある。 先行研究は、アナーキーの価格の適応により、真正の投票プロファイルに対して、平衡における選択された結果の福祉に関する反復的な複数の効果を分析した。 しかし、先行分析では、エージェントの嗜好が公平な文化によって分配される場合の最悪の、平均的なパフォーマンスについてしか研究されていない。 本研究は, 平均ケース分析をより広範な分布群に拡張し, 反復的複数が漸近的福祉を改善するか低下するかを区別する。

Iterative voting is a natural model of repeated strategic decision-making in social choice when agents have the opportunity to update their votes prior to finalizing the group decision. Prior work has analyzed the efficacy of iterative plurality on the welfare of the chosen outcome at equilibrium, relative to the truthful vote profile, via an adaptation of the price of anarchy. However, prior analyses have only studied the worst- and average-case performances when agents' preferences are distributed by the impartial culture. This work extends average-case analysis to a wider class of distributions and distinguishes when iterative plurality improves or degrades asymptotic welfare.
翻訳日:2024-03-07 17:24:40 公開日:2024-03-06
# 半線形波動方程式近似による物理形ニューラルネットワークの誤差推定

Error Estimation for Physics-informed Neural Networks Approximating Semilinear Wave Equations ( http://arxiv.org/abs/2402.07153v2 )

ライセンス: Link先を確認
Beatrice Lorenz, Aras Bacho, Gitta Kutyniok(参考訳) 本稿では、半線形波動方程式を近似した物理情報ニューラルネットワークに対する厳密な誤差境界を提供する。 ネットワークの層幅と2つの隠れ層を持つtanhニューラルネットワークのトレーニングポイント数の観点から、一般化とトレーニングエラーの境界を提供する。 我々の主な結果は、トレーニングエラーとトレーニングポイントの数で、$H^1([0,T];L^2(\Omega))$-normの総誤差の境界であり、いくつかの仮定では任意に小さくすることができる。 理論的な境界を数値実験で示す。

This paper provides rigorous error bounds for physics-informed neural networks approximating the semilinear wave equation. We provide bounds for the generalization and training error in terms of the width of the network's layers and the number of training points for a tanh neural network with two hidden layers. Our main result is a bound of the total error in the $H^1([0,T];L^2(\Omega))$-norm in terms of the training error and the number of training points, which can be made arbitrarily small under some assumptions. We illustrate our theoretical bounds with numerical experiments.
翻訳日:2024-03-07 17:24:27 公開日:2024-03-06
# 時間的相互作用グラフのプロンプト学習

Prompt Learning on Temporal Interaction Graphs ( http://arxiv.org/abs/2402.06326v2 )

ライセンス: Link先を確認
Xi Chen, Siwei Zhang, Yun Xiong, Xixi Wu, Jiawei Zhang, Xiangguo Sun, Yao Zhang, Feng Zhao, Yulin Kang(参考訳) 時間相互作用グラフ(TIG)は現実世界のシステムを表現するために広く利用されている。 TIGの表現学習を容易にするために、研究者は一連のTIGモデルを提案した。 しかしながら,これらのモデルでは,‘pre-train, predict’のトレーニングパラダイムにおいて,事前トレーニングと下流予測の2つの厳しいギャップに直面している。 第一に、事前学習データと推論データの時間差は、動的に進化するデータに対する将来の予測におけるモデルの適用性を著しく損なう。 第二に、プリテキストと下流タスク間のセマンティックなばらつきは、アプリケーションシナリオ全体にわたる学習と予測能力の整合に苦慮しているため、実践的なアプリケーションを妨げる。 近年,モデル一般化のための軽量なメカニズムとして ‘pre-train, prompt' パラダイムが登場している。 このパラダイムを適用することは、前述の課題を解決する潜在的な解決策になります。 しかし、このパラダイムをTIGに適用することは簡単ではない。 静的グラフコンテキストにおけるプロンプトの適用は、時間に敏感なダイナミクスと表現力の欠如により、時間的設定において不足する。 この問題に対処するために、TIGモデルとシームレスに統合し、時間的および意味的なギャップを埋める多目的なフレームワークであるTIGPrompt(TIGPrompt)を導入する。 具体的には,異なるタスクに対して時間認識プロンプトを提供する時間的プロンプト生成器を提案する。 これらのプロンプトは、ごく少ない監督データでプロンプトジェネレータのチューニングのみに依存する、最小限の設計で際立っている。 様々な計算資源要求に対応するために,より柔軟性のある 'pre-train, prompt-based fine-tune'' パラダイムを提案する。 広範な実験を通じて、TIGPromptはSOTAの性能と優れた効率性を示す。

Temporal Interaction Graphs (TIGs) are widely utilized to represent real-world systems. To facilitate representation learning on TIGs, researchers have proposed a series of TIG models. However, these models are still facing two tough gaps between the pre-training and downstream predictions in their ``pre-train, predict'' training paradigm. First, the temporal discrepancy between the pre-training and inference data severely undermines the models' applicability in distant future predictions on the dynamically evolving data. Second, the semantic divergence between pretext and downstream tasks hinders their practical applications, as they struggle to align with their learning and prediction capabilities across application scenarios. Recently, the ``pre-train, prompt'' paradigm has emerged as a lightweight mechanism for model generalization. Applying this paradigm is a potential solution to solve the aforementioned challenges. However, the adaptation of this paradigm to TIGs is not straightforward. The application of prompting in static graph contexts falls short in temporal settings due to a lack of consideration for time-sensitive dynamics and a deficiency in expressive power. To address this issue, we introduce Temporal Interaction Graph Prompting (TIGPrompt), a versatile framework that seamlessly integrates with TIG models, bridging both the temporal and semantic gaps. In detail, we propose a temporal prompt generator to offer temporally-aware prompts for different tasks. These prompts stand out for their minimalistic design, relying solely on the tuning of the prompt generator with very little supervision data. To cater to varying computational resource demands, we propose an extended ``pre-train, prompt-based fine-tune'' paradigm, offering greater flexibility. Through extensive experiments, the TIGPrompt demonstrates the SOTA performance and remarkable efficiency advantages.
翻訳日:2024-03-07 17:24:15 公開日:2024-03-06
# Read to Play (R2-Play):マルチモーダルゲーム指導による決定変換器

Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction ( http://arxiv.org/abs/2402.04154v3 )

ライセンス: Link先を確認
Yonggang Jin, Ge Zhang, Hao Zhao, Tianyu Zheng, Jiawei Guo, Liuyu Xiang, Shawn Yue, Stephen W. Huang, Wenhu Chen, Zhaofeng He and Jie Fu(参考訳) 汎用エージェントの開発は、人工知能の長年の目標である。 様々なタスクから広範囲なオフラインデータセットを利用する以前の取り組みは、強化学習におけるマルチタスクシナリオにおいて顕著なパフォーマンスを示している。 しかし、これらの作業は、新しいタスクに能力を拡張する上での課題に遭遇する。 近年,テキスト指導や視覚的軌跡を意思決定ネットワークに統合し,タスク固有の文脈的手がかりを提供する。 しかし,タスクの文脈情報を正確に伝達するには,テキスト指導や視覚的軌跡のみに頼るだけでは不十分であることがわかった。 本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイの指示を理解することで「読み上げ」機能を実現する。 視覚タスクにおけるマルチモーダル命令チューニングの成功から着想を得て,視覚ベースのrlタスクをロングホリゾンビジョンタスクとして扱い,マルチモーダルゲーム命令セットを構築し,命令チューニングを決定変換器に組み込む。 実験の結果,マルチモーダルゲームインストラクションの導入は,決定トランスフォーマーのマルチタスクと一般化能力を大幅に向上させることがわかった。

Developing a generalist agent is a longstanding objective in artificial intelligence. Previous efforts utilizing extensive offline datasets from various tasks demonstrate remarkable performance in multitasking scenarios within Reinforcement Learning. However, these works encounter challenges in extending their capabilities to new tasks. Recent approaches integrate textual guidance or visual trajectory into decision networks to provide task-specific contextual cues, representing a promising direction. However, it is observed that relying solely on textual guidance or visual trajectory is insufficient for accurately conveying the contextual information of tasks. This paper explores enhanced forms of task guidance for agents, enabling them to comprehend gameplay instructions, thereby facilitating a "read-to-play" capability. Drawing inspiration from the success of multimodal instruction tuning in visual tasks, we treat the visual-based RL task as a long-horizon vision task and construct a set of multimodal game instructions to incorporate instruction tuning into a decision transformer. Experimental results demonstrate that incorporating multimodal game instructions significantly enhances the decision transformer's multitasking and generalization capabilities.
翻訳日:2024-03-07 17:23:47 公開日:2024-03-06
# Swin-UMamba: ImageNetベースの事前トレーニングを備えたマンバベースのUNet

Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining ( http://arxiv.org/abs/2402.03302v2 )

ライセンス: Link先を確認
Jiarun Liu, Hao Yang, Hong-Yu Zhou, Yan Xi, Lequan Yu, Yizhou Yu, Yong Liang, Guangming Shi, Shaoting Zhang, Hairong Zheng, Shanshan Wang(参考訳) 正確な医用画像のセグメンテーションは、局所的な特徴からグローバルな依存関係にまたがるマルチスケール情報の統合を必要とする。 しかし、畳み込みニューラルネットワーク(CNN)が局所受容野によって制約され、視覚変換器(ViT)が注意機構の2次複雑さに悩まされるような、長距離グローバル情報をモデル化する既存の手法では困難である。 近年、mambaベースのモデルは、長いシーケンスモデリングにおけるその印象的な能力で大きな注目を集めている。 いくつかの研究では、これらのモデルが様々なタスクにおいて一般的な視覚モデルより優れており、高い精度、メモリ消費の低減、計算負担の低減を実現している。 しかし、既存のマンバベースのモデルは、主にスクラッチから訓練されており、データ効率の良い医療画像解析に非常に有効であることが証明された事前訓練のパワーを探求していない。 本稿では,医療用画像セグメンテーションタスク用に設計された,新しいmambaベースモデルであるswain-umambaについて紹介する。 実験の結果,マンバモデルの性能向上におけるImageNetベースのトレーニングの重要性が明らかになった。 Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。 特に、AbdomenMRI、Encoscopy、Microscopyのデータセットでは、Swin-UMambaはU-Mamba_Encを平均スコア2.72%で上回っている。

Accurate medical image segmentation demands the integration of multi-scale information, spanning from local features to global dependencies. However, it is challenging for existing methods to model long-range global information, where convolutional neural networks (CNNs) are constrained by their local receptive fields, and vision transformers (ViTs) suffer from high quadratic complexity of their attention mechanism. Recently, Mamba-based models have gained great attention for their impressive ability in long sequence modeling. Several studies have demonstrated that these models can outperform popular vision models in various tasks, offering higher accuracy, lower memory consumption, and less computational burden. However, existing Mamba-based models are mostly trained from scratch and do not explore the power of pretraining, which has been proven to be quite effective for data-efficient medical image analysis. This paper introduces a novel Mamba-based model, Swin-UMamba, designed specifically for medical image segmentation tasks, leveraging the advantages of ImageNet-based pretraining. Our experimental results reveal the vital role of ImageNet-based training in enhancing the performance of Mamba-based models. Swin-UMamba demonstrates superior performance with a large margin compared to CNNs, ViTs, and latest Mamba-based models. Notably, on AbdomenMRI, Encoscopy, and Microscopy datasets, Swin-UMamba outperforms its closest counterpart U-Mamba_Enc by an average score of 2.72%.
翻訳日:2024-03-07 17:23:26 公開日:2024-03-06
# guard: 大規模な言語モデルのガイドライン準拠をテストするために、自然言語脱獄を生成するロールプレイング

GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models ( http://arxiv.org/abs/2402.03299v3 )

ライセンス: Link先を確認
Haibo Jin, Ruoxi Chen, Andy Zhou, Jinyin Chen, Yang Zhang, Haohan Wang(参考訳) 大規模言語モデル(LLM)の安全フィルタをバイパスする"jailbreaks"の発見と有害な応答により、コミュニティは安全対策を実施するようになった。 主要な安全対策の1つは、リリース前にLLMをジェイルブレイクで積極的にテストすることである。 そのため、このようなテストはジェイルブレイクを大量かつ効率的に生成できる方法を必要とする。 本稿では,人間の世代のスタイルでジェイルブレイクを発生させる新奇かつ直感的な戦略について述べる。 我々は,新しいジェイルブレイクに協力するために,4つの異なる役割をユーザLLMに割り当てるロールプレイングシステムを提案する。 さらに、既存のジェイルブレイクを収集し、クラスタリング周波数と文による意味パターンを用いて、異なる独立した特徴に分割する。 これらの特徴を知識グラフに整理し、よりアクセスしやすく、検索しやすくします。 我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成するが、これはLLMを非倫理的またはガイドライン違反の応答を生成するのに有効である。 さらに,llmがガイドラインに従っているかどうかをテストするために,政府発行のガイドラインに従って自動的にジェイルブレイクを発生させるシステムの設定の先駆者でもある。 本稿では,GUARD (Guideline Upholding through Adaptive Role-play Diagnostics) と呼ぶ。 我々は,GUARDが3つの最先端オープンソースLLM(Vicuna-13B,LongChat-7B,Llama-2-7B)および広く利用されている商用LLM(ChatGPT)に対する有効性を実証的に検証した。 さらに,我々の研究は視覚言語モデル(minigpt-v2とgemini vision pro)の領域にまで及んで,ガードの汎用性を示し,多様なモダリティにまたがってより安全で信頼性の高いllmベースのアプリケーションを開発する上で有用な洞察を与えています。

The discovery of "jailbreaks" to bypass safety filters of Large Language Models (LLMs) and harmful responses have encouraged the community to implement safety measures. One major safety measure is to proactively test the LLMs with jailbreaks prior to the release. Therefore, such testing will require a method that can generate jailbreaks massively and efficiently. In this paper, we follow a novel yet intuitive strategy to generate jailbreaks in the style of the human generation. We propose a role-playing system that assigns four different roles to the user LLMs to collaborate on new jailbreaks. Furthermore, we collect existing jailbreaks and split them into different independent characteristics using clustering frequency and semantic patterns sentence by sentence. We organize these characteristics into a knowledge graph, making them more accessible and easier to retrieve. Our system of different roles will leverage this knowledge graph to generate new jailbreaks, which have proved effective in inducing LLMs to generate unethical or guideline-violating responses. In addition, we also pioneer a setting in our system that will automatically follow the government-issued guidelines to generate jailbreaks to test whether LLMs follow the guidelines accordingly. We refer to our system as GUARD (Guideline Upholding through Adaptive Role-play Diagnostics). We have empirically validated the effectiveness of GUARD on three cutting-edge open-sourced LLMs (Vicuna-13B, LongChat-7B, and Llama-2-7B), as well as a widely-utilized commercial LLM (ChatGPT). Moreover, our work extends to the realm of vision language models (MiniGPT-v2 and Gemini Vision Pro), showcasing GUARD's versatility and contributing valuable insights for the development of safer, more reliable LLM-based applications across diverse modalities.
翻訳日:2024-03-07 17:23:00 公開日:2024-03-06
# マルコフの説得プロセス:スクラッチから説得することを学ぶ

Markov Persuasion Processes: Learning to Persuade from Scratch ( http://arxiv.org/abs/2402.03077v2 )

ライセンス: Link先を確認
Francesco Bacchiocchi, Francesco Emanuele Stradi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti(参考訳) ベイジアン説得において、インフォームド送信者は、望ましい行動をとるよう説得するために、戦略的に受信者に情報を開示する。 近年,送信者と受信者がシーケンシャルにやり取りする設定に注目が集まっている。 近年,マルコフ知覚過程 (MPP) が導入され, マルコフ環境下では, 送信者がミオピックレシーバーのストリームに直面する連続的なシナリオを捉えている。 これまでの文献で研究されたMPPは、実際に完全に運用されるのを防ぐ問題に悩まされており、例えば、送信者が受信者の報酬を知っていると仮定している。 我々は、送信者が環境に関する知識を持たないmppに対処することで、このような問題を解決する。 我々は,送信者に対する学習アルゴリズムを,部分的フィードバックを用いて設計する。 我々は,学習中に蓄積される説得力の喪失の事例として,最適な情報開示方針に対する後悔がエピソード数でサブリニア的に増加することを証明した。 さらに,アルゴリズムの保証に適合する設定に対して,より低いバウンダリを提供する。

In Bayesian persuasion, an informed sender strategically discloses information to a receiver so as to persuade them to undertake desirable actions. Recently, a growing attention has been devoted to settings in which sender and receivers interact sequentially. Recently, Markov persuasion processes (MPPs) have been introduced to capture sequential scenarios where a sender faces a stream of myopic receivers in a Markovian environment. The MPPs studied so far in the literature suffer from issues that prevent them from being fully operational in practice, e.g., they assume that the sender knows receivers' rewards. We fix such issues by addressing MPPs where the sender has no knowledge about the environment. We design a learning algorithm for the sender, working with partial feedback. We prove that its regret with respect to an optimal information-disclosure policy grows sublinearly in the number of episodes, as it is the case for the loss in persuasiveness cumulated while learning. Moreover, we provide a lower bound for our setting matching the guarantees of our algorithm.
翻訳日:2024-03-07 17:22:26 公開日:2024-03-06
# 大規模モデルのための認知タスクの人工知能テストへの統合

Integration of cognitive tasks into artificial general intelligence test for large models ( http://arxiv.org/abs/2402.02547v2 )

ライセンス: Link先を確認
Youzhi Qu, Chen Wei, Penghui Du, Wenxin Che, Chi Zhang, Wanli Ouyang, Yatao Bian, Feiyang Xu, Bin Hu, Kai Du, Haiyan Wu, Jia Liu, Quanying Liu(参考訳) 大規模モデルの進化の間、性能評価は必ずその能力を評価し、実用化前に安全性を確保するために行われる。 しかし、現在のモデル評価は主に特定のタスクとデータセットに依存しており、大規模モデルの多次元知性を評価するための統一的な枠組みが欠如している。 本稿では,認知科学にヒントを得た人工知能(AGI)テストの包括的枠組みを提唱する。 認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。 大規模モデルの多次元インテリジェンスを評価するために、AGIテストは人間のインテリジェンステストから採用されたよく設計された認知テストの電池で構成され、自然に没入型の仮想コミュニティにカプセル化される。 本稿では,大規模モデルの進歩に伴うagiテストタスクの複雑さの増大と,偽陰性や偽陽性を避けるためにテスト結果の解釈の必要性を強調する。 認知科学にインスパイアされたAGIテストは、特定の知能の次元における大規模モデルのターゲット改善を効果的に導き、大規模モデルの人間社会への統合を加速させると信じている。

During the evolution of large models, performance evaluation is necessarily performed to assess their capabilities and ensure safety before practical application. However, current model evaluations mainly rely on specific tasks and datasets, lacking a united framework for assessing the multidimensional intelligence of large models. In this perspective, we advocate for a comprehensive framework of cognitive science-inspired artificial general intelligence (AGI) tests, aimed at fulfilling the testing needs of large models with enhanced capabilities. The cognitive science-inspired AGI tests encompass the full spectrum of intelligence facets, including crystallized intelligence, fluid intelligence, social intelligence, and embodied intelligence. To assess the multidimensional intelligence of large models, the AGI tests consist of a battery of well-designed cognitive tests adopted from human intelligence tests, and then naturally encapsulates into an immersive virtual community. We propose increasing the complexity of AGI testing tasks commensurate with advancements in large models and emphasizing the necessity for the interpretation of test results to avoid false negatives and false positives. We believe that cognitive science-inspired AGI tests will effectively guide the targeted improvement of large models in specific dimensions of intelligence and accelerate the integration of large models into human society.
翻訳日:2024-03-07 17:22:00 公開日:2024-03-06
# 言語誘導状態抽象化による学習

Learning with Language-Guided State Abstractions ( http://arxiv.org/abs/2402.18759v2 )

ライセンス: Link先を確認
Andi Peng, Ilia Sucholutsky, Belinda Z. Li, Theodore R. Sumers, Thomas L. Griffiths, Jacob Andreas, Julie A. Shah(参考訳) 模倣学習のための状態抽象化を設計するために自然言語を使用するためのフレームワークについて述べる。 高次元の観測空間における一般化されたポリシー学習は、適切に設計された状態表現によって促進される。 これらの状態表現は、通常手動で指定されるか、他の労働集約的なラベル付け手順に由来する。 提案手法であるlga(language-guided abstraction)は自然言語の監督と言語モデル(lms)からの背景知識を組み合わせて,未認識のタスクに合わせた状態表現を自動的に構築する。 LGAでは、ユーザはまず、自然言語で対象タスクの(おそらく不完全な)記述を提供する。次に、事前訓練されたLMは、このタスク記述を、無関係な特徴を隠蔽する状態抽象関数に変換し、最後に、少数のデモとLGA生成抽象状態を用いて模倣ポリシーを訓練する。 シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものに似た状態抽象化をもたらすが、そのごく一部で、これらの抽象化は素早い相関や曖昧な仕様の存在下での一般化と堅牢性を改善する。 本稿では,スポットロボットを用いた移動操作タスクにおける学習抽象化の有用性について述べる。

We describe a framework for using natural language to design state abstractions for imitation learning. Generalizable policy learning in high-dimensional observation spaces is facilitated by well-designed state representations, which can surface important features of an environment and hide irrelevant ones. These state representations are typically manually specified, or derived from other labor-intensive labeling procedures. Our method, LGA (language-guided abstraction), uses a combination of natural language supervision and background knowledge from language models (LMs) to automatically build state representations tailored to unseen tasks. In LGA, a user first provides a (possibly incomplete) description of a target task in natural language; next, a pre-trained LM translates this task description into a state abstraction function that masks out irrelevant features; finally, an imitation policy is trained using a small number of demonstrations and LGA-generated abstract states. Experiments on simulated robotic tasks show that LGA yields state abstractions similar to those designed by humans, but in a fraction of the time, and that these abstractions improve generalization and robustness in the presence of spurious correlations and ambiguous specifications. We illustrate the utility of the learned abstractions on mobile manipulation tasks with a Spot robot.
翻訳日:2024-03-07 17:13:29 公開日:2024-03-06
# 多様なユーザ嗜好に対するllmの算術制御:多目的報酬を用いた指向性選好アライメント

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards ( http://arxiv.org/abs/2402.18571v3 )

ライセンス: Link先を確認
Haoxiang Wang, Yong Lin, Wei Xiong, Rui Yang, Shizhe Diao, Shuang Qiu, Han Zhao, Tong Zhang(参考訳) 大きな言語モデル(LLM)のきめ細かい制御は依然として大きな課題であり、多様なユーザニーズへの適応性を妨げている。 Reinforcement Learning from Human Feedback (RLHF)は、LLMの整合性を示すが、スカラー報酬への依存は、現実世界のアプリケーションで多様なユーザの好みを捉える能力を制限することが多い。 この制限に対処するため、DPA(Directional Preference Alignment)フレームワークを導入します。 スカラーワードrlhfとは異なり、dpaは多様な好みプロファイルを表現するために多目的報酬モデリングを取り入れている。 さらに、DPAは報酬空間の方向(すなわち単位ベクトル)としてユーザの好みをモデル化し、ユーザ依存の好み制御を実現する。 Llama 2 で採用されている RLHF 法である Rejection Smpling Finetuning (RSF) の優先条件付き変種を用いて,多目的報酬モデルのトレーニングを行い,LLM を微調整する。 この方法は、様々な報奨目的に対してより良いパフォーマンスのトレードオフをもたらす。 DPA はスカラー・リワード RLHF と比較して、ユーザが LLM 生成を直感的に制御できる。 また,実世界アライメント実験によるdpaの有効性を検証する。 提案手法は,DPO(Direct Preference Optimization)などの強力なベースラインと競合する性能を維持しつつ,有用性と冗長性の間のトレードオフを簡易に算術的に制御する。

Fine-grained control over large language models (LLMs) remains a significant challenge, hindering their adaptability to diverse user needs. While Reinforcement Learning from Human Feedback (RLHF) shows promise in aligning LLMs, its reliance on scalar rewards often limits its ability to capture diverse user preferences in real-world applications. To address this limitation, we introduce the Directional Preference Alignment (DPA) framework. Unlike the scalar-reward RLHF, DPA incorporates multi-objective reward modeling to represent diverse preference profiles. Additionally, DPA models user preferences as directions (i.e., unit vectors) in the reward space to achieve user-dependent preference control. Our method involves training a multi-objective reward model and then fine-tuning the LLM with a preference-conditioned variant of Rejection Sampling Finetuning (RSF), an RLHF method adopted by Llama 2. This method enjoys a better performance trade-off across various reward objectives. In comparison with the scalar-reward RLHF, DPA offers users intuitive control over LLM generation: they can arithmetically specify their desired trade-offs (e.g., more helpfulness with less verbosity). We also validate the effectiveness of DPA with real-world alignment experiments on Mistral-7B. Our method provides straightforward arithmetic control over the trade-off between helpfulness and verbosity while maintaining competitive performance with strong baselines such as Direct Preference Optimization (DPO).
翻訳日:2024-03-07 17:13:07 公開日:2024-03-06
# ゼロショット分類タスクにおける銀標準データを用いた情報抽出

On the use of Silver Standard Data for Zero-shot Classification Tasks in Information Extraction ( http://arxiv.org/abs/2402.18061v2 )

ライセンス: Link先を確認
Jianwei Wang, Tianyin Wang, Ziqian Zeng(参考訳) 情報抽出(IE)領域における教師付き分類手法の優れた性能は、大量の金標準データに大きく依存している。 最近のゼロショット分類法では、タスクを他のNLPタスク(例えば、テキストのエンターメント)に変換し、これらのNLPタスクのオフザシェルフモデルを使用して、大量のIEアノテーションデータを使用することなく、テストデータに直接推論を行う。 これらの手法の潜在的に価値のある副産物は、大規模な銀標準データ、すなわち他のNLPタスクのオフザシェルフモデルによる擬似ラベル付きデータである。 しかし、これらのデータの使用に関するさらなる調査は行われていない。 本稿では,銀標準データを利用したゼロショット性能向上を目的とした新しいフレームワークであるClean-LaVeを提案する。 clean-LaVeは、(1)銀データを取得すること、(2)銀データから比較的きれいなデータを識別すること、(3)クリーンデータを用いて市販のモデルを微調整すること、(4)テストデータに対する推論である。 実験結果から,ゼロショット関係分類タスクではTACREDおよびWiki80データセットで5%,6%,ゼロショット間関係分類タスクではスマイル(韓国とポーランド)では3%-7%,ゼロショットイベント引数分類タスクではACE05-E+で8%,ベースラインでは6%を達成できた。 コードはhttps://github.com/wjw136/clean_lave.gitで共有される。

The superior performance of supervised classification methods in the information extraction (IE) area heavily relies on a large amount of gold standard data. Recent zero-shot classification methods converted the task to other NLP tasks (e.g., textual entailment) and used off-the-shelf models of these NLP tasks to directly perform inference on the test data without using a large amount of IE annotation data. A potentially valuable by-product of these methods is the large-scale silver standard data, i.e., pseudo-labeled data by the off-the-shelf models of other NLP tasks. However, there is no further investigation into the use of these data. In this paper, we propose a new framework, Clean-LaVe, which aims to utilize silver standard data to enhance the zero-shot performance. Clean-LaVe includes four phases: (1) Obtaining silver data; (2) Identifying relatively clean data from silver data; (3) Finetuning the off-the-shelf model using clean data; (4) Inference on the test data. The experimental results show that Clean-LaVe can outperform the baseline by 5% and 6% on TACRED and Wiki80 dataset in the zero-shot relation classification task, and by 3%-7% on Smile (Korean and Polish) in the zero-shot cross-lingual relation classification task, and by 8% on ACE05-E+ in the zero-shot event argument classification task. The code is share in https://github.com/wjw136/Clean_LaVe.git.
翻訳日:2024-03-07 17:12:38 公開日:2024-03-06
# 連続時間強化学習における深層残留ネットワークの事前推定

A priori Estimates for Deep Residual Network in Continuous-time Reinforcement Learning ( http://arxiv.org/abs/2402.16899v2 )

ライセンス: Link先を確認
Shuyu Yin, Qixuan Zhou, Fei Wen, Tao Luo(参考訳) 深層強化学習は多くの大規模応用において優れている。 しかし、既存の性能解析は、連続時間制御問題の特徴を無視し、ベルマン最適損失の一般化誤差を直接見積もることができず、有界性仮定を必要とする。 本研究は,連続時間制御問題に着目し,遷移関数が半群およびリプシッツ特性を満たすようなすべての問題に適用可能な手法を提案する。 この方法では、ベルマン最適損失のemph{a priori}汎化誤差を直接解析することができる。 この方法の核心は損失関数の2つの変換にある。 変換を完了させるために,最大演算子の分解法を提案する。 さらに、この解析方法は境界性仮定を必要としない。 最後に、次元の呪いを伴わない 'emph{a priori} 一般化誤差を得る。

Deep reinforcement learning excels in numerous large-scale practical applications. However, existing performance analyses ignores the unique characteristics of continuous-time control problems, is unable to directly estimate the generalization error of the Bellman optimal loss and require a boundedness assumption. Our work focuses on continuous-time control problems and proposes a method that is applicable to all such problems where the transition function satisfies semi-group and Lipschitz properties. Under this method, we can directly analyze the \emph{a priori} generalization error of the Bellman optimal loss. The core of this method lies in two transformations of the loss function. To complete the transformation, we propose a decomposition method for the maximum operator. Additionally, this analysis method does not require a boundedness assumption. Finally, we obtain an \emph{a priori} generalization error without the curse of dimensionality.
翻訳日:2024-03-07 17:12:05 公開日:2024-03-06
# ヒューマノイドロボットの表現型全身制御

Expressive Whole-Body Control for Humanoid Robots ( http://arxiv.org/abs/2402.16796v2 )

ライセンス: Link先を確認
Xuxin Cheng, Yandong Ji, Junming Chen, Ruihan Yang, Ge Yang, Xiaolong Wang(参考訳) 人間型ロボットが現実世界で豊かで多様で表現力のある動きを生成できるだろうか? 人間の動きを可能な限りリアルに再現するために,人間サイズのロボットの全身制御方針を学習することを提案する。 このようなポリシーをトレーニングするために,強化学習フレームワークにおいて,グラフィックコミュニティからの大規模ヒューマンモーションキャプチャデータを活用する。 しかし、モーションキャプチャデータセットによる模倣学習は、自由度と物理的能力のギャップが大きいため、実際のヒューマノイドロボットでは機能しない。 本手法は,両脚の模倣制約を緩和し,与えられた速度を頑健に追従することのみを要求しながら,上半身の人体に基準運動を模倣するよう促すことで,全身制御(exbody)を表現し,この問題に対処している。 シミュレーションとSim2Real転送のトレーニングにより、私たちのポリシーはヒューマノイドロボットを制御して、さまざまなスタイルで歩いたり、人と握手したり、現実世界で人間と踊ったりできる。 本手法の有効性を示すため,シミュレーションと実世界の両方における多様な動きに関する広範な研究と比較を行った。

Can we enable humanoid robots to generate rich, diverse, and expressive motions in the real world? We propose to learn a whole-body control policy on a human-sized robot to mimic human motions as realistic as possible. To train such a policy, we leverage the large-scale human motion capture data from the graphics community in a Reinforcement Learning framework. However, directly performing imitation learning with the motion capture dataset would not work on the real humanoid robot, given the large gap in degrees of freedom and physical capabilities. Our method Expressive Whole-Body Control (Exbody) tackles this problem by encouraging the upper humanoid body to imitate a reference motion, while relaxing the imitation constraint on its two legs and only requiring them to follow a given velocity robustly. With training in simulation and Sim2Real transfer, our policy can control a humanoid robot to walk in different styles, shake hands with humans, and even dance with a human in the real world. We conduct extensive studies and comparisons on diverse motions in both simulation and the real world to show the effectiveness of our approach.
翻訳日:2024-03-07 17:11:54 公開日:2024-03-06
# l1-norm 正規化 l1-norm ベストフィットライン

l1-norm regularized l1-norm best-fit lines ( http://arxiv.org/abs/2402.16712v2 )

ライセンス: Link先を確認
Xiao Ling, Paul Brooks(参考訳) 本研究では,スパースロバストな一次元部分空間を推定するための最適化フレームワークを提案する。 我々の目標は、l1-ノルム基準の観点から、表現エラーとペナルティの両方を最小化することです。 問題はnpハードであることから,線形緩和に基づくアプローチを導入する。 さらに,簡単な比率とソート技術を用いて,新たなフィッティング手順を提案する。 提案アルゴリズムは$O(n^2 m \log n)$の最悪の時間複雑性を示し、ある場合において、スパースロバスト部分空間に対する大域的最適性を達成し、多項式時間効率を示す。 既存の手法と比較すると、提案手法は最小不一致の部分空間を見つけ、スパーシティとフィットの間のスムーズなトレードオフを提供する。 そのアーキテクチャにはスケーラビリティがあり、CPUバージョンよりも2000×2000の行列の計算速度が16倍に向上したことが証明されている。 さらに, この手法は, 初期化や決定論的, 複製的手順からの独立性など, いくつかの利点がある。 さらに, この手法は, 初期化や決定論的, 複製的手順からの独立性など, いくつかの利点がある。 実世界の例は、アルゴリズムが有意義な空間性を達成するための有効性を示し、その正確で有用な応用を様々な領域にわたって示している。

In this work, we propose an optimization framework for estimating a sparse robust one-dimensional subspace. Our objective is to minimize both the representation error and the penalty, in terms of the l1-norm criterion. Given that the problem is NP-hard, we introduce a linear relaxation-based approach. Additionally, we present a novel fitting procedure, utilizing simple ratios and sorting techniques. The proposed algorithm demonstrates a worst-case time complexity of $O(n^2 m \log n)$ and, in certain instances, achieves global optimality for the sparse robust subspace, thereby exhibiting polynomial time efficiency. Compared to extant methodologies, the proposed algorithm finds the subspace with the lowest discordance, offering a smoother trade-off between sparsity and fit. Its architecture affords scalability, evidenced by a 16-fold improvement in computational speeds for matrices of 2000x2000 over CPU version. Furthermore, this method is distinguished by several advantages, including its independence from initialization and deterministic and replicable procedures. Furthermore, this method is distinguished by several advantages, including its independence from initialization and deterministic and replicable procedures. The real-world example demonstrates the effectiveness of algorithm in achieving meaningful sparsity, underscoring its precise and useful application across various domains.
翻訳日:2024-03-07 17:11:34 公開日:2024-03-06
# 顔行動単位検出のための人非依存表現のコントラスト学習

Contrastive Learning of Person-independent Representations for Facial Action Unit Detection ( http://arxiv.org/abs/2403.03400v1 )

ライセンス: Link先を確認
Yong Li, Shiguang Shan(参考訳) 顔画像中のAUの分類を目的とした顔行動単位(AU)検出は、長い間、貧弱なAUアノテーションに悩まされてきた。 本稿では,多数の顔画像からAU表現を学習することで,このデータ不足の問題を,対照的な学習パラダイムで緩和することを目的とする。 自己教師付きau表現学習信号を2次元に定式化する:(1)au表現は短いビデオクリップ内でフレーム的に判別されるべき;(2)異なるアイデンティティからサンプリングされた顔フレームは、類似したau表現を持つべきである。 これらの目的を達成するために,ビデオクリップ内でau表現を対比的に学習し,個人に依存しない表現を学習するためのクロスアイデンティティ再構築機構を考案する。 特に,連続入力された顔フレームからなるクリップ内の時間的auコヒーレンスと進化特性を知覚するために,マージンに基づく時間的コントラスト学習パラダイムを採用する。 さらに、相互同一性再構成機構は、異なる同一性から顔を押し出すのが容易であるが、潜在埋め込み空間に類似したausが現れる。 3つの公開AUデータセットの実験結果は、学習されたAU表現がAU検出に識別可能であることを示す。 提案手法は,他のコントラスト学習手法よりも優れており,自己教師と教師付きAU検出手法間の性能ギャップを著しく短縮する。

Facial action unit (AU) detection, aiming to classify AU present in the facial image, has long suffered from insufficient AU annotations. In this paper, we aim to mitigate this data scarcity issue by learning AU representations from a large number of unlabelled facial videos in a contrastive learning paradigm. We formulate the self-supervised AU representation learning signals in two-fold: (1) AU representation should be frame-wisely discriminative within a short video clip; (2) Facial frames sampled from different identities but show analogous facial AUs should have consistent AU representations. As to achieve these goals, we propose to contrastively learn the AU representation within a video clip and devise a cross-identity reconstruction mechanism to learn the person-independent representations. Specially, we adopt a margin-based temporal contrastive learning paradigm to perceive the temporal AU coherence and evolution characteristics within a clip that consists of consecutive input facial frames. Moreover, the cross-identity reconstruction mechanism facilitates pushing the faces from different identities but show analogous AUs close in the latent embedding space. Experimental results on three public AU datasets demonstrate that the learned AU representation is discriminative for AU detection. Our method outperforms other contrastive learning methods and significantly closes the performance gap between the self-supervised and supervised AU detection approaches.
翻訳日:2024-03-07 16:38:01 公開日:2024-03-06
# 大規模言語モデルを用いた遺伝的プログラミングツリーの説明

Explaining Genetic Programming Trees using Large Language Models ( http://arxiv.org/abs/2403.03397v1 )

ライセンス: Link先を確認
Paula Maddigan, Andrew Lensen, Bing Xue(参考訳) 遺伝的プログラミング(GP)は、特に次元の減少に使用される場合、説明可能な結果を生成する可能性がある。 本研究では,eXplainable AI(XAI)とChatGPTのような大規模言語モデル(LLM)を活用し,GPに基づく非線形次元削減の解釈可能性を向上させる可能性を検討する。 我々の研究はGP4NLDRという新しいXAIダッシュボードを導入し、最新のGPとLLMを利用したチャットボットを組み合わせて、総合的でユーザ中心の説明を提供する。 ケーススタディを通じて,高次元データ削減プロセスに関する直感的かつ洞察に富んだナラティブを提供するシステムの能力を紹介する。 本研究は,LSMからの正確かつ関連する応答を抽出する上で,迅速なエンジニアリングの重要性を強調した。 また、データプライバシ、幻覚出力、および生成AIの急速な進歩に関する重要な考察にも取り組んでいます。 本研究は,GPアルゴリズムの説明可能性向上の可能性を示すものである。 このことは将来のLLMによるGPモデルの説明研究の扉を開く。

Genetic programming (GP) has the potential to generate explainable results, especially when used for dimensionality reduction. In this research, we investigate the potential of leveraging eXplainable AI (XAI) and large language models (LLMs) like ChatGPT to improve the interpretability of GP-based non-linear dimensionality reduction. Our study introduces a novel XAI dashboard named GP4NLDR, the first approach to combine state-of-the-art GP with an LLM-powered chatbot to provide comprehensive, user-centred explanations. We showcase the system's ability to provide intuitive and insightful narratives on high-dimensional data reduction processes through case studies. Our study highlights the importance of prompt engineering in eliciting accurate and pertinent responses from LLMs. We also address important considerations around data privacy, hallucinatory outputs, and the rapid advancements in generative AI. Our findings demonstrate its potential in advancing the explainability of GP algorithms. This opens the door for future research into explaining GP models with LLMs.
翻訳日:2024-03-07 16:37:35 公開日:2024-03-06
# 自動採点のための日英文翻訳演習データセット

Japanese-English Sentence Translation Exercises Dataset for Automatic Grading ( http://arxiv.org/abs/2403.03396v1 )

ライセンス: Link先を確認
Naoki Miura, Hiroaki Funayama, Seiya Kikuchi, Yuichiroh Matsubayashi, Yuya Iwase, Kentaro Inui(参考訳) 本稿では,L2言語学習の初期段階において用いられてきた文翻訳演習(STE)の自動評価の課題を提案する。 本研究は,教育者によって事前に規定された各ルーブリック基準に対して,学生の回答の段階付けとしてタスクを形式化する。 次に,21の質問を含む日本語と英語のsteのデータセットを作成し,合計3,498人の学生の回答を得た(平均167件)。 回答は学生や集団労働者から集められた。 このデータセットを用いて,テキスト内学習の少ない細調整BERTモデルやGPTモデルを含むベースラインの性能を示す。 実験結果から,細粒化BERTを用いたベースラインモデルではF1の約90%の正解を正解できるが,正解率は80%以下であった。 さらに,少数ショット学習によるGPTモデルは細調整されたBERTよりも低調な結果を示し,最先端の大規模言語モデルにおいても,新たに提案した課題が課題であることを示す。

This paper proposes the task of automatic assessment of Sentence Translation Exercises (STEs), that have been used in the early stage of L2 language learning. We formalize the task as grading student responses for each rubric criterion pre-specified by the educators. We then create a dataset for STE between Japanese and English including 21 questions, along with a total of 3, 498 student responses (167 on average). The answer responses were collected from students and crowd workers. Using this dataset, we demonstrate the performance of baselines including finetuned BERT and GPT models with few-shot in-context learning. Experimental results show that the baseline model with finetuned BERT was able to classify correct responses with approximately 90% in F1, but only less than 80% for incorrect responses. Furthermore, the GPT models with few-shot learning show poorer results than finetuned BERT, indicating that our newly proposed task presents a challenging issue, even for the stateof-the-art large language models.
翻訳日:2024-03-07 16:37:18 公開日:2024-03-06
# 音楽家の創造性を高める対話型メロディ生成システム

Interactive Melody Generation System for Enhancing the Creativity of Musicians ( http://arxiv.org/abs/2403.03395v1 )

ライセンス: Link先を確認
So Hirawata and Noriko Otani(参考訳) 本研究では,自動作曲技術を用いて,人間同士の協調作曲過程を列挙するシステムを提案する。 複数のリカレントニューラルネットワーク(RNN)モデルを統合することで、このシステムは、複数の作曲家とのコラボレーションに似たエクスペリエンスを提供し、多様な創造性を育む。 フィードバックに基づいて、ユーザの創造的意図に動的に適応することにより、ユーザの好みや創造的ニーズに合わせてメロディを生成する能力を高める。 このシステムの有効性は、様々な背景の作曲家による実験を通して評価され、音楽の創造性を促進する可能性を明らかにし、さらなる洗練への道筋を示唆した。 この研究は、作曲家とAIの相互作用の重要性を強調し、作曲をよりアクセスしやすくパーソナライズすることを目的としている。 このシステムはAIを創造的なプロセスに統合するためのステップであり、作曲支援と協力的な芸術的探索のための新しいツールを提供する。

This study proposes a system designed to enumerate the process of collaborative composition among humans, using automatic music composition technology. By integrating multiple Recurrent Neural Network (RNN) models, the system provides an experience akin to collaborating with several composers, thereby fostering diverse creativity. Through dynamic adaptation to the user's creative intentions, based on feedback, the system enhances its capability to generate melodies that align with user preferences and creative needs. The system's effectiveness was evaluated through experiments with composers of varying backgrounds, revealing its potential to facilitate musical creativity and suggesting avenues for further refinement. The study underscores the importance of interaction between the composer and AI, aiming to make music composition more accessible and personalized. This system represents a step towards integrating AI into the creative process, offering a new tool for composition support and collaborative artistic exploration.
翻訳日:2024-03-07 16:36:58 公開日:2024-03-06
# 多種雑草検出のための半教師付き学習フレームワークの性能評価

Performance Evaluation of Semi-supervised Learning Frameworks for Multi-Class Weed Detection ( http://arxiv.org/abs/2403.03390v1 )

ライセンス: Link先を確認
Jiajia Li, Dong Chen, Xunyuan Yin, and Zhaojian Li(参考訳) 効率的な雑草管理は、作物の収量最適化と農産物の品質向上に重要な役割を果たしている。 しかし、除草剤の施用への依存は環境に重大な脅威をもたらすだけでなく、抵抗性雑草の発生を促進する。 幸いなことに、MLとDLによって実現された精密雑草管理の進歩は、持続可能な代替手段である。 大きな進歩にもかかわらず、既存のアルゴリズムは、主に教師あり学習アプローチに基づいて開発されており、通常、手動のラベル付きアノテーションで大規模なデータセットを要求する。 このように、ラベル効率の高い学習方法、特に半教師付き学習は、コンピュータビジョンの広い領域で注目を集め、有望なパフォーマンスを示している。 これらの手法は、少数のラベル付きデータサンプルと大量のラベル付きデータサンプルを併用し、大量のラベル付きデータサンプルでトレーニングされた教師付き学習モデルに匹敵する高性能モデルを開発することを目的としている。 本研究では,マルチクラス雑草検出のための半教師付き学習フレームワークの有効性を評価し,FCOSとFaster-RCNNという2つのよく知られたオブジェクト検出フレームワークを用いた。 具体的には,改良された擬似ラベル生成モジュールを用いて一般化された学生教師フレームワークを評価し,ラベルなしデータに対して信頼性の高い擬似ラベルを生成する。 一般化を促進するために、訓練プロセスを容易にするためにアンサンブル学生ネットワークを用いる。 実験の結果,コッテンウィードデット3とコットンウィードデット12のラベル付きデータのわずか10\%で教師あり手法として,76\%,96\%検出精度が得られた。 ソースコードへのアクセスを提供し、雑草検出などの半教師あり学習研究に有用なリソースを提供しています。

Effective weed control plays a crucial role in optimizing crop yield and enhancing agricultural product quality. However, the reliance on herbicide application not only poses a critical threat to the environment but also promotes the emergence of resistant weeds. Fortunately, recent advances in precision weed management enabled by ML and DL provide a sustainable alternative. Despite great progress, existing algorithms are mainly developed based on supervised learning approaches, which typically demand large-scale datasets with manual-labeled annotations, which is time-consuming and labor-intensive. As such, label-efficient learning methods, especially semi-supervised learning, have gained increased attention in the broader domain of computer vision and have demonstrated promising performance. These methods aim to utilize a small number of labeled data samples along with a great number of unlabeled samples to develop high-performing models comparable to the supervised learning counterpart trained on a large amount of labeled data samples. In this study, we assess the effectiveness of a semi-supervised learning framework for multi-class weed detection, employing two well-known object detection frameworks, namely FCOS and Faster-RCNN. Specifically, we evaluate a generalized student-teacher framework with an improved pseudo-label generation module to produce reliable pseudo-labels for the unlabeled data. To enhance generalization, an ensemble student network is employed to facilitate the training process. Experimental results show that the proposed approach is able to achieve approximately 76\% and 96\% detection accuracy as the supervised methods with only 10\% of labeled data in CottenWeedDet3 and CottonWeedDet12, respectively. We offer access to the source code, contributing a valuable resource for ongoing semi-supervised learning research in weed detection and beyond.
翻訳日:2024-03-07 16:36:18 公開日:2024-03-06
# 強いカップリングにおける開量子系における浴誘起相互作用と過渡ダイナミクス:効果的なハミルトンアプローチ

Bath-induced interactions and transient dynamics in open quantum systems at strong coupling: Effective Hamiltonian approach ( http://arxiv.org/abs/2403.03386v1 )

ライセンス: Link先を確認
Marlon Brenes and Brett Min and Nicholas Anto-Sztrikacs and Nir Bar-Gill and Dvira Segal(参考訳) 散逸量子系のダイナミクスを理解することは、特に弱結合近似を超えて、様々な量子応用の中心となる。 数値的に正確な手法は正確な解を提供するが、理論的なアプローチによる分析的な洞察を欠くことが多い。 本研究では, システムバス結合エネルギーの摂動的記述に頼ることなく, システムバス構成の力学を理解するために, 最近開発された手法である 'emph{ Effective Hamiltonian theory' を用いる。 写像ステップと切断の組合せを通じて、有効ハミルトニアン理論は、開量子系における強結合のシグネチャに関する解析的洞察と数値シミュレーションのための素直な経路の両方を提供する。 この方法の精度を検証するために, ボソニック浴槽に浸漬した1つのスピンと, 共通の浴槽に2つの非相互作用スピンという, 2つの標準模型に適用した。 いずれの場合も、非ゼロ温度における過渡的な状態と定常的な状態の限界、および弱い状態から強い状態へのシステム-バス相互作用について検討する。 実効的なハミルトニアン理論の結果と数値的厳密なシミュレーションを比較することにより、前者は過渡的平衡ダイナミクスにおける非マルコフ的特徴を見落としているが、その同期動力学と相関で観察されるように、非摂動的浴生成結合を正確に捉えていることを示した。 全体として、効果的なハミルトニアン理論は強いカップリングダイナミクスと熱力学を理解するための強力なアプローチを提供し、リラクゼーションダイナミクスと定常状態極限の両方においてそのような相互作用のシグネチャを捉えている。

Understanding the dynamics of dissipative quantum systems, particularly beyond the weak coupling approximation, is central to various quantum applications. While numerically exact methods provide accurate solutions, they often lack the analytical insight provided by theoretical approaches. In this study, we employ the recently-developed method dubbed the \emph{effective Hamiltonian theory} to understand the dynamics of system-bath configurations without resorting to a perturbative description of the system-bath coupling energy. Through a combination of mapping steps and truncation, the effective Hamiltonian theory offers both analytical insights into signatures of strong couplings in open quantum systems and a straightforward path for numerical simulations. To validate the accuracy of the method, we apply it to two canonical models: a single spin immersed in a bosonic bath and two noninteracting spins in a common bath. In both cases, we study the transient regime and the steady state limit at nonzero temperature, and spanning system-bath interactions from the weak to the strong regime. By comparing the results of the effective Hamiltonian theory with numerically exact simulations, we show that although the former overlooks non-Markovian features in the transient equilibration dynamics, it correctly captures non-perturbative bath-generated couplings between otherwise non-interacting spins as observed in their synchronization dynamics and correlations. Altogether, the effective Hamiltonian theory offers a powerful approach to understanding strong coupling dynamics and thermodynamics, capturing the signatures of such interactions in both relaxation dynamics and in the steady state limit.
翻訳日:2024-03-07 16:35:53 公開日:2024-03-06
# マルチモーダル深層学習

Multi-modal Deep Learning ( http://arxiv.org/abs/2403.03385v1 )

ライセンス: Link先を確認
Chen Yuhua(参考訳) 本稿では,多変量医療研究の先駆けとして,単変量臨床データ分析のための深層学習手法について検討する。 Guo JingYuanの研究に基づいて、この研究は、CCT(Compact Convolutional Transformer)、Patch Up、そして革新的なCamCenterLoss技術を通じて臨床データ処理を洗練し、将来のマルチモーダル調査の基礎を確立する。 提案手法は,Guo JingYuan の ResNet や StageNet のアプローチと比較して,予測精度の向上と重篤度の向上を実証する。 画像プリトレーニングされた視覚トランスフォーマーバックボーンを用いた経時的臨床データ転送の新規性について,本研究は,cct,パッチアップ,新しいcamcenterlossの可能性に着目し,ディープラーニングフレームワークにおける単一モダリティ臨床データを処理し,将来的なマルチモーダル医療研究への道を開くとともに,正確かつパーソナライズされた医療を促進する。

This article investigates deep learning methodologies for single-modality clinical data analysis, as a crucial precursor to multi-modal medical research. Building on Guo JingYuan's work, the study refines clinical data processing through Compact Convolutional Transformer (CCT), Patch Up, and the innovative CamCenterLoss technique, establishing a foundation for future multimodal investigations. The proposed methodology demonstrates improved prediction accuracy and at tentiveness to critically ill patients compared to Guo JingYuan's ResNet and StageNet approaches. Novelty that using image-pretrained vision transformer backbone to perform transfer learning time-series clinical data.The study highlights the potential of CCT, Patch Up, and novel CamCenterLoss in processing single modality clinical data within deep learning frameworks, paving the way for future multimodal medical research and promoting precision and personalized healthcare
翻訳日:2024-03-07 16:35:20 公開日:2024-03-06
# 漸進的新しいクラス発見のための適応的発見とマージング

Adaptive Discovering and Merging for Incremental Novel Class Discovery ( http://arxiv.org/abs/2403.03382v1 )

ライセンス: Link先を確認
Guangyao Chen, Peixi Peng, Yangru Huang, Mengyue Geng, Yonghong Tian(参考訳) 生涯学習の重要なデシプラタムの1つは、未学習のデータから連続的に新しいクラスを発見することである。 中心となる課題は2つある: 確立された知識を破滅的に忘れてしまう問題を緩和しながら、新しいクラスを発見し、学習すること。 そこで本研究では,新しいカテゴリーを段階的に適応的に発見し,新たな知識をモデルに統合するために,adm(adaptive discovering and merge)と呼ばれる新しいパラダイムを提案する。 新しいクラスを適応的に発見するために、表現学習と新しいクラス発見を分離し、3重比較 (tc) と確率正規化 (pr) を用いて、適応カテゴリ割り当ての確率差と多様性を制約する。 学習した新しい知識を適応的にマージするために,適応モデルマージ (AMM) と呼ばれるベースブランチと新規ブランチとのハイブリッド構造を提案し,従来の知識を保存するために新しいブランチの干渉を低減し,性能損失やパラメータ増加を伴わずにベースモデルに新しいブランチをマージする。 いくつかのデータセットに対する大規模な実験により、ADMは既存のクラスインクリメンタルクラスディスカバリ(class-iNCD)アプローチよりも大幅に優れていた。 さらに,我々のAMMは,破滅的な忘れの問題を軽減することで,クラスインクリメンタルラーニング(クラスインクリメンタルラーニング)の課題にも貢献する。

One important desideratum of lifelong learning aims to discover novel classes from unlabelled data in a continuous manner. The central challenge is twofold: discovering and learning novel classes while mitigating the issue of catastrophic forgetting of established knowledge. To this end, we introduce a new paradigm called Adaptive Discovering and Merging (ADM) to discover novel categories adaptively in the incremental stage and integrate novel knowledge into the model without affecting the original knowledge. To discover novel classes adaptively, we decouple representation learning and novel class discovery, and use Triple Comparison (TC) and Probability Regularization (PR) to constrain the probability discrepancy and diversity for adaptive category assignment. To merge the learned novel knowledge adaptively, we propose a hybrid structure with base and novel branches named Adaptive Model Merging (AMM), which reduces the interference of the novel branch on the old classes to preserve the previous knowledge, and merges the novel branch to the base model without performance loss and parameter growth. Extensive experiments on several datasets show that ADM significantly outperforms existing class-incremental Novel Class Discovery (class-iNCD) approaches. Moreover, our AMM also benefits the class-incremental Learning (class-IL) task by alleviating the catastrophic forgetting problem.
翻訳日:2024-03-07 16:34:58 公開日:2024-03-06
# 混合LoRA:大規模言語モデルのための効率的なマルチタスクチューニング

Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language Models ( http://arxiv.org/abs/2403.03432v1 )

ライセンス: Link先を確認
Wenfeng Feng and Chuzhan Hao and Yuewei Zhang and Yu Han and Hao Wang(参考訳) インストラクションチューニングは、大きな言語モデル(LLM)の特定の能力を刺激または強化する可能性がある。 しかし、データの適切なバランスを達成することは、破滅的な忘れ込みやタスク間の干渉を防止するために重要である。 LLMを用いたマルチタスク学習のための新しいパラメータ効率チューニング手法であるMixture-of-LoRA(Mixture-of-LoRAs)アーキテクチャを提案する。 本稿では,教師付きコーパスデータを用いて複数のドメイン固有loraモジュールを個別に訓練することから始める。 これらのLoRAモジュールは、Mixture-of-Experts (MoE)で観察される専門家の設計原則と整合することができる。 その後、明示的なルーティング戦略を用いて複数のLoRAを組み合わせてドメインラベルを導入し、タスク間の干渉を防止し、個々のタスクのパフォーマンスを最終的に向上させるマルチタスク学習を容易にする。 さらに、各loraモデルは反復的に新しいドメインに適応することができ、素早くドメイン固有の適応を可能にする。 多様なタスクの実験は、優れた、堅牢な性能を示し、ドメイン固有のLLMの幅広い適用を促進することができる。

Instruction Tuning has the potential to stimulate or enhance specific capabilities of large language models (LLMs). However, achieving the right balance of data is crucial to prevent catastrophic forgetting and interference between tasks. To address these limitations and enhance training flexibility, we propose the Mixture-of-LoRAs (MoA) architecture which is a novel and parameter-efficient tuning method designed for multi-task learning with LLMs. In this paper, we start by individually training multiple domain-specific LoRA modules using corresponding supervised corpus data. These LoRA modules can be aligned with the expert design principles observed in Mixture-of-Experts (MoE). Subsequently, we combine the multiple LoRAs using an explicit routing strategy and introduce domain labels to facilitate multi-task learning, which help prevent interference between tasks and ultimately enhances the performance of each individual task. Furthermore, each LoRA model can be iteratively adapted to a new domain, allowing for quick domain-specific adaptation. Experiments on diverse tasks demonstrate superior and robust performance, which can further promote the wide application of domain-specific LLMs.
翻訳日:2024-03-07 16:27:49 公開日:2024-03-06
# テキストガイド画像編集のための安定拡散における交差と自己注意の理解に向けて

Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing ( http://arxiv.org/abs/2403.03431v1 )

ライセンス: Link先を確認
Bingyan Liu, Chengyu Wang, Tingfeng Cao, Kui Jia, Jun Huang(参考訳) 安定拡散のような深いテキストから画像への合成(tis)モデルは最近、創造的なテキストから画像への生成で大きな人気を得ている。 しかし、ドメイン固有のシナリオでは、チューニングフリーなテキストガイド付き画像編集(tie)がアプリケーション開発者にとってより重要である。 しかし,これらの注意層がどのような意味を持つのか,どの部分の注意マップが画像編集の成功に寄与しているかは分かっていない。 本稿では,本論文の詳細な探索分析を行い,安定拡散における相互注意マップには,しばしば編集失敗の原因となるオブジェクト帰属情報が含まれていることを示す。 対照的に、自己注意マップは、ターゲット画像への変換中に、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を果たす。 本分析は拡散モデルにおける交叉および自己随伴写像の理解に有用な知見を与える。 さらに,本研究は,画像編集手法を単純化し,特定注意層の自己参照マップのみを修飾する,より簡単でより安定で効率的なチューニングフリーな手順を提案する。 実験の結果,提案手法は複数のデータセットに対する一般的な手法の性能を常に上回ることがわかった。

Deep Text-to-Image Synthesis (TIS) models such as Stable Diffusion have recently gained significant popularity for creative Text-to-image generation. Yet, for domain-specific scenarios, tuning-free Text-guided Image Editing (TIE) is of greater importance for application developers, which modify objects or object properties in images by manipulating feature components in attention layers during the generation process. However, little is known about what semantic meanings these attention layers have learned and which parts of the attention maps contribute to the success of image editing. In this paper, we conduct an in-depth probing analysis and demonstrate that cross-attention maps in Stable Diffusion often contain object attribution information that can result in editing failures. In contrast, self-attention maps play a crucial role in preserving the geometric and shape details of the source image during the transformation to the target image. Our analysis offers valuable insights into understanding cross and self-attention maps in diffusion models. Moreover, based on our findings, we simplify popular image editing methods and propose a more straightforward yet more stable and efficient tuning-free procedure that only modifies self-attention maps of the specified attention layers during the denoising process. Experimental results show that our simplified method consistently surpasses the performance of popular approaches on multiple datasets.
翻訳日:2024-03-07 16:27:19 公開日:2024-03-06
# 機械学習と搭載型宇宙船によるケプラーの単一トランジット検出

Single Transit Detection In Kepler With Machine Learning And Onboard Spacecraft Diagnostics ( http://arxiv.org/abs/2403.03427v1 )

ライセンス: Link先を確認
Matthew T. Hansen and Jason A. Dittmann(参考訳) 長い軌道周期での太陽系外惑星の発見は、システムに関する追加情報なしで個々のトランジットを確実に検出する必要がある。 光度曲線の位相フォールディングやラジアル速度データの周期分析といった技術は、軌道周期が短い惑星よりも感度が高く、長い期間に多くの惑星の発見が残されている。 本稿では,光曲線内での遷移を分類するために,船上探査機の診断を取り入れた畳み込みニューラルネットワークのアンサンブルを用いた新しい手法を提案する。 我々は、個々のトランジットの位置と軌道上の惑星の周期を回復するパイプラインを作成し、800日間の軌道周期から80セントのトランジット回復感度を維持する。 私たちのニューラルネットワークパイプラインは、emph{Kepler}データセットで、そして重要なことに、$$\eta$-Earth政権内で、追加の惑星を発見する可能性がある。 このパイプラインの最初の候補であるKOI 1271.02を報告します。 KOI 1271.01は、強いトランジットタイミング変化(TTV)を示すことで知られており、トランジット惑星のTTVとトランジットを共同でモデル化して、軌道構成と惑星パラメータを制約し、現在システムに一意に制約する十分なデータが存在しないため、KOI 1271.02の潜在的なパラメータを一連のパラメータで結論付ける。 KOI 1271.02 の半径は 5.32 $\pm$ 0.20 $R_{\oplus}$ であり、質量は 28.94^{0.23}_{-0.47}$ M_{\oplus}$ である。 将来のKoI 1271.02の性質に関する制約は、KoI 1271.01のさらなるTTVの測定や、KoI 1271.02の2回目のトランジットの観測を必要とする。

Exoplanet discovery at long orbital periods requires reliably detecting individual transits without additional information about the system. Techniques like phase-folding of light curves and periodogram analysis of radial velocity data are more sensitive to planets with shorter orbital periods, leaving a dearth of planet discoveries at long periods. We present a novel technique using an ensemble of Convolutional Neural Networks incorporating the onboard spacecraft diagnostics of \emph{Kepler} to classify transits within a light curve. We create a pipeline to recover the location of individual transits, and the period of the orbiting planet, which maintains $>80\%$ transit recovery sensitivity out to an 800-day orbital period. Our neural network pipeline has the potential to discover additional planets in the \emph{Kepler} dataset, and crucially, within the $\eta$-Earth regime. We report our first candidate from this pipeline, KOI 1271.02. KOI 1271.01 is known to exhibit strong Transit Timing Variations (TTVs), and so we jointly model the TTVs and transits of both transiting planets to constrain the orbital configuration and planetary parameters and conclude with a series of potential parameters for KOI 1271.02, as there is not enough data currently to uniquely constrain the system. We conclude that KOI 1271.02 has a radius of 5.32 $\pm$ 0.20 $R_{\oplus}$ and a mass of $28.94^{0.23}_{-0.47}$ $M_{\oplus}$. Future constraints on the nature of KOI 1271.02 require measuring additional TTVs of KOI 1271.01 or observing a second transit of KOI 1271.02.
翻訳日:2024-03-07 16:26:55 公開日:2024-03-06
# sculpting molecules in 3d: テキスト指向分子最適化のための柔軟な部分構造認識フレームワーク

Sculpting Molecules in 3D: A Flexible Substructure Aware Framework for Text-Oriented Molecular Optimization ( http://arxiv.org/abs/2403.03425v1 )

ライセンス: Link先を確認
Kaiwei Zhang, Yange Lin, Guangcheng Wu, Yuxiang Ren, Xuecang Zhang, Bo wang, Xiaoyu Zhang, Weitao Du(参考訳) ディープラーニング、特にai生成コンテンツとab initio計算に基づく高品質データの統合は、科学研究の展望を変える有望な道筋として浮上している。 しかし、マルチモーダリティの事前知識を取り入れた分子薬や材料を設計するという課題は、依然として重要かつ複雑な作業である。 特に、実用的な分子設計を実現するには、多様性要件を満たすだけでなく、ドメインの専門家が概説した様々な対称性による構造的およびテクスチャ的制約に対処する必要がある。 本稿では,マルチモダリティ誘導生成・最適化タスクとして定式化することで,この逆設計問題に取り組むための革新的アプローチを提案する。 提案手法は,分子生成・最適化タスク,すなわち3DToMoloの実装のためのテクスチャ構造アライメント対称拡散フレームワークを含む。 3DToMoloは様々なモダリティを調和させることを目的としており、この分野の専門家による特定の対称構造とテクスチャの制約に従う分子構造をシームレスに生成する。 3つのガイダンス生成環境での実験実験は、最先端の手法よりも優れたヒット生成性能を示した。 さらに、3DToMoloは、事前の知識を必要とせず、特定のターゲットサブ構造を組み込んだ新しい分子を生成する能力を示す。 この研究は、深層学習手法の進歩に一般的な重要性を持つだけでなく、分子設計戦略における変革的転換の道を開いた。 3DToMoloは、広大な化学空間のよりきめ細やかで効果的な探索の機会を生み出し、調整された性質と機能を持つ分子体の開発に新たなフロンティアを開く。

The integration of deep learning, particularly AI-Generated Content, with high-quality data derived from ab initio calculations has emerged as a promising avenue for transforming the landscape of scientific research. However, the challenge of designing molecular drugs or materials that incorporate multi-modality prior knowledge remains a critical and complex undertaking. Specifically, achieving a practical molecular design necessitates not only meeting the diversity requirements but also addressing structural and textural constraints with various symmetries outlined by domain experts. In this article, we present an innovative approach to tackle this inverse design problem by formulating it as a multi-modality guidance generation/optimization task. Our proposed solution involves a textural-structure alignment symmetric diffusion framework for the implementation of molecular generation/optimization tasks, namely 3DToMolo. 3DToMolo aims to harmonize diverse modalities, aligning them seamlessly to produce molecular structures adhere to specified symmetric structural and textural constraints by experts in the field. Experimental trials across three guidance generation settings have shown a superior hit generation performance compared to state-of-the-art methodologies. Moreover, 3DToMolo demonstrates the capability to generate novel molecules, incorporating specified target substructures, without the need for prior knowledge. This work not only holds general significance for the advancement of deep learning methodologies but also paves the way for a transformative shift in molecular design strategies. 3DToMolo creates opportunities for a more nuanced and effective exploration of the vast chemical space, opening new frontiers in the development of molecular entities with tailored properties and functionalities.
翻訳日:2024-03-07 16:26:21 公開日:2024-03-06
# LEAD: ソースフリーユニバーサルドメイン適応のための学習分解

LEAD: Learning Decomposition for Source-free Universal Domain Adaptation ( http://arxiv.org/abs/2403.03421v1 )

ライセンス: Link先を確認
Sanqing Qu, Tianpei Zou, Lianghua He, Florian R\"ohrbein, Alois Knoll, Guang Chen, Changjun Jiang(参考訳) ユニバーサルドメイン適応(UniDA)は、共変量とラベルシフトの両方が存在する場合の知識伝達を目標としている。 最近、ソースフリーのユニバーサルドメイン適応(sf-unida)が、ソースデータにアクセスせずにunidaを実現するために登場し、データ保護ポリシーのためより実用的になりがちである。 主な課題は、共変量シフトされたサンプルがターゲットがプライベートな未知のカテゴリに属するかどうかを決定することである。 既存の手法では、手作りのしきい値設定や、時間を要する反復的クラスタリング戦略の開発によってこれに取り組む。 本稿では,学習分解(lead: learning decomposition)という新しい概念を提案する。 技術的には、LEADはまず直交分解解析を利用して特徴分解を行う。 そして、LEADは、ターゲットプライベートなデータを適応的に識別するために、インスタンスレベルの決定境界を構築する。 様々なUniDAシナリオにわたる大規模な実験は、LEADの有効性と優位性を実証した。 特に、VisDAデータセット上のOPDAシナリオでは、LEADはGLCを3.5%上回り、疑似ラベル決定境界を導出する75%の時間を短縮する。 さらに、LEADは既存のほとんどのメソッドを補完するという点でも魅力的である。 コードはhttps://github.com/ispc-lab/leadで入手できる。

Universal Domain Adaptation (UniDA) targets knowledge transfer in the presence of both covariate and label shifts. Recently, Source-free Universal Domain Adaptation (SF-UniDA) has emerged to achieve UniDA without access to source data, which tends to be more practical due to data protection policies. The main challenge lies in determining whether covariate-shifted samples belong to target-private unknown categories. Existing methods tackle this either through hand-crafted thresholding or by developing time-consuming iterative clustering strategies. In this paper, we propose a new idea of LEArning Decomposition (LEAD), which decouples features into source-known and -unknown components to identify target-private data. Technically, LEAD initially leverages the orthogonal decomposition analysis for feature decomposition. Then, LEAD builds instance-level decision boundaries to adaptively identify target-private data. Extensive experiments across various UniDA scenarios have demonstrated the effectiveness and superiority of LEAD. Notably, in the OPDA scenario on VisDA dataset, LEAD outperforms GLC by 3.5% overall H-score and reduces 75% time to derive pseudo-labeling decision boundaries. Besides, LEAD is also appealing in that it is complementary to most existing methods. The code is available at https://github.com/ispc-lab/LEAD.
翻訳日:2024-03-07 16:25:52 公開日:2024-03-06
# negating negatives: distributional dispreference optimization によるヒト陽性サンプルのないアライメント

Negating Negatives: Alignment without Human Positive Samples via Distributional Dispreference Optimization ( http://arxiv.org/abs/2403.03419v1 )

ライセンス: Link先を確認
Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu(参考訳) 大規模言語モデル(LLM)はAIの役割に革命をもたらしたが、非倫理的コンテンツを伝播する潜在的なリスクも生じている。 LLMを人間の嗜好に向かわせるためにアライメント技術が導入され、注目を集めている。 この方向の顕著なブレークスルーにもかかわらず、既存の手法は高品質な正負のトレーニングペアに大きく依存しており、ノイズラベルに悩まされており、好ましくない反応データと好ましくない反応データとの差がある。 近年のLCMの有効な応答生成能力を考えると、この研究は人間だけの陰性サンプルを用いてアライメントを達成すること、有害性を抑えながら有用性を維持すること、という新たな研究に焦点をあてている。 そこで,本研究では,生成した応答と予測されていない応答との間の不一致を最大化し,有害な情報を効果的に回避する分布的不参照最適化(d$^2$o)を提案する。 理論的には、D$^2$Oは、負の応答の分布に対する人間の軽視を反映するインスタンスレベルの選好モデルではなく、分布の学習と等価である。 さらに、D$^2$Oは暗黙のジェフリー・ディバージェンス正規化を統合し、参照ポリシーの活用と探索のバランスをとり、訓練中に非負のポリシーに収束する。 広範な実験により,本手法は同等の世代品質を達成し,より効率のよいトレーニング安定性とより高速な収束性を備えた,より有害でより有益な応答を生成する最新のベースラインを上回った。

Large language models (LLMs) have revolutionized the role of AI, yet also pose potential risks of propagating unethical content. Alignment technologies have been introduced to steer LLMs towards human preference, gaining increasing attention. Despite notable breakthroughs in this direction, existing methods heavily rely on high-quality positive-negative training pairs, suffering from noisy labels and the marginal distinction between preferred and dispreferred response data. Given recent LLMs' proficiency in generating helpful responses, this work pivots towards a new research focus: achieving alignment using solely human-annotated negative samples, preserving helpfulness while reducing harmfulness. For this purpose, we propose Distributional Dispreference Optimization (D$^2$O), which maximizes the discrepancy between the generated responses and the dispreferred ones to effectively eschew harmful information. We theoretically demonstrate that D$^2$O is equivalent to learning a distributional instead of instance-level preference model reflecting human dispreference against the distribution of negative responses. Besides, D$^2$O integrates an implicit Jeffrey Divergence regularization to balance the exploitation and exploration of reference policies and converges to a non-negative one during training. Extensive experiments demonstrate that our method achieves comparable generation quality and surpasses the latest baselines in producing less harmful and more informative responses with better training stability and faster convergence.
翻訳日:2024-03-07 16:25:31 公開日:2024-03-06
# 終末期メンタルヘルス研究のための感情処理の有限状態の活用

Leveraging The Finite States of Emotion Processing to Study Late-Life Mental Health ( http://arxiv.org/abs/2403.03414v1 )

ライセンス: Link先を確認
Yuanzhe Huang, Saurab Faruque, Minjie Wu, Akiko Mizuno, Eduardo Diniz, Shaolin Yang, George Dewitt Stetten, Noah Schweitzer, Hecheng Jin, Linghai Wang, Howard J. Aizenstein(参考訳) 精神保健研究における伝統的なアプローチは、観察された精神行動測定の経時的ダイナミクスを記述するために一般線形モデル(GLM)を用いている。 同様に、GLMは神経生物学的測定(地域fMRI信号)と知覚刺激や他の地域信号との関係を特徴づけるためにも用いられる。 これらの手法は、これらの構成要素の孤立した信号(要約スコアやfmri信号)間の線形相関を探索するのに有用であるが、これらの古典的なフレームワークは、観測可能な変化の基礎となるシステムレベルのダイナミクスに関する洞察を提供するのに不足している。 隠れマルコフモデル(HMM)は、複数の可観測構造間の逐次関係を記述できる統計モデルであり、有限状態オートマタ(FSA)のレンズを通して適用すると、制御器が生成する出力信号を線形に関連付けるのとは対照的に、根底にある制御器(入力への応答の基準)をモデル化し理解するための、より統合的で直感的なフレームワークを提供することができる。 本稿では,単純かつ直感的なhmm処理パイプラインvchmm(予備データ参照)を提案し,fsa理論を強調し,アンケートデータとfmriデータの行動分析に適用する。 HMMは、チューリングマシン(TM)の制御プロセッサであるFSAと計算的に等価であるため、理論的な約束を提供する。 隠れた状態の最も可能性の高いシーケンスを効率的に識別する。 vcHMMパイプラインは、この文法を利用して、行動と神経活動がうつにどのように関係するかを理解する。

Traditional approaches in mental health research apply General Linear Models (GLM) to describe the longitudinal dynamics of observed psycho-behavioral measurements (questionnaire summary scores). Similarly, GLMs are also applied to characterize relationships between neurobiological measurements (regional fMRI signals) and perceptual stimuli or other regional signals. While these methods are useful for exploring linear correlations among the isolated signals of those constructs (i.e., summary scores or fMRI signals), these classical frameworks fall short in providing insights into the comprehensive system-level dynamics underlying observable changes. Hidden Markov Models (HMM) are a statistical model that enable us to describe the sequential relations among multiple observable constructs, and when applied through the lens of Finite State Automata (FSA), can provide a more integrated and intuitive framework for modeling and understanding the underlying controller (the prescription for how to respond to inputs) that fundamentally defines any system, as opposed to linearly correlating output signals produced by the controller. We present a simple and intuitive HMM processing pipeline vcHMM (See Preliminary Data) that highlights FSA theory and is applicable for both behavioral analysis of questionnaire data and fMRI data. HMMs offer theoretic promise as they are computationally equivalent to the FSA, the control processor of a Turing Machine (TM) The dynamic programming Viterbi algorithm is used to leverage the HMM model. It efficiently identifies the most likely sequence of hidden states. The vcHMM pipeline leverages this grammar to understand how behavior and neural activity relate to depression.
翻訳日:2024-03-07 16:25:01 公開日:2024-03-06
# データ浄化と動的活性化関数設計による分散検出の高度化

Advancing Out-of-Distribution Detection through Data Purification and Dynamic Activation Function Design ( http://arxiv.org/abs/2403.03412v1 )

ライセンス: Link先を確認
Yingrui Ji, Yao Zhu, Zhigang Li, Jiansheng Chen, Yunlong Kong and Jingbo Chen(参考訳) 機械学習とディープラーニングのダイナミックな領域では、モデルの堅牢性と信頼性が最重要である。 この領域における根本的な課題は、アウト・オブ・ディストリビューション(OOD)のサンプルを管理し、モデルの誤分類と不確実性のリスクを大幅に増加させることである。 ニューラルネットワークにおけるOODサンプルの検出と管理を強化することで,この問題に対処する。 OOD-R(Out-of-Distribution-Rectified)は,ノイズ低減特性が向上したオープンソースデータセットの集合体である。 既存のOODデータセットのIDノイズは、検出アルゴリズムの不正確な評価につながる可能性がある。 これを認識して、OOD-Rはノイズフィルタリング技術を組み込んでデータセットを洗練し、OOD検出アルゴリズムのより正確で信頼性の高い評価を保証する。 このアプローチはデータの全体的な品質を向上するだけでなく、OODとIDサンプルの識別性の向上にも役立ち、モデル精度が2.5倍に向上し、偽陽性が最低3.2倍に低下する。 さらに,様々な入力に対するモデルの応答を微調整し,特徴抽出の安定性を改善し,特異性を最小化する手法であるactfunを提案する。 ActFunは、隠蔽ユニットの影響を戦略的に低減することで、OOD検出におけるモデル過信の一般的な問題に対処し、OODの不確実性をより正確に推定するモデルの能力を高める。 OOD-Rデータセットに ActFun を実装することで、GradNorm 法の AUROC が 18.42 % 増加し、Energy 法の FPR95 が 16.93 % 減少した。 全体として、OOD検出の方法論を進歩させるだけでなく、正確なアルゴリズム評価のためのデータセット整合性の重要性も強調している。

In the dynamic realms of machine learning and deep learning, the robustness and reliability of models are paramount, especially in critical real-world applications. A fundamental challenge in this sphere is managing Out-of-Distribution (OOD) samples, significantly increasing the risks of model misclassification and uncertainty. Our work addresses this challenge by enhancing the detection and management of OOD samples in neural networks. We introduce OOD-R (Out-of-Distribution-Rectified), a meticulously curated collection of open-source datasets with enhanced noise reduction properties. In-Distribution (ID) noise in existing OOD datasets can lead to inaccurate evaluation of detection algorithms. Recognizing this, OOD-R incorporates noise filtering technologies to refine the datasets, ensuring a more accurate and reliable evaluation of OOD detection algorithms. This approach not only improves the overall quality of data but also aids in better distinguishing between OOD and ID samples, resulting in up to a 2.5\% improvement in model accuracy and a minimum 3.2\% reduction in false positives. Furthermore, we present ActFun, an innovative method that fine-tunes the model's response to diverse inputs, thereby improving the stability of feature extraction and minimizing specificity issues. ActFun addresses the common problem of model overconfidence in OOD detection by strategically reducing the influence of hidden units, which enhances the model's capability to estimate OOD uncertainty more accurately. Implementing ActFun in the OOD-R dataset has led to significant performance enhancements, including an 18.42\% increase in AUROC of the GradNorm method and a 16.93\% decrease in FPR95 of the Energy method. Overall, our research not only advances the methodologies in OOD detection but also emphasizes the importance of dataset integrity for accurate algorithm evaluation.
翻訳日:2024-03-07 16:24:27 公開日:2024-03-06
# LSTM, SVM, ポリノミアル回帰を用いた暗号価格の予測

Prediction Of Cryptocurrency Prices Using LSTM, SVM And Polynomial Regression ( http://arxiv.org/abs/2403.03410v1 )

ライセンス: Link先を確認
Novan Fauzi Al Giffary, Feri Sulianta(参考訳) 情報技術の急速な発展、特にインターネットは、利用者が情報を探すのを素早く簡単に行えるようにしている。 インターネットサービスが提供するこうした利便性により、金や貴金属に投資した多くの個人は暗号通貨の形でデジタル投資にシフトしつつある。 しかし、暗号通貨への投資は日々の不確実性と変動に満ちている。 このリスクはコイン投資家にとって大きな課題となり、実質的な投資損失につながる可能性がある。 これらの暗号通貨の価値の不確実性は、コイン投資の分野において重要な問題である。 予測は、これらの暗号通貨の将来的な価値を予測する方法の1つである。 暗号通貨価格の予測に最も適したアルゴリズムモデルを決定するために,長期記憶,サポートベクトルマシン,ポリノミアル回帰アルゴリズムのモデルを用いて,性能比較を行った。 平均二乗誤差は比較のベンチマークとして用いられる。 これら3つのアルゴリズムモデルを適用することで、サポートベクターマシンは線形カーネルを用いて、平均二乗誤差値0.02の長い短期記憶モデルと多項式回帰アルゴリズムモデルと比較して、最小の平均二乗誤差を生成する。 キーワード:暗号通貨、予測、長期短期記憶、平均二乗誤差、多項式回帰、サポートベクターマシン

The rapid development of information technology, especially the Internet, has facilitated users with a quick and easy way to seek information. With these convenience offered by internet services, many individuals who initially invested in gold and precious metals are now shifting into digital investments in form of cryptocurrencies. However, investments in crypto coins are filled with uncertainties and fluctuation in daily basis. This risk posed as significant challenges for coin investors that could result in substantial investment losses. The uncertainty of the value of these crypto coins is a critical issue in the field of coin investment. Forecasting, is one of the methods used to predict the future value of these crypto coins. By utilizing the models of Long Short Term Memory, Support Vector Machine, and Polynomial Regression algorithm for forecasting, a performance comparison is conducted to determine which algorithm model is most suitable for predicting crypto currency prices. The mean square error is employed as a benchmark for the comparison. By applying those three constructed algorithm models, the Support Vector Machine uses a linear kernel to produce the smallest mean square error compared to the Long Short Term Memory and Polynomial Regression algorithm models, with a mean square error value of 0.02. Keywords: Cryptocurrency, Forecasting, Long Short Term Memory, Mean Square Error, Polynomial Regression, Support Vector Machine
翻訳日:2024-03-07 16:23:51 公開日:2024-03-06
# スパーススパイクニューラルネットワーク:繰り返しSNNの時間スケールにおける不均一性の爆発

Sparse Spiking Neural Network: Exploiting Heterogeneity in Timescales for Pruning Recurrent SNN ( http://arxiv.org/abs/2403.03409v1 )

ライセンス: Link先を確認
Biswadeep Chakraborty, Beomseok Kang, Harshit Kumar and Saibal Mukhopadhyay(参考訳) リカレントスパイキングニューラルネットワーク(RSNN)は、計算効率が高く脳に触発された学習モデルとして登場した。 より少ないニューロンとシナプスを持つスパースRSNNの設計は、RSNNの計算複雑性を低減するのに役立つ。 伝統的に、スパースSNNは、まずターゲットタスクのために密度が高く複雑なSNNを訓練し、次に、タスクパフォーマンスを維持しながら低活性(アクティビティベースプルーニング)でニューロンを刈り取ることで得られる。 これとは対照的に,大規模なランダム初期化モデルを用いてスパースRSNNを設計するタスク非依存手法を提案する。 グラフスカラー化法とリアプノフ指数を用いてランダムに初期化したRSNNから安定なスパースRSNNを設計する新しいリアプノフノイズプラニング(LNP)アルゴリズムを提案する。 神経系時間尺度の多様性を活かして,低分子量ヘテロジニアスRSNN(HRSNN)を設計できることを示す。 さらに,画像分類や時間予測などの異なるタスクに対して,同じスパースHRSNNモデルをトレーニング可能であることを示す。 タスクに依存しないにもかかわらず、LNPは、訓練された高密度モデルの伝統的なアクティビティベースプルーニングと比較して、RSNNの計算効率(低ニューロンとシナプス)と予測性能を向上させることを実験的に示す。

Recurrent Spiking Neural Networks (RSNNs) have emerged as a computationally efficient and brain-inspired learning model. The design of sparse RSNNs with fewer neurons and synapses helps reduce the computational complexity of RSNNs. Traditionally, sparse SNNs are obtained by first training a dense and complex SNN for a target task, and, then, pruning neurons with low activity (activity-based pruning) while maintaining task performance. In contrast, this paper presents a task-agnostic methodology for designing sparse RSNNs by pruning a large randomly initialized model. We introduce a novel Lyapunov Noise Pruning (LNP) algorithm that uses graph sparsification methods and utilizes Lyapunov exponents to design a stable sparse RSNN from a randomly initialized RSNN. We show that the LNP can leverage diversity in neuronal timescales to design a sparse Heterogeneous RSNN (HRSNN). Further, we show that the same sparse HRSNN model can be trained for different tasks, such as image classification and temporal prediction. We experimentally show that, in spite of being task-agnostic, LNP increases computational efficiency (fewer neurons and synapses) and prediction performance of RSNNs compared to traditional activity-based pruning of trained dense models.
翻訳日:2024-03-07 16:23:30 公開日:2024-03-06
# 伝統的東洋景観絵画からの景観深度推定

Scene Depth Estimation from Traditional Oriental Landscape Paintings ( http://arxiv.org/abs/2403.03408v1 )

ライセンス: Link先を確認
Sungho Kang, YeongHyeon Park, Hyunkyu Park and Juneho Yi(参考訳) 絵画からのシーン深度推定は、視覚障害者が触覚で絵画を鑑賞できるように、3D彫刻作成の過程を合理化することができる。 しかし、奥行きや保存不足を描写する独自の方法により、東洋の風景画の深さを測定することは極めて困難である。 東洋の風景画画像からシーン深度を推定する問題に対処するため,CLIPをベースとした2段階の画像変換手法を前面に配置し,与えられた東洋の風景画画像と最もよく一致する実景画像を予測する新しい枠組みを提案する。 次に,生成された実シーン画像に対して,事前学習したSOTA深度推定モデルを用いる。 最初のステップでは、CycleGANは、東洋の風景画画像を擬似現実の風景画に変換する。 我々はCLIPを用いて風景画像と東洋の風景画像とをセマンティックにマッチングし、CycleGANを教師なしで訓練する。 そして、擬似現実風景画像と東洋風景絵画画像とをDiffuseITに入力し、第2ステップで最終現実風景画像を予測する。 最後に,midasのような事前学習した深度推定モデルを用いて,生成した実景画像の深さを測定する。 実験結果から,本手法はオリエンタル・ランドスケープ・ペインティング・イメージに対応する実際のシーン画像を予測するのに十分な性能を示した。 我々の知る限りでは、これは東洋の風景画の深さを測定する最初の研究である。 私たちの研究は、視覚障害者が様々な方法で絵を体験するのに役立つ可能性がある。 コードと結果のデータセットをリリースします。

Scene depth estimation from paintings can streamline the process of 3D sculpture creation so that visually impaired people appreciate the paintings with tactile sense. However, measuring depth of oriental landscape painting images is extremely challenging due to its unique method of depicting depth and poor preservation. To address the problem of scene depth estimation from oriental landscape painting images, we propose a novel framework that consists of two-step Image-to-Image translation method with CLIP-based image matching at the front end to predict the real scene image that best matches with the given oriental landscape painting image. Then, we employ a pre-trained SOTA depth estimation model for the generated real scene image. In the first step, CycleGAN converts an oriental landscape painting image into a pseudo-real scene image. We utilize CLIP to semantically match landscape photo images with an oriental landscape painting image for training CycleGAN in an unsupervised manner. Then, the pseudo-real scene image and oriental landscape painting image are fed into DiffuseIT to predict a final real scene image in the second step. Finally, we measure depth of the generated real scene image using a pre-trained depth estimation model such as MiDaS. Experimental results show that our approach performs well enough to predict real scene images corresponding to oriental landscape painting images. To the best of our knowledge, this is the first study to measure the depth of oriental landscape painting images. Our research potentially assists visually impaired people in experiencing paintings in diverse ways. We will release our code and resulting dataset.
翻訳日:2024-03-07 16:23:06 公開日:2024-03-06
# Human vs. Machine: 言語モデルとウォーゲーム

Human vs. Machine: Language Models and Wargames ( http://arxiv.org/abs/2403.03407v1 )

ライセンス: Link先を確認
Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro, Jacquelyn Schneider, Harold Trinkunas(参考訳) 戦争は軍事戦略の発展と国家の脅威や攻撃に対する対応において長い歴史を持っている。 人工知能(AI)の出現は、より良い意思決定と軍事効果を約束する。 しかし、AIシステム、特に大きな言語モデル(LLM)がどのように振る舞うかについては、人間と比べて議論がある。 この目的のために,米国と中国の架空のシナリオにおける危機エスカレーションを考慮し,人間のプレイヤーとLDMシミュレーションされた反応を比較するように設計された107人の国家安全保障専門家によるウォーゲーム実験を使用する。 llmと人間の反応には相当な一致が見られるが、戦争におけるシミュレートされたプレイヤーと人間のプレイヤーの間の有意な量的・質的な違いは、自律性やaiベースの戦略推奨に従う前に政策立案者に注意を促している。

Wargames have a long history in the development of military strategy and the response of nations to threats or attacks. The advent of artificial intelligence (AI) promises better decision-making and increased military effectiveness. However, there is still debate about how AI systems, especially large language models (LLMs), behave as compared to humans. To this end, we use a wargame experiment with 107 national security expert human players designed to look at crisis escalation in a fictional US-China scenario and compare human players to LLM-simulated responses. We find considerable agreement in the LLM and human responses but also significant quantitative and qualitative differences between simulated and human players in the wargame, motivating caution to policymakers before handing over autonomy or following AI-based strategy recommendations.
翻訳日:2024-03-07 16:22:42 公開日:2024-03-06
# 作物成長モデルのためのEnKF-LSTM同化アルゴリズム

An EnKF-LSTM Assimilation Algorithm for Crop Growth Model ( http://arxiv.org/abs/2403.03406v1 )

ライセンス: Link先を確認
Siqi Zhou, Ling Wang, Jie Liu, Jinshan Tang(参考訳) 作物の生育の正確かつタイムリーな予測は、作物の収量を確保する上で非常に重要であり、研究者は作物の生育予測のためのいくつかの作物モデルを開発した。 しかし,作物モデルで得られたシミュレーション結果と実際の結果には大きな差があり,本論文ではデータ同化のために収集した作物データとシミュレーション結果を組み合わせることにより,予測精度を向上させることを提案した。 本稿では,既存のデータ同化手法の過剰適合問題を効果的に回避し,測定データの不確かさを解消するアンサンブルカルマンフィルタとlstmニューラルネットワークを組み合わせた,各種作物のenkf-lstmデータ同化手法を提案する。 農場に設置したセンサ機器から収集したデータセットを用いて,提案手法の検証と,提案手法と他のデータ同化法との比較を行った。

Accurate and timely prediction of crop growth is of great significance to ensure crop yields and researchers have developed several crop models for the prediction of crop growth. However, there are large difference between the simulation results obtained by the crop models and the actual results, thus in this paper, we proposed to combine the simulation results with the collected crop data for data assimilation so that the accuracy of prediction will be improved. In this paper, an EnKF-LSTM data assimilation method for various crops is proposed by combining ensemble Kalman filter and LSTM neural network, which effectively avoids the overfitting problem of existing data assimilation methods and eliminates the uncertainty of the measured data. The verification of the proposed EnKF-LSTM method and the comparison of the proposed method with other data assimilation methods were performed using datasets collected by sensor equipment deployed on a farm.
翻訳日:2024-03-07 16:22:27 公開日:2024-03-06
# 視覚・言語ナビゲーションのための因果関係に基づくクロスモーダル表現学習

Causality-based Cross-Modal Representation Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2403.03405v1 )

ライセンス: Link先を確認
Liuyi Wang, Zongtao He, Ronghao Dang, Huiyi Chen, Chengju Liu, Qijun Chen(参考訳) VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究関心を集めている。 しかし、既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。 本稿では、因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案し、不偏形特徴表現を学習できる堅牢なナビゲータを訓練する。 具体的には、構造化因果モデル(SCM)を用いて、VLNにおける視覚と言語のための共同創設者に関する合理的な仮定を確立する。 そこで我々は,共同創設者に対する適応的かつ効果的な介入を可能にする,反復的バックドアベース表現学習(IBRL)手法を提案する。 さらに,訓練や検証中にマルチモダリティに対して偏りのない特徴表現を可能にするために,視覚的および言語的バックドア因果エンコーダを導入することで,エージェントが異なる環境にまたがって一般化する能力を高める。 3つのVLNデータセット(R2R、RxR、REVERIE)の実験では、従来の最先端手法よりも提案手法の方が優れていることが示された。 さらに,詳細な可視化解析により,視認環境と視認環境間の性能ギャップを著しく狭め,その強汎化能力が強調されたcausalvlnの有効性が示された。

Vision-and-Language Navigation (VLN) has gained significant research interest in recent years due to its potential applications in real-world scenarios. However, existing VLN methods struggle with the issue of spurious associations, resulting in poor generalization with a significant performance gap between seen and unseen environments. In this paper, we tackle this challenge by proposing a unified framework CausalVLN based on the causal learning paradigm to train a robust navigator capable of learning unbiased feature representations. Specifically, we establish reasonable assumptions about confounders for vision and language in VLN using the structured causal model (SCM). Building upon this, we propose an iterative backdoor-based representation learning (IBRL) method that allows for the adaptive and effective intervention on confounders. Furthermore, we introduce the visual and linguistic backdoor causal encoders to enable unbiased feature expression for multi-modalities during training and validation, enhancing the agent's capability to generalize across different environments. Experiments on three VLN datasets (R2R, RxR, and REVERIE) showcase the superiority of our proposed method over previous state-of-the-art approaches. Moreover, detailed visualization analysis demonstrates the effectiveness of CausalVLN in significantly narrowing down the performance gap between seen and unseen environments, underscoring its strong generalization capability.
翻訳日:2024-03-07 16:22:11 公開日:2024-03-06
# BAIT:インタラクティブな理論開発のためのベンチマーク(埋め込み)アーキテクチャ

BAIT: Benchmarking (Embedding) Architectures for Interactive Theorem-Proving ( http://arxiv.org/abs/2403.03401v1 )

ライセンス: Link先を確認
Sean Lamont, Michael Norrish, Amir Dezfouli, Christian Walder, Paul Montague(参考訳) Theorem Provingのための人工知能は、特にInteractive Theorem Proving (ITP)において、多くのベンチマークと方法論を生み出している。 この分野の研究は断片化されており、様々なアプローチがいくつかのITPシステムに分散している。 これは、しばしば複雑で複製が難しいメソッドの比較に重大な挑戦をもたらす。 そこで我々は,itp における学習アプローチを公平かつ合理的に比較するためのフレームワーク bait を提案する。 式埋め込み問題に適用可能な最先端アーキテクチャを,いくつかの itp ベンチマークで詳細に比較して bait の能力を示す。 構造認識変換器の動作は特に良好であり,元の問題集合に関連する技術の改善が期待できる。 BAITはまた、インタラクティブ環境上に構築されたシステムのエンドツーエンドのパフォーマンスを評価することもできる。 この統一的な視点は、以前の作業で改善される新しいエンドツーエンドシステムを明らかにする。 また,性能向上が意味論的に認識された埋め込みと関連していることを示す定性的な分析も提供する。 ITPコンテキストにおける機械学習アルゴリズムの実装と比較を合理化することによって、BAITが今後の研究の出発点になることを期待する。

Artificial Intelligence for Theorem Proving has given rise to a plethora of benchmarks and methodologies, particularly in Interactive Theorem Proving (ITP). Research in the area is fragmented, with a diverse set of approaches being spread across several ITP systems. This presents a significant challenge to the comparison of methods, which are often complex and difficult to replicate. Addressing this, we present BAIT, a framework for fair and streamlined comparison of learning approaches in ITP. We demonstrate BAIT's capabilities with an in-depth comparison, across several ITP benchmarks, of state-of-the-art architectures applied to the problem of formula embedding. We find that Structure Aware Transformers perform particularly well, improving on techniques associated with the original problem sets. BAIT also allows us to assess the end-to-end proving performance of systems built on interactive environments. This unified perspective reveals a novel end-to-end system that improves on prior work. We also provide a qualitative analysis, illustrating that improved performance is associated with more semantically-aware embeddings. By streamlining the implementation and comparison of Machine Learning algorithms in the ITP context, we anticipate BAIT will be a springboard for future research.
翻訳日:2024-03-07 16:21:46 公開日:2024-03-06
# 水中映像における識別不能物体計数のための密度誘導時空注意トランス

A Density-Guided Temporal Attention Transformer for Indiscernible Object Counting in Underwater Video ( http://arxiv.org/abs/2403.03461v1 )

ライセンス: Link先を確認
Cheng-Yen Yang, Hsiang-Wei Huang, Zhongyu Jiang, Hao Wang, Farron Wallace, Jenq-Neng Hwang(参考訳) 視覚コミュニティの最近の発展のおかげで、複雑なオブジェクトのカウントや群衆のカウントは長い道のりを歩んでいる。 しかし, 周囲に混在する対象の数を数えることを目的とした, 認識不能な対象数カウントは, 課題となっている。 イメージベースのオブジェクトカウントデータセットは、現在公開されているデータセットの主流となっている。 そこで,本研究では,高フレーム/秒の高精細ビデオ35列と,選択したシーンに15万点以上のアノテートされた中心点を含む大規模データセットYoutubeFish-35を提案する。 ベンチマークのために、高密度オブジェクトカウントのための3つの主流手法を選択し、新たに収集したデータセット上でそれらを慎重に評価する。 統一されたフレームワークで時間領域に沿って密度と回帰分枝を結合し、youtubefish-35データセットの最先端のパフォーマンスと識別不能なオブジェクトカウントに効果的に取り組むことのできる、新しい強力なベースラインであるtransvidcountを提案する。

Dense object counting or crowd counting has come a long way thanks to the recent development in the vision community. However, indiscernible object counting, which aims to count the number of targets that are blended with respect to their surroundings, has been a challenge. Image-based object counting datasets have been the mainstream of the current publicly available datasets. Therefore, we propose a large-scale dataset called YoutubeFish-35, which contains a total of 35 sequences of high-definition videos with high frame-per-second and more than 150,000 annotated center points across a selected variety of scenes. For benchmarking purposes, we select three mainstream methods for dense object counting and carefully evaluate them on the newly collected dataset. We propose TransVidCount, a new strong baseline that combines density and regression branches along the temporal domain in a unified framework and can effectively tackle indiscernible object counting with state-of-the-art performance on YoutubeFish-35 dataset.
翻訳日:2024-03-07 16:16:57 公開日:2024-03-06
# TGPT-PINN:変換GPT-PINNによる非線形モデル削減

TGPT-PINN: Nonlinear model reduction with transformed GPT-PINNs ( http://arxiv.org/abs/2403.03459v1 )

ライセンス: Link先を確認
Yanlai Chen, Yajie Ji, Akil Narayan, Zhenli Xu(参考訳) MOR統合PINNにおける輸送支配型偏微分方程式の非線形モデル次数減少(MOR)を達成するための変換生成前訓練ニューラルネットワーク(TGPT-PINN)を提案する。 スナップショットベースのモデル削減を実現するネットワーク・オブ・ネットワークの設計であるgpt-pinnの最近の開発に基づき、パラメータ依存の不連続な問題を効果的に解決できる非線形モデル低減の新しいパラダイムを設計・テストする。 TGPT-PINNは、衝撃捕捉損失関数成分とパラメータ依存の変換層を組み込むことで、輸送支配体制における線形モデル縮小の限界を克服する。 いくつかの非自明なパラメトリック偏微分方程式により, PINN フレームワークの非線形モデル削減機能を示す。

We introduce the Transformed Generative Pre-Trained Physics-Informed Neural Networks (TGPT-PINN) for accomplishing nonlinear model order reduction (MOR) of transport-dominated partial differential equations in an MOR-integrating PINNs framework. Building on the recent development of the GPT-PINN that is a network-of-networks design achieving snapshot-based model reduction, we design and test a novel paradigm for nonlinear model reduction that can effectively tackle problems with parameter-dependent discontinuities. Through incorporation of a shock-capturing loss function component as well as a parameter-dependent transform layer, the TGPT-PINN overcomes the limitations of linear model reduction in the transport-dominated regime. We demonstrate this new capability for nonlinear model reduction in the PINNs framework by several nontrivial parametric partial differential equations.
翻訳日:2024-03-07 16:16:39 公開日:2024-03-06
# Slot Abstractors: スケーラブルな抽象ビジュアル推論を目指して

Slot Abstractors: Toward Scalable Abstract Visual Reasoning ( http://arxiv.org/abs/2403.03458v1 )

ライセンス: Link先を確認
Shanka Subhra Mondal, Jonathan D. Cohen, Taylor W. Webb(参考訳) 抽象的な視覚的推論は特徴的人間の能力であり、オブジェクトの特徴から切り離された関係パターンの識別を可能にし、それらのパターンの体系的な一般化は目に見えない問題に繋がる。 近年の研究では、オブジェクト中心表現の抽出に用いられるスロットベースの手法と、関係抽象のための強い帰納的バイアスを組み合わせることで、マルチオブジェクト入力を含む視覚的推論タスクにおける強力な体系的一般化が示されている。 しかし、このアプローチは単一のルールを含む問題に限られており、多数のオブジェクトを含む視覚的推論問題には拡張性がなかった。 他の最近の研究は、強いリレーショナルインダクティブバイアスを取り入れ、トランスフォーマのスケーラビリティとマルチヘッドアーキテクチャを継承するトランスフォーマの延長であるabstractorを提案したが、このアプローチがマルチオブジェクトの視覚入力にどのように適用されるかはまだ実証されていない。 ここでは、上記のアプローチの強みを組み合わせて、多数のオブジェクトとそれらの間の複数の関係に関わる問題にスケールできる抽象的な視覚的推論のアプローチであるSlot Abstractorsを提案する。 このアプローチは4つの抽象的な視覚的推論タスクで最先端のパフォーマンスを表示する。

Abstract visual reasoning is a characteristically human ability, allowing the identification of relational patterns that are abstracted away from object features, and the systematic generalization of those patterns to unseen problems. Recent work has demonstrated strong systematic generalization in visual reasoning tasks involving multi-object inputs, through the integration of slot-based methods used for extracting object-centric representations coupled with strong inductive biases for relational abstraction. However, this approach was limited to problems containing a single rule, and was not scalable to visual reasoning problems containing a large number of objects. Other recent work proposed Abstractors, an extension of Transformers that incorporates strong relational inductive biases, thereby inheriting the Transformer's scalability and multi-head architecture, but it has yet to be demonstrated how this approach might be applied to multi-object visual inputs. Here we combine the strengths of the above approaches and propose Slot Abstractors, an approach to abstract visual reasoning that can be scaled to problems involving a large number of objects and multiple relations among them. The approach displays state-of-the-art performance across four abstract visual reasoning tasks.
翻訳日:2024-03-07 16:16:26 公開日:2024-03-06
# 単一不純物による自由フェルミオン系のスクランブル遷移

Scrambling Transition in Free Fermion Systems Induced by a Single Impurity ( http://arxiv.org/abs/2403.03457v1 )

ライセンス: Link先を確認
Qucheng Gao, Tianci Zhou, Pengfei Zhang, Xiao Chen(参考訳) 量子多体系では、相互作用は情報スクランブルの出現において重要な役割を果たす。 粒子が系の中を相互作用すると、それらの間の絡み合いは急速にカオス的な量子情報の拡散につながり、一般にハイゼンベルク像における作用素の大きさの成長によって観測される。 本研究では,一般空間次元における単一不純物のみを介して粒子が相互作用する場合に,空間的および時間的ランダムホッピングを伴うフェルミオン系に着目してスクランブルを行うかを検討する。 操作者のダイナミクスと対称排他過程をソース項で結合することにより,フェルミオンの相互作用強度を3次元でチューニングする場合,エスケープ-スクランブル遷移の存在を実証する。 比較として、ホッピングが十分に長距離化しなければ、低次元のシステムは任意に弱い相互作用でスクランブルすることが証明される。 我々の予測は、サイトごとに1つのマヨラナフェルミオンを持つブラウン回路と、大きな局所ヒルベルト空間次元を持つ可解ブラウンSYKモデルの両方を用いて検証される。 これは空間的および時間的ランダム性を持つ自由フェルミオン系の理論図の普遍性を示している。

In quantum many-body systems, interactions play a crucial role in the emergence of information scrambling. When particles interact throughout the system, the entanglement between them can lead to a rapid and chaotic spreading of quantum information, typically probed by the growth in operator size in the Heisenberg picture. In this study, we explore whether the operator undergoes scrambling when particles interact solely through a single impurity in generic spatial dimensions, focusing on fermion systems with spatial and temporal random hoppings. By connecting the dynamics of the operator to the symmetric exclusion process with a source term, we demonstrate the presence of an escape-to-scrambling transition when tuning the interaction strength for fermions in three dimensions. As a comparison, systems in lower dimensions are proven to scramble at arbitrarily weak interactions unless the hopping becomes sufficiently long-ranged. Our predictions are validated using both a Brownian circuit with a single Majorana fermion per site and a solvable Brownian SYK model with a large local Hilbert space dimension. This suggests the universality of the theoretical picture for free fermion systems with spatial and temporal randomness.
翻訳日:2024-03-07 16:16:04 公開日:2024-03-06
# DLP-GAN: ジェネレーティブ・ディバイサル・ネットワークによる現代中国の景観画像の描画学習

DLP-GAN: Learning to Draw Modern Chinese Landscape Photos with Generative Adversarial Network ( http://arxiv.org/abs/2403.03456v1 )

ライセンス: Link先を確認
Xiangquan Gui, Binxuan Zhang, Li Li, Yi Yang(参考訳) 中国の風景画は独特で芸術的な様式であり、その画法は色と現実的な物体表現の両方において非常に抽象的である。 以前の手法では、現代の写真から古代のインク絵画への移譲に焦点を当てていた。 しかし、風景画を現代写真に翻訳するのにはほとんど注意が払われていない。 そこで,本稿では,本稿で提案するdlp-gan (\textbf{d}raw modern chinese \textbf{l}andscape \textbf{p}hotos with \textbf{g}enerative \textbf{a}dversarial \textbf{n}etwork) と,非教師なしの非対称サイクルマッピングによるクロスドメイン画像翻訳フレームワーク,および(2)異なる翻訳方向にマッチする高密度融合モジュールに基づくジェネレータを提案する。 さらに,モデルペインティングのリアリズムと抽象化のバランスをとるために,双矛盾損失が提案されている。 このようにして、われわれのモデルは現代の意味で風景写真やスケッチを描くことができる。 最後に、最新のランドスケープとスケッチデータセットのコレクションに基づいて、我々のモデルによって生成された画像と他のベンチマークを比較します。 ユーザスタディを含む広範な実験により,本モデルが最先端手法よりも優れていることが示された。

Chinese landscape painting has a unique and artistic style, and its drawing technique is highly abstract in both the use of color and the realistic representation of objects. Previous methods focus on transferring from modern photos to ancient ink paintings. However, little attention has been paid to translating landscape paintings into modern photos. To solve such problems, in this paper, we (1) propose DLP-GAN (\textbf{D}raw Modern Chinese \textbf{L}andscape \textbf{P}hotos with \textbf{G}enerative \textbf{A}dversarial \textbf{N}etwork), an unsupervised cross-domain image translation framework with a novel asymmetric cycle mapping, and (2) introduce a generator based on a dense-fusion module to match different translation directions. Moreover, a dual-consistency loss is proposed to balance the realism and abstraction of model painting. In this way, our model can draw landscape photos and sketches in the modern sense. Finally, based on our collection of modern landscape and sketch datasets, we compare the images generated by our model with other benchmarks. Extensive experiments including user studies show that our model outperforms state-of-the-art methods.
翻訳日:2024-03-07 16:15:44 公開日:2024-03-06
# ディープ拡張ラグランジアン法による学習制約付き最適化

Learning Constrained Optimization with Deep Augmented Lagrangian Methods ( http://arxiv.org/abs/2403.03454v1 )

ライセンス: Link先を確認
James Kotary and Ferdinando Fioretto(参考訳) Learning to Optimize (LtO)は、機械学習(ML)モデルを訓練して制約付き最適化解法をエミュレートする問題設定である。 複雑な制約の下で最適かつ実現可能な解を作るための学習は難しい作業であるが、しばしば入力空間を関連する問題の限られた分布に制限することで可能となる。 ほとんどのLtO法は、原始問題に対する解を直接学習し、実現可能性を高めるために補正スキームや損失関数のペナルティを適用することに重点を置いている。 本稿では, mlモデルを用いて, 直接, 双対解推定を予測し, そこから双対解対を形成する方法を提案する。 これにより、双対目的を損失関数として最大化するエンドツーエンドのトレーニングスキームが実現でき、解は双対アセント法をエミュレートし、原始的実現性に向けて反復する。 まず, 古典的二重上昇の収束特性が, 提案手法の収束性に反映されることが示されている。 次に,実用的な拡張ラグランジアン手法による手法を取り入れることで,凸問題と非凸問題の両方に対して,高精度な制約付き最適化解法を学ぶためのトレーニングスキームの改善法を示す。

Learning to Optimize (LtO) is a problem setting in which a machine learning (ML) model is trained to emulate a constrained optimization solver. Learning to produce optimal and feasible solutions subject to complex constraints is a difficult task, but is often made possible by restricting the input space to a limited distribution of related problems. Most LtO methods focus on directly learning solutions to the primal problem, and applying correction schemes or loss function penalties to encourage feasibility. This paper proposes an alternative approach, in which the ML model is trained instead to predict dual solution estimates directly, from which primal estimates are constructed to form dual-feasible solution pairs. This enables an end-to-end training scheme is which the dual objective is maximized as a loss function, and solution estimates iterate toward primal feasibility, emulating a Dual Ascent method. First it is shown that the poor convergence properties of classical Dual Ascent are reflected in poor convergence of the proposed training scheme. Then, by incorporating techniques from practical Augmented Lagrangian methods, we show how the training scheme can be improved to learn highly accurate constrained optimization solvers, for both convex and nonconvex problems.
翻訳日:2024-03-07 16:15:15 公開日:2024-03-06
# D4Cグローブトレイン:概念の分散と循環によるRPMとBongard-logo問題の解法

D4C glove-train: solving the RPM and Bongard-logo problem by distributing and Circumscribing concepts ( http://arxiv.org/abs/2403.03452v1 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan(参考訳) 本稿では,特にRaven's Progressive Matrices(RPM)問題とBongard-Logo問題について,抽象的推論の分野における顕著な進歩を示す。 まず,これらの領域における概念境界を再定義し,高次概念と低次元表現とのギャップを埋める手法D2Cを紹介する。 本稿では,ボナード・ローゴ問題に対処するための新しいアプローチであるD3Cを提案する。 D3Cは画像表現の分布を推定し、シンクホーン距離を測定し、顕著な推論精度を達成する。 この革新的な手法は、画像間の関係に新たな洞察を与え、抽象的推論における最先端の進歩をもたらす。 性能を犠牲にすることなく計算効率をさらに向上するため,D3C-cosを導入する。 このD3Cの変種は分布距離を制約し、高い精度を維持しながらRPM問題に対するより計算効率の良い解を提供する。 さらに, D3C と D3C-cos を統合した RPM のベースラインネットワークである Lico-Net を提案する。 正規表現の分布を推定および制約することにより、Lico-Netは問題解決と解釈可能性の両方の問題に対処し、最先端のパフォーマンスを達成する。 最後に、D2Cと比較して概念境界をさらに洗練する敵対的アプローチであるD4Cを用いて方法論を拡張した。 RPMとBongard-Logoの問題を解決するために設計されたD4Cは、抽象的推論の課題に対処する上で、大幅な改善を示している。 全体として、我々の貢献は抽象的推論の分野を前進させ、長年の問題に対する新しい視点と実践的な解決策を提供する。

This paper presents significant advancements in the field of abstract reasoning, particularly for Raven's Progressive Matrices (RPM) and Bongard-Logo problems. We first introduce D2C, a method that redefines concept boundaries in these domains and bridges the gap between high-level concepts and their low-dimensional representations. Leveraging this foundation, we propose D3C, a novel approach for tackling Bongard-Logo problems. D3C estimates the distributions of image representations and measures their Sinkhorn distance to achieve remarkable reasoning accuracy. This innovative method provides new insights into the relationships between images and advances the state-of-the-art in abstract reasoning. To further enhance computational efficiency without sacrificing performance, we introduce D3C-cos. This variant of D3C constrains distribution distances, offering a more computationally efficient solution for RPM problems while maintaining high accuracy. Additionally, we present Lico-Net, a baseline network for RPM that integrates D3C and D3C-cos. By estimating and constraining the distributions of regularity representations, Lico-Net addresses both problem-solving and interpretability challenges, achieving state-of-the-art performance. Finally, we extend our methodology with D4C, an adversarial approach that further refines concept boundaries compared to D2C. Tailored for RPM and Bongard-Logo problems, D4C demonstrates significant improvements in addressing the challenges of abstract reasoning. Overall, our contributions advance the field of abstract reasoning, providing new perspectives and practical solutions to long-standing problems.
翻訳日:2024-03-07 16:14:50 公開日:2024-03-06
# 保護超電導ビットの機械設計

Mechanically Designing Protected Superconducting Qubits ( http://arxiv.org/abs/2403.03451v1 )

ライセンス: Link先を確認
Trevor McCourt(参考訳) ゲートモデル量子コンピューティングの約束を実現するために、大きな相互作用する量子システムの工学において重要な進歩が必要である。 このようなシステムの設計は、連続変数量子系の力学は一般に直観的ではなく、ブルートフォースの数値解は数次元以上では不可能である。 本研究では, 超伝導量子ビットと機械質量ばねシステムの類似点を描き, それぞれの設計を特別なものにするための簡単な直観を得る。 特に,ノイズから本質的に保護される超伝導量子ビットを解析し,その保護を対応する力学系の特徴と結びつける。 これらのシステムの解析から得られた直感が、将来、有用な超伝導回路を直感的に設計できることを期待している。

Significant progress is required in the engineering of large, interacting quantum systems in order to realize the promises of gate-model quantum computing. Designing such systems is challenging, as the dynamics of continuous variable quantum systems are generally unintuitive, and brute-force numerical solutions are difficult to impossible in more than a few dimensions. In this work, I draw analogies between modern superconducting qubits and mechanical mass-spring systems in attempt to gain a simple intuition for what makes each design special. In particular, I analyze superconducting qubits that are inherently protected from noise, and connect this protection to features of the corresponding mechanical system. The hope is that intuition gained from analyzing these systems mechanically will allow for intuitive design of useful superconducting circuits in the future.
翻訳日:2024-03-07 16:14:24 公開日:2024-03-06
# salientime: 大規模地理空間データの可視化のためのsalient timeステップのユーザ主導選択

SalienTime: User-driven Selection of Salient Time Steps for Large-Scale Geospatial Data Visualization ( http://arxiv.org/abs/2403.03449v1 )

ライセンス: Link先を確認
Juntong Chen, Haiwen Huang, Huayuan Ye, Zhong Peng, Chenhui Li, Changbo Wang(参考訳) 物理モニターやシミュレーションモデルによる地理空間的時間的データの輝かしい性質は、効率的なデータアクセスに困難をもたらし、しばしばWebベースのデータポータルで面倒な時間的選択体験をもたらす。 したがって、優先順位付けされた可視化とプリロードのための時間ステップのサブセットを選択することが非常に望ましい。 この問題に対処するため,本論文では,ドメインエキスパートとの広範囲なニーズ調査を通じて,ワークフローの理解を通じて,健全な時間ステップの多面的定義を確立する。 そこで我々は,ユーザ主導の時間選択を容易にするために,オートエンコーダと動的プログラミングを活用する新しい手法を提案する。 構造的特徴、統計的なバリエーション、距離的ペナルティはより柔軟な選択のために組み込まれている。 ユーザの指定した優先順位、空間領域、集約は、異なる視点を組み合わせるために使用される。 我々は,時間ステップの効率的かつコンテキスト対応な選択を可能にするwebベースのインタフェースを設計,実装し,ケーススタディ,定量的評価,エキスパートインタビューを通じてその有効性とユーザビリティを評価する。

The voluminous nature of geospatial temporal data from physical monitors and simulation models poses challenges to efficient data access, often resulting in cumbersome temporal selection experiences in web-based data portals. Thus, selecting a subset of time steps for prioritized visualization and pre-loading is highly desirable. Addressing this issue, this paper establishes a multifaceted definition of salient time steps via extensive need-finding studies with domain experts to understand their workflows. Building on this, we propose a novel approach that leverages autoencoders and dynamic programming to facilitate user-driven temporal selections. Structural features, statistical variations, and distance penalties are incorporated to make more flexible selections. User-specified priorities, spatial regions, and aggregations are used to combine different perspectives. We design and implement a web-based interface to enable efficient and context-aware selection of time steps and evaluate its efficacy and usability through case studies, quantitative evaluations, and expert interviews.
翻訳日:2024-03-07 16:14:11 公開日:2024-03-06
# マルチカーネルk平均クラスタリングにおけるカーネル相関の相違

Kernel Correlation-Dissimilarity for Multiple Kernel k-Means Clustering ( http://arxiv.org/abs/2403.03448v1 )

ライセンス: Link先を確認
Rina Su, Yu Guo, Caiying Wu, Qiyu Jin, Tieyong Zeng(参考訳) multiple kernel k-means (mkkm) アルゴリズムの主な目的は非線形情報抽出とベースカーネル行列の最適化による最適クラスタリングの実現である。 現在の手法は情報多様性を高め、相関性や相似性に基づいて複数のカーネル間の相互依存を利用して冗長性を低減する。 それにもかかわらず、相関や相似性のような単一の計量のみに依存してカーネルの関係を定義することはバイアスと不完全なキャラクタリゼーションをもたらす。 このため、この制限は効率的な情報抽出を妨げ、最終的にクラスタリング性能を損なう。 この課題に取り組むために,カーネル相関と異質性の両方を体系的に統合する新しい手法を提案する。 本手法は,カーネル関係を包括的に捉え,より効率的な分類情報抽出とクラスタリング性能の向上を実現する。 本手法は,カーネル相関と相似性とのコヒーレンスを強調し,非線形情報を抽出し,クラスタリング精度を大幅に向上するための,より客観的かつ透過的な戦略を提供する。 我々は,13の挑戦的ベンチマークデータセット上でのアルゴリズムの性能評価を行い,同時代のMKKM技術よりも優れていることを示す。

The main objective of the Multiple Kernel k-Means (MKKM) algorithm is to extract non-linear information and achieve optimal clustering by optimizing base kernel matrices. Current methods enhance information diversity and reduce redundancy by exploiting interdependencies among multiple kernels based on correlations or dissimilarities. Nevertheless, relying solely on a single metric, such as correlation or dissimilarity, to define kernel relationships introduces bias and incomplete characterization. Consequently, this limitation hinders efficient information extraction, ultimately compromising clustering performance. To tackle this challenge, we introduce a novel method that systematically integrates both kernel correlation and dissimilarity. Our approach comprehensively captures kernel relationships, facilitating more efficient classification information extraction and improving clustering performance. By emphasizing the coherence between kernel correlation and dissimilarity, our method offers a more objective and transparent strategy for extracting non-linear information and significantly improving clustering precision, supported by theoretical rationale. We assess the performance of our algorithm on 13 challenging benchmark datasets, demonstrating its superiority over contemporary state-of-the-art MKKM techniques.
翻訳日:2024-03-07 16:13:53 公開日:2024-03-06
# HDRFlow:大きな動きを持つリアルタイムHDRビデオ再構成

HDRFlow: Real-Time HDR Video Reconstruction with Large Motions ( http://arxiv.org/abs/2403.03447v1 )

ライセンス: Link先を確認
Gangwei Xu, Yujin Wang, Jinwei Gu, Tianfan Xue, Xin Yang(参考訳) 高ダイナミックレンジ(hdr)映像を交互露光で撮影した画像から再構成することは、特に大きなカメラや物体の動きが存在する場合には困難である。 既存の方法では、光学フローやアテンション機構を用いて低ダイナミックレンジシーケンスを整列させるのが一般的である。 しかし、それらはしばしば大きな複雑な動きを扱うのに苦労し、計算コストがかかる。 そこで本稿では,リアルタイムhdr映像再構成のためのロバストで効率的なフロー推定器であるhdrflowを提案する。 HDRFlowには、HDRドメインアライメントロス(HALoss)、マルチサイズ大型カーネル(MLK)を備えた効率的なフローネットワーク、新しいHDRフロートレーニングスキームの3つの新しい設計がある。 HALossは私たちのフローネットワークを監督し、飽和領域と暗黒領域の正確なアライメントのためのHDR指向の流れを学習します。 MLKは、無視できるコストで、大きな動きを効果的にモデル化することができる。 さらに,トレーニングデータセットに合成データであるsintelを組み込み,その提供するフォワードフローと,当社が生成した逆流を利用してネットワークの監視を行い,大規模動作領域における性能向上を実現しています。 大規模な実験により、我々のHDRFlowは標準ベンチマークで過去の手法より優れていることが示された。 我々の知る限り、HDRFlowは、720pの解像度入力を25msで処理できる、交互に露出したビデオシーケンスをリアルタイムに再現する最初の方法である。

Reconstructing High Dynamic Range (HDR) video from image sequences captured with alternating exposures is challenging, especially in the presence of large camera or object motion. Existing methods typically align low dynamic range sequences using optical flow or attention mechanism for deghosting. However, they often struggle to handle large complex motions and are computationally expensive. To address these challenges, we propose a robust and efficient flow estimator tailored for real-time HDR video reconstruction, named HDRFlow. HDRFlow has three novel designs: an HDR-domain alignment loss (HALoss), an efficient flow network with a multi-size large kernel (MLK), and a new HDR flow training scheme. The HALoss supervises our flow network to learn an HDR-oriented flow for accurate alignment in saturated and dark regions. The MLK can effectively model large motions at a negligible cost. In addition, we incorporate synthetic data, Sintel, into our training dataset, utilizing both its provided forward flow and backward flow generated by us to supervise our flow network, enhancing our performance in large motion regions. Extensive experiments demonstrate that our HDRFlow outperforms previous methods on standard benchmarks. To the best of our knowledge, HDRFlow is the first real-time HDR video reconstruction method for video sequences captured with alternating exposures, capable of processing 720p resolution inputs at 25ms.
翻訳日:2024-03-07 16:13:32 公開日:2024-03-06
# アンサンブルカルマンインバージョンを用いたdeeponetsの不確かさ定量化

Uncertainty quantification for deeponets with ensemble kalman inversion ( http://arxiv.org/abs/2403.03444v1 )

ライセンス: Link先を確認
Andrew Pensoneault, Xueyu Zhu(参考訳) 近年、演算子学習、特にDeepONetは、様々な分野にわたる入力関数と出力関数の間の複雑なマッピングを効率的に学習するために多くの注目を集めている。 しかしながら、限られたデータとノイズのある実際のシナリオでは、特にミッションクリティカルやセーフティクリティカルなアプリケーションにおいて、ディープネス予測の不確実性へのアクセスが不可欠となる。 既存の手法は、計算集約的あるいは不満足な不確実な定量化をもたらすが、DeepONetsに適した効率的で情報的な不確実性定量化(UQ)技術を開発する余地は残らない。 本研究では,Ensemble Kalman Inversion (EKI) 手法のパワーを利用して,演算子学習のための効率的なUQのための新しい推論手法を提案する。 EKIは、偏微分、ノイズロス、高並列化が可能な特徴で知られており、物理インフォームドニューラルネットワーク [28] におけるUQの利点を実証している。 EKIの革新的な応用により、関心の出力に対する情報的不確実性評価を得ながら、DeepONetsのアンサンブルを効率的に訓練することができる。 我々は,大規模データセットに対応するためのミニバッチ型ekiをデプロイし,トレーニングステージにおける大規模データセットによる計算要求を軽減した。 さらに、人工力学の共分散を推定するヒューリスティック手法を導入し、不確実性の推定を改善する。 最後に,様々なベンチマーク問題に対して提案手法の有効性と汎用性を実証し,DeepONetsにおける不確実性定量化の急激な課題に対処する可能性を示す。

In recent years, operator learning, particularly the DeepONet, has received much attention for efficiently learning complex mappings between input and output functions across diverse fields. However, in practical scenarios with limited and noisy data, accessing the uncertainty in DeepONet predictions becomes essential, especially in mission-critical or safety-critical applications. Existing methods, either computationally intensive or yielding unsatisfactory uncertainty quantification, leave room for developing efficient and informative uncertainty quantification (UQ) techniques tailored for DeepONets. In this work, we proposed a novel inference approach for efficient UQ for operator learning by harnessing the power of the Ensemble Kalman Inversion (EKI) approach. EKI, known for its derivative-free, noise-robust, and highly parallelizable feature, has demonstrated its advantages for UQ for physics-informed neural networks [28]. Our innovative application of EKI enables us to efficiently train ensembles of DeepONets while obtaining informative uncertainty estimates for the output of interest. We deploy a mini-batch variant of EKI to accommodate larger datasets, mitigating the computational demand due to large datasets during the training stage. Furthermore, we introduce a heuristic method to estimate the artificial dynamics covariance, thereby improving our uncertainty estimates. Finally, we demonstrate the effectiveness and versatility of our proposed methodology across various benchmark problems, showcasing its potential to address the pressing challenges of uncertainty quantification in DeepONets, especially for practical applications with limited and noisy data.
翻訳日:2024-03-07 16:13:06 公開日:2024-03-06
# vlsp 2023 -- lter: 法的テキスト包含認識に関する課題の概要

VLSP 2023 -- LTER: A Summary of the Challenge on Legal Textual Entailment Recognition ( http://arxiv.org/abs/2403.03435v1 )

ライセンス: Link先を確認
Vu Tran, Ha-Thanh Nguyen, Trung Vo, Son T. Luu, Hoang-Anh Dang, Ngoc-Cam Le, Thi-Thuy Le, Minh-Tien Nguyen, Truong-Son Nguyen, Le-Minh Nguyen(参考訳) 最新のAI開発、特に言語処理において、法律分野におけるAIの需要はますます重要になっている。 英語、日本語、中国語などの他言語の研究が定着している状況において、法領域におけるベトナム語に関する最初の基礎研究として、ベトナム語と音声処理ワークショップを通じて、法的テクスト的詳細認識を紹介する。 参加者の結果の分析において,対処すべき課題を提起する法的領域において重要な言語的側面について論じる。

In this new era of rapid AI development, especially in language processing, the demand for AI in the legal domain is increasingly critical. In the context where research in other languages such as English, Japanese, and Chinese has been well-established, we introduce the first fundamental research for the Vietnamese language in the legal domain: legal textual entailment recognition through the Vietnamese Language and Speech Processing workshop. In analyzing participants' results, we discuss certain linguistic aspects critical in the legal domain that pose challenges that need to be addressed.
翻訳日:2024-03-07 16:12:37 公開日:2024-03-06
# ニュージーランドにおけるAI対応エージェントベースモデルとその麻疹発生シミュレーションへの応用

An AI-enabled Agent-Based Model and Its Application in Measles Outbreak Simulation for New Zealand ( http://arxiv.org/abs/2403.03434v1 )

ライセンス: Link先を確認
Sijin Zhang, Alvaro Orsi, Richard Dean, Lei Chen, Rachel Qiu, Jiawei Zhao(参考訳) エージェントベースモデル(ABM)は、複雑な社会的相互作用、特に公衆衛生や感染症の調査の文脈において、強力なツールとして登場した。 従来のabmの拡張,モデルキャリブレーションの自動化,モデルのスケールアップに必要な計算リソースの削減を目的として,グラフニューラルネットワーク(gnn)とlong short-term memory(lstm)ネットワークを結合した,テンソル化および微分可能なエージェントベースモデルを開発した。 このモデルは、2019年にニュージーランドで発生した麻疹の流行を調査するために使用され、特に繰り返し発生するケースのピーク期間中に、感染のダイナミクスを正確にシミュレートする有望な能力を実証した。 本稿では,最新の人工知能(ai)技術と従来のabmの能力を活用することで,感染症発生のダイナミクスに関する深い洞察を得る。 このことは、アウトブレイク管理と日常生活の混乱を最小限に抑えるバランスをとる効果的な戦略を開発する上で、より深い意思決定に役立つ。

Agent Based Models (ABMs) have emerged as a powerful tool for investigating complex social interactions, particularly in the context of public health and infectious disease investigation. In an effort to enhance the conventional ABM, enabling automated model calibration and reducing the computational resources needed for scaling up the model, we have developed a tensorized and differentiable agent-based model by coupling Graph Neural Network (GNN) and Long Short-Term Memory (LSTM) network. The model was employed to investigate the 2019 measles outbreak occurred in New Zealand, demonstrating a promising ability to accurately simulate the outbreak dynamics, particularly during the peak period of repeated cases. This paper shows that by leveraging the latest Artificial Intelligence (AI) technology and the capabilities of traditional ABMs, we gain deeper insights into the dynamics of infectious disease outbreaks. This, in turn, helps us make more informed decision when developing effective strategies that strike a balance between managing outbreaks and minimizing disruptions to everyday life.
翻訳日:2024-03-07 16:12:27 公開日:2024-03-06
# I3DE:PL/SQLコードの矛盾を検査するIDE

I3DE: An IDE for Inspecting Inconsistencies in PL/SQL Code ( http://arxiv.org/abs/2403.03433v1 )

ライセンス: Link先を確認
Jiangshan Liu, Shuang Liu, Junjie Chen(参考訳) 本稿では,PL/SQLコードの矛盾を検査するIDEプラグインであるI3DE(Inconsistency Inspecting IDE)を紹介する。 PL/SQLプログラマとDBMS開発者によるPL/SQLセマンティクスの一貫性のない理解によって導入された誤用やバグなどの潜在的な問題を最初に観察し、PL/SQLコードのこのような矛盾を検査するためのメタモルフィックテストベースのアプローチを提案する。 IntelliJ Platform用の広く利用可能なプラグインであるI3DEで、私たちのアプローチを設計し、実装しています。 16名の参加者を対象とした比較ユーザ調査を行い,i3deは,プログラミングの難易度にまたがる不整合をプログラマが識別し回避する上で,一貫して効果的かつ効率的であることを示唆した。

In this paper, we introduce I3DE (Inconsistency Inspecting IDE) - an IDE plugin to inspect inconsistencies in PL/SQL code. We first observed the potential issues, e.g., misuses or bugs, that are introduced by the inconsistent understanding of PL/SQL semantics by PL/SQL programmers and DBMS developers, and propose a metamorphic testing-based approach for inspecting such inconsistencies in PL/SQL code. We design and implement our approach in I3DE, a widely usable plugin for the IntelliJ Platform. We conducted a comparative user study involving 16 participants, and the findings indicate that I3DE is consistently effective and efficient in helping programmers identify and avoid inconsistencies across different programming difficulties
翻訳日:2024-03-07 16:12:09 公開日:2024-03-06
# fast, nonlocal, neural: 画像のデノイジングに対する軽量な高品質なソリューション

Fast, nonlocal and neural: a lightweight high quality solution to image denoising ( http://arxiv.org/abs/2403.03488v1 )

ライセンス: Link先を確認
Yu Guo, Axel Davy, Gabriele Facciolo, Jean-Michel Morel, Qiyu Jin(参考訳) 畳み込みニューラルネットワーク(CNN)の広範な適用により、従来のモデルに基づく復調アルゴリズムは、現在より優れています。 しかし、CNNは2つの問題に直面している。 まず、計算能力が要求されるため、モバイル端末では特にデプロイが難しい。 第2に、実験的な証拠は、CNNが従来の非局所的なモデルとは対照的に、画像に存在する平滑な正規テクスチャがしばしば存在することを示している。 本稿では,非局所アルゴリズムと軽量残差CNNを組み合わせることで,両問題に対する解を提案する。 この解は両方のモデルの利点に完全な緯度を与える。 従来の非局所アルゴリズム(NLM)とBM3D(BM3D)の2つのGPU実装にこのフレームワークを適用し,計算能力の低い最先端技術よりも優れた性能を示す。 提案手法はCNNの10倍から20倍の高速化を実現し,PSNRが向上した。 さらに、最後の方法は、MIT Moireデータセットのような複雑なテクスチャを含むイメージに顕著な利得を示している。

With the widespread application of convolutional neural networks (CNNs), the traditional model based denoising algorithms are now outperformed. However, CNNs face two problems. First, they are computationally demanding, which makes their deployment especially difficult for mobile terminals. Second, experimental evidence shows that CNNs often over-smooth regular textures present in images, in contrast to traditional non-local models. In this letter, we propose a solution to both issues by combining a nonlocal algorithm with a lightweight residual CNN. This solution gives full latitude to the advantages of both models. We apply this framework to two GPU implementations of classic nonlocal algorithms (NLM and BM3D) and observe a substantial gain in both cases, performing better than the state-of-the-art with low computational requirements. Our solution is between 10 and 20 times faster than CNNs with equivalent performance and attains higher PSNR. In addition the final method shows a notable gain on images containing complex textures like the ones of the MIT Moire dataset.
翻訳日:2024-03-07 16:08:23 公開日:2024-03-06
# ノイズコラージュ:ノイズクロップとマージに基づくレイアウト対応テキスト・画像拡散モデル

NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging ( http://arxiv.org/abs/2403.03485v1 )

ライセンス: Link先を確認
Takahiro Shirakawa, Seiichi Uchida(参考訳) Layout-aware text-to-image generationは、テキスト条件に加えてレイアウト条件を反映したマルチオブジェクト画像を生成するタスクである。 現在のレイアウト対応のテキスト画像拡散モデルには、テキストとレイアウト条件のミスマッチや、生成された画像の品質劣化など、いくつかの問題がある。 本稿では,これらの問題に対処する新しいレイアウト対応テキスト・画像拡散モデルであるNossCollageを提案する。 ノイズコラージュは個別の物体のノイズを独立に推定し、それを収穫して1つのノイズにマージする。 この操作は条件ミスマッチを避けるのに役立つ。言い換えれば、適切なオブジェクトを適切な場所に配置することができる。 定性的および定量的評価は、ノイズコラージュがいくつかの最先端モデルより優れていることを示している。 これらの結果から,ノイズの収量とマージ操作が画像生成を制御する合理的な戦略であることが示唆された。 また,ノイズコラージュをコントロールネットと統合することで,エッジやスケッチ,ポーズスケルトンを追加条件として使用できることを示した。 実験の結果,この統合によりコントロールネットのレイアウト精度が向上することがわかった。 コードはhttps://github.com/univ-esuty/noisecollageで入手できる。

Layout-aware text-to-image generation is a task to generate multi-object images that reflect layout conditions in addition to text conditions. The current layout-aware text-to-image diffusion models still have several issues, including mismatches between the text and layout conditions and quality degradation of generated images. This paper proposes a novel layout-aware text-to-image diffusion model called NoiseCollage to tackle these issues. During the denoising process, NoiseCollage independently estimates noises for individual objects and then crops and merges them into a single noise. This operation helps avoid condition mismatches; in other words, it can put the right objects in the right places. Qualitative and quantitative evaluations show that NoiseCollage outperforms several state-of-the-art models. These successful results indicate that the crop-and-merge operation of noises is a reasonable strategy to control image generation. We also show that NoiseCollage can be integrated with ControlNet to use edges, sketches, and pose skeletons as additional conditions. Experimental results show that this integration boosts the layout accuracy of ControlNet. The code is available at https://github.com/univ-esuty/noisecollage.
翻訳日:2024-03-07 16:08:03 公開日:2024-03-06
# 二重自己蒸留による教師なしグラフ知識蒸留フレームワーク

A Teacher-Free Graph Knowledge Distillation Framework with Dual Self-Distillation ( http://arxiv.org/abs/2403.03483v1 )

ライセンス: Link先を確認
Lirong Wu, Haitao Lin, Zhangyang Gao, Guojiang Zhao, Stan Z. Li(参考訳) 近年、グラフ関連タスクをグラフニューラルネットワーク(gnns)で処理することに成功した。 学術的成功にもかかわらず、マルチ層パーセプトロン (MLP) は、実用産業における主要な仕事場である。 このような学術と産業のギャップの1つは、gnnのデータ依存によって発生する近所の遅延である。 グラフ知識蒸留(GKD: Graph Knowledge Distillation)は、GNNの知識を軽量の学生GNN(MLP)に抽出するために、標準的な教師学生アーキテクチャに基づいて提案される。 しかし,本論文では,グラフ知識蒸留には教師もGNNも必要ないことがわかった。 本稿では,教師モデルやGNNを必要としない教師自由グラフ自己蒸留(TGS)フレームワークを提案する。 さらに重要なことは、提案したTGSフレームワークは純粋にMLPに基づいており、構造情報はターゲットノードとその近傍で二重知識の自己蒸留を導くために暗黙的にのみ使用される。 結果として、TGSはトレーニングにおけるグラフトポロジ認識の利点を享受するが、推論におけるデータ依存から解放される。 例えば、TGSはバニラのMPPを平均15.54%改善し、6つの実世界のデータセットで最先端のGKDアルゴリズムより優れている。 推論速度の面では、tgsは既存のgnnより75x-89倍速く、16x-25倍高速である。

Recent years have witnessed great success in handling graph-related tasks with Graph Neural Networks (GNNs). Despite their great academic success, Multi-Layer Perceptrons (MLPs) remain the primary workhorse for practical industrial applications. One reason for such an academic-industry gap is the neighborhood-fetching latency incurred by data dependency in GNNs. To reduce their gaps, Graph Knowledge Distillation (GKD) is proposed, usually based on a standard teacher-student architecture, to distill knowledge from a large teacher GNN into a lightweight student GNN or MLP. However, we found in this paper that neither teachers nor GNNs are necessary for graph knowledge distillation. We propose a Teacher-Free Graph Self-Distillation (TGS) framework that does not require any teacher model or GNNs during both training and inference. More importantly, the proposed TGS framework is purely based on MLPs, where structural information is only implicitly used to guide dual knowledge self-distillation between the target node and its neighborhood. As a result, TGS enjoys the benefits of graph topology awareness in training but is free from data dependency in inference. Extensive experiments have shown that the performance of vanilla MLPs can be greatly improved with dual self-distillation, e.g., TGS improves over vanilla MLPs by 15.54% on average and outperforms state-of-the-art GKD algorithms on six real-world datasets. In terms of inference speed, TGS infers 75X-89X faster than existing GNNs and 16X-25X faster than classical inference acceleration methods.
翻訳日:2024-03-07 16:07:41 公開日:2024-03-06
# Magic Markup: LLMによるドキュメント外部マークアップの維持

Magic Markup: Maintaining Document-External Markup with an LLM ( http://arxiv.org/abs/2403.03481v1 )

ライセンス: Link先を確認
Edward Misback, Zachary Tatlock, Steven L. Tanimoto(参考訳) プログラムを含むテキスト文書は通常、人間が読める意味構造を持つ。 歴史的に、これらのセマンティクスへのプログラムによるアクセスには、文書内で明示的なタグ付けが必要である。 特にテキストが実行セマンティクスを持つシステムでは、これはオプトイン機能であり、適切にサポートすることが難しいことを意味する。 現在、言語モデルは、新しい方法を提供している: メタデータは、モデルの人間的な意味論の理解を使ってテキストを変更する際に、文書構造に不要なエンティティにバインドすることができる。 この方法は、プログラム記述、デバッグ、メンテナンス、プレゼンテーションにおける基本的な操作であるドキュメントアノテーションの応用を拡大する。 我々は、修正プログラムをタグ付けするためにインテリジェントエージェントを使用するシステムに貢献し、リッチアノテーションが進化するにつれて自動的にコードに従うことを可能にする。 また、形式的な問題定義、経験的ベンチマークスイート、ベンチマークジェネレータも提供します。 本システムでは,ベンチマークで90%の精度を実現し,1タグにつき5秒の速度で文書のタグを並列に置き換えることができる。 改善の余地はありますが、アプリケーションのさらなる調査を正当化するのに十分なパフォーマンスが得られます。

Text documents, including programs, typically have human-readable semantic structure. Historically, programmatic access to these semantics has required explicit in-document tagging. Especially in systems where the text has an execution semantics, this means it is an opt-in feature that is hard to support properly. Today, language models offer a new method: metadata can be bound to entities in changing text using a model's human-like understanding of semantics, with no requirements on the document structure. This method expands the applications of document annotation, a fundamental operation in program writing, debugging, maintenance, and presentation. We contribute a system that employs an intelligent agent to re-tag modified programs, enabling rich annotations to automatically follow code as it evolves. We also contribute a formal problem definition, an empirical synthetic benchmark suite, and our benchmark generator. Our system achieves an accuracy of 90% on our benchmarks and can replace a document's tags in parallel at a rate of 5 seconds per tag. While there remains significant room for improvement, we find performance reliable enough to justify further exploration of applications.
翻訳日:2024-03-07 16:07:00 公開日:2024-03-06
# 二成分モット絶縁体における対流超流動の観察

Observation of counterflow superfluidity in a two-component Mott insulator ( http://arxiv.org/abs/2403.03479v1 )

ライセンス: Link先を確認
Yong-Guang Zheng, An Luo, Ying-Chao Shen, Ming-Gen He, Zi-Hang Zhu, Ying Liu, Wei-Yong Zhang, Hui Sun, Youjin Deng, Zhen-Sheng Yuan and Jian-Wei Pan(参考訳) 対流超流動(csf)は20年前に予測された。 CSFの両方の成分は流動性を持っているが、相関する逆流電流は系全体を非圧縮性モット絶縁体に導くことをキャンセルする。 しかし、単一のセットアップで極端な実験能力を要求するため、CSFの実現と特定は依然として困難である。 ここでは,光格子中の二成分Bose混合系においてCSFを観察する。 各部位に2つのスピン-1/2ボソニック原子を輸送し、融合して低エントロピースピン-モット状態を作成し、$\sim$ 1 nKでCSFに吸収する。 CSFの反対相関は、実空間と運動量空間の両方でサイト分解型およびスピン分解型量子ガス顕微鏡で調べられる。 これらの手法と観察は、対称性が保護する位相量子問題へのアクセシビリティを提供する。

The counterflow superfluidity (CSF) was predicted two decades ago. Counterintuitively, while both components in the CSF have fluidity, their correlated counterflow currents cancel out leading the overall system to an incompressible Mott insulator. However, realizing and identifying the CSF remain challenging due to the request on extreme experimental capabilities in a single setup. Here, we observe the CSF in a binary Bose mixture in optical lattices. We prepare a low-entropy spin-Mott state by conveying and merging two spin-1/2 bosonic atoms at every site and drive it adiabatically to the CSF at $\sim$ 1 nK. Antipair correlations of the CSF are probed though a site- and spin-resolved quantum gas microscope in both real and momentum spaces. These techniques and observations provide accessibility to the symmetry-protected topological quantum matters.
翻訳日:2024-03-07 16:06:30 公開日:2024-03-06
# エルミート保存アンサッツおよび変分開量子固有解法

Hermitian-preserving ansatz and variational open quantum eigensolver ( http://arxiv.org/abs/2403.03478v1 )

ライセンス: Link先を確認
Zhong-Xia Shang(参考訳) 我々は、リンドブラッドマスター方程式または非エルミートハミルトン方程式によって記述された開量子系の定常状態を解決するために、変分開量子固有解法(VOQE)という新しい変分量子アルゴリズムを提案する。 VOQEでは、混合状態の密度行列は二重ヒルベルト空間における純粋状態によって表される。 本稿では,Hermitian-Reserving Ansatz (HPA) と呼ばれる回路アンサッツを構築するためのフレームワークを提案する。 また,選択後の測定により,オペレータの期待値を効率的に測定する手法を提案する。 VOQE のワークフローは、駆動された XXZ モデルの LME の定常状態の解法と、イジングスピン鎖の非エルミート的ハミルトニアンスペクトルを虚数体で解くための VOQE の実装に関するものである。

We propose a new variational quantum algorithm named Variational Open Quantum Eigensolver (VOQE) for solving steady states of open quantum systems described by either Lindblad master equations or non-Hermitian Hamiltonians. In VOQE, density matrices of mixed states are represented by pure states in doubled Hilbert space. We give a framework for building circuit ansatz which we call the Hermitian-preserving ansatz (HPA) to restrict the searching space. We also give a method to efficiently measure the operators' expectation values by post-selection measurements. We show the workflow of VOQE on solving steady states of the LMEs of the driven XXZ model and implement VOQE to solve the spectrum of the non-Hermitian Hamiltonians of the Ising spin chain in an imaginary field.
翻訳日:2024-03-07 16:06:06 公開日:2024-03-06
# 対角性学習とクラス認識を用いた連続的セグメンテーション

Continual Segmentation with Disentangled Objectness Learning and Class Recognition ( http://arxiv.org/abs/2403.03477v1 )

ライセンス: Link先を確認
Yizheng Gong, Siyue Yu, Xiaoyang Wang, Jimin Xiao(参考訳) ほとんどの連続的なセグメンテーション手法は、ピクセル単位の分類タスクとしてこの問題に取り組む。 しかし、このようなパラダイムは非常に困難であり、オブジェクトが強い転送能力を持ち、抵抗を忘れてしまうため、内蔵オブジェクト性を持つクエリベースのセグメンタは、画素単位のセグメンタに比べて本質的に有利である。 これらの結果に基づき, 連続的セグメンテーションを2つの段階に分割し, 記憶に抵抗する連続的対象性学習とよく研究された連続的分類を提案する。 CoMasTReは、2段階のセグメンタ学習クラスに依存しないマスクの提案を第1段階で使用し、認識は第2段階に留まる。 連続学習では、客観性を強化するために単純だが効果的な蒸留が行われる。 古いクラスの忘れを緩和するために,セグメンテーションに適した多ラベルクラスの蒸留戦略を設計する。 PASCAL VOCとADE20Kに対するCoMasTReの有効性を検討した。 広範な実験により,提案手法が両データセットの画素単位およびクエリベースメソッドよりも優れていることが判明した。 コードはhttps://github.com/jordangong/CoMasTReで入手できる。

Most continual segmentation methods tackle the problem as a per-pixel classification task. However, such a paradigm is very challenging, and we find query-based segmenters with built-in objectness have inherent advantages compared with per-pixel ones, as objectness has strong transfer ability and forgetting resistance. Based on these findings, we propose CoMasTRe by disentangling continual segmentation into two stages: forgetting-resistant continual objectness learning and well-researched continual classification. CoMasTRe uses a two-stage segmenter learning class-agnostic mask proposals at the first stage and leaving recognition to the second stage. During continual learning, a simple but effective distillation is adopted to strengthen objectness. To further mitigate the forgetting of old classes, we design a multi-label class distillation strategy suited for segmentation. We assess the effectiveness of CoMasTRe on PASCAL VOC and ADE20K. Extensive experiments show that our method outperforms per-pixel and query-based methods on both datasets. Code will be available at https://github.com/jordangong/CoMasTRe.
翻訳日:2024-03-07 16:05:38 公開日:2024-03-06
# 深層学習のための逆フリー高速自然勾配法

Inverse-Free Fast Natural Gradient Descent Method for Deep Learning ( http://arxiv.org/abs/2403.03473v1 )

ライセンス: Link先を確認
Xinwei Ou, Ce Zhu, Xiaolin Huang, and Yipeng Liu(参考訳) 二階法は二階微分法や統計学を取り入れた一階法よりもはるかに高速に収束できるが、計算不効率のため深層学習ではあまり普及しない。 これを扱うために、既存のソリューションの多くは、逆行列のサイズを減らすことに重点を置いている。 しかし、各イテレーションで逆演算子を実行する必要がある。 本稿では,最初の時代における逆計算のみを必要とする高速自然勾配降下法(fngd)を提案する。 まず,自然勾配降下(NGD)の勾配前条件式をシャーマン・モリソン・ウードベリー式を用いて,サンプルごとの勾配の重み付け和として再構成する。 これに基づいて計算係数の反復的逆演算を避けるため、重み付き係数は経験的性能に影響を与えることなくエポック間で共有される。 FNGDは、NGDを固定係数重み付け和として近似し、一階法の平均和と似ている。 したがって、fngdの計算複雑性は一階法に近づくことができる。 提案するFNGDの効率性を示すため,画像分類と機械翻訳タスクの実証評価を行った。 CIFAR-100データセット上でResNet-18をトレーニングするために、FNGDはKFACと比較して2.05$\times$のスピードアップを達成できる。 Multi30Kでのトランスフォーマーのトレーニングでは、FNGDはAdamWを24 BLEUスコアで上回り、ほぼ同じトレーニング時間を必要とする。

Second-order methods can converge much faster than first-order methods by incorporating second-order derivates or statistics, but they are far less prevalent in deep learning due to their computational inefficiency. To handle this, many of the existing solutions focus on reducing the size of the matrix to be inverted. However, it is still needed to perform the inverse operator in each iteration. In this paper, we present a fast natural gradient descent (FNGD) method, which only requires computing the inverse during the first epoch. Firstly, we reformulate the gradient preconditioning formula in the natural gradient descent (NGD) as a weighted sum of per-sample gradients using the Sherman-Morrison-Woodbury formula. Building upon this, to avoid the iterative inverse operation involved in computing coefficients, the weighted coefficients are shared across epochs without affecting the empirical performance. FNGD approximates the NGD as a fixed-coefficient weighted sum, akin to the average sum in first-order methods. Consequently, the computational complexity of FNGD can approach that of first-order methods. To demonstrate the efficiency of the proposed FNGD, we perform empirical evaluations on image classification and machine translation tasks. For training ResNet-18 on the CIFAR-100 dataset, FNGD can achieve a speedup of 2.05$\times$ compared with KFAC. For training Transformer on Multi30K, FNGD outperforms AdamW by 24 BLEU score while requiring almost the same training time.
翻訳日:2024-03-07 16:05:11 公開日:2024-03-06
# Few-Shot Learningのためのベースクラス情報を用いたメタトレーニングの強化

Boosting Meta-Training with Base Class Information for Few-Shot Learning ( http://arxiv.org/abs/2403.03472v1 )

ライセンス: Link先を確認
Weihao Jiang, Guodong Liu, Di He, Kun He(参考訳) 機械学習における挑戦的なタスクであるFew-shot Learningは、ラベル付き例が限定された新しい、見えないクラスを認識するために適応可能な分類器を学ぶことを目的としている。 メタラーニングは、数少ない学習のための顕著なフレームワークとして登場した。 そのトレーニングフレームワークはもともと、モデル非依存なメタ学習(maml)やプロトタイプ的ネットワークといったタスクレベルの学習方法であった。 そして、最近提案されたmeta-baselineと呼ばれるトレーニングパラダイムは、逐次事前トレーニングとメタトレーニングステージで構成され、最先端のパフォーマンスを得る。 しかし, メタベースラインは, 終末訓練法として, 事前訓練の完了後にのみメタトレーニング段階を開始することができることを示すため, 2つの訓練段階の固有の矛盾により, トレーニングコストと準最適性能に悩まされる。 これらの制約に対処するために,2つの代替ループからなるエンドツーエンドのトレーニングパラダイムを提案する。 外部ループでは,最終線形層のみを更新しながら,トレーニングセット全体のクロスエントロピー損失を算出する。 内部ループでは、元のメタ学習訓練モードを用いて損失を計算し、外乱からの勾配を取り入れ、パラメータ更新を誘導する。 このトレーニングパラダイムは、迅速に収束するだけでなく、既存のベースラインよりも優れており、トレーニングセット全体からの情報とメタラーニングトレーニングパラダイムが相互に強化できることを示している。 さらに,本フレームワークはモデルに依存しないため,ベースラインシステムの約1%を超え,大幅な性能向上を実現している。

Few-shot learning, a challenging task in machine learning, aims to learn a classifier adaptable to recognize new, unseen classes with limited labeled examples. Meta-learning has emerged as a prominent framework for few-shot learning. Its training framework is originally a task-level learning method, such as Model-Agnostic Meta-Learning (MAML) and Prototypical Networks. And a recently proposed training paradigm called Meta-Baseline, which consists of sequential pre-training and meta-training stages, gains state-of-the-art performance. However, as a non-end-to-end training method, indicating the meta-training stage can only begin after the completion of pre-training, Meta-Baseline suffers from higher training cost and suboptimal performance due to the inherent conflicts of the two training stages. To address these limitations, we propose an end-to-end training paradigm consisting of two alternative loops. In the outer loop, we calculate cross entropy loss on the entire training set while updating only the final linear layer. In the inner loop, we employ the original meta-learning training mode to calculate the loss and incorporate gradients from the outer loss to guide the parameter updates. This training paradigm not only converges quickly but also outperforms existing baselines, indicating that information from the overall training set and the meta-learning training paradigm could mutually reinforce one another. Moreover, being model-agnostic, our framework achieves significant performance gains, surpassing the baseline systems by approximate 1%.
翻訳日:2024-03-07 16:04:31 公開日:2024-03-06
# 共役状態と最小量子メモリによる指数学習の利点

Exponential learning advantages with conjugate states and minimal quantum memory ( http://arxiv.org/abs/2403.03469v1 )

ライセンス: Link先を確認
Robbie King, Kianna Wan, Jarrod McClean(参考訳) 量子コンピュータが量子メモリに格納された量子状態を直接操作し、分析する能力によって、控えめな数の計測値を考えると、我々の物理的世界の側面について学ぶことができる。 ここでは,量子コンピュータが将来利用可能になるであろう新しい学習資源について検討する -- 複素共役である $\rho \otimes \rho^\ast$ を伴う未知の状態の測定。 あるシャドウトモグラフィーのタスクでは、驚くべきことに$\rho \otimes \rho^\ast$のコピーのみの測定は$\rho^{\otimes k}$の計測値よりも指数関数的に強力である。 これにより、一定のオーバーヘッド量子メモリまたは最小量子メモリのみを用いて証明可能な指数的優位性のクラスを拡張し、計算と物理の両方のアプリケーションで自然に$\rho^\ast$状態が利用できる多くの例を提供する。 さらに、一般化されたクリフォードアンサンブルの下で単一コピー上の古典的影のパワーを正確に定量化し、効率的に学習できる量のクラスを与える。 単一コピーと量子メモリの両方で研究する学習タスクは物理的に自然であり、ボソニックモードの限界を持つ実空間観測量に対応し、ノイズの多い背景下で特定の信号を検出するための指数関数的な改善を実現する。 量子学習における新しい強力なリソースを定量化し、量子シミュレーションの改善、量子センサーからの学習、新しい物理現象の発見に応用できる可能性があると信じている。

The ability of quantum computers to directly manipulate and analyze quantum states stored in quantum memory allows them to learn about aspects of our physical world that would otherwise be invisible given a modest number of measurements. Here we investigate a new learning resource which could be available to quantum computers in the future -- measurements on the unknown state accompanied by its complex conjugate $\rho \otimes \rho^\ast$. For a certain shadow tomography task, we surprisingly find that measurements on only copies of $\rho \otimes \rho^\ast$ can be exponentially more powerful than measurements on $\rho^{\otimes K}$, even for large $K$. This expands the class of provable exponential advantages using only a constant overhead quantum memory, or minimal quantum memory, and we provide a number of examples where the state $\rho^\ast$ is naturally available in both computational and physical applications. In addition, we precisely quantify the power of classical shadows on single copies under a generalized Clifford ensemble and give a class of quantities that can be efficiently learned. The learning task we study in both the single copy and quantum memory settings is physically natural and corresponds to real-space observables with a limit of bosonic modes, where it achieves an exponential improvement in detecting certain signals under a noisy background. We quantify a new and powerful resource in quantum learning, and we believe the advantage may find applications in improving quantum simulation, learning from quantum sensors, and uncovering new physical phenomena.
翻訳日:2024-03-07 16:03:52 公開日:2024-03-06
# タスク適応型アテンションジェネレータを用いたリアルタイム自動運転のためのマルチタスク学習

Multi-task Learning for Real-time Autonomous Driving Leveraging Task-adaptive Attention Generator ( http://arxiv.org/abs/2403.03468v1 )

ライセンス: Link先を確認
Wonhyeok Choi, Mingyu Shin, Hyukzae Lee, Jaehoon Cho, Jaehyeon Park, Sunghoon Im(参考訳) リアルタイム処理は、即時意思決定と迅速な応答が必須であるため、自動運転システムでは不可欠である。 現実のシナリオでは、自動運転車は周囲の状況を継続的に解釈し、複雑なセンサーデータを分析し、多くのコンピュータビジョンタスクを通じて安全性を確保するために分割秒以内に決定を行う。 本稿では,モノクロ3次元物体検出,セマンティックセグメンテーション,深度推定という3つの重要な自律運転課題に適応する新しいリアルタイムマルチタスクネットワークを提案する。 マルチタスク学習における一般的な問題である負の伝達の課題に対処するため,タスク適応型アテンション生成器を提案する。 このジェネレータは、ハードパラメータ共有アプローチの効率を生かしながら、3つのタスク間の相互関係を自動的に識別し、タスク共有パターンをアレンジするように設計されている。 我々の知る限り、提案したモデルは、リアルタイム処理速度を維持しながら、複数のタスク、特に3Dオブジェクト検出を同時に処理する能力において先駆的である。 cityscapes-3dデータセット上でテストされた、厳密に最適化されたネットワークは、一貫してさまざまなベースラインモデルを上回るものです。 さらに,本研究の枠組みに組み込まれた方法論の有効性について検討した。

Real-time processing is crucial in autonomous driving systems due to the imperative of instantaneous decision-making and rapid response. In real-world scenarios, autonomous vehicles are continuously tasked with interpreting their surroundings, analyzing intricate sensor data, and making decisions within split seconds to ensure safety through numerous computer vision tasks. In this paper, we present a new real-time multi-task network adept at three vital autonomous driving tasks: monocular 3D object detection, semantic segmentation, and dense depth estimation. To counter the challenge of negative transfer, which is the prevalent issue in multi-task learning, we introduce a task-adaptive attention generator. This generator is designed to automatically discern interrelations across the three tasks and arrange the task-sharing pattern, all while leveraging the efficiency of the hard-parameter sharing approach. To the best of our knowledge, the proposed model is pioneering in its capability to concurrently handle multiple tasks, notably 3D object detection, while maintaining real-time processing speeds. Our rigorously optimized network, when tested on the Cityscapes-3D datasets, consistently outperforms various baseline models. Moreover, an in-depth ablation study substantiates the efficacy of the methodologies integrated into our framework.
翻訳日:2024-03-07 16:03:21 公開日:2024-03-06
# 超連続パルスにおけるマルチモード量子相関

Multimode Quantum Correlations in Supercontinuum Pulses ( http://arxiv.org/abs/2403.03467v1 )

ライセンス: Link先を確認
Aruto Hosaka, Shintaro Niimura, Masaya Tomita, Akihito Omi, Masahiro Takeoka, Fumihiko Kannari(参考訳) suprecontinuum (sc) 光は複雑なスペクトルノイズ構造を含み、その正確な特性は物理の基本的な理解と応用のために重要である。 これまでにいくつかの実験的および理論的ノイズ特性が研究されている。 しかし、いずれも量子力学的性質を考慮していない。 本稿では,フォトニック結晶繊維から発生するsc光に発生する量子ノイズとそのスペクトル相関を実験的に評価する。 さらに,これらの相関に適切な基底変換を適用することで,過大な非線形性が存在する場合でも,SC雑音振幅をショットノイズ限界以下に絞り込むことができることを示す。

Suprecontinuum (SC) light contains complex spectral noise structure and its accurate characterization is important for fundamental understanding of its physics as well as for its applications. Several experimental and theoretical noise characterizations have been performed so far. However, none of them takes into account the quantum mechanical properties. Here, we demonstrate experimental characterisation of quantum noise and its spectral correlations formed in the SC light generated from a photonic crystal fiber. Moreover, by applying an appropriate basis transformation to these correlations, we demonstrate that the SC noise amplitude can be squeezed below the shot-noise limit in some bases, even in the presence of excessively large nonlinearities.
翻訳日:2024-03-07 16:02:59 公開日:2024-03-06
# 自己注意型グラフ畳み込みネットワークによる構造学習とノード埋め込み

Self-Attention Empowered Graph Convolutional Network for Structure Learning and Node Embedding ( http://arxiv.org/abs/2403.03465v1 )

ライセンス: Link先を確認
Mengying Jiang, Guizhong Liu, Yuanchao Su, Xinliang Wu(参考訳) グラフ構造化データの表現学習では、多くの人気のあるグラフニューラルネットワーク(GNN)が長距離依存をキャプチャできず、パフォーマンスが低下する。 さらに、この弱みは、関係グラフがヘテロフィリー(低ホモフィリー)によって特徴づけられるときに拡大される。 本稿では,グラフ畳み込みネットワーク (graph convolutional network with self-attention, gcn-sa) と呼ばれる新しいグラフ学習フレームワークを提案する。 提案手法はノードレベルの表現学習において例外的な一般化能力を示す。 提案したGCN-SAには、エッジとノード機能に対応する2つの拡張が含まれている。 エッジに対しては,任意のノード間の内部相関をキャプチャ可能な,安定かつ効果的なグラフ構造学習モジュールを設計する。 このグラフ構造学習モジュールは、グラフ全体から各ノードの信頼できる隣人を特定することができる。 ノードの特徴に関しては、トランスフォーマーブロックを変更して、gcnがグラフ全体から貴重な情報を融合できるようにします。 これらの2つの拡張は、GCN-SAが長距離依存関係をキャプチャするのを助けるために、異なるレベルのホモフィリーを持つグラフ上で表現学習を行うことを可能にします。 ベンチマークデータセットによる実験結果は,提案したGCN-SAの有効性を示す。 他の優れたGNNと比較して、提案されたGCN-SAは競争力がある。

In representation learning on graph-structured data, many popular graph neural networks (GNNs) fail to capture long-range dependencies, leading to performance degradation. Furthermore, this weakness is magnified when the concerned graph is characterized by heterophily (low homophily). To solve this issue, this paper proposes a novel graph learning framework called the graph convolutional network with self-attention (GCN-SA). The proposed scheme exhibits an exceptional generalization capability in node-level representation learning. The proposed GCN-SA contains two enhancements corresponding to edges and node features. For edges, we utilize a self-attention mechanism to design a stable and effective graph-structure-learning module that can capture the internal correlation between any pair of nodes. This graph-structure-learning module can identify reliable neighbors for each node from the entire graph. Regarding the node features, we modify the transformer block to make it more applicable to enable GCN to fuse valuable information from the entire graph. These two enhancements work in distinct ways to help our GCN-SA capture long-range dependencies, enabling it to perform representation learning on graphs with varying levels of homophily. The experimental results on benchmark datasets demonstrate the effectiveness of the proposed GCN-SA. Compared to other outstanding GNN counterparts, the proposed GCN-SA is competitive.
翻訳日:2024-03-07 16:02:49 公開日:2024-03-06
# フレイムディフューザ:マスク誘導拡散を用いた接地ワイルドファイア画像合成

FLAME Diffuser: Grounded Wildfire Image Synthesis using Mask Guided Diffusion ( http://arxiv.org/abs/2403.03463v1 )

ライセンス: Link先を確認
Hao Wang, Sayed Pedram Haeri Boroujeni, Xiwen Chen, Ashish Bastola, Huayu Li, Abolfazl Razi(参考訳) 近年の機械学習の台頭は、広範囲な火災検知などの様々な研究分野に恩恵をもたらした。 それでも、小さな物体検出と希少物体検出は依然として課題である。 この問題に対処するために,拡散モデルを用いて真理対のデータセットを生成できるデータセットオートマトンを提案する。 具体的には,火炎の位置や大きさを正確に制御しながら,既存画像にワイルドファイアを融合できるマスク誘導拡散フレームワークを提案する。 あらかじめ,特定のシナリオにおける山火事画像のデータセットが欠落しているギャップを埋めるために,テキストプロンプトと入力画像の両方を制御して合成画像の背景を変更する。 さらに,カラーティント問題やよく知られた領域シフト問題を解くために,クリップモデルを適用して生成した膨大なデータセットをフィルタリングし,品質を維持する。 したがって,提案するフレームワークは,高品質で真理を呈する画像の膨大なデータセットを生成することができ,特定のタスクにおける注釈付きデータセットのニーズに十分対応できる。

The rise of machine learning in recent years has brought benefits to various research fields such as wide fire detection. Nevertheless, small object detection and rare object detection remain a challenge. To address this problem, we present a dataset automata that can generate ground truth paired datasets using diffusion models. Specifically, we introduce a mask-guided diffusion framework that can fusion the wildfire into the existing images while the flame position and size can be precisely controlled. In advance, to fill the gap that the dataset of wildfire images in specific scenarios is missing, we vary the background of synthesized images by controlling both the text prompt and input image. Furthermore, to solve the color tint problem or the well-known domain shift issue, we apply the CLIP model to filter the generated massive dataset to preserve quality. Thus, our proposed framework can generate a massive dataset of that images are high-quality and ground truth-paired, which well addresses the needs of the annotated datasets in specific tasks.
翻訳日:2024-03-07 16:02:28 公開日:2024-03-06
# ホームサービスロボットの長期パーソナライズのための対話型連続学習アーキテクチャ

Interactive Continual Learning Architecture for Long-Term Personalization of Home Service Robots ( http://arxiv.org/abs/2403.03462v1 )

ライセンス: Link先を確認
Ali Ayub, Chrystopher Nehaniv, Kerstin Dautenhahn(参考訳) ロボットが非構造環境において補助的なタスクを遂行するには、環境の意味的な知識を学習し、推論する必要がある。 セマンティック推論アーキテクチャの開発が再開したにもかかわらず、これらの手法はすべてのトレーニングデータが事前利用可能であると仮定する。 しかし、各ユーザの環境は独特であり、時間とともに変化し続けることができるため、パーソナライズされたホームサービスロボットには適さない。 連続学習の研究は、時間とともに学習し適応できる手法を開発するが、これらの手法のほとんどは、静的画像データセットのオブジェクト分類の狭いコンテキストでテストされている。 本稿では,連続学習,意味推論,対話型機械学習文学のアイデアを組み合わせて,人間とロボットの相互作用を通じて家庭環境における意味知識の連続学習のための対話型連続学習アーキテクチャを開発する。 このアーキテクチャは、人間の新しい知識を効率的かつリアルタイムに学習するための学習と記憶のコア認知原則に基づいている。 我々は,物理移動マニピュレータロボットとアーキテクチャを統合し,実験室環境において2ヶ月にわたってシステム評価を行う。 本研究は,ユーザ(実験者)が提供した限られたデータから,物理的ロボットが環境変化に継続的に適応し,学習した知識を用いてオブジェクトフェッチタスクを行うためのアーキテクチャの有効性を示す。

For robots to perform assistive tasks in unstructured home environments, they must learn and reason on the semantic knowledge of the environments. Despite a resurgence in the development of semantic reasoning architectures, these methods assume that all the training data is available a priori. However, each user's environment is unique and can continue to change over time, which makes these methods unsuitable for personalized home service robots. Although research in continual learning develops methods that can learn and adapt over time, most of these methods are tested in the narrow context of object classification on static image datasets. In this paper, we combine ideas from continual learning, semantic reasoning, and interactive machine learning literature and develop a novel interactive continual learning architecture for continual learning of semantic knowledge in a home environment through human-robot interaction. The architecture builds on core cognitive principles of learning and memory for efficient and real-time learning of new knowledge from humans. We integrate our architecture with a physical mobile manipulator robot and perform extensive system evaluations in a laboratory environment over two months. Our results demonstrate the effectiveness of our architecture to allow a physical robot to continually adapt to the changes in the environment from limited data provided by the users (experimenters), and use the learned knowledge to perform object fetching tasks.
翻訳日:2024-03-07 16:02:11 公開日:2024-03-06
# IB-Net:ブール充足性における可変決定のための初期分岐ネットワーク

IB-Net: Initial Branch Network for Variable Decision in Boolean Satisfiability ( http://arxiv.org/abs/2403.03517v1 )

ライセンス: Link先を確認
Tsz Ho Chan, Wenyi Xiao, Junhua Huang, Huiling Zhen, Guangji Tian and Mingxuan Yuan(参考訳) ブール満足度問題は電子設計自動化、特に論理等価チェックプロセスにおいて重要な要素である。 現在、SATソルバはこれらの問題に使われ、ニューラルネットワークはソルバの補助として試みられている。 しかし、LECコンテキストにおけるSAT問題は、主に不満足な性質とUNSATコア変数のかなりの割合によって特徴的であるため、既存のニューラルネットワークアシストはこの特殊な領域では成功していないことが証明されている。 この課題に対処するために、我々は、グラフニューラルネットワークと新しいグラフ符号化技術を利用した革新的なフレームワークであるIB-Netを提案する。 IB-Netは産業データで平均5.0%、SAT競合データで8.3%の高速化を実現している。 このブレークスルーは、LECワークフローにおける効率的な問題解決を前進させる。

Boolean Satisfiability problems are vital components in Electronic Design Automation, particularly within the Logic Equivalence Checking process. Currently, SAT solvers are employed for these problems and neural network is tried as assistance to solvers. However, as SAT problems in the LEC context are distinctive due to their predominantly unsatisfiability nature and a substantial proportion of UNSAT-core variables, existing neural network assistance has proven unsuccessful in this specialized domain. To tackle this challenge, we propose IB-Net, an innovative framework utilizing graph neural networks and novel graph encoding techniques to model unsatisfiable problems and interact with state-of-the-art solvers. Extensive evaluations across solvers and datasets demonstrate IB-Net's acceleration, achieving an average runtime speedup of 5.0% on industrial data and 8.3% on SAT competition data empirically. This breakthrough advances efficient solving in LEC workflows.
翻訳日:2024-03-07 15:57:19 公開日:2024-03-06
# 擬似ラベリングによる教師なし多言語Dense検索

Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling ( http://arxiv.org/abs/2403.03516v1 )

ライセンス: Link先を確認
Chao-Wei Huang, Chen-An Li, Tsu-Yuan Hsu, Chen-Yu Hsu, Yun-Nung Chen(参考訳) タンス検索手法は多言語情報検索において有望な性能を示しており,クエリやドキュメントは言語によって異なる。 しかし、高密度レトリバーは通常、大量のペアデータを必要とするため、多言語シナリオではさらに大きな課題が生じる。 本稿では,教師なし多言語高密度検索システムであるUMRについて紹介する。 本手法は,多言語言語モデルのシーケンス推定能力を活用して,高密度検索学習のための擬似ラベルを取得する。 多言語高密度検索器の性能を反復的に向上する2段階フレームワークを提案する。 2つのベンチマークデータセットによる実験結果から、UMRは教師付きベースラインよりも優れており、ペアデータを持たない多言語レトリバーのトレーニングの可能性を示し、実用性を向上させる。 私たちのソースコード、データ、モデルはhttps://github.com/MiuLab/UMRで公開されています。

Dense retrieval methods have demonstrated promising performance in multilingual information retrieval, where queries and documents can be in different languages. However, dense retrievers typically require a substantial amount of paired data, which poses even greater challenges in multilingual scenarios. This paper introduces UMR, an Unsupervised Multilingual dense Retriever trained without any paired data. Our approach leverages the sequence likelihood estimation capabilities of multilingual language models to acquire pseudo labels for training dense retrievers. We propose a two-stage framework which iteratively improves the performance of multilingual dense retrievers. Experimental results on two benchmark datasets show that UMR outperforms supervised baselines, showcasing the potential of training multilingual retrievers without paired data, thereby enhancing their practicality. Our source code, data, and models are publicly available at https://github.com/MiuLab/UMR
翻訳日:2024-03-07 15:57:01 公開日:2024-03-06
# CLongEval: 長期の大規模言語モデルを評価するための中国のベンチマーク

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models ( http://arxiv.org/abs/2403.03514v1 )

ライセンス: Link先を確認
Zexuan Qiu, Jingjing Li, Shijue Huang, Wanjun Zhong, Irwin King(参考訳) 強固なlong-context機能を持つ大規模言語モデル(llm)の開発は、最近の研究の焦点であり、中国語に熟練したlong-context llmが出現した。 しかし、これらのモデルの評価はベンチマークの欠如により未開発のままである。 このギャップに対処するために,中国におけるlong-context llm評価の総合ベンチマークであるclongevalを提案する。 CLongEvalの特徴は,(1) 7つの異なるタスクと7,267のサンプルからなる十分なデータボリューム,(2)コンテキストウィンドウサイズ1Kから100Kのモデルに適応する広範適用性,(3)高品質,2,000以上の手動で注釈付き質問応答ペア,に加えて自動構築されたラベル。 CLongEvalでは、中国語の長文能力と習熟度の両方を特徴とする6つのオープンソース長文LLMと2つの主要な商用LCMを総合的に評価しています。 また、経験的な結果に基づいて詳細な分析を行い、長期コンテキスト設定で課題を呈する重要な機能を明らかにしようとしています。 データセット、評価スクリプト、モデル出力がリリースされる。

Developing Large Language Models (LLMs) with robust long-context capabilities has been the recent research focus, resulting in the emergence of long-context LLMs proficient in Chinese. However, the evaluation of these models remains underdeveloped due to a lack of benchmarks. To address this gap, we present CLongEval, a comprehensive Chinese benchmark for evaluating long-context LLMs. CLongEval is characterized by three key features: (1) Sufficient data volume, comprising 7 distinct tasks and 7,267 examples; (2) Broad applicability, accommodating to models with context windows size from 1K to 100K; (3) High quality, with over 2,000 manually annotated question-answer pairs in addition to the automatically constructed labels. With CLongEval, we undertake a comprehensive assessment of 6 open-source long-context LLMs and 2 leading commercial counterparts that feature both long-context abilities and proficiency in Chinese. We also provide in-depth analysis based on the empirical results, trying to shed light on the critical capabilities that present challenges in long-context settings. The dataset, evaluation scripts, and model outputs will be released.
翻訳日:2024-03-07 15:56:47 公開日:2024-03-06
# Dcl-Net: 半教師付きマルチオーガンセグメンテーションのためのデュアルコントラスト学習ネットワーク

Dcl-Net: Dual Contrastive Learning Network for Semi-Supervised Multi-Organ Segmentation ( http://arxiv.org/abs/2403.03512v1 )

ライセンス: Link先を確認
Lu Wen, Zhenghao Feng, Yun Hou, Peng Wang, Xi Wu, Jiliu Zhou, Yan Wang(参考訳) 半教師付き学習は、豊富な注釈付きデータセットの厳密な要求を緩和するための健全な尺度である。 しかし、既存のSSLメソッドの多くは、画像とカテゴリの関係を無視して、1つの画像内のピクセルを独立に予測する。 本稿では,グローバル・ローカル・コントラスト学習を利用して画像とクラス間の関係を強化する,半教師付きMOSのための2段階のデュアルコントラスト学習ネットワークを提案する。 具体的には、第1段階において、画像間の暗黙的な連続性と類似性を探索し、グローバルコンテキストを学ぶために、類似性誘導によるグローバルコントラスト学習を開発する。 そして、第2段階では、オルガンアウェアな局所コントラスト学習を行い、さらにクラス表現を引き付ける。 計算負担を軽減するために,局所的なコントラスト学習のためのカテゴリ表現を圧縮するマスクセンター計算アルゴリズムを導入する。 パブリックな2017 ACDCデータセットと社内RC-OARsデータセットを用いて行った実験は,本手法の優れた性能を示した。

Semi-supervised learning is a sound measure to relieve the strict demand of abundant annotated datasets, especially for challenging multi-organ segmentation . However, most existing SSL methods predict pixels in a single image independently, ignoring the relations among images and categories. In this paper, we propose a two-stage Dual Contrastive Learning Network for semi-supervised MoS, which utilizes global and local contrastive learning to strengthen the relations among images and classes. Concretely, in Stage 1, we develop a similarity-guided global contrastive learning to explore the implicit continuity and similarity among images and learn global context. Then, in Stage 2, we present an organ-aware local contrastive learning to further attract the class representations. To ease the computation burden, we introduce a mask center computation algorithm to compress the category representations for local contrastive learning. Experiments conducted on the public 2017 ACDC dataset and an in-house RC-OARs dataset has demonstrated the superior performance of our method.
翻訳日:2024-03-07 15:56:25 公開日:2024-03-06
# 品質多様性アルゴリズムを用いた結晶構造予測における特性空間の照明

Illuminating the property space in crystal structure prediction using Quality-Diversity algorithms ( http://arxiv.org/abs/2403.03511v1 )

ライセンス: Link先を確認
Marta Wolinska, Aron Walsh, Antoine Cully(参考訳) 特有な特性を持つ材料の識別は、技術的進歩を可能にするための必須の目的である。 本稿では,結晶構造予測の分野に対するtextit{Quality-Diversity}アルゴリズムの適用を提案する。 これらのアルゴリズムの目的は、ロボット工学、建築工学、航空工学といった様々な分野で成功してきた様々な高パフォーマンスソリューションを特定することである。 これらの手法は高い評価値に依存しているため、最適化の指針となる原子間ポテンシャルと物質的特性を計算するために機械学習サロゲートモデルを用いる。 そこで本研究では,ニューラルネットワークを用いて結晶特性をモデル化し,新しい組成・構造の組み合わせを同定する価値を示す。 本研究では,map-elitesアルゴリズムのtio$_2$の多形予測への応用について検討した。 既知の基底状態を再発見し、異なる性質を持つ他のポリモルフィックの集合も発見する。 提案手法はC,SiO$_2$およびSiC系に対して検証し,電子的,機械的特性の異なる複数の局所ミニマを探索できることを示す。

The identification of materials with exceptional properties is an essential objective to enable technological progress. We propose the application of \textit{Quality-Diversity} algorithms to the field of crystal structure prediction. The objective of these algorithms is to identify a diverse set of high-performing solutions, which has been successful in a range of fields such as robotics, architecture and aeronautical engineering. As these methods rely on a high number of evaluations, we employ machine-learning surrogate models to compute the interatomic potential and material properties that are used to guide optimisation. Consequently, we also show the value of using neural networks to model crystal properties and enable the identification of novel composition--structure combinations. In this work, we specifically study the application of the MAP-Elites algorithm to predict polymorphs of TiO$_2$. We rediscover the known ground state, in addition to a set of other polymorphs with distinct properties. We validate our method for C, SiO$_2$ and SiC systems, where we show that the algorithm can uncover multiple local minima with distinct electronic and mechanical properties.
翻訳日:2024-03-07 15:56:05 公開日:2024-03-06
# Kerr非線形性による自己持続型光学状態破壊

Self-sustained optomechanical state destruction triggered by the Kerr nonlinearity ( http://arxiv.org/abs/2403.03509v1 )

ライセンス: Link先を確認
A. Delattre, I. Golokolenov, R. Pedurand, X. Zhou, A. Fefferman and E. Collin(参考訳) キャビティ光学は、動く物体をレーザー光やマイクロ波といった量子場で観測できるユニークなプラットフォームを実装している。 共振器共振器の周波数を超える周波数でポンプトーンを駆動することで、大きな噴射力で自己持続振動をトリガーすることができる。 これらのリミットサイクルダイナミクスは特に豊かであり、ヒステリックな振る舞い、広いコム信号、特に大きな運動振幅を示す。 これらの特徴はすべて、基本的な量子研究と工学の両方に利用することができる。 本稿では,ビーム共振器の屈曲に容量結合した高q共振器共振を用いた低温マイクロ波実験を行う。 ポンプパラメータ(調整, 電力)の機能としてリミットサイクルダイナミクス位相空間について検討した。 予期せぬことに、この位相空間の領域では、マイクロ波共鳴は無限に破壊され、劇的なパワーリセットだけが元の状態に戻すことができる。 この現象はキャビティのKerr非線形性に関連する光学的不安定性として理解することができる。 この主張を支持する理論が提示され、ほぼ定量的に測定を再現する。 この特徴はさらに最適化され、量子マイクロ波回路の新たな資源となるかもしれない。

Cavity optomechanics implements a unique platform where moving objects can be probed by quantum fields, either laser light or microwave signals. With a pump tone driving at a frequency above the cavity resonance, self-sustained oscillations can be triggered at large injected powers. These limit cycle dynamics are particularly rich, presenting hysteretic behaviours, broad comb signals and especially large motion amplitudes. All of these features can be exploited for both fundamental quantum research and engineering. Here we present low temperature microwave experiments performed on a high-Q cavity resonance capacitively coupled to the flexure of a beam resonator. We study the limit cycle dynamics phase space as a function of pump parameters (detuning, power). Unexpectedly, we find that in a region of this phase space the microwave resonance is irremediably destroyed: only a dramatic power-reset can restore the dynamics to its original state. The phenomenon can be understood as an optical instability linked to the Kerr nonlinearity of the cavity. A theory supporting this claim is presented, reproducing almost quantitatively the measurement. This remarkable feature might be further optimized and represents a new resource for quantum microwave circuits.
翻訳日:2024-03-07 15:55:48 公開日:2024-03-06
# CounterfacTS を用いた時系列予測モデルのロバスト性検証

Probing the Robustness of Time-series Forecasting Models with CounterfacTS ( http://arxiv.org/abs/2403.03508v1 )

ライセンス: Link先を確認
H{\aa}kon Hanisch Kj{\ae}rnli, Lluis Mas-Ribas, Aida Ashrafi, Gleb Sizov, Helge Langseth and Odd Erik Gundersen(参考訳) 時系列予測に適用される機械学習モデルの一般的な問題は、データ分布(すなわち概念ドリフト)の時間的発展である。 トレーニングデータの多くはこのような変更を反映しないため、新たなアウトオブディストリビューションシナリオではパフォーマンスが低くなるため、その影響を事前に確実に予測することはできない。 我々は、時系列予測タスクにおいて、ディープラーニングモデルの堅牢性を調査するツールであるCounterfacTSを提示し、公開している。 CounterfacTSにはユーザフレンドリなインターフェースがあり、多くのデータセットやディープラーニングモデルに対して、時系列データとその予測を視覚化、比較、定量化することができる。 さらに、ユーザは時系列に様々な変換を適用し、その結果の予測の変化を解釈可能な方法で探索することができる。 例を通して、CounterfacTSの使い方を説明します。 一 時系列の集合を特徴づけて区別する主な特徴を識別すること。 二 モデルの性能がこれらの特性に依存するかの評価及び 三 当初の時系列のガイド変換により、データ配信の新しい領域において、トレーニング及び予測性能を高めるために所望の特質を有する偽物を作成する。 本稿では,時系列を変換し,モデルのトレーニングに効果的な反事実を作成するために,投影特徴空間におけるデータの位置を可視化し,考慮することの重要性について論じる。 全体として、カウンターファクトは、時系列予測タスクで元のデータでカバーされない仮説的シナリオの影響を効率的に探求するために、反事実を作成するのに役立つ。

A common issue for machine learning models applied to time-series forecasting is the temporal evolution of the data distributions (i.e., concept drift). Because most of the training data does not reflect such changes, the models present poor performance on the new out-of-distribution scenarios and, therefore, the impact of such events cannot be reliably anticipated ahead of time. We present and publicly release CounterfacTS, a tool to probe the robustness of deep learning models in time-series forecasting tasks via counterfactuals. CounterfacTS has a user-friendly interface that allows the user to visualize, compare and quantify time series data and their forecasts, for a number of datasets and deep learning models. Furthermore, the user can apply various transformations to the time series and explore the resulting changes in the forecasts in an interpretable manner. Through example cases, we illustrate how CounterfacTS can be used to i) identify the main features characterizing and differentiating sets of time series, ii) assess how the model performance depends on these characateristics, and iii) guide transformations of the original time series to create counterfactuals with desired properties for training and increasing the forecasting performance in new regions of the data distribution. We discuss the importance of visualizing and considering the location of the data in a projected feature space to transform time-series and create effective counterfactuals for training the models. Overall, CounterfacTS aids at creating counterfactuals to efficiently explore the impact of hypothetical scenarios not covered by the original data in time-series forecasting tasks.
翻訳日:2024-03-07 15:55:31 公開日:2024-03-06
# GaLore: グラディエント低ランク投影によるメモリ効率のLLMトレーニング

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection ( http://arxiv.org/abs/2403.03507v1 )

ライセンス: Link先を確認
Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, Yuandong Tian(参考訳) LLM(Large Language Models)のトレーニングは、重み付けと最適化状態の増大により、大きなメモリ問題を引き起こす。 ローランク適応(LoRA)のような一般的なメモリ削減手法は、各層の凍結事前学習重量にトレーニング可能なローランク行列を追加し、トレーニング可能なパラメータとオプティマイザ状態を削減する。 しかし、そのようなアプローチは、パラメータ探索を低ランクのサブスペースに制限し、トレーニングダイナミクスを変化させるので、事前訓練と微調整の両方においてフルランクの重みを持つトレーニングを過小評価し、さらにフルランクのウォームスタートを必要とする。 本研究では,フルパラメータ学習を可能にするがloraのような一般的な低ランク適応法よりもメモリ効率が高い学習戦略である勾配低ランクプロジェクション(galore)を提案する。 本手法は,最大19.7bトークンのc4データセットを用いたllama 1bおよび7bアーキテクチャの事前トレーニングの効率と性能を維持しつつ,最大65.5%のオプティマイザ状態のメモリ使用量を削減する。 8ビットガロアにより、最大82.5%のオプティマイザメモリと、bf16ベースラインと比較して63.3%のトレーニングメモリが削減された。 特に、モデル並列、チェックポイント、またはオフロード戦略を使わずに、24GBメモリ(NVIDIA RTX 4090など)のコンシューマGPU上で7Bモデルを事前トレーニングする可能性を示す。

Training Large Language Models (LLMs) presents significant memory challenges, predominantly due to the growing size of weights and optimizer states. Common memory-reduction approaches, such as low-rank adaptation (LoRA), add a trainable low-rank matrix to the frozen pre-trained weight in each layer, reducing trainable parameters and optimizer states. However, such approaches typically underperform training with full-rank weights in both pre-training and fine-tuning stages since they limit the parameter search to a low-rank subspace and alter the training dynamics, and further, may require full-rank warm start. In this work, we propose Gradient Low-Rank Projection (GaLore), a training strategy that allows full-parameter learning but is more memory-efficient than common low-rank adaptation methods such as LoRA. Our approach reduces memory usage by up to 65.5% in optimizer states while maintaining both efficiency and performance for pre-training on LLaMA 1B and 7B architectures with C4 dataset with up to 19.7B tokens, and on fine-tuning RoBERTa on GLUE tasks. Our 8-bit GaLore further reduces optimizer memory by up to 82.5% and total training memory by 63.3%, compared to a BF16 baseline. Notably, we demonstrate, for the first time, the feasibility of pre-training a 7B model on consumer GPUs with 24GB memory (e.g., NVIDIA RTX 4090) without model parallel, checkpointing, or offloading strategies.
翻訳日:2024-03-07 15:55:06 公開日:2024-03-06
# 人間とaiのハイブリッドテキストにおけるai生成テキストの検出

Towards Detecting AI-Generated Text within Human-AI Collaborative Hybrid Texts ( http://arxiv.org/abs/2403.03506v1 )

ライセンス: Link先を確認
Zijie Zeng, Shiqi Liu, Lele Sha, Zhuang Li, Kaixun Yang, Sannyuya Liu, Dragan Ga\v{s}evi\'c, Guanliang Chen(参考訳) 本研究では,人間-AI協調テキストにおける文レベルAI生成テキスト検出の課題について検討する。 ハイブリッドテキストに対するAI生成テキスト検出の既存の研究は、しばしば合成データセットに依存している。 これらは通常、限られた数の境界を持つハイブリッドテキストを含む。 ハイブリッドテキスト中のai生成コンテンツを検出する研究は、現実のアプリケーションをよりよく知らせるために、現実的な設定で生成された異なる種類のハイブリッドテキストをカバーするべきである。 そこで本研究では,マルチターンインタラクションにおけるヒューマンライターとインテリジェントライティングシステムによるコラボレーションを通じて生成される,多種多様なハイブリッドテキストを含むCoAuthorデータセットを用いた。 2段階のセグメンテーションベースのパイプラインを採用しています。 i) 各セグメントが一貫した著者の文を含む所定のハイブリッドテキスト内のセグメントを検出し、 (ii)各特定セグメントの著者を分類する。 Our empirical findings highlight (1) detecting AI-generated sentences in hybrid texts is overall a challenging task because (1.1) human writers' selecting and even editing AI-generated sentences based on personal preferences adds difficulty in identifying the authorship of segments; (1.2) the frequent change of authorship between neighboring sentences within the hybrid text creates difficulties for segment detectors in identifying authorship-consistent segments; (1.3) the short length of text segments within hybrid texts provides limited stylistic cues for reliable authorship determination; (2) before embarking on the detection process, it is beneficial to assess the average length of segments within the hybrid text. この評価は、(2.1)より長いセグメントのハイブリッドテキストに対してテキストセグメンテーションに基づく戦略を採用するか(2.2)、または(2.2)短いセグメントを持つ人々に対して直接文別分類戦略を採用するかを決定するのに役立つ。

This study explores the challenge of sentence-level AI-generated text detection within human-AI collaborative hybrid texts. Existing studies of AI-generated text detection for hybrid texts often rely on synthetic datasets. These typically involve hybrid texts with a limited number of boundaries. We contend that studies of detecting AI-generated content within hybrid texts should cover different types of hybrid texts generated in realistic settings to better inform real-world applications. Therefore, our study utilizes the CoAuthor dataset, which includes diverse, realistic hybrid texts generated through the collaboration between human writers and an intelligent writing system in multi-turn interactions. We adopt a two-step, segmentation-based pipeline: (i) detect segments within a given hybrid text where each segment contains sentences of consistent authorship, and (ii) classify the authorship of each identified segment. Our empirical findings highlight (1) detecting AI-generated sentences in hybrid texts is overall a challenging task because (1.1) human writers' selecting and even editing AI-generated sentences based on personal preferences adds difficulty in identifying the authorship of segments; (1.2) the frequent change of authorship between neighboring sentences within the hybrid text creates difficulties for segment detectors in identifying authorship-consistent segments; (1.3) the short length of text segments within hybrid texts provides limited stylistic cues for reliable authorship determination; (2) before embarking on the detection process, it is beneficial to assess the average length of segments within the hybrid text. This assessment aids in deciding whether (2.1) to employ a text segmentation-based strategy for hybrid texts with longer segments, or (2.2) to adopt a direct sentence-by-sentence classification strategy for those with shorter segments.
翻訳日:2024-03-07 15:54:31 公開日:2024-03-06
# 対称性圧縮二重因子分解による化学におけるフォールトトレラント量子シミュレーションのランタイム削減

Reducing the runtime of fault-tolerant quantum simulations in chemistry through symmetry-compressed double factorization ( http://arxiv.org/abs/2403.03502v1 )

ライセンス: Link先を確認
Dario Rocca, Cristian L. Cortes, Jerome Gonthier, Pauline J. Ollitrault, Robert M. Parrish, Gian-Luca Anselmetti, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif(参考訳) 量子化に基づく量子位相推定は、化学応用における基底状態エネルギーの計算のための最先端のフォールトトレラント量子アルゴリズムである。 この文脈では、ハミルトニアンの1ノルムは必要な反復の総数と全体の計算コストを決定する上で基本的な役割を果たす。 本研究では,ハミルトニアンの圧縮二重分解と対称性シフト技術を組み合わせた対称性圧縮二重分解(SCDF)手法を導入し,1-ノルム値を大幅に低減する。 本手法の有効性は, フェモコ分子, シトクロムp450, 水素鎖など様々な指標系を考慮し, 数値的に検証した。 scdfの効率を他の手法と絶対的に比較するために,フォールトトレラント量子コンピュータの実行時間を支配する toffoli ゲート要件を推定する。 ここで考慮されたシステムでは、scdfは二重因子分解やテンソル超縮約の他の変種と比較してトッフォリゲート数を小さくし、これは一般的に量子化の最も効率的なアプローチと見なされる。

Quantum phase estimation based on qubitization is the state-of-the-art fault-tolerant quantum algorithm for computing ground-state energies in chemical applications. In this context, the 1-norm of the Hamiltonian plays a fundamental role in determining the total number of required iterations and also the overall computational cost. In this work, we introduce the symmetry-compressed double factorization (SCDF) approach, which combines a compressed double factorization of the Hamiltonian with the symmetry shift technique, significantly reducing the 1-norm value. The effectiveness of this approach is demonstrated numerically by considering various benchmark systems, including the FeMoco molecule, cytochrome P450, and hydrogen chains of different sizes. To compare the efficiency of SCDF to other methods in absolute terms, we estimate Toffoli gate requirements, which dominate the execution time on fault-tolerant quantum computers. For the systems considered here, SCDF leads to a sizeable reduction of the Toffoli gate count in comparison to other variants of double factorization or even tensor hypercontraction, which is usually regarded as the most efficient approach for qubitization.
翻訳日:2024-03-07 15:54:03 公開日:2024-03-06
# オープンドメイン対話生成のための知識プラグアンドプレイテストベッド

A Knowledge Plug-and-Play Test Bed for Open-domain Dialogue Generation ( http://arxiv.org/abs/2403.03496v1 )

ライセンス: Link先を確認
Xiangci Li, Linfeng Song, Lifeng Jin, Haitao Mi, Jessica Ouyang, Dong Yu(参考訳) 知識に基づくオープンドメイン対話生成は、マイニングされたサポート知識を使用して人間と対話するチャットシステムを構築することを目的としている。 多くの種類の知識や情報源が、サポート知識として有用であることが示されている。 大規模言語モデルの時代でさえ、新たな情報源から得られた知識に基づく応答生成は、事実上重要なアプローチである。 シングルソース知識を用いた先行研究は、知識選択と応答生成のパフォーマンスの間に明確な正の相関を示す一方で、サポート知識検索を評価するための既存のマルチソースデータセットは存在しない。 さらに、事前の研究は、テスト時に利用可能な知識源がトレーニング中と同じであると仮定している。 この非現実的な仮定は、モデルがトレーニングされた後に新しい知識ソースが利用可能になるため、不必要にモデルに障害を与える。 本稿では,多元対話知識選択と応答生成を評価するために,マルチソースウィザード・オブ・ウィキペディア (ms.wow) と呼ばれる高品質なベンチマークを提案する。 既存のデータセットとは異なり、クリーンなサポート知識を含み、発話レベルに接し、複数の知識ソースに分割される。 さらに,未発見のソースからの新たなサポート知識をゼロショット方式で使用して,すでに訓練済みの対話モデルをテストすることを目的とした,新たな課題である対話知識プラグイン・アンド・プレイを提案する。

Knowledge-based, open-domain dialogue generation aims to build chit-chat systems that talk to humans using mined support knowledge. Many types and sources of knowledge have previously been shown to be useful as support knowledge. Even in the era of large language models, response generation grounded in knowledge retrieved from additional up-to-date sources remains a practically important approach. While prior work using single-source knowledge has shown a clear positive correlation between the performances of knowledge selection and response generation, there are no existing multi-source datasets for evaluating support knowledge retrieval. Further, prior work has assumed that the knowledge sources available at test time are the same as during training. This unrealistic assumption unnecessarily handicaps models, as new knowledge sources can become available after a model is trained. In this paper, we present a high-quality benchmark named multi-source Wizard of Wikipedia (Ms.WoW) for evaluating multi-source dialogue knowledge selection and response generation. Unlike existing datasets, it contains clean support knowledge, grounded at the utterance level and partitioned into multiple knowledge sources. We further propose a new challenge, dialogue knowledge plug-and-play, which aims to test an already trained dialogue model on using new support knowledge from previously unseen sources in a zero-shot fashion.
翻訳日:2024-03-07 15:53:44 公開日:2024-03-06
# 質量光子を介するアハロノフ-ボーム効果

Aharonov-Bohm effect mediated by massive photons ( http://arxiv.org/abs/2403.03495v1 )

ライセンス: Link先を確認
Kicheon Kang(参考訳) 仮想光子はアハロノフ・ボーム干渉の局所的現実的記述において重要な役割を果たす。 干渉計における仮想光子の影響はスペクトルの変化によって明らかになる。 特に、真空が2つの理想的な導電板の間に閉じ込められているとき、光子は有限有効質量の波動方程式である2次元proca方程式に従う。 これにより、試験電荷と磁束の間の短距離相互作用が生じ、アハロノフ・ボーム効果は2つの物体の間の大きな距離で指数関数的に減少する。 一方、半古典的な記述も可能であり、これは仮想光子の物理的現実をいかに証明するかという興味深い疑問を提起する。

Virtual photons play an essential role in the locally realistic description of the Aharonov-Bohm interference. We show that the effect of virtual photons in the interferometer is manifested by a change in their spectrum. In particular, when a vacuum is confined between two ideal conducting plates, the photons obey the two-dimensional Proca equation, the wave equation with finite effective mass. This results in a short-range interaction between a test charge and a magnetic flux, and hence the Aharonov-Bohm effect is reduced exponentially at a large distance between the two bodies. On the other hand, a semiclassical description is also possible, and this raises the interesting question of how to prove the physical reality of virtual photons.
翻訳日:2024-03-07 15:53:22 公開日:2024-03-06
# vasttrack: 広大なカテゴリのビジュアルオブジェクトトラッキング

VastTrack: Vast Category Visual Object Tracking ( http://arxiv.org/abs/2403.03493v1 )

ライセンス: Link先を確認
Liang Peng, Junyuan Gao, Xinran Liu, Weihong Li, Shaohua Dong, Zhipeng Zhang, Heng Fan, Libo Zhang(参考訳) 本稿では,豊富なクラスや動画を包含することで,より汎用的なビジュアルトラッキングの開発を容易にするための新しいベンチマークである vasttrack を提案する。 VastTrackにはいくつかの魅力的な特性がある。 特に、2,115クラスの対象オブジェクトをカバーしており、既存の一般的なベンチマークのオブジェクトカテゴリ(563クラスのGOT-10k、70のカテゴリのLaSOTなど)を大きく上回っている。 このような広大なオブジェクトクラスでは、より一般的なオブジェクト追跡を学ぼうと考えています。 (2)大規模化。 現行のベンチマークと比較すると、VastTrackは50,610のシーケンスと420万フレームを提供しており、ビデオ数に関する最大のベンチマークとなっているため、ディープラーニング時代のより強力なビジュアルトラッカーのトレーニングに役立てることができる。 (3)リッチアノテーション。 従来のバウンディングボックスアノテーションに加えて、s vasttrackはビデオの言語記述も提供している。 VastTrackの豊富なアノテーションは、視覚のみと視覚言語追跡の両方の開発を可能にする。 正確なアノテーションを確保するために、すべてのビデオに複数の注意深い検査と改善のラウンドを手動でラベル付けする。 既存のトラッカーの性能を理解し、将来の比較のためのベースラインを提供するため、25の代表トラッカーを広範囲に評価する。 その結果は、トレーニングのさまざまなシナリオから豊富なカテゴリやビデオが欠如していることから、現在のデータセットと比較して大きな低下を示しており、一般的なトラッキングを改善するにはより多くの努力が必要である。 vasttrackとその評価結果はすべて、https://github.com/henglan/vasttrackで公開される予定だ。

In this paper, we introduce a novel benchmark, dubbed VastTrack, towards facilitating the development of more general visual tracking via encompassing abundant classes and videos. VastTrack possesses several attractive properties: (1) Vast Object Category. In particular, it covers target objects from 2,115 classes, largely surpassing object categories of existing popular benchmarks (e.g., GOT-10k with 563 classes and LaSOT with 70 categories). With such vast object classes, we expect to learn more general object tracking. (2) Larger scale. Compared with current benchmarks, VastTrack offers 50,610 sequences with 4.2 million frames, which makes it to date the largest benchmark regarding the number of videos, and thus could benefit training even more powerful visual trackers in the deep learning era. (3) Rich Annotation. Besides conventional bounding box annotations, VastTrack also provides linguistic descriptions for the videos. The rich annotations of VastTrack enables development of both the vision-only and the vision-language tracking. To ensure precise annotation, all videos are manually labeled with multiple rounds of careful inspection and refinement. To understand performance of existing trackers and to provide baselines for future comparison, we extensively assess 25 representative trackers. The results, not surprisingly, show significant drops compared to those on current datasets due to lack of abundant categories and videos from diverse scenarios for training, and more efforts are required to improve general tracking. Our VastTrack and all the evaluation results will be made publicly available https://github.com/HengLan/VastTrack.
翻訳日:2024-03-07 15:53:11 公開日:2024-03-06
# 連続可変量子情報を用いた望遠鏡のベースライン拡張

Practical Approach to Extending Baselines of Telescopes using Continuous-Variable Quantum Information ( http://arxiv.org/abs/2403.03491v1 )

ライセンス: Link先を確認
Bran Purvis, Randy Lafler, and R. Nicholas Lanning(参考訳) 干渉望遠鏡は、遠方の天体を撮像するための装置であるが、光学的損失は、アレイ内の望遠鏡が互いにどれだけの距離に配置できるかを厳しく制限し、分解能のボトルネックを生じさせる。 この問題に対する絡み合い支援アプローチは、量子リピータネットワークを用いて、絡み合い状態が長距離に分散できる場合の光学損失問題の解決策として、Gottesman, Jennewein, Croke (GJC12) [Physical Review Letters, 109(7):070503, July 2011] によって提案されている。 本稿では,2モード圧縮真空状態と天文学状態とを干渉し,ホモダイン検出により得られた状態を測定する,別の絡み合い支援スキームを提案する。 我々は,連続変数のアプローチを用いて,天文学的情報源の相互コヒーレンスに関するフィッシャー情報を計算する。 本手法は, 漁獲量を計測成功率で累積的に観測した場合, 従来の直接検出法やエンタングルメント支援法を上回らないことを示す。

Interferometric telescopes are instrumental for the imaging of distant astronomical bodies, but optical loss heavily restricts how far telescopes in an array can be placed from one another, leading to a bottleneck in the resolution that can be achieved. An entanglement-assisted approach to this problem has been proposed by Gottesman, Jennewein, and Croke (GJC12) [Physical Review Letters, 109(7):070503, July 2011], as a possible solution to the issue of optical loss if the entangled state can be distributed across long distances by employing a quantum repeater network. In this paper, we propose an alternative entanglement-assisted scheme that interferes a two-mode squeezed vacuum state with the astronomical state and then measures the resulting state by means of homodyne detection. We use a continuous-variable approach and compute the Fisher information with respect to the mutual coherence of the astronomical source. We show that when the Fisher information is observed cumulatively at the rate at which successful measurements can be performed, our proposed scheme does not outperforms the traditional direct detection approach or the entanglement-assisted approach of GJC12.
翻訳日:2024-03-07 15:52:43 公開日:2024-03-06
# インターフリート都市交通バスアイドリングの地球測地リアルタイムデータ

Global Geolocated Realtime Data of Interfleet Urban Transit Bus Idling ( http://arxiv.org/abs/2403.03489v1 )

ライセンス: Link先を確認
Nicholas Kunz and H. Oliver Gao(参考訳) 都市交通バスのアイドリングは、エコロジー的なストレス、経済的非効率性、そして排出による医療上の有害な健康結果に寄与している。 この好ましくない運転行動の頻繁なパターンのグローバルな蓄積は巨大です。 その規模を測定するため,都市交通バスの走行時間と位置を国際的に記録する拡張可能なリアルタイム検知システムとして,GRD-TRT-BUF-4I(Ground Truth Buffer for Idling)を提案する。 このシステムは、General Transit Feed Specification(GTFS)リアルタイムから、北米、ヨーロッパ、オセアニア、アジアの50都市から1日に約20万回のアイドリングイベントを検出する。 このリアルタイムデータは、運用上の意思決定と艦隊管理を動的に行うために作成され、アイドリングイベントの発生頻度と期間を減らし、その累積効果を捉えた。 市民・交通技術者、都市計画家、疫学者、政策立案者、その他の利害関係者は、様々な地理的・時間的スケールで、エミッションモデリング、交通管理、ルートプランニング、その他の都市サステナビリティの取り組みに役立つと考えている。

Urban transit bus idling is a contributor to ecological stress, economic inefficiency, and medically hazardous health outcomes due to emissions. The global accumulation of this frequent pattern of undesirable driving behavior is enormous. In order to measure its scale, we propose GRD-TRT- BUF-4I (Ground Truth Buffer for Idling) an extensible, realtime detection system that records the geolocation and idling duration of urban transit bus fleets internationally. Using live vehicle locations from General Transit Feed Specification (GTFS) Realtime, the system detects approximately 200,000 idling events per day from over 50 cities across North America, Europe, Oceania, and Asia. This realtime data was created to dynamically serve operational decision-making and fleet management to reduce the frequency and duration of idling events as they occur, as well as to capture its accumulative effects. Civil and Transportation Engineers, Urban Planners, Epidemiologists, Policymakers, and other stakeholders might find this useful for emissions modeling, traffic management, route planning, and other urban sustainability efforts at a variety of geographic and temporal scales.
翻訳日:2024-03-07 15:52:21 公開日:2024-03-06
# gaussian denoising用unetの微調整による低線量ct画像再構成

Low-Dose CT Image Reconstruction by Fine-Tuning a UNet Pretrained for Gaussian Denoising for the Downstream Task of Image Enhancement ( http://arxiv.org/abs/2403.03551v1 )

ライセンス: Link先を確認
Tim Selig, Thomas M\"arz, Martin Storath, Andreas Weinmann(参考訳) CT(Computed Tomography)は医用画像モダリティとして広く用いられており、電離放射線に基づくため、放射線線量を最小限にすることが望ましい。 しかし、放射線線量削減は画像品質の低下を伴うため、低線量CT(LDCT)データからの再構成は依然として研究の対象となる課題である。 LDCT再構成のベンチマークであるLoDoPaB-CTベンチマークによると、多くの最先端メソッドはUNet型アーキテクチャを含むパイプラインを使用する。 具体的には、トップランク法であるItNetでは、フィルタバックプロジェクション(FBP)、CTデータに基づいてトレーニングされたUNet、反復的な改善ステップを含む3段階のプロセスを採用している。 本稿では,より複雑な2段階法を提案する。 第1段階もFBPを使用し、第2段階のトレーニング戦略には新規性があり、CT画像強調段階として特徴付けられる。 我々のアプローチの重要な点は、ニューラルネットワークが非CTデータ、すなわち様々な自然グレイスケール画像(写真)上のガウスノイズ除去によって、明らかに異なる事前訓練タスクで事前訓練されていることである。 次に、LDCT画像とそれに対応する正常線量CT画像(NDCT)を用いて、CT画像強調の下流タスクのために、このネットワークを微調整する。 プレトレーニングはドメイン固有のCTデータに依存しず、さらなる反復的な精錬ステップは不要であるため、最先端技術よりも明らかに単純であるにもかかわらず、提案した2段階の手法は競合的な結果が得られる。 提案手法は,LoDoPaB-CTチャレンジにおける共有トップランキングと,SSIMメトリックに対する第1位を実現する。

Computed Tomography (CT) is a widely used medical imaging modality, and as it is based on ionizing radiation, it is desirable to minimize the radiation dose. However, a reduced radiation dose comes with reduced image quality, and reconstruction from low-dose CT (LDCT) data is still a challenging task which is subject to research. According to the LoDoPaB-CT benchmark, a benchmark for LDCT reconstruction, many state-of-the-art methods use pipelines involving UNet-type architectures. Specifically the top ranking method, ItNet, employs a three-stage process involving filtered backprojection (FBP), a UNet trained on CT data, and an iterative refinement step. In this paper, we propose a less complex two-stage method. The first stage also employs FBP, while the novelty lies in the training strategy for the second stage, characterized as the CT image enhancement stage. The crucial point of our approach is that the neural network is pretrained on a distinctly different pretraining task with non-CT data, namely Gaussian noise removal on a variety of natural grayscale images (photographs). We then fine-tune this network for the downstream task of CT image enhancement using pairs of LDCT images and corresponding normal-dose CT images (NDCT). Despite being notably simpler than the state-of-the-art, as the pretraining did not depend on domain-specific CT data and no further iterative refinement step was necessary, the proposed two-stage method achieves competitive results. The proposed method achieves a shared top ranking in the LoDoPaB-CT challenge and a first position with respect to the SSIM metric.
翻訳日:2024-03-07 15:47:26 公開日:2024-03-06
# ai大規模言語モデルにおける感情操作による偽情報生成の増幅

Emotional Manipulation Through Prompt Engineering Amplifies Disinformation Generation in AI Large Language Models ( http://arxiv.org/abs/2403.03550v1 )

ライセンス: Link先を確認
Rasita Vinay, Giovanni Spitale, Nikola Biller-Andorno, Federico Germani(参考訳) 本研究では,OpenAIのLarge Language Models (LLMs) による合成偽情報の創出と,その感情的刺激に対する応答性について検討する。 davinci-002, davinci-003, gpt-3.5-turbo, gpt-4を用いた様々なllmイテレーションを活用し, 不正情報生成の成功を評価する実験を行った。 その結果, ソーシャルメディア投稿19,800件のコーパスに基づいて, OpenAI による全ての LLM が情報発信に成功し, 感情的刺激に効果的に反応し, テキスト生成における感情的手がかりの曖昧な理解を示すことが明らかとなった。 丁寧に刺激すると、全てのLLMは一貫して高周波で偽情報を生成する。 逆に、偽情報生成の頻度は減少し、モデルはしばしば偽情報の生成を拒み、そのツールがそのような目的を意図していないことをユーザーに警告する。 この研究は、AI技術の責任ある開発と応用に関する継続的な議論、特に、偽情報の拡散を緩和し、AI生成コンテンツの透明性を促進することに寄与する。

This study investigates the generation of synthetic disinformation by OpenAI's Large Language Models (LLMs) through prompt engineering and explores their responsiveness to emotional prompting. Leveraging various LLM iterations using davinci-002, davinci-003, gpt-3.5-turbo and gpt-4, we designed experiments to assess their success in producing disinformation. Our findings, based on a corpus of 19,800 synthetic disinformation social media posts, reveal that all LLMs by OpenAI can successfully produce disinformation, and that they effectively respond to emotional prompting, indicating their nuanced understanding of emotional cues in text generation. When prompted politely, all examined LLMs consistently generate disinformation at a high frequency. Conversely, when prompted impolitely, the frequency of disinformation production diminishes, as the models often refuse to generate disinformation and instead caution users that the tool is not intended for such purposes. This research contributes to the ongoing discourse surrounding responsible development and application of AI technologies, particularly in mitigating the spread of disinformation and promoting transparency in AI-generated content.
翻訳日:2024-03-07 15:46:55 公開日:2024-03-06
# 低複雑さMIMOチャネル推定のための拡散に基づく生成優先

Diffusion-based Generative Prior for Low-Complexity MIMO Channel Estimation ( http://arxiv.org/abs/2403.03545v1 )

ライセンス: Link先を確認
Benedikt Fesl and Michael Baur and Florian Strasser and Michael Joham and Wolfgang Utschick(参考訳) 本研究では拡散モデル(DM)に基づく新しいチャネル推定器を提案する。 生成前処理を用いる関連研究とは対照的に、信号対雑音比(snr)情報を位置埋め込みした軽量畳み込みニューラルネットワーク(cnn)を疎角領域におけるチャネル分布を学習して設計する。 確率的再サンプリングを回避し、所与のパイロット観測よりも低いSNRを考慮した逆拡散ステップを切断する推定戦略と組み合わせることで、結果のDM推定器は複雑さとメモリオーバーヘッドの両方を低くする。 数値計算により,生成前処理を用いた最先端チャネル推定器よりも優れた性能を示す。

This work proposes a novel channel estimator based on diffusion models (DMs), one of the currently top-rated generative models. Contrary to related works utilizing generative priors, a lightweight convolutional neural network (CNN) with positional embedding of the signal-to-noise ratio (SNR) information is designed by learning the channel distribution in the sparse angular domain. Combined with an estimation strategy that avoids stochastic resampling and truncates reverse diffusion steps that account for lower SNR than the given pilot observation, the resulting DM estimator has both low complexity and memory overhead. Numerical results exhibit better performance than state-of-the-art channel estimators utilizing generative priors.
翻訳日:2024-03-07 15:46:34 公開日:2024-03-06
# 言語に基づくヒューマンモビリティ予測のためのプロンプトマイニング

Prompt Mining for Language-based Human Mobility Forecasting ( http://arxiv.org/abs/2403.03544v1 )

ライセンス: Link先を確認
Hao Xue, Tianye Tang, Ali Payani, Flora D. Salim(参考訳) 大規模言語モデルの発展に伴い,近年,人間の移動パターンを予測する革新的な手法として言語ベースの予測が登場している。 中心となる考え方は、数値値として与えられた生のモビリティデータを自然言語文に変換するプロンプトを使用することで、言語モデルを利用して将来の観察のための記述を生成することである。 しかし、従来の研究では、数値を文に変換するために固定的および手動設計のテンプレートのみを使用していた。 言語モデルの予測性能はプロンプトに大きく依存するため、プロンプトに固定テンプレートを使用すると、言語モデルの予測能力が制限される可能性がある。 本稿では,多種多様なプロンプトデザイン戦略を検討することを目的とした,言語に基づくモビリティ予測におけるプロンプトマイニングのための新しい枠組みを提案する。 具体的には、プロンプトの情報エントロピーに基づくプロンプト生成ステージと、思考連鎖などのメカニズムを統合するためのプロンプト改善ステージとを含む。 実世界の大規模データに対する実験結果から, 急速採掘パイプラインから生成したプロンプトの優位性が示された。 さらに, 異なるプロンプト変種の比較により, 提案手法の有効性が示された。 本研究は,言語に基づくモビリティ予測を推し進める上で有望な方向性を示す。

With the advancement of large language models, language-based forecasting has recently emerged as an innovative approach for predicting human mobility patterns. The core idea is to use prompts to transform the raw mobility data given as numerical values into natural language sentences so that the language models can be leveraged to generate the description for future observations. However, previous studies have only employed fixed and manually designed templates to transform numerical values into sentences. Since the forecasting performance of language models heavily relies on prompts, using fixed templates for prompting may limit the forecasting capability of language models. In this paper, we propose a novel framework for prompt mining in language-based mobility forecasting, aiming to explore diverse prompt design strategies. Specifically, the framework includes a prompt generation stage based on the information entropy of prompts and a prompt refinement stage to integrate mechanisms such as the chain of thought. Experimental results on real-world large-scale data demonstrate the superiority of generated prompts from our prompt mining pipeline. Additionally, the comparison of different prompt variants shows that the proposed prompt refinement process is effective. Our study presents a promising direction for further advancing language-based mobility forecasting.
翻訳日:2024-03-07 15:46:21 公開日:2024-03-06
# DPOT:大規模PDE事前訓練のための自動回帰デノイング演算子変換器

DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training ( http://arxiv.org/abs/2403.03542v1 )

ライセンス: Link先を確認
Zhongkai Hao, Chang Su, Songming Liu, Julius Berner, Chengyang Ying, Hang Su, Anima Anandkumar, Jian Song, Jun Zhu(参考訳) データ・スカース・セッティングにおけるニューラル演算子の訓練効率と性能を向上させるために,事前学習を行った。 しかし、それは主に、長い軌跡、多重スケール、偏微分方程式(PDE)データの様々な次元など、固有の複雑さと多様性のため、その初期段階にある。 本稿では,pdeデータに対して,より安定かつ効率的な事前学習を可能にし,様々な下流タスクに一般化する,新しい自己回帰脱調プリトレーニング戦略を提案する。 さらに,フーリエ注意に基づくフレキシブルでスケーラブルなモデルアーキテクチャを設計することにより,大規模事前トレーニングのためのモデルスケールアップが容易になる。 我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。 大規模な実験により、これらのベンチマークでSOTAを達成し、3Dデータのような様々な下流PDEタスクの性能を大幅に向上させるため、モデルの強力な一般化可能性を検証する。 コードは \url{https://github.com/thu-ml/DPOT} で入手できる。

Pre-training has been investigated to improve the efficiency and performance of training neural operators in data-scarce settings. However, it is largely in its infancy due to the inherent complexity and diversity, such as long trajectories, multiple scales and varying dimensions of partial differential equations (PDEs) data. In this paper, we present a new auto-regressive denoising pre-training strategy, which allows for more stable and efficient pre-training on PDE data and generalizes to various downstream tasks. Moreover, by designing a flexible and scalable model architecture based on Fourier attention, we can easily scale up the model for large-scale pre-training. We train our PDE foundation model with up to 0.5B parameters on 10+ PDE datasets with more than 100k trajectories. Extensive experiments show that we achieve SOTA on these benchmarks and validate the strong generalizability of our model to significantly enhance performance on diverse downstream PDE tasks like 3D data. Code is available at \url{https://github.com/thu-ml/DPOT}.
翻訳日:2024-03-07 15:46:03 公開日:2024-03-06
# 条件付きディープラーニングを用いた脳MRIにおけるガドリニウム線量削減

Gadolinium dose reduction for brain MRI using conditional deep learning ( http://arxiv.org/abs/2403.03539v1 )

ライセンス: Link先を確認
Thomas Pinetz, Erich Kobler, Robert Haase, Julian A. Luetkens, Mathias Meetschen, Johannes Haubold, Cornelius Deuschl, Alexander Radbruch, Katerina Deike, Alexander Effland(参考訳) 近年,gadolinium-based contrast agent (gbcas) の減算法として,診断値を維持しつつ副作用を緩和する深層学習法(dl法)が提案されている。 現在、これらのアプローチの2つの大きな課題は、コントラスト強調の正確な予測と現実的な画像の合成である。 本研究では,先行コントラストとポストコントラスト画像対の減算画像に符号化されたコントラスト信号を利用することで,両課題を解決した。 ノイズやアーティファクトの合成を回避し,コントラスト信号抽出と低線量減算画像の強調にのみ焦点をあてるために,ノイズフリーの標準線減算画像をターゲットとしてDLモデルを訓練する。 その結果,コントラスト強調信号のみを予測でき,標準線量を超えた画像の合成が可能となった。 さらに,最近の拡散ベースモデルの埋め込みアイデアを適用し,コントラスト強調行動に影響を及ぼす物理パラメータにモデルを適用する。 本稿では,様々なスキャナー,フィールド強度,コントラストエージェントを用いた合成および実データ集合に対するアプローチの有効性を示す。

Recently, deep learning (DL)-based methods have been proposed for the computational reduction of gadolinium-based contrast agents (GBCAs) to mitigate adverse side effects while preserving diagnostic value. Currently, the two main challenges for these approaches are the accurate prediction of contrast enhancement and the synthesis of realistic images. In this work, we address both challenges by utilizing the contrast signal encoded in the subtraction images of pre-contrast and post-contrast image pairs. To avoid the synthesis of any noise or artifacts and solely focus on contrast signal extraction and enhancement from low-dose subtraction images, we train our DL model using noise-free standard-dose subtraction images as targets. As a result, our model predicts the contrast enhancement signal only; thereby enabling synthesization of images beyond the standard dose. Furthermore, we adapt the embedding idea of recent diffusion-based models to condition our model on physical parameters affecting the contrast enhancement behavior. We demonstrate the effectiveness of our approach on synthetic and real datasets using various scanners, field strengths, and contrast agents.
翻訳日:2024-03-07 15:45:45 公開日:2024-03-06
# radia --intelligent analyticsによる無線広告検出

RADIA -- Radio Advertisement Detection with Intelligent Analytics ( http://arxiv.org/abs/2403.03538v1 )

ライセンス: Link先を確認
Jorge \'Alvarez, Juan Carlos Armenteros, Camilo Torr\'on, Miguel Ortega-Mart\'in, Alfonso Ardoiz, \'Oscar Garc\'ia, Ignacio Arranz, \'I\~nigo Galdeano, Ignacio Garrido, Adri\'an Alonso, Fernando Bay\'on, Oleg Vorontsov(参考訳) ラジオ広告は現代のマーケティング戦略の不可欠な部分であり、その魅力とターゲットのリーチの可能性は間違いなく効果的だ。 しかし,無線放送のダイナミックな性質と複数の無線スポットの上昇傾向は,広告放送をモニタする効率的なシステムを必要としている。 本研究では,高度な音声認識とテキスト分類アルゴリズムを取り入れた新しい無線広告検出手法を提案する。 RadIAのアプローチは、放送コンテンツの事前の知識を不要にすることで、従来の手法を超える。 この貢献により、即興広告や新しく導入された広告を検出することができ、ラジオ放送における広告検出の包括的なソリューションを提供する。 実験結果から, テキストデータのセグメンテーションとタグ付けを行った結果, F1マクロスコアが87.76, 理論最大値が89.33となることがわかった。 本稿ではハイパーパラメータの選択とそのモデルの性能への影響について考察する。 本研究は、広告放送契約の遵守と、競争力のある監視を提供する可能性を示す。 この画期的な研究は、ラジオ広告の監視方法とマーケティング最適化のための新しいドアを根本的に変える可能性がある。

Radio advertising remains an integral part of modern marketing strategies, with its appeal and potential for targeted reach undeniably effective. However, the dynamic nature of radio airtime and the rising trend of multiple radio spots necessitates an efficient system for monitoring advertisement broadcasts. This study investigates a novel automated radio advertisement detection technique incorporating advanced speech recognition and text classification algorithms. RadIA's approach surpasses traditional methods by eliminating the need for prior knowledge of the broadcast content. This contribution allows for detecting impromptu and newly introduced advertisements, providing a comprehensive solution for advertisement detection in radio broadcasting. Experimental results show that the resulting model, trained on carefully segmented and tagged text data, achieves an F1-macro score of 87.76 against a theoretical maximum of 89.33. This paper provides insights into the choice of hyperparameters and their impact on the model's performance. This study demonstrates its potential to ensure compliance with advertising broadcast contracts and offer competitive surveillance. This groundbreaking research could fundamentally change how radio advertising is monitored and open new doors for marketing optimization.
翻訳日:2024-03-07 15:45:24 公開日:2024-03-06
# 推薦のための大規模言語モデルの効率的かつ効果的な学習に向けて

Towards Efficient and Effective Unlearning of Large Language Models for Recommendation ( http://arxiv.org/abs/2403.03536v1 )

ライセンス: Link先を確認
Hangyu Wang, Jianghao Lin, Bo Chen, Yang Yang, Ruiming Tang, Weinan Zhang, Yong Yu(参考訳) 大規模言語モデル(LLM)の大幅な進歩は、将来性のある研究方向、すなわちLLMRecとしてLLMを活用することにつながる。 LLMRecの有効性は、LLMに固有のオープンワールドの知識と推論能力から生じる。 LLMRecはユーザインタラクションデータに基づいた命令チューニングを通じてレコメンデーション機能を取得する。 しかし、ユーザのプライバシを保護し、ユーティリティを最適化するためには、LLMRecが特定のユーザデータを意図的に忘れることも重要です。 LLMの時代において、レコメンデーションアンラーニングは \textit{inefficiency} と \textit{in Effectiveness} という用語で LLMRec に新たな課題をもたらす。 既存の未学習手法では、LLMRecで数十億のパラメータを更新する必要がある。 さらに、学習のプロセス中には常にモデルユーティリティに影響を与えます。 この目的のために, LLM に対する最初の \underline{E}fficient および \underline{E}ffective \underline{U}nlearning 法である \textbf{E2URec} を提案する。 提案するE2URecは,数個のLoRAパラメータのみを更新することで学習効率を向上し,教師学習フレームワークを用いて学習効率を向上させる。 大規模な実験により、E2URecは2つの実世界のデータセットで最先端のベースラインを上回ります。 具体的には、E2URecはレコメンデーションパフォーマンスに影響を与えることなく、特定のデータを効率的に忘れることができる。 ソースコードは \url{https://github.com/justarter/E2URec} にある。

The significant advancements in large language models (LLMs) give rise to a promising research direction, i.e., leveraging LLMs as recommenders (LLMRec). The efficacy of LLMRec arises from the open-world knowledge and reasoning capabilities inherent in LLMs. LLMRec acquires the recommendation capabilities through instruction tuning based on user interaction data. However, in order to protect user privacy and optimize utility, it is also crucial for LLMRec to intentionally forget specific user data, which is generally referred to as recommendation unlearning. In the era of LLMs, recommendation unlearning poses new challenges for LLMRec in terms of \textit{inefficiency} and \textit{ineffectiveness}. Existing unlearning methods require updating billions of parameters in LLMRec, which is costly and time-consuming. Besides, they always impact the model utility during the unlearning process. To this end, we propose \textbf{E2URec}, the first \underline{E}fficient and \underline{E}ffective \underline{U}nlearning method for LLM\underline{Rec}. Our proposed E2URec enhances the unlearning efficiency by updating only a few additional LoRA parameters, and improves the unlearning effectiveness by employing a teacher-student framework, where we maintain multiple teacher networks to guide the unlearning process. Extensive experiments show that E2URec outperforms state-of-the-art baselines on two real-world datasets. Specifically, E2URec can efficiently forget specific data without affecting recommendation performance. The source code is at \url{https://github.com/justarter/E2URec}.
翻訳日:2024-03-07 15:45:06 公開日:2024-03-06
# Few-Shot Learningのためのタスク属性距離:理論的解析と応用

Task Attribute Distance for Few-Shot Learning: Theoretical Analysis and Applications ( http://arxiv.org/abs/2403.03535v1 )

ライセンス: Link先を確認
Minyang Hu, Hong Chang, Zong Guo, Bingpeng Ma, Shiguan Shan and Xilin Chen(参考訳) FSL(Few-shot Learning)は,emph{related}トレーニングタスクの経験を活用することで,ラベル付きサンプルの少ない新規タスクの学習を目的とする。 本稿では,(1)emph{training} タスクと \emph{novel} タスクの関係を定量化する方法について,FSL の2つの重要な疑問を掘り下げて理解しようとする。 2) 異なるモデルに対する新規タスクにおけるemph{adaptation difficulty}の関係はどのように影響するか? 2つの質問に答えるために、属性の上に構築されたタスク属性距離(TAD)を導入し、タスク関連性を定量化する。 多くの既存のメトリクスとは異なり、TADはモデルに依存しないため、異なるFSLモデルに適用できる。 そして,TAD測定値を用いて,タスク関連性とタスク適応困難との理論的関係を確立する。 新たなタスクに縛られた一般化誤差を導出することにより,FSLモデルの新規タスクに対する適応困難度をTADがどのように測定するかを明らかにする。 TAD測定と理論的な結果を検証するため、3つのベンチマークで実験を行った。 実験の結果, tadメトリックはタスク関連性を効果的に定量化し, fsl法における新しいタスクへの適応の困難さを反映していることが明らかとなった。 最後に,提案するtad指標の2つの応用について述べる。データ拡張とテスト時間介入であり,その効果と汎用性をさらに検証する。 ソースコードはhttps://github.com/hu-my/TaskAttributeDistance.comで入手できる。

Few-shot learning (FSL) aims to learn novel tasks with very few labeled samples by leveraging experience from \emph{related} training tasks. In this paper, we try to understand FSL by delving into two key questions: (1) How to quantify the relationship between \emph{training} and \emph{novel} tasks? (2) How does the relationship affect the \emph{adaptation difficulty} on novel tasks for different models? To answer the two questions, we introduce Task Attribute Distance (TAD) built upon attributes as a metric to quantify the task relatedness. Unlike many existing metrics, TAD is model-agnostic, making it applicable to different FSL models. Then, we utilize TAD metric to establish a theoretical connection between task relatedness and task adaptation difficulty. By deriving the generalization error bound on a novel task, we discover how TAD measures the adaptation difficulty on novel tasks for FSL models. To validate our TAD metric and theoretical findings, we conduct experiments on three benchmarks. Our experimental results confirm that TAD metric effectively quantifies the task relatedness and reflects the adaptation difficulty on novel tasks for various FSL methods, even if some of them do not learn attributes explicitly or human-annotated attributes are not available. Finally, we present two applications of the proposed TAD metric: data augmentation and test-time intervention, which further verify its effectiveness and general applicability. The source code is available at https://github.com/hu-my/TaskAttributeDistance.
翻訳日:2024-03-07 15:44:41 公開日:2024-03-06
# 不確定因果順序による量子機械学習

Quantum machine learning with indefinite causal order ( http://arxiv.org/abs/2403.03533v1 )

ライセンス: Link先を確認
Nannan Ma, P. Z. Zhao, Jiangbin Gong(参考訳) 量子機械学習の従来の回路では、入力パラメータと変分パラメータを符号化する量子ゲートが一定の順序で構築されている。 その結果得られる出力関数は、制限されたフーリエ級数の形で表現できるが、フーリエ係数の分布の柔軟性は限られている。 これは、量子ゲートの固定順序が量子機械学習の性能を制限することを示唆している。 この重要な洞察(例も詳述)に基づいて、量子機械学習に無期限因果順序を導入する。 量子ゲートの不明確な因果順序は異なる順序の重ね合わせを可能にするため、量子機械学習の性能は著しく向上することができる。 現在利用可能な量子プラットフォームが、量子ゲートの一定の順序で学習構造をシミュレートすることしかできないことを考慮し、既存のシミュレーションプロトコルを改訂し、不定因果順序を実装し、さらに特定の学習タスクに対する不定因果順序の影響を実証する。 我々の結果は量子機械学習における量子効果の可能性に関する有用な洞察を提供する。

In a conventional circuit for quantum machine learning, the quantum gates used to encode the input parameters and the variational parameters are constructed with a fixed order. The resulting output function, which can be expressed in the form of a restricted Fourier series, has limited flexibility in the distributions of its Fourier coefficients. This indicates that a fixed order of quantum gates can limit the performance of quantum machine learning. Building on this key insight (also elaborated with examples), we introduce indefinite causal order to quantum machine learning. Because the indefinite causal order of quantum gates allows for the superposition of different orders, the performance of quantum machine learning can be significantly enhanced. Considering that the current accessible quantum platforms only allow to simulate a learning structure with a fixed order of quantum gates, we reform the existing simulation protocol to implement indefinite causal order and further demonstrate the positive impact of indefinite causal order on specific learning tasks. Our results offer useful insights into possible quantum effects in quantum machine learning.
翻訳日:2024-03-07 15:44:14 公開日:2024-03-06
# 自己対応の拡張:プログレッシブ距離拡張による教師なし遠点クラウド登録

Extend Your Own Correspondences: Unsupervised Distant Point Cloud Registration by Progressive Distance Extension ( http://arxiv.org/abs/2403.03532v1 )

ライセンス: Link先を確認
Quan Liu, Hongzi Zhu, Zhenxi Wang, Yunsong Zhou, Shan Chang, Minyi Guo(参考訳) 一対の遠距離車両から収集された点雲の登録は、安全関連アプリケーションの運転に不可欠である運転シナリオの包括的かつ正確な3dビューを提供するが、既存の文献は高価なポーズラベルの取得と新しいデータ分布に一般化するための不足に悩まされている。 本稿では,地球規模のポーズラベルを必要とせず,新たな点雲分布に適応する遠隔地クラウド登録手法であるEYOCを提案する。 eyocの中核となるアイデアは、機能抽出器をプログレッシブな方法でトレーニングすることであり、各ラウンドにおいて、機能抽出器は、近接点クラウドペアでトレーニングされ、より遠くのポイントクラウドペアにラベル付けでき、そのような遠点クラウドペアの自己スーパービジョンを可能にする。 この過程は、抽出された抽出器が遠点の雲を登録するまで続く。 特に,高忠実度対応ラベル生成を可能にするために,最も代表的な対応を選定してポイントクラウド対を登録し,アライメントされたポイントクラウドを用いてより正確な対応を見つけ出す効果的な空間フィルタリング手法を考案する。 実験により、eyocはより低いトレーニングコストで最先端の教師付き手法と同等の性能を達成できることが示されている。 また,新しいデータ分布の一般化性能に関する教師あり手法よりも優れている。

Registration of point clouds collected from a pair of distant vehicles provides a comprehensive and accurate 3D view of the driving scenario, which is vital for driving safety related applications, yet existing literature suffers from the expensive pose label acquisition and the deficiency to generalize to new data distributions. In this paper, we propose EYOC, an unsupervised distant point cloud registration method that adapts to new point cloud distributions on the fly, requiring no global pose labels. The core idea of EYOC is to train a feature extractor in a progressive fashion, where in each round, the feature extractor, trained with near point cloud pairs, can label slightly farther point cloud pairs, enabling self-supervision on such far point cloud pairs. This process continues until the derived extractor can be used to register distant point clouds. Particularly, to enable high-fidelity correspondence label generation, we devise an effective spatial filtering scheme to select the most representative correspondences to register a point cloud pair, and then utilize the aligned point clouds to discover more correct correspondences. Experiments show that EYOC can achieve comparable performance with state-of-the-art supervised methods at a lower training cost. Moreover, it outwits supervised methods regarding generalization performance on new data distributions.
翻訳日:2024-03-07 15:43:55 公開日:2024-03-06
# FingerNet: ディープニューラルネットワークに基づく指タップタスクによる微細モータ画像の脳波復号

FingerNet: EEG Decoding of A Fine Motor Imagery with Finger-tapping Task Based on A Deep Neural Network ( http://arxiv.org/abs/2403.03526v1 )

ライセンス: Link先を確認
Young-Min Go, Seong-Hyun Yu, Hyeong-Yeong Park, Minji Lee, and Ji-Hoon Jeong(参考訳) 脳-コンピュータインターフェース(BCI)技術は、主に脳波(EEG)信号を用いて人間の意図を識別し、人間の脳とコンピュータ間のコミュニケーションを容易にする。 eegベースのbciシステムは麻痺患者向けに開発されているが、現在進行中の研究では音声画像と運動画像(mi)のシステムを調査している。 本研究は,従来のMI研究から外れた,MI分類の専門的ネットワークであるFingerNetを紹介する。 提案したFingerNetは、脳波信号から空間的・時間的特徴を抽出し、同じ手の分類精度を向上させる。 実験の結果, 親指, 指数, 中指, リング, 指の動きを包含する5つの指テーピングタスクの分類において, 精度が有意に高かった。 FingerNetは従来のベースラインモデルであるEEGNetやDeepConvNetと比較して圧倒的な性能を示した。 FingerNet の平均精度は 0.3049 であり、EEGNet と DeepConvNet はそれぞれ 0.2196 と 0.2533 の低い精度を示した。 統計的検証はまた、ベースラインネットワーク上のFingerNetの優位性を示す。 偏り予測,特に親指と指数のクラスでは,重み付きクロスエントロピーが実現され,また従来のクラス不均衡緩和法である重み付きクロスエントロピーが適用された。 提案されているFingerNetは、ネットワーク構造を最適化し、性能を改善し、MIを超えるアプリケーションを探索する。 さらに、偏りのある予測に対処するために用いられる重み付きクロスエントロピーアプローチは、多クラス分類タスクを含む様々な領域にまたがる幅広い適用可能性と関連性を持っているように見える。 運動画像の効果的な実行は、微細なMIだけでなく、局所的なMIにも達成できると考えている。

Brain-computer interface (BCI) technology facilitates communication between the human brain and computers, primarily utilizing electroencephalography (EEG) signals to discern human intentions. Although EEG-based BCI systems have been developed for paralysis individuals, ongoing studies explore systems for speech imagery and motor imagery (MI). This study introduces FingerNet, a specialized network for fine MI classification, departing from conventional gross MI studies. The proposed FingerNet could extract spatial and temporal features from EEG signals, improving classification accuracy within the same hand. The experimental results demonstrated that performance showed significantly higher accuracy in classifying five finger-tapping tasks, encompassing thumb, index, middle, ring, and little finger movements. FingerNet demonstrated dominant performance compared to the conventional baseline models, EEGNet and DeepConvNet. The average accuracy for FingerNet was 0.3049, whereas EEGNet and DeepConvNet exhibited lower accuracies of 0.2196 and 0.2533, respectively. Statistical validation also demonstrates the predominance of FingerNet over baseline networks. For biased predictions, particularly for thumb and index classes, we led to the implementation of weighted cross-entropy and also adapted the weighted cross-entropy, a method conventionally employed to mitigate class imbalance. The proposed FingerNet involves optimizing network structure, improving performance, and exploring applications beyond fine MI. Moreover, the weighted Cross Entropy approach employed to address such biased predictions appears to have broader applicability and relevance across various domains involving multi-class classification tasks. We believe that effective execution of motor imagery can be achieved not only for fine MI, but also for local muscle MI
翻訳日:2024-03-07 15:43:31 公開日:2024-03-06
# 直流電流印加によるグラフェンの高調波発生:摂動状態から非摂動状態へ

High-harmonic generation in graphene under the application of a DC electric current: From perturbative to non-perturbative regimes ( http://arxiv.org/abs/2403.03523v1 )

ライセンス: Link先を確認
Minoru Kanega and Masahiro Sato(参考訳) 直流電場を受けるハニカム格子グラフェンモデルにおける高調波発生(HHG)について理論的に検討した。 量子マスター方程式とボルツマン方程式を統合することにより、直流電流下で多電子格子系におけるレーザ駆動ダイナミクスを計算する数値解法を開発した。 本手法は, 弱レーザー(摂動)と強レーザー(摂動)の両方を統一的に処理し, 実験的に避けられない消散効果を考慮した。 その結果, hhgスペクトルを求め, レーザ周波数, レーザ強度, レーザ磁場方向, 直流電流強度依存性を解析した。 特に2n+1)$-th, $2n$-th, $3n$-th Order harmonics(n\in \mathbb Z$)の存在または欠如の観点から, 対称性の破れはHHGスペクトルの形状を大きく変化させる。 レーザー強度、周波数、偏光もhhgスペクトルの形状に影響を与えることが示されている。 その結果, 導電性電子系のHHGスペクトルは, 様々な外部パラメータを調整することによって定量的に, 定性的に制御できることがわかった。

We theoretically investigate high-harmonic generation (HHG) in honeycomb-lattice graphene models when subjected to a DC electric field. By integrating the quantum master equation with the Boltzmann equation, we develop a numerical method to compute laser-driven dynamics in many-electron lattice systems under DC electric current. The method enables us to treat both the weak-laser (perturbative) and intense-laser (non-perturbative) regimes in a unified way, accounting for the experimentally inevitable dissipation effects. From it, we obtain the HHG spectra and analyze their dependence on laser frequency, laser intensity, laser-field direction, and DC current strength. We show that the dynamical and static symmetries are partially broken by a DC current or staggered potential term, and such symmetry breakings drastically change the shape of the HHG spectra, especially in terms of the presence or absence of $(2n+1)$-th, $2n$-th, or $3n$-th order harmonics ($n\in \mathbb Z$). The laser intensity, frequency, and polarization are also shown to affect the shape of the HHG spectra. Our findings indicate that HHG spectra in conducting electron systems can be quantitatively or qualitatively controlled by tuning various external parameters, and DC electric current is used as such an efficient parameter.
翻訳日:2024-03-07 15:42:58 公開日:2024-03-06
# 自然発話における非言語情報 -新しい分析枠組みに向けて-

Non-verbal information in spontaneous speech - towards a new framework of analysis ( http://arxiv.org/abs/2403.03522v1 )

ライセンス: Link先を確認
Tirza Biron, Moshe Barboy, Eran Ben-Artzy, Alona Golubchik, Yanir Marmor, Smadar Szekely, Yaron Winter, David Harel(参考訳) 音声の非言語信号は韻律によって符号化され、会話行動から態度や感情まで幅広い情報を運ぶ。 その重要性にもかかわらず、韻律構造を支配する原則はまだ十分に理解されていない。 本稿では,韻律信号の分類と意味との関連性について,分析的スキーマと概念実証を行う。 スキーマは多層プロソディックイベントの表面表現を解釈する。 実装に向けた第一歩として、3つの順序の韻律現象を解消する分類過程を示す。 事前学習された音声認識モデルを微調整し、複数クラス/複数ラベル同時検出を可能にする。 それは多種多様な自発的データを一般化し、人間のアノテーションと同等、またはそれ以上の性能で実行します。 韻律の標準化された形式化に加えて、散在する韻律パターンはコミュニケーションと音声の組織化の理論を導くことができる。 歓迎副産物は、音声および言語関連技術を強化する韻律の解釈である。

Non-verbal signals in speech are encoded by prosody and carry information that ranges from conversation action to attitude and emotion. Despite its importance, the principles that govern prosodic structure are not yet adequately understood. This paper offers an analytical schema and a technological proof-of-concept for the categorization of prosodic signals and their association with meaning. The schema interprets surface-representations of multi-layered prosodic events. As a first step towards implementation, we present a classification process that disentangles prosodic phenomena of three orders. It relies on fine-tuning a pre-trained speech recognition model, enabling the simultaneous multi-class/multi-label detection. It generalizes over a large variety of spontaneous data, performing on a par with, or superior to, human annotation. In addition to a standardized formalization of prosody, disentangling prosodic patterns can direct a theory of communication and speech organization. A welcome by-product is an interpretation of prosody that will enhance speech- and language-related technologies.
翻訳日:2024-03-07 15:42:31 公開日:2024-03-06
# BiVert: 機械翻訳のための関係を用いた双方向語彙評価

BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine Translation ( http://arxiv.org/abs/2403.03521v1 )

ライセンス: Link先を確認
Carinne Cherf, Yuval Pinter(参考訳) neural machine translation(nmt)はここ数年で急速に進歩し、さまざまな言語に対する改良と品質翻訳を約束している。 このタスクの評価は翻訳の質を決定するために不可欠である。 全体としては、従来の方法による翻訳の実際の感覚に重点が置かれていない。 本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。 このアプローチでは、包括的な多言語百科事典BabelNetを用いる。 提案手法は,出力のソースと後方翻訳のセマンティック距離の計算を通じて,同じ言語レベルでの文比較を促進する定量的アプローチを提案する。 事実分析の結果,提案手法が生成する平均評価スコアと,英ドイツ語対の機械翻訳システムにおける人間評価との間に強い相関が認められた。 最後に,並列コーパスを必要とせずにMTシステムをランク付けする多言語手法を提案する。

Neural machine translation (NMT) has progressed rapidly in the past few years, promising improvements and quality translations for different languages. Evaluation of this task is crucial to determine the quality of the translation. Overall, insufficient emphasis is placed on the actual sense of the translation in traditional methods. We propose a bidirectional semantic-based evaluation method designed to assess the sense distance of the translation from the source text. This approach employs the comprehensive multilingual encyclopedic dictionary BabelNet. Through the calculation of the semantic distance between the source and its back translation of the output, our method introduces a quantifiable approach that empowers sentence comparison on the same linguistic level. Factual analysis shows a strong correlation between the average evaluation scores generated by our method and the human assessments across various machine translation systems for English-German language pair. Finally, our method proposes a new multilingual approach to rank MT systems without the need for parallel corpora.
翻訳日:2024-03-07 15:42:19 公開日:2024-03-06
# オープン量子システムにおけるクリロフ複雑性の成長速度の限界

Speed limits to the growth of Krylov complexity in open quantum systems ( http://arxiv.org/abs/2403.03584v1 )

ライセンス: Link先を確認
Aranya Bhattacharya, Pingal Pratyush Nath and Himanshu Sahu(参考訳) 近年、量子カオスを研究するために開発された量子多体系による情報伝達は、ブラックホールから乱れたスピン系への多くの応用を見出した。 量子多体系における情報スクランブルの診断ツールとしてkrylov complexityが研究されている。 非エルミート作用素の不確かさ関係を利用して、散逸開量子系におけるクリロフ複雑性の成長に普遍的な限界を導入する。 また、散逸系におけるランツォス係数の特性挙動に対するクリロフ複雑性の解析結果を示す。 これらの結果の有効性は、散逸効果下での逆場イジングモデルの明示的な研究によって実証される。

Recently, the propagation of information through quantum many-body systems, developed to study quantum chaos, have found many application from black holes to disordered spin systems. Among other quantitative tools, Krylov complexity has been explored as a diagnostic tool for information scrambling in quantum many-body systems. We introduce a universal limit to the growth of the Krylov complexity in dissipative open quantum systems by utilizing the uncertainty relation for non-hermitian operators. We also present the analytical results of Krylov complexity for characteristic behavior of Lanczos coefficients in dissipative systems. The validity of these results are demonstrated by explicit study of transverse-field Ising model under dissipative effects.
翻訳日:2024-03-07 15:37:33 公開日:2024-03-06
# ニューラルネットワーク翻訳のためのオープンソースアーキテクチャの設計

Design of an Open-Source Architecture for Neural Machine Translation ( http://arxiv.org/abs/2403.03582v1 )

ライセンス: Link先を確認
S\'eamus Lankford, Haithem Afli and Andy Way(参考訳) adaptNMTはオープンソースのアプリケーションで、リカレントニューラルネットワークとトランスフォーマーモデルの開発とデプロイに対する合理化されたアプローチを提供する。 このアプリケーションは広く採用されているOpenNMTエコシステム上に構築されており、特に開発環境のセットアップや列車の作成、検証、テストの分割を簡単にするため、新しい参入者にとって有用である。 このアプリケーションは、モデルトレーニングの進捗を示すグラフ機能を提供し、サブワードセグメンテーションモデルの作成にSentencePieceを使用している。 さらに、アプリケーションはハイパーパラメータのカスタマイズを容易にする直感的なユーザーインターフェースを提供する。 特に、シングルクリックモデル開発アプローチが実装されており、adaptnmtによって開発されたモデルは、さまざまなメトリクスを使って評価することができる。 環境に優しい研究を促進するため、AdaptNMTは、エネルギー消費とモデル開発中に発生するkgCO${_2}$エミッションをフラグするグリーンレポートを組み込んでいる。 アプリケーションは無料で利用できる。

adaptNMT is an open-source application that offers a streamlined approach to the development and deployment of Recurrent Neural Networks and Transformer models. This application is built upon the widely-adopted OpenNMT ecosystem, and is particularly useful for new entrants to the field, as it simplifies the setup of the development environment and creation of train, validation, and test splits. The application offers a graphing feature that illustrates the progress of model training, and employs SentencePiece for creating subword segmentation models. Furthermore, the application provides an intuitive user interface that facilitates hyperparameter customization. Notably, a single-click model development approach has been implemented, and models developed by adaptNMT can be evaluated using a range of metrics. To encourage eco-friendly research, adaptNMT incorporates a green report that flags the power consumption and kgCO${_2}$ emissions generated during model development. The application is freely available.
翻訳日:2024-03-07 15:37:16 公開日:2024-03-06
# ASD検出精度の向上:自然言語処理による機械学習とディープラーニングモデルの併用アプローチ

Enhancing ASD detection accuracy: a combined approach of machine learning and deep learning models with natural language processing ( http://arxiv.org/abs/2403.03581v1 )

ライセンス: Link先を確認
Sergio Rubio-Mart\'in, Mar\'ia Teresa Garc\'ia-Ord\'as, Mart\'in Bay\'on-Guti\'errez, Natalia Prieto-Fern\'andez and Jos\'e Alberto Ben\'itez-Andrades(参考訳) 目的: 自閉症スペクトラム障害(ASD)の診断における人工知能(AI)の使用について検討した。 ソーシャルメディア上のテキスト入力からASDを検出する機械学習(ML)とディープラーニング(DL)に焦点を当て、従来のASD診断における課題に対処した。 方法: 自然言語処理(NLP), ML, DLモデル(決定木, XGB, KNN, RNN, LSTM, Bi-LSTM, BERT, BERTweetを含む)を用いて404,627のツイートを分析し,ASDや非ASDの著者に基づいて分類した。 90,000ツイートのサブセットがモデルトレーニングとテストに使用された。 結果: 我々のAIモデルは精度が高く, ASD の個人からテキストを識別する成功率は 88% であった。 結論: この研究は、特に小児におけるASD診断を改善するAIの可能性を示し、早期発見の重要性を強調している。

Purpose: Our study explored the use of artificial intelligence (AI) to diagnose autism spectrum disorder (ASD). It focused on machine learning (ML) and deep learning (DL) to detect ASD from text inputs on social media, addressing challenges in traditional ASD diagnosis. Methods: We used natural language processing (NLP), ML, and DL models (including decision trees, XGB, KNN, RNN, LSTM, Bi-LSTM, BERT, and BERTweet) to analyze 404,627 tweets, classifying them based on ASD or non-ASD authors. A subset of 90,000 tweets was used for model training and testing. Results: Our AI models showed high accuracy, with an 88% success rate in identifying texts from individuals with ASD. Conclusion: The study demonstrates AI's potential in improving ASD diagnosis, especially in children, highlighting the importance of early detection.
翻訳日:2024-03-07 15:36:41 公開日:2024-03-06
# 量子速度制限の統一的境界をテストする

Testing the unified bounds of quantum speed limit ( http://arxiv.org/abs/2403.03579v1 )

ライセンス: Link先を確認
Yaozu Wu, Jiale Yuan, Chuanyu Zhang, Zitian Zhu, Jinfeng Deng, Xu Zhang, Pengfei Zhang, Qiujiang Guo, Zhen Wang, Jiehui Huang, Chao Song, Hekang Li, Da-Wei Wang, H.Wang, Girish S. Agarwal(参考訳) 量子速度制限(qsls)は、量子システムの進化速度に根本的な制約を課す。 伝統的に、マンデルスタム・タム(MT)とマーゴラス・レヴィチン(ML)の境界は、QSLを定義するための標準偏差とエネルギー分布の平均に依存して広く採用されてきた。 しかし、これらの普遍境界は量子進化のゆるい制限しか与えない。 ここでは、任意の順序のエネルギースペクトルのモーメント、あるいは非整数順序のモーメントを利用することにより、動的進化を制約する上でより厳密な一般化ML境界を導入する。 そこでは, 量子状態トモグラフィーを用いて, 系の進化と光子統計量を測定することにより, 幅広い量子フォトニクス状態を作成し, それらの境界を厳密に検証する能力を有する超伝導回路の実験を行った。 一般に、mtバウンドは短時間進化に有効であるが、mtと一般化mlバウンドのどちらかが進化全体を制約するために十分である特定のパラメータレジームを特定する。 我々はQSLを推定するための新しい基準を確立するだけでなく、量子システムの動的進化に関する理解を深めた。

Quantum speed limits (QSLs) impose fundamental constraints on the evolution speed of quantum systems. Traditionally, the Mandelstam-Tamm (MT) and Margolus-Levitin (ML) bounds have been widely employed, relying on the standard deviation and mean of energy distribution to define the QSLs. However, these universal bounds only offer loose restrictions on the quantum evolution. Here we introduce the generalized ML bounds, which prove to be more stringent in constraining dynamic evolution, by utilizing moments of energy spectra of arbitrary orders, even noninteger orders. To validate our findings, we conduct experiments in a superconducting circuit, where we have the capability to prepare a wide range of quantum photonic states and rigorously test these bounds by measuring the evolution of the system and its photon statistics using quantum state tomography. While, in general, the MT bound is effective for short-time evolution, we identify specific parameter regimes where either the MT or the generalized ML bounds suffice to constrain the entire evolution. Our findings not only establish new criteria for estimating QSLs but also substantially enhance our comprehension of the dynamic evolution of quantum systems.
翻訳日:2024-03-07 15:36:03 公開日:2024-03-06
# ソーシャルレコメンデーションにおける社会的影響バイアスの調節のための因果性障害

Causal Disentanglement for Regulating Social Influence Bias in Social Recommendation ( http://arxiv.org/abs/2403.03578v1 )

ライセンス: Link先を確認
Li Wang, Min Xu, Quangui Zhang, Yunxiao Shi, Qiang Wu(参考訳) ソーシャルレコメンデーションシステムは、社会的影響バイアスの問題に直面しており、友人が交流したアイテムの推薦に過大評価される可能性がある。 この問題を解決することは重要であり、既存の手法では、重みの調整や偏りのないデータを利用してバイアスを取り除くといったテクニックに依存することが多い。 しかし、すべての偏見が有害であるわけではない、すなわち、友人が推奨する項目は、ユーザの関心に合致する可能性がある。 このような偏見を盲目的に排除することは、これらのポジティブな効果を弱め、推薦精度を低下させる可能性がある。 本稿では,ソーシャルレコメンデーションにおける社会的影響バイアスを規制するための因果的対立に基づく枠組みcdrsbを提案し,レコメンデーションパフォーマンスを向上させる。 因果推論の観点からは、ユーザソーシャルネットワークは、ユーザとアイテムの埋め込み(処理)と評価(成果)の共著者とみなすことができる。 このソーシャルネットワークの共同設立者が存在するため、ユーザーとアイテムの埋め込みからレーティングへの2つのパスが存在する:非因果的社会的影響パスと因果的関心パスである。 この知見に基づいて,ユーザとアイテムのエンベッドを興味や社会的影響の埋め込みに分離することに焦点を当てたエンコーダを提案する。 相互情報に基づく目的は、これらの異種埋め込みの識別性を高めるために設計され、冗長な情報を排除する。 さらに、重み計算モジュールを用いて、社会的影響バイアスを効果的に制御するための社会的影響埋め込みの重みを動的に学習する規制デコーダを設計した。 Ciao, Epinions, Dianping, Doubanの4つの大規模実世界のデータセットの実験結果は、最先端のベースラインと比較してCDRSBの有効性を示している。

Social recommendation systems face the problem of social influence bias, which can lead to an overemphasis on recommending items that friends have interacted with. Addressing this problem is crucial, and existing methods often rely on techniques such as weight adjustment or leveraging unbiased data to eliminate this bias. However, we argue that not all biases are detrimental, i.e., some items recommended by friends may align with the user's interests. Blindly eliminating such biases could undermine these positive effects, potentially diminishing recommendation accuracy. In this paper, we propose a Causal Disentanglement-based framework for Regulating Social influence Bias in social recommendation, named CDRSB, to improve recommendation performance. From the perspective of causal inference, we find that the user social network could be regarded as a confounder between the user and item embeddings (treatment) and ratings (outcome). Due to the presence of this social network confounder, two paths exist from user and item embeddings to ratings: a non-causal social influence path and a causal interest path. Building upon this insight, we propose a disentangled encoder that focuses on disentangling user and item embeddings into interest and social influence embeddings. Mutual information-based objectives are designed to enhance the distinctiveness of these disentangled embeddings, eliminating redundant information. Additionally, a regulatory decoder that employs a weight calculation module to dynamically learn the weights of social influence embeddings for effectively regulating social influence bias has been designed. Experimental results on four large-scale real-world datasets Ciao, Epinions, Dianping, and Douban book demonstrate the effectiveness of CDRSB compared to state-of-the-art baselines.
翻訳日:2024-03-07 15:35:42 公開日:2024-03-06
# GaHealth:イギリスとアイルランドのバイリンガル・コーパス・オブ・ヘルス・データ

gaHealth: An English-Irish Bilingual Corpus of Health Data ( http://arxiv.org/abs/2403.03575v1 )

ライセンス: Link先を確認
S\'eamus Lankford, Haithem Afli, \'Orla N\'i Loinsigh, Andy Way(参考訳) 機械翻訳は多くの高リソース言語ペアの成熟した技術である。 しかし、低リソース言語では、翻訳モデルを開発するために利用可能な並列データデータセットが多用されている。 さらに、低リソース言語向けのデータセットの開発は、汎用翻訳のための最大のデータセットの作成にしばしば焦点を当てている。 より小さなドメイン内のデータセットの利点と開発は容易に見過ごせる。 ドメイン内のデータを使用するメリットを評価するため、低リソースの英語とアイルランド語のペアに対して、特定の健康領域のデータセットを開発した。 本研究は、コーパスの開発に使用するプロセスの概要と、健康領域にドメイン内データセットを使用することによるメリットを実証的に示す。 健康関連データの翻訳において、gaHealthコーパスを用いて開発されたモデルでは、LoResMT2021共有タスクの最高パフォーマンスモデルと比較して、BLEUスコアは22.2ポイント(40%)向上した。 さらに、アイルランド語における最初のバイリンガルな健康データコーパスであるgaHealthの開発のための言語ガイドラインも定義しています。 gaHealthは現在オンラインで無料で提供されており、さらなる研究のための準備が整っている。

Machine Translation is a mature technology for many high-resource language pairs. However in the context of low-resource languages, there is a paucity of parallel data datasets available for developing translation models. Furthermore, the development of datasets for low-resource languages often focuses on simply creating the largest possible dataset for generic translation. The benefits and development of smaller in-domain datasets can easily be overlooked. To assess the merits of using in-domain data, a dataset for the specific domain of health was developed for the low-resource English to Irish language pair. Our study outlines the process used in developing the corpus and empirically demonstrates the benefits of using an in-domain dataset for the health domain. In the context of translating health-related data, models developed using the gaHealth corpus demonstrated a maximum BLEU score improvement of 22.2 points (40%) when compared with top performing models from the LoResMT2021 Shared Task. Furthermore, we define linguistic guidelines for developing gaHealth, the first bilingual corpus of health data for the Irish language, which we hope will be of use to other creators of low-resource data sets. gaHealth is now freely available online and is ready to be explored for further research.
翻訳日:2024-03-07 15:35:08 公開日:2024-03-06
# 高エネルギー重イオン軌道に沿って形成された窒素空孔中心の光学的およびスピン的性質

Optical and spin properties of nitrogen vacancy centers formed along the tracks of high energy heavy ions ( http://arxiv.org/abs/2403.03570v1 )

ライセンス: Link先を確認
Wei Liu, Aleksi A. M. Leino, Arun Persaud, Qing Ji, Kaushalya Jhuria, Edward S. Barnard, Shaul Aloni, Christina Trautmann, Marilena Tomut, Ralf Wunderlich, Hunter Ocker, Nishanth Anand, Zhao Hao, Flyura Djurabekova, Thomas Schenkel(参考訳) 窒素をドープしたダイヤモンドを高エネルギーに曝すことで、重イオンはイオンの軌道に沿って空孔関連の色中心を形成する。 数ミクロンの結合したNV中心の準1D鎖は、量子情報処理のためのブロックを構築し、厳しい放射-物質相互作用の洞察を与えることができる。 ここでは1gev金およびウランイオンを含むダイヤモンド(1ppm窒素)における色中心形成について報告する。 深度分解光ルミネッセンスを用いて, イオン軌道に沿った単一空孔関連色中心(GR1中心)の直接形成を観察する。 移動空孔は熱アニール中に窒素原子とNV中心を形成することができる。 分子動力学シミュレーションは、単離された空洞と欠陥クラスターが電子停止過程を通じてイオン軌道に沿って形成され、サンプル表面から深さ約25ミクロンまで幅広い色中心プロファイルをもたらすことを示している。 磁気共鳴(ODMR)の光学的検出により重イオンを高速に生成したNV中心のスピン特性を定量化し, 準1D鎖(低フラエンス照射から分離したトラック)や, 結合した1Dスピン鎖(高イオンフルエンスで形成される)の薄いシートにおいて, ダイヤモンド中の準1Dおよび2Dスピンテクスチャを探索するために, 急速重イオン生成NV$^{-}$の有効性を検証した。

Exposure of nitrogen doped diamond to high energy, heavy ions induces formation of vacancy related color centers aligned along the trajectories of the ions. Quasi 1D chains of coupled NV centers with lengths of a few tens of microns can be building blocks for quantum information processing and they provide insights into harsh radiation-matter interactions. Here, we report on color center formation in diamond (1 ppm nitrogen) with 1 GeV gold and uranium ions. Using depth-resolved photoluminescence, we observe direct formation of single vacancy related color centers (GR1 centers) along the ion tracks. Mobile vacancies can form NV-centers with native nitrogen atoms during thermal annealing. Molecular dynamics simulations indicate that both isolated vacancies and defect clusters form along ion trajectory through electronic stopping processes, leading to broad color center profiles that range from the sample surface to a depth of about 25 microns. We quantify the spin properties of NV-centers formed by swift heavy ions through optical detection of magnetic resonance (ODMR) and validate the feasibility of using swift-heavy-ion-generated NV$^{-}$ along quasi 1D chains (for isolated tracks from low fluence irradiations) or in thin sheets of coupled 1D spin chains (formed with higher ion fluences) for NV-based magnetometry and for the exploration of quasi 1D and 2D spin textures in diamond.
翻訳日:2024-03-07 15:34:50 公開日:2024-03-06
# 分類における転送について: サブセットはどの程度一般化するか?

On Transfer in Classification: How Well do Subsets of Classes Generalize? ( http://arxiv.org/abs/2403.03569v1 )

ライセンス: Link先を確認
Raphael Baena, Lucas Drumetz, Vincent Gripon(参考訳) 分類において、与えられたクラスのセットでトレーニングされたモデルが、以前は見つからなかったモデルに一般化できることを観察することは、通常である。 この能力は、事前学習されたモデルを微調整の有無に関わらず、新しいクラスを処理するために使用できる転送学習の文脈でしばしば活用される。 驚くべきことに、この現象以外の理論的ルーツを考察する論文がいくつかある。 本研究では,クラス間の移動可能性に関する理論的枠組みの基盤を構築することに興味を持つ。 すなわち、クラスの部分順序部分集合を確立する。 このツールは、クラスのどのサブセットを他のクラスに一般化できるかを表現することができる。 より実践的な環境では、テスト時にどのサブセットのクラスが最高のパフォーマンスをもたらすかを予測できるフレームワークの能力について検討する。 私たちはまた、転校が黄金の標準である、少数ながらの学習についても調べます。 我々の研究は、伝達力学の理解を深め、モデル一般化に寄与する。

In classification, it is usual to observe that models trained on a given set of classes can generalize to previously unseen ones, suggesting the ability to learn beyond the initial task. This ability is often leveraged in the context of transfer learning where a pretrained model can be used to process new classes, with or without fine tuning. Surprisingly, there are a few papers looking at the theoretical roots beyond this phenomenon. In this work, we are interested in laying the foundations of such a theoretical framework for transferability between sets of classes. Namely, we establish a partially ordered set of subsets of classes. This tool allows to represent which subset of classes can generalize to others. In a more practical setting, we explore the ability of our framework to predict which subset of classes can lead to the best performance when testing on all of them. We also explore few-shot learning, where transfer is the golden standard. Our work contributes to better understanding of transfer mechanics and model generalization.
翻訳日:2024-03-07 15:34:21 公開日:2024-03-06
# intelligame in action: javascriptユニットテストのゲーム化に関する経験レポート

IntelliGame in Action: An Experience Report on Gamifying JavaScript Unit Tests ( http://arxiv.org/abs/2403.03565v1 )

ライセンス: Link先を確認
Philipp Straubinger, Tommaso Fulcini, Gordon Fraser, Marco Torchiano(参考訳) 本稿では,当初Java開発用に設計されたゲーミフィケーションプラグインであるIntelliGameの統合と評価について,JavaScriptユニットテスティングの領域内で検討する。 我々は、IntelliGameのJavaScript開発への一般化性を検証するとともに、実験の設計に関する貴重な洞察を提供することを目的としている。 このために、まずIntelliGame for JavaScriptをカスタマイズし、152人の参加者がJestテストフレームワークを使って制御された実験を行い、最後にテストの振る舞いと開発者エクスペリエンス全体への影響を調べました。 本研究から得られた知見は,ゲーミフィケーションの導入によるJavaScriptテスト方法論の改善に有用である。

This paper investigates the integration and assessment of IntelliGame, a gamification plugin initially designed for Java development, within the realm of JavaScript unit testing. We aim to verify the generalizability of IntelliGame to JavaScript development and to provide valuable insights into the experiment's design. For this, we first customize IntelliGame for JavaScript, and then conduct a controlled experiment involving 152 participants utilizing the Jest testing framework, and finally examine its influence on testing behavior and the overall developer experience. The findings from this study provide valuable insights for improving JavaScript testing methodologies through the incorporation of gamification.
翻訳日:2024-03-07 15:34:06 公開日:2024-03-06
# 移動ロボットの物体スリップ知覚のためのディープオートエンコーダに基づくマルチモーダル異常検出

Multimodal Anomaly Detection based on Deep Auto-Encoder for Object Slip Perception of Mobile Manipulation Robots ( http://arxiv.org/abs/2403.03563v1 )

ライセンス: Link先を確認
Youngjae Yoo, Chung-Yeon Lee, and Byoung-Tak Zhang(参考訳) 物体のすべり認識は移動ロボットが動的現実世界で確実に操作を行うためには不可欠である。 従来のロボットアームのスリップ知覚には触覚センサーや視覚センサーが用いられる。 しかし、移動ロボットは、変化する環境におけるロボットの動きによって生じるセンサー信号のノイズに対処しなければならない。 そこで本研究では,深部オートエンコーダモデルに基づくマルチセンサデータを用いた異常検出手法を提案する。 提案フレームワークは,RGBや深度カメラ,マイク,力トルクセンサなど,さまざまなロボットセンサから収集した異種データストリームを統合する。 統合データはディープオートエンコーダを訓練するために使用され、通常の状態を示す多感覚データの潜在表現を構築する。 次に、トレーニングされたエンコーダの潜在値と再構成された入力データの潜在値との差から測定したエラースコアによって異常を識別できる。 提案手法を評価するために,多様な家庭用物と異なる移動パターンを持つ実環境で動作する移動型サービスロボットを用いて,物体すべりを模倣する実験を行った。 実験により,様々な物体の種類やロボットの挙動に拘わらず,物体すべりの異常を確実に検出し,環境の視覚的・聴覚的ノイズを検出することが確認された。

Object slip perception is essential for mobile manipulation robots to perform manipulation tasks reliably in the dynamic real-world. Traditional approaches to robot arms' slip perception use tactile or vision sensors. However, mobile robots still have to deal with noise in their sensor signals caused by the robot's movement in a changing environment. To solve this problem, we present an anomaly detection method that utilizes multisensory data based on a deep autoencoder model. The proposed framework integrates heterogeneous data streams collected from various robot sensors, including RGB and depth cameras, a microphone, and a force-torque sensor. The integrated data is used to train a deep autoencoder to construct latent representations of the multisensory data that indicate the normal status. Anomalies can then be identified by error scores measured by the difference between the trained encoder's latent values and the latent values of reconstructed input data. In order to evaluate the proposed framework, we conducted an experiment that mimics an object slip by a mobile service robot operating in a real-world environment with diverse household objects and different moving patterns. The experimental results verified that the proposed framework reliably detects anomalies in object slip situations despite various object types and robot behaviors, and visual and auditory noise in the environment.
翻訳日:2024-03-07 15:33:54 公開日:2024-03-06
# 経験的群分布ロバスト最適化のための効率的なアルゴリズム

Efficient Algorithms for Empirical Group Distributional Robust Optimization and Beyond ( http://arxiv.org/abs/2403.03562v1 )

ライセンス: Link先を確認
Dingzhi Yu, Yunuo Cai, Wei Jiang, Lijun Zhang(参考訳) グループ分散ロバスト最適化 (GDRO) の実証的対応について検討し, グループ間における最大経験的リスクを最小化することを目的とした。 我々は、経験的GDROを$\textit{two-level}$ finite-sum convex-concave minimax Optimization問題として定式化し、確率分散還元ミラープロキシアルゴリズムを開発した。 既存の手法とは異なり、群ごとのサンプリング手法により確率勾配を構築し、すべての群に対して分散還元を行い、経験的 GDRO の $\textit{two-level}$ finite-sum 構造を完全に活用する。 さらに、スナップショットとミラースナップショットポイントを1インデックスシフトした重み付き平均で計算し、単純エルゴディック平均と区別する。 本アルゴリズムは,既存の文献とは異なる非定常学習率もサポートする。 ここで、$\bar n$ は $m$ 群のサンプルの平均数である、$\mathcal{o}\left(\frac{m\sqrt{\bar{n}\ln{m}}}{\varepsilon}\right)$ の複雑さを示す。 注目すべきは、我々の手法が最先端の手法を$\sqrt{m}$で上回ることである。 さらに,実証的なミニマックス超過リスク最適化(MERO)問題に対処するために方法論を拡張し,予測境界と高い確率境界を与える。 経験的メロアルゴリズムの複雑さは、既存の手法の境界を大幅に上回る$\mathcal{o}\left(\frac{m\sqrt{\bar{n}\ln{m}}}{\varepsilon}\right)$における経験的gdroのそれと一致する。

We investigate the empirical counterpart of group distributionally robust optimization (GDRO), which aims to minimize the maximal empirical risk across $m$ distinct groups. We formulate empirical GDRO as a $\textit{two-level}$ finite-sum convex-concave minimax optimization problem and develop a stochastic variance reduced mirror prox algorithm. Unlike existing methods, we construct the stochastic gradient by per-group sampling technique and perform variance reduction for all groups, which fully exploits the $\textit{two-level}$ finite-sum structure of empirical GDRO. Furthermore, we compute the snapshot and mirror snapshot point by a one-index-shifted weighted average, which distinguishes us from the naive ergodic average. Our algorithm also supports non-constant learning rates, which is different from existing literature. We establish convergence guarantees both in expectation and with high probability, demonstrating a complexity of $\mathcal{O}\left(\frac{m\sqrt{\bar{n}\ln{m}}}{\varepsilon}\right)$, where $\bar n$ is the average number of samples among $m$ groups. Remarkably, our approach outperforms the state-of-the-art method by a factor of $\sqrt{m}$. Furthermore, we extend our methodology to deal with the empirical minimax excess risk optimization (MERO) problem and manage to give the expectation bound and the high probability bound, accordingly. The complexity of our empirical MERO algorithm matches that of empirical GDRO at $\mathcal{O}\left(\frac{m\sqrt{\bar{n}\ln{m}}}{\varepsilon}\right)$, significantly surpassing the bounds of existing methods.
翻訳日:2024-03-07 15:33:33 公開日:2024-03-06
# HMD-Poser:スケーラブルスパース観測によるオンデバイスリアルタイム人の動き追跡

HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations ( http://arxiv.org/abs/2403.03561v1 )

ライセンス: Link先を確認
Peng Dai, Yang Zhang, Tao Liu, Zhen Fan, Tianyuan Du, Zhuo Su, Xiaozheng Zheng, Zeming Li(参考訳) Meta QuestやPICOのようなスタンドアロンのVRヘッドマウントディスプレイ(HMD)でリアルタイムの人間のモーショントラッキングを実現することは特に困難である。 本稿では,HMD と IMU からのスケーラブルなスパース観測により全身運動を復元する最初の統一的アプローチである HMD-Poser を提案する。 特に、HMD、HMD+2IMUs、HMD+3IMUsなど、さまざまな入力シナリオをサポートすることができる。 入力のスケーラビリティは、高いトラッキング精度と使いやすさの両方において、ユーザの選択に適合する可能性がある。 HMD-Poser では,HMD 上でリアルタイムに動作することを保証するために,軽量な時空間特徴学習ネットワークを提案する。 さらに、HMD-Poserは、オンラインの体形推定を行い、体節の位置精度を向上させる。 AMASSデータセットの大規模な実験結果から、HMD-Poserは、精度とリアルタイムのパフォーマンスの両方において、新しい最先端の結果を達成することが示された。 また,hmd-poserのオンデバイス性能を評価するための新しい自由分散モーションデータセットを構築し,合成データと実取得センサデータの性能差について検討した。 最後に、HMD-Poserを商用HMD上でリアルタイムなアバター駆動アプリケーションで実演する。 私たちのコードとフリーダンスモーションデータセットはhttps://pico-ai-team.github.io/hmd-poserで利用可能です。

It is especially challenging to achieve real-time human motion tracking on a standalone VR Head-Mounted Display (HMD) such as Meta Quest and PICO. In this paper, we propose HMD-Poser, the first unified approach to recover full-body motions using scalable sparse observations from HMD and body-worn IMUs. In particular, it can support a variety of input scenarios, such as HMD, HMD+2IMUs, HMD+3IMUs, etc. The scalability of inputs may accommodate users' choices for both high tracking accuracy and easy-to-wear. A lightweight temporal-spatial feature learning network is proposed in HMD-Poser to guarantee that the model runs in real-time on HMDs. Furthermore, HMD-Poser presents online body shape estimation to improve the position accuracy of body joints. Extensive experimental results on the challenging AMASS dataset show that HMD-Poser achieves new state-of-the-art results in both accuracy and real-time performance. We also build a new free-dancing motion dataset to evaluate HMD-Poser's on-device performance and investigate the performance gap between synthetic data and real-captured sensor data. Finally, we demonstrate our HMD-Poser with a real-time Avatar-driving application on a commercial HMD. Our code and free-dancing motion dataset are available https://pico-ai-team.github.io/hmd-poser
翻訳日:2024-03-07 15:32:56 公開日:2024-03-06
# 不可解な数学単語問題に基づく大規模言語モデルにおけるベンチマーク幻覚

Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem ( http://arxiv.org/abs/2403.03558v1 )

ライセンス: Link先を確認
Yuhong Sun, Zhangyue Yin, Qipeng Guo, Jiawen Wu, Xipeng Qiu, Hui Zhao(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。 しかし、それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じやすい。 本稿では,解答不能な数学語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚の評価手法を提案する。 このアプローチを支援するために,5つのカテゴリに5200の質問を含むUnanswerable Math Word Problem (UMWP) というデータセットを革新的に開発する。 そこで本研究では,テキストの類似性と数式検出を組み合わせた評価手法を開発し,llmが質問を理解できないと判断した。 GPT-3, InstructGPT, LLaMA, Claudeを含む31のLLMで実施した広範囲な実験の結果、人間のフィードバック(RLHF)による文脈内学習と強化学習が幻覚を避けるためのモデルの能力を大幅に向上させることを示した。 MWPの使用は幻覚評価の信頼性と有効性を示す。 私たちのコードとデータはhttps://github.com/Yuki-Asuuna/UMWP.comで公開されています。

Large language models (LLMs) are highly effective in various natural language processing (NLP) tasks. However, they are susceptible to producing unreliable conjectures in ambiguous contexts called hallucination. This paper presents a new method for evaluating LLM hallucination in Question Answering (QA) based on the unanswerable math word problem (MWP). To support this approach, we innovatively develop a dataset called Unanswerable Math Word Problem (UMWP) which comprises 5200 questions across five categories. We developed an evaluation methodology combining text similarity and mathematical expression detection to determine whether LLM considers the question unanswerable. The results of extensive experiments conducted on 31 LLMs, including GPT-3, InstructGPT, LLaMA, and Claude, demonstrate that in-context learning and reinforcement learning with human feedback (RLHF) training significantly enhance the model's ability to avoid hallucination. We show that utilizing MWP is a reliable and effective approach to assess hallucination. Our code and data are available at https://github.com/Yuki-Asuuna/UMWP.
翻訳日:2024-03-07 15:32:33 公開日:2024-03-06
# ゲミファイドな継続的統合のためのIDEプラグイン

An IDE Plugin for Gamified Continuous Integration ( http://arxiv.org/abs/2403.03557v1 )

ライセンス: Link先を確認
Philipp Straubinger, Gordon Fraser(参考訳) ミーティング、緊急タスク、Eメール、同僚からの問い合わせによる中断とコンテキストスイッチは、開発者の日々のルーチンにおける生産性の損失に寄与する。 これは、開発者が気を散らすように促す、すでに面白くないと認識されているソフトウェアテストのようなタスクにとって、特に困難である。 これを軽減するために、テストアクティビティにゲーミフィケーションを適用することで、テスト書き込みのモチベーションが向上する。 このようなゲーミフィケーションツールのひとつがGamekinsで、Jenkins CI(継続的インテグレーション)プラットフォームにチャレンジ、クエスト、成果、リーダボードを統合する。 しかしながら、Gamekinsは通常ブラウザ経由でアクセスされるため、コンテキストスイッチが導入される。 本稿では,gamekinsのゲーミフィケーション要素をideにシームレスに統合し,コンテキストスイッチを最小化し,テスト記述に対する開発者のモチベーションを高めるためのintellijプラグインを提案する。

Interruptions and context switches resulting from meetings, urgent tasks, emails, and queries from colleagues contribute to productivity losses in developers' daily routines. This is particularly challenging for tasks like software testing, which are already perceived as less enjoyable, prompting developers to seek distractions. To mitigate this, applying gamification to testing activities can enhance motivation for test writing. One such gamification tool is Gamekins, which integrates challenges, quests, achievements, and leaderboards into the Jenkins CI (continuous integration) platform. However, as Gamekins is typically accessed through a browser, it introduces a context switch. This paper presents an IntelliJ plugin designed to seamlessly integrate Gamekins' gamification elements into the IDE, aiming to minimize context switches and boost developer motivation for test writing.
翻訳日:2024-03-07 15:32:13 公開日:2024-03-06
# 深層強化学習による平均フィールドゲームのための人口対応オンラインミラーダイス

Population-aware Online Mirror Descent for Mean-Field Games by Deep Reinforcement Learning ( http://arxiv.org/abs/2403.03552v1 )

ライセンス: Link先を確認
Zida Wu, Mathieu Lauriere, Samuel Jia Cong Chua, Matthieu Geist, Olivier Pietquin, Ankur Mehta(参考訳) 平均場ゲーム(MFG)は大規模マルチエージェントシステムを扱う能力を持つが、MFGにおけるナッシュ均衡の学習は依然として難しい課題である。 本稿では,Munchausen RL と Online Mirror Descent にインスパイアされた,歴史から平均化やサンプリングを行うことなく,人口依存型 Nash 平衡を実現するディープ強化学習(DRL)アルゴリズムを提案する。 追加のインナーループ再生バッファの設計により、エージェントは任意の分布からナッシュ平衡を効果的に学習し、破滅的な忘れを軽減できる。 結果として得られるポリシーは、様々な初期分布に適用できる。 4つの標準例に関する数値実験により、我々のアルゴリズムはSOTAアルゴリズムよりも収束特性が優れていることを示した。

Mean Field Games (MFGs) have the ability to handle large-scale multi-agent systems, but learning Nash equilibria in MFGs remains a challenging task. In this paper, we propose a deep reinforcement learning (DRL) algorithm that achieves population-dependent Nash equilibrium without the need for averaging or sampling from history, inspired by Munchausen RL and Online Mirror Descent. Through the design of an additional inner-loop replay buffer, the agents can effectively learn to achieve Nash equilibrium from any distribution, mitigating catastrophic forgetting. The resulting policy can be applied to various initial distributions. Numerical experiments on four canonical examples demonstrate our algorithm has better convergence properties than SOTA algorithms, in particular a DRL version of Fictitious Play for population-dependent policies.
翻訳日:2024-03-07 15:31:59 公開日:2024-03-06
# 実世界のファクトチェックをサポートするマルチモーダル大規模言語モデル

Multimodal Large Language Models to Support Real-World Fact-Checking ( http://arxiv.org/abs/2403.03627v1 )

ライセンス: Link先を確認
Jiahui Geng, Yova Kementchedjhieva, Preslav Nakov, Iryna Gurevych(参考訳) MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。 MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。 ここではこのギャップを埋めようとしている。 特に,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。 我々の方法論はエビデンスフリーであり、これらのモデルの本質的な知識と推論能力のみを活用する。 モデルの予測、説明、信頼度レベルを抽出するプロンプトを設計することで、モデルの正確性、堅牢性、失敗の理由に関する研究課題を掘り下げる。 実験により,(1)GPT-4Vは悪質で誤解を招くマルチモーダルクレームを識別する上で優れた性能を示し,(2)既存のオープンソースモデルは強いバイアスを示し,そのプロンプトに非常に敏感であることがわかった。 我々の研究は、偽のマルチモーダル情報と戦うための洞察を与え、安全で信頼できるマルチモーダルモデルを構築する。 私たちの知る限りでは、実世界のファクトチェックのためにMLLMを評価するのは初めてです。

Multimodal large language models (MLLMs) carry the potential to support humans in processing vast amounts of information. While MLLMs are already being used as a fact-checking tool, their abilities and limitations in this regard are understudied. Here is aim to bridge this gap. In particular, we propose a framework for systematically assessing the capacity of current multimodal models to facilitate real-world fact-checking. Our methodology is evidence-free, leveraging only these models' intrinsic knowledge and reasoning capabilities. By designing prompts that extract models' predictions, explanations, and confidence levels, we delve into research questions concerning model accuracy, robustness, and reasons for failure. We empirically find that (1) GPT-4V exhibits superior performance in identifying malicious and misleading multimodal claims, with the ability to explain the unreasonable aspects and underlying motives, and (2) existing open-source models exhibit strong biases and are highly sensitive to the prompt. Our study offers insights into combating false multimodal information and building secure, trustworthy multimodal models. To the best of our knowledge, we are the first to evaluate MLLMs for real-world fact-checking.
翻訳日:2024-03-07 15:28:11 公開日:2024-03-06
# 階層的分類変数における次元と粒度の減少

Reducing the dimensionality and granularity in hierarchical categorical variables ( http://arxiv.org/abs/2403.03613v1 )

ライセンス: Link先を確認
Paul Wilsens, Katrien Antonio and Gerda Claeskens(参考訳) 階層的圏変数は、しばしば多くのレベル(高粒度)と各レベル(高次元性)の多くのクラスを示す。 これは、予測モデルにそのような共変量を含む場合、過剰適合と推定の問題を引き起こす可能性がある。 現在の文献では、階層的共変数はしばしばネストランダム効果によって組み込まれている。 しかし、これは応答変数に同じ影響を持つクラスの仮定を促進するものではない。 本稿では,階層的分類変数の縮小表現を得る手法を提案する。 エンティティ埋め込みが階層的な設定でどのように適用できるかを示す。 次に,埋め込みに符号化された情報を利用して,階層的分類変数の全体的粒度だけでなく,内部の次元性も低減するトップダウンクラスタリングアルゴリズムを提案する。 シミュレーション実験において,本手法は,応答変数への影響の観点から階層共変量の真の基礎構造を効果的に近似できることを示すとともに,縮小階層を組み込むことでモデル適合性が向上することを示す。 本手法を実際のデータセットに適用し,本論文で提案する階層構造と縮小構造よりも階層構造が改善されていることを確認した。

Hierarchical categorical variables often exhibit many levels (high granularity) and many classes within each level (high dimensionality). This may cause overfitting and estimation issues when including such covariates in a predictive model. In current literature, a hierarchical covariate is often incorporated via nested random effects. However, this does not facilitate the assumption of classes having the same effect on the response variable. In this paper, we propose a methodology to obtain a reduced representation of a hierarchical categorical variable. We show how entity embedding can be applied in a hierarchical setting. Subsequently, we propose a top-down clustering algorithm which leverages the information encoded in the embeddings to reduce both the within-level dimensionality as well as the overall granularity of the hierarchical categorical variable. In simulation experiments, we show that our methodology can effectively approximate the true underlying structure of a hierarchical covariate in terms of the effect on a response variable, and find that incorporating the reduced hierarchy improves model fit. We apply our methodology on a real dataset and find that the reduced hierarchy is an improvement over the original hierarchical structure and reduced structures proposed in the literature.
翻訳日:2024-03-07 15:27:47 公開日:2024-03-06
# GSNeRF:3次元シーン理解を強化した汎用セマンティックニューラルネットワーク

GSNeRF: Generalizable Semantic Neural Radiance Fields with Enhanced 3D Scene Understanding ( http://arxiv.org/abs/2403.03608v1 )

ライセンス: Link先を確認
Zi-Ting Chou, Sheng-Yu Huang, I-Jieh Liu, Yu-Chiang Frank Wang(参考訳) ニューラル・ラミアンス・フィールド(neural radiance fields, nerf)は、3次元視覚における一般的な研究テーマである。 そこで本研究では,画像のセマンティクスを合成プロセスに一意的に取り入れ,新しい視点画像と関連するセマンティクスマップの両方を知覚できないシーンで生成できるようにする,汎用的なセマンティクスニューラルネットワーク放射場(gsnerf)を提案する。 我々のGSNeRFはセマンティックジオ推論と奥行き誘導ビジュアルレンダリングの2つのステージで構成されている。 前者は多視点画像入力を観察でき、シーンから意味的および幾何学的特徴を抽出することができる。 得られた画像幾何情報に導かれ、後者は画像とセマンティックの両方のレンダリングを行い、パフォーマンスが向上した。 本実験では,gsnerfが新規視画像合成と意味セグメンテーション合成の両方において先行研究に好適な効果を示すだけでなく,視覚的レンダリングにおけるサンプリング戦略の有効性をさらに検証した。

Utilizing multi-view inputs to synthesize novel-view images, Neural Radiance Fields (NeRF) have emerged as a popular research topic in 3D vision. In this work, we introduce a Generalizable Semantic Neural Radiance Field (GSNeRF), which uniquely takes image semantics into the synthesis process so that both novel view images and the associated semantic maps can be produced for unseen scenes. Our GSNeRF is composed of two stages: Semantic Geo-Reasoning and Depth-Guided Visual rendering. The former is able to observe multi-view image inputs to extract semantic and geometry features from a scene. Guided by the resulting image geometry information, the latter performs both image and semantic rendering with improved performances. Our experiments not only confirm that GSNeRF performs favorably against prior works on both novel-view image and semantic segmentation synthesis but the effectiveness of our sampling strategy for visual rendering is further verified.
翻訳日:2024-03-07 15:27:29 公開日:2024-03-06
# トピックモデルの幾何学的構造

The Geometric Structure of Topic Models ( http://arxiv.org/abs/2403.03607v1 )

ライセンス: Link先を確認
Johannes Hirth, Tom Hanika(参考訳) トピックモデルは、テキストデータのクラスタリングと分析に人気のあるツールである。 テキストは、以前計算されたトピックへのアフィリエイトに基づいて分類することができる。 研究と応用に広く使われているにもかかわらず、トピックモデルの詳細な分析は依然としてオープン研究のトピックである。 トピックモデルを解釈するための最先端の手法は、類似度行列、最上位リスト、埋め込みなど、最大3次元に制限された単純な視覚化に基づいている。 本稿では,非負行列分解などの平坦な話題モデルから順序構造を導出する入射幾何学的手法を提案する。 これにより、高次次元のトピックモデルの解析と、複数のトピック間の概念的関係を一度に抽出することが可能になる。 提案手法は, 概念的スケーリングを用いることで, 特徴圧縮の成果物など, 人工的な話題関係を導入しない。 そこで本研究では,順序モチーフに基づく概念階層のための新しい可視化パラダイムを提案する。 これらはトピック空間のトップダウンビューを可能にする。 我々は,トップ32の機械学習会場から抽出した学術論文のコーパスから得られたトピックモデルに基づいて,我々のアプローチの適用性を紹介し,実証する。

Topic models are a popular tool for clustering and analyzing textual data. They allow texts to be classified on the basis of their affiliation to the previously calculated topics. Despite their widespread use in research and application, an in-depth analysis of topic models is still an open research topic. State-of-the-art methods for interpreting topic models are based on simple visualizations, such as similarity matrices, top-term lists or embeddings, which are limited to a maximum of three dimensions. In this paper, we propose an incidence-geometric method for deriving an ordinal structure from flat topic models, such as non-negative matrix factorization. These enable the analysis of the topic model in a higher (order) dimension and the possibility of extracting conceptual relationships between several topics at once. Due to the use of conceptual scaling, our approach does not introduce any artificial topical relationships, such as artifacts of feature compression. Based on our findings, we present a new visualization paradigm for concept hierarchies based on ordinal motifs. These allow for a top-down view on topic spaces. We introduce and demonstrate the applicability of our approach based on a topic model derived from a corpus of scientific papers taken from 32 top machine learning venues.
翻訳日:2024-03-07 15:27:02 公開日:2024-03-06
# トランスフォーマーニューラルネットワークと技術指標を用いた暗号通貨の価格予測の強化

Enhancing Price Prediction in Cryptocurrency Using Transformer Neural Network and Technical Indicators ( http://arxiv.org/abs/2403.03606v1 )

ライセンス: Link先を確認
Mohammad Ali Labbaf Khaniki, Mohammad Manthouri(参考訳) 本研究は,Bitcoin,Ethereum,Litecoinを中心に,暗号通貨の時系列を予測する革新的なアプローチを提案する。 この手法は、技術的な指標、パフォーマーニューラルネットワーク、bilstm(bidirectional long short-term memory)を組み合わせることで、時間的ダイナミクスを捉え、生の暗号通貨データから重要な特徴を抽出する。 技術的指標の適用により、複雑なパターン、運動量、ボラティリティ、トレンドの抽出が容易になる。 Performer Neural Networkは、高速注意(Fast Attention Via positive Orthogonal Random)機能(FAVOR+)を利用しており、Transformerモデルにおける従来のマルチヘッドアテンション機構よりも優れた計算効率とスケーラビリティを示している。 さらに、フィードフォワードネットワークへのBiLSTMの統合により、データ内の時間的ダイナミクスを捕捉し、前方と後方の両方で処理するモデルの能力が向上する。 これは、過去と将来のデータポイントが現在の状態に影響を与える時系列データに特に有利である。 提案手法は主要な暗号通貨の時間・日時フレームに適用され,その性能は文献に記録されている他の手法と比較された。 その結果、提案手法が既存モデルを上回る可能性を示し、暗号通貨価格予測の分野における大きな進歩を示している。

This study presents an innovative approach for predicting cryptocurrency time series, specifically focusing on Bitcoin, Ethereum, and Litecoin. The methodology integrates the use of technical indicators, a Performer neural network, and BiLSTM (Bidirectional Long Short-Term Memory) to capture temporal dynamics and extract significant features from raw cryptocurrency data. The application of technical indicators, such facilitates the extraction of intricate patterns, momentum, volatility, and trends. The Performer neural network, employing Fast Attention Via positive Orthogonal Random features (FAVOR+), has demonstrated superior computational efficiency and scalability compared to the traditional Multi-head attention mechanism in Transformer models. Additionally, the integration of BiLSTM in the feedforward network enhances the model's capacity to capture temporal dynamics in the data, processing it in both forward and backward directions. This is particularly advantageous for time series data where past and future data points can influence the current state. The proposed method has been applied to the hourly and daily timeframes of the major cryptocurrencies and its performance has been benchmarked against other methods documented in the literature. The results underscore the potential of the proposed method to outperform existing models, marking a significant progression in the field of cryptocurrency price prediction.
翻訳日:2024-03-07 15:26:45 公開日:2024-03-06
# 高周波分解能サブ波長のガスセルにおけるプローブ分子

Probing molecules in gas cells of subwavelength thickness with high frequency resolution ( http://arxiv.org/abs/2403.03604v1 )

ライセンス: Link先を確認
Guadalupe Garcia Arellano, Joao Carlos de Aquino Carvalho, Hippolyte Mouhanna, Esther Butery, Thierry Billeton, Frederic Du-Burck, Beno\^it Darqui\'e, Isabelle Maurin and Athanasios Laliotis(参考訳) 原子蒸気セルの小型化と統合は、量子センシングのような基本的な測定と技術応用のために広く研究されている。 このようなプラットフォームを分子物理学の領域に拡張することは、コンパクトな周波数メトロロジーや複雑な量子オブジェクトとの光・物質相互作用の探求の道を開く興味深い展望である。 ここでは、励起波長に匹敵する微小な厚さの薄い細胞で分子振動分光を行う。 電磁スペクトルの2つの異なる領域で細胞を操作し、10.55$\mu$m付近の中赤外指紋領域において、電気通信波長範囲内でアセチレンの1.30$\mu$mで$\nu_1$+$\nu_3$共鳴を、それぞれ$sf_6$と$nh_3$の$\nu_3$共鳴をそれぞれ検出する。 薄い細胞閉じ込めは、コヒーレントなディッケ狭化効果による線形サブドップラー透過分光法を可能にする。 我々の実験は、コンパクトな分子周波数参照、大気物理学、または基礎的精度測定の分野に適用できる。

Miniaturizing and integrating atomic vapor cells is widely investigated for the purposes of fundamental measurements and technological applications such as quantum sensing. Extending such platforms to the realm of molecular physics is a fascinating prospect that paves the way for compact frequency metrology as well as for exploring light-matter interactions with complex quantum objects. Here, we perform molecular rovibrational spectroscopy in a thin-cell of micrometric thickness, comparable to excitation wavelengths. We operate the cell in two distinct regions of the electromagnetic spectrum, probing $\nu_1$+$\nu_3$ resonances of acetylene at 1.530$\mu$m, within the telecommunications wavelength range, as well as the $\nu_3$ and $\nu_2$ resonances of $SF_6$ and $NH_3$ respectively, in the mid-infrared fingerprint region around 10.55$\mu$m. Thin-cell confinement allows linear sub-Doppler transmission spectroscopy due to the coherent Dicke narrowing effect, here demonstrated for molecular rovibrations. Our experiment can find applications extending to the fields of compact molecular frequency references, atmospheric physics or fundamental precision measurements.
翻訳日:2024-03-07 15:26:20 公開日:2024-03-06
# 燃焼制御のための周期変動を持つデータベースインシリンダ圧力モデル:RCCIエンジンへの適用

Data-Based In-Cylinder Pressure Model with Cyclic Variations for Combustion Control: A RCCI Engine Application ( http://arxiv.org/abs/2403.03602v1 )

ライセンス: Link先を確認
Maarten Vlaswinkel and Frank Willems(参考訳) シリンダ圧力に基づく制御は、先進的な予混合燃焼の概念の鍵となる。 堅牢で安全な運転の保証に加えて、シリンダー圧力と放熱成形が可能である。 これは高速制御指向燃焼モデルを必要とする。 長年にわたって、燃焼対策を予測できる平均値モデル(例えば、グロス指標平均有効圧力または全熱の50%が放出されるクランク角度)や、全気筒内圧力を予測するモデルが提案されてきた。 しかし、これらのモデルは周期的変動を捉えることができない。 これは反応制御圧縮着火のような燃焼概念の制御設計において重要であり、大きな循環変動に悩まされる。 本研究では, 筒内圧力と周期変動をデータベース手法を用いてモデル化した。 このモデルは原理成分分解とガウス過程回帰を組み合わせたものである。 異なるハイパーパラメータとカーネル選択の影響について詳細な研究が行われている。 この手法はあらゆる燃焼概念に適用できるが、大きなサイクル変動を持つ先進燃焼概念には最も有用である。 提案手法のポテンシャルは, ディーゼルおよびE85で作動する反応性制御圧縮着火エンジンで実証される。 評価された燃焼指標の予測精度はそれぞれ平均的挙動と標準偏差の13.5%と65.5%である。 ピーク圧上昇速度は伝統的に予測が困難であり、提案モデルでは平均挙動と標準偏差がそれぞれ22.7%と96.4%である。 この主成分分解に基づくアプローチは、シリンダー内圧力形成への重要なステップである。 Gaussian Process Regressionの使用は、周期的変動に関する重要な情報を提供し、安全性と性能基準に関する次サイクル制御情報を提供する。

Cylinder pressure-based control is a key enabler for advanced pre-mixed combustion concepts. Besides guaranteeing robust and safe operation, it allows for cylinder pressure and heat release shaping. This requires fast control-oriented combustion models. Over the years, mean-value models have been proposed that can predict combustion measures (e.g., Gross Indicated Mean Effective Pressure, or the crank angle where 50% of the total heat is released) or models that predict the full in-cylinder pressure. However, these models are not able to capture cyclic variations. This is important in the control design for combustion concepts, like Reactivity Controlled Compression Ignition, that can suffer from large cyclic variations. In this study, the in-cylinder pressure and cyclic variation are modelled using a data-based approach. The model combines Principle Component Decomposition and Gaussian Process Regression. A detailed study is performed on the effects of the different hyperparameters and kernel choices. The approach is applicable to any combustion concept, but most valuable for advance combustion concepts with large cyclic variation. The potential of the proposed approach is demonstrated for an Reactivity Controlled Compression Ignition engine running on Diesel and E85. The prediction quality of the evaluated combustion measures has an overall accuracy of 13.5% and 65.5% in mean behaviour and standard deviation, respectively. The peak-pressure rise-rate is traditionally hard to predict, in the proposed model it has an accuracy of 22.7% and 96.4% in mean behaviour and standard deviation, respectively. This Principle Component Decomposition-based approach is an important step towards in-cylinder pressure shaping. The use of Gaussian Process Regression provides important information on cyclic variation and provides next-cycle controls information on safety and performance criteria.
翻訳日:2024-03-07 15:25:54 公開日:2024-03-06
# クロスドメインレコメンデーションのためのマルチモーダルデータを用いたプライバシ保護フレームワーク

A Privacy-Preserving Framework with Multi-Modal Data for Cross-Domain Recommendation ( http://arxiv.org/abs/2403.03600v1 )

ライセンス: Link先を確認
Li Wang, Lei Sang, Quangui Zhang, Qiang Wu, Min Xu(参考訳) クロスドメインレコメンデーション(CDR)は、ソースドメインの豊富な情報を活用することで、スパースデータを用いてターゲットドメインのレコメンデーション精度を高めることを目的としている。 既存のCDRメソッドは、包括的なユーザおよびアイテム表現を学ぶために、ドメイン共通およびドメイン固有の特徴を抽出する利点を強調している。 しかしながら、これらの手法は、リッチなマルチモーダル機能を無視して、単純なユーザとイテムのインタラクション情報(レーティング、クリック、ブラウジングなど)に依存することが多いため、これらのコンポーネントを効果的に切り離すことはできない。 さらに、ドメイン間の知識転送中に潜在的漏洩からユーザセンシティブなデータを保護しない。 これらの課題に対処するため,P2M2-CDRと呼ばれるクロスドメイン勧告のための多モードデータを用いたプライバシ保護フレームワークを提案する。 具体的には、まず、マルチモーダル情報を利用して、より情報に富むドメインやドメイン固有の埋め込みをアンタングルするマルチモーダルアンタングルエンコーダを設計する。 さらに,知識転送中のユーザのプライバシーリークを軽減するプライバシ保存デコーダも導入する。 ローカルディファレンシャルプライバシ(ldp)は、ドメイン間交換の前に乱れた埋め込みを隠蔽するために利用され、プライバシ保護が強化される。 これらの難解な異種埋め込みの一貫性と差別化を確保するため、コントラスト学習に基づくドメイン間およびドメイン間損失を取り入れた。 4つの実世界のデータセットで実施された大規模な実験では、P2M2-CDRは他の最先端の単一ドメインやクロスドメインのベースラインよりも優れていた。

Cross-domain recommendation (CDR) aims to enhance recommendation accuracy in a target domain with sparse data by leveraging rich information in a source domain, thereby addressing the data-sparsity problem. Some existing CDR methods highlight the advantages of extracting domain-common and domain-specific features to learn comprehensive user and item representations. However, these methods can't effectively disentangle these components as they often rely on simple user-item historical interaction information (such as ratings, clicks, and browsing), neglecting the rich multi-modal features. Additionally, they don't protect user-sensitive data from potential leakage during knowledge transfer between domains. To address these challenges, we propose a Privacy-Preserving Framework with Multi-Modal Data for Cross-Domain Recommendation, called P2M2-CDR. Specifically, we first design a multi-modal disentangled encoder that utilizes multi-modal information to disentangle more informative domain-common and domain-specific embeddings. Furthermore, we introduce a privacy-preserving decoder to mitigate user privacy leakage during knowledge transfer. Local differential privacy (LDP) is utilized to obfuscate the disentangled embeddings before inter-domain exchange, thereby enhancing privacy protection. To ensure both consistency and differentiation among these obfuscated disentangled embeddings, we incorporate contrastive learning-based domain-inter and domain-intra losses. Extensive Experiments conducted on four real-world datasets demonstrate that P2M2-CDR outperforms other state-of-the-art single-domain and cross-domain baselines.
翻訳日:2024-03-07 15:25:30 公開日:2024-03-06
# クラスタ一般化によるグラフニューラルネットワークの学習不変表現

Learning Invariant Representations of Graph Neural Networks via Cluster Generalization ( http://arxiv.org/abs/2403.03599v1 )

ライセンス: Link先を確認
Donglin Xia, Xiao Wang, Nian Liu, Chuan Shi(参考訳) グラフニューラルネットワーク(gnns)は,局所的な構造情報を集約することでノード表現を学習する能力から,グラフ構造データのモデル化に人気が高まっている。 しかし、テストグラフ構造がトレーニンググラフ構造と異なる場合があり、結果として構造シフトが生じることが広く認識されている。 本稿では,構造シフトが発生するとgnnの性能が著しく低下し,学習したモデルが特定の構造パターンに偏っている可能性が示唆された。 この課題に対処するために、GNNの不変表現を学習できるCluster Information Transfer(CIT)機構(https://github.com/BUPT-GAMMA/CITGNNで利用可能なコード)を提案する。 cit機構は、クラスタに依存しない情報を保存しながら、異なるクラスタ情報をノードと組み合わせてこれを実現する。 異なるクラスタにまたがるノードを生成することで、このメカニズムはノードの多様性を大幅に向上し、GNNが不変表現を学ぶのに役立つ。 我々は,CIT機構の理論解析を行い,移動後の構造変化に伴うクラスターの変化の影響を緩和できることを示した。 さらに、提案するメカニズムは、既存のGNNを改善するために簡単に使用できるプラグインである。 提案手法を3つの典型的な構造シフトシナリオで包括的に評価し,gnnの性能向上効果を実証した。

Graph neural networks (GNNs) have become increasingly popular in modeling graph-structured data due to their ability to learn node representations by aggregating local structure information. However, it is widely acknowledged that the test graph structure may differ from the training graph structure, resulting in a structure shift. In this paper, we experimentally find that the performance of GNNs drops significantly when the structure shift happens, suggesting that the learned models may be biased towards specific structure patterns. To address this challenge, we propose the Cluster Information Transfer (CIT) mechanism (Code available at https://github.com/BUPT-GAMMA/CITGNN), which can learn invariant representations for GNNs, thereby improving their generalization ability to various and unknown test graphs with structure shift. The CIT mechanism achieves this by combining different cluster information with the nodes while preserving their cluster-independent information. By generating nodes across different clusters, the mechanism significantly enhances the diversity of the nodes and helps GNNs learn the invariant representations. We provide a theoretical analysis of the CIT mechanism, showing that the impact of changing clusters during structure shift can be mitigated after transfer. Additionally, the proposed mechanism is a plug-in that can be easily used to improve existing GNNs. We comprehensively evaluate our proposed method on three typical structure shift scenarios, demonstrating its effectiveness in enhancing GNNs' performance.
翻訳日:2024-03-07 15:24:59 公開日:2024-03-06
# GPT-4の視覚による審美的評価能力の評価:グループと個人による評価から

Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision: Insights from Group and Individual Assessments ( http://arxiv.org/abs/2403.03594v1 )

ライセンス: Link先を確認
Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi(参考訳) 近年,大規模言語モデルは様々な知的タスクにおいて高い性能を示すことが認識されている。 しかしながら、審美的評価など、感受性を伴う行動における人間との整合性を研究する研究はほとんどない。 本研究では,画像の美的評価作業において,画像入力を処理可能な最先端言語モデルであるビジョンを用いたGPT-4の性能について検討する。 我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。 我々は,プロンプトを探索し,予測行動を分析することで,gpt-4の性能を視覚で検証する。 GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。 最後に,従来のディープラーニングモデルと大規模言語モデルを統合するエージェント技術を用いて,美意識の科学的知識に基づく美的評価のためのaiシステムの開発について述べる。

Recently, it has been recognized that large language models demonstrate high performance on various intellectual tasks. However, few studies have investigated alignment with humans in behaviors that involve sensibility, such as aesthetic evaluation. This study investigates the performance of GPT-4 with Vision, a state-of-the-art language model that can handle image input, on the task of aesthetic evaluation of images. We employ two tasks, prediction of the average evaluation values of a group and an individual's evaluation values. We investigate the performance of GPT-4 with Vision by exploring prompts and analyzing prediction behaviors. Experimental results reveal GPT-4 with Vision's superior performance in predicting aesthetic evaluations and the nature of different responses to beauty and ugliness. Finally, we discuss developing an AI system for aesthetic evaluation based on scientific knowledge of the human perception of beauty, employing agent technologies that integrate traditional deep learning models with large language models.
翻訳日:2024-03-07 15:24:33 公開日:2024-03-06
# あなたのモデルを信じていますか。 ディープラーニングエコシステムにおけるマルウェアの脅威

Do You Trust Your Model? Emerging Malware Threats in the Deep Learning Ecosystem ( http://arxiv.org/abs/2403.03593v1 )

ライセンス: Link先を確認
Dorjan Hitaj, Giulio Pagnotta, Fabio De Gaspari, Sediola Ruko, Briland Hitaj, Luigi V. Mancini, Fernando Perez-Cruz(参考訳) 高品質なディープラーニングモデルのトレーニングは、計算と技術的要件のために難しい課題である。 多くの個人、機関、企業は、公開リポジトリで利用可能な事前訓練されたサードパーティモデルに依存している。 これらのモデルは、テンソル形式で事実上データであり、安全とみなされるため、製品パイプラインに直接、あるいは特定の予防措置なしで統合されることが多い。 本稿では,ニューラルネットワークを対象とした新しい機械学習サプライチェーンの脅威に対する認識を高める。 ニューラルネットワークに自己抽出型自己実行型マルウェアを組み込む新しいテクニックであるMaleficNet 2.0を紹介する。 MaleficNet 2.0は、深層ニューラルネットワークのパラメータに悪意のあるペイロードを注入するために、拡散スペクトルチャネルコーディングとエラー訂正技術を組み合わせて使用している。 maleficnet 2.0注入技術はステルスであり、モデルの性能を損なうことなく、除去技術に対して堅牢である。 我々は、フェデレートラーニングのような従来の学習環境と分散学習環境の両方で動作するアプローチを設計し、モデルパラメータにビット数が減った場合でも有効であることを示した。 最後に,mareficnet 2.0を用いて概念実証型自己抽出型ニューラルネットワークマルウェアを実装し,広く採用されている機械学習フレームワークに対する攻撃の実用性を示す。 本研究の目的は、研究コミュニティと産業の両方において、これらの新たな危険な攻撃に対する認識を高めることであり、そのような脅威に対する緩和技術に関するさらなる研究を奨励することである。

Training high-quality deep learning models is a challenging task due to computational and technical requirements. A growing number of individuals, institutions, and companies increasingly rely on pre-trained, third-party models made available in public repositories. These models are often used directly or integrated in product pipelines with no particular precautions, since they are effectively just data in tensor form and considered safe. In this paper, we raise awareness of a new machine learning supply chain threat targeting neural networks. We introduce MaleficNet 2.0, a novel technique to embed self-extracting, self-executing malware in neural networks. MaleficNet 2.0 uses spread-spectrum channel coding combined with error correction techniques to inject malicious payloads in the parameters of deep neural networks. MaleficNet 2.0 injection technique is stealthy, does not degrade the performance of the model, and is robust against removal techniques. We design our approach to work both in traditional and distributed learning settings such as Federated Learning, and demonstrate that it is effective even when a reduced number of bits is used for the model parameters. Finally, we implement a proof-of-concept self-extracting neural network malware using MaleficNet 2.0, demonstrating the practicality of the attack against a widely adopted machine learning framework. Our aim with this work is to raise awareness against these new, dangerous attacks both in the research community and industry, and we hope to encourage further research in mitigation techniques against such threats.
翻訳日:2024-03-07 15:24:16 公開日:2024-03-06
# Wildest Dreams:プライバシ保護ニューラルネットワークトレーニングにおける再現可能な研究

Wildest Dreams: Reproducible Research in Privacy-preserving Neural Network Training ( http://arxiv.org/abs/2403.03592v1 )

ライセンス: Link先を確認
Tanveer Khan, Mindaugas Budzys, Khoa Nguyen, Antonis Michalas(参考訳) 機械学習(ML)は、社会科学、金融学、医学研究など、様々な分野の複雑な問題に対処する。 MLモデルは、かなりの計算能力を必要とし、データが利用するのと同じくらい強力である。 MLメソッドの計算コストが高いため、データサイエンティストは機械学習・アズ・ア・サービス(MLaaS)を使用して計算を外部サーバにアウトソースすることが多い。 しかし、金融データや健康記録などのプライベート情報を扱う場合、計算のアウトソーシングはプライバシーの問題を引き起こす可能性がある。 プライバシ保存技術(PPT)の最近の進歩は、プライバシ保存機械学習(PPML)を使用して、保護されたデータに対するMLトレーニングと推論を可能にしている。 しかし、これらの技術はまだ初期段階であり、現実の状況における応用が求められている。 本研究は,理論的な研究提案と実際の応用の相違を理解するために,同型暗号化(HE)とSMPC(Secure Multi-party Computation)に着目し,PPMLの過去と現在を考察する。 この研究は主に、ユーザデータのプライバシの維持が最も重要であるmlモデルのトレーニングフェーズに焦点を当てている。 私たちは、現在のアプローチとその限界を理解するのが容易な、しっかりとした理論的背景を提供します。 さらに、モデルトレーニングのための最新のppmlフレームワークのsocを示し、標準ベンチマークにおけるユニークな特性とパフォーマンスの観点で包括的な比較を提供する。 また、いくつかの論文の成果を再現し、この分野の既存の研究がオープンサイエンスを支援するレベルについて検討する。 我々は,PPMLにおける理論的進歩と実世界のアプリケーションとのギャップ,特にオープンソース可用性,再現性,ユーザビリティに対する認識を高めることで,我々の研究が貴重な貢献になると考えている。

Machine Learning (ML), addresses a multitude of complex issues in multiple disciplines, including social sciences, finance, and medical research. ML models require substantial computing power and are only as powerful as the data utilized. Due to high computational cost of ML methods, data scientists frequently use Machine Learning-as-a-Service (MLaaS) to outsource computation to external servers. However, when working with private information, like financial data or health records, outsourcing the computation might result in privacy issues. Recent advances in Privacy-Preserving Techniques (PPTs) have enabled ML training and inference over protected data through the use of Privacy-Preserving Machine Learning (PPML). However, these techniques are still at a preliminary stage and their application in real-world situations is demanding. In order to comprehend discrepancy between theoretical research suggestions and actual applications, this work examines the past and present of PPML, focusing on Homomorphic Encryption (HE) and Secure Multi-party Computation (SMPC) applied to ML. This work primarily focuses on the ML model's training phase, where maintaining user data privacy is of utmost importance. We provide a solid theoretical background that eases the understanding of current approaches and their limitations. In addition, we present a SoK of the most recent PPML frameworks for model training and provide a comprehensive comparison in terms of the unique properties and performances on standard benchmarks. Also, we reproduce the results for some of the papers and examine at what level existing works in the field provide support for open science. We believe our work serves as a valuable contribution by raising awareness about the current gap between theoretical advancements and real-world applications in PPML, specifically regarding open-source availability, reproducibility, and usability.
翻訳日:2024-03-07 15:23:52 公開日:2024-03-06
# DeepEclipse:White-Box DNN-Watermarkingスキームを壊す方法

DeepEclipse: How to Break White-Box DNN-Watermarking Schemes ( http://arxiv.org/abs/2403.03590v1 )

ライセンス: Link先を確認
Alessandro Pegoraro, Carlotta Segna, Kavita Kumari, Ahmad-Reza Sadeghi(参考訳) ディープラーニング(dl)モデルはデジタルトランスフォーメーションにおいて重要となり、知的財産権に関する懸念が高まっている。 ディープニューラルネットワーク(DNN)をIP侵害から保護するために異なる透かし技術が開発されており、DNN透かしと除去方法の競争分野となっている。 主要な透かし方式は、特定のDNN層にユニークなシグネチャを追加することで重量を変更するホワイトボックス技術を使用する。 一方、ホワイトボックスの透かしに対する既存の攻撃は通常、特定の配置された透かしスキームの知識や、さらなる訓練と微調整のために基礎となるデータへのアクセスを必要とする。 我々は、ホワイトボックスの透かしを削除するように設計された、新しく統一されたフレームワークであるDeepEclipseを提案する。 従来のホワイトボックス透かし除去方式とは大きく異なる難読化手法を提案する。 DeepEclipseは、基盤となる透かしスキームや追加データ、トレーニングや微調整を事前に知ることなく、透かし検出を回避することができる。 評価の結果,DeepEclipseは複数のホワイトボックスの透かしスキームを破り,透かし検出をランダムな推測に還元し,モデル精度を元のものと同等に保った。 当社のフレームワークは,現在進行中のdnnウォーターマーク保護と削除の課題に対処する,有望なソリューションを示しています。

Deep Learning (DL) models have become crucial in digital transformation, thus raising concerns about their intellectual property rights. Different watermarking techniques have been developed to protect Deep Neural Networks (DNNs) from IP infringement, creating a competitive field for DNN watermarking and removal methods. The predominant watermarking schemes use white-box techniques, which involve modifying weights by adding a unique signature to specific DNN layers. On the other hand, existing attacks on white-box watermarking usually require knowledge of the specific deployed watermarking scheme or access to the underlying data for further training and fine-tuning. We propose DeepEclipse, a novel and unified framework designed to remove white-box watermarks. We present obfuscation techniques that significantly differ from the existing white-box watermarking removal schemes. DeepEclipse can evade watermark detection without prior knowledge of the underlying watermarking scheme, additional data, or training and fine-tuning. Our evaluation reveals that DeepEclipse excels in breaking multiple white-box watermarking schemes, reducing watermark detection to random guessing while maintaining a similar model accuracy as the original one. Our framework showcases a promising solution to address the ongoing DNN watermark protection and removal challenges.
翻訳日:2024-03-07 15:23:21 公開日:2024-03-06
# 同変量選択による治療効果推定のための能動適応実験設計

Active Adaptive Experimental Design for Treatment Effect Estimation with Covariate Choices ( http://arxiv.org/abs/2403.03589v1 )

ライセンス: Link先を確認
Masahiro Kato and Akihiro Oga and Wataru Komatsubara and Ryo Inokuchi(参考訳) 本研究では,平均治療効果(ate)を効率的に推定する適応実験を考案する。 実験者は,実験者が決定した共変量密度から実験単位を順次サンプリングし,治療を割り当てる適応実験を考える。 治療を割り当てた後、実験者は直ちに対応する結果を観察する。 実験の最後に、実験者は収集されたサンプルを用いてATEを推定する。 実験者の目的は、より小さな漸近的分散でATEを推定することである。 既存の研究は、プロペンサシティスコア(処理-割り当て確率)を適応的に最適化する実験をデザインしている。 このようなアプローチの一般化として,実験者が共変量密度とプロペンサリティスコアを最適化する枠組みを提案し,共変量密度とプロペンサリティスコアの両方を最適化することで,プロペンサリティスコアのみを最適化するよりも漸近的分散を低減できることを示す。 この考え方に基づき、実験者は実験の各ラウンドにおいて、過去の観測に基づいて共変密度と確率スコアを最適化する。 適応実験を設計するために, 半パラメトリックな効率の限界を最小限に抑える効率的な共変量密度とプロペンシティスコア, 固定された共変量密度と固定されたプロペンシティスコアの漸近分散に対する下限を導出する。 次に,効率の良い共変量密度とプロペンシティスコアを用いて,実験中に逐次推定した適応実験を考案する。 最後に、漸近的分散が最小の半パラメトリック効率境界と一致するATE推定器を提案する。

This study designs an adaptive experiment for efficiently estimating average treatment effect (ATEs). We consider an adaptive experiment where an experimenter sequentially samples an experimental unit from a covariate density decided by the experimenter and assigns a treatment. After assigning a treatment, the experimenter observes the corresponding outcome immediately. At the end of the experiment, the experimenter estimates an ATE using gathered samples. The objective of the experimenter is to estimate the ATE with a smaller asymptotic variance. Existing studies have designed experiments that adaptively optimize the propensity score (treatment-assignment probability). As a generalization of such an approach, we propose a framework under which an experimenter optimizes the covariate density, as well as the propensity score, and find that optimizing both covariate density and propensity score reduces the asymptotic variance more than optimizing only the propensity score. Based on this idea, in each round of our experiment, the experimenter optimizes the covariate density and propensity score based on past observations. To design an adaptive experiment, we first derive the efficient covariate density and propensity score that minimizes the semiparametric efficiency bound, a lower bound for the asymptotic variance given a fixed covariate density and a fixed propensity score. Next, we design an adaptive experiment using the efficient covariate density and propensity score sequentially estimated during the experiment. Lastly, we propose an ATE estimator whose asymptotic variance aligns with the minimized semiparametric efficiency bound.
翻訳日:2024-03-07 15:22:57 公開日:2024-03-06
# RouteExplainer: 車両ルーティング問題のための説明フレームワーク

RouteExplainer: An Explanation Framework for Vehicle Routing Problem ( http://arxiv.org/abs/2403.03585v1 )

ライセンス: Link先を確認
Daisuke Kikuta and Hiroki Ikeuchi and Kengo Tajiri and Yuusuke Nakano(参考訳) 車両経路問題(vrp)は広く研究されている組合せ最適化問題であり、様々な実用問題に適用されている。 実用的なVRPアプリケーションの信頼性と対話性を改善するために、VRPの説明責任は重要であるが、まだ解明されていない。 本稿では,生成経路における各エッジの影響を説明するポストホックな説明フレームワークである routeexplainer を提案する。 本フレームワークは,行動系列として経路を再考し,行動影響モデルに基づく対実的説明をVRPに拡張することで,これを実現する。 さらに,各エッジの意図を推定するエッジ分類器,エッジ分類器を訓練するロス関数,大言語モデル(llm)による説明テキスト生成を提案する。 エッジ分類器を4種類のVRPで定量的に評価した。 その結果、精度を保ちながら高速な計算を行い、実用的なアプリケーションに展開する可能性を強調した。 さらに,観光ルートの課題として,この枠組みが生み出す説明を質的に評価する。 この評価は、我々のフレームワークを検証するだけでなく、説明フレームワークとLLM間の相乗効果も示す。 私たちのコード、データセット、モデル、デモについては、https://ntt-dkiku.github.io/xai-vrpを参照してください。

The Vehicle Routing Problem (VRP) is a widely studied combinatorial optimization problem and has been applied to various practical problems. While the explainability for VRP is significant for improving the reliability and interactivity in practical VRP applications, it remains unexplored. In this paper, we propose RouteExplainer, a post-hoc explanation framework that explains the influence of each edge in a generated route. Our framework realizes this by rethinking a route as the sequence of actions and extending counterfactual explanations based on the action influence model to VRP. To enhance the explanation, we additionally propose an edge classifier that infers the intentions of each edge, a loss function to train the edge classifier, and explanation-text generation by Large Language Models (LLMs). We quantitatively evaluate our edge classifier on four different VRPs. The results demonstrate its rapid computation while maintaining reasonable accuracy, thereby highlighting its potential for deployment in practical applications. Moreover, on the subject of a tourist route, we qualitatively evaluate explanations generated by our framework. This evaluation not only validates our framework but also shows the synergy between explanation frameworks and LLMs. See https://ntt-dkiku.github.io/xai-vrp for our code, datasets, models, and demo.
翻訳日:2024-03-07 15:22:30 公開日:2024-03-06
# 拡散による多様体上のスペクトルアルゴリズム

Spectral Algorithms on Manifolds through Diffusion ( http://arxiv.org/abs/2403.03669v1 )

ライセンス: Link先を確認
Weichun Xia and Lei Shi(参考訳) 再現カーネルヒルベルト空間(RKHS)に適用されるスペクトルアルゴリズムの研究は、主に一般的なカーネル関数に焦点を合わせており、しばしば入力特徴空間の固有の構造を無視している。 本稿では, 入力データが高次元ユークリッド空間に埋め込まれた低次元多様体内に存在することを主張する新しい視点を紹介する。 rkhssにおけるスペクトルアルゴリズムの収束性能、特に拡散空間として知られる熱核によって生成される収束性能について検討する。 入力の多様体構造を組み入れ、一般化ノルムに関する厳密な収束上限を導出する積分作用素技術を用いて、推定子は強い意味で対象関数に収束し、関数自身とその微分の収束を伴うことを示す。 これらの境界は二つの大きな利点をもたらす: まず、それらは入力多様体の内在次元にのみ従属し、より焦点を絞った解析を提供する。 第二に、これらは任意のk次導関数の収束率の効率的な導出を可能にするが、それらはすべて同じスペクトルアルゴリズムのアンビット内で達成できる。 さらに,これらの結論の漸近的最適性を示すために,ミニマックス下限を定式化する。 本研究は,高次元近似のより広い文脈において,スペクトルアルゴリズムが実質的に重要であることを確認する。

The existing research on spectral algorithms, applied within a Reproducing Kernel Hilbert Space (RKHS), has primarily focused on general kernel functions, often neglecting the inherent structure of the input feature space. Our paper introduces a new perspective, asserting that input data are situated within a low-dimensional manifold embedded in a higher-dimensional Euclidean space. We study the convergence performance of spectral algorithms in the RKHSs, specifically those generated by the heat kernels, known as diffusion spaces. Incorporating the manifold structure of the input, we employ integral operator techniques to derive tight convergence upper bounds concerning generalized norms, which indicates that the estimators converge to the target function in strong sense, entailing the simultaneous convergence of the function itself and its derivatives. These bounds offer two significant advantages: firstly, they are exclusively contingent on the intrinsic dimension of the input manifolds, thereby providing a more focused analysis. Secondly, they enable the efficient derivation of convergence rates for derivatives of any k-th order, all of which can be accomplished within the ambit of the same spectral algorithms. Furthermore, we establish minimax lower bounds to demonstrate the asymptotic optimality of these conclusions in specific contexts. Our study confirms that the spectral algorithms are practically significant in the broader context of high-dimensional approximation.
翻訳日:2024-03-07 15:18:39 公開日:2024-03-06
# ランダム共変量子チャネル

Random covariant quantum channels ( http://arxiv.org/abs/2403.03667v1 )

ライセンス: Link先を確認
Ion Nechita, Sang-Jun Park(参考訳) 量子チャネルに内在する群対称性は、しばしば量子情報理論の様々な問題に対して扱いやすく適用できる。 本稿では,共変量子チャネルの自然確率分布について述べる。 具体的には、これは、Haar-distributed random isometries を用いた Stinespring 表現から導かれるランダム量子チャネルに "twirling operation" を適用することで達成される。 我々は,ユニタリおよび直交共分散,超オクタヘドラル共分散,対角直交共分散 (doc) を含む様々な群対称性を探索し,モデルパラメータに基づく量子エンタングルメントに関するそれらの性質を解析した。 特に,正部分転位および絡み合い破壊特性のしきい値現象について考察し,ランダムな共変チャネルの異なるクラス間のしきい値の比較を行った。 最後に、PPT$^2$予想に寄与し、2つのランダムなDOCチャネル間の合成が一般的な絡み合いであることを示す。

The group symmetries inherent in quantum channels often make them tractable and applicable to various problems in quantum information theory. In this paper, we introduce natural probability distributions for covariant quantum channels. Specifically, this is achieved through the application of "twirling operations" on random quantum channels derived from the Stinespring representation that use Haar-distributed random isometries. We explore various types of group symmetries, including unitary and orthogonal covariance, hyperoctahedral covariance, diagonal orthogonal covariance (DOC), and analyze their properties related to quantum entanglement based on the model parameters. In particular, we discuss the threshold phenomenon for positive partial transpose and entanglement breaking properties, comparing thresholds among different classes of random covariant channels. Finally, we contribute to the PPT$^2$ conjecture by showing that the composition between two random DOC channels is generically entanglement breaking.
翻訳日:2024-03-07 15:18:15 公開日:2024-03-06
# 実世界のグラフクラスタリングのための確率フィルタ

Provable Filter for Real-world Graph Clustering ( http://arxiv.org/abs/2403.03666v1 )

ライセンス: Link先を確認
Xuanting Xie, Erlin Pan, Zhao Kang, Wenyu Chen and Bingheng Li(参考訳) グラフクラスタリングは、教師なしの重要な問題であり、グラフニューラルネットワーク(GNN)の進歩に耐性があることが示されている。 さらに、ほとんど全てのクラスタリング法はホモフィルグラフにフォーカスし、ヘテロフィリーを無視する。 実世界のグラフは構造的な相違を示しており、単にホモフィリーとヘテロフィリーに分類することはできないため、これは実際の適用性を著しく制限する。 したがって、実用的なグラフを扱うための原則的な方法が緊急に必要である。 このギャップを埋めるために、理論的支援を備えた新しいソリューションを提供する。 興味深いことに、ほとんどのホモフィリックエッジとヘテロフィリックエッジは、隣り合う情報に基づいて正しく識別できる。 この発見に動機づけられた2つのグラフは、それぞれ高度にホモ親和性とヘテロ親和性を持つ。 低域通過フィルタと高域通過フィルタを構築し、総合的な情報をキャプチャする。 重要な機能は、絞り出しブロックによってさらに強化される。 我々は、ホモフィルグラフとヘテロフィルグラフの両方に関する広範な実験を通して、我々のアプローチを検証する。 その結果,最先端クラスタリング法と比較して,本手法が優れていることを示す。

Graph clustering, an important unsupervised problem, has been shown to be more resistant to advances in Graph Neural Networks (GNNs). In addition, almost all clustering methods focus on homophilic graphs and ignore heterophily. This significantly limits their applicability in practice, since real-world graphs exhibit a structural disparity and cannot simply be classified as homophily and heterophily. Thus, a principled way to handle practical graphs is urgently needed. To fill this gap, we provide a novel solution with theoretical support. Interestingly, we find that most homophilic and heterophilic edges can be correctly identified on the basis of neighbor information. Motivated by this finding, we construct two graphs that are highly homophilic and heterophilic, respectively. They are used to build low-pass and high-pass filters to capture holistic information. Important features are further enhanced by the squeeze-and-excitation block. We validate our approach through extensive experiments on both homophilic and heterophilic graphs. Empirical results demonstrate the superiority of our method compared to state-of-the-art clustering methods.
翻訳日:2024-03-07 15:17:58 公開日:2024-03-06
# environmental insights: 環境汚染データへのアクセスの民主化とオープンソースのpythonパッケージによる予測分析

Environmental Insights: Democratizing Access to Ambient Air Pollution Data and Predictive Analytics with an Open-Source Python Package ( http://arxiv.org/abs/2403.03664v1 )

ライセンス: Link先を確認
Liam J Berrisford, Ronaldo Menezes(参考訳) 環境大気汚染は、人間の健康、生態系の活力、経済構造に幅広い影響をもたらす幅広い問題である。 環境大気汚染濃度のデータを利用して、研究者は社会全体にわたる大気汚染の多面的影響を明らかにする包括的な分析を行うことができる。 この目的のために,大気汚染濃度データへのアクセスを民主化するオープンソースPythonパッケージであるEnvironment Insightsを紹介する。 このツールを使うと、ユーザーは過去の大気汚染データを簡単に検索でき、機械学習モデルを使って将来的な状況を予測できる。 さらに、Environmental Insightsには、分析結果の拡散を促進し、動的可視化を通じてユーザエンゲージメントを高めるための一連のツールが含まれている。 この包括的アプローチは、大気汚染の動向とその影響を探索し理解しようとする個人の多様なニーズにパッケージが対応することを保証する。

Ambient air pollution is a pervasive issue with wide-ranging effects on human health, ecosystem vitality, and economic structures. Utilizing data on ambient air pollution concentrations, researchers can perform comprehensive analyses to uncover the multifaceted impacts of air pollution across society. To this end, we introduce Environmental Insights, an open-source Python package designed to democratize access to air pollution concentration data. This tool enables users to easily retrieve historical air pollution data and employ a Machine Learning model for forecasting potential future conditions. Moreover, Environmental Insights includes a suite of tools aimed at facilitating the dissemination of analytical findings and enhancing user engagement through dynamic visualizations. This comprehensive approach ensures that the package caters to the diverse needs of individuals looking to explore and understand air pollution trends and their implications.
翻訳日:2024-03-07 15:17:42 公開日:2024-03-06
# フルフレームビデオ安定化のためのハラスティングメタラーニング

Harnessing Meta-Learning for Improving Full-Frame Video Stabilization ( http://arxiv.org/abs/2403.03662v1 )

ライセンス: Link先を確認
Muhammad Kashif Ali, Eun Woo Im, Dongjin Kim, Tae Hyun Kim(参考訳) ビデオ安定化はコンピュータビジョンの長年の問題であり、特にビデオ安定化のためのピクセルレベルの合成ソリューションは、このタスクの複雑さを増す。 これらの手法は,映像の安定性を高めつつ,フルフレームを合成することで映像の安定化を図る。 これにより、一意のモーションプロファイルと各ビデオシーケンスに存在する視覚的内容の相違により、タスクの複雑さが増し、固定パラメータによる堅牢な一般化が困難になる。 本研究では,これらのモデルを個々の入力ビデオシーケンスに適応させることにより,ビデオ安定化のための画素レベルの合成ソリューションの性能を向上させる新しい手法を提案する。 提案手法は,低レベルの視覚的手がかりを利用して,映像の安定性と品質を改善する。 本稿では,これらのモデルの1つの簡単な微調整による「テスト時適応」手法の有効性を強調し,メタラーニング手法の統合による安定性の向上について述べる。 特に、大きな改善は単一の適応ステップで達成される。 提案アルゴリズムの汎用性は,実世界シナリオにおける映像安定化のための様々なピクセルレベル合成モデルの性能を一貫して向上させることによって実証される。

Video stabilization is a longstanding computer vision problem, particularly pixel-level synthesis solutions for video stabilization which synthesize full frames add to the complexity of this task. These techniques aim to stabilize videos by synthesizing full frames while enhancing the stability of the considered video. This intensifies the complexity of the task due to the distinct mix of unique motion profiles and visual content present in each video sequence, making robust generalization with fixed parameters difficult. In our study, we introduce a novel approach to enhance the performance of pixel-level synthesis solutions for video stabilization by adapting these models to individual input video sequences. The proposed adaptation exploits low-level visual cues accessible during test-time to improve both the stability and quality of resulting videos. We highlight the efficacy of our methodology of "test-time adaptation" through simple fine-tuning of one of these models, followed by significant stability gain via the integration of meta-learning techniques. Notably, significant improvement is achieved with only a single adaptation step. The versatility of the proposed algorithm is demonstrated by consistently improving the performance of various pixel-level synthesis models for video stabilization in real-world scenarios.
翻訳日:2024-03-07 15:17:29 公開日:2024-03-06
# ヘテロフィア下でのロバストグラフ構造学習

Robust Graph Structure Learning under Heterophily ( http://arxiv.org/abs/2403.03659v1 )

ライセンス: Link先を確認
Xuanting Xie, Zhao Kang, Wenyu Chen(参考訳) グラフは異なる対象間の関係を特徴づける基本的な数学的構造であり、様々な学習タスクで広く使われている。 ほとんどの方法は、与えられたグラフが正確かつ完全であると暗黙的に仮定する。 しかし、実際のデータは必然的に騒がしくスパースであり、その結果は劣る。 最近のグラフ表現学習法が顕著に成功したにも拘わらず、グラフは本質的にホモフレンドリであり、ほとんどの連結ノードは異なるクラスに属するヘテロフィリーである。 本稿では、下流タスクのための異種データから高品質なグラフを実現するための、新しい頑健なグラフ構造学習法を提案する。 まず,そのノードの特徴に構造情報をエンコードすることで,各ノードを近隣ノードとより区別するハイパスフィルタを適用する。 次に、異なるレベルの雑音を特徴付ける適応ノルムを持つロバストグラフを学習する。 その後,グラフ構造をさらに洗練する新しい正則化器を提案する。 異種グラフのクラスタリングと半教師付き分類実験により,本手法の有効性が検証された。

Graph is a fundamental mathematical structure in characterizing relations between different objects and has been widely used on various learning tasks. Most methods implicitly assume a given graph to be accurate and complete. However, real data is inevitably noisy and sparse, which will lead to inferior results. Despite the remarkable success of recent graph representation learning methods, they inherently presume that the graph is homophilic, and largely overlook heterophily, where most connected nodes are from different classes. In this regard, we propose a novel robust graph structure learning method to achieve a high-quality graph from heterophilic data for downstream tasks. We first apply a high-pass filter to make each node more distinctive from its neighbors by encoding structure information into the node features. Then, we learn a robust graph with an adaptive norm characterizing different levels of noise. Afterwards, we propose a novel regularizer to further refine the graph structure. Clustering and semi-supervised classification experiments on heterophilic graphs verify the effectiveness of our method.
翻訳日:2024-03-07 15:17:12 公開日:2024-03-06
# 最大拡張可能なシーフ符号

Maximally Extendable Sheaf Codes ( http://arxiv.org/abs/2403.03651v1 )

ライセンス: Link先を確認
Pavel Panteleev and Gleb Kalachev(参考訳) 我々は、局所符号の固定階層的な集合を持つ線形符号の一種である層符号を、符号空間と呼ばれる有限位相空間上のベクトル空間の層と見なす。 テンソル積符号、シプサー・スピールマン符号、より最近の高次元アナログなど、多くの既存の符号は、符号付き空間と見なされる単純および立方体複体上の層符号として自然に表される。 これにより、同一の符号空間上のコードのクラス内では、ローカルセクションをグローバルに拡張する際に可能な限りの障害が発生することが保証される。 同一空間上で定義され、多項式エントリを持つパリティチェック行列によってパラメータ化された層符号の全てのクラスにおいて、常に最大拡張可能な層符号が存在することを示す。 このようなコードは、最大拡張可能なテンソル積符号が良質なコバウンダリー展開であることを示すことができ、qltc予想を攻撃できる可能性があるため、非常に興味深い。

We study sheaf codes, a type of linear codes with a fixed hierarchical collection of local codes, viewed as a sheaf of vector spaces on a finite topological space we call coded space. Many existing codes, such as tensor product codes, Sipser-Spielman codes, and their more recent high-dimensional analogs, can be naturally represented as sheaf codes on simplicial and cubical complexes, considered as coded spaces. We introduce a new property of a sheaf code, called maximal extendibility, which ensures that within a class of codes on the same coded space, we encounter as few obstructions as possible when extending local sections globally. We show that in every class of sheaf codes defined on the same space and parameterized by parity-check matrices with polynomial entries, there always exists a maximally extendable sheaf code. Such codes are very interesting since it is possible to show that maximally extendable tensor product codes are good coboundary expanders, which potentially could be used to attack the qLTC conjecture.
翻訳日:2024-03-07 15:16:56 公開日:2024-03-06
# K-Link:多変量時系列データにおけるLLMからの知識リンクグラフによる表現学習

K-Link: Knowledge-Link Graph from LLMs for Enhanced Representation Learning in Multivariate Time-Series Data ( http://arxiv.org/abs/2403.03645v1 )

ライセンス: Link先を確認
Yucheng Wang, Ruibing Jin, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen(参考訳) 様々なセンサや時系列データから得られる多変量時系列(MTS)データは、センサ間の相関など、重要な空間的時間的依存関係を含む。 これらの依存関係を捉えるために、グラフニューラルネットワーク(gnn)は強力なツールとして登場したが、mtsデータからのグラフ構築の品質によって、その有効性は制限されている。 通常、既存のアプローチはMCS信号のみからグラフを構築し、小さなトレーニングデータセットによるバイアスを発生させ、基礎となる依存関係を正確に表現しない可能性がある。 この課題に対処するため,我々は大規模言語モデル(LLM)を活用して広範な一般知識を符号化し,バイアスを減らす効果的なソリューションを提供する,Kリンクという新しいフレームワークを提案する。 物理原理などのllmに埋め込まれた知識を活用することで,センサの膨大な意味知識とセンサレベルの知識のリンクを捉えた, \textit{knowledge-link graph} を抽出する。 MTSデータから得られるグラフの強化における知識リンクグラフの可能性を活用するために,知識リンクグラフ内の意味知識のMSSグラフへの移動を容易にするグラフアライメントモジュールを提案する。 これにより、グラフの品質を向上し、MSSデータに対するGNNによる効果的な表現学習を確保することができる。 広範囲な実験により, MTS関連下流タスクにおける性能向上のためのアプローチの有効性が示された。

Sourced from various sensors and organized chronologically, Multivariate Time-Series (MTS) data involves crucial spatial-temporal dependencies, e.g., correlations among sensors. To capture these dependencies, Graph Neural Networks (GNNs) have emerged as powerful tools, yet their effectiveness is restricted by the quality of graph construction from MTS data. Typically, existing approaches construct graphs solely from MTS signals, which may introduce bias due to a small training dataset and may not accurately represent underlying dependencies. To address this challenge, we propose a novel framework named K-Link, leveraging Large Language Models (LLMs) to encode extensive general knowledge and thereby providing effective solutions to reduce the bias. Leveraging the knowledge embedded in LLMs, such as physical principles, we extract a \textit{Knowledge-Link graph}, capturing vast semantic knowledge of sensors and the linkage of the sensor-level knowledge. To harness the potential of the knowledge-link graph in enhancing the graph derived from MTS data, we propose a graph alignment module, facilitating the transfer of semantic knowledge within the knowledge-link graph into the MTS-derived graph. By doing so, we can improve the graph quality, ensuring effective representation learning with GNNs for MTS data. Extensive experiments demonstrate the efficacy of our approach for superior performance across various MTS-related downstream tasks.
翻訳日:2024-03-07 15:16:37 公開日:2024-03-06
# 空間資源配分における強化学習の適用に関する調査研究

A Survey on Applications of Reinforcement Learning in Spatial Resource Allocation ( http://arxiv.org/abs/2403.03643v1 )

ライセンス: Link先を確認
Di Zhang, Moyang Wang, Joseph Mango, Xiang Li(参考訳) 空間的資源配分の課題は、輸送、産業、日常生活といった様々な分野にまたがっている。 現実世界の課題の規模が拡大し続け、リアルタイムソリューションの需要が増大するにつれ、従来のアルゴリズムは、最適な効率とリアルタイム能力を達成するのに苦戦している。 近年、コンピュータの計算能力の増大に伴い、goやロボティクスといった分野における強化学習の顕著な成果が、その堅牢な学習とシーケンシャルな意思決定能力を示している。 これらの進歩を考えると、空間資源配分問題に取り組むために強化学習を用いる新しい手法が急増している。 これらの手法は, 空間資源配分問題の解法として, 高速解収束や強モデル一般化能力などの利点を示す。 そこで本稿では,近年の理論的手法を概説し,空間資源配分問題への強化学習を応用した応用研究について概説する。 基本的な原則、関連する方法論、応用研究の概要と包括的な概要を提供する。 さらに、この方向性に緊急の注意を必要とするいくつかの未解決問題を強調している。

The challenge of spatial resource allocation is pervasive across various domains such as transportation, industry, and daily life. As the scale of real-world issues continues to expand and demands for real-time solutions increase, traditional algorithms face significant computational pressures, struggling to achieve optimal efficiency and real-time capabilities. In recent years, with the escalating computational power of computers, the remarkable achievements of reinforcement learning in domains like Go and robotics have demonstrated its robust learning and sequential decision-making capabilities. Given these advancements, there has been a surge in novel methods employing reinforcement learning to tackle spatial resource allocation problems. These methods exhibit advantages such as rapid solution convergence and strong model generalization abilities, offering a new perspective on resolving spatial resource allocation problems. Therefore, this paper aims to summarize and review recent theoretical methods and applied research utilizing reinforcement learning to address spatial resource allocation problems. It provides a summary and comprehensive overview of its fundamental principles, related methodologies, and applied research. Additionally, it highlights several unresolved issues that urgently require attention in this direction for the future.
翻訳日:2024-03-07 15:16:13 公開日:2024-03-06
# 動物医学におけるx線データ生成のための変分オートエンコーダによる生成能動学習

Generative Active Learning with Variational Autoencoder for Radiology Data Generation in Veterinary Medicine ( http://arxiv.org/abs/2403.03642v1 )

ライセンス: Link先を確認
In-Gyu Lee, Jun-Young Oh, Hee-Jung Yu, Jae-Hwan Kim, Ki-Dong Eom, Ji-Hoon Jeong(参考訳) 近年,ペット医療への関心が高まり,獣医学におけるコンピュータ支援診断システム(CAD)の需要が高まっている。 十分な放射線学データがないため, 獣医用CADの開発は停滞している。 この課題を克服するために,変分オートエンコーダに基づく生成型アクティブラーニングフレームワークを提案する。 本研究の目的は,獣医学におけるCADシステムの信頼性データの不足を軽減することである。 本研究は,cardiomegaly radiographデータを含むデータセットを利用する。 アノテーションを削除し、画像の標準化を行った後、データ生成フェーズと、生成されたデータをフィルタリングするクエリフェーズで構成されるデータ拡張のためのフレームワークを使用した。 実験結果から, 生成モデルのトレーニングデータにこのフレームワークによって生成されたデータを加えると, フレシェ開始距離は連続的に84.14から50.75に減少することがわかった。 その後、生成されたデータを分類モデルのトレーニングに組み込むと、混乱行列の偽陽性もラジオグラフ上の0.16から0.66に向上した。 提案フレームワークは,医療CADにおけるデータ不足の課題に対処する可能性があり,その進展に寄与する。

Recently, with increasing interest in pet healthcare, the demand for computer-aided diagnosis (CAD) systems in veterinary medicine has increased. The development of veterinary CAD has stagnated due to a lack of sufficient radiology data. To overcome the challenge, we propose a generative active learning framework based on a variational autoencoder. This approach aims to alleviate the scarcity of reliable data for CAD systems in veterinary medicine. This study utilizes datasets comprising cardiomegaly radiograph data. After removing annotations and standardizing images, we employed a framework for data augmentation, which consists of a data generation phase and a query phase for filtering the generated data. The experimental results revealed that as the data generated through this framework was added to the training data of the generative model, the frechet inception distance consistently decreased from 84.14 to 50.75 on the radiograph. Subsequently, when the generated data were incorporated into the training of the classification model, the false positive of the confusion matrix also improved from 0.16 to 0.66 on the radiograph. The proposed framework has the potential to address the challenges of data scarcity in medical CAD, contributing to its advancement.
翻訳日:2024-03-07 15:15:54 公開日:2024-03-06
# Apollo: 医療AIを60億人に民主化するための軽量多言語医療LLM

Apollo: Lightweight Multilingual Medical LLMs towards Democratizing Medical AI to 6B People ( http://arxiv.org/abs/2403.03640v1 )

ライセンス: Link先を確認
Xidong Wang, Nuo Chen, Junyin Chen, Yan Hu, Yidong Wang, Xiangbo Wu, Anningzhe Gao, Xiang Wan, Haizhou Li, Benyou Wang(参考訳) グローバル医療知識の膨大な蓄積は英語が中心であるが、地域言語は、特に医療資源が限られている地域で、カスタマイズされた医療サービスを提供するために重要である。 医療AIの進歩の範囲を広い人口に広げるため、私たちは6つの最も広く話されている言語にわたる医療用LLMの開発を目標としています。 この取り組みは、apollocorpora多言語医療データセットとxmedbenchベンチマークの作成に結実した。 マルチリンガル・メディカル・ベンチマークでは、リリースされたApolloモデルは様々な比較的小さなサイズ(0.5B, 1.8B, 2B, 6B, 7B)で、同等サイズのモデルの中で最高の性能を達成する。 特にアポロ7Bは、最先端の多言語医療用LLMである。 さらに、これらのライトモデルは、プロキシチューニング方式で微調整することなく、より大きなモデルの多言語医療能力を改善するために使用できる。 トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。

Despite the vast repository of global medical knowledge predominantly being in English, local languages are crucial for delivering tailored healthcare services, particularly in areas with limited medical resources. To extend the reach of medical AI advancements to a broader population, we aim to develop medical LLMs across the six most widely spoken languages, encompassing a global population of 6.1 billion. This effort culminates in the creation of the ApolloCorpora multilingual medical dataset and the XMedBench benchmark. In the multilingual medical benchmark, the released Apollo models, at various relatively-small sizes (i.e., 0.5B, 1.8B, 2B, 6B, and 7B), achieve the best performance among models of equivalent size. Especially, Apollo-7B is the state-of-the-art multilingual medical LLMs up to 70B. Additionally, these lite models could be used to improve the multi-lingual medical capabilities of larger models without fine-tuning in a proxy-tuning fashion. We will open-source training corpora, code, model weights and evaluation benchmark.
翻訳日:2024-03-07 15:15:35 公開日:2024-03-06
# ランダム線形プログラムの厳密な目的とランダム多面体の平均幅

Exact objectives of random linear programs and mean widths of random polyhedrons ( http://arxiv.org/abs/2403.03637v1 )

ライセンス: Link先を確認
Mihailo Stojnic(参考訳) 我々は, \emph{random linear programs} (rlps) を \emph{random optimization problems} (rops) のサブクラスと考え,それらの典型的な挙動を考察する。 我々の特に焦点は、rpsをランダムなポリヘドロン/ポリトープの平均幅に接続する適切な線形目的性である。 emph{random duality theory} (rdt) \cite{stojnicregrnddlt10}の強力な機構を利用して、大きな次元の文脈において、プログラムの目的の正確な特徴付けを得る。 In particular, for any $\alpha=\lim_{n\rightarrow\infty}\frac{m}{n}\in(0,\infty)$, any unit vector $\mathbf{c}\in{\mathbb R}^n$, any fixed $\mathbf{a}\in{\mathbb R}^n$, and $A\in {\mathbb R}^{m\times n}$ with iid standard normal entries, we have \begin{eqnarray*} \lim_{n\rightarrow\infty}{\mathbb P}_{A} \left ( (1-\epsilon) \xi_{opt}(\alpha;\mathbf{a}) \leq \min_{A\mathbf{x}\leq \mathbf{a}}\mathbf{c}^T\mathbf{x} \leq (1+\epsilon) \xi_{opt}(\alpha;\mathbf{a}) \right ) \longrightarrow 1, \end{eqnarray*} where \begin{equation*} \xi_{opt}(\alpha;\mathbf{a}) \triangleq \min_{x>0} \sqrt{x^2- x^2 \lim_{n\rightarrow\infty} \frac{\sum_{i=1}^{m} \left ( \frac{1}{2} \left (\left ( \frac{\mathbf{a}_i}{x}\right )^2 + 1\right ) \mbox{erfc}\left( \frac{\mathbf{a}_i}{x\sqrt{2}}\right )\frac{\mathbf{a}_i}{x} \frac{e^{-\frac{\mathbf{a}_i^2}{2x^2}}}{\sqrt{2\pi}} \right ) }{n} }. 例えば、$\mathbf{a}=\mathbf{1}$ に対して、ある発見は \begin{equation*} \xi_{opt}(\alpha) = \min_{x>0} \sqrt{x^2-x^2 \alpha \left ( \frac{1}{2} \left ( \frac{1}{x^2} + 1\right ) \mbox{erfc} \left ( \frac{1}{x\sqrt{2}}\right ) - \frac{1}{x} \frac{e^{-\frac{1}{2x^2}}}{\sqrt{2\pi}} \right } である。 さらに、2 \xi_{opt}(\alpha)$ はちょうど多面体 $\{\mathbf{x}|a\mathbf{x} \leq \mathbf{1}\}$ の平均幅の集中点である。

We consider \emph{random linear programs} (rlps) as a subclass of \emph{random optimization problems} (rops) and study their typical behavior. Our particular focus is on appropriate linear objectives which connect the rlps to the mean widths of random polyhedrons/polytopes. Utilizing the powerful machinery of \emph{random duality theory} (RDT) \cite{StojnicRegRndDlt10}, we obtain, in a large dimensional context, the exact characterizations of the program's objectives. In particular, for any $\alpha=\lim_{n\rightarrow\infty}\frac{m}{n}\in(0,\infty)$, any unit vector $\mathbf{c}\in{\mathbb R}^n$, any fixed $\mathbf{a}\in{\mathbb R}^n$, and $A\in {\mathbb R}^{m\times n}$ with iid standard normal entries, we have \begin{eqnarray*} \lim_{n\rightarrow\infty}{\mathbb P}_{A} \left ( (1-\epsilon) \xi_{opt}(\alpha;\mathbf{a}) \leq \min_{A\mathbf{x}\leq \mathbf{a}}\mathbf{c}^T\mathbf{x} \leq (1+\epsilon) \xi_{opt}(\alpha;\mathbf{a}) \right ) \longrightarrow 1, \end{eqnarray*} where \begin{equation*} \xi_{opt}(\alpha;\mathbf{a}) \triangleq \min_{x>0} \sqrt{x^2- x^2 \lim_{n\rightarrow\infty} \frac{\sum_{i=1}^{m} \left ( \frac{1}{2} \left (\left ( \frac{\mathbf{a}_i}{x}\right )^2 + 1\right ) \mbox{erfc}\left( \frac{\mathbf{a}_i}{x\sqrt{2}}\right ) - \frac{\mathbf{a}_i}{x} \frac{e^{-\frac{\mathbf{a}_i^2}{2x^2}}}{\sqrt{2\pi}} \right ) }{n} }. \end{equation*} For example, for $\mathbf{a}=\mathbf{1}$, one uncovers \begin{equation*} \xi_{opt}(\alpha) = \min_{x>0} \sqrt{x^2- x^2 \alpha \left ( \frac{1}{2} \left ( \frac{1}{x^2} + 1\right ) \mbox{erfc} \left ( \frac{1}{x\sqrt{2}}\right ) - \frac{1}{x} \frac{e^{-\frac{1}{2x^2}}}{\sqrt{2\pi}} \right ) }. \end{equation*} Moreover, $2 \xi_{opt}(\alpha)$ is precisely the concentrating point of the mean width of the polyhedron $\{\mathbf{x}|A\mathbf{x} \leq \mathbf{1}\}$.
翻訳日:2024-03-07 15:15:17 公開日:2024-03-06
# SheetAgent: 大規模言語モデルによるスプレッドシート推論と操作のための汎用エージェント

SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models ( http://arxiv.org/abs/2403.03636v1 )

ライセンス: Link先を確認
Yibin Chen, Yifu Yuan, Zeyu Zhang, Yan Zheng, Jinyi Liu, Fei Ni, Jianye Hao(参考訳) スプレッドシートの操作は多くの日常的な作業に広く存在し、作業効率を大幅に改善している。 大規模言語モデル(LLM)は、最近、自動スプレッドシート操作のために試みられているが、推論の課題が存在する複雑な現実的なタスク(例えば、多段階推論と曖昧な要求を含む長い水平操作)では、まだ研究されていない。 実世界の要件とのギャップを埋めるため, 実生活課題に起因する推論依存操作を伴う長期・多カテゴリタスクを特徴とするベンチマークである$\textbf{SheetRM}$を導入する。 上記の課題を軽減するため、我々はさらにllmsのパワーを利用する新しい自律エージェントである$\textbf{sheetagent}$を提案する。 SheetAgentは3つの協調モジュールで構成されている。 $\textit{Planner}$, $\textit{Informer}$, $\textit{Retriever}$。 広範な実験により、sheetagentはベースラインよりも複数のベンチマークで20-30%のパスレート改善を行い、スプレッドシート操作の精度を高め、優れたテーブル推論能力を示している。 詳細と可視化はhttps://sheetagent.github.io.com/で確認できる。

Spreadsheet manipulation is widely existing in most daily works and significantly improves working efficiency. Large language model (LLM) has been recently attempted for automatic spreadsheet manipulation but has not yet been investigated in complicated and realistic tasks where reasoning challenges exist (e.g., long horizon manipulation with multi-step reasoning and ambiguous requirements). To bridge the gap with the real-world requirements, we introduce $\textbf{SheetRM}$, a benchmark featuring long-horizon and multi-category tasks with reasoning-dependent manipulation caused by real-life challenges. To mitigate the above challenges, we further propose $\textbf{SheetAgent}$, a novel autonomous agent that utilizes the power of LLMs. SheetAgent consists of three collaborative modules: $\textit{Planner}$, $\textit{Informer}$, and $\textit{Retriever}$, achieving both advanced reasoning and accurate manipulation over spreadsheets without human interaction through iterative task reasoning and reflection. Extensive experiments demonstrate that SheetAgent delivers 20-30% pass rate improvements on multiple benchmarks over baselines, achieving enhanced precision in spreadsheet manipulation and demonstrating superior table reasoning abilities. More details and visualizations are available at https://sheetagent.github.io.
翻訳日:2024-03-07 15:13:31 公開日:2024-03-06
# 確率的風力予測における欠落値の解法 : 生成的アプローチ

Tackling Missing Values in Probabilistic Wind Power Forecasting: A Generative Approach ( http://arxiv.org/abs/2403.03631v1 )

ライセンス: Link先を確認
Honglin Wen, Pierre Pinson, Jie Gu, Zhijian Jin(参考訳) 機械学習技術は確率的風力予測に成功している。 しかし、例えばセンサーの故障によるデータセット内の値の欠落は、長い間見過ごされてきた。 モデル推定と予測の前に欠落値を暗示することでこの問題に対処することは自然だが、欠落した値と目標を無関心に処理し、観測に基づいて未知の値をすべて同時に予測することを提案する。 本稿では,生成モデルに基づいて特徴量と目標の同時分布を推定し,効率的な確率的予測手法を提案する。 プリプロセスは不要であり、潜在的なエラーを発生させない。 従来の「インプット、予測」パイプラインと比較して、提案手法は連続的なランク付け確率スコアにおいてより良い性能を達成する。

Machine learning techniques have been successfully used in probabilistic wind power forecasting. However, the issue of missing values within datasets due to sensor failure, for instance, has been overlooked for a long time. Although it is natural to consider addressing this issue by imputing missing values before model estimation and forecasting, we suggest treating missing values and forecasting targets indifferently and predicting all unknown values simultaneously based on observations. In this paper, we offer an efficient probabilistic forecasting approach by estimating the joint distribution of features and targets based on a generative model. It is free of preprocessing, and thus avoids introducing potential errors. Compared with the traditional "impute, then predict" pipeline, the proposed approach achieves better performance in terms of continuous ranked probability score.
翻訳日:2024-03-07 15:13:04 公開日:2024-03-06
# GPTopic:動的かつインタラクティブなトピック表現

GPTopic: Dynamic and Interactive Topic Representations ( http://arxiv.org/abs/2403.03628v1 )

ライセンス: Link先を確認
Arik Reuter, Anton Thielmann, Christoph Weisser, Sebastian Fischer, Benjamin S\"afken(参考訳) トピックモデリングは、大きなテキストコーパス内のトピックを表すトップワードのリストを生成するのとほぼ同義である。 しかし、そのような個々の用語のリストからトピックを導き出すには、実質的な専門知識と経験が必要であり、トップワード解釈の特質や落とし穴に馴染みのない人々には、トピックモデリングがアクセスしにくくなる。 トップワードに限定されたトピック表現は、トピックが持つであろう様々な側面、ファセット、ニュアンスを包括的かつ容易にアクセス可能な特徴として提供できないかもしれない。 これらの課題に対処するため,GPTopicは大規模言語モデル(LLM)を利用して動的に対話的なトピック表現を生成するソフトウェアパッケージである。 gptopicは、ユーザーがインタラクティブにトピックを探索、分析、洗練するための直感的なチャットインターフェースを提供する。 対応するコードは以下のとおりである。 GPTopic.com/05ec6602be/GPTopic。

Topic modeling seems to be almost synonymous with generating lists of top words to represent topics within large text corpora. However, deducing a topic from such list of individual terms can require substantial expertise and experience, making topic modelling less accessible to people unfamiliar with the particularities and pitfalls of top-word interpretation. A topic representation limited to top-words might further fall short of offering a comprehensive and easily accessible characterization of the various aspects, facets and nuances a topic might have. To address these challenges, we introduce GPTopic, a software package that leverages Large Language Models (LLMs) to create dynamic, interactive topic representations. GPTopic provides an intuitive chat interface for users to explore, analyze, and refine topics interactively, making topic modeling more accessible and comprehensive. The corresponding code is available here: https://github. com/05ec6602be/GPTopic.
翻訳日:2024-03-07 15:12:50 公開日:2024-03-06
# 制御可能な時系列生成に向けて

Towards Controllable Time Series Generation ( http://arxiv.org/abs/2403.03698v1 )

ライセンス: Link先を確認
Yifan Bao, Yihao Ang, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang(参考訳) 時系列生成(TSG)は、実世界の時系列を正確に反映するデータを合成する重要な手法として登場し、多くのアプリケーションで欠かせないものとなっている。 TSGの大幅な進歩にもかかわらず、その有効性は大規模なトレーニングデータセットを持つことにしばしば影響する。 この依存関係は、特に稀な条件やユニークな条件を扱う場合、データスカースシナリオにおいて大きな課題となる。 これらの課題に対処するため,制御可能時系列生成(CTSG)の新たな課題を探究し,様々な外部条件に適応可能な合成時系列を生成することにより,データ不足問題に対処する。 本稿では, CTSG に適した革新的VAE非依存フレームワークである \textbf{C}ontrollable \textbf{T}ime \textbf{S}eries (\textsf{CTS}) を提案する。 textsf{cts}の重要な特徴は、標準的なvaeトレーニングからマッピングプロセスを分離し、潜在的な特徴と外部状態との複雑な相互作用を正確に学習することである。 さらに,CTSGの総合評価手法を開発した。 3つの実世界の時系列データセットにわたる大規模な実験は、高品質で制御可能な出力を生成するために、 \textsf{CTS} の例外的な能力を示す。 これは、潜在機能と外部の条件をシームレスに統合することの利点を浮き彫りにする。 画像領域に \textsf{CTS} を拡張することは、説明可能性の顕著なポテンシャルを強調し、様々なモダリティにわたってその汎用性を強化する。

Time Series Generation (TSG) has emerged as a pivotal technique in synthesizing data that accurately mirrors real-world time series, becoming indispensable in numerous applications. Despite significant advancements in TSG, its efficacy frequently hinges on having large training datasets. This dependency presents a substantial challenge in data-scarce scenarios, especially when dealing with rare or unique conditions. To confront these challenges, we explore a new problem of Controllable Time Series Generation (CTSG), aiming to produce synthetic time series that can adapt to various external conditions, thereby tackling the data scarcity issue. In this paper, we propose \textbf{C}ontrollable \textbf{T}ime \textbf{S}eries (\textsf{CTS}), an innovative VAE-agnostic framework tailored for CTSG. A key feature of \textsf{CTS} is that it decouples the mapping process from standard VAE training, enabling precise learning of a complex interplay between latent features and external conditions. Moreover, we develop a comprehensive evaluation scheme for CTSG. Extensive experiments across three real-world time series datasets showcase \textsf{CTS}'s exceptional capabilities in generating high-quality, controllable outputs. This underscores its adeptness in seamlessly integrating latent features with external conditions. Extending \textsf{CTS} to the image domain highlights its remarkable potential for explainability and further reinforces its versatility across different modalities.
翻訳日:2024-03-07 15:08:02 公開日:2024-03-06
# ブロック構造スパイクモデルにおけるスペクトル相転移と最適PCA

Spectral Phase Transition and Optimal PCA in Block-Structured Spiked models ( http://arxiv.org/abs/2403.03695v1 )

ライセンス: Link先を確認
Pierre Mergny, Justin Ko, Florent Krzakala(参考訳) 確率行列理論のプリズムを通じて, 様々な学習シナリオにおける構造的雑音を研究するための理論フレームワークである不均一スパイク・ウィグナーモデルについて, スペクトル特性に着目した。 我々の主な目的は、最適スペクトル法を探し出し、不均一でブロック構造を持つウィグナーモデルに、有名な「BBP」相転移基準(同質な場合でよく知られる)を拡張することである。 我々は,変換行列の厳密な解析を行い,出現への遷移を示す。 1)制限スペクトル分布のバルクの外側の外れ値と 2) 関連する固有ベクトルと信号との正の重なりは, スペクトル法が不均一なウィグナー問題に対する反復法のクラスで最適となるように, 最適しきい値で正確に発生する。

We discuss the inhomogeneous spiked Wigner model, a theoretical framework recently introduced to study structured noise in various learning scenarios, through the prism of random matrix theory, with a specific focus on its spectral properties. Our primary objective is to find an optimal spectral method and to extend the celebrated \cite{BBP} (BBP) phase transition criterion -- well-known in the homogeneous case -- to our inhomogeneous, block-structured, Wigner model. We provide a thorough rigorous analysis of a transformed matrix and show that the transition for the appearance of 1) an outlier outside the bulk of the limiting spectral distribution and 2) a positive overlap between the associated eigenvector and the signal, occurs precisely at the optimal threshold, making the proposed spectral method optimal within the class of iterative methods for the inhomogeneous Wigner problem.
翻訳日:2024-03-07 15:07:36 公開日:2024-03-06
# MolNexTR:分子画像認識のための一般化ディープラーニングモデル

MolNexTR: A Generalized Deep Learning Model for Molecular Image Recognition ( http://arxiv.org/abs/2403.03691v1 )

ライセンス: Link先を確認
Yufan Chen, Ching Ting Leung, Yong Huang, Jianwei Sun, Hao Chen, Hanyu Gao(参考訳) 化学構造認識の分野では、分子像をグラフ構造やスマイルストリングに変換する作業は、主に化学文献に共通する様々な描画スタイルや慣習のために、重要な課題となっている。 このギャップを埋めるため、我々は、強力な畳み込みニューラルネットワークであるConvNextとVision-TRansformerの強みを融合させる新しい画像-グラフ深層学習モデルであるMolNexTRを提案した。 この統合により、分子画像からの局所的特徴と大域的特徴のより微妙な抽出が促進される。 MolNexTRは原子と結合を同時に予測し、それらの配置規則を理解することができる。 また、シンボリック化学の原理を柔軟に統合し、キラリティを識別し、短縮構造を解読する。 さらに,改良されたデータ拡張モジュール,イメージ汚染モジュール,および最終的なスマイル出力を得るための後処理モジュールなど,一連の高度なアルゴリズムを組み込んだ。 これらのモジュールは、実文献に見られる多様な分子イメージのスタイルに対するモデルの強固さを相乗的に強化する。 本試験では, 分子構造認識の領域において, 81~97%の精度を達成し, 優れた性能を示した。 科学的な貢献: MolNexTRは、ユニークなデュアルストリームエンコーダを組み込んで複雑な分子画像の特徴を抽出し、化学規則を組み合わせて原子と結合を予測し、原子と結合配置の規則を理解している。 さらに、モデルの堅牢性と性能を大幅に向上させるために、一連の新しい拡張アルゴリズムを採用している。

In the field of chemical structure recognition, the task of converting molecular images into graph structures and SMILES string stands as a significant challenge, primarily due to the varied drawing styles and conventions prevalent in chemical literature. To bridge this gap, we proposed MolNexTR, a novel image-to-graph deep learning model that collaborates to fuse the strengths of ConvNext, a powerful Convolutional Neural Network variant, and Vision-TRansformer. This integration facilitates a more nuanced extraction of both local and global features from molecular images. MolNexTR can predict atoms and bonds simultaneously and understand their layout rules. It also excels at flexibly integrating symbolic chemistry principles to discern chirality and decipher abbreviated structures. We further incorporate a series of advanced algorithms, including improved data augmentation module, image contamination module, and a post-processing module to get the final SMILES output. These modules synergistically enhance the model's robustness against the diverse styles of molecular imagery found in real literature. In our test sets, MolNexTR has demonstrated superior performance, achieving an accuracy rate of 81-97%, marking a significant advancement in the domain of molecular structure recognition. Scientific contribution: MolNexTR is a novel image-to-graph model that incorporates a unique dual-stream encoder to extract complex molecular image features, and combines chemical rules to predict atoms and bonds while understanding atom and bond layout rules. In addition, it employs a series of novel augmentation algorithms to significantly enhance the robustness and performance of the model.
翻訳日:2024-03-07 15:07:20 公開日:2024-03-06
# 人的負担を最小限に抑えた大規模言語モデルの高品質指導データと評価ベンチマークの迅速開発:日本語を事例として

Rapidly Developing High-quality Instruction Data and Evaluation Benchmark for Large Language Models with Minimal Human Effort: A Case Study on Japanese ( http://arxiv.org/abs/2403.03690v1 )

ライセンス: Link先を確認
Yikun Sun, Zhen Wan, Nobuhiro Ueda, Sakiko Yahata, Fei Cheng, Chenhui Chu, Sadao Kurohashi(参考訳) 大きな言語モデルを提供するための命令データと評価ベンチマークの作成は、しばしば巨大な人間のアノテーションを伴う。 この問題は、日本語のような非英語のリソースを急速に発展させるときに特に顕著になる。 本稿では,既存の英語資源を直接日本語に翻訳する手法(例えば日本語-alpaca)ではなく,gpt-4に基づく効率的な自己指示手法を提案する。 まず、少量の英語命令を日本語に翻訳し、編集後、ネイティブレベルの品質を得る。 GPT-4はそれらをデモとして利用し、日本語の命令データを自動的に生成する。 また,8つのカテゴリにまたがる80の質問を含む評価ベンチマークを構築し,gpt-4を用いて人間の参照なしにllmの応答品質を自動的に評価する。 実験結果から, GPT-4の自己指示データに基づいて微調整したモデルが, 日本語とアルパカ語を比較検討した。 我々の GPT-4 自己指示データにより LLaMA 13B モデルは 54.37 % の勝利率で GPT-3.5 (Davinci-003) を破ることができた。 ヒトの評価はGPT-4の評価とヒトの嗜好の整合性を示す。 高品質なインストラクションデータと評価ベンチマークがここでリリースされています。

The creation of instruction data and evaluation benchmarks for serving Large language models often involves enormous human annotation. This issue becomes particularly pronounced when rapidly developing such resources for a non-English language like Japanese. Instead of following the popular practice of directly translating existing English resources into Japanese (e.g., Japanese-Alpaca), we propose an efficient self-instruct method based on GPT-4. We first translate a small amount of English instructions into Japanese and post-edit them to obtain native-level quality. GPT-4 then utilizes them as demonstrations to automatically generate Japanese instruction data. We also construct an evaluation benchmark containing 80 questions across 8 categories, using GPT-4 to automatically assess the response quality of LLMs without human references. The empirical results suggest that the models fine-tuned on our GPT-4 self-instruct data significantly outperformed the Japanese-Alpaca across all three base pre-trained models. Our GPT-4 self-instruct data allowed the LLaMA 13B model to defeat GPT-3.5 (Davinci-003) with a 54.37\% win-rate. The human evaluation exhibits the consistency between GPT-4's assessments and human preference. Our high-quality instruction data and evaluation benchmark have been released here.
翻訳日:2024-03-07 15:06:51 公開日:2024-03-06
# 一般2 LLMの電子商取引用翻訳

General2Specialized LLMs Translation for E-commerce ( http://arxiv.org/abs/2403.03689v1 )

ライセンス: Link先を確認
Kaidi Chen, Ben Chen, Dehong Gao, Huangyu Dai, Wen Jiang, Wei Ning, Shanqing Yu, Libin Yang, Xiaoyan Cai(参考訳) 既存のニューラルマシン翻訳(nmt)モデルは、主に一般ドメインでの翻訳を処理し、eコマースや法的文書のような特別な記述式でドメインを見渡す。 eコマースを例にとると、テキストにはドメイン関連の単語が多く含まれており、文法的な問題があるため、現在のnmtメソッドのパフォーマンスが劣る。 これらの問題に対処するため,我々は,電子商取引ドメインに注釈付き平行コーパスと用語対(中国語と英語のバイリンガル語)のセットを含む2つのドメイン関連リソースを収集した。 さらに,電子商取引のためのNMTモデルに1つの汎用NMTモデルを転送するために,自己コントラスト的セマンティックエンハンスメントを備えた2段階微調整パラダイム(G2ST)を提案する。 このパラダイムは、Large Language Model(LLM)に基づいたNMTモデルに使用することができる。 LLaMA, Qwen, GPT-3.5, さらには GPT-4 といった最先端 NMT モデルと比較して, G2ST アプローチの翻訳品質と堅牢性は高い。

Existing Neural Machine Translation (NMT) models mainly handle translation in the general domain, while overlooking domains with special writing formulas, such as e-commerce and legal documents. Taking e-commerce as an example, the texts usually include amounts of domain-related words and have more grammar problems, which leads to inferior performances of current NMT methods. To address these problems, we collect two domain-related resources, including a set of term pairs (aligned Chinese-English bilingual terms) and a parallel corpus annotated for the e-commerce domain. Furthermore, we propose a two-step fine-tuning paradigm (named G2ST) with self-contrastive semantic enhancement to transfer one general NMT model to the specialized NMT model for e-commerce. The paradigm can be used for the NMT models based on Large language models (LLMs). Extensive evaluations on real e-commerce titles demonstrate the superior translation quality and robustness of our G2ST approach, as compared with state-of-the-art NMT models such as LLaMA, Qwen, GPT-3.5, and even GPT-4.
翻訳日:2024-03-07 15:06:29 公開日:2024-03-06
# コービッド・マスクに影響を及ぼすメディアの定量化

Quantifying Media Influence on Covid-19 Mask-Wearing Beliefs ( http://arxiv.org/abs/2403.03684v1 )

ライセンス: Link先を確認
Nicholas Rabb, Nitya Nadgir, Jan P. de Ruiter, Lenore Cowen(参考訳) メディアの露出に応じて政治的信念がどう変化するかは複雑な問題である。 異なるメディアダイエットを持つグループ(例えば、パルチザンニュースを摂取している米国のメディア消費者)が、政策問題に関する異なる信念にたどり着くことを実証できた研究もあるが、これは、ニュース記事に表される態度のレベルである、粒度の細かいレベルでのデータから証明することは、依然として困難である。 詳細な詳細を記述しているがデータ駆動型ではない既存の世論形成モデルと対照的に、単純なキーワード検出と言語ニュアンスを欠くデータ駆動型研究では、ニューステキストで複雑な態度を識別し、このデータを使ってモデルを動かすことで、メディアメッセージングによる世論形成に関するよりニュアンスな実証的研究が可能になる。 本研究は、個別のニュース記事からの態度のマッピングと、パルチザンのメディアダイエットによって米国内で意見が異なる重要な公衆衛生トピックに対する意見の変化を、時間とともに集約する分析に貢献する。 2020年4月6日から6月8日にかけて、Howard 2020 の Face Mask Perception Scale による Covid-19 マスク着用に関する声明により、米国のニュースメディアのデータセットを収集し、同時期に行われたギャラップ調査によるメディアメッセージングと経験的世論調査データとの微妙な相関関係を示す。 また,このデータは,反マスク感情や反マスク感情の定量的分析に利用し,意見の変化を誘発する主要な事象を識別できることを実証した。 このデータセットは公開されており、マスク着用の態度がニュースメディアコンテンツによってどのように駆動されたかを評価するために、他の研究者が利用できる。 さらに,その汎用的手法により,他のメディア研究者が意見に対するメディア効果をより詳細に分析できることを期待している。

How political beliefs change in accordance with media exposure is a complicated matter. Some studies have been able to demonstrate that groups with different media diets in the aggregate (e.g., U.S. media consumers ingesting partisan news) arrive at different beliefs about policy issues, but proving this from data at a granular level -- at the level of attitudes expressed in news stories -- remains difficult. In contrast to existing opinion formation models that describe granular detail but are not data-driven, or data-driven studies that rely on simple keyword detection and miss linguistic nuances, being able to identify complicated attitudes in news text and use this data to drive models would enable more nuanced empirical study of opinion formation from media messaging. This study contributes a dataset as well as an analysis that allows the mapping of attitudes from individual news stories to aggregate changes of opinion over time for an important public health topic where opinion differed in the U.S. by partisan media diet: Covid mask-wearing beliefs. By gathering a dataset of U.S. news media stories, from April 6 to June 8, 2020, annotated according to Howard 2020's Face Mask Perception Scale for their statements regarding Covid-19 mask-wearing, we demonstrate fine-grained correlations between media messaging and empirical opinion polling data from a Gallup survey conducted during the same period. We also demonstrate that the data can be used for quantitative analysis of pro- and anti-mask sentiment throughout the period, identifying major events that drove opinion changes. This dataset is made publicly available and can be used by other researchers seeking to evaluate how mask-wearing attitudes were driven by news media content. Additionally, we hope that its general method can be used to enable other media researchers to conduct more detailed analyses of media effects on opinion.
翻訳日:2024-03-07 15:06:07 公開日:2024-03-06
# ビジュアルデバッガ:過去、現在、未来

The Visual Debugger: Past, Present, and Future ( http://arxiv.org/abs/2403.03683v1 )

ライセンス: Link先を確認
Tim Kr\"auter, Patrick St\"unkel, Adrian Rutle, Yngve Lamo(参考訳) Visual DebuggerはIntelliJ IDEAプラグインで、デバッグ情報をオブジェクトダイアグラムとして提示し、プログラム理解を強化する。 過去の開発を振り返って、Visual DebuggerをIntelliJ IDEAに実装し、統合する際に経験した教訓と障害について詳述します。 さらに、Visual Debuggerの最近の改善について述べ、現在のプラグインを大幅に強化した。 将来を見据えて,プラグイン開発中に遭遇する障害を克服するソリューションと,ビジュアルデバッガの今後の計画を提案する。

The Visual Debugger is an IntelliJ IDEA plugin that presents debug information as an object diagram to enhance program understanding. Reflecting on our past development, we detail the lessons learned and roadblocks we have experienced while implementing and integrating the Visual Debugger into the IntelliJ IDEA. Furthermore, we describe recent improvements to the Visual Debugger, greatly enhancing the plugin in the present. Looking into the future, we propose solutions to overcome the roadblocks encountered while developing the plugin and further plans for the Visual Debugger.
翻訳日:2024-03-07 15:05:31 公開日:2024-03-06
# 自律運転における物体視認性予測

3D Object Visibility Prediction in Autonomous Driving ( http://arxiv.org/abs/2403.03681v1 )

ライセンス: Link先を確認
Chuanyu Luo, Nuo Cheng, Ren Zhong, Haipeng Jiang, Wenyu Chen, Aoli Wang, Pu Li(参考訳) ハードウェアとソフトウェア技術の急速な進歩により、自動運転の研究は大きな成長を遂げている。 多センサ自動運転の一般的なフレームワークは、センサーの設置、知覚、経路計画、意思決定、移動制御を含む。 知覚フェーズでは、ニューラルネットワークを利用して、分類、サイズ、方向など、生のセンサーデータから3dバウンディングボックス(bbox)属性を推論する。 本稿では,新しい属性とそのアルゴリズムである3dオブジェクトの可視性について述べる。 マルチタスク学習を導入することで、この属性の導入、可視性はモデルの有効性と効率に悪影響を及ぼす。 この属性の提案とその計算戦略は、下流タスクの能力を拡大し、現実のシナリオにおけるリアルタイム自動運転の安全性と信頼性を高めることを目的としている。

With the rapid advancement of hardware and software technologies, research in autonomous driving has seen significant growth. The prevailing framework for multi-sensor autonomous driving encompasses sensor installation, perception, path planning, decision-making, and motion control. At the perception phase, a common approach involves utilizing neural networks to infer 3D bounding box (Bbox) attributes from raw sensor data, including classification, size, and orientation. In this paper, we present a novel attribute and its corresponding algorithm: 3D object visibility. By incorporating multi-task learning, the introduction of this attribute, visibility, negligibly affects the model's effectiveness and efficiency. Our proposal of this attribute and its computational strategy aims to expand the capabilities for downstream tasks, thereby enhancing the safety and reliability of real-time autonomous driving in real-world scenarios.
翻訳日:2024-03-07 15:05:20 公開日:2024-03-06
# 強結合原子配列におけるモルロー三重項の運命

Fate of the Mollow triplet in strongly-coupled atomic arrays ( http://arxiv.org/abs/2403.03679v1 )

ライセンス: Link先を確認
Orazio Scarlatella, Nigel R. Cooper(参考訳) 量子エミッタのサブ波長配列は、顕著な集団効果を示す興味深いプラットフォームとして出現した。 ここでは,そのような配列をコヒーレント駆動下で研究し,強非線形状態において開量子多体問題を実現する。 単一原子の放出を特徴づける有名なモロー三重項は、双極子相互作用によって決定される帯域幅を持つ平坦なサイドバンドで構造化された広帯域を形成する。 この放射スペクトルは原子配列を特徴づけ、乱れたアンサンブルや相互作用しないエミッターと区別する。 我々の予測は、この問題に対する新しい力学平均場理論(DMFT)アプローチに基づいており、これらのシステムのさらなる研究の道を開く。

Subwavelength arrays of quantum emitters have emerged as an interesting platform displaying prominent collective effects. Here we study such arrays under coherent driving, realizing an open quantum many-body problem in a strongly non-linear regime. We show that the combination of dipolar interactions and regular geometry have a dramatic effect on the spectrum of emitted light: the famous Mollow triplet characterizing the emission of a single atom develops a structured broadening with flat sidebands, with a bandwidth determined by the dipolar interactions. This emission spectrum characterizes atomic arrays and distinguishes them from disordered ensembles as well as non-interacting emitters. Our predictions are based on a novel dynamical mean-field theory (DMFT) approach to the problem, paving the way for further studies of these systems.
翻訳日:2024-03-07 15:04:56 公開日:2024-03-06
# プロンプトラーニングによるスタックオーバーフローのためのバイモーダル質問の自動タイトル生成

Automatic Bi-modal Question Title Generation for Stack Overflow with Prompt Learning ( http://arxiv.org/abs/2403.03677v1 )

ライセンス: Link先を確認
Shaoyu Yang, Xiang Chen, Ke Liu, Guang Yang, Chi Yu(参考訳) stack overflowの質問投稿を作成する場合、開発者は質問タイトルの核となる問題を正確に要約することができないため、これらの質問がタイムリーな助けを得ることができない可能性がある。 そのため,質問題の質の向上が研究者の注目を集めている。 最初の研究は、質問本体のコードスニペットだけを分析してタイトルを自動的に生成することを目的としていた。 しかし,本研究は,それらの問題記述における有用な情報を無視した。 そこで本研究では,問題本体の2モーダル情報(コードスニペットと問題記述)を考慮し,SOTitle+のアプローチを提案する。 次に、異なるプログラミング言語のタイトル生成を別個のタスクとして定式化し、マルチタスク学習を用いてこれらのタスクを解決する。 その後、トレーニング済みの言語モデルCodeT5を微調整して、タイトルを自動的に生成します。 残念なことに、事前学習課題と調査課題との間の矛盾した入力と最適化の目的は、事前訓練されたモデルの知識を十分に探求することが困難になる可能性がある。 この問題を解決するため、SOTitle+はハイブリッドプロンプト(ハードプロンプトとソフトプロンプトの混合)でさらにプロンプトチューニングを行う。 SoTitle+の有効性を検証するために,Stack Overflowが共有する最近のデータダンプから,大規模で高品質なコーパスを構築する。 私たちのコーパスには、人気のある6つのプログラミング言語に対する179,119の質の高い質問投稿が含まれています。 実験の結果,SOTitle+は自動評価と人的評価の両面で,最先端の4つのベースラインを著しく上回ることがわかった。 本研究は,stack overflowタイトル生成におけるバイモーダル情報と迅速な学習を考えることが有望な探索の方向性であることを示す。

When drafting question posts for Stack Overflow, developers may not accurately summarize the core problems in the question titles, which can cause these questions to not get timely help. Therefore, improving the quality of question titles has attracted the wide attention of researchers. An initial study aimed to automatically generate the titles by only analyzing the code snippets in the question body. However, this study ignored the helpful information in their corresponding problem descriptions. Therefore, we propose an approach SOTitle+ by considering bi-modal information (i.e., the code snippets and the problem descriptions) in the question body. Then we formalize the title generation for different programming languages as separate but related tasks and utilize multi-task learning to solve these tasks. Later we fine-tune the pre-trained language model CodeT5 to automatically generate the titles. Unfortunately, the inconsistent inputs and optimization objectives between the pre-training task and our investigated task may make fine-tuning hard to fully explore the knowledge of the pre-trained model. To solve this issue, SOTitle+ further prompt-tunes CodeT5 with hybrid prompts (i.e., mixture of hard and soft prompts). To verify the effectiveness of SOTitle+, we construct a large-scale high-quality corpus from recent data dumps shared by Stack Overflow. Our corpus includes 179,119 high-quality question posts for six popular programming languages. Experimental results show that SOTitle+ can significantly outperform four state-of-the-art baselines in both automatic evaluation and human evaluation. Our work indicates that considering bi-modal information and prompt learning in Stack Overflow title generation is a promising exploration direction.
翻訳日:2024-03-07 15:04:43 公開日:2024-03-06
# ロバスト性を考慮した簡易pcnet

Simplified PCNet with Robustness ( http://arxiv.org/abs/2403.03676v1 )

ライセンス: Link先を確認
Bingheng Li, Xuanting Xie, Haoxiang Lei, Ruiyi Fang, and Zhao Kang(参考訳) グラフニューラルネットワーク(GNN)は、ホモ親和性グラフやヘテロ親和性グラフの表現を学ぶことに成功して大きな注目を集めている。 しかし、それらは相同性の異なる実世界のグラフにうまく一般化することはできない。 これに対し、前の研究である Possion-Charlier Network (PCNet) \cite{li2024pc} は、グラフ表現をヘテロフィリーからホモフィリーに学習することを可能にする。 pcnetは異質な問題を緩和するが、その効果と効率をさらに改善するための課題が残っている。 本稿では,PCNetの簡易化とロバスト性の向上を図る。 まず,フィルタ順序を連続値に拡張し,パラメータを小さくする。 適応型近傍サイズを持つ2つの変種が実装されている。 理論解析により,本モデルがグラフ構造摂動や逆襲に対する頑健性を示す。 我々は,同好性グラフと異好性グラフの両方を表す様々なデータセット上で,半教師付き学習タスクを通じてアプローチを検証する。

Graph Neural Networks (GNNs) have garnered significant attention for their success in learning the representation of homophilic or heterophilic graphs. However, they cannot generalize well to real-world graphs with different levels of homophily. In response, the Possion-Charlier Network (PCNet) \cite{li2024pc}, the previous work, allows graph representation to be learned from heterophily to homophily. Although PCNet alleviates the heterophily issue, there remain some challenges in further improving the efficacy and efficiency. In this paper, we simplify PCNet and enhance its robustness. We first extend the filter order to continuous values and reduce its parameters. Two variants with adaptive neighborhood sizes are implemented. Theoretical analysis shows our model's robustness to graph structure perturbations or adversarial attacks. We validate our approach through semi-supervised learning tasks on various datasets representing both homophilic and heterophilic graphs.
翻訳日:2024-03-07 15:04:15 公開日:2024-03-06
# 対向赤外測位:幾何を用いた赤外歩行者検出器に対する対向攻撃

Adversarial Infrared Geometry: Using Geometry to Perform Adversarial Attack against Infrared Pedestrian Detectors ( http://arxiv.org/abs/2403.03674v1 )

ライセンス: Link先を確認
Kalibinuer Tiliwalidi(参考訳) 現在、赤外線イメージング技術は広く使われており、赤外線物体検出技術は注目度が急増している。 これまでの研究では赤外線物体検出器に対する物理的攻撃が検討されてきたが、これらの手法の実装は依然として複雑である。 例えば、電球板や赤外線QRスーツを攻撃実行の摂動として使用するアプローチでは、コストのかかる最適化と面倒なデプロイメントプロセスが必要になる。 その他の手法としては、赤外線攻撃の物理的摂動として不規則なエアロゲルを利用する方法があるが、最適化費用と知覚性の問題を犠牲にしている。 本研究では,多様な幾何学的形状(線,三角形,楕円形)をモデル化し,それらの物理パラメータをPSO(Particle Swarm Optimization)を用いて最適化することにより,効率的なブラックボックスクエリアタックを容易にする。 AdvIGの有効性, ステルス性, 堅牢性を評価するため, 広範囲な実験を行った。 デジタル攻撃実験では、線、三角形、楕円パターンはそれぞれ93.1\%、86.8\%、100.0\%の攻撃成功率を達成し、平均クエリ時間は71.7、113.1、および2.57である。 異なる距離でAdvIGの攻撃成功率を評価するための物理的攻撃実験を行った。 平均して、直線、三角形、楕円は、それぞれ61.1\%、61.2\%、96.2\%の攻撃成功率を達成する。 さらに, アブレーション実験, トランスファーアタック実験, 敵防御機構など, アドヴィグを包括的に解析する実験を行った。 本手法は,デジタル環境と物理環境の両方において,単純かつ効率的なブラックボックス攻撃として優れており,AdvIGに対して広く注目されている。

Currently, infrared imaging technology enjoys widespread usage, with infrared object detection technology experiencing a surge in prominence. While previous studies have delved into physical attacks on infrared object detectors, the implementation of these techniques remains complex. For instance, some approaches entail the use of bulb boards or infrared QR suits as perturbations to execute attacks, which entail costly optimization and cumbersome deployment processes. Other methodologies involve the utilization of irregular aerogel as physical perturbations for infrared attacks, albeit at the expense of optimization expenses and perceptibility issues. In this study, we propose a novel infrared physical attack termed Adversarial Infrared Geometry (\textbf{AdvIG}), which facilitates efficient black-box query attacks by modeling diverse geometric shapes (lines, triangles, ellipses) and optimizing their physical parameters using Particle Swarm Optimization (PSO). Extensive experiments are conducted to evaluate the effectiveness, stealthiness, and robustness of AdvIG. In digital attack experiments, line, triangle, and ellipse patterns achieve attack success rates of 93.1\%, 86.8\%, and 100.0\%, respectively, with average query times of 71.7, 113.1, and 2.57, respectively, thereby confirming the efficiency of AdvIG. Physical attack experiments are conducted to assess the attack success rate of AdvIG at different distances. On average, the line, triangle, and ellipse achieve attack success rates of 61.1\%, 61.2\%, and 96.2\%, respectively. Further experiments are conducted to comprehensively analyze AdvIG, including ablation experiments, transfer attack experiments, and adversarial defense mechanisms. Given the superior performance of our method as a simple and efficient black-box adversarial attack in both digital and physical environments, we advocate for widespread attention to AdvIG.
翻訳日:2024-03-07 15:04:02 公開日:2024-03-06
# 確率的制約付き逆mdpの学習

Learning Adversarial MDPs with Stochastic Hard Constraints ( http://arxiv.org/abs/2403.03672v1 )

ライセンス: Link先を確認
Francesco Emanuele Stradi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti(参考訳) 対向的損失と確率的制約を伴う制約付きマルコフ決定過程(cmdps)におけるオンライン学習問題について検討した。 2つの異なるシナリオを考えます。 まず,線形後悔と累積的正の制約違反を実現するアルゴリズムを設計する一般的なcmdpについて述べる。 第2のシナリオでは、制約を厳密に満たし、学習者に知られているポリシーが存在するという軽微な仮定の下で、制約が各エピソードにおいて高い確率で満たされることを保証しながら、サブ線形後悔を実現するアルゴリズムを設計する。 我々の知る限りでは、我々の研究は敵の損失と厳しい制約の両方を伴うcmdpを研究する最初のものである。 実際、以前の研究はより弱い軟弱な制約に焦点を合わせ、負の制約を取り消す正の違反を許容するか、あるいは確率的損失に制限されている。 したがって、我々のアルゴリズムは、最先端のアルゴリズムで管理できるものよりもはるかに厳しい要求を受ける一般的な非定常環境を扱うことができる。 これにより、自動運転からオンライン広告、レコメンデーションシステムまで、より広い範囲の現実世界のアプリケーションで採用することができる。

We study online learning problems in constrained Markov decision processes (CMDPs) with adversarial losses and stochastic hard constraints. We consider two different scenarios. In the first one, we address general CMDPs, where we design an algorithm that attains sublinear regret and cumulative positive constraints violation. In the second scenario, under the mild assumption that a policy strictly satisfying the constraints exists and is known to the learner, we design an algorithm that achieves sublinear regret while ensuring that the constraints are satisfied at every episode with high probability. To the best of our knowledge, our work is the first to study CMDPs involving both adversarial losses and hard constraints. Indeed, previous works either focus on much weaker soft constraints--allowing for positive violation to cancel out negative ones--or are restricted to stochastic losses. Thus, our algorithms can deal with general non-stationary environments subject to requirements much stricter than those manageable with state-of-the-art algorithms. This enables their adoption in a much wider range of real-world applications, ranging from autonomous driving to online advertising and recommender systems.
翻訳日:2024-03-07 15:03:25 公開日:2024-03-06
# センチネル-1による洪水検出における時間データの必要性

Portraying the Need for Temporal Data in Flood Detection via Sentinel-1 ( http://arxiv.org/abs/2403.03671v1 )

ライセンス: Link先を確認
Xavier Bou, Thibaud Ehret, Rafael Grompone von Gioi, Jeremy Anger(参考訳) リモートセンシングデータにおける浸水被害箇所の特定は, 地中観測において, 洪水の影響を分析し, 応答を駆動する上で重要な問題である。 文献にはいくつかの方法が提案されているが, 洪水検知データセットには, (1) 地域変動性の欠如が一般的に観測されていること, (2) 洪水地域から永久水域を区別する必要があること, という2つの制約がある。 その結果,洪水イベント毎に1年間のセンチネル-1観測を行い,グローバルに多様なmmfloodデータセットを複数に拡張した。 驚いたことに、MMFloodにおける浸水画素の定義は、画像シーケンス全体を観察するときに矛盾している。 そこで,洪水検知タスクを,異常な水域をセンチネル-1時間系列から区分した時間的異常検出問題として再構成する。 この定義から,人気のあるビデオ変化検出装置vibeにインスパイアされた簡易な手法を提案する。その結果,sar画像時系列と定量的に一致し,今後の作業に合理的な基準となる。

Identifying flood affected areas in remote sensing data is a critical problem in earth observation to analyze flood impact and drive responses. While a number of methods have been proposed in the literature, there are two main limitations in available flood detection datasets: (1) a lack of region variability is commonly observed and/or (2) they require to distinguish permanent water bodies from flooded areas from a single image, which becomes an ill-posed setup. Consequently, we extend the globally diverse MMFlood dataset to multi-date by providing one year of Sentinel-1 observations around each flood event. To our surprise, we notice that the definition of flooded pixels in MMFlood is inconsistent when observing the entire image sequence. Hence, we re-frame the flood detection task as a temporal anomaly detection problem, where anomalous water bodies are segmented from a Sentinel-1 temporal sequence. From this definition, we provide a simple method inspired by the popular video change detector ViBe, results of which quantitatively align with the SAR image time series, providing a reasonable baseline for future works.
翻訳日:2024-03-07 15:03:06 公開日:2024-03-06
# CDC: 複雑なデータクラスタリングのためのシンプルなフレームワーク

CDC: A Simple Framework for Complex Data Clustering ( http://arxiv.org/abs/2403.03670v1 )

ライセンス: Link先を確認
Zhao Kang, Xuanting Xie, Bingheng Li and Erlin Pan(参考訳) 今日のデータ駆動デジタル時代において、収集されたデータのマルチビュー、非ユークリッド、マルチリレーショナルといった複雑さと量は指数関数的に、あるいはさらに速く増加している。 データから有効な知識を取り出すクラスタリングは、実際は非常に有用である。 しかし、既存の手法は、他の手法を犠牲にして、ある特定の課題に対処するために独立に開発されている。 本研究では,複雑なデータクラスタリング(cdc)に対して,線形複雑度を持つ異なる種類のデータを効率的に処理できる,単純かつ効果的なフレームワークを提案する。 まず,グラフフィルタリングを用いて幾何構造と属性情報を融合する。 そして、新しい類似性保存正規化器によって適応的に学習される高品質なアンカーの複雑さを低減する。 本稿では,提案手法のクラスター性について理論的および実験的に示す。 特に、サイズ111mのグラフデータにcdcをデプロイします。

In today's data-driven digital era, the amount as well as complexity, such as multi-view, non-Euclidean, and multi-relational, of the collected data are growing exponentially or even faster. Clustering, which unsupervisely extracts valid knowledge from data, is extremely useful in practice. However, existing methods are independently developed to handle one particular challenge at the expense of the others. In this work, we propose a simple but effective framework for complex data clustering (CDC) that can efficiently process different types of data with linear complexity. We first utilize graph filtering to fuse geometry structure and attribute information. We then reduce the complexity with high-quality anchors that are adaptively learned via a novel similarity-preserving regularizer. We illustrate the cluster-ability of our proposed method theoretically and experimentally. In particular, we deploy CDC to graph data of size 111M.
翻訳日:2024-03-07 15:02:46 公開日:2024-03-06
# A&B BNN:Add&Bit-Operation-Only Hardware-Friendly Binary Neural Network

A&B BNN: Add&Bit-Operation-Only Hardware-Friendly Binary Neural Network ( http://arxiv.org/abs/2403.03739v1 )

ライセンス: Link先を確認
Ruichen Ma, Guanchao Qiao, Yian Liu, Liwei Meng, Ning Ning, Yang Liu, Shaogang Hu(参考訳) バイナリニューラルネットワークは、1ビットの量子化重みとアクティベーションを使用して、モデルのストレージ要求と計算負荷の両方を削減する。 しかし、高度なバイナリアーキテクチャには、何百万もの非効率で非ハードウェアフレンドリーな完全精度乗算演算が組み込まれている。 A&B BNNは、従来のBNNにおける乗算演算の一部を直接削除し、残りを同じ数のビット演算に置き換えることを提案し、マスク層と正規化自由ネットワークアーキテクチャに基づく量子化RPReLU構造を導入した。 マスク層は、BNNの固有特性を簡単な数学的変換で活用することにより、推論中に取り除くことができ、関連する乗算操作を避けることができる。 量子化RPReLU構造は、傾きを2の整数パワーに制限することで、より効率的なビット演算を可能にする。 実験結果は、CIFAR-10、CIFAR-100、ImageNetのデータセットでそれぞれ92.30%、69.35%、66.89%を達成した。 アブレーション研究により、RPReLUの量子化された構造の有効性が検証され、固定斜面RLeakyReLUに比べて1.14%画像ネットが強化された。 提案されているアドオンとビット操作のみのBNNは、ハードウェアフレンドリーなネットワークアーキテクチャに革新的なアプローチを提供する。

Binary neural networks utilize 1-bit quantized weights and activations to reduce both the model's storage demands and computational burden. However, advanced binary architectures still incorporate millions of inefficient and nonhardware-friendly full-precision multiplication operations. A&B BNN is proposed to directly remove part of the multiplication operations in a traditional BNN and replace the rest with an equal number of bit operations, introducing the mask layer and the quantized RPReLU structure based on the normalizer-free network architecture. The mask layer can be removed during inference by leveraging the intrinsic characteristics of BNN with straightforward mathematical transformations to avoid the associated multiplication operations. The quantized RPReLU structure enables more efficient bit operations by constraining its slope to be integer powers of 2. Experimental results achieved 92.30%, 69.35%, and 66.89% on the CIFAR-10, CIFAR-100, and ImageNet datasets, respectively, which are competitive with the state-of-the-art. Ablation studies have verified the efficacy of the quantized RPReLU structure, leading to a 1.14% enhancement on the ImageNet compared to using a fixed slope RLeakyReLU. The proposed add&bit-operation-only BNN offers an innovative approach for hardware-friendly network architecture.
翻訳日:2024-03-07 14:57:02 公開日:2024-03-06
# 変圧器表現を用いた確率的トピックモデリング

Probabilistic Topic Modelling with Transformer Representations ( http://arxiv.org/abs/2403.03737v1 )

ライセンス: Link先を確認
Arik Reuter, Anton Thielmann, Christoph Weisser, Benjamin S\"afken, Thomas Kneib(参考訳) トピックモデリングは、主に過去10年間にベイジアングラフィックモデルによって支配された。 しかし、自然言語処理におけるトランスフォーマーの台頭に伴い、トランスフォーマベースの埋め込み空間における単純なクラスタリングアプローチに依存するいくつかのモデルが登場し、トピックの概念を埋め込みベクトルのクラスタとして統合した。 本稿では,トランスフォーマーベース埋め込み空間におけるトピック表現の利点と確率的モデリングを組み合わせたトランスフォーマー表現ニューラルトピックモデル(TNTM)を提案する。 したがって、このアプローチは、LDA(Latent Dirichlet Allocation)のようなモデルのように、完全に確率的なモデリングを伴うトランスフォーマー埋め込みに基づくトピックの強力で汎用的な概念を統一する。 可変オートエンコーダ(VAE)フレームワークを用いて推論速度とモデリングの柔軟性を向上させる。 実験結果から,提案モデルはほぼ完全なトピックの多様性を維持しつつ,組込みコヒーレンスの観点から,最先端のアプローチと同等の結果が得られることがわかった。 対応するソースコードはhttps://github.com/ArikReuter/TNTMで入手できる。

Topic modelling was mostly dominated by Bayesian graphical models during the last decade. With the rise of transformers in Natural Language Processing, however, several successful models that rely on straightforward clustering approaches in transformer-based embedding spaces have emerged and consolidated the notion of topics as clusters of embedding vectors. We propose the Transformer-Representation Neural Topic Model (TNTM), which combines the benefits of topic representations in transformer-based embedding spaces and probabilistic modelling. Therefore, this approach unifies the powerful and versatile notion of topics based on transformer embeddings with fully probabilistic modelling, as in models such as Latent Dirichlet Allocation (LDA). We utilize the variational autoencoder (VAE) framework for improved inference speed and modelling flexibility. Experimental results show that our proposed model achieves results on par with various state-of-the-art approaches in terms of embedding coherence while maintaining almost perfect topic diversity. The corresponding source code is available at https://github.com/ArikReuter/TNTM.
翻訳日:2024-03-07 14:56:37 公開日:2024-03-06
# 生成と圧縮の統一:多段トランスによる超低ビットレート画像符号化

Unifying Generation and Compression: Ultra-low bitrate Image Coding Via Multi-stage Transformer ( http://arxiv.org/abs/2403.03736v1 )

ライセンス: Link先を確認
Naifu Xue, Qi Mao, Zijian Wang, Yuan Zhang, Siwei Ma(参考訳) 生成圧縮技術の最近の進歩は、圧縮データの知覚品質を著しく向上させた。 しかし、これらの進歩は主に高周波の細部の生成に焦点が当てられており、しばしば生成モデルが画像コンテンツの以前の分布を捉える能力を見落としているため、極端な圧縮シナリオ(0.05bpp)のビットレートの低減を妨げている。 ロスレス圧縮のための予測言語モデルの能力に動機づけられ,新しい統一画像生成圧縮(uigc)パラダイムを導入し,生成と圧縮のプロセスを統合する。 UIGCフレームワークの重要な特徴は、トークン化のためのベクトル量子化(VQ)イメージモデルの採用である。 このように、この二重目的フレームワークは、学習前の学習をエントロピー推定に効果的に利用し、失われたトークンの再生を支援する。 特に超低ビットレート (=0.03 bpp) のシナリオでは、既存のコーデックに対して提案されたUIGCフレームワークが知覚的品質と人間の知覚において優位であることを示し、生成的圧縮の新しい方向性を開拓した。

Recent progress in generative compression technology has significantly improved the perceptual quality of compressed data. However, these advancements primarily focus on producing high-frequency details, often overlooking the ability of generative models to capture the prior distribution of image content, thus impeding further bitrate reduction in extreme compression scenarios (<0.05 bpp). Motivated by the capabilities of predictive language models for lossless compression, this paper introduces a novel Unified Image Generation-Compression (UIGC) paradigm, merging the processes of generation and compression. A key feature of the UIGC framework is the adoption of vector-quantized (VQ) image models for tokenization, alongside a multi-stage transformer designed to exploit spatial contextual information for modeling the prior distribution. As such, the dual-purpose framework effectively utilizes the learned prior for entropy estimation and assists in the regeneration of lost tokens. Extensive experiments demonstrate the superiority of the proposed UIGC framework over existing codecs in perceptual quality and human perception, particularly in ultra-low bitrate scenarios (<=0.03 bpp), pioneering a new direction in generative compression.
翻訳日:2024-03-07 14:56:21 公開日:2024-03-06
# 予測による3次元オブジェクト中心表現の学習

Learning 3D object-centric representation through prediction ( http://arxiv.org/abs/2403.03730v1 )

ライセンス: Link先を確認
John Day, Tushar Arora, Jirui Liu, Li Erran Li, and Ming Bo Cai(参考訳) 人間のコア知識の一部として、オブジェクトの表現は、高レベルな概念と象徴的な推論をサポートする精神的表現の構成要素である。 人間は、監督なしで3D環境にある物体を知覚する能力を開発しているが、人間の幼児が直面する同様の制約を伴う同じ能力セットを学ぶモデルは欠如している。 この目的に向けて、我々は同時に学習する新しいネットワークアーキテクチャを開発した。 1)離散画像からのセグメントオブジェクト。 2) 3D位置を推測し 3)脳に直接利用可能な情報のみをトレーニングデータ、すなわち画像のシーケンスと自己運動として利用しながら、深度を知覚する。 中心となるアイデアは、オブジェクトを視覚入力の潜在的な原因として扱うことで、脳は将来のシーンの効率的な予測を行う。 この結果、オブジェクト表現は予測する学習の重要な副産物として学習される。

As part of human core knowledge, the representation of objects is the building block of mental representation that supports high-level concepts and symbolic reasoning. While humans develop the ability of perceiving objects situated in 3D environments without supervision, models that learn the same set of abilities with similar constraints faced by human infants are lacking. Towards this end, we developed a novel network architecture that simultaneously learns to 1) segment objects from discrete images, 2) infer their 3D locations, and 3) perceive depth, all while using only information directly available to the brain as training data, namely: sequences of images and self-motion. The core idea is treating objects as latent causes of visual input which the brain uses to make efficient predictions of future scenes. This results in object representations being learned as an essential byproduct of learning to predict.
翻訳日:2024-03-07 14:55:58 公開日:2024-03-06
# 自己監督型事前学習によるアクティブラーニングにおける多様性と不確かさ

Bridging Diversity and Uncertainty in Active learning with Self-Supervised Pre-Training ( http://arxiv.org/abs/2403.03728v1 )

ライセンス: Link先を確認
Paul Doucet, Benjamin Estermann, Till Aczel, Roger Wattenhofer(参考訳) 本研究は,特に自己指導型事前学習モデルの文脈において,多様性に基づく,不確実性に基づくサンプリング戦略の統合に対処する。 我々は,様々なデータレベルで高い性能を維持しつつ,コールドスタート問題を緩和するTCMという簡単なヒューリスティックを導入する。 当初はTypiClustを多様性サンプリングに適用し,その後Marginによる不確実性サンプリングに移行することで,両戦略の強みを効果的に組み合わせることができた。 我々の実験は、TCMが低データと高データの両方において、様々なデータセットで既存のメソッドを一貫して上回ることを示した。

This study addresses the integration of diversity-based and uncertainty-based sampling strategies in active learning, particularly within the context of self-supervised pre-trained models. We introduce a straightforward heuristic called TCM that mitigates the cold start problem while maintaining strong performance across various data levels. By initially applying TypiClust for diversity sampling and subsequently transitioning to uncertainty sampling with Margin, our approach effectively combines the strengths of both strategies. Our experiments demonstrate that TCM consistently outperforms existing methods across various datasets in both low and high data regimes.
翻訳日:2024-03-07 14:55:44 公開日:2024-03-06
# タンパク質配列生成のための言語モデル埋め込みの拡散

Diffusion on language model embeddings for protein sequence generation ( http://arxiv.org/abs/2403.03726v1 )

ライセンス: Link先を確認
Viacheslav Meshchaninov, Pavel Strashnov, Andrey Shevtsov, Fedor Nikolaev, Nikita Ivanisenko, Olga Kardymon, Dmitry Vetrov(参考訳) タンパク質設計は、タンパク質宇宙の固有の複雑さを深く理解する必要がある。 多くの努力は条件生成に傾倒し、特定のタンパク質ファミリーに焦点をあてるが、未条件生成の基礎的課題は過小評価され、過小評価されている。 本稿では,タンパク質言語モデルesm-2から派生した組込みに対して連続拡散を利用してアミノ酸配列を生成するモデルであるdimaを紹介する。 dimaは自己回帰的トランスフォーマーベースおよび離散拡散モデルを含む主要なソリューションを超えており、その優れた性能につながる設計選択の影響を定量的に説明します。 様々な指標を用いて, 生成配列の品質, 多様性, 分布類似性, 生物学的関連性について検討した。 我々のアプローチは、タンパク質空間の構造的および機能的多様性を正確に反映する、新規で多様なタンパク質配列を一貫して生成する。 この研究はタンパク質設計の分野を前進させ、スケーラブルで高品質なタンパク質配列生成のための堅牢なフレームワークを提供することにより、条件付きモデルのステージを設定する。

Protein design requires a deep understanding of the inherent complexities of the protein universe. While many efforts lean towards conditional generation or focus on specific families of proteins, the foundational task of unconditional generation remains underexplored and undervalued. Here, we explore this pivotal domain, introducing DiMA, a model that leverages continuous diffusion on embeddings derived from the protein language model, ESM-2, to generate amino acid sequences. DiMA surpasses leading solutions, including autoregressive transformer-based and discrete diffusion models, and we quantitatively illustrate the impact of the design choices that lead to its superior performance. We extensively evaluate the quality, diversity, distribution similarity, and biological relevance of the generated sequences using multiple metrics across various modalities. Our approach consistently produces novel, diverse protein sequences that accurately reflect the inherent structural and functional diversity of the protein space. This work advances the field of protein design and sets the stage for conditional models by providing a robust framework for scalable and high-quality protein sequence generation.
翻訳日:2024-03-07 14:55:31 公開日:2024-03-06
# CMDA:LiDARに基づく3Dオブジェクト検出のためのクロスモーダル・ドメイン適応

CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D Object Detection ( http://arxiv.org/abs/2403.03721v1 )

ライセンス: Link先を確認
Gyusam Chang, Wonseok Roh, Sujin Jang, Dongwook Lee, Daehyun Ji, Gyeongrok Oh, Jinsun Park, Jinkyu Kim, Sangpil Kim(参考訳) 最近のLiDARベースの3Dオブジェクト検出(3DOD)手法は有望な結果を示すが、ソース(またはトレーニング)データ配信の外部のドメインに対してうまく一般化しないことが多い。 このような領域ギャップを低減し、3dodモデルをより一般化するために、cmdaと呼ばれる新しいunsupervised domain adaptation (uda)法を導入する。 (i)画像モダリティ(すなわちカメラ画像)からの視覚的意味的手がかりを効果的な意味橋として活用し、鳥の視覚(bev)表現の領域ギャップを閉じる。 さらに (II) 自己学習型学習戦略も導入し, モデルが逆向きに訓練されてドメイン不変な特徴が生成され, 特徴インスタンスがソースや未確認対象ドメインから来ているかどうかの判別が阻害される。 全体として、CMDAフレームワークは3DODモデルをガイドし、新しいデータ配信のための高情報かつドメイン適応的な特徴を生成する。 nuScenes、Waymo、KITTIといった大規模ベンチマークによる大規模な実験では、前述のようなものがUDAタスクに対して大きなパフォーマンス向上をもたらし、最先端のパフォーマンスを実現しています。

Recent LiDAR-based 3D Object Detection (3DOD) methods show promising results, but they often do not generalize well to target domains outside the source (or training) data distribution. To reduce such domain gaps and thus to make 3DOD models more generalizable, we introduce a novel unsupervised domain adaptation (UDA) method, called CMDA, which (i) leverages visual semantic cues from an image modality (i.e., camera images) as an effective semantic bridge to close the domain gap in the cross-modal Bird's Eye View (BEV) representations. Further, (ii) we also introduce a self-training-based learning strategy, wherein a model is adversarially trained to generate domain-invariant features, which disrupt the discrimination of whether a feature instance comes from a source or an unseen target domain. Overall, our CMDA framework guides the 3DOD model to generate highly informative and domain-adaptive features for novel data distributions. In our extensive experiments with large-scale benchmarks, such as nuScenes, Waymo, and KITTI, those mentioned above provide significant performance gains for UDA tasks, achieving state-of-the-art performance.
翻訳日:2024-03-07 14:55:12 公開日:2024-03-06
# コミックテキストクローズ用マルチモーダルトランスフォーマー

Multimodal Transformer for Comics Text-Cloze ( http://arxiv.org/abs/2403.03719v1 )

ライセンス: Link先を確認
Emanuele Vivoli, Joan Lafuente Baeza, Ernest Valveny Llobet, Dimosthenis Karatzas(参考訳) 本研究は,視覚要素とテキスト要素が複雑に絡み合うメディアであるcomicsにおけるクロージャタスクを探求する。 具体的には、テキストクローズ(Text-cloze)は、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクを指す。 繰り返しニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。 本稿では,テキストクローズ専用に設計された新しいマルチモーダル大規模言語モデル (multimodal-llm) アーキテクチャを提案する。 我々のアプローチの中心はドメイン適応型ResNet-50ベースのビジュアルエンコーダで、SimCLRを使ってコミックドメインに微調整される。 このエンコーダはパラメータの5分の1しか持たないより複雑なモデルに匹敵する結果をもたらす。 さらに、このデータセット用の新しいOCRアノテーションをリリースし、モデル入力品質を向上し、さらに1%改善しました。 最後に、タスクを生成形式に拡張し、新たなベースラインを確立し、コミック分析の分野における研究可能性を広げる。

This work explores a closure task in comics, a medium where visual and textual elements are intricately intertwined. Specifically, Text-cloze refers to the task of selecting the correct text to use in a comic panel, given its neighboring panels. Traditional methods based on recurrent neural networks have struggled with this task due to limited OCR accuracy and inherent model limitations. We introduce a novel Multimodal Large Language Model (Multimodal-LLM) architecture, specifically designed for Text-cloze, achieving a 10% improvement over existing state-of-the-art models in both its easy and hard variants. Central to our approach is a Domain-Adapted ResNet-50 based visual encoder, fine-tuned to the comics domain in a self-supervised manner using SimCLR. This encoder delivers comparable results to more complex models with just one-fifth of the parameters. Additionally, we release new OCR annotations for this dataset, enhancing model input quality and resulting in another 1% improvement. Finally, we extend the task to a generative format, establishing new baselines and expanding the research possibilities in the field of comics analysis.
翻訳日:2024-03-07 14:54:48 公開日:2024-03-06
# 列列アドレッシングを用いた超伝導量子ビットの多重化制御アーキテクチャ

A multiplexed control architecture for superconducting qubits with row-column addressing ( http://arxiv.org/abs/2403.03717v1 )

ライセンス: Link先を確認
Peng Zhao(参考訳) 最先端の超伝導量子プロセッサでは、各量子ビットは、室温で発生した制御パルスをミリケルビン温度でキュービットに伝達する少なくとも1つの制御線によって制御される。 この戦略は数百の量子ビットの制御に成功しているが、フォールトトレランス量子コンピューティングに必要な数百万から数十億の量子ビットを制御できるスケーラビリティは低い。 この原因は配線上の問題によるものであり、低温系の冷却力や物理空間、量子チップレベルの制御フットプリント面積などによって対応可能な制御線路の数は制限されている。 本稿では,2種類の共有制御線(行線と列線)を持つ超伝導量子ビットの多重化制御アーキテクチャを導入し,$o(\sqrt{n})$制御線で$n$ qubitsを並列に制御する効率的な手法を提案する。 2種類の共有線の組み合わせにより、一意な制御パルス対が各行列交差点のキュービットに配信され、並列キュービットアドレッシングが可能となる。 ここで特に懸念されるのは、従来のゲートスキームとは異なり、シングルビットと2ビットのゲートは制御パルスのペアで実装されていることである。 並列性や制御の制限を考えると、量子コンピューティングシステムへのアーキテクチャの統合は、実行すべき量子回路の特定の特性に対して可能な限り調整されるべきである。 したがって、アーキテクチャは、量子誤差補正回路のような構造化量子回路を実行するためにスケーラブルである。

In state-of-the-art superconducting quantum processors, each qubit is controlled by at least one control line that delivers control pulses generated at room temperature to qubits at millikelvin temperatures. This strategy has been successfully applied to control hundreds of qubits but is unlikely to be scalable to control thousands of qubits, let alone millions or even billions of qubits needed in fault-tolerance quantum computing. The reason for this is due to the wiring challenge, the number of accommodated control lines is limited by factors, such as the cooling power and physical space of the cryogenic system, the control footprint area at the qubit chip level, and so on. Here, we introduce a multiplexed control architecture for superconducting qubits with two types of shared control lines, row and column lines, providing an efficient approach for parallel controlling $N$ qubits with $O(\sqrt{N})$ control lines. With the combination of the two-type shared lines, unique pairs of control pulses are delivered to qubits on each row-column intersection, enabling parallel qubit addressing. Of particular concern here is that, unlike traditional gate schemes, both single- and two-qubit gates are implemented with pairs of control pulses. Considering the inherent parallelism and the control limitations, the integration of the architecture into quantum computing systems should be tailored as much as possible to the specific properties of the quantum circuits to be executed. As such, the architecture could be scalable for executing structured quantum circuits, such as quantum error correction circuits.
翻訳日:2024-03-07 14:54:30 公開日:2024-03-06
# MeaCap:メモリ増設ゼロショット画像キャプチャ

MeaCap: Memory-Augmented Zero-shot Image Captioning ( http://arxiv.org/abs/2403.03715v1 )

ライセンス: Link先を確認
Zequn Zeng, Yan Xie, Hao Zhang, Chiyu Chen, Zhengjue Wang, Bo Chen(参考訳) 画像テキストデータのないゼロショット画像キャプション(IC)は、トレーニングフリーとテキストオンリーの2つのカテゴリに分けられる。 一般的に、これらの2種類の手法は、画像テキスト類似性評価のためのCLIPやキャプション生成のための事前訓練された言語モデル(LM)を組み込むことで、ゼロショットICを実現する。 主な違いは、テキストコーパスを使用してLMをトレーニングするかどうかである。 いくつかの指標で魅力的なパフォーマンスを達成するが、既存の手法には共通の欠点がある。 訓練なしの手法は幻覚を引き起こす傾向があるが、テキストのみの訓練は一般化能力を失うことが多い。 そこで本稿では,新たなメモリ表示型ゼロショット画像キャプションフレームワーク(meacap)を提案する。 具体的には,テキストメモリを備えた検索フィルタモジュールを導入し,画像と関連性の高い重要な概念を抽出する。 提案したメモリ拡張視覚融合スコアをキーワードから文へのLMに展開することにより,覚覚の少ない画像との一貫性を保った概念中心のキャプションを生成できる。 MeaCapのフレームワークは、一連のゼロショットIC設定で最先端のパフォーマンスを実現する。 私たちのコードはhttps://github.com/joeyz0z/MeaCapで利用可能です。

Zero-shot image captioning (IC) without well-paired image-text data can be divided into two categories, training-free and text-only-training. Generally, these two types of methods realize zero-shot IC by integrating pretrained vision-language models like CLIP for image-text similarity evaluation and a pre-trained language model (LM) for caption generation. The main difference between them is whether using a textual corpus to train the LM. Though achieving attractive performance w.r.t. some metrics, existing methods often exhibit some common drawbacks. Training-free methods tend to produce hallucinations, while text-only-training often lose generalization capability. To move forward, in this paper, we propose a novel Memory-Augmented zero-shot image Captioning framework (MeaCap). Specifically, equipped with a textual memory, we introduce a retrieve-then-filter module to get key concepts that are highly related to the image. By deploying our proposed memory-augmented visual-related fusion score in a keywords-to-sentence LM, MeaCap can generate concept-centered captions that keep high consistency with the image with fewer hallucinations and more world-knowledge. The framework of MeaCap achieves the state-of-the-art performance on a series of zero-shot IC settings. Our code is available at https://github.com/joeyz0z/MeaCap.
翻訳日:2024-03-07 14:54:01 公開日:2024-03-06
# テキスト監督からオープンボキャブラリー意味セグメンテーションを学ぶための多項目クロスモーダルアライメント

Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision ( http://arxiv.org/abs/2403.03707v1 )

ライセンス: Link先を確認
Yajie Liu, Pu Ge, Qingjie Liu, Di Huang(参考訳) 近年,テキスト監督からオープンボキャブラリー意味セグメンテーションを学ぶことで,下流性能が期待できる。 それにもかかわらず、現在のアプローチでは、密集アノテーションがないためにアライメントの粒度ギャップに遭遇し、トレーニング中に粗い画像/領域テキストアライメントを学習し、推論時にグループ/ピクセルレベルの予測を行う。 このような不一致は、最適学習効率と劣等なゼロショットセグメンテーション結果をもたらす。 本稿では,ピクセルレベルアライメントとオブジェクトレベルアライメント,領域レベルのアライメントを明示的に学習し,粒度ギャップを密なアノテーションなしで橋渡しする多粒度クロスモーダルアライメント(mgca)フレームワークを提案する。 具体的には、MGCAは画像テキストペアに擬似多粒性意味対応を巧みに構築し、きめ細かいクロスモーダルコントラスト学習を容易にするハードサンプリング戦略と協調する。 さらに、下流セグメンテーションにおける既存のグループと画素予測ユニットの欠陥を指摘し、アンダーセグメンテーションやオーバーセグメンテーションを含むジレンマを効果的に軽減する適応意味ユニットを開発する。 本手法は, CC3Mのみを基礎として, 最先端手法の大幅な進歩を実現し, その有効性と効率を実証する。

Recently, learning open-vocabulary semantic segmentation from text supervision has achieved promising downstream performance. Nevertheless, current approaches encounter an alignment granularity gap owing to the absence of dense annotations, wherein they learn coarse image/region-text alignment during training yet perform group/pixel-level predictions at inference. Such discrepancy leads to suboptimal learning efficiency and inferior zero-shot segmentation results. In this paper, we introduce a Multi-Grained Cross-modal Alignment (MGCA) framework, which explicitly learns pixel-level alignment along with object- and region-level alignment to bridge the granularity gap without any dense annotations. Specifically, MGCA ingeniously constructs pseudo multi-granular semantic correspondences upon image-text pairs and collaborates with hard sampling strategies to facilitate fine-grained cross-modal contrastive learning. Further, we point out the defects of existing group and pixel prediction units in downstream segmentation and develop an adaptive semantic unit which effectively mitigates their dilemmas including under- and over-segmentation. Training solely on CC3M, our method achieves significant advancements over state-of-the-art methods, demonstrating its effectiveness and efficiency.
翻訳日:2024-03-07 14:53:38 公開日:2024-03-06
# 高解像度リモートセンシング画像の教師なしドメイン適応セマンティックセマンティックセマンティックセグメンテーションに対する因果原型誘発コントラスト適応

Causal Prototype-inspired Contrast Adaptation for Unsupervised Domain Adaptive Semantic Segmentation of High-resolution Remote Sensing Imagery ( http://arxiv.org/abs/2403.03704v1 )

ライセンス: Link先を確認
Jingru Zhu, Ya Guo, Geng Sun, Liang Hong and Jie Chen(参考訳) 高解像度リモートセンシング画像(HRSI)のセマンティックセグメンテーションは、ドメインシフトに悩まされ、別の未確認領域におけるモデルの性能が低下する。 unsupervised domain adaptive(uda)セマンティックセグメンテーションは、ラベル付きソースドメインでトレーニングされたセマンティックセグメンテーションモデルを、ラベルなしのターゲットドメインに適応させることを目的としている。 しかし、既存のUDAセマンティックセグメンテーションモデルは、ソースおよびターゲットドメインデータのラベルに関する統計情報に基づいて画素や特徴を調整し、それに従って予測を行い、予測結果の不確実性と脆弱性をもたらす傾向にある。 本稿では、異なるHRSIsドメインとそれらのセマンティックラベル間の不変因果機構を探索するために、因果プロトタイプインスパイアされたコントラスト適応(CPCA)手法を提案する。 まず、ソースとターゲットのドメインイメージから因果的特徴と偏見的特徴を因果的特徴非絡みモジュールで切り離す。 次に、因果型コントラストモジュールを使用して、ドメイン不変因果特徴を学習する。 因果的特徴とバイアス的特徴をさらに分離するために、因果的介入モジュールを導入し、バイアス的特徴に介入し、非バイアス的サンプルを生成する。 因果的特徴を分離性、分散性、介入の原則を満たすように強制することにより、CPCAはソースドメインとターゲットドメインの因果的要因をシミュレートし、因果的特徴に基づいて対象ドメインの決定を行い、一般化能力の向上を観察することができる。 3つのクロスドメインタスクによる広範囲な実験はcpcaが最先端の手法よりも優れていることを示している。

Semantic segmentation of high-resolution remote sensing imagery (HRSI) suffers from the domain shift, resulting in poor performance of the model in another unseen domain. Unsupervised domain adaptive (UDA) semantic segmentation aims to adapt the semantic segmentation model trained on the labeled source domain to an unlabeled target domain. However, the existing UDA semantic segmentation models tend to align pixels or features based on statistical information related to labels in source and target domain data, and make predictions accordingly, which leads to uncertainty and fragility of prediction results. In this paper, we propose a causal prototype-inspired contrast adaptation (CPCA) method to explore the invariant causal mechanisms between different HRSIs domains and their semantic labels. It firstly disentangles causal features and bias features from the source and target domain images through a causal feature disentanglement module. Then, a causal prototypical contrast module is used to learn domain invariant causal features. To further de-correlate causal and bias features, a causal intervention module is introduced to intervene on the bias features to generate counterfactual unbiased samples. By forcing the causal features to meet the principles of separability, invariance and intervention, CPCA can simulate the causal factors of source and target domains, and make decisions on the target domain based on the causal features, which can observe improved generalization ability. Extensive experiments under three cross-domain tasks indicate that CPCA is remarkably superior to the state-of-the-art methods.
翻訳日:2024-03-07 14:53:13 公開日:2024-03-06
# ニューラルネットワークを用いたオンラインモデル誤り訂正:統合予測システムへの応用

Online model error correction with neural networks: application to the Integrated Forecasting System ( http://arxiv.org/abs/2403.03702v1 )

ライセンス: Link先を確認
Alban Farchi, Marcin Chrust, Marc Bocquet, Massimo Bonavita(参考訳) 近年、完全にデータ駆動のグローバルな数値天気予報モデルの開発が著しい進展を遂げている。 これらの機械学習の天気予報モデルは、その強さ、特に精度と低い計算要件を持っているが、その弱点は、基本的な力学バランスを表現するのに苦労しており、データ同化実験には適していない。 ハイブリッドモデリングは、これらの制限に対処するための有望なアプローチとして現れます。 ハイブリッドモデルは、予測能力を向上するために、物理ベースのコアコンポーネントと統計コンポーネント(典型的にはニューラルネットワーク)を統合する。 本稿では、ニューラルネットワークを用いた中距離気象予報センター(European Centre for Medium-Range Weather Forecasts)の運用統合予測システム(IFS)のモデル誤差補正を提案する。 ニューラルネットワークは最初、運用分析と分析インクリメントの大規模なデータセットを使用して、オフラインで事前トレーニングされる。 その後、トレーニングされたネットワークは、データ同化および予測実験に使用されるように、オブジェクト指向予測システム(OOPS)内のIFSに統合される。 その後、最近開発された弱い制約の4D-Varを使って、オンラインでさらに訓練される。 その結果、事前学習されたニューラルネットワークは、多くの条件で予測誤差を低減し、多くの条件でハイブリッドモデルの精度をさらに向上させる、信頼性の高いモデル誤差補正をすでに提供していることがわかった。

In recent years, there has been significant progress in the development of fully data-driven global numerical weather prediction models. These machine learning weather prediction models have their strength, notably accuracy and low computational requirements, but also their weakness: they struggle to represent fundamental dynamical balances, and they are far from being suitable for data assimilation experiments. Hybrid modelling emerges as a promising approach to address these limitations. Hybrid models integrate a physics-based core component with a statistical component, typically a neural network, to enhance prediction capabilities. In this article, we propose to develop a model error correction for the operational Integrated Forecasting System (IFS) of the European Centre for Medium-Range Weather Forecasts using a neural network. The neural network is initially pre-trained offline using a large dataset of operational analyses and analysis increments. Subsequently, the trained network is integrated into the IFS within the Object-Oriented Prediction System (OOPS) so as to be used in data assimilation and forecast experiments. It is then further trained online using a recently developed variant of weak-constraint 4D-Var. The results show that the pre-trained neural network already provides a reliable model error correction, which translates into reduced forecast errors in many conditions and that the online training further improves the accuracy of the hybrid model in many conditions.
翻訳日:2024-03-07 14:52:40 公開日:2024-03-06
# テストケースミューテーションによるRESTful APIのセキュリティテスト

Security Testing of RESTful APIs With Test Case Mutation ( http://arxiv.org/abs/2403.03701v1 )

ライセンス: Link先を確認
Sebastien Salva and Jarod Sue(参考訳) 本稿では、RESTful APIのセキュリティテストを自動化することに焦点を当てる。 この種のコンポーネントのテスト段階は、しばしば手動で行われるが、これは長くて難しい活動だと考えられている。 本稿では,各サービスを独立して実験するためのテストケースを生成するための自動化手法を提案する。 このアプローチは、オリジナルのテストケースセットから新しいテストケースを自動的に生成するテストケース突然変異の概念に基づいている。 テストケース変異オペレータは、可能な障害を模倣したり、テスト中のコンポーネントを新たなインタラクションでテストするために、わずかなテストケース変更を実行します。 本稿では、restful apiのテストケース変異演算子を調べ、セキュリティテストに特化した17のオペレータを定義する。 次に,本テストケース変異アルゴリズムを提案する。 我々は、その効果と性能を4つのwebサービス構成で評価する。

The focus of this paper is on automating the security testing of RESTful APIs. The testing stage of this specific kind of components is often performed manually, and this is yet considered as a long and difficult activity. This paper proposes an automated approach to help developers generate test cases for experimenting with each service in isolation. This approach is based upon the notion of test case mutation, which automatically generates new test cases from an original test case set. Test case mutation operators perform slight test case modifications to mimic possible failures or to test the component under test with new interactions. In this paper, we examine test case mutation operators for RESTful APIs and define 17 operators specialised in security testing. Then, we present our test case mutation algorithm. We evaluate its effectiveness and performance on four web service compositions.
翻訳日:2024-03-07 14:52:18 公開日:2024-03-06
# 分散インフラストラクチャにおけるモデル並列性:理論からLLM事例研究への文献レビュー

Model Parallelism on Distributed Infrastructure: A Literature Review from Theory to LLM Case-Studies ( http://arxiv.org/abs/2403.03699v1 )

ライセンス: Link先を確認
Felix Brakel, Uraz Odyurt, Ana-Lucia Varbanescu(参考訳) ニューラルネットワークは機械学習の基盤となっている。 これらの傾向がますます複雑化するにつれ、トレーニングとデプロイメントのための基盤となるハードウェアとソフトウェアインフラストラクチャもさらに複雑になっていきます。 本研究では,「モデル並列化にはどのような種類が存在するのか」,「モデル並列化の課題は何か」,「モデル並列化の現代的なユースケースは何か?」という3つの研究課題に回答する。 ニューラルネットワークがどのように並列化され、利用可能な次元を探索しながら演算子グラフとして表現できるかを見て、最初の疑問に答える。 ニューラルネットワークを並列化できる範囲は、オペレータ内とオペレータ間である。 第2の質問は、並列処理のタイプに対する実装上の課題と演算子グラフを最適に分割する問題の両方を収集し、リストアップすることで答える。 最後の質問は、現在の数十億のパラメータートランスフォーマーネットワークにおいて並列性がどのように適用されているかを収集し、リストアップすることで答える。

Neural networks have become a cornerstone of machine learning. As the trend for these to get more and more complex continues, so does the underlying hardware and software infrastructure for training and deployment. In this survey we answer three research questions: "What types of model parallelism exist?", "What are the challenges of model parallelism?", and "What is a modern use-case of model parallelism?" We answer the first question by looking at how neural networks can be parallelised and expressing these as operator graphs while exploring the available dimensions. The dimensions along which neural networks can be parallelised are intra-operator and inter-operator. We answer the second question by collecting and listing both implementation challenges for the types of parallelism, as well as the problem of optimally partitioning the operator graph. We answer the last question by collecting and listing how parallelism is applied in modern multi-billion parameter transformer networks, to the extend that this is possible with the limited information shared about these networks.
翻訳日:2024-03-07 14:52:06 公開日:2024-03-06
# enot: 神経最適輸送の高速かつ正確な訓練のための期待正規化

ENOT: Expectile Regularization for Fast and Accurate Training of Neural Optimal Transport ( http://arxiv.org/abs/2403.03777v1 )

ライセンス: Link先を確認
Nazar Buzun, Maksim Bobrin, Dmitry V. Dylov(参考訳) 共役電位の特定正規化による最適輸送計画の正確かつ効率的に推定が可能なニューラル最適輸送(NOT)訓練手順の新たな拡張を提案する。 既存の not ソルバの主なボトルネックは、共役作用素(すなわち c-変換)のほぼ実効近似を見つける手順に関係しており、これは最大目標を最適化するか、初期近似予測の計算集約的な微調整によって行われる。 両問題を、学習双対ポテンシャルの結合条件を強制する期待正規化という形で、理論上正当化された新たな損失を提案することによって解決する。 このような正規化は、可能な共役ポテンシャルの分布に関する上限推定を提供し、学習を安定させ、さらなる広範囲な微調整の必要性をなくす。 本手法の効率を正式に正当化し,期待レギュラライズドニューラル最適輸送(enot)と呼ぶ。 enotは、waserstein-2ベンチマークタスクにおける以前の最先端のアプローチを、大きなマージン(品質が3倍改善され、実行時の10倍改善まで)で上回っている。

We present a new extension for Neural Optimal Transport (NOT) training procedure, capable of accurately and efficiently estimating optimal transportation plan via specific regularisation on conjugate potentials. The main bottleneck of existing NOT solvers is associated with the procedure of finding a near-exact approximation of the conjugate operator (i.e., the c-transform), which is done either by optimizing over maximin objectives or by the computationally-intensive fine-tuning of the initial approximated prediction. We resolve both issues by proposing a new, theoretically justified loss in the form of expectile regularization that enforces binding conditions on the learning dual potentials. Such a regularization provides the upper bound estimation over the distribution of possible conjugate potentials and makes the learning stable, eliminating the need for additional extensive finetuning. We formally justify the efficiency of our method, called Expectile-Regularised Neural Optimal Transport (ENOT). ENOT outperforms previous state-of-the-art approaches on the Wasserstein-2 benchmark tasks by a large margin (up to a 3-fold improvement in quality and up to a 10-fold improvement in runtime).
翻訳日:2024-03-07 14:48:17 公開日:2024-03-06
# データシフトによる非現実的説明ロバスト性の検証訓練

Verified Training for Counterfactual Explanation Robustness under Data Shift ( http://arxiv.org/abs/2403.03773v1 )

ライセンス: Link先を確認
Anna P. Meyer and Yuhao Zhang and Aws Albarghouthi and Loris D'Antoni(参考訳) 対実的説明(CE)は、予測を望ましいクラスに変更するために入力にどのような変更が必要なのかを記述することによって、機械学習モデルの解釈可能性を高める。 これらの説明は一般的に、例えば、ローン申請が拒否されたユーザが将来どのようにローンを承認できるかを記述することによって、ユーザーのアクションを導くために使用される。 既存のアプローチは、単一の固定モデルに焦点を当ててCEを生成し、CEの将来的な妥当性に関する正式な保証は提供しない。 データシフトを考慮して定期的にモデルが更新される場合、生成されたCEがシフトに対して堅牢でない場合、ユーザのアクションが予測に望ましい影響を与えない可能性がある。 本稿では,分類器と説明器を協調的に訓練し,生成したCEのロバスト性をモデルシフトに明示的に考慮するVeriTraCERを提案する。 VeriTraCERは、CEのローカルモデル更新に対する確実な堅牢性を保証するために、慎重に設計された損失関数を最適化する。 我々の経験的評価は,(1)小さなモデル更新に対して確実な堅牢性を示し,(2) ランダム初期化やアウト・ワン・アウト,分散シフトといった経験的モデル更新を扱う上での最先端アプローチに対する競争力を示す。

Counterfactual explanations (CEs) enhance the interpretability of machine learning models by describing what changes to an input are necessary to change its prediction to a desired class. These explanations are commonly used to guide users' actions, e.g., by describing how a user whose loan application was denied can be approved for a loan in the future. Existing approaches generate CEs by focusing on a single, fixed model, and do not provide any formal guarantees on the CEs' future validity. When models are updated periodically to account for data shift, if the generated CEs are not robust to the shifts, users' actions may no longer have the desired impacts on their predictions. This paper introduces VeriTraCER, an approach that jointly trains a classifier and an explainer to explicitly consider the robustness of the generated CEs to small model shifts. VeriTraCER optimizes over a carefully designed loss function that ensures the verifiable robustness of CEs to local model updates, thus providing deterministic guarantees to CE validity. Our empirical evaluation demonstrates that VeriTraCER generates CEs that (1) are verifiably robust to small model updates and (2) display competitive robustness to state-of-the-art approaches in handling empirical model updates including random initialization, leave-one-out, and distribution shifts.
翻訳日:2024-03-07 14:47:56 公開日:2024-03-06
# AcceleratedLiNGAM:GPUの速度で因果DAGを学習する

AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs ( http://arxiv.org/abs/2403.03772v1 )

ライセンス: Link先を確認
Victor Akinwande, J. Zico Kolter(参考訳) 組合せ最適化や探索に基づく既存の因果探索手法は遅く、大規模なデータセットへの適用を禁止している。 より最近の手法では、因果発見を連続最適化による構造学習として定式化し、この制限に対処しようと試みているが、今のところ統計的保証は得られていない。 本稿では,既存の因果発見手法を効率的に並列化することにより,実際に数千次元まで拡張できることを示し,より大規模な問題に対して実用的であることを示す。 特に,変数数に二次的なLiNGAM法を並列化し,既存の逐次実装と比較してベンチマークデータセット上で最大32倍の高速化を実現する。 具体的には、directlingamのcausalorder subprocedureに注目し、gpuカーネルを実装して高速化します。 これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することができ、特殊な連続最適化手法と比較して競合する結果が得られる。

Existing causal discovery methods based on combinatorial optimization or search are slow, prohibiting their application on large-scale datasets. In response, more recent methods attempt to address this limitation by formulating causal discovery as structure learning with continuous optimization but such approaches thus far provide no statistical guarantees. In this paper, we show that by efficiently parallelizing existing causal discovery methods, we can in fact scale them to thousands of dimensions, making them practical for substantially larger-scale problems. In particular, we parallelize the LiNGAM method, which is quadratic in the number of variables, obtaining up to a 32-fold speed-up on benchmark datasets when compared with existing sequential implementations. Specifically, we focus on the causal ordering subprocedure in DirectLiNGAM and implement GPU kernels to accelerate it. This allows us to apply DirectLiNGAM to causal inference on large-scale gene expression data with genetic interventions yielding competitive results compared with specialized continuous optimization methods, and Var-LiNGAM for causal discovery on U.S. stock data.
翻訳日:2024-03-07 14:47:31 公開日:2024-03-06
# 重大MIMO-OTFSシステムにおける結合空間パターン学習に基づくチャネル推定

Joint Sparsity Pattern Learning Based Channel Estimation for Massive MIMO-OTFS Systems ( http://arxiv.org/abs/2403.03771v1 )

ライセンス: Link先を確認
Kuo Meng, Shaoshi Yang, Xiao-Yang Wang, Yan Bu, Yurong Tang, Jianhua Zhang, Lajos Hanzo(参考訳) マルチインプット・マルチアウトプット(MIMO)直交時間-周波数空間(OTFS)変調システムのためのジョイント・スパシティ・パターン学習(JSPL)に基づくチャネル推定手法を提案する。 遅延ドップラーアングル(dda)ドメインチャネルの潜在的ジョイントスパーシティを利用することにより、チャネル推定問題はスパースリカバリ問題に変換される。 そこで我々はまず,チャネル行列の支持セットを反復的に推定するために,スパイクとスラブの事前モデルを適用し,同定されたサポートセットに依存する高精度なパラメータ更新ルールをイテレーションに導入する。 そして、直交マッチング追従法(OMP)により、支持セットに対応するチャネル要素の特定値を推定する。 シミュレーション結果と解析の結果から,提案手法はパイロットオーバヘッドの低減に拘わらず,最先端のベースラインスキームよりも性能が向上することが示された。

We propose a channel estimation scheme based on joint sparsity pattern learning (JSPL) for massive multi-input multi-output (MIMO) orthogonal time-frequency-space (OTFS) modulation aided systems. By exploiting the potential joint sparsity of the delay-Doppler-angle (DDA) domain channel, the channel estimation problem is transformed into a sparse recovery problem. To solve it, we first apply the spike and slab prior model to iteratively estimate the support set of the channel matrix, and a higher-accuracy parameter update rule relying on the identified support set is introduced into the iteration. Then the specific values of the channel elements corresponding to the support set are estimated by the orthogonal matching pursuit (OMP) method. Both our simulation results and analysis demonstrate that the proposed JSPL channel estimation scheme achieves an improved performance over the representative state-of-the-art baseline schemes, despite its reduced pilot overhead.
翻訳日:2024-03-07 14:47:13 公開日:2024-03-06
# DeepCRE: カットエッジ計算モデルによるドラッグR&Dの革新

DeepCRE: Revolutionizing Drug R&D with Cutting-Edge Computational Models ( http://arxiv.org/abs/2403.03768v1 )

ライセンス: Link先を確認
Yushuai Wu(参考訳) 医薬品開発と治療の分野はどちらも大きな課題に直面している。 治療領域はより多くの治療法を要求され、多くの有望な前臨床薬は臨床経過で失敗する。 その原因の1つは、薬物開発後期におけるクロスドラッグ反応評価(cre)の不十分さである。 in-silico creモデルはこの問題に対する解決策を提供するが、既存の方法論は初期開発段階に限定するか、包括的なcre分析の能力に欠ける。 本稿では、DeepCREという新しい計算モデルを紹介し、DeepCREが治療の発見と開発を進展させる可能性を示す。 deepcreは、患者レベルのcreで平均17.7\%、適応レベルのcreで5倍のパフォーマンス向上を達成して、既存のベストモデルを上回る。 さらに、DeepCREは5/8大腸癌(CRC)オルガノイドの2つの承認された薬物のコンパレータセットよりもはるかに有効である6つの薬物候補を同定した。 このことは、DeepCREが優れた治療効果を持つ薬物候補の収集を識別する能力を強調し、治療開発分野に革命をもたらす可能性を強調している。

The field of pharmaceutical development and therapeutic application both face substantial challenges. Therapeutic domain calls for more treatment alternatives while numerous promising pre-clinical drugs fail in clinical trails. One of the reasons is the inadequacy of Cross-drug Response Evaluation (CRE) during the late stage of drug development. Although in-silico CRE models offer a solution to this problem, existing methodologies are either limited to early development stages or lack the capacity for a comprehensive CRE analysis. Herein, we introduce a novel computational model named DeepCRE and present the potential of DeepCRE in advancing therapeutic discovery and development. DeepCRE outperforms the existing best models by achieving an average performance improvement of 17.7\% in patient-level CRE, and a 5-fold increase in indication-level CRE. Furthermore, DeepCRE has identified six drug candidates that show significantly greater effectiveness than a comparator set of two approved drug in 5/8 colorectal cancer (CRC) organoids. This highlights DeepCRE's ability to identify a collection of drug candidates with superior therapeutic effects, underscoring its potential to revolutionize the field of therapeutic development.
翻訳日:2024-03-07 14:46:48 公開日:2024-03-06
# グラフニューラルネットワークによるサーファクタントCMCの温度依存性の予測

Predicting the Temperature Dependence of Surfactant CMCs Using Graph Neural Networks ( http://arxiv.org/abs/2403.03767v1 )

ライセンス: Link先を確認
Christoforos Brozos, Jan G. Rittig, Sandip Bhattacharya, Elie Akanny, Christina Kohlmann, Alexander Mitsos(参考訳) 界面活性剤分子の臨界ミセル濃度(cmc)は産業における界面活性剤応用に必須な性質である。 近年,深層学習手法である古典的qsprおよびグラフニューラルネットワーク(gnns)が,室温での界面活性剤のcmc予測に有効である。 しかし、これらのモデルはcmcの温度依存性をまだ考慮していない。 本稿では,界面活性剤の温度依存性CMC予測のためのGNNモデルを提案する。 イオン,非イオン,zwitterionicなどすべての界面活性剤クラスについて,複数の温度で公開ソースから約1400個のデータポイントを収集した。 モデルの予測品質を以下のシナリオでテストします。 一 モデルの訓練において、界面活性剤のcmcデータが少なくとも一つの異なる温度で存在するとき。 二 界面活性剤のcmcデータは、訓練、すなわち、未検出界面活性剤に一般化された訓練には存在しない。 どちらのテストシナリオにおいても、テストデータに対するr$^2 \geq $ 0.94の予測性能を示す。 また,モデル性能は界面活性剤クラスによって異なることがわかった。 最後に, 複雑な分子構造をもつ糖系界面活性剤のモデルの評価を行った。

The critical micelle concentration (CMC) of surfactant molecules is an essential property for surfactant applications in industry. Recently, classical QSPR and Graph Neural Networks (GNNs), a deep learning technique, have been successfully applied to predict the CMC of surfactants at room temperature. However, these models have not yet considered the temperature dependency of the CMC, which is highly relevant for practical applications. We herein develop a GNN model for temperature-dependent CMC prediction of surfactants. We collect about 1400 data points from public sources for all surfactant classes, i.e., ionic, nonionic, and zwitterionic, at multiple temperatures. We test the predictive quality of the model for following scenarios: i) when CMC data for surfactants are present in the training of the model in at least one different temperature, and ii) CMC data for surfactants are not present in the training, i.e., generalizing to unseen surfactants. In both test scenarios, our model exhibits a high predictive performance of R$^2 \geq $ 0.94 on test data. We also find that the model performance varies by surfactant class. Finally, we evaluate the model for sugar-based surfactants with complex molecular structures, as these represent a more sustainable alternative to synthetic surfactants and are therefore of great interest for future applications in the personal and home care industries.
翻訳日:2024-03-07 14:46:31 公開日:2024-03-06
# 複雑な散乱問題における光マイクロマニピュレーションとメトロジーのための最適量子状態の探索法:チュートリアル

How to find optimal quantum states for optical micromanipulation and metrology in complex scattering problems: tutorial ( http://arxiv.org/abs/2403.03766v1 )

ライセンス: Link先を確認
Lukas M. Rachbauer, Dorian Bouchet, Ulf Leonhardt, and Stefan Rotter(参考訳) 量子光と物質との相互作用は、光学学から高精度な測定まで、幅広い科学分野において非常に重要である。 ここで論じる中心的な問題は、適切に設計された光場を注入する線形散乱系において、任意の観測可能なパラメータをキャラクタリゼーションし操作するために、空間的および量子的自由度の両方を最適に利用する方法である。 本稿では,システムの散乱行列とそれに対応する局所パラメータ依存性のみから組み立てることができる量子演算子に基づく包括的枠組みについて論じる。 このことから、近接場における量子光の効果、すなわち対象物体近傍における量子光の効果を推定することができる。 この枠組みに基づいて、任意の複雑な媒体におけるパラメータ推定だけでなく、マイクロマニピュレーションのための空間形状と光の量子特性の両方を共同設計する際の最適なプロトコルを定式化する。 また、量子真空の力はこの形式から自然に生じる。 私たちのチュートリアルの目的は、異なる視点を整列させ、波の制御、量子光学、マイクロマニピュレーション、量子メトロロジー、真空物理学の異なるコミュニティを橋渡しすることである。

The interaction of quantum light with matter is of great importance to a wide range of scientific disciplines, ranging from optomechanics to high precision measurements. A central issue we discuss here, is how to make optimal use of both the spatial and the quantum degrees of freedom of light for characterizing and manipulating arbitrary observable parameters in a linear scattering system into which suitably engineered light fields are injected. Here, we discuss a comprehensive framework based on a quantum operator that can be assembled solely from the scattering matrix of a system and its dependence on the corresponding local parameter, making this operator experimentally measurable from the far-field using only classical light. From this, the effect of quantum light in the near-field, i.e., in the vicinity of the target object, can be inferred. Based on this framework, it is straightforward to formulate optimal protocols on how to jointly design both the spatial shape and the quantum characteristics of light for micromanipulation as well as for parameter estimation in arbitrarily complex media. Also the forces of the quantum vacuum naturally emerge from this formalism. The aim of our tutorial is to bring different perspectives into alignment and thereby build a bridge between the different communities of wave control, quantum optics, micromanipulation, quantum metrology and vacuum physics.
翻訳日:2024-03-07 14:46:10 公開日:2024-03-06
# パラメータ化量子コムと未知の量子ビット単位演算の逆転回路

Parameterized quantum comb and simpler circuits for reversing unknown qubit-unitary operations ( http://arxiv.org/abs/2403.03761v1 )

ライセンス: Link先を確認
Yin Mo, Lei Zhang, Yu-Ao Chen, Yingjian Liu, Tengxiang Lin, Xin Wang(参考訳) 量子コムは、量子情報処理において複雑な量子プロトコルを特徴付けるための必須のツールである。 本稿では、パラメータ化量子回路を利用したPQCombを紹介し、一般的な量子プロセス変換タスクの量子コムの能力を探究する。 未知のユニタリ進化の時間反転シミュレーションにPQCombを最適化することにより,[吉田, 添田, 村尾, PRL 131, 120602, 2023] の既存手法と比較して, アンシラキュービットオーバーヘッドを6から3に低減する,未知のユニタリ・インバージョンのための単純なプロトコルを開発した。 これは量子コム構造の有用性を示し、複雑な量子タスクを解くためのPQCombのポテンシャルを示す。 我々の結果は、量子コンピューティングと量子情報におけるより広範なPQComb応用の道を開き、量子機械学習における様々な問題に対処する汎用性を強調した。

Quantum comb is an essential tool for characterizing complex quantum protocols in quantum information processing. In this work, we introduce PQComb, a framework leveraging parameterized quantum circuits to explore the capabilities of quantum combs for general quantum process transformation tasks and beyond. By optimizing PQComb for time-reversal simulations of unknown unitary evolutions, we develop a simpler protocol for unknown qubit unitary inversion that reduces the ancilla qubit overhead from 6 to 3 compared to the existing method in [Yoshida, Soeda, Murao, PRL 131, 120602, 2023]. This demonstrates the utility of quantum comb structures and showcases PQComb's potential for solving complex quantum tasks. Our results pave the way for broader PQComb applications in quantum computing and quantum information, emphasizing its versatility for tackling diverse problems in quantum machine learning.
翻訳日:2024-03-07 14:45:46 公開日:2024-03-06
# 重力波観測における量子膨張器のコヒーレントフィードバック

Coherent feedback for quantum expander in gravitational wave observatories ( http://arxiv.org/abs/2403.03758v1 )

ライセンス: Link先を確認
Niels B\"ottner, Joe Bentley, Roman Schnabel and Mikhail Korobko(参考訳) 二元中性子星の融合による重力波の観測は、極端核物質の特性に関する洞察を与える。 しかし、kHz帯の高周波信号は、しばしば使用されるレーザー光の量子ノイズによって隠蔽される。 本稿では,検出器出力に光学キャビティを付加し,内部スクイーズ動作を特徴とする新しい検出器設計である「コヒーレントフィードバック付き量子膨張器」を提案する。 このアプローチは、高周波での感度を高めると同時に、信号抽出のためのコンパクトで調整可能な設計を提供する。 検出器の感度を特定の信号周波数範囲に調整することができる。 この設計により、高周波検出器NEMO(中性子星極端物質観測所)の感度が向上し、検出率が約15%向上することが実証された。 我々のアプローチは、高周波信号を対象とした検出器の設計において、新しいレベルの柔軟性を約束する。

The observation of gravitational waves from binary neutron star mergers offers insights into properties of extreme nuclear matter. However, their high-frequency signals in the kHz range are often masked by quantum noise of the laser light used. Here, we propose the "quantum expander with coherent feedback", a new detector design that features an additional optical cavity in the detector output and an internal squeeze operation. This approach allows to boost the sensitivity at high frequencies, at the same time providing a compact and tunable design for signal extraction. It allows to tailor the sensitivity of the detector to the specific signal frequency range. We demonstrate that our design allows to improve the sensitivity of the high-frequency detector concept NEMO (neutron star extreme matter observatory), increasing the detection rates by around 15%. Our approach promises new level of flexibility in designing the detectors aiming at high-frequency signals.
翻訳日:2024-03-07 14:45:27 公開日:2024-03-06
# 天然真菌における相対化

Relativization in naturally functorial ( http://arxiv.org/abs/2403.03755v1 )

ライセンス: Link先を確認
Jan G{\l}owacki(参考訳) 本稿では、対称性の存在下での量子計測理論から生じる相対化構成と、量子参照フレームに対する操作的アプローチにおける中心的位置の占有について、いくつかの分類学的視点を示す。 この構成は、任意の量子系に対して、システムの代数から複合系上の不変代数への量子チャネルも選択された参照を包含し、ポインタの可観測性の選択に付随する。 これらの写像は、量子参照フレームの仕様に基づいて、系上の可観測値の相対化として理解される。 まず、作用素の代数の部分空間に基づいてモデル化された系に構成を拡張し、次に、参照フレームと系からなるペアを取る関手を定義し、対応する相対化写像の像で定義される相対作用素の部分空間を割り当てる。 単一フレームと同変チャネルを考えるとき、相対化写像は自然変換として理解することができる。 システムを修正するとき、ファンクターは私たちが外部と呼ぶ新しい種類のフレーム変換を提供する。 その結果、興味の枠組みのより深い構造的理解と、その分類と代数的量子場理論の局所系への潜在的な応用が得られた。

In this note, we provide some categorical perspectives on the relativization construction arising from quantum measurement theory in the presence of symmetries and occupying a central place in the operational approach to quantum reference frames. This construction provides, for any quantum system, a quantum channel from the system's algebra to the invariant algebra on the composite system also encompassing the chosen reference, contingent upon a choice of the pointer observable. These maps are understood as relativizing observables on systems upon the specification of a quantum reference frame. We begin by extending the construction to systems modelled on subspaces of algebras of operators to then define a functor taking a pair consisting of a reference frame and a system and assigning to them a subspace of relative operators defined in terms of an image of the corresponding relativization map. When a single frame and equivariant channels are considered, the relativization maps can be understood as a natural transformation. Upon fixing a system, the functor provides a novel kind of frame transformation that we call external. Results achieved provide a deeper structural understanding of the framework of interest and point towards its categorification and potential application to local systems of algebraic quantum field theories.
翻訳日:2024-03-07 14:45:12 公開日:2024-03-06
# TrigramベースのIDEインデックスとクイックスタートアップ

Trigram-Based Persistent IDE Indices with Quick Startup ( http://arxiv.org/abs/2403.03751v1 )

ライセンス: Link先を確認
Zakhar Iakovlev, Alexey Chulkov, Nikita Golikov, Vyacheslav Lukianov, Nikita Zinoviev, Dmitry Ivanov, Vitaly Aksenov(参考訳) テキストファイルの集合内の検索操作を高速化する一般的な方法は、トリグラムインデックスである。 この構造は、単にトリグラム(3文字からなる配列)からそれを含むファイルの集合へのマップである。 パターンを検索すると、パターンのトリグラムに関連するセットをインターセプトすることにより、潜在的なファイル位置を識別する。 そして、検索はこれらのファイルでのみ実行される。 しかし、コードリポジトリでは、trigramインデックスは異なるバージョンにわたって進化します。 新バージョンをチェックアウトすると、このインデックスは通常、スクラッチから構築されますが、これは時間を要するタスクです。 そこで本研究では,全文およびキーワードパターン検索のためのトリグラムインデックスの永続バージョンについて検討する。 このアプローチでは,現在のトリグラムインデックスを使用するだけで,チェックアウト中のバージョン間の変更のみを適用して,パフォーマンスを大幅に向上する。 さらに、クラス名と関数名のCamelHump検索に対応するように、データ構造を拡張します。

One common way to speed up the find operation within a set of text files involves a trigram index. This structure is merely a map from a trigram (sequence consisting of three characters) to a set of files which contain it. When searching for a pattern, potential file locations are identified by intersecting the sets related to the trigrams in the pattern. Then, the search proceeds only in these files. However, in a code repository, the trigram index evolves across different versions. Upon checking out a new version, this index is typically built from scratch, which is a time-consuming task, while we want our index to have almost zero-time startup. Thus, we explore the persistent version of a trigram index for full-text and key word patterns search. Our approach just uses the current version of the trigram index and applies only the changes between versions during checkout, significantly enhancing performance. Furthermore, we extend our data structure to accommodate CamelHump search for class and function names.
翻訳日:2024-03-07 14:44:39 公開日:2024-03-06
# ドイツも幻覚! absinthデータセットを用いたニュース要約における不整合検出

German also Hallucinates! Inconsistency Detection in News Summaries with the Absinth Dataset ( http://arxiv.org/abs/2403.03750v1 )

ライセンス: Link先を確認
Laura Mascarell, Ribin Chalumattu, Annette Rios(参考訳) 大規模言語モデル(LLM)の出現は、幅広い自然言語処理タスクにおいて顕著な進歩をもたらした。 しかし、これらの大規模モデルは出力の幻覚的な情報に悩まされているため、生成した要約がソース文書の内容と一致していることを保証する必要があるため、自動テキスト要約において大きな問題となる。 これまでの研究では,生成した要約の忠実性を評価するために,出力中の幻覚(すなわち不一致検出)を検出するという難題に対処している。 しかし、これらの研究は主に英語に焦点を当てており、最近の多言語アプローチにはドイツ語のデータがない。 この研究は、ドイツのニュース要約における幻覚検出のための手動注釈付きデータセットであるabsinthを提示し、微調整と文脈内学習の両方において、このタスクにおける新しいオープンソースLLMの機能を探究する。 我々は,ドイツ語における幻覚検出のさらなる研究を促進するために,アブシンスデータセットをオープンソース化し,公開する。

The advent of Large Language Models (LLMs) has led to remarkable progress on a wide range of natural language processing tasks. Despite the advances, these large-sized models still suffer from hallucinating information in their output, which poses a major issue in automatic text summarization, as we must guarantee that the generated summary is consistent with the content of the source document. Previous research addresses the challenging task of detecting hallucinations in the output (i.e. inconsistency detection) in order to evaluate the faithfulness of the generated summaries. However, these works primarily focus on English and recent multilingual approaches lack German data. This work presents absinth, a manually annotated dataset for hallucination detection in German news summarization and explores the capabilities of novel open-source LLMs on this task in both fine-tuning and in-context learning settings. We open-source and release the absinth dataset to foster further research on hallucination detection in German.
翻訳日:2024-03-07 14:44:11 公開日:2024-03-06
# 医療用大規模言語モデルの構築に向けて

Towards Safe and Aligned Large Language Models for Medicine ( http://arxiv.org/abs/2403.03744v1 )

ライセンス: Link先を確認
Tessa Han, Aounon Kumar, Chirag Agarwal, Himabindu Lakkaraju(参考訳) 大規模言語モデル(llm)の能力は、息をのむようなスピードで進歩しており、開発者でさえその可能性とリスクの深さに満足している。 一般知識 LLM の安全性と整合性を評価するための最初の段階が取られたが、医療 LLM の安全性と整合性は、個人の健康と安全、公衆衛生と安全、人権のリスクにもかかわらず評価されていない。 この目的のために,我々は医療用llmの安全性評価を初めて実施する。 具体的には,医療用人工知能システムにおける医療安全とアライメントの定義,llmの医療安全とアライメントを評価するための有害な医療質問のデータセットの開発,医用llmの一般および医療安全とアライメントの評価,効果的な緩和戦略としての微調整の実証,安全でアライメントされたllmを開発するために機械学習コミュニティが使用する広範な大規模アプローチについて論じる。 本研究は、医療用LSMの安全性と整合性に光を当て、今後の研究を動機付け、医学におけるLSMの害のリスクを最小限に抑えて、さらなる緩和戦略を開発することを願っている。

The capabilities of large language models (LLMs) have been progressing at a breathtaking speed, leaving even their own developers grappling with the depth of their potential and risks. While initial steps have been taken to evaluate the safety and alignment of general-knowledge LLMs, exposing some weaknesses, to our knowledge, the safety and alignment of medical LLMs has not been evaluated despite their risks for personal health and safety, public health and safety, and human rights. To this end, we carry out the first safety evaluation for medical LLMs. Specifically, we set forth a definition of medical safety and alignment for medical artificial intelligence systems, develop a dataset of harmful medical questions to evaluate the medical safety and alignment of an LLM, evaluate both general and medical safety and alignment of medical LLMs, demonstrate fine-tuning as an effective mitigation strategy, and discuss broader, large-scale approaches used by the machine learning community to develop safe and aligned LLMs. We hope that this work casts light on the safety and alignment of medical LLMs and motivates future work to study it and develop additional mitigation strategies, minimizing the risks of harm of LLMs in medicine.
翻訳日:2024-03-07 14:43:43 公開日:2024-03-06
# SUPClust: 境界におけるアクティブラーニング

SUPClust: Active Learning at the Boundaries ( http://arxiv.org/abs/2403.03741v1 )

ライセンス: Link先を確認
Yuta Ono, Till Aczel, Benjamin Estermann, Roger Wattenhofer(参考訳) アクティブラーニング(Active Learning)は、ラベル付きデータが取得にコストがかかる環境でモデルパフォーマンスを最適化するために設計された機械学習パラダイムである。 そこで本研究では,クラス間の決定境界の点を特定するために,supclustと呼ばれる新しいアクティブラーニング手法を提案する。 これらのポイントをターゲットとすることで、supclustは、複雑な決定領域に対するモデルの予測を洗練するのに最も有用な情報を集めることを目指している。 これらの点のラベル付けが強力なモデル性能をもたらすことを実験的に実証する。 この改善は、強いクラス不均衡を特徴とするシナリオでも観察される。

Active learning is a machine learning paradigm designed to optimize model performance in a setting where labeled data is expensive to acquire. In this work, we propose a novel active learning method called SUPClust that seeks to identify points at the decision boundary between classes. By targeting these points, SUPClust aims to gather information that is most informative for refining the model's prediction of complex decision regions. We demonstrate experimentally that labeling these points leads to strong model performance. This improvement is observed even in scenarios characterized by strong class imbalance.
翻訳日:2024-03-07 14:43:04 公開日:2024-03-06
# 自己監督型画像レイアウト表現学習

Self-supervised Photographic Image Layout Representation Learning ( http://arxiv.org/abs/2403.03740v1 )

ライセンス: Link先を確認
Zhaoran Zhao, Peng Lu, Xujun Peng, Wenhao Guo(参考訳) 画像レイアウト表現学習の領域では、画像のレイアウトを簡潔なベクトル形式に変換する重要なプロセスが、画像検索、操作、生成などの様々なアプリケーションでますます重要になっている。 この領域のほとんどのアプローチは、高価なラベル付きデータセットに大きく依存しており、特にモデリングと学習の方法が写真画像レイアウトの特定のニュアンスに適応できない。 この欠点は、写真画像レイアウトの学習過程を最適以下にする。 本研究では,これらの課題に対処する。 我々は、様々なレベルのレイアウト情報をカプセル化する基本的なレイアウトプリミティブを定義し、それらを相互接続とともに不均一なグラフ構造にマッピングすることで革新する。 このグラフは、ピクセル領域内の複雑なレイアウト情報を明示的にキャプチャするために慎重に設計されている。 さらに,これらレイアウトグラフの効果的な自己教師付き学習のために戦略的に設計された,カスタマイズされた損失関数と組み合わされた新しいプリテキストタスクを導入する。 この基盤に基づいて,不均質なレイアウトグラフを高精度で次元的に縮小したレイアウト表現に圧縮できる自動エンコーダベースのネットワークアーキテクチャを開発した。 さらに,幅広いレイアウトカテゴリとよりリッチなセマンティクスを特徴とするlodbデータセットを導入し,レイアウト表現学習手法の有効性を評価するための総合ベンチマークとして機能する。 このデータセットに対する広範な実験は、写真画像レイアウト表現学習の領域における我々のアプローチの優れた性能を示すものである。

In the domain of image layout representation learning, the critical process of translating image layouts into succinct vector forms is increasingly significant across diverse applications, such as image retrieval, manipulation, and generation. Most approaches in this area heavily rely on costly labeled datasets and notably lack in adapting their modeling and learning methods to the specific nuances of photographic image layouts. This shortfall makes the learning process for photographic image layouts suboptimal. In our research, we directly address these challenges. We innovate by defining basic layout primitives that encapsulate various levels of layout information and by mapping these, along with their interconnections, onto a heterogeneous graph structure. This graph is meticulously engineered to capture the intricate layout information within the pixel domain explicitly. Advancing further, we introduce novel pretext tasks coupled with customized loss functions, strategically designed for effective self-supervised learning of these layout graphs. Building on this foundation, we develop an autoencoder-based network architecture skilled in compressing these heterogeneous layout graphs into precise, dimensionally-reduced layout representations. Additionally, we introduce the LODB dataset, which features a broader range of layout categories and richer semantics, serving as a comprehensive benchmark for evaluating the effectiveness of layout representation learning methods. Our extensive experimentation on this dataset demonstrates the superior performance of our approach in the realm of photographic image layout representation learning.
翻訳日:2024-03-07 14:42:50 公開日:2024-03-06
# 目標分散低減:雑音パラメータを持つブラックボックスシミュレータのロバストベイズ最適化

Targeted Variance Reduction: Robust Bayesian Optimization of Black-Box Simulators with Noise Parameters ( http://arxiv.org/abs/2403.03816v1 )

ライセンス: Link先を確認
John Joshua Miller, Simon Mak(参考訳) 制御パラメータ $\mathbf{x}$ 上のブラックボックスシミュレータの最適化は、数多くの科学応用において生じる。 そのようなアプリケーションでは、シミュレータは $f(\mathbf{x},\boldsymbol{\theta})$ という形式を取ることが多く、$\boldsymbol{\theta}$ は実際には不確実なパラメータである。 ロバスト最適化は目的の $\mathbb{E}[f(\mathbf{x},\boldsymbol{\Theta})]$ を最適化することを目的としており、$\boldsymbol{\Theta} \sim \mathcal{P}$ は $\boldsymbol{\theta}$ 上で不確実性をモデル化するランダム変数である。 このために、既存のブラックボックス法は、通常、次の点 $(\mathbf{x},\boldsymbol{\theta})$ を選択するために2段階のアプローチを採用し、ここで$\mathbf{x}$ と $\boldsymbol{\theta}$ は異なる取得関数によって別々に最適化される。 したがって、これらのアプローチは$(\mathbf{x},\boldsymbol{\theta})$以上の共同獲得を採用せず、効率的なロバスト最適化のために制御-雑音相互作用を完全に活用できない可能性がある。 そこで本稿では,Targeted Variance Reduction (TVR) と呼ばれるベイズ最適化手法を提案する。 TVR は $(\mathbf{x},\boldsymbol{\theta})$ よりも新しい共同獲得関数を利用しており、これは改善の望ましい領域における目的に対する分散還元を目標としている。 f$ のガウス過程の下では、tvr の買収は閉じた形で評価することができ、ロバストなブラックボックス最適化のための洞察に富んだ探索・探索・予測トレードオフを明らかにすることができる。 TVRはさらに、正規化フローの注意深い積分により$\mathcal{P}$上のガウス分布の幅広いクラスを許容することができる。 数値実験によるTVRの性能向上と運転不確実性を考慮した自動車ブレーキディスクのロバスト設計への応用について述べる。

The optimization of a black-box simulator over control parameters $\mathbf{x}$ arises in a myriad of scientific applications. In such applications, the simulator often takes the form $f(\mathbf{x},\boldsymbol{\theta})$, where $\boldsymbol{\theta}$ are parameters that are uncertain in practice. Robust optimization aims to optimize the objective $\mathbb{E}[f(\mathbf{x},\boldsymbol{\Theta})]$, where $\boldsymbol{\Theta} \sim \mathcal{P}$ is a random variable that models uncertainty on $\boldsymbol{\theta}$. For this, existing black-box methods typically employ a two-stage approach for selecting the next point $(\mathbf{x},\boldsymbol{\theta})$, where $\mathbf{x}$ and $\boldsymbol{\theta}$ are optimized separately via different acquisition functions. As such, these approaches do not employ a joint acquisition over $(\mathbf{x},\boldsymbol{\theta})$, and thus may fail to fully exploit control-to-noise interactions for effective robust optimization. To address this, we propose a new Bayesian optimization method called Targeted Variance Reduction (TVR). The TVR leverages a novel joint acquisition function over $(\mathbf{x},\boldsymbol{\theta})$, which targets variance reduction on the objective within the desired region of improvement. Under a Gaussian process surrogate on $f$, the TVR acquisition can be evaluated in closed form, and reveals an insightful exploration-exploitation-precision trade-off for robust black-box optimization. The TVR can further accommodate a broad class of non-Gaussian distributions on $\mathcal{P}$ via a careful integration of normalizing flows. We demonstrate the improved performance of TVR over the state-of-the-art in a suite of numerical experiments and an application to the robust design of automobile brake discs under operational uncertainty.
翻訳日:2024-03-07 14:38:47 公開日:2024-03-06
# MultiQを用いた大規模言語モデルの初等多言語機能評価

Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ ( http://arxiv.org/abs/2403.03814v1 )

ライセンス: Link先を確認
Carolin Holtermann, Paul R\"ottger, Timm Dill, Anne Lauscher(参考訳) 大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。 しかし、今日のほとんどのLLM、特にオープンなLLMは、英語(Llama2、Mistralなど)や、少数の高リソース言語(Mixtral、Qwenなど)での使用を意図していることが多い。 近年の研究では、意図した使用範囲が限られているにもかかわらず、多くの言語でLSMを促すことが示されている。 そこで,本稿では,最先端のオープン LLM の多言語的機能について検討する。 そこで本研究では,MultiQを提案する。MultiQは,137言語を対象とした27.4kのテスト質問に回答する,オープンエンド質問のための銀標準ベンチマークである。 また,MultiQでは,モデルが入力言語に応答するかどうか,質問応答精度を評価した。 私たちがテストするすべてのLLMは、意図した使用以上の、少なくともいくつかの言語に対して忠実かつ正確に応答します。 ほとんどのモデルは、忠実に反応するとより正確です。 しかし、モデル間の差異は大きいため、モデルが正確でも忠実でもない言語には長い尾がある。 トークン化の相違を発見の潜在的な説明として検討し,さらなる調査の必要となる相関関係を特定した。

Large language models (LLMs) need to serve everyone, including a global majority of non-English speakers. However, most LLMs today, and open LLMs in particular, are often intended for use in just English (e.g. Llama2, Mistral) or a small handful of high-resource languages (e.g. Mixtral, Qwen). Recent research shows that, despite limits in their intended use, people prompt LLMs in many different languages. Therefore, in this paper, we investigate the basic multilingual capabilities of state-of-the-art open LLMs beyond their intended use. For this purpose, we introduce MultiQ, a new silver standard benchmark for basic open-ended question answering with 27.4k test questions across a typologically diverse set of 137 languages. With MultiQ, we evaluate language fidelity, i.e.\ whether models respond in the prompted language, and question answering accuracy. All LLMs we test respond faithfully and/or accurately for at least some languages beyond their intended use. Most models are more accurate when they respond faithfully. However, differences across models are large, and there is a long tail of languages where models are neither accurate nor faithful. We explore differences in tokenization as a potential explanation for our findings, identifying possible correlations that warrant further investigation.
翻訳日:2024-03-07 14:38:07 公開日:2024-03-06
# ProbSAINT: 使用済み自動車価格の確率的タブラル回帰

ProbSAINT: Probabilistic Tabular Regression for Used Car Pricing ( http://arxiv.org/abs/2403.03812v1 )

ライセンス: Link先を確認
Kiran Madhusudhanan, Gunnar Behrens, Maximilian Stubbemann, Lars Schmidt-Thieme(参考訳) 自動車の価格設定は、多くの経済要因と市場のダイナミクスの影響を受けて、自動車産業の重要な側面である。 最近のオンラインマーケットプレイスの増加と中古車需要の増加により、正確な価格設定は、公正な取引を確保することで、買い手と売り手の両方に利益をもたらすだろう。 しかし、機械学習を用いた自動価格アルゴリズムへの移行は、モデルの不確実性、特にモデルが確信できない予測をフラグする能力を理解する必要がある。 最近の文献では、迅速な価格予測と正確な価格予測のために、アルゴリズムの強化や近隣のアプローチが提案されているが、そのようなアルゴリズムでモデルの不確かさをカプセル化することは複雑な課題である。 probsaintは,価格予測の不確実性定量化のための原理的アプローチと,最先端のブースティング技術に匹敵する正確なポイント予測を提供するモデルである。 さらに、販売予定日数に基づいて中古車価格が好まれていることを認識し、提案期間の異なる価格予測モデルとしてprobsaintをどのように使用できるかを示す。 我々の実験は、probsaintが極めて確実である場合に特に正確であることを示している。 これは、信頼性が不可欠である現実世界のシナリオにおける確率的予測の適用性を証明する。

Used car pricing is a critical aspect of the automotive industry, influenced by many economic factors and market dynamics. With the recent surge in online marketplaces and increased demand for used cars, accurate pricing would benefit both buyers and sellers by ensuring fair transactions. However, the transition towards automated pricing algorithms using machine learning necessitates the comprehension of model uncertainties, specifically the ability to flag predictions that the model is unsure about. Although recent literature proposes the use of boosting algorithms or nearest neighbor-based approaches for swift and precise price predictions, encapsulating model uncertainties with such algorithms presents a complex challenge. We introduce ProbSAINT, a model that offers a principled approach for uncertainty quantification of its price predictions, along with accurate point predictions that are comparable to state-of-the-art boosting techniques. Furthermore, acknowledging that the business prefers pricing used cars based on the number of days the vehicle was listed for sale, we show how ProbSAINT can be used as a dynamic forecasting model for predicting price probabilities for different expected offer duration. Our experiments further indicate that ProbSAINT is especially accurate on instances where it is highly certain. This proves the applicability of its probabilistic predictions in real-world scenarios where trustworthiness is crucial.
翻訳日:2024-03-07 14:37:45 公開日:2024-03-06
# バンディットゲームにおけるインセンティブ学習

Incentivized Learning in Principal-Agent Bandit Games ( http://arxiv.org/abs/2403.03811v1 )

ライセンス: Link先を確認
Antoine Scheid, Daniil Tiapkin, Etienne Boursier, Aymeric Capitaine, El Mahdi El Mhamdi, Eric Moulines, Michael I. Jordan, Alain Durmus(参考訳) この作品では、プリンシパルがエージェントを通して彼女の環境とのみやりとりできる、反復的なプリンシパルエージェント・バンディットゲームを考える。 プリンシパルとエージェントはミスアライメント目的を持ち、アクションの選択はエージェントにのみ委ねられる。 しかし、校長は報酬を補うインセンティブを提供することでエージェントの決定に影響を与えることができる。 校長は、自身のトータルユーティリティを最大化するために、インセンティブポリシーを反復的に学習することを目指している。 この枠組みは通常のバンディット問題を拡張し、伝統的なメカニズム設計理論が問題の学習の側面を見落としている医療や生態税など、いくつかの実用的な応用によって動機づけられている。 我々は,マルチアームとリニアコンテクスト設定の両方において,校長の後悔に対してほぼ最適(ホライズン$t$)の学習アルゴリズムを提案する。 最後に,数値実験を通じて理論的保証を支持する。

This work considers a repeated principal-agent bandit game, where the principal can only interact with her environment through the agent. The principal and the agent have misaligned objectives and the choice of action is only left to the agent. However, the principal can influence the agent's decisions by offering incentives which add up to his rewards. The principal aims to iteratively learn an incentive policy to maximize her own total utility. This framework extends usual bandit problems and is motivated by several practical applications, such as healthcare or ecological taxation, where traditionally used mechanism design theories often overlook the learning aspect of the problem. We present nearly optimal (with respect to a horizon $T$) learning algorithms for the principal's regret in both multi-armed and linear contextual settings. Finally, we support our theoretical guarantees through numerical experiments.
翻訳日:2024-03-07 14:37:23 公開日:2024-03-06
# ツール選択のための信頼度対応意思決定と制御

Confidence-Aware Decision-Making and Control for Tool Selection ( http://arxiv.org/abs/2403.03808v1 )

ライセンス: Link先を確認
Ajith Anil Meera and Pablo Lanillos(参考訳) タスクを行う前にパフォーマンス(例えば、どれだけ自信があるか)を自己反映することは、最も適切なツールの選択や、運転する最良のルートの選択など、意思決定に不可欠です。 私たちのパフォーマンスやメタ認知能力について考えるというこの種の認識は、人間にはよく知られているが、ロボットにはこの認知能力がない。 この反射モニタリングは、その具体的決定力、堅牢性、安全性を高めることができる。 そこで本研究では,ロボットが自己自信を制御し,より良いインフォームド決定を行う数学的枠組みを導入することにより,この方向への一歩を踏み出す。 動的システムの制御信頼度(つまり制御作用の後方逆共分散)を制御するための数学的閉形式表現を導出する。 このコントロールの信頼性は、意思決定のための客観的機能にシームレスに統合されます。 一 タスク完了のための性能 二 管理努力、及び 三 自己自信 ツール選択問題では,エージェントが特定の制御タスクに最適なロボットアームを選択する必要がある。 ランダム化2dofアームを用いた数値シミュレーションの統計的解析により,ツール選択時の制御信頼度は実作業性能と非モデル化摂動(外部力など)下での性能の信頼性を両立することが示された。 さらに,制御信頼度が性能の早期指標であることが示唆され,計算能力の制限や意思決定の難しさを判断するためのヒューリスティックとして利用することができる。 全体として,動的システムに対する信頼性を考慮した意思決定・制御方式の利点を示す。

Self-reflecting about our performance (e.g., how confident we are) before doing a task is essential for decision making, such as selecting the most suitable tool or choosing the best route to drive. While this form of awareness -- thinking about our performance or metacognitive performance -- is well-known in humans, robots still lack this cognitive ability. This reflective monitoring can enhance their embodied decision power, robustness and safety. Here, we take a step in this direction by introducing a mathematical framework that allows robots to use their control self-confidence to make better-informed decisions. We derive a mathematical closed-form expression for control confidence for dynamic systems (i.e., the posterior inverse covariance of the control action). This control confidence seamlessly integrates within an objective function for decision making, that balances the: i) performance for task completion, ii) control effort, and iii) self-confidence. To evaluate our theoretical account, we framed the decision-making within the tool selection problem, where the agent has to select the best robot arm for a particular control task. The statistical analysis of the numerical simulations with randomized 2DOF arms shows that using control confidence during tool selection improves both real task performance, and the reliability of the tool for performance under unmodelled perturbations (e.g., external forces). Furthermore, our results indicate that control confidence is an early indicator of performance and thus, it can be used as a heuristic for making decisions when computation power is restricted or decision-making is intractable. Overall, we show the advantages of using confidence-aware decision-making and control scheme for dynamic systems.
翻訳日:2024-03-07 14:37:09 公開日:2024-03-06
# 視覚・赤外線マーカーとマルチペイロードカメラを用いた高精度ドローン着陸システム

A Precision Drone Landing System using Visual and IR Fiducial Markers and a Multi-Payload Camera ( http://arxiv.org/abs/2403.03806v1 )

ライセンス: Link先を確認
Joshua Springer, Gylfi {\TH}\'or Gu{\dh}mundsson, Marcel Kyas(参考訳) 本研究では,広角,ズーム,赤外線センサを備えたジンバル搭載マルチペイロードカメラとフィデューシャルマーカーを用いた自律精密ドローン着陸法を提案する。 この方法は、主にドローンから着陸パッドへの方向に依存するため、カメラの異なるセンサーとズームファクターを動的に切り替えることができ、補助センサーの要求を最小限に抑えることができる。 地上高度、着陸台への直線距離、フィデューシャルマーカーのサイズ、および6つのDoFマーカーのポーズ(その方向が問題である)などのデータを必要としない。 ズームカメラと広角カメラと視覚エイプリルタグのfiducial markersを利用して、これまでの作業(水平168m、高度102m)よりもずっと長い距離から正確な着陸に成功した。 従来の単純なIRビーコンの代わりに、夜間と夜間の両方に正確な着陸を行うために、IRスペクトル(アクティブとパッシブ)に2種類のエイプリルタグを使用する。 アクティブIRランディングパッドは加熱され、新しい受動パッドは、周囲の温度で非力であり、高い反射率と地上と空の間の赤外線差に依存する。 最後に,着陸パッドの初期探索と,失われた場合は後続の探索を管理するための高レベル制御ポリシーを提案する。 この方法は、少なくとも着陸パッドに触れて着陸に成功し、平均誤差は0.19mである。 また、着陸台が一時的にあいまいになったときの回収と着陸も成功している。

We propose a method for autonomous precision drone landing with fiducial markers and a gimbal-mounted, multi-payload camera with wide-angle, zoom, and IR sensors. The method has minimal data requirements; it depends primarily on the direction from the drone to the landing pad, enabling it to switch dynamically between the camera's different sensors and zoom factors, and minimizing auxiliary sensor requirements. It eliminates the need for data such as altitude above ground level, straight-line distance to the landing pad, fiducial marker size, and 6 DoF marker pose (of which the orientation is problematic). We leverage the zoom and wide-angle cameras, as well as visual April Tag fiducial markers to conduct successful precision landings from much longer distances than in previous work (168m horizontal distance, 102m altitude). We use two types of April Tags in the IR spectrum - active and passive - for precision landing both at daytime and nighttime, instead of simple IR beacons used in most previous work. The active IR landing pad is heated; the novel, passive one is unpowered, at ambient temperature, and depends on its high reflectivity and an IR differential between the ground and the sky. Finally, we propose a high-level control policy to manage initial search for the landing pad and subsequent searches if it is lost - not addressed in previous work. The method demonstrates successful landings with the landing skids at least touching the landing pad, achieving an average error of 0.19m. It also demonstrates successful recovery and landing when the landing pad is temporarily obscured.
翻訳日:2024-03-07 14:36:41 公開日:2024-03-06
# neural exec: プロンプトインジェクション攻撃のための実行トリガの学習(と学習)

Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks ( http://arxiv.org/abs/2403.03792v1 )

ライセンス: Link先を確認
Dario Pasquini, Martin Strohmeier, and Carmela Troncoso(参考訳) 我々はニューラルエクセルと呼ばれる新しいインジェクション攻撃のファミリーを導入する。 手作りの文字列に依存する既知の攻撃(例えば "ignore previous instructions and..." など)とは異なり、実行トリガーの作成を微分可能な検索問題として概念化し、学習ベースの手法で自動生成することが可能であることを示す。 以上の結果から,現在の手工芸品よりもはるかに効果的であるだけでなく,形状,特性,機能に固有の柔軟性を示すトリガが,モチベーションに富むことが示唆された。 この方向において、攻撃者は、Retrieval-Augmented Generation (RAG)ベースのアプリケーションのように、マルチステージ前処理パイプラインを通して持続可能なNeural Execを設計、生成できることを示す。 さらに重要なことは、攻撃者は既存のブラックリストに基づく検知と衛生アプローチを横取りして、既知の攻撃から形や形を逸脱するトリガーを生成できるということです。

We introduce a new family of prompt injection attacks, termed Neural Exec. Unlike known attacks that rely on handcrafted strings (e.g., "Ignore previous instructions and..."), we show that it is possible to conceptualize the creation of execution triggers as a differentiable search problem and use learning-based methods to autonomously generate them. Our results demonstrate that a motivated adversary can forge triggers that are not only drastically more effective than current handcrafted ones but also exhibit inherent flexibility in shape, properties, and functionality. In this direction, we show that an attacker can design and generate Neural Execs capable of persisting through multi-stage preprocessing pipelines, such as in the case of Retrieval-Augmented Generation (RAG)-based applications. More critically, our findings show that attackers can produce triggers that deviate markedly in form and shape from any known attack, sidestepping existing blacklist-based detection and sanitation approaches.
翻訳日:2024-03-07 14:36:16 公開日:2024-03-06
# KG-TREAT:知識グラフを用いた患者データ同期による治療効果推定のための事前トレーニング

KG-TREAT: Pre-training for Treatment Effect Estimation by Synergizing Patient Data with Knowledge Graphs ( http://arxiv.org/abs/2403.03791v1 )

ライセンス: Link先を確認
Ruoqi Liu, Lingfei Wu, Ping Zhang(参考訳) 治療効果推定 (TEE) は、様々な治療が患者に与える影響を判定するタスクである。 現在のTEE法は, 限られたラベル付きデータへの依存と, スパースおよび高次元の患者データによる課題により, 不足している。 これらの課題に対処するため,我々は,生物医学知識グラフ(KGs)と大規模観察患者データを相乗化してTEEを強化する,新しい事前学習・微調整フレームワークKG-TREATを導入する。 従来のアプローチとは異なり、KG-TREATは二重焦点KGを構築し、深部情報融合のための深部二段階の注意相乗法を統合し、処理-共変量および結果-共変量関係の符号化を可能にする。 KG-TREATはまた、患者のデータとKGの徹底的な基盤化とコンテキスト化を確保するために、2つの事前訓練タスクも組み込んでいる。 4つの下流TEEタスクの評価は、既存の方法よりもKG-TREATの方が優れており、ROC曲線(AUC)下のエリアでは平均7%改善し、機能に基づく不均質効果の推定精度(IF-PEHE)は9%向上した。 また, 既往のランダム化臨床試験結果と一致させることで, 治療効果が評価された。

Treatment effect estimation (TEE) is the task of determining the impact of various treatments on patient outcomes. Current TEE methods fall short due to reliance on limited labeled data and challenges posed by sparse and high-dimensional observational patient data. To address the challenges, we introduce a novel pre-training and fine-tuning framework, KG-TREAT, which synergizes large-scale observational patient data with biomedical knowledge graphs (KGs) to enhance TEE. Unlike previous approaches, KG-TREAT constructs dual-focus KGs and integrates a deep bi-level attention synergy method for in-depth information fusion, enabling distinct encoding of treatment-covariate and outcome-covariate relationships. KG-TREAT also incorporates two pre-training tasks to ensure a thorough grounding and contextualization of patient data and KGs. Evaluation on four downstream TEE tasks shows KG-TREAT's superiority over existing methods, with an average improvement of 7% in Area under the ROC Curve (AUC) and 9% in Influence Function-based Precision of Estimating Heterogeneous Effects (IF-PEHE). The effectiveness of our estimated treatment effects is further affirmed by alignment with established randomized clinical trial findings.
翻訳日:2024-03-07 14:35:57 公開日:2024-03-06
# Popeye: リモートセンシング画像からのマルチソース船舶検出のための統一ビジュアル言語モデル

Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery ( http://arxiv.org/abs/2403.03790v1 )

ライセンス: Link先を確認
Wei Zhang, Miaoxin Cai, Tong Zhang, Guoqiang Lei, Yin Zhuang and Xuerui Mao(参考訳) 船舶検知は、リモートセンシング(RS)シーンから船の位置を特定する必要がある。 しかし、異なる画像ペイロード、様々な船の外観、鳥の視線からの複雑な背景干渉のため、マルチソース船の検出を実現するための統一的なパラダイムを確立することは困難である。 そこで,本稿では,大規模言語モデル (LLM) が強力な一般化能力を持つことを考慮し,RS画像から多ソース船舶を検出するために,Popyeと呼ばれる新しい統一視覚言語モデルを提案する。 まず、船舶検出のための多元画像間の解釈ギャップを埋めるため、様々な船舶検出方法(例えば、水平境界ボックス(hbb)、指向境界ボックス(obb))を統一ラベリングパラダイムに統合する、新しいイメージインストラクション・アンサー方式が考案された。 そこで,提案するpopeyeのクロスモーダル画像解釈法を考案し,視覚コンテンツと言語コンテンツの対話的理解能力を高め,任意の多元船検出タスクに容易に移行できるようにする。 その後、客観的な領域差により、自然界から学習済みの視覚言語知識をRSドメインに適応させ、マルチソースの船舶検出を行うための知識適応機構が設計される。 さらに、セグメンテーション・アズ・モデル(SAM)は、追加の訓練コストなしでピクセルレベルの船のセグメンテーションを実現するために提案されたポーピエにシームレスに統合される。 最後に, MMShip と命名された命令データセットについて広範な実験を行い, この結果から, 提案したPopye は, ゼロショットマルチソース船舶検出のための現在のスペシャリスト, オープン語彙, その他の視覚言語モデルよりも優れていることが示された。

Ship detection needs to identify ship locations from remote sensing (RS) scenes. However, due to different imaging payloads, various appearances of ships, and complicated background interference from the bird's eye view, it is difficult to set up a unified paradigm for achieving multi-source ship detection. Therefore, in this article, considering that the large language models (LLMs) emerge the powerful generalization ability, a novel unified visual-language model called Popeye is proposed for multi-source ship detection from RS imagery. First, to bridge the interpretation gap between multi-source images for ship detection, a novel image-instruction-answer way is designed to integrate the various ship detection ways (e.g., horizontal bounding box (HBB), oriented bounding box (OBB)) into a unified labeling paradigm. Then, in view of this, a cross-modal image interpretation method is developed for the proposed Popeye to enhance interactive comprehension ability between visual and language content, which can be easily migrated into any multi-source ship detection task. Subsequently, owing to objective domain differences, a knowledge adaption mechanism is designed to adapt the pre-trained visual-language knowledge from the nature scene into the RS domain for multi-source ship detection. In addition, the segment anything model (SAM) is also seamlessly integrated into the proposed Popeye to achieve pixel-level ship segmentation without additional training costs. Finally, extensive experiments are conducted on the newly constructed instruction dataset named MMShip, and the results indicate that the proposed Popeye outperforms current specialist, open-vocabulary, and other visual-language models for zero-shot multi-source ship detection.
翻訳日:2024-03-07 14:35:31 公開日:2024-03-06
# PPTC-Rベンチマーク:PowerPointタスク完了のための大規模言語モデルのロバスト性評価に向けて

PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion ( http://arxiv.org/abs/2403.03788v1 )

ライセンス: Link先を確認
Zekai Zhang, Yiduo Guo, Yaobo Liang, Dongyan Zhao, Nan Duan(参考訳) ユーザインストラクションの完了に対するLLM(Large Language Models)への依存度の増加は、現実の状況における複雑なタスク完了に対する堅牢性に対する包括的理解を必要とする。 そこで我々は,ユーザpptタスク命令とソフトウェアバージョンに対するllmsのロバスト性を測定するために,powerpoint task completion robustness benchmark (pptc-r)を提案する。 具体的には,文,意味,多言語レベルでのユーザ指示を攻撃することにより,敵対的ユーザ指示を構築する。 ソフトウェアバージョンに対する言語モデルの堅牢性を評価するため、最新のバージョンと以前のバージョン設定の両方をシミュレートするために提供されるAPIの数を変える。 その後、これらの堅牢性設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストし、LCMのAPI呼び出しがタスク完了にどう影響するかを評価する。 GPT-4はベンチマークにおいて,特にバージョン更新や多言語設定において,最高のパフォーマンスと堅牢性を示す。 しかし、複数の課題(例えば、マルチターン)に同時に直面すると、全てのLLMがロバスト性を失い、パフォーマンスが大幅に低下する。 さらに,LLMの強靭性挙動と誤り原因をベンチマークで分析し,LLMのタスク完了における堅牢性を理解し,より堅牢なLLMやエージェントを開発するための貴重な知見を提供する。 コードとデータは \url{https://github.com/ZekaiGalaxy/PPTCR} で公開しています。

The growing dependence on Large Language Models (LLMs) for finishing user instructions necessitates a comprehensive understanding of their robustness to complex task completion in real-world situations. To address this critical need, we propose the PowerPoint Task Completion Robustness benchmark (PPTC-R) to measure LLMs' robustness to the user PPT task instruction and software version. Specifically, we construct adversarial user instructions by attacking user instructions at sentence, semantic, and multi-language levels. To assess the robustness of Language Models to software versions, we vary the number of provided APIs to simulate both the newest version and earlier version settings. Subsequently, we test 3 closed-source and 4 open-source LLMs using a benchmark that incorporates these robustness settings, aiming to evaluate how deviations impact LLMs' API calls for task completion. We find that GPT-4 exhibits the highest performance and strong robustness in our benchmark, particularly in the version update and the multilingual settings. However, we find that all LLMs lose their robustness when confronted with multiple challenges (e.g., multi-turn) simultaneously, leading to significant performance drops. We further analyze the robustness behavior and error reasons of LLMs in our benchmark, which provide valuable insights for researchers to understand the LLM's robustness in task completion and develop more robust LLMs and agents. We release the code and data at \url{https://github.com/ZekaiGalaxy/PPTCR}.
翻訳日:2024-03-07 14:34:59 公開日:2024-03-06
# シュレーディンガー猫量子状態を用いた所定の位相シフトの検出

Using Schroedinger cat quantum state for detection of a given phase shift ( http://arxiv.org/abs/2403.03787v1 )

ライセンス: Link先を確認
V. L. Gorshenin, F. Ya. Khalili(参考訳) Shroedinger cat の量子状態において準備された光パルスを2本腕干渉計の暗いポートと強い古典的な光を明るいポートに注入することで、原理上、所定の位相シフトを不明瞭に検出できることを示す。 この位相シフトの値は、古典キャリア状態とシュレッディンガーキャット状態の両方の振幅に逆比例する。 しかし、この目的にはエキゾチックな検出手順が必要である。 出力ダークポートの光子数を測定することにより、消失する「偽陽性」確率で位相シフトを検出することができる。 この場合の"false negative"確率は、schroedinger cat状態の振幅の増加とともに減少し、この振幅の妥当な値の場合、約0.1程度小さくすることができる。

We show that injecting a light pulse prepared in the Shroedinger cat quantum state into the dark port of a two-arm interferometer and the strong classical light into the bright one, it is possible, in principle, to detect a given phase shift unambiguously. The value of this phase shift is inversely proportional to the amplitudes of both the classical carrier and Shroedinger cat state. However, an exotic detection procedure is required for this purpose. By measuring the number of photons at the output dark port, it is possible to detect the phase shift with the vanishing "false positive" probability. The "false negative" probability in this case decreases with the increase on the amplitude of the Schroedinger cat state and, for reasonable values of this amplitude, can be made as small as about 0.1.
翻訳日:2024-03-07 14:34:32 公開日:2024-03-06
# クレジットデフォルト予測に対処する機械学習ワークフロー

A machine learning workflow to address credit default prediction ( http://arxiv.org/abs/2403.03785v1 )

ライセンス: Link先を確認
Rambod Rahmani, Marco Parola, and Mario G.C.A. Cimino(参考訳) 近年、金融技術(FinTech)への関心が高まっているため、信用デフォルト予測(CDP)のような応用が産業や学術的な注目を集めている。 この点において、CDPは個人・企業の信用度を評価する上で重要な役割を担い、貸し手はローン承認やリスク管理に関する情報決定を行うことができる。 本稿では,借り手が信用義務を負う確率を評価する作業として,CDPを改善するワークフローベースの手法を提案する。 ワークフローは複数のステップで構成され、それぞれが機械学習パイプラインで特徴付けられるさまざまなテクニックの強みを活用するように設計されている。 我々は,エビデンスエンコーディングの重みを用いたデータプリプロセッシングから始まって,包括的かつ体系的なアプローチを採用する。この手法は,異常値の除去や値不足の処理,異なるデータ型を扱うモデルに対するデータの均一化による,単発データスケールの保証を行う。 次に,より堅牢なモデルを構築するためのアンサンブル手法と,多目的遺伝的アルゴリズムによるハイパーパラメータ最適化を導入して,予測精度と財務面の両方を考慮する。 本研究は、FinTech業界への貢献を目標とし、より正確で信頼性の高い信用リスク評価に向けたツールを提供し、貸し手と借り手の両方に恩恵を与える。

Due to the recent increase in interest in Financial Technology (FinTech), applications like credit default prediction (CDP) are gaining significant industrial and academic attention. In this regard, CDP plays a crucial role in assessing the creditworthiness of individuals and businesses, enabling lenders to make informed decisions regarding loan approvals and risk management. In this paper, we propose a workflow-based approach to improve CDP, which refers to the task of assessing the probability that a borrower will default on his or her credit obligations. The workflow consists of multiple steps, each designed to leverage the strengths of different techniques featured in machine learning pipelines and, thus best solve the CDP task. We employ a comprehensive and systematic approach starting with data preprocessing using Weight of Evidence encoding, a technique that ensures in a single-shot data scaling by removing outliers, handling missing values, and making data uniform for models working with different data types. Next, we train several families of learning models, introducing ensemble techniques to build more robust models and hyperparameter optimization via multi-objective genetic algorithms to consider both predictive accuracy and financial aspects. Our research aims at contributing to the FinTech industry in providing a tool to move toward more accurate and reliable credit risk assessment, benefiting both lenders and borrowers.
翻訳日:2024-03-07 14:34:18 公開日:2024-03-06
# particle swarmとant colony optimizationを用いたニューラルアーキテクチャ探索

Neural Architecture Search using Particle Swarm and Ant Colony Optimization ( http://arxiv.org/abs/2403.03781v1 )

ライセンス: Link先を確認
S\'eamus Lankford and Diarmuid Grimes(参考訳) ニューラルネットワークモデルには多数のハイパーパラメータがあり、アーキテクチャに合わせて選択する必要がある。 これは初心者ユーザにとって大きな負担となり、どのアーキテクチャとパラメータに割り当てるべき値を選択することになる。 ほとんどの場合、デフォルトのハイパーパラメータとアーキテクチャが使用される。 モデル精度の大幅な改善は、複数のアーキテクチャの評価によって達成できる。 ニューラルアーキテクチャサーチ(NAS)と呼ばれるプロセスを適用することで、そのようなアーキテクチャの多くを自動的に評価することができる。 この研究の一環として,画像の分類において,OpenNAS(Neural Architecture Search)のオープンソースツールを統合するシステムを開発した。 OpenNASは、グレースケールまたはRBGイメージのデータセットを取り、AutoKeras、転送学習、Swarm Intelligence(SI)アプローチのいずれかを使用して、さまざまなメタヒューリスティックに基づいて、畳み込みニューラルネットワーク(CNN)アーキテクチャを生成する。 SIアルゴリズムは、Particle Swarm Optimization (PSO) と Ant Colony Optimization (ACO) が用いられる。 さらに、そのようなメタヒューリスティックスによって開発されたモデルは、積み重ねアンサンブルを使って組み合わせることができる。 本稿では,OpenNASのSwarm Intelligence (SI)コンポーネントを用いたCNNのトレーニングと最適化に焦点を当てる。 PSOとACOの2種類のSIアルゴリズムを比較し、より高いモデル精度を生成するのにどのアルゴリズムがより効果的かを調べる。 実験設計により, psoアルゴリズムの性能はacoよりも優れていることが示された。 PSOの性能改善は、より複雑なデータセットで最も顕著である。 ベースラインとして,微調整事前学習モデルの性能評価を行った。

Neural network models have a number of hyperparameters that must be chosen along with their architecture. This can be a heavy burden on a novice user, choosing which architecture and what values to assign to parameters. In most cases, default hyperparameters and architectures are used. Significant improvements to model accuracy can be achieved through the evaluation of multiple architectures. A process known as Neural Architecture Search (NAS) may be applied to automatically evaluate a large number of such architectures. A system integrating open source tools for Neural Architecture Search (OpenNAS), in the classification of images, has been developed as part of this research. OpenNAS takes any dataset of grayscale, or RBG images, and generates Convolutional Neural Network (CNN) architectures based on a range of metaheuristics using either an AutoKeras, a transfer learning or a Swarm Intelligence (SI) approach. Particle Swarm Optimization (PSO) and Ant Colony Optimization (ACO) are used as the SI algorithms. Furthermore, models developed through such metaheuristics may be combined using stacking ensembles. In the context of this paper, we focus on training and optimizing CNNs using the Swarm Intelligence (SI) components of OpenNAS. Two major types of SI algorithms, namely PSO and ACO, are compared to see which is more effective in generating higher model accuracies. It is shown, with our experimental design, that the PSO algorithm performs better than ACO. The performance improvement of PSO is most notable with a more complex dataset. As a baseline, the performance of fine-tuned pre-trained models is also evaluated.
翻訳日:2024-03-07 14:33:52 公開日:2024-03-06
# 抜け穴のないベルの不等式違反はローカルリアリズムを否定できない

Loophole-free Bell inequality violations cannot disprove local realism ( http://arxiv.org/abs/2403.03780v1 )

ライセンス: Link先を確認
F. De Zela(参考訳) 20世紀のほぼ30年間、物理学界は、ジョン・フォン・ノイマンが局所実数論、隠れ変数理論によって量子力学を完成させることができないことを証明したと信じていた。 グレーテ・ヘルマンはフォン・ノイマンの証明に強く反対したが、彼女はほとんど無視された。 この状況は、フォン・ノイマンの証明が欠陥があることをジョン・ベルが再発見するまで続いた: 局所現実主義に対する「emph{sufficient}」条件は「emph{necessary}」条件とされていた。 その後ベルは、実験実験に提出できる不等式という形で、隠れ変数理論の様々な制約を確立した。 これまで行われたすべてのテストは、いくつかの抜け穴を開けた。 彼らを閉鎖しようとする試みは、大きな技術的成果と、すでに到達したことを改善するための継続的な努力を動機づけた。 しかしベルの不等式に関してはかなり皮肉な点がある。 それらを引き出したベルは、あたかも必要であったかのように、地方現実主義に十分な条件を採った。 その結果、完全な抜け穴のないベルの不等式違反であっても、ローカルリアリズムを否定することはない。 ベルの不等式は局所現実主義だけでは従えない。 この証明はベルの不等式違反を伴う3つの局所現実主義モデルを構築することで与えられる。

For almost three decades in the twentieth century, the physics community believed that John von Neumann had proved the impossibility of completing quantum mechanics by a local realist, hidden-variables theory. Although Grete Hermann had raised strong objections to von Neumann's proof, she was largely ignored. This situation lasted, until John Bell rediscovered that von Neumann's proof was flawed: a \emph{sufficient} condition for local realism had been taken as a \emph{necessary} one. Bell subsequently established various constraints on hidden-variables theories, in the form of inequalities that can be submitted to experimental test. All performed tests to date have opened some loopholes. The quest to close them motivated great technical achievements and ongoing efforts to improve what has already been reached. There is, however, a rather ironic twist concerning Bell inequalities. On deriving them, Bell also took a sufficient condition for local-realism, as if it were a necessary one. As a consequence, even completely loophole-free Bell inequality violations would not disprove local realism. We argue that Bell inequalities cannot follow from local-realism alone. The proof is given by constructing three local-realist models that entail Bell inequality violations.
翻訳日:2024-03-07 14:33:29 公開日:2024-03-06
# 2光子非線形効果を持つ高周波共振器

High-Impedance Microwave Resonators with Two-Photon Nonlinear Effects ( http://arxiv.org/abs/2403.03779v1 )

ライセンス: Link先を確認
S. Andersson, H. Havir, A. Ranni, S. Haldar, V. F. Maisi(参考訳) 本稿では,ジョセフソン接合を用いた高インピーダンス共振器の実験的検討を行う。 共振器を1つの接合のみを効果的に構成する限界にすることで、共鳴モードの高いインピーダンスを維持しながら、第2光子に対して既に強い非線形効果をもたらす。 実験では、個々の共振器光子と共振器光子から他の量子系への強い相互作用を持つ共振器を導出する。 また、様々な多光子光学過程をエネルギー保存線に沿って測定、同定、分析できるエネルギーダイアグラム技術を提案する。

In this article, we present an experimental study of a Josephson junction -based high-impedance resonator. By taking the resonator to the limit of consisting effectively only of one junction, results in strong non-linear effects already for the second photon while maintaining a high impedance of the resonance mode. Our experiment yields thus resonators with the strong interactions both between individual resonator photons and from the resonator photons to other electric quantum systems. We also present an energy diagram technique which enables to measure, identify and analyse different multi-photon optics processes along their energy conservation lines.
翻訳日:2024-03-07 14:33:10 公開日:2024-03-06
# スコアベース拡散モデルの収束の促進, 実現可能

Accelerating Convergence of Score-Based Diffusion Models, Provably ( http://arxiv.org/abs/2403.03852v1 )

ライセンス: Link先を確認
Gen Li, Yu Huang, Timofey Efimov, Yuting Wei, Yuejie Chi, Yuxin Chen(参考訳) スコアベース拡散モデルは、顕著な経験的性能を達成する一方で、サンプリングフェーズで必要とされる広範な機能評価のために、サンプリング速度の低下に悩まされることが多い。 近年, 拡散生成モデリングの高速化に向けた活動が盛んに行われているが, 加速技術の理論的基盤は極めて限られている。 本稿では,一般的な決定論的(DDIM)および確率的(DDPM)サンプリングを高速化する,新しい学習自由アルゴリズムを設計する。 我々の加速式決定型サンプリング器はO(1/{T}^2)$とT$で収束し、DDIMサンプル器のO(1/T)$レートを改善し、加速式確率型サンプリング器はO(1/T)$で収束し、DDPMサンプル器のO(1/\sqrt{T})$より優れる。 アルゴリズムの設計は高次近似からの洞察を利用しており、DPM-Solver-2のような高次ODE解法と同様の直観を共有している。 我々の理論は、$\ell_2$-accurate score estimatesを許容し、ターゲット分布に対数凹凸や滑らかさを必要としない。

Score-based diffusion models, while achieving remarkable empirical performance, often suffer from low sampling speed, due to extensive function evaluations needed during the sampling phase. Despite a flurry of recent activities towards speeding up diffusion generative modeling in practice, theoretical underpinnings for acceleration techniques remain severely limited. In this paper, we design novel training-free algorithms to accelerate popular deterministic (i.e., DDIM) and stochastic (i.e., DDPM) samplers. Our accelerated deterministic sampler converges at a rate $O(1/{T}^2)$ with $T$ the number of steps, improving upon the $O(1/T)$ rate for the DDIM sampler; and our accelerated stochastic sampler converges at a rate $O(1/T)$, outperforming the rate $O(1/\sqrt{T})$ for the DDPM sampler. The design of our algorithms leverages insights from higher-order approximation, and shares similar intuitions as popular high-order ODE solvers like the DPM-Solver-2. Our theory accommodates $\ell_2$-accurate score estimates, and does not require log-concavity or smoothness on the target distribution.
翻訳日:2024-03-07 14:24:27 公開日:2024-03-06
# 楕円集合による多次元時系列の等角予測

Conformal prediction for multi-dimensional time series by ellipsoidal sets ( http://arxiv.org/abs/2403.03850v1 )

ライセンス: Link先を確認
Chen Xu, Hanyang Jiang, Yao Xie(参考訳) 共形予測(cp)は分布のない、モデル非依存、理論的に健全であるため、不確実性定量化の一般的な方法である。 教師あり学習における予測問題に対して、ほとんどのCP手法は単変量応答の予測区間の構築に重点を置いている。 本研究では,多変量応答の予測領域を構築する$\texttt{multidimspci}$と呼ばれる逐次cp法を開発した。 理論的には、条件付きカバレッジギャップの有限サンプル高確率境界を推定する。 実証的に、$\texttt{MultiDimSPCI}$は、CPや非CPのベースラインよりも小さな予測領域を生成しながら、幅広い多変量時系列の有効なカバレッジを維持している。

Conformal prediction (CP) has been a popular method for uncertainty quantification because it is distribution-free, model-agnostic, and theoretically sound. For forecasting problems in supervised learning, most CP methods focus on building prediction intervals for univariate responses. In this work, we develop a sequential CP method called $\texttt{MultiDimSPCI}$ that builds prediction regions for a multivariate response, especially in the context of multivariate time series, which are not exchangeable. Theoretically, we estimate finite-sample high-probability bounds on the conditional coverage gap. Empirically, we demonstrate that $\texttt{MultiDimSPCI}$ maintains valid coverage on a wide range of multivariate time series while producing smaller prediction regions than CP and non-CP baselines.
翻訳日:2024-03-07 14:24:02 公開日:2024-03-06
# MedMamba:医療画像分類のためのビジョン・マンバ

MedMamba: Vision Mamba for Medical Image Classification ( http://arxiv.org/abs/2403.03849v1 )

ライセンス: Link先を確認
Yubiao Yue, Zhenzhang Li(参考訳) 医療画像分類はコンピュータビジョンの分野で非常に基本的かつ重要な課題である。 近年,様々な医用画像の分類にcnnモデルとトランスフォーマモデルが広く用いられている。 残念ながら、長距離モデリング能力におけるcnnの限界は、医療画像のきめ細かい特徴を効果的に抽出することを妨げるが、トランスフォーマーは二次計算の複雑さによって妨げられている。 近年の研究では、mambaに代表される状態空間モデル(ssm)が線形計算複雑性を維持しつつ、長距離相互作用を効率的にモデル化できることが示されている。 そこで我々は,医療画像分類(MedMamba)のためのVision Mambaを提案する。 具体的には,畳み込み層の局所的な特徴抽出能力とssmが長距離依存性を捉える能力を組み合わせた,新しいconv-ssmモジュールを提案する。 medmambaの可能性を示すために,画像技術(kvasir (endoscopic images) ,fetal_planes_db (ultrasound images) およびcovid-19-pneumonia-normal chest x-ray (x-ray images) の3つの公開医療データセットと,自分たちが構築した2つのプライベートデータセットを用いて,広範な実験を行った。 実験の結果,MedMambaは種々の医用画像の病変の検出に有効であった。 私たちの知る限りでは、医療画像分類に適したVision Mambaはこれが初めてです。 本研究の目的は、医用画像分類タスクの新たなベースラインを確立し、より効率的で効率的なSSMベースの人工知能アルゴリズムと医療応用システムの開発に有用な洞察を提供することである。 ソースコードはhttps://github.com/YubiaoYue/MedMamba.comで公開されている。

Medical image classification is a very fundamental and crucial task in the field of computer vision. These years, CNN-based and Transformer-based models are widely used in classifying various medical images. Unfortunately, The limitation of CNNs in long-range modeling capabilities prevent them from effectively extracting fine-grained features in medical images , while Transformers are hampered by their quadratic computational complexity. Recent research has shown that the state space model (SSM) represented by Mamba can efficiently model long-range interactions while maintaining linear computational complexity. Inspired by this, we propose Vision Mamba for medical image classification (MedMamba). More specifically, we introduce a novel Conv-SSM module, which combines the local feature extraction ability of convolutional layers with the ability of SSM to capture long-range dependency. To demonstrate the potential of MedMamba, we conduct extensive experiments using three publicly available medical datasets with different imaging techniques (i.e., Kvasir (endoscopic images), FETAL_PLANES_DB (ultrasound images) and Covid19-Pneumonia-Normal Chest X-Ray (X-ray images)) and two private datasets built by ourselves. Experimental results show that the proposed MedMamba performs well in detecting lesions in various medical images. To the best of our knowledge, this is the first Vision Mamba tailored for medical image classification. The purpose of this work is to establish a new baseline for medical image classification tasks and provide valuable insights for the future development of more efficient and effective SSM-based artificial intelligence algorithms and application systems in the medical. Source code has been available at https://github.com/YubiaoYue/MedMamba.
翻訳日:2024-03-07 14:23:46 公開日:2024-03-06
# 強化学習による3次元空間のデキサス脚移動

Dexterous Legged Locomotion in Confined 3D Spaces with Reinforcement Learning ( http://arxiv.org/abs/2403.03848v1 )

ライセンス: Link先を確認
Zifan Xu, Amir Hossain Raj, Xuesu Xiao, and Peter Stone(参考訳) 近年の深部強化学習(RL)を利用した移動制御装置の進歩は,岩盤,非剛性地盤,すべり面などの困難な地形を横断する急速かつ頑健な移動を実現する上で,顕著な成果を上げている。 しかし、これらのコントローラーはロボットの下の課題に主に対処するが、狭いトンネルや不規則なヴォイドのような狭い3D空間を通して足の移動性を調べる研究はほとんどない。 速度や体高などの運動パラメータを特徴とするパラメータ化ロコモーションスキルを学習するための既存のRL法から得られた循環歩行パターンは、アジャイルな3D障害物回避と頑健な足歩行の両方を必要とする、困難な3D空間を通してロボットをナビゲートするのに適さない可能性がある。 代わりに,3次元空間におけるゴール指向ナビゲーションからエンドツーエンドでロコモーションスキルを学ぶことを提案する。 遠距離航法目標追跡の非効率性に対処するため,遠距離目標地点に到達するための計画立案を行う古典的プランナーと,低レベル動作指令を生成することでこれらの経路指示に従うように訓練されたRLベースのポリシーを組み合わせる。 このアプローチにより、ポリシーはソリューション空間全体において独自のロコモーションスキルを探求し、ローカル目標間のスムーズな移行を促進し、遠方目標への長期的なナビゲーションを可能にする。 シミュレーションでは、我々の階層的アプローチは制限された3D環境をナビゲートすることに成功し、純粋なエンドツーエンド学習アプローチとパラメータ化された運動スキルの両方を上回ります。 さらに,シミュレーション学習したコントローラの実際のロボットへの実環境展開を実証する。

Recent advances of locomotion controllers utilizing deep reinforcement learning (RL) have yielded impressive results in terms of achieving rapid and robust locomotion across challenging terrain, such as rugged rocks, non-rigid ground, and slippery surfaces. However, while these controllers primarily address challenges underneath the robot, relatively little research has investigated legged mobility through confined 3D spaces, such as narrow tunnels or irregular voids, which impose all-around constraints. The cyclic gait patterns resulted from existing RL-based methods to learn parameterized locomotion skills characterized by motion parameters, such as velocity and body height, may not be adequate to navigate robots through challenging confined 3D spaces, requiring both agile 3D obstacle avoidance and robust legged locomotion. Instead, we propose to learn locomotion skills end-to-end from goal-oriented navigation in confined 3D spaces. To address the inefficiency of tracking distant navigation goals, we introduce a hierarchical locomotion controller that combines a classical planner tasked with planning waypoints to reach a faraway global goal location, and an RL-based policy trained to follow these waypoints by generating low-level motion commands. This approach allows the policy to explore its own locomotion skills within the entire solution space and facilitates smooth transitions between local goals, enabling long-term navigation towards distant goals. In simulation, our hierarchical approach succeeds at navigating through demanding confined 3D environments, outperforming both pure end-to-end learning approaches and parameterized locomotion skills. We further demonstrate the successful real-world deployment of our simulation-trained controller on a real robot.
翻訳日:2024-03-07 14:23:16 公開日:2024-03-06
# プレトレーニングエンコーダにおけるバックドアの消毒効果について

On the Effectiveness of Distillation in Mitigating Backdoors in Pre-trained Encoder ( http://arxiv.org/abs/2403.03846v1 )

ライセンス: Link先を確認
Tingxu Han, Shenghan Huang, Ziqi Ding, Weisong Sun, Yebo Feng, Chunrong Fang, Jun Li, Hanwei Qian, Cong Wu, Quanjun Zhang, Yang Liu and Zhenyu Chen(参考訳) 本稿では,sslにおける有毒エンコーダ(有毒エンコーダ)に対する蒸留(distillation)と呼ばれる防御について検討する。 蒸留は、与えられたモデル(教師網)から知識を蒸留し、別のモデル(生徒網)に移すことを目的としている。 そして今、この技術を使って、有毒な事前訓練エンコーダから良質な知識を抽出し、それを新しいエンコーダに転送し、クリーンな事前訓練エンコーダを作り出す。 特に,有毒エンコーダに対する蒸留の有効性と性能に関する実証的研究を行った。 従来の2つのバックドア攻撃と4つの画像分類データセットを用いて, 蒸留は精度6.35%の損失を被ったまま, 80.87%から27.51%に低下することを示した。 さらに, 蒸留の核となる3成分が, 教師ネット, 学生ネット, 蒸留損失に与える影響について検討した。 4つの異なる教師ネット,3つの学生ネット,6つの蒸留損失を比較することで,教師ネット,ウォームアップ学習ベースの学生ネット,注意に基づく蒸留損失がそれぞれ最高であることがわかった。

In this paper, we study a defense against poisoned encoders in SSL called distillation, which is a defense used in supervised learning originally. Distillation aims to distill knowledge from a given model (a.k.a the teacher net) and transfer it to another (a.k.a the student net). Now, we use it to distill benign knowledge from poisoned pre-trained encoders and transfer it to a new encoder, resulting in a clean pre-trained encoder. In particular, we conduct an empirical study on the effectiveness and performance of distillation against poisoned encoders. Using two state-of-the-art backdoor attacks against pre-trained image encoders and four commonly used image classification datasets, our experimental results show that distillation can reduce attack success rate from 80.87% to 27.51% while suffering a 6.35% loss in accuracy. Moreover, we investigate the impact of three core components of distillation on performance: teacher net, student net, and distillation loss. By comparing 4 different teacher nets, 3 student nets, and 6 distillation losses, we find that fine-tuned teacher nets, warm-up-training-based student nets, and attention-based distillation loss perform best, respectively.
翻訳日:2024-03-07 14:22:44 公開日:2024-03-06
# 深層系列生成学習としての特徴選択

Feature Selection as Deep Sequential Generative Learning ( http://arxiv.org/abs/2403.03838v1 )

ライセンス: Link先を確認
Wangyang Ying, Dongjie Wang, Haifeng Chen, Yanjie Fu(参考訳) 特徴選択は、最もパターンを識別する特徴サブセットを特定することを目的としている。 以前の文献では、フィルタ(例えば後方消去)と埋め込み(例えばlasso)のメソッドはハイパーパラメータ(例えばtop-k、スコアしきい値)を持ち、特定のモデルと結びつくため一般化が困難である。 特徴選択の仕方を変えるために,選択された特徴サブセットを選択決定トークンシーケンスとみなし,特徴選択を特徴知識を蒸留し決定シーケンスを生成する深い逐次生成学習タスクとして再編成する。 本手法は,(1)逐次再構成,変分,および性能評価器の損失のジョイント上に深い変分変圧器モデルを構築すること,の3つのステップを含む。 本モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連する埋め込みベクトルにマッピングする。 2) 最適化された機能サブセットユーティリティ評価器を勾配プロバイダとして利用して,最適な機能サブセットの埋め込みの識別を誘導する; 3) 最適な機能サブセットの埋め込みをデコードして自動回帰的に最適な機能選択決定シーケンスをオートストップで生成する。 広汎な実験結果から、この生成的視点は、大きな離散探索空間と専門家固有のハイパーパラメータなしで有効かつ汎用的であることが示された。

Feature selection aims to identify the most pattern-discriminative feature subset. In prior literature, filter (e.g., backward elimination) and embedded (e.g., Lasso) methods have hyperparameters (e.g., top-K, score thresholding) and tie to specific models, thus, hard to generalize; wrapper methods search a feature subset in a huge discrete space and is computationally costly. To transform the way of feature selection, we regard a selected feature subset as a selection decision token sequence and reformulate feature selection as a deep sequential generative learning task that distills feature knowledge and generates decision sequences. Our method includes three steps: (1) We develop a deep variational transformer model over a joint of sequential reconstruction, variational, and performance evaluator losses. Our model can distill feature selection knowledge and learn a continuous embedding space to map feature selection decision sequences into embedding vectors associated with utility scores. (2) We leverage the trained feature subset utility evaluator as a gradient provider to guide the identification of the optimal feature subset embedding;(3) We decode the optimal feature subset embedding to autoregressively generate the best feature selection decision sequence with autostop. Extensive experimental results show this generative perspective is effective and generic, without large discrete search space and expert-specific hyperparameters.
翻訳日:2024-03-07 14:22:20 公開日:2024-03-06
# Cobweb: ヒューマンライクなカテゴリー学習のインクリメンタルで階層的なモデル

Cobweb: An Incremental and Hierarchical Model of Human-Like Category Learning ( http://arxiv.org/abs/2403.03835v1 )

ライセンス: Link先を確認
Xin Lian, Sashank Varma, Christopher J. MacLellan(参考訳) カテゴリー学習システムであるCobwebは、カテゴリユーティリティー尺度を用いて階層的に整理された認知木のような構造を構築する際に、他の漸進的な分類モデルとは異なる。 以前の研究では、コブウェブは基本的なレベル、典型性、ファン効果などの心理的効果を捉えることができることが示されている。 しかし、人間の分類のモデルとしてのcobwebは広く評価されていない。 現在の研究はこのギャップに対処している。 古典的人間カテゴリー学習効果とcobwebの連携を確立している。 また、cobwebの柔軟性を探求し、1つのモデルで学習するように、exemplarとprototypeの両方を示す。 これらの知見は、人間のカテゴリー学習の包括的モデルとしてのcobwebに関する今後の研究の舞台となった。

Cobweb, a human like category learning system, differs from other incremental categorization models in constructing hierarchically organized cognitive tree-like structures using the category utility measure. Prior studies have shown that Cobweb can capture psychological effects such as the basic level, typicality, and fan effects. However, a broader evaluation of Cobweb as a model of human categorization remains lacking. The current study addresses this gap. It establishes Cobweb's alignment with classical human category learning effects. It also explores Cobweb's flexibility to exhibit both exemplar and prototype like learning within a single model. These findings set the stage for future research on Cobweb as a comprehensive model of human category learning.
翻訳日:2024-03-07 14:21:55 公開日:2024-03-06
# デバイスはあなた自身よりもあなたをよく知っているかもしれない -- 機械学習を用いた新しいデータセット上での継続的認証

Your device may know you better than you know yourself -- continuous authentication on novel dataset using machine learning ( http://arxiv.org/abs/2403.03832v1 )

ライセンス: Link先を確認
Pedro Gomes do Nascimento, Pidge Witiak, Tucker MacCallum, Zachary Winterfeldt, Rushit Dave(参考訳) 本研究は,行動バイオメトリックスを用いた連続認証分野のさらなる理解を目的とする。 われわれは、Samsung TabletでMinecraftをプレイする15人のユーザのジェスチャーデータを含む、新しいデータセットを15分間提供しています。 このデータセットを利用して,ランダムフォレスト (rf) である機械学習 (ml) バイナリ分類器,k-nearest neighbors (knn) および support vector classifier (svc) を用いて,特定のユーザアクションの真正性を決定する。 私たちの最も堅牢なモデルはSVCで、平均精度は約90%に達し、タッチダイナミクスがユーザを効果的に区別できることを示しました。 しかし、認証システムに有効な選択肢を与えるためには、さらなる研究が必要である。

This research aims to further understanding in the field of continuous authentication using behavioral biometrics. We are contributing a novel dataset that encompasses the gesture data of 15 users playing Minecraft with a Samsung Tablet, each for a duration of 15 minutes. Utilizing this dataset, we employed machine learning (ML) binary classifiers, being Random Forest (RF), K-Nearest Neighbors (KNN), and Support Vector Classifier (SVC), to determine the authenticity of specific user actions. Our most robust model was SVC, which achieved an average accuracy of approximately 90%, demonstrating that touch dynamics can effectively distinguish users. However, further studies are needed to make it viable option for authentication systems
翻訳日:2024-03-07 14:21:43 公開日:2024-03-06
# クリックからセキュリティ:マウスダイナミクスによる継続的認証の調査

From Clicks to Security: Investigating Continuous Authentication via Mouse Dynamics ( http://arxiv.org/abs/2403.03828v1 )

ライセンス: Link先を確認
Rushit Dave, Marcho Handoko, Ali Rashid, Cole Schoenbauer(参考訳) コンピュータセキュリティの分野では、効率的で信頼性の高いユーザ認証手法の重要性がますます重要になっている。 本稿では,連続認証のための一貫した指標としてマウス運動力学の可能性を検討する。 ユーザマウスの動作パターンを「チームフォートレスト」と「ポリブリッジ」の2つのコントラストゲームシナリオで分析することにより,高度かつ低強度のuiインタラクションに固有の特徴的行動パターンについて検討した。 この研究は、さまざまな機械学習モデルを用いることで、従来の方法論を越えている。 これらのモデルは、マウスの動きに反映されたユーザ行動の微妙さを捉え、解釈する上での有効性を評価するために慎重に選択される。 この多面的アプローチは、ユーザインタラクションパターンをより微妙で包括的な理解を可能にする。 この結果から,マウスの動作動態が連続的ユーザ認証の信頼性指標となることがわかった。 本研究で用いられている多種多様な機械学習モデルは, ユーザ検証における有能な性能を示し, この分野における従来の手法よりも向上したことを示す。 本研究は,コンピュータセキュリティ向上への継続的な取り組みに寄与し,堅牢な認証システム開発においてユーザ動作,特にマウスダイナミクスを活用する可能性を強調している。

In the realm of computer security, the importance of efficient and reliable user authentication methods has become increasingly critical. This paper examines the potential of mouse movement dynamics as a consistent metric for continuous authentication. By analyzing user mouse movement patterns in two contrasting gaming scenarios, "Team Fortress" and Poly Bridge we investigate the distinctive behavioral patterns inherent in high-intensity and low-intensity UI interactions. The study extends beyond conventional methodologies by employing a range of machine learning models. These models are carefully selected to assess their effectiveness in capturing and interpreting the subtleties of user behavior as reflected in their mouse movements. This multifaceted approach allows for a more nuanced and comprehensive understanding of user interaction patterns. Our findings reveal that mouse movement dynamics can serve as a reliable indicator for continuous user authentication. The diverse machine learning models employed in this study demonstrate competent performance in user verification, marking an improvement over previous methods used in this field. This research contributes to the ongoing efforts to enhance computer security and highlights the potential of leveraging user behavior, specifically mouse dynamics, in developing robust authentication systems.
翻訳日:2024-03-07 14:21:27 公開日:2024-03-06
# L-BFGS-Bによる$\ell_1$-およびgroup-Lasso正規化の下での線形および非線形システム同定

Linear and nonlinear system identification under $\ell_1$- and group-Lasso regularization via L-BFGS-B ( http://arxiv.org/abs/2403.03827v1 )

ライセンス: Link先を確認
Alberto Bemporad(参考訳) 本稿では,L-BFGS-Bアルゴリズムに基づいて,線形および非線形離散時間状態空間モデル($\ell_1$-およびgroup-Lasso正規化)を同定する手法を提案する。 線形モデルの同定のために、古典線形部分空間法と比較して、このアプローチはよくより良い結果をもたらし、使用する損失や正規化項の観点でより一般的であり、数値的な観点からもより安定であることを示した。 提案手法は,既存の線形システム同定ツールの集合を充実させるだけでなく,繰り返しニューラルネットワークを含む非常に幅広いパラメータ非線形状態空間モデルの同定にも適用可能である。 Weigand et al. (2022)により提案された非線形マルチインプット/マルチアウトプットシステム同定のための,産業用ロボットベンチマークの課題を解決するために,合成および実験用データセットのアプローチを解説する。 提案された識別メソッドのPython実装は、パッケージ \texttt{jax-sysid} で利用可能であり、 \url{https://github.com/bemporad/jax-sysid} で利用可能である。

In this paper, we propose an approach for identifying linear and nonlinear discrete-time state-space models, possibly under $\ell_1$- and group-Lasso regularization, based on the L-BFGS-B algorithm. For the identification of linear models, we show that, compared to classical linear subspace methods, the approach often provides better results, is much more general in terms of the loss and regularization terms used, and is also more stable from a numerical point of view. The proposed method not only enriches the existing set of linear system identification tools but can be also applied to identifying a very broad class of parametric nonlinear state-space models, including recurrent neural networks. We illustrate the approach on synthetic and experimental datasets and apply it to solve the challenging industrial robot benchmark for nonlinear multi-input/multi-output system identification proposed by Weigand et al. (2022). A Python implementation of the proposed identification method is available in the package \texttt{jax-sysid}, available at \url{https://github.com/bemporad/jax-sysid}.
翻訳日:2024-03-07 14:21:07 公開日:2024-03-06
# 変分量子アルゴリズムにおける勾配の退化

Denoising Gradient Descent in Variational Quantum Algorithms ( http://arxiv.org/abs/2403.03826v1 )

ライセンス: Link先を確認
Lars Simon, Holger Eble, Hagen-Henrik Kowalski, Manuel Radons(参考訳) 本稿では,変動量子アルゴリズムの勾配降下に対する雑音の悪影響を緩和するアルゴリズムを提案する。 これは、すべての勾配降下ステップにおける目的関数に対する局所古典的近似を計算することによって達成される。 アルゴリズムの計算オーバーヘッドは古典的であり、回路評価の回数はパラメータシフト規則を用いて勾配降下を行う場合と全く同じである。 ランダム化パラメタライズド量子回路におけるアルゴリズムの利点を実証的に示す。

In this article we introduce an algorithm for mitigating the adverse effects of noise on gradient descent in variational quantum algorithms. This is accomplished by computing a {\emph{regularized}} local classical approximation to the objective function at every gradient descent step. The computational overhead of our algorithm is entirely classical, i.e., the number of circuit evaluations is exactly the same as when carrying out gradient descent using the parameter-shift rules. We empirically demonstrate the advantages offered by our algorithm on randomized parametrized quantum circuits.
翻訳日:2024-03-07 14:20:44 公開日:2024-03-06
# 時空浮動車オブザーバ

Temporal Enhanced Floating Car Observers ( http://arxiv.org/abs/2403.03825v1 )

ライセンス: Link先を確認
Jeremias Gerner, Klaus Bogenberger, Stefanie Schmidtner(参考訳) フローティングカーオブザーバ(floating car observers, fcos)は、センサーを搭載した車両を配置して他の車両を検知・発見することで、交通データを収集する革新的な手法である。 fcoの浸透率が小さい場合でも、特定の交差点でかなりの量の車両を識別できることを実証する。 これは微視的交通シミュレーションにおける検出のエミュレーションによって達成される。 さらに、以前のモーメントのデータを活用することで、現在のフレーム内の車両の検出を強化できる。 以上の結果から,20秒の観測窓があれば,fcosでは見えない車両の20\%を現在の時間内に回収できることが示唆された。 そこで我々は,検出された車両と深層学習モデルの鳥眼視(bird's eye view, bev)表現のシーケンスを利用したデータ駆動戦略を開発した。 このアプローチは、現在検出されていない車両を現在確認し、現在検出されている車両を強化することを目的としている。 異なる時空間アーキテクチャの結果から、車両の最大41%が現在の位置で現在の時間ステップに回収可能であることが分かる。 この拡張により、当初FCOが入手できた情報を強化し、トラフィック管理戦略の実装を改善するために、トラフィック状態とメトリクス(例えば密度とキューの長さ)の見積もりを改善することができる。

Floating Car Observers (FCOs) are an innovative method to collect traffic data by deploying sensor-equipped vehicles to detect and locate other vehicles. We demonstrate that even a small penetration rate of FCOs can identify a significant amount of vehicles at a given intersection. This is achieved through the emulation of detection within a microscopic traffic simulation. Additionally, leveraging data from previous moments can enhance the detection of vehicles in the current frame. Our findings indicate that, with a 20-second observation window, it is possible to recover up to 20\% of vehicles that are not visible by FCOs in the current timestep. To exploit this, we developed a data-driven strategy, utilizing sequences of Bird's Eye View (BEV) representations of detected vehicles and deep learning models. This approach aims to bring currently undetected vehicles into view in the present moment, enhancing the currently detected vehicles. Results of different spatiotemporal architectures show that up to 41\% of the vehicles can be recovered into the current timestep at their current position. This enhancement enriches the information initially available by the FCO, allowing an improved estimation of traffic states and metrics (e.g. density and queue length) for improved implementation of traffic management strategies.
翻訳日:2024-03-07 14:20:35 公開日:2024-03-06
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ

A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v1 )

ライセンス: Link先を確認
Louis Mahon, Mirella Lapata(参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。 我々は、個別のコンポーネントが個別のサブタスクを実行するようなモジュラーアプローチを提案する。 モジュールはシーン境界の検出、異なるイベント間のカット回数を最小化するためにシーンの順序を変更し、視覚情報をテキストに変換し、各シーンの対話を要約し、シーン要約をエピソード全体の最終要約に融合する。 また,新しい指標prefs (\textbf{p}recision and \textbf{r}ecall \textbf{e}valuation of summary \textbf{f}act\textbf{s}) を提示し,生成した要約の正確性とリコールの両方を測定する。 最近リリースされたSummScreen3DデータセットPapalampidiとLapata(2023年)を用いて、ROUGEと新しいファクトベースの測定値を用いて、比較モデルよりも高品質な要約を生成する。

In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PREFS (\textbf{P}recision and \textbf{R}ecall \textbf{E}valuation of Summary \textbf{F}act\textbf{s}), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset Papalampidi and Lapata (2023), our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric.
翻訳日:2024-03-07 14:20:16 公開日:2024-03-06
# 識別不能光子の連続的および決定論的全フォトニッククラスター状態

Continuous and deterministic all-photonic cluster state of indistinguishable photons ( http://arxiv.org/abs/2403.03820v1 )

ライセンス: Link先を確認
Zu-En Su, Boaz Taitler, Ido Schwartz, Dan Cogan, Ismail Nassar, Oded Kenneth, Netanel H. Lindner, and David Gershoni(参考訳) クラスタ状態は計測に基づく量子情報処理の重要なリソースである。 フォトニッククラスタとグラフ状態は、特に量子ネットワークと量子距離論において必須の役割を担っている。 量子編み機において、封止孔スピンが針として作用し、1次元のクラスター状態において、全ての偏光が互いに絡み合っているサブギガヘルツ繰り返し速度単体で連続的に決定的に発生する半導体量子ドットベースの装置を実証する。 2つの非隣接光子を円偏光基底に投射することで、光子同士のスピンを解離させ、初めて全光子クラスター状態が連続的に決定的に生成される。 4つの連続的に検出された光子に偏光トモグラフィを用い、クラスターの絡み合いの頑健さと光子発生における決定性を直接測定した。

Cluster states are key resources for measurement-based quantum information processing. Photonic cluster and graph states, in particular, play indispensable roles in quantum network and quantum metrology. We demonstrate a semiconductor quantum dot based device in which the confined hole spin acts as a needle in a quantum knitting machine producing continuously and deterministically at sub-Gigahertz repetition rate single indistinguishable photons which are all polarization entangled to each other and to the spin in a one dimensional cluster state. By projecting two nonadjacent photons onto circular polarization bases we disentangle the spin from the photons emitted in between, thus continuously and deterministically preparing all-photonic cluster states for the first time. We use polarization tomography on four sequentially detected photons to demonstrate and to directly quantify the robustness of the cluster's entanglement and the determinism in its photon generation.
翻訳日:2024-03-07 14:19:50 公開日:2024-03-06
# ドキュメントは重要か? オープンソースソフトウェア導入に関する実践者の視点に関する実証的研究

Does Documentation Matter? An Empirical Study of Practitioners' Perspective on Open-Source Software Adoption ( http://arxiv.org/abs/2403.03819v1 )

ライセンス: Link先を確認
Aaron Imani, Shiva Radmanesh, Iftekhar Ahmed, Mohammad Moshirpour(参考訳) 近年,オープンソースソフトウェア(OSS)は,ソフトウェア製品開発においてますます普及している。 OSSドキュメントは、製品に関する開発者コミュニティが提供する主要な情報ソースであるが、業界の採用プロセスにおけるその役割はまだ検討されていない。 半構造化インタビューとオンライン調査を行い,この領域について考察した。 インタビューや調査結果に基づいて,OSSドキュメントから関連情報を自動収集するトピックモデルを開発した。 さらに,OSSドキュメントに関連する課題に対する調査回答から,OSSドキュメントコーパスTF-IDFスコアとChatGPTを組み合わせることで,新たな情報拡張アプローチであるDocMentorを提案する。 技術的用語の説明と例と参照の提供を通じて、このアプローチはドキュメントのコンテキストを強化し、実践者の理解を深めます。 ツールの有効性は,実践者の調査によって評価される。

In recent years, open-source software (OSS) has become increasingly prevalent in developing software products. While OSS documentation is the primary source of information provided by the developers' community about a product, its role in the industry's adoption process has yet to be examined. We conducted semi-structured interviews and an online survey to provide insight into this area. Based on interviews and survey insights, we developed a topic model to collect relevant information from OSS documentation automatically. Additionally, according to our survey responses regarding challenges associated with OSS documentation, we propose a novel information augmentation approach, DocMentor, by combining OSS documentation corpus TF-IDF scores and ChatGPT. Through explaining technical terms and providing examples and references, our approach enhances the documentation context and improves practitioners' understanding. Our tool's effectiveness is assessed by surveying practitioners.
翻訳日:2024-03-07 14:19:33 公開日:2024-03-06
# aiによる膀胱鏡再定義:効率的なcnn-transformerモデルを用いた膀胱癌診断

Redefining cystoscopy with ai: bladder cancer diagnosis using an efficient hybrid cnn-transformer model ( http://arxiv.org/abs/2403.03879v1 )

ライセンス: Link先を確認
Meryem Amaouche and Ouassim Karrakchou and Mounir Ghogho and Anouar El Ghazzaly and Mohamed Alami and Ahmed Ameur(参考訳) 膀胱がんは世界中で最も診断されたがんトップ10にランクされ、生涯経過観察を必要とする高い再発率のために治療される最も高価ながんの1つである。 診断の主要なツールは嚢胞内視鏡であり、医師の専門知識と解釈に大きく依存している。 そのため、毎年多くの症例が未診断または誤診され、尿路感染症として治療されている。 そこで本研究では,CNNと軽快な位置エンコーディングのないトランスフォーマと,特徴強調のための自己と空間の注意を融合したデュアルアテンションゲートを組み合わせた膀胱癌検出とセグメンテーションの深層学習手法を提案する。 本稿では,リアルタイムの推論を必要とする医療シナリオに適したアーキテクチャを提案する。 実験により、このモデルは、シストスコープ画像における計算効率と診断精度のバランスを、大きなモデルに匹敵する大きさであるにもかかわらず、重要な必要性に対処することが証明された。

Bladder cancer ranks within the top 10 most diagnosed cancers worldwide and is among the most expensive cancers to treat due to the high recurrence rates which require lifetime follow-ups. The primary tool for diagnosis is cystoscopy, which heavily relies on doctors' expertise and interpretation. Therefore, annually, numerous cases are either undiagnosed or misdiagnosed and treated as urinary infections. To address this, we suggest a deep learning approach for bladder cancer detection and segmentation which combines CNNs with a lightweight positional-encoding-free transformer and dual attention gates that fuse self and spatial attention for feature enhancement. The architecture suggested in this paper is efficient making it suitable for medical scenarios that require real time inference. Experiments have proven that this model addresses the critical need for a balance between computational efficiency and diagnostic accuracy in cystoscopic imaging as despite its small size it rivals large models in performance.
翻訳日:2024-03-07 14:14:49 公開日:2024-03-06
# 貧乏な言語技術: nlpにおける(ソーシャルな)クラスの欠如

Impoverished Language Technology: The Lack of (Social) Class in NLP ( http://arxiv.org/abs/2403.03874v1 )

ライセンス: Link先を確認
Amanda Cercas Curry, Zeerak Talat, Dirk Hovy(参考訳) ラボフ(1964年)の『言語社会の階層化に関する基礎研究』以来、言語学は社会デミック要因と言語生産と知覚の関係を理解することに尽力してきた。 社会デミノグラフィー因子と言語生成の有意な関連性を示す証拠は多数存在するが,NLP技術の文脈で研究されている要因は比較的少ない。 年齢と性別はよくカバーされているが、ラボフの最初のターゲットである社会経済的階級はほとんど欠落している。 既存の自然言語処理 (nlp) の文献を調査し, 社会経済的状況に言及する文献は20紙に過ぎなかった。 しかし、ほとんどの論文は注釈素数学の情報を収集する以外に授業には関わらない。 この研究を前提に,nlp研究者が運用可能なクラスの定義を提供し,今後の言語技術における社会経済的クラスの導入を論じる。

Since Labov's (1964) foundational work on the social stratification of language, linguistics has dedicated concerted efforts towards understanding the relationships between socio-demographic factors and language production and perception. Despite the large body of evidence identifying significant relationships between socio-demographic factors and language production, relatively few of these factors have been investigated in the context of NLP technology. While age and gender are well covered, Labov's initial target, socio-economic class, is largely absent. We survey the existing Natural Language Processing (NLP) literature and find that only 20 papers even mention socio-economic status. However, the majority of those papers do not engage with class beyond collecting information of annotator-demographics. Given this research lacuna, we provide a definition of class that can be operationalised by NLP researchers, and argue for including socio-economic class in future language technologies.
翻訳日:2024-03-07 14:14:31 公開日:2024-03-06
# 垂直分割データを用いた実践訓練のための非結合型垂直フェデレーション学習

Decoupled Vertical Federated Learning for Practical Training on Vertically Partitioned Data ( http://arxiv.org/abs/2403.03871v1 )

ライセンス: Link先を確認
Avi Amalanshu, Yash Sirvi, David I. Inouye(参考訳) Vertical Federated Learning(VFL)は、共通のエンティティの非結合機能の所有者が協力して、データを共有することなくグローバルモデルを学ぶ、創発的な分散機械学習パラダイムである。 VFLでは、ホストクライアントがエンティティごとにデータラベルを所有し、すべてのゲストクライアントから中間的なローカル表現に基づいて最終表現を学ぶ。 したがって、ホストは単一障害点であり、ラベルのフィードバックは悪意のあるゲストクライアントがプライベート機能を推測するために使用できる。 トレーニングプロセス全体を通して、すべての参加者がアクティブで信頼できることを要求するのは、一般的には非現実的であり、制御された環境以外では不可能です。 本稿では,VFLに対するブロックワイズ学習手法であるDecoupled VFL (DVFL)を提案する。 それぞれのモデルを独自の目的でトレーニングすることで、DVFLは分散集約と特徴学習とラベル管理の分離を可能にします。 これらの特性により、DVFLはフォールトトレラントで安全である。 分割ニューラルネットワークをトレーニングするためにDVFLを実装し、様々な分類データセット上でモデル性能がVFLに匹敵することを示す。

Vertical Federated Learning (VFL) is an emergent distributed machine learning paradigm wherein owners of disjoint features of a common set of entities collaborate to learn a global model without sharing data. In VFL, a host client owns data labels for each entity and learns a final representation based on intermediate local representations from all guest clients. Therefore, the host is a single point of failure and label feedback can be used by malicious guest clients to infer private features. Requiring all participants to remain active and trustworthy throughout the entire training process is generally impractical and altogether infeasible outside of controlled environments. We propose Decoupled VFL (DVFL), a blockwise learning approach to VFL. By training each model on its own objective, DVFL allows for decentralized aggregation and isolation between feature learning and label supervision. With these properties, DVFL is fault tolerant and secure. We implement DVFL to train split neural networks and show that model performance is comparable to VFL on a variety of classification datasets.
翻訳日:2024-03-07 14:14:15 公開日:2024-03-06
# 複数の言語モデルと協調してデコードする学習

Learning to Decode Collaboratively with Multiple Language Models ( http://arxiv.org/abs/2403.03870v1 )

ライセンス: Link先を確認
Shannon Zejiang Shen, Hunter Lang, Bailin Wang, Yoon Kim, David Sontag(参考訳) 本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。 LLMが次のトークンを潜在変数として生成する決定をモデル化する。 潜在変数モデルの下でのトレーニングセットの限界確率を最適化することにより、ベースLLMは、いつ生成するか、いつ‘assistant’言語モデルの1つを呼び出すのかを、直接の監督なしに自動的に学習する。 デコード中のトークンレベルのコラボレーションは、それぞれのモデルの専門知識を、手元の特定のタスクに合わせた方法で融合することができる。 我々のコラボレーティブデコーディングは、ジェネリストベースLLMがドメインエキスパートモデルを呼び出すことを学習するクロスドメイン設定で特に有用である。 命令追従,ドメイン固有qa,推論タスクにおいて,ジョイントシステムの性能が個々のモデルよりも優れていることを示す。 学習した潜在決定の質的分析を通じて,本手法で訓練したモデルに,テンプレート充填など,いくつかの興味深い協調パターンを示す。 私たちのコードはhttps://github.com/clinicalml/co-llmで利用可能です。

We propose a method to teach multiple large language models (LLM) to collaborate by interleaving their generations at the token level. We model the decision of which LLM generates the next token as a latent variable. By optimizing the marginal likelihood of a training set under our latent variable model, the base LLM automatically learns when to generate itself and when to call on one of the ``assistant'' language models to generate, all without direct supervision. Token-level collaboration during decoding allows for a fusion of each model's expertise in a manner tailored to the specific task at hand. Our collaborative decoding is especially useful in cross-domain settings where a generalist base LLM learns to invoke domain expert models. On instruction-following, domain-specific QA, and reasoning tasks, we show that the performance of the joint system exceeds that of the individual models. Through qualitative analysis of the learned latent decisions, we show models trained with our method exhibit several interesting collaboration patterns, e.g., template-filling. Our code is available at https://github.com/clinicalml/co-llm.
翻訳日:2024-03-07 14:13:57 公開日:2024-03-06
# 長寿史的現象としてのデジタル性

Digitality as a "longue dur\`ee" historical phenomenon ( http://arxiv.org/abs/2403.03869v1 )

ライセンス: Link先を確認
Salvatore Spina(参考訳) デジタル時代は、人間の相互作用に革命をもたらすデジタルエコロジーニッチ(den)を導入した。 デジタル・ヒストリー(DHy)の出現は、バベッジとラヴレスの19世紀における基礎的なコミュニケーションプロセスとしての「コーディング」へのルーツを辿り、人間と機械の間の新たな相互作用パラダイムを育み、「人2人機械」と呼ばれる。 この進化は、デジタル化と情報化を通じて、古代のコーディングの実践に基づいているが、バベッジとラヴレスの数学的言語システムへの貢献により、コンピュータ科学の基礎を築いた。 この分野は、プログラミング言語と形式化による20世紀のメインフレームの相互作用の中心であり、より広い歴史的文脈の中でデジタル歴史を定めている。 ここでは、コーディングと数学的方法論が歴史学者に歴史的データ保存と分析のための高度な技術を与える。 それでも、計算とチューリングマシンが歴史を完全に理解し解釈できる程度は議論の対象となっている。

The digital age introduced the Digital Ecological Niche (DEN), revolutionizing human interactions. The advent of Digital History (DHy) has marked a methodological shift in historical studies, tracing its roots to Babbage and Lovelace's 19th-century work on "coding" as a foundational communication process, fostering a new interaction paradigm between humans and machines, termed "person2persons2machines." This evolution, through digitization and informatization, builds upon ancient coding practices but was significantly advanced by Babbage and Lovelace's contributions to mathematical linguistic systems, laying the groundwork for Computer Science. This field, central to 20th-century mainframe interaction through programming languages and formalization, situates Digital History within a broader historical context. Here, coding and mathematical methodologies empower historians with advanced technologies for historical data preservation and analysis. Nonetheless, the extent to which computation and Turing machines can fully understand and interpret history remains a subject of debate.
翻訳日:2024-03-07 14:13:37 公開日:2024-03-06
# 音声の信頼:選択性被覆によるコンフォーマル予測

Confidence on the Focal: Conformal Prediction with Selection-Conditional Coverage ( http://arxiv.org/abs/2403.03868v1 )

ライセンス: Link先を確認
Ying Jin, Zhimei Ren(参考訳) コンフォーマル予測は、ランダムに描画された新しいテストポイントの未知の結果を所定の確率でカバーする限界有効予測間隔を構築する。 実際に一般的なシナリオは、テストユニットを見た後、実践者がデータ駆動方式でどのテストユニットにフォーカスするかを決め、焦点ユニットの不確実性を定量化したいというものである。 このような場合、これらの焦点単位の正当な予測間隔は選択バイアスによって誤解を招くことがある。 本稿では,選択対象単位に有限サンプル完全カバレッジ条件付き予測セットを構築するための一般的な枠組みを提案する。 その一般形式は任意の選択規則に作用し、モンドリアン変換予測を複数のテスト単位と非同変分類器に一般化する。 次に,top-k選択,最適化に基づく選択,適合p値に基づく選択,予備共形予測集合の特性に基づく選択など,多くの現実的な選択規則に対する計算効率の高いフレームワークの実装を行った。 本手法の性能は,創薬および健康リスク予測の応用により実証された。

Conformal prediction builds marginally valid prediction intervals which cover the unknown outcome of a randomly drawn new test point with a prescribed probability. In practice, a common scenario is that, after seeing the test unit(s), practitioners decide which test unit(s) to focus on in a data-driven manner, and wish to quantify the uncertainty for the focal unit(s). In such cases, marginally valid prediction intervals for these focal units can be misleading due to selection bias. This paper presents a general framework for constructing a prediction set with finite-sample exact coverage conditional on the unit being selected. Its general form works for arbitrary selection rules, and generalizes Mondrian Conformal Prediction to multiple test units and non-equivariant classifiers. We then work out computationally efficient implementation of our framework for a number of realistic selection rules, including top-K selection, optimization-based selection, selection based on conformal p-values, and selection based on properties of preliminary conformal prediction sets. The performance of our methods is demonstrated via applications in drug discovery and health risk prediction.
翻訳日:2024-03-07 14:13:18 公開日:2024-03-06
# 大規模言語モデルにおける線形表現の起源について

On the Origins of Linear Representations in Large Language Models ( http://arxiv.org/abs/2403.03867v1 )

ライセンス: Link先を確認
Yibo Jiang, Goutham Rajendran, Pradeep Ravikumar, Bryon Aragam, Victor Veitch(参考訳) 近年の研究では、大規模言語モデルの表現空間において、高レベルのセマンティック概念は「直線的に」エンコードされていると論じられている。 本研究では,そのような線形表現の起源について考察する。 そこで我々は,次のトークン予測の概念ダイナミクスを抽象化し,形式化する単純な潜在変数モデルを導入する。 この形式主義を用いて次のトークン予測目標(交叉エントロピーを伴うソフトマックス)と勾配降下の暗黙のバイアスが共に概念の線形表現を促進することを示す。 実験により、潜在変数モデルに一致するデータから学習すると線形表現が出現し、この単純な構造が既に線形表現を得るのに十分であることを確認した。 さらに,LLaMA-2大言語モデルによる理論の予測を確認し,単純化されたモデルが一般化可能な洞察を与えることを示す。

Recent works have argued that high-level semantic concepts are encoded "linearly" in the representation space of large language models. In this work, we study the origins of such linear representations. To that end, we introduce a simple latent variable model to abstract and formalize the concept dynamics of the next token prediction. We use this formalism to show that the next token prediction objective (softmax with cross-entropy) and the implicit bias of gradient descent together promote the linear representation of concepts. Experiments show that linear representations emerge when learning from data matching the latent variable model, confirming that this simple structure already suffices to yield linear representations. We additionally confirm some predictions of the theory using the LLaMA-2 large language model, giving evidence that the simplified model yields generalizable insights.
翻訳日:2024-03-07 14:13:02 公開日:2024-03-06
# KIWI:研究質問に対する知識集中型筆記指導のデータセット

KIWI: A Dataset of Knowledge-Intensive Writing Instructions for Answering Research Questions ( http://arxiv.org/abs/2403.03866v1 )

ライセンス: Link先を確認
Fangyuan Xu, Kyle Lo, Luca Soldaini, Bailey Kuehl, Eunsol Choi, David Wadden(参考訳) ユーザ指示に従うように適応した大規模言語モデル(llm)が、今や会話エージェントとして広くデプロイされている。 そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。 本課題における現在のLLMの能力を評価するため,科学領域における知識集約的な記述指導のデータセットKIWIを構築した。 研究質問、初期モデル生成の回答、関連する論文のセットが与えられたとき、専門家はモデルが答えを改訂し改善するための指示を反復的に発行する。 234のインタラクションセッションから1,260のインタラクションを3つの最先端llmで収集した。 各ターンは、ユーザ命令、モデル応答、およびモデル応答のヒューマン評価を含む。 収集された回答の詳細な分析を通じて、すべてのモデルが既存の回答に新しい情報を組み込むのに苦労し、正確であいまいな編集を行うことがわかりました。 さらに, ユーザの指示に従えば, 少なくとも10ポイントの精度で, アウトプットが成功するかどうかを判断する上で, モデルが困難であることが判明した。 この結果から,KIWI は知識集中型書記作業における LLM の指導追従能力を向上させるための貴重な資源となることが示唆された。

Large language models (LLMs) adapted to follow user instructions are now widely deployed as conversational agents. In this work, we examine one increasingly common instruction-following task: providing writing assistance to compose a long-form answer. To evaluate the capabilities of current LLMs on this task, we construct KIWI, a dataset of knowledge-intensive writing instructions in the scientific domain. Given a research question, an initial model-generated answer and a set of relevant papers, an expert annotator iteratively issues instructions for the model to revise and improve its answer. We collect 1,260 interaction turns from 234 interaction sessions with three state-of-the-art LLMs. Each turn includes a user instruction, a model response, and a human evaluation of the model response. Through a detailed analysis of the collected responses, we find that all models struggle to incorporate new information into an existing answer, and to perform precise and unambiguous edits. Further, we find that models struggle to judge whether their outputs successfully followed user instructions, with accuracy at least 10 points short of human agreement. Our findings indicate that KIWI will be a valuable resource to measure progress and improve LLMs' instruction-following capabilities for knowledge intensive writing tasks.
翻訳日:2024-03-07 14:12:48 公開日:2024-03-06
# 言語モデルは天才か? アルゴリズムパズルがマルチモーダル推論の深刻な課題を発表

Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning ( http://arxiv.org/abs/2403.03864v1 )

ライセンス: Link先を確認
Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria(参考訳) 本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の課題を紹介する。 視覚理解,言語理解,複雑なアルゴリズム推論を必要とするアルゴリズムパズルの解法において,マルチモーダル言語モデルの能力に挑戦し,評価するために設計された,新たなデータセットalgopuzzlevqaを提案する。 視覚データ解釈とアルゴリズム問題解決スキルのギャップを評価するために,ブール論理,組合せ論,グラフ理論,最適化,探索など,多種多様な数学的およびアルゴリズム的トピックを包含するパズルを作成する。 データセットは、人間が作成したコードから自動的に生成される。 私たちのパズルはすべて、退屈な人間の計算なしにアルゴリズムから得られる正確な解を持っています。 複雑な推論とデータセットサイズの観点から、データセットを任意にスケールアップできるようにします。 GPT4V や Gemini のような大規模言語モデル (LLM) はパズル解法において限られた性能を示した。 多数のパズルに対する複数選択質問回答設定において,その性能はランダムに近いことがわかった。 この発見は、複雑な推論問題を解決するために視覚的、言語的、アルゴリズム的知識を統合することの課題を強調している。

This paper introduces the novel task of multimodal puzzle solving, framed within the context of visual question-answering. We present a new dataset, AlgoPuzzleVQA designed to challenge and evaluate the capabilities of multimodal language models in solving algorithmic puzzles that necessitate both visual understanding, language understanding, and complex algorithmic reasoning. We create the puzzles to encompass a diverse array of mathematical and algorithmic topics such as boolean logic, combinatorics, graph theory, optimization, search, etc., aiming to evaluate the gap between visual data interpretation and algorithmic problem-solving skills. The dataset is generated automatically from code authored by humans. All our puzzles have exact solutions that can be found from the algorithm without tedious human calculations. It ensures that our dataset can be scaled up arbitrarily in terms of reasoning complexity and dataset size. Our investigation reveals that large language models (LLMs) such as GPT4V and Gemini exhibit limited performance in puzzle-solving tasks. We find that their performance is near random in a multi-choice question-answering setup for a significant number of puzzles. The findings emphasize the challenges of integrating visual, language, and algorithmic knowledge for solving complex reasoning problems.
翻訳日:2024-03-07 14:12:27 公開日:2024-03-06
# X-Shot: 頻度, ショット数, ゼロショット学習を同時に行う一元化システム

X-Shot: A Unified System to Handle Frequent, Few-shot and Zero-shot Learning Simultaneously in Classification ( http://arxiv.org/abs/2403.03863v1 )

ライセンス: Link先を確認
Hanzi Xu, Muhao Chen, Lifu Huang, Slobodan Vucetic, Wenpeng Yin(参考訳) 近年では、限定的な注釈付きインスタンスでラベルを予測することを学ぶ、ゼロショット学習やゼロショット学習が注目されている。 従来のアプローチでは、頻繁なショット(freq-shot; 豊富なインスタンスのラベル)、少数ショット、ゼロショット学習を異なる課題として扱い、これらのシナリオの1つにシステムを最適化する。 しかし、現実世界の設定ではラベルの発生は大きく異なる。 中には何千回も現れるものもあるが、散発的にしか現れないものもある。 実践的なデプロイメントでは、システムがラベルの発生に適応できることが重要です。 X-shot、freq-shot、 few-shot、zero-shotラベルが予め定義された制限なしに共起する現実世界のコンテキストを反映する。 ここで x は 0 から正の無限大にまたがる。 Xショットの欠如は、オープンドメインの一般化と、さまざまなラベルシナリオを管理するのに十分なシステムを考案することに集中している。 X-shotを解決するために,大規模な言語モデルによって提供されるWeak Supervisionによって強化された命令に従うNLPタスクの大規模なコレクションから間接スーパービジョンを利用するBinBinを提案する。 BinBinは、複数のドメインにわたる3つのベンチマークデータセットにおいて、これまでの最先端技術を上回っている。 私たちの知る限り、これはX が可変である X ショット学習に対処する最初の作業である。

In recent years, few-shot and zero-shot learning, which learn to predict labels with limited annotated instances, have garnered significant attention. Traditional approaches often treat frequent-shot (freq-shot; labels with abundant instances), few-shot, and zero-shot learning as distinct challenges, optimizing systems for just one of these scenarios. Yet, in real-world settings, label occurrences vary greatly. Some of them might appear thousands of times, while others might only appear sporadically or not at all. For practical deployment, it is crucial that a system can adapt to any label occurrence. We introduce a novel classification challenge: X-shot, reflecting a real-world context where freq-shot, few-shot, and zero-shot labels co-occur without predefined limits. Here, X can span from 0 to positive infinity. The crux of X-shot centers on open-domain generalization and devising a system versatile enough to manage various label scenarios. To solve X-shot, we propose BinBin (Binary INference Based on INstruction following) that leverages the Indirect Supervision from a large collection of NLP tasks via instruction following, bolstered by Weak Supervision provided by large language models. BinBin surpasses previous state-of-the-art techniques on three benchmark datasets across multiple domains. To our knowledge, this is the first work addressing X-shot learning, where X remains variable.
翻訳日:2024-03-07 14:12:07 公開日:2024-03-06
# ファウショット事例選択のためのインフォーマティブメトリックの設計

Designing Informative Metrics for Few-Shot Example Selection ( http://arxiv.org/abs/2403.03861v1 )

ライセンス: Link先を確認
Rishabh Adiga, Lakshminarayanan Subramanian, Varun Chandrasekaran(参考訳) 事前訓練された言語モデル(PLM)は、適切にフォーマットされた例を提供すると、顕著な数ショットの学習能力を示す。 しかし、"最良の"例を選択することは、まだ未解決の課題である。 シーケンスタグ付けタスクのための複雑性に基づくプロンプト選択手法を提案する。 このアプローチでは、サンプル選択のための専用モデルのトレーニングを回避し、代わりに特定のメトリクスを使用してテスト文や例の構文-意味的複雑性を調整する。 文レベルと単語レベルの両方のメトリクスを用いて、例の複雑さと検討中の(テスト)文とを一致させる。 その結果,本手法がplmから高い性能を抽出できることが証明された。npm ner で最先端のパフォーマンスを達成し,gpt-4 の conll2003 データセットで f1 スコアを 5% 絶対的に改善した。 また、GPT-j-6Bのような小型モデルでは28.85ポイント(F1/Acc.)まで大きく上昇する。

Pretrained language models (PLMs) have shown remarkable few-shot learning capabilities when provided with properly formatted examples. However, selecting the "best" examples remains an open challenge. We propose a complexity-based prompt selection approach for sequence tagging tasks. This approach avoids the training of a dedicated model for selection of examples, and instead uses certain metrics to align the syntactico-semantic complexity of test sentences and examples. We use both sentence- and word-level metrics to match the complexity of examples to the (test) sentence being considered. Our results demonstrate that our approach extracts greater performance from PLMs: it achieves state-of-the-art performance on few-shot NER, achieving a 5% absolute improvement in F1 score on the CoNLL2003 dataset for GPT-4. We also see large gains of upto 28.85 points (F1/Acc.) in smaller models like GPT-j-6B.
翻訳日:2024-03-07 14:11:41 公開日:2024-03-06
# エモジンライズ : 絵文字翻訳によるテキストの充実

Emojinize : Enriching Any Text with Emoji Translations ( http://arxiv.org/abs/2403.03857v1 )

ライセンス: Link先を確認
Lars Henning Klein, Roland Aydin, Robert West(参考訳) Emojiは、Web上など、手書きのコミュニケーションでユビキタスになった。 感情を強調したり、明確にしたり、会話に詳細を追加したり、あるいは単に装飾的な目的に役立てることができる。 しかし、このカジュアルな使い方は、絵文字の表現力の表面をほとんど傷つけない。 この力をさらに解き放つために、任意のテキスト句を人間の入力を必要とせずに1つ以上の絵文字の配列に変換する方法であるemojinizeを提案する。 大規模な言語モデルの力を活用して、コンテキスト(例えばクリケットバット対バット)に基づいて曖昧にすることで適切な絵文字を選択し、複数の絵文字を合成して複雑な概念を表現できる(eq、'Emojinize')。 クローズテストベースのユーザスタディでは,Emojinizeの絵文字翻訳がマスクされた単語の人間の推測可能性を55%増加させるのに対して,人間の絵文字翻訳はわずか29%向上した。 これらの結果は、絵文字が様々な単語を正確に翻訳するのに十分な豊富な語彙を提供することを示している。 さらに、Emojinizeの絵文字翻訳による単語やフレーズの注釈付けは、子どもたちが読み方を学ぶこと、外国語を学ぶこと、学習障害のある人々のためのテキスト理解など、多くの下流アプリケーションへの扉を開く。

Emoji have become ubiquitous in written communication, on the Web and beyond. They can emphasize or clarify emotions, add details to conversations, or simply serve decorative purposes. This casual use, however, barely scratches the surface of the expressive power of emoji. To further unleash this power, we present Emojinize, a method for translating arbitrary text phrases into sequences of one or more emoji without requiring human input. By leveraging the power of large language models, Emojinize can choose appropriate emoji by disambiguating based on context (eg, cricket-bat vs bat) and can express complex concepts compositionally by combining multiple emoji (eq, ''Emojinize'' is translated to input-latin-letters right-arrow grinning-face). In a cloze test--based user study, we show that Emojinize's emoji translations increase the human guessability of masked words by 55%, whereas human-picked emoji translations do so by only 29%. These results suggest that emoji provide a sufficiently rich vocabulary to accurately translate a wide variety of words. Moreover, annotating words and phrases with Emojinize's emoji translations opens the door to numerous downstream applications, including children learning how to read, adults learning foreign languages, and text understanding for people with learning disabilities.
翻訳日:2024-03-07 14:11:18 公開日:2024-03-06
# 公開データ支援プライベート確率最適化:力と限界

Public-data Assisted Private Stochastic Optimization: Power and Limitations ( http://arxiv.org/abs/2403.03856v1 )

ライセンス: Link先を確認
Enayat Ullah, Michael Menart, Raef Bassily, Crist\'obal Guzm\'an, Raman Arora(参考訳) 公開データ支援微分プライベート(pa-dp)アルゴリズムの限界と能力について検討した。 具体的には、ラベル付きまたはラベルなしの公開データを用いた確率凸最適化(SCO)の問題に焦点を当てる。 完全/ラベルの公開データについては、任意の$(\epsilon,\delta)$-pa-dp が余剰リスク $\tilde{\omega}\big(\min\big\{\frac{1}{\sqrt{n_{\text{pub}}}},\frac{1}{\sqrt{n}}+\frac{\sqrt{d}}{n\epsilon} \big\} \big)$,ただし $d$ は次元、${n_{\text{pub}}}$ は公開サンプル数、${n_{\text{priv}}}$ はプライベートサンプル数、$n={n_{\text{pub}}}+{n_{\text{priv}}}$である。 これらの下界は、同様の形式であるpa-dp平均推定のための新しい下界を介して確立される。 これらの下限は、すべてのデータをプライベートとして扱うか、プライベートデータを破棄するという単純な戦略が最適であることを示している。 また,<textit{unlabeled>公開サンプルを用いたPA-DP指導学習についても検討した。 これまでの結果とは対照的に,私的教師付き学習における公開データ活用の新たな手法を示す。 ラベルなしの公開データを持つ一般化線形モデル (glm) に対して、$\tilde{o}({n_{\text{priv}}}\epsilon)$ ラベルなしの公開サンプルが与えられた場合、次元独立レート $\tilde{o}\big(\frac{1}{\sqrt{{n_{\text{priv}}}}} + \frac{1}{\sqrt{{{n_{\text{priv}}}\epsilon}}\big)$ が得られる効率的なアルゴリズムを示す。 我々は、この設定に対する新しい下限を開発し、この値は、よりパブリックなサンプルでは改善できず、より少ないパブリックなサンプルでは、より悪いレートにつながることを示す。 最後に、この結果をニューラルネットワークや非ユークリッド測地への応用を含む有限脂肪散乱次元の一般仮説クラスに拡張する。

We study the limits and capability of public-data assisted differentially private (PA-DP) algorithms. Specifically, we focus on the problem of stochastic convex optimization (SCO) with either labeled or unlabeled public data. For complete/labeled public data, we show that any $(\epsilon,\delta)$-PA-DP has excess risk $\tilde{\Omega}\big(\min\big\{\frac{1}{\sqrt{n_{\text{pub}}}},\frac{1}{\sqrt{n}}+\frac{\sqrt{d}}{n\epsilon} \big\} \big)$, where $d$ is the dimension, ${n_{\text{pub}}}$ is the number of public samples, ${n_{\text{priv}}}$ is the number of private samples, and $n={n_{\text{pub}}}+{n_{\text{priv}}}$. These lower bounds are established via our new lower bounds for PA-DP mean estimation, which are of a similar form. Up to constant factors, these lower bounds show that the simple strategy of either treating all data as private or discarding the private data, is optimal. We also study PA-DP supervised learning with \textit{unlabeled} public samples. In contrast to our previous result, we here show novel methods for leveraging public data in private supervised learning. For generalized linear models (GLM) with unlabeled public data, we show an efficient algorithm which, given $\tilde{O}({n_{\text{priv}}}\epsilon)$ unlabeled public samples, achieves the dimension independent rate $\tilde{O}\big(\frac{1}{\sqrt{{n_{\text{priv}}}}} + \frac{1}{\sqrt{{n_{\text{priv}}}\epsilon}}\big)$. We develop new lower bounds for this setting which shows that this rate cannot be improved with more public samples, and any fewer public samples leads to a worse rate. Finally, we provide extensions of this result to general hypothesis classes with finite fat-shattering dimension with applications to neural networks and non-Euclidean geometries.
翻訳日:2024-03-07 14:10:52 公開日:2024-03-06
# ECAP: Unsupervised Domain Adaptive Semantic Segmentation に対する拡張的カット・アンド・ペースト法

ECAP: Extensive Cut-and-Paste Augmentation for Unsupervised Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2403.03854v1 )

ライセンス: Link先を確認
Erik Brorsson, Knut {\AA}kesson, Lennart Svensson, Kristofer Bengtsson(参考訳) モデルがラベル付きソースデータセットに基づいてトレーニングされ、ラベル付きターゲットデータセットに適応するセグメンテーションのための教師なしドメイン適応(UDA)を検討する。 残念なことに、現在の自己学習手法は誤った予測の結果、誤分類された擬似ラベルに影響を受けやすい。 ある種のクラスは、UDAの信頼性の低い予測と関連付けられているため、一部のクラスにトレーニングを振り向けることなく、そのような擬似ラベルの影響を減らすことは、非常に難しい。 そこで本研究では,データ拡張による信頼度の高い擬似ラベルの活用を目的としたカット・アンド・ペースト戦略(ECAP)を提案する。 具体的には、EPPはトレーニングを通じて擬似ラベル付きターゲットサンプルのメモリバンクを保持し、現在のトレーニングバッチに最も自信のあるサンプルをカット&ペーストする。 我々は,最近のMIC法に基づいてECPを実装し,その性能を2つの合成-実領域適応ベンチマークで向上させる。 特に、MIC+ECAPはSynthia->Cityscapesベンチマークで69.1 mIoUに到達した。 私たちのコードはhttps://github.com/erikbrorsson/ecapで利用可能です。

We consider unsupervised domain adaptation (UDA) for semantic segmentation in which the model is trained on a labeled source dataset and adapted to an unlabeled target dataset. Unfortunately, current self-training methods are susceptible to misclassified pseudo-labels resulting from erroneous predictions. Since certain classes are typically associated with less reliable predictions in UDA, reducing the impact of such pseudo-labels without skewing the training towards some classes is notoriously difficult. To this end, we propose an extensive cut-and-paste strategy (ECAP) to leverage reliable pseudo-labels through data augmentation. Specifically, ECAP maintains a memory bank of pseudo-labeled target samples throughout training and cut-and-pastes the most confident ones onto the current training batch. We implement ECAP on top of the recent method MIC and boost its performance on two synthetic-to-real domain adaptation benchmarks. Notably, MIC+ECAP reaches an unprecedented performance of 69.1 mIoU on the Synthia->Cityscapes benchmark. Our code is available at https://github.com/ErikBrorsson/ECAP.
翻訳日:2024-03-07 14:09:48 公開日:2024-03-06
# ShortGPT:大規模言語モデルのレイヤーは、予想以上に冗長である

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect ( http://arxiv.org/abs/2403.03853v1 )

ライセンス: Link先を確認
Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen(参考訳) 大規模言語モデル(LLM)のパフォーマンスが向上するにつれて、そのサイズは大幅に拡大し、現在のLLMには数十億または数兆のパラメータが含まれている。 しかし,本研究では,多くのllm層が高い類似性を示し,ネットワーク機能において無視できない役割を担っていることを発見した。 この観測に基づいてブロック影響(BI)と呼ばれる指標を定義し,LLMにおける各層の重要性を評価する。 そこで我々は, BIスコアに基づいて, LLMの冗長層を直接除去する, 簡単なプルーニング手法を提案する。 実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA法よりも大幅に優れていることを示した。 さらに、shortgptは量子化のような方法と直交し、パラメータと計算のさらなる削減を可能にする。 より複雑な刈り取り技術とは対照的に、単純な層除去によってよりよい結果を得る能力は、モデルアーキテクチャにおける高い冗長性を示している。

As Large Language Models (LLMs) continue to advance in performance, their size has escalated significantly, with current LLMs containing billions or even trillions of parameters. However, in this study, we discovered that many layers of LLMs exhibit high similarity, and some layers play a negligible role in network functionality. Based on this observation, we define a metric called Block Influence (BI) to gauge the significance of each layer in LLMs. We then propose a straightforward pruning approach: layer removal, in which we directly delete the redundant layers in LLMs based on their BI scores. Experiments demonstrate that our method, which we call ShortGPT, significantly outperforms previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT is orthogonal to quantization-like methods, enabling further reduction in parameters and computation. The ability to achieve better results through simple layer removal, as opposed to more complex pruning techniques, suggests a high degree of redundancy in the model architecture.
翻訳日:2024-03-07 14:09:30 公開日:2024-03-06
# 単一および2モード純粋ガウス状態のマルチパラメータ量子推定

Multi-parameter quantum estimation of single- and two-mode pure Gaussian states ( http://arxiv.org/abs/2403.03919v1 )

ライセンス: Link先を確認
Gabriele Bressanini, Marco G. Genoni, M.S. Kim and Matteo G. A. Paris(参考訳) 単モードおよび二モード純粋ガウス状態のマルチパラメータ推定における究極の精度境界について考察する。 複素変位のみを推定することに焦点をあてた従来の手法を利用して, 単モードおよび2モードの圧縮状態を特徴付ける変位およびスクイーズパラメータのホレボ・クラム・ラオ境界(HCRB)を導出する。 単モードのシナリオでは、解析的境界を求め、スクイージングが増加するにつれて単調に劣化する。 さらに, ヘテロダイン検出は大きなスクイーズ限界においてほぼ最適であるが, 一般には非ガウス的資源を含む必要がある。 一方,2モード設定では,スキーズパラメータが大きくなるにつれてHCRBが向上し,二重ホモジン検出により達成できることを示す。

We discuss the ultimate precision bounds on the multiparameter estimation of single- and two-mode pure Gaussian states. By leveraging on previous approaches that focused on the estimation of a complex displacement only, we derive the Holevo Cram\'er-Rao bound (HCRB) for both displacement and squeezing parameter characterizing single and two-mode squeezed states. In the single-mode scenario, we obtain an analytical bound and find that it degrades monotonically as the squeezing increases. Furthermore, we prove that heterodyne detection is nearly optimal in the large squeezing limit, but in general the optimal measurement must include non-Gaussian resources. On the other hand, in the two-mode setting, the HCRB improves as the squeezing parameter grows and we show that it can be attained using double-homodyne detection.
翻訳日:2024-03-07 14:05:42 公開日:2024-03-06
# 多言語NLPデータセットにおける言語多様性の透過的比較尺度

A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets ( http://arxiv.org/abs/2403.03909v1 )

ライセンス: Link先を確認
Tanja Samardzic, Ximena Gutierrez, Christian Bentz, Steven Moran, Olga Pelloni(参考訳) 多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。 これらのデータセットの言語学的多様性は、典型的にはサンプルに含まれる言語や言語族の数として測定されるが、そのような尺度は含まれた言語の構造的特性を考慮しない。 本稿では,言語多様性を長期にわたって最大化する手段として,参照言語サンプルに対するデータセットの言語多様性を評価することを提案する。 言語を特徴の集合として表現し、測定値の集合を比較するのに適した Jaccard index のバージョンを適用します。 タイポロジーデータベースから抽出した特徴に加えて,手作業で収集した特徴におけるデータスパーシティの既知の問題を克服する手段として使用できる自動テキストベース尺度を提案する。 我々の多様性スコアは言語的特徴の観点から解釈可能であり、データセットに表現されていない言語のタイプを特定することができる。 本手法を用いて, 一般的な多言語データセット(UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD)を解析した。 これらのデータセットのランク付けに加えて、例えば、(poly)合成言語は、ほとんどすべてのデータに欠けている。

Typologically diverse benchmarks are increasingly created to track the progress achieved in multilingual NLP. Linguistic diversity of these data sets is typically measured as the number of languages or language families included in the sample, but such measures do not consider structural properties of the included languages. In this paper, we propose assessing linguistic diversity of a data set against a reference language sample as a means of maximising linguistic diversity in the long run. We represent languages as sets of features and apply a version of the Jaccard index suitable for comparing sets of measures. In addition to the features extracted from typological data bases, we propose an automatic text-based measure, which can be used as a means of overcoming the well-known problem of data sparsity in manually collected features. Our diversity score is interpretable in terms of linguistic features and can identify the types of languages that are not represented in a data set. Using our method, we analyse a range of popular multilingual data sets (UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD). In addition to ranking these data sets, we find, for example, that (poly)synthetic languages are missing in almost all of them.
翻訳日:2024-03-07 14:05:26 公開日:2024-03-06
# Black-Box $k$-to-1$-PCAの削減:理論と応用

Black-Box $k$-to-$1$-PCA Reductions: Theory and Applications ( http://arxiv.org/abs/2403.03905v1 )

ライセンス: Link先を確認
Arun Jambulapati, Syamantak Kumar, Jerry Li, Shourya Pandey, Ankit Pensia, Kevin Tian(参考訳) k$-principal component analysis(k$-PCA)問題は基本的なアルゴリズムプリミティブであり、データ解析や次元減少アプリケーションで広く利用されている。 統計的設定では、$k$-PCA の目標は、分布の共分散行列のトップ固有空間を特定することである。 これらの暗黙的な設定により、ブラックボックスデフレ法を$k$-PCAアルゴリズムを設計するためのフレームワークとして分析し、近似近似の2つの一般的な概念の下で、ブラックボックスの1ドル$-PCAオーラクルを介して未知のターゲット行列へのアクセスをモデル化する。 k$-pcaアルゴリズム設計に対する最も自然な還元ベースのアプローチであるにもかかわらず、このようなブラックボックスメソッドは再帰的に1$-pca oracle $k$ timesと呼ばれ、以前はあまり理解されていなかった。 我々の主な貢献は、$k$-pcaのデフレ法における近似パラメータの分解に関するかなり鋭い境界である。 ePCA (Energy PCA) と呼ぶ近似の二次形式として、デフレ法はパラメータ損失を伴わないことを示す。 cPCA(correlation PCA)という別のよく研究された近似概念に対して、デフレ法が実現可能なパラメータ構造を厳しく特徴づける。 さらに、全ての実現可能なレシエーションにおいて、$k$-cPCAデフレアルゴリズムは、任意の定数$k$に対して漸近パラメータ損失を生じないことを示す。 我々は,最先端の$k$-PCAアルゴリズムを用いて,汚染を解析し,サンプルの複雑さと近似品質の両方において先行作業を改善する。

The $k$-principal component analysis ($k$-PCA) problem is a fundamental algorithmic primitive that is widely-used in data analysis and dimensionality reduction applications. In statistical settings, the goal of $k$-PCA is to identify a top eigenspace of the covariance matrix of a distribution, which we only have implicit access to via samples. Motivated by these implicit settings, we analyze black-box deflation methods as a framework for designing $k$-PCA algorithms, where we model access to the unknown target matrix via a black-box $1$-PCA oracle which returns an approximate top eigenvector, under two popular notions of approximation. Despite being arguably the most natural reduction-based approach to $k$-PCA algorithm design, such black-box methods, which recursively call a $1$-PCA oracle $k$ times, were previously poorly-understood. Our main contribution is significantly sharper bounds on the approximation parameter degradation of deflation methods for $k$-PCA. For a quadratic form notion of approximation we term ePCA (energy PCA), we show deflation methods suffer no parameter loss. For an alternative well-studied approximation notion we term cPCA (correlation PCA), we tightly characterize the parameter regimes where deflation methods are feasible. Moreover, we show that in all feasible regimes, $k$-cPCA deflation algorithms suffer no asymptotic parameter loss for any constant $k$. We apply our framework to obtain state-of-the-art $k$-PCA algorithms robust to dataset contamination, improving prior work both in sample complexity and approximation quality.
翻訳日:2024-03-07 14:05:05 公開日:2024-03-06
# 統合開発環境のプラグインアーキテクチャにおけるデータクランプ処理の課題

Challenges of Processing Data Clumps within Plugin Architectures of Integrated Development Environment ( http://arxiv.org/abs/2403.03903v1 )

ライセンス: Link先を確認
Nils Baumgartner and Elke Pulverm\"uller(参考訳) 本研究では,データクランプや特殊なコードの臭いを検出し,リファクタリングすることで,ソフトウェア品質を向上させるための高度な戦略を検討する。 提案手法は,ソースアクセスからデータクランプの検出を分離する新しい手法を用いて,統合開発環境の機能を超越する。 この方法はデータクランプ処理を容易にする。 本稿では,この新しいデータクランプ処理方法をサポートするコマンドラインインタフェースプラグインを提案する。 この研究は、モジュール化されたアルゴリズムの有効性を強調し、継続的ワークフローへの統合を提唱し、様々なプログラミングおよび統合開発環境におけるコード品質と効率的なプロジェクト管理を約束する。

In this study, we explore advanced strategies for enhancing software quality by detecting and refactoring data clumps, special types of code smells. Our approach transcends the capabilities of integrated development environments, utilizing a novel method that separates the detection of data clumps from the source access. This method facilitates data clump processing. We introduce a command-line interface plugin to support this novel method of processing data clumps. This research highlights the efficacy of modularized algorithms and advocates their integration into continuous workflows, promising enhanced code quality and efficient project management across various programming and integrated development environments.
翻訳日:2024-03-07 14:04:33 公開日:2024-03-06
# Fuzzing BusyBox: 組み込みバグにLCMとクラッシュリユースを活用する

Fuzzing BusyBox: Leveraging LLM and Crash Reuse for Embedded Bug Unearthing ( http://arxiv.org/abs/2403.03897v1 )

ライセンス: Link先を確認
Asmita, Yaroslav Oliinyk, Michael Scott, Ryan Tsang, Chongzhou Fang, Houman Homayoun(参考訳) 300以上のLinuxコマンドを単一の実行ファイルにバンドルするオープンソースソフトウェアであるBusyBoxは、Linuxベースの組み込みデバイスでユビキタスである。 BusyBoxの脆弱性は、広範囲のデバイスに影響を及ぼす。 この研究はBusyBoxの広範な利用によって推進され、その分析を掘り下げた。 この研究は、現実の組み込み製品で古いBusyBoxバージョンが普及していることを明らかにし、BusyBoxでファジテストを行うきっかけとなった。 重要なソフトウェアテスト手法であるFuzzingは、その後脆弱性を明らかにするために精査されたクラッシュを誘発することを目的としている。 本研究では,ソフトウェアテストを強化する2つの手法を紹介する。 最初のテクニックは、大きな言語モデル(llm)を利用してターゲット固有の初期種を生成することで、ファジングを強化する。 本研究は, LLM生成初期種子を用いた場合, 衝突が著しく増加し, 目標特異的初期種子の生成という典型的な労働集約的な課題に, LLMが効果的に取り組む可能性を強調した。 2つめのテクニックは、以前取得したクラッシュデータを同じファズドターゲットから再提案し、新しいターゲットにファズリングを開始することである。 このアプローチは、fuzzingを開始する前に、クラッシュデータを新しいターゲットに直接提供することで、時間を要するfuzzテストプロセスを合理化する。 従来のファジィ処理を行なわずに最新のBusyBoxターゲットのクラッシュを識別し,ソフトウェアテストの改善と組込みシステムにおける脆弱性検出の改善にLLMとクラッシュ再利用技術の有効性を強調した。 さらに、最新のBusyBoxにおけるクラッシュの性質を特定するために手動のトリアージが行われた。

BusyBox, an open-source software bundling over 300 essential Linux commands into a single executable, is ubiquitous in Linux-based embedded devices. Vulnerabilities in BusyBox can have far-reaching consequences, affecting a wide array of devices. This research, driven by the extensive use of BusyBox, delved into its analysis. The study revealed the prevalence of older BusyBox versions in real-world embedded products, prompting us to conduct fuzz testing on BusyBox. Fuzzing, a pivotal software testing method, aims to induce crashes that are subsequently scrutinized to uncover vulnerabilities. Within this study, we introduce two techniques to fortify software testing. The first technique enhances fuzzing by leveraging Large Language Models (LLM) to generate target-specific initial seeds. Our study showed a substantial increase in crashes when using LLM-generated initial seeds, highlighting the potential of LLM to efficiently tackle the typically labor-intensive task of generating target-specific initial seeds. The second technique involves repurposing previously acquired crash data from similar fuzzed targets before initiating fuzzing on a new target. This approach streamlines the time-consuming fuzz testing process by providing crash data directly to the new target before commencing fuzzing. We successfully identified crashes in the latest BusyBox target without conducting traditional fuzzing, emphasizing the effectiveness of LLM and crash reuse techniques in enhancing software testing and improving vulnerability detection in embedded systems. Additionally, manual triaging was performed to identify the nature of crashes in the latest BusyBox.
翻訳日:2024-03-07 14:04:23 公開日:2024-03-06
# DART:新しいレーダー画像合成のためのインシシットドプラ・トモグラフィ

DART: Implicit Doppler Tomography for Radar Novel View Synthesis ( http://arxiv.org/abs/2403.03896v1 )

ライセンス: Link先を確認
Tianshu Huang, John Miller, Akarsh Prabhakara, Tao Jin, Tarana Laroia, Zico Kolter, Anthony Rowe(参考訳) シミュレーションは、撮像、ターゲット検出、分類、追跡のための様々なアルゴリズムの迅速なプロトタイピングを可能にする、高周波システム設計にとって貴重なツールである。 しかし、現実的なレーダスキャンのシミュレーションは、シーンの正確なモデル、電波の周波数特性、およびそれに対応するレーダ合成機能を必要とする課題である。 DART - Doppler Aided Radar Tomographyは、レーダ特異的物理を用いて、レンジドップラー画像のための反射率および透過率に基づくレンダリングパイプラインを生成するニューラルラジアンスフィールドインスパイアされた手法である。 そこで我々は,DARTをカスタムデータ収集プラットフォームの構築と,ライダーを用いた位置推定と瞬時速度測定とともに,新しいレーダデータセットの収集により評価する。 最先端のベースラインと比較して、dartは、すべてのデータセットにまたがる斬新なビューから優れたレーダーレンジドップラーイメージを合成し、さらに高品質のトモグラフィ画像を生成するために使用できる。

Simulation is an invaluable tool for radio-frequency system designers that enables rapid prototyping of various algorithms for imaging, target detection, classification, and tracking. However, simulating realistic radar scans is a challenging task that requires an accurate model of the scene, radio frequency material properties, and a corresponding radar synthesis function. Rather than specifying these models explicitly, we propose DART - Doppler Aided Radar Tomography, a Neural Radiance Field-inspired method which uses radar-specific physics to create a reflectance and transmittance-based rendering pipeline for range-Doppler images. We then evaluate DART by constructing a custom data collection platform and collecting a novel radar dataset together with accurate position and instantaneous velocity measurements from lidar-based localization. In comparison to state-of-the-art baselines, DART synthesizes superior radar range-Doppler images from novel views across all datasets and additionally can be used to generate high quality tomographic images.
翻訳日:2024-03-07 14:03:53 公開日:2024-03-06
# IRCoder: 中間表現は言語モデルをロバストな多言語コードジェネレータにする

IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators ( http://arxiv.org/abs/2403.03894v1 )

ライセンス: Link先を確認
Indraneil Paul, Jun Luo, Goran Glava\v{s}, Iryna Gurevych(参考訳) コード理解と生成は、言語モデル(LM)の最も一般的な応用の1つである。 それでも、異なるプログラミング言語間の言語間移動、言語固有のデータ拡張、およびポストホックなLM適応などのコード-LMの多言語的側面の研究は、元のテキストコンテンツ以外のデータソースの活用とともに、自然言語よりもはるかに疎外されている。 特に、ほとんどの主要なCode-LMはソースコードファイルだけで事前訓練されている。 本研究では,プログラム言語間で共有されるコンパイラの中間表現を活用して,コード-LMの多言語化と言語間転送を容易にする可能性を検討する。 この目的のために,約4百万のソースコードファイルと各中間表現を組み合わせた並列データセットSLTransをコンパイルした。 次に、様々なベースコード-LM(サイズは 1.1B から 7.3B まで)から、SLTrans 上で継続的に因果言語モデリングトレーニングを行い、コード-LM は(1) IR言語を学習させ、(2) IR 構造を様々なプログラミング言語の構成要素と整合させる。 ircoderと呼ばれる私たちのモデルは、プロンプトロバスト性、多言語コード補完、コード理解、命令追従など、さまざまなコード生成タスクとメトリクスにわたって、サイズと一貫性のある成果を示しています。

Code understanding and generation have fast become some of the most popular applications of language models (LMs). Nonetheless, research on multilingual aspects of Code-LMs (i.e., LMs for code generation) such as cross-lingual transfer between different programming languages, language-specific data augmentation, and post-hoc LM adaptation, alongside exploitation of data sources other than the original textual content, has been much sparser than for their natural language counterparts. In particular, most mainstream Code-LMs have been pre-trained on source code files alone. In this work, we investigate the prospect of leveraging readily available compiler intermediate representations - shared across programming languages - to improve the multilingual capabilities of Code-LMs and facilitate cross-lingual transfer. To this end, we first compile SLTrans, a parallel dataset consisting of nearly 4M self-contained source code files coupled with respective intermediate representations. Next, starting from various base Code-LMs (ranging in size from 1.1B to 7.3B parameters), we carry out continued causal language modelling training on SLTrans, forcing the Code-LMs to (1) learn the IR language and (2) align the IR constructs with respective constructs of various programming languages. Our resulting models, dubbed IRCoder, display sizeable and consistent gains across a wide variety of code generation tasks and metrics, including prompt robustness, multilingual code completion, code understanding, and instruction following.
翻訳日:2024-03-07 14:03:34 公開日:2024-03-06
# 一から多へ:言語モデルにおける毒性緩和の範囲を広げる

From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models ( http://arxiv.org/abs/2403.03893v1 )

ライセンス: Link先を確認
Luiza Pozzobon, Patrick Lewis, Sara Hooker and Beyza Ermis(参考訳) これまで、言語モデルにおける毒性の軽減はほとんどが単一言語環境に重点を置いてきた。 言語モデルは多言語機能を受け入れるので、私たちの安全対策はペースを保ちます。 この研究ギャップを認識し, 従来の毒性緩和の範囲を広げ, 複数の言語が提示する複雑さに対処する。 言語にまたがる十分な注釈付きデータセットがない場合、私たちは翻訳データを使用して緩和技術を評価し、強化します。 また, 静的および連続的毒性緩和シナリオにおいて, 検索提示手法と微調整緩和手法を比較した。 これにより,翻訳品質と言語間移動が毒性軽減に及ぼす影響を検討することができる。 また、モデルサイズとデータ量がこれらの緩和努力の成功にどのように影響するかについても検討する。 本研究は,9つの言語を網羅し,多種多様な言語族と資源利用のレベルを表現している。 包括的実験を通じて,多言語毒性軽減の複雑さに関する洞察を提供し,貴重な洞察を提供し,このますます重要な分野における今後の研究への道を開く。 コードとデータはhttps://github.com/for-ai/goodtrieverで入手できる。

To date, toxicity mitigation in language models has almost entirely been focused on single-language settings. As language models embrace multilingual capabilities, it's crucial our safety measures keep pace. Recognizing this research gap, our approach expands the scope of conventional toxicity mitigation to address the complexities presented by multiple languages. In the absence of sufficient annotated datasets across languages, we employ translated data to evaluate and enhance our mitigation techniques. We also compare finetuning mitigation approaches against retrieval-augmented techniques under both static and continual toxicity mitigation scenarios. This allows us to examine the effects of translation quality and the cross-lingual transfer on toxicity mitigation. We also explore how model size and data quantity affect the success of these mitigation efforts. Covering nine languages, our study represents a broad array of linguistic families and levels of resource availability, ranging from high to mid-resource languages. Through comprehensive experiments, we provide insights into the complexities of multilingual toxicity mitigation, offering valuable insights and paving the way for future research in this increasingly important field. Code and data are available at https://github.com/for-ai/goodtriever.
翻訳日:2024-03-07 14:03:06 公開日:2024-03-06
# 共同マルチタスク学習は計算病理学における弱い教師付きバイオマーカー予測を改善する

Joint multi-task learning improves weakly-supervised biomarker prediction in computational pathology ( http://arxiv.org/abs/2403.03891v1 )

ライセンス: Link先を確認
Omar S. M. El Nahhas, Georg W\"olflein, Marta Ligero, Tim Lenz, Marko van Treeck, Firas Khader, Daniel Truhn, Jakob Nikolas Kather(参考訳) 深層学習(DL)は、弱い監督下で、デジタル化されたがん組織学から直接バイオマーカーを予測することができる。 近年,回帰型dlによる連続バイオマーカーの予測が注目されている。 それでも、臨床的な意思決定は、しばしば分類学的結果を必要とする。 そこで我々は,マイクロサテライト不安定性 (microsatellite instability, msi) と相同組換え欠損 (homologous recombination deficiency,hrd) の2つの主要な予測バイオマーカーの予測のための4つの患者コホートを用いて,腫瘍の微小環境に関する補助的回帰課題を訓練した,弱い教師付きマルチタスクトランスフォーマアーキテクチャを開発した。 さらに,計算病理学における弱教師付きマルチタスク学習のためのタスクバランス16手法の包括的ベンチマークを行った。 提案手法を応用して, 受信機動作特性下での最先端領域を+7.7%, +4.1%改善し, 外部コホートにおけるMSIおよびRDの予測において, 潜伏埋め込みの+8%, +5%のクラスタリングを向上した。

Deep Learning (DL) can predict biomarkers directly from digitized cancer histology in a weakly-supervised setting. Recently, the prediction of continuous biomarkers through regression-based DL has seen an increasing interest. Nonetheless, clinical decision making often requires a categorical outcome. Consequently, we developed a weakly-supervised joint multi-task Transformer architecture which has been trained and evaluated on four public patient cohorts for the prediction of two key predictive biomarkers, microsatellite instability (MSI) and homologous recombination deficiency (HRD), trained with auxiliary regression tasks related to the tumor microenvironment. Moreover, we perform a comprehensive benchmark of 16 approaches of task balancing for weakly-supervised joint multi-task learning in computational pathology. Using our novel approach, we improve over the state-of-the-art area under the receiver operating characteristic by +7.7% and +4.1%, as well as yielding better clustering of latent embeddings by +8% and +5% for the prediction of MSI and HRD in external cohorts, respectively.
翻訳日:2024-03-07 14:02:48 公開日:2024-03-06
# キネマティックス対応マルチタスクロボットマニピュレーションのための階層的拡散ポリシー

Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation ( http://arxiv.org/abs/2403.03890v1 )

ライセンス: Link先を確認
Xiao Ma, Sumit Patidar, Iain Haughton, Stephen James(参考訳) 本稿ではマルチタスクロボット操作のための階層的エージェントである階層的拡散ポリシー(HDP)を紹介する。 HDPは、操作ポリシーを階層的な構造に分解する: 遠く離れた次の最強のエンドエフェクタポーズ(NBP)を予測するハイレベルタスク計画エージェントと、最適な動き軌跡を生成する低レベル目標条件拡散ポリシー。 分解されたポリシー表現により、HDPは細かな低レベルアクションを生成しながら、長い水平タスク計画の両方に取り組むことができる。 ロボットキネマティックス制約を満たしながら文脈認識動作軌跡を生成するために,新たなキネマティックス認識目標条件制御エージェント,ロボットキネマティックスディフューザ(rkディフューザ)を提案する。 具体的には、RK-Diffuserは、エンドエフェクターポーズと関節位置軌跡の両方を生成することを学習し、キネマティックスを意識しない正確なエンドエフェクターポーズを、異なるキネマティックスを介して、より正確なジョイントポジションディフューザに拡散させる。 実験により,HDPはシミュレーションと実世界の両方において最先端の手法よりも極めて高い成功率を示す。

This paper introduces Hierarchical Diffusion Policy (HDP), a hierarchical agent for multi-task robotic manipulation. HDP factorises a manipulation policy into a hierarchical structure: a high-level task-planning agent which predicts a distant next-best end-effector pose (NBP), and a low-level goal-conditioned diffusion policy which generates optimal motion trajectories. The factorised policy representation allows HDP to tackle both long-horizon task planning while generating fine-grained low-level actions. To generate context-aware motion trajectories while satisfying robot kinematics constraints, we present a novel kinematics-aware goal-conditioned control agent, Robot Kinematics Diffuser (RK-Diffuser). Specifically, RK-Diffuser learns to generate both the end-effector pose and joint position trajectories, and distill the accurate but kinematics-unaware end-effector pose diffuser to the kinematics-aware but less accurate joint position diffuser via differentiable kinematics. Empirically, we show that HDP achieves a significantly higher success rate than the state-of-the-art methods in both simulation and real-world.
翻訳日:2024-03-07 14:02:28 公開日:2024-03-06
# FaaF:RAGシステム評価機能としてのFacts

FaaF: Facts as a Function for the evaluation of RAG systems ( http://arxiv.org/abs/2403.03888v1 )

ライセンス: Link先を確認
Vasileios Katranidis and Gabor Barany(参考訳) 参照ソースからのファクトリコールは、検索と生成の両方の品質を直接調査するため、検索拡張生成(RAG)システムの性能を評価するために重要である。 しかし、この評価を確実かつ効率的に行うことは依然として課題である。 最近の研究は、言語モデル(LM)評価器による事実検証に重点を置いているが、不完全または不正確な情報が存在する場合、これらの手法は信頼できない。 ファクト・アズ・ア・ファンクション(faaf)、lmsの機能呼び出し能力を利用するファクト検証の新しいアプローチ、ラグ・ファクトリコール評価のためのフレームワークを紹介する。 FaaFは、プロンプトベースのアプローチと比較して、効率とコストを数倍削減しながら、不完全な情報でLMがサポート対象の事実を識別する能力を大幅に改善する。

Factual recall from a reference source is crucial for evaluating the performance of Retrieval Augmented Generation (RAG) systems, as it directly probes into the quality of both retrieval and generation. However, it still remains a challenge to perform this evaluation reliably and efficiently. Recent work has focused on fact verification via prompting language model (LM) evaluators, however we demonstrate that these methods are unreliable in the presence of incomplete or inaccurate information. We introduce Facts as a Function (FaaF), a new approach to fact verification that utilizes the function calling abilities of LMs and a framework for RAG factual recall evaluation. FaaF substantially improves the ability of LMs to identify unsupported facts in text with incomplete information whilst improving efficiency and lowering cost by several times, compared to prompt-based approaches.
翻訳日:2024-03-07 14:02:01 公開日:2024-03-06
# SaulLM-7B: 法のための大規模言語モデル

SaulLM-7B: A pioneering Large Language Model for Law ( http://arxiv.org/abs/2403.03883v1 )

ライセンス: Link先を確認
Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera L\'ucia Raposo, Sofia Morgado, Michael Desa(参考訳) 本稿では,法律ドメインに適した大規模言語モデル (LLM) である SaulLM-7B を紹介する。 70億のパラメータを持つ SaulLM-7B は、法的テキストの理解と生成のために明示的に設計された最初の LLM である。 Mistral 7Bアーキテクチャを基盤として、SaulLM-7Bは300億以上のトークンからなるイングランドの法定コーパスで訓練されている。 SaulLM-7Bは、法律文書の理解と処理における最先端の能力を示す。 さらに、法的なデータセットを利用して法務タスクにおけるsullm-7bの性能をさらに向上させる新しい指導的微調整法を提案する。 SaulLM-7BはCC-BY-SA-4.0ライセンスでリリースされた。

In this paper, we introduce SaulLM-7B, a large language model (LLM) tailored for the legal domain. With 7 billion parameters, SaulLM-7B is the first LLM designed explicitly for legal text comprehension and generation. Leveraging the Mistral 7B architecture as its foundation, SaulLM-7B is trained on an English legal corpus of over 30 billion tokens. SaulLM-7B exhibits state-of-the-art proficiency in understanding and processing legal documents. Additionally, we present a novel instructional fine-tuning method that leverages legal datasets to further enhance SaulLM-7B's performance in legal tasks. SaulLM-7B is released under the CC-BY-SA-4.0 License.
翻訳日:2024-03-07 14:01:32 公開日:2024-03-06
# 多種医用画像セグメンテーションのための学習ラベル改善のための自己と混合監督

Self and Mixed Supervision to Improve Training Labels for Multi-Class Medical Image Segmentation ( http://arxiv.org/abs/2403.03882v1 )

ライセンス: Link先を確認
Jianfei Liu and Christopher Parnell and Ronald M. Summers(参考訳) 正確なトレーニングラベルは、マルチクラスの医療画像セグメンテーションの鍵となるコンポーネントである。 アノテーションはドメインの専門知識を必要とするため、コストと時間を要する。 本研究の目的は、デュアルブランチネットワークを開発し、マルチクラス画像セグメンテーションのためのトレーニングラベルを自動改善することである。 転送学習はネットワークをトレーニングし、不正確なラベルを逐次改善するために使用される。 デュアルブランチネットワークは、まず弱いラベルだけでモデルパラメータを初期化するために訓練される。 ネットワークが安定化した後、共有エンコーダが凍結され、強いラベルと弱いラベルによって、強いデコーダと弱いデコーダが微調整される。 微調整過程において、弱ラベルの精度が反復的に向上する。 腹部CTで, 筋肉, 皮下, 内臓の脂肪組織を3段階に分けた。 11例において, トレーニングラベルの精度は有意に向上し, 筋, 皮下組織, 内臓脂肪組織のdice類似度係数は74.2%から91.5%, 91.2%から95.6%, 77.6%から88.5%に増加した(p<0.05)。 従来の手法と比較すると,ラベル精度も有意に向上した(p<0.05。 これらの実験結果から,デュアルブランチネットワークとトランスファーラーニングの組み合わせが,マルチクラスセグメンテーションのためのトレーニングラベルの改善に有効であることが示唆された。

Accurate training labels are a key component for multi-class medical image segmentation. Their annotation is costly and time-consuming because it requires domain expertise. This work aims to develop a dual-branch network and automatically improve training labels for multi-class image segmentation. Transfer learning is used to train the network and improve inaccurate weak labels sequentially. The dual-branch network is first trained by weak labels alone to initialize model parameters. After the network is stabilized, the shared encoder is frozen, and strong and weak decoders are fine-tuned by strong and weak labels together. The accuracy of weak labels is iteratively improved in the fine-tuning process. The proposed method was applied to a three-class segmentation of muscle, subcutaneous and visceral adipose tissue on abdominal CT scans. Validation results on 11 patients showed that the accuracy of training labels was statistically significantly improved, with the Dice similarity coefficient of muscle, subcutaneous and visceral adipose tissue increased from 74.2% to 91.5%, 91.2% to 95.6%, and 77.6% to 88.5%, respectively (p<0.05). In comparison with our earlier method, the label accuracy was also significantly improved (p<0.05). These experimental results suggested that the combination of the dual-branch network and transfer learning is an efficient means to improve training labels for multi-class segmentation.
翻訳日:2024-03-07 14:01:21 公開日:2024-03-06
# 拡散モデルを用いた潜在データセット蒸留

Latent Dataset Distillation with Diffusion Models ( http://arxiv.org/abs/2403.03881v1 )

ライセンス: Link先を確認
Brian B. Moser, Federico Raue, Sebastian Palacio, Stanislav Frolov and Andreas Dengel(参考訳) 機械学習の有効性は伝統的に、ますます大きなデータセットの可用性に依存している。 しかし、大きなデータセットはストレージの問題を引き起こし、影響のないサンプルを含んでいるため、トレーニング中にモデルの最終的な精度に影響を与えることなく無視することができる。 これらの制限に応えて、データセットの情報を(合成)サンプルの凝縮集合、すなわち蒸留データセットに蒸留するという概念が浮上した。 重要な側面のひとつは、オリジナルデータセットと合成データセットをリンクするための選択されたアーキテクチャ(通常はconvnet)である。 しかし, 使用済みモデルアーキテクチャが蒸留時に使用するモデルと異なる場合, 最終的な精度は低い。 もうひとつの課題は、128x128以上の高解像度画像の生成である。 本稿では,潜時空間における拡散とデータセット蒸留を組み合わせた拡散モデル(ld3m)を用いた潜時データセット蒸留を提案する。 LD3Mは、データセットの蒸留に適した新しい拡散プロセスを導入し、合成画像の学習の勾配基準を改善する。 拡散段数を調整することで、LD3Mは速度と精度のトレードオフを直感的に制御する方法を提供する。 我々は,複数のImageNetサブセットと高解像度画像(128x128,256x256)にアプローチを評価した。 その結果、LD3Mは1クラスあたり1.8 p.p.と4.2 p.p.で、それぞれ最先端の蒸留技術を上回っている。

The efficacy of machine learning has traditionally relied on the availability of increasingly larger datasets. However, large datasets pose storage challenges and contain non-influential samples, which could be ignored during training without impacting the final accuracy of the model. In response to these limitations, the concept of distilling the information on a dataset into a condensed set of (synthetic) samples, namely a distilled dataset, emerged. One crucial aspect is the selected architecture (usually ConvNet) for linking the original and synthetic datasets. However, the final accuracy is lower if the employed model architecture differs from the model used during distillation. Another challenge is the generation of high-resolution images, e.g., 128x128 and higher. In this paper, we propose Latent Dataset Distillation with Diffusion Models (LD3M) that combine diffusion in latent space with dataset distillation to tackle both challenges. LD3M incorporates a novel diffusion process tailored for dataset distillation, which improves the gradient norms for learning synthetic images. By adjusting the number of diffusion steps, LD3M also offers a straightforward way of controlling the trade-off between speed and accuracy. We evaluate our approach in several ImageNet subsets and for high-resolution images (128x128 and 256x256). As a result, LD3M consistently outperforms state-of-the-art distillation techniques by up to 4.8 p.p. and 4.2 p.p. for 1 and 10 images per class, respectively.
翻訳日:2024-03-07 14:01:00 公開日:2024-03-06
# グラフニューラルネットワークの出力はほぼ漸近的に一定である

Graph neural network outputs are almost surely asymptotically constant ( http://arxiv.org/abs/2403.03880v1 )

ライセンス: Link先を確認
Sam Adam-Day, Michael Benedikt, \.Ismail \.Ilkan Ceylan, Ben Finkelshtein(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上のさまざまな学習タスクのための主要なアーキテクチャである。 我々は,gnnの確率的分類器の予測が,ランダムグラフモデルから描画されたより大きなグラフに対してどのように発展するかを調べることにより,gnnの表現力に対する新たな角度を示す。 出力は定数関数に収束し、これらの分類器が一様に表現できることを上界に示す。 この収束現象は、平均を含む集約とグラフトランスフォーマーの注意に基づくメカニズムを含む、芸術モデルの状態を含む非常に幅広い種類のGNNに適用される。 この結果は、(スパース) erd\h{o}s-r\'enyiモデルや確率ブロックモデルを含む幅広いランダムグラフモデルに適用できる。 これらの知見を実証的に検証し、収束現象が比較的小さなグラフ上にすでに現れていることを観察した。

Graph neural networks (GNNs) are the predominant architectures for a variety of learning tasks on graphs. We present a new angle on the expressive power of GNNs by studying how the predictions of a GNN probabilistic classifier evolve as we apply it on larger graphs drawn from some random graph model. We show that the output converges to a constant function, which upper-bounds what these classifiers can express uniformly. This convergence phenomenon applies to a very wide class of GNNs, including state of the art models, with aggregates including mean and the attention-based mechanism of graph transformers. Our results apply to a broad class of random graph models, including the (sparse) Erd\H{o}s-R\'enyi model and the stochastic block model. We empirically validate these findings, observing that the convergence phenomenon already manifests itself on graphs of relatively modest size.
翻訳日:2024-03-07 14:00:29 公開日:2024-03-06
# バックトレーシング:クエリーの原因を検索する

Backtracing: Retrieving the Cause of the Query ( http://arxiv.org/abs/2403.03956v1 )

ライセンス: Link先を確認
Rose E. Wang, Pawan Wirawarn, Omar Khattab, Noah Goodman, Dorottya Demszky(参考訳) 多くのオンラインコンテンツポータルでは、ユーザーは自分の理解を補うために質問することができる(講義など)。 情報検索(ir)システムは、そのようなユーザークエリに対する回答を提供するが、コンテンツ作成者(例えば、コンテンツを改善したい講師)が、ユーザーが質問をするために_ caused_するセグメントを識別するのを直接支援しない。 本稿では,ユーザクエリの原因となるであろうテキストセグメントを検索する,バックトレースのタスクを紹介する。 我々は、コンテンツ配信とコミュニケーションを改善する上でバックトラッキングが重要である3つの現実世界ドメインを定式化する。 (a)講義領域における学生の混乱 (b)ニュース記事領域の読者好奇心 (c)会話領域におけるユーザの感情 そこで本研究では,bi-encoder,re-grade,plath-based method,chatgptなど,一般的な情報検索手法と言語モデリング手法のゼロショット性能を評価する。 従来のirシステムは意味的に関連のある情報を検索する(例えば、"プロジェクション行列"の詳細は"複数回投影しても同じポイントになってしまうか?")が、しばしば因果関係のコンテキストを見逃す(例えば、講師は"プロジェクションは2回同じ回答を1つのプロジェクションと同じ回答を得る")。 以上の結果から,バックトレッキングの改善の余地があり,新たな検索手法が求められている。 当社のベンチマークは,ユーザクエリに影響を与えるコンテンツ生成と言語トリガの識別を改良した,バックトレッキングのための将来の検索システムの改善に役立てることを願っている。 コードとデータはオープンソースです。 https://github.com/rosewang2008/backtracing。

Many online content portals allow users to ask questions to supplement their understanding (e.g., of lectures). While information retrieval (IR) systems may provide answers for such user queries, they do not directly assist content creators -- such as lecturers who want to improve their content -- identify segments that _caused_ a user to ask those questions. We introduce the task of backtracing, in which systems retrieve the text segment that most likely caused a user query. We formalize three real-world domains for which backtracing is important in improving content delivery and communication: understanding the cause of (a) student confusion in the Lecture domain, (b) reader curiosity in the News Article domain, and (c) user emotion in the Conversation domain. We evaluate the zero-shot performance of popular information retrieval methods and language modeling methods, including bi-encoder, re-ranking and likelihood-based methods and ChatGPT. While traditional IR systems retrieve semantically relevant information (e.g., details on "projection matrices" for a query "does projecting multiple times still lead to the same point?"), they often miss the causally relevant context (e.g., the lecturer states "projecting twice gets me the same answer as one projection"). Our results show that there is room for improvement on backtracing and it requires new retrieval approaches. We hope our benchmark serves to improve future retrieval systems for backtracing, spawning systems that refine content generation and identify linguistic triggers influencing user queries. Our code and data are open-sourced: https://github.com/rosewang2008/backtracing.
翻訳日:2024-03-07 13:54:42 公開日:2024-03-06
# 一般統計力学マッピングによる局所的デコヒーレンス下での安定化符号の理解

Understanding Stabilizer Codes Under Local Decoherence Through a General Statistical Mechanics Mapping ( http://arxiv.org/abs/2403.03955v1 )

ライセンス: Link先を確認
Anasuya Lyons(参考訳) 我々は,局所的,非一貫性なパウリ誤差の下での一般安定子ハミルトンの問題を考察する。 2つの異なるアプローチを使う。 (i)ハーの多項式形式論 arXiv:1204.1063 (ii)css符号のホモロジー的な観点 --デコヒートされた基底状態密度行列の$n$th momentから古典的な統計力学モデルへのマッピングを構築する。 (i)量子相対エントロピー。 (ii)コヒーレント情報、及び (iii) 絡み合いネガティビティ -- 統計力学モデルにおける熱力学的量にマッピングし、復号相転移を特徴付けるために使用できる。 例えば、3DトーリックコードとX-キューブモデルを分析し、最適な復号しきい値の限界を導出し、デコヒーレンスの下で情報特性の洞察を得る。 さらに、SMマッピングが「拡張」マップとして機能することを示し、デコヒーレンスの下で与えられたコードを記述する古典的なモデルも、同じコードを得るために計測することができる。 最後に、相関エラーと非CSS安定化符号についてコメントする。

We consider the problem of a generic stabilizer Hamiltonian under local, incoherent Pauli errors. Using two different approaches -- (i) Haah's polynomial formalism arXiv:1204.1063 and (ii) the homological perspective on CSS codes -- we construct a mapping from the $n$th moment of the decohered ground state density matrix to a classical statistical mechanics model. We demonstrate that various measures of information capacity -- (i) quantum relative entropy, (ii) coherent information, and (iii) entanglement negativity -- map to thermodynamic quantities in the statistical mechanics model and can be used to characterize the decoding phase transition. As examples, we analyze the 3D toric code and X-cube model, deriving bounds on their optimal decoding thresholds and gaining insight into their information properties under decoherence. Additionally, we demonstrate that the SM mapping acts an an "ungauging" map; the classical models that describe a given code under decoherence also can be gauged to obtain the same code. Finally, we comment on correlated errors and non-CSS stabilizer codes.
翻訳日:2024-03-07 13:54:12 公開日:2024-03-06
# 3次元拡散政策

3D Diffusion Policy ( http://arxiv.org/abs/2403.03954v1 )

ライセンス: Link先を確認
Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu(参考訳) 模倣学習は、ロボットに巧妙なスキルを教える効果的な方法を提供するが、複雑なスキルをしっかりと一般化して学ぶことは、通常、大量の人間のデモンストレーションを消費する。 この課題に対処するため, 条件付き行動生成モデルである拡散ポリシーに3次元視覚表現のパワーを組み込んだ新しい視覚模倣学習手法である3次元拡散政策(DP3)を提案する。 DP3の中核設計は、効率的な点エンコーダを持つスパース点雲から抽出されたコンパクトな3次元視覚表現の利用である。 72のシミュレーションタスクを含む実験では、DP3は10のデモでほとんどのタスクをうまく処理し、55.3%の相対的な改善でベースラインを超えた。 4つの実際のロボットタスクにおいて、dp3は成功率85%の正確な制御を示し、各タスクの40のデモンストレーションしか与えられず、空間、視点、外観、インスタンスなど様々な面で優れた一般化能力を示す。 興味深いことに、実際のロボット実験では、DP3は人間の介入を必要とするベースライン法とは対照的に、安全要件にほとんど違反しない。 実世界のロボット学習における3D表現の重要性を明らかにする。 ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで入手できる。

Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 55.3% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .
翻訳日:2024-03-07 13:53:52 公開日:2024-03-06
# 振動性強結合下におけるキャビティ修飾化学反応の集合特性の検討

Investigating the Collective Nature of Cavity Modified Chemical Kinetics under Vibrational Strong Coupling ( http://arxiv.org/abs/2403.03951v1 )

ライセンス: Link先を確認
Lachlan P. Lindoy, Arkajit Mandal, David R. Reichman(参考訳) 本稿では, 有限温度における振動強結合(vsc)限界と, 少数の分子と多数の分子限界における散逸溶媒の存在において, 光学キャビティ内の化学反応系のダイナミクスを処理できる量子力学手法を開発した。 2つの単純なモデルの文脈において、VSC系における反応性が平衡における変化速度の挙動を示すのではなく、系が平衡から明確に外れたときに共鳴キャビティが変化することを示す。 以上の結果から, 集団体制における反応性の変化と, さらなる精査を求めるモデルに含まれない特徴を示唆する実験的プロトコルが示唆された。

In this paper we develop quantum dynamical methods capable of treating the dynamics of chemically reacting systems in an optical cavity in the vibrationally strong-coupling (VSC) limit at finite temperatures and in the presence of a dissipative solvent in both the few and many molecule limits. In the context of two simple models we demonstrate how reactivity in the {\em collective} VSC regime does not exhibit altered rate behavior in equilibrium, but may exhibit resonant cavity modification of reactivity when the system is explicitly out of equilibrium. Our results suggest experimental protocols that may be used to modify reactivity in the collective regime and point to features not included in the models studied which demand further scrutiny.
翻訳日:2024-03-07 13:53:30 公開日:2024-03-06
# Stop Regressing: スケーラブルなDeep RLの分類によるバリュー関数のトレーニング

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL ( http://arxiv.org/abs/2403.03950v1 )

ライセンス: Link先を確認
Jesse Farebrother, Jordi Orbay, Quan Vuong, Adrien Ali Ta\"iga, Yevgen Chebotar, Ted Xiao, Alex Irpan, Sergey Levine, Pablo Samuel Castro, Aleksandra Faust, Aviral Kumar, Rishabh Agarwal(参考訳) 値関数は深層強化学習(RL)の中心的な構成要素である。 ニューラルネットワークによってパラメータ化されたこれらの関数は、ブートストラップされたターゲット値にマッチする平均二乗誤差回帰目的を用いてトレーニングされる。 しかし,大容量変圧器などの大規模ネットワークへの回帰を用いた値ベースRL手法のスケーリングは困難であることが証明されている。 この困難さは教師付き学習とは対照的であり、クロスエントロピーの分類損失を活用することにより、教師付き手法は大規模ネットワークに確実に拡張されている。 本稿では,この違いを観測し,学習値関数の回帰に代えて分類を行うことで,深部RLのスケーラビリティを向上できるかどうかを考察する。 分類的クロスエントロピーで訓練された値関数は、様々なドメインのパフォーマンスと拡張性を大幅に改善する。 それらは、SoftMoEを使ったAtari 2600ゲーム上のシングルタスクRL、大規模ResNetを使ったAtari上のマルチタスクRL、Q変換器によるロボット操作、検索なしでチェスをプレイする、高容量変換器を使った言語支援のWordleタスク、これらのドメインで最先端の結果を達成する。 注意深い分析を通じて,カテゴリー的クロスエントロピーの利点は,ノイズのあるターゲットや非定常性といった,価値ベースのrlに固有の問題を緩和する能力に起因していることが示された。 全体としては、分類的クロスエントロピーによる価値関数のトレーニングへの簡単なシフトは、ほとんど無駄なコストでディープRLのスケーラビリティを大幅に改善する可能性があると論じる。

Value functions are a central component of deep reinforcement learning (RL). These functions, parameterized by neural networks, are trained using a mean squared error regression objective to match bootstrapped target values. However, scaling value-based RL methods that use regression to large networks, such as high-capacity Transformers, has proven challenging. This difficulty is in stark contrast to supervised learning: by leveraging a cross-entropy classification loss, supervised methods have scaled reliably to massive networks. Observing this discrepancy, in this paper, we investigate whether the scalability of deep RL can also be improved simply by using classification in place of regression for training value functions. We demonstrate that value functions trained with categorical cross-entropy significantly improves performance and scalability in a variety of domains. These include: single-task RL on Atari 2600 games with SoftMoEs, multi-task RL on Atari with large-scale ResNets, robotic manipulation with Q-transformers, playing Chess without search, and a language-agent Wordle task with high-capacity Transformers, achieving state-of-the-art results on these domains. Through careful analysis, we show that the benefits of categorical cross-entropy primarily stem from its ability to mitigate issues inherent to value-based RL, such as noisy targets and non-stationarity. Overall, we argue that a simple shift to training value functions with categorical cross-entropy can yield substantial improvements in the scalability of deep RL at little-to-no cost.
翻訳日:2024-03-07 13:53:17 公開日:2024-03-06
# シミュレーションによる現実の和解:ロバスト操作のための現実から現実へのアプローチ

Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation ( http://arxiv.org/abs/2403.03949v1 )

ライセンス: Link先を確認
Marcel Torne, Anthony Simeonov, Zechu Li, April Chan, Tao Chen, Abhishek Gupta, Pulkit Agrawal(参考訳) 模倣学習法は、物体のポーズ、身体的障害、視覚障害の変化に頑健な方針を学ぶために、重要な人間の監督を必要とする。 一方、強化学習は、堅牢な行動を学ぶために自律的に環境を探索できるが、実用的でない実際のデータ収集を必要とする可能性がある。 安全でない実世界のデータ収集や広範な人間の監督を伴わずに、高性能で堅牢なポリシーを学ぶために、少量の実世界データから構築した「デジタルツイン」シミュレーション環境において強化学習により実世界の模倣学習ポリシーを堅牢化するシステムであるrialtoを提案する。 このリアル・トゥ・シミュレート・トゥ・リアルパイプラインを実現するために、RialToは現実世界環境のデジタルツインを素早くスキャンして構築するための使いやすいインターフェースを提案する。 また,実世界の実演をシミュレーション環境に導入し,人間の介入やエンジニアリングを最小限に抑えながら,効率的な微調整を行う「逆蒸留」手法を提案する。 私たちはRialToを、ラックに皿をしっかり積み重ねたり、棚に本を置いたり、その他6つのタスクなど、現実世界のさまざまなロボット操作の問題にまたがって評価した。 RialToは、大規模な人的データ収集を必要とせずに、ポリシーの堅牢性を高める(67%以上)。 Project website and video at https://real-to-sim-to-real.github.io/RialTo/

Imitation learning methods need significant human supervision to learn policies robust to changes in object poses, physical disturbances, and visual distractors. Reinforcement learning, on the other hand, can explore the environment autonomously to learn robust behaviors but may require impractical amounts of unsafe real-world data collection. To learn performant, robust policies without the burden of unsafe real-world data collection or extensive human supervision, we propose RialTo, a system for robustifying real-world imitation learning policies via reinforcement learning in "digital twin" simulation environments constructed on the fly from small amounts of real-world data. To enable this real-to-sim-to-real pipeline, RialTo proposes an easy-to-use interface for quickly scanning and constructing digital twins of real-world environments. We also introduce a novel "inverse distillation" procedure for bringing real-world demonstrations into simulated environments for efficient fine-tuning, with minimal human intervention and engineering required. We evaluate RialTo across a variety of robotic manipulation problems in the real world, such as robustly stacking dishes on a rack, placing books on a shelf, and six other tasks. RialTo increases (over 67%) in policy robustness without requiring extensive human data collection. Project website and videos at https://real-to-sim-to-real.github.io/RialTo/
翻訳日:2024-03-07 13:52:47 公開日:2024-03-06
# SPEAR:フェデレートラーニングにおけるバッチの高次インバージョン

SPEAR:Exact Gradient Inversion of Batches in Federated Learning ( http://arxiv.org/abs/2403.03945v1 )

ライセンス: Link先を確認
Dimitar I. Dimitrov, Maximilian Baader, Mark Niklas M\"uller, Martin Vechev(参考訳) フェデレーション学習(federated learning)は、複数のクライアントがローカルデータの勾配更新のみを、実際のデータではなくサーバと共有する、コラボレーション機械学習のためのフレームワークである。 残念ながら、最近、勾配反転攻撃はこれらの共有勾配からこれらのデータを再構成できることが示されている。 既存の攻撃では、重要な誠実だが正確な設定で、バッチサイズが$b=1$でしか正確な再構築ができない。 本研究では,バッチ全体を$b > 1$ exactly}で再構築するアルゴリズムを提案する。 このアプローチは、数学的洞察を勾配の明示的な低ランク構造とサンプリングベースのアルゴリズムを組み合わせる。 重要なのは,reluによって引き起こされた勾配のスパーシティを利用して,大量の不正確なサンプルを正確にフィルタリングし,最終的な再構築ステップをトラクタブル化することである。 私たちは、完全接続されたネットワークに対する効率的なgpu実装を提供し、大きなネットワーク幅と深さを扱いながら、正確に$b \lesssim 25$要素のバッチをリカバリできることを示します。

Federated learning is a popular framework for collaborative machine learning where multiple clients only share gradient updates on their local data with the server and not the actual data. Unfortunately, it was recently shown that gradient inversion attacks can reconstruct this data from these shared gradients. Existing attacks enable exact reconstruction only for a batch size of $b=1$ in the important honest-but-curious setting, with larger batches permitting only approximate reconstruction. In this work, we propose \emph{the first algorithm reconstructing whole batches with $b >1$ exactly}. This approach combines mathematical insights into the explicit low-rank structure of gradients with a sampling-based algorithm. Crucially, we leverage ReLU-induced gradient sparsity to precisely filter out large numbers of incorrect samples, making a final reconstruction step tractable. We provide an efficient GPU implementation for fully connected networks and show that it recovers batches of $b \lesssim 25$ elements exactly while being tractable for large network widths and depths.
翻訳日:2024-03-07 13:52:20 公開日:2024-03-06
# ヒューリスティックコア:事前学習言語モデルにおけるサブネットワークの一般化を理解する

The Heuristic Core: Understanding Subnetwork Generalization in Pretrained Language Models ( http://arxiv.org/abs/2403.03942v1 )

ライセンス: Link先を確認
Adithya Bhaskar, Dan Friedman, Danqi Chen(参考訳) 以前の研究によると、異なるランダムな種で微調整された事前学習言語モデル(lms)は、同様のドメイン内性能を達成することができるが、構文一般化のテストでは異なる一般化が可能である。 本研究では,単一モデル内であっても,ドメイン内でも同様に動作するが,大きく異なる一般化を行うサブネットワークが複数存在することを示す。 これらの現象をよりよく理解するために、「競合サブネットワーク」という用語で理解できるかどうかを検討する: モデルは最初は異なるサブネットワークに対応する様々な異なるアルゴリズムを表現し、最終的に1つに収束すると一般化が起こる。 この説明は、単純なアルゴリズムタスクの一般化を説明するために使われてきた。 競合するサブネットワークを見つける代わりに、すべてのサブネットワーク(一般化するかどうかに関わらず)が、ヒューリスティックコアと呼ばれる一連の注意ヘッドを共有していることに気付きます。 さらなる分析により、これらの注意は訓練の初期段階に現れ、浅い非一般化特徴を計算することが示唆された。 モデルは、より高度な特徴を計算するために「ヒューリスティック」ヘッドの出力に依存する追加の注意ヘッドを組み込むことで一般化することを学ぶ。 全体としては,事前学習したlmsにおける統語的一般化のメカニズムについて,より詳細な情報を提供する。

Prior work has found that pretrained language models (LMs) fine-tuned with different random seeds can achieve similar in-domain performance but generalize differently on tests of syntactic generalization. In this work, we show that, even within a single model, we can find multiple subnetworks that perform similarly in-domain, but generalize vastly differently. To better understand these phenomena, we investigate if they can be understood in terms of "competing subnetworks": the model initially represents a variety of distinct algorithms, corresponding to different subnetworks, and generalization occurs when it ultimately converges to one. This explanation has been used to account for generalization in simple algorithmic tasks. Instead of finding competing subnetworks, we find that all subnetworks -- whether they generalize or not -- share a set of attention heads, which we refer to as the heuristic core. Further analysis suggests that these attention heads emerge early in training and compute shallow, non-generalizing features. The model learns to generalize by incorporating additional attention heads, which depend on the outputs of the "heuristic" heads to compute higher-level features. Overall, our results offer a more detailed picture of the mechanisms for syntactic generalization in pretrained LMs.
翻訳日:2024-03-07 13:52:00 公開日:2024-03-06
# ガイド:拡散モデルを用いた指導ベースインクリメンタル学習

GUIDE: Guidance-based Incremental Learning with Diffusion Models ( http://arxiv.org/abs/2403.03938v1 )

ライセンス: Link先を確認
Bartosz Cywi\'nski, Kamil Deja, Tomasz Trzci\'nski, Bart{\l}omiej Twardowski, {\L}ukasz Kuci\'nski(参考訳) 我々は,新しい連続学習手法であるガイドを紹介する。この手法は拡散モデルに,忘れられるリスクのあるサンプルのリハーサルを指示するものである。 既存の生成戦略は、生成モデルからランダムにリハーサルの例をサンプリングすることで破滅的な放棄と戦う。 このようなアプローチは,サンプリング戦略が重要な役割を果たすバッファベースのアプローチと矛盾する。 このギャップを拡散モデルと分類器誘導技術を統合することで橋渡しし、連続訓練されたモデルで忘れられた情報を対象としたリハーサル例を作成することを提案する。 このアプローチにより、最近遭遇したクラスのコンテキストで誤って分類される可能性が高いタスク分布からサンプルを生成することができる。 実験の結果,GUIDEは破滅的忘れを著しく減らし,従来のランダムサンプリング手法より優れ,生成的再生を伴う継続的な学習における最近の最先端手法を超越した。

We introduce GUIDE, a novel continual learning approach that directs diffusion models to rehearse samples at risk of being forgotten. Existing generative strategies combat catastrophic forgetting by randomly sampling rehearsal examples from a generative model. Such an approach contradicts buffer-based approaches where sampling strategy plays an important role. We propose to bridge this gap by integrating diffusion models with classifier guidance techniques to produce rehearsal examples specifically targeting information forgotten by a continuously trained model. This approach enables the generation of samples from preceding task distributions, which are more likely to be misclassified in the context of recently encountered classes. Our experimental results show that GUIDE significantly reduces catastrophic forgetting, outperforming conventional random sampling approaches and surpassing recent state-of-the-art methods in continual learning with generative replay.
翻訳日:2024-03-07 13:51:38 公開日:2024-03-06
# デモグラフィックのダイナミクスと人工知能:2050年のヨーロッパとアフリカの課題と機会

Demographic Dynamics and Artificial Intelligence: Challenges and Opportunities in Europe and Africa for 2050 ( http://arxiv.org/abs/2403.03935v1 )

ライセンス: Link先を確認
Mohamed El Louadi(参考訳) 本稿では,ヨーロッパとアフリカにおける人口統計学と人工知能(ai)の進歩と2050年までの複雑な関係を考察する。 AI技術の進歩は様々な速度で行われ、アフリカはヨーロッパより遅れている。 さらに、人口動態の変化による差し迫った経済的な影響は、移民パターンのより慎重な調査を必要とし、アフリカはヨーロッパ諸国にとって有望な労働プールとして発展しつつある。 しかし、これらのダイナミクスの中で、2050年までにアフリカ系移民とヨーロッパ人の間のai能力の違いについて疑問が持ち上がっている。 本稿では,2050年を目前にしているテクノロジー,経済,社会の領域に先立つ,多面的課題と機会に対する洞察を明らかにするために,人口動態の傾向とAI開発について検討する。

This paper explores the complex relationship between demographics and artificial intelligence (AI) advances in Europe and Africa, projecting into the year 2050. The advancement of AI technologies has occurred at diverse rates, with Africa lagging behind Europe. Moreover, the imminent economic consequences of demographic shifts require a more careful examination of immigration patterns, with Africa emerging as a viable labor pool for European countries. However, within these dynamics, questions are raised about the differences in AI proficiency between African immigrants and Europeans by 2050. This paper examines demographic trends and AI developments to unravel insights into the multifaceted challenges and opportunities that lie ahead in the realms of technology, the economy, and society as we look ahead to 2050.
翻訳日:2024-03-07 13:51:25 公開日:2024-03-06
# 変圧器型生成モデルを用いた極端な降水時流キャスティング

Extreme Precipitation Nowcasting using Transformer-based Generative Models ( http://arxiv.org/abs/2403.03929v1 )

ライセンス: Link先を確認
Cristian Meo, Ankush Roy, Mircea Lic\u{a}, Junzhe Yin, Zeineb Bou Che, Yanbo Wang, Ruben Imhoff, Remko Uijlenhoet, Justin Dauwels(参考訳) 本稿では,Transformer ベースの生成モデル,すなわち NowcastingGPT with Extreme Value Loss (EVL) regularization を用いることにより,極端降水量減少に対する革新的なアプローチを提案する。 オランダ気象研究所(KNMI)の包括的データセットを活用することで,短期降水量の予測を高精度に行う。 固定された極端表現を仮定せずにEVLを計算するための新しい手法を導入し、極端気象事象を捉える際の現在のモデルの限界に対処する。 本稿では, 降水予測の精度, 特に極端な降水現象に対して, 提案するnowcastinggpt-evlの優れた性能を示す, 定性的, 定量的な分析を行った。 コードは \url{https://github.com/cmeo97/nowcastinggpt} で入手できる。

This paper presents an innovative approach to extreme precipitation nowcasting by employing Transformer-based generative models, namely NowcastingGPT with Extreme Value Loss (EVL) regularization. Leveraging a comprehensive dataset from the Royal Netherlands Meteorological Institute (KNMI), our study focuses on predicting short-term precipitation with high accuracy. We introduce a novel method for computing EVL without assuming fixed extreme representations, addressing the limitations of current models in capturing extreme weather events. We present both qualitative and quantitative analyses, demonstrating the superior performance of the proposed NowcastingGPT-EVL in generating accurate precipitation forecasts, especially when dealing with extreme precipitation events. The code is available at \url{https://github.com/Cmeo97/NowcastingGPT}.
翻訳日:2024-03-07 13:51:01 公開日:2024-03-06
# Consciousness qua Mortal Computation

Consciousness qua Mortal Computation ( http://arxiv.org/abs/2403.03925v1 )

ライセンス: Link先を確認
Johannes Kleiner(参考訳) 計算機能主義は意識は計算であると仮定する。 ここでは、おそらく驚くことに、チューリング計算にはなれないことを示します。 むしろ、計算機能主義は、意識が新しいタイプの計算であり、Geoffrey Hintonによって提案された、致命的な計算であることを意味している。

Computational functionalism posits that consciousness is a computation. Here we show, perhaps surprisingly, that it cannot be a Turing computation. Rather, computational functionalism implies that consciousness is a novel type of computation that has recently been proposed by Geoffrey Hinton, called mortal computation.
翻訳日:2024-03-07 13:50:40 公開日:2024-03-06
# 液体中の2つの非同値核スピンの最大絡み合い量子状態の緩和

Relaxation of maximally entangled quantum states of two nonequivalent nuclear spins in a liquid ( http://arxiv.org/abs/2403.03924v1 )

ライセンス: Link先を確認
Georgiy Baroncha, Alexander Perepukhov, Boris V. Fine(参考訳) 液体中の分子に属する2つの核スピン1H-13Cの擬似純粋最大絡み合った状態(ベル状態)の緩和を実験的および理論的に検討した。 ベル状態は、detuned hartmann-hahnクロスポーラライズ条件に基づく方法によって得られる。 その絡み合った性質は量子状態トモグラフィによって検証される。 我々の緩和測定は、異なるベル状態に対して異なる緩和率を示す。 この差は、異なる緩和機構間の相互相関に由来すると解釈し、ベル状態の微分緩和の測定が液体のNMR解析に有用であることを示す。

We investigate both experimentally and theoretically the relaxation of pseudo-pure maximally entangled states (Bell states) of two nuclear spins 1H-13C belonging to a molecule in a liquid. The Bell states are obtained by a method based on a detuned Hartmann-Hahn cross-polarization condition. Their entangled character is verified by quantum-state tomography. Our relaxation measurements reveal different relaxation rates for different Bell states. We interpret this difference as originating from cross-correlations between different relaxation mechanisms, thereby demonstrating that the measurements of the differential relaxation of Bell states are potentially useful for advanced NMR characterization of liquids.
翻訳日:2024-03-07 13:50:32 公開日:2024-03-06
# 翻訳モデルに誰も気づかない方がロバストになった?

Did Translation Models Get More Robust Without Anyone Even Noticing? ( http://arxiv.org/abs/2403.03923v1 )

ライセンス: Link先を確認
Ben Peters and Andr\'e F.T. Martins(参考訳) ニューラルマシン翻訳(neural machine translation, mt)モデルは、様々な設定で強い結果をもたらすが、綴り誤り、略語、その他のフォーマット問題などの"ノイズ"入力に非常に敏感である、と広く信じられている。 本稿では,機械翻訳に適用された近年の多言語MTモデルと大規模言語モデル(LLM)に基づいて,この知見を再考する。 驚くべきことに、制御された実験を通して、これらのモデルがクリーンなデータでも同じように動作する場合であっても、以前のモデルよりも多くの種類のノイズに対してはるかに堅牢であることを示す。 なぜなら、LLMは過去のモデルよりも多くのパラメータを持ち、より複雑なトレーニングプロセスを持っているにもかかわらず、ロバスト性を促進するために特別に設計されたテクニックを使用していないからです。 次に、同様の傾向がソーシャルメディアの翻訳実験に当てはまることを示す -- LLMはソーシャルメディアのテキストに対してより堅牢である。 本稿では、音源補正技術を用いてノイズの影響を緩和できる状況の分析を含む。 その結果,多くの雑音に対するロバスト性が高まった。

Neural machine translation (MT) models achieve strong results across a variety of settings, but it is widely believed that they are highly sensitive to "noisy" inputs, such as spelling errors, abbreviations, and other formatting issues. In this paper, we revisit this insight in light of recent multilingual MT models and large language models (LLMs) applied to machine translation. Somewhat surprisingly, we show through controlled experiments that these models are far more robust to many kinds of noise than previous models, even when they perform similarly on clean data. This is notable because, even though LLMs have more parameters and more complex training processes than past models, none of the open ones we consider use any techniques specifically designed to encourage robustness. Next, we show that similar trends hold for social media translation experiments -- LLMs are more robust to social media text. We include an analysis of the circumstances in which source correction techniques can be used to mitigate the effects of noise. Altogether, we show that robustness to many types of noise has increased.
翻訳日:2024-03-07 13:50:08 公開日:2024-03-06
# 教育の質を高める:教育成果物から深い洞察を生み出すためのコンピュータ支援テクスチャ分析の活用

Enhancing Instructional Quality: Leveraging Computer-Assisted Textual Analysis to Generate In-Depth Insights from Educational Artifacts ( http://arxiv.org/abs/2403.03920v1 )

ライセンス: Link先を確認
Zewei Tian, Min Sun, Alex Liu, Shawon Sarkar, Jing Liu(参考訳) 本稿では,コンピュータ支援型テキスト分析の教育成果物からの深い洞察を通して,教育的品質向上への転換の可能性について考察する。 我々はリチャード・エルモアのInstructional Core Frameworkを統合し、人工知能(AI)と機械学習(ML)の手法、特に自然言語処理(NLP)がどのように教育内容、教師の談話、学生の反応を分析して教育改善を促進するかを検討する。 Instructional Core Frameworkの包括的なレビューとケーススタディを通じて、教師のコーチング、学生のサポート、コンテンツ開発など、AI/ML統合が大きなメリットをもたらす重要な領域を特定します。 私たちは、ai/mlが管理タスクを合理化するだけでなく、パーソナライズされた学習のための新しい経路を導入し、教育者に対してアクション可能なフィードバックを提供し、インストラクショナルダイナミクスのよりリッチな理解に寄与することを示すパターンを公開します。 本稿では,ai/ml技術を教育的目標と整合させることの重要性を強調し,倫理的考察,データ品質,人間的専門知識の統合を考慮したバランスのとれたアプローチを提唱する。

This paper explores the transformative potential of computer-assisted textual analysis in enhancing instructional quality through in-depth insights from educational artifacts. We integrate Richard Elmore's Instructional Core Framework to examine how artificial intelligence (AI) and machine learning (ML) methods, particularly natural language processing (NLP), can analyze educational content, teacher discourse, and student responses to foster instructional improvement. Through a comprehensive review and case studies within the Instructional Core Framework, we identify key areas where AI/ML integration offers significant advantages, including teacher coaching, student support, and content development. We unveil patterns that indicate AI/ML not only streamlines administrative tasks but also introduces novel pathways for personalized learning, providing actionable feedback for educators and contributing to a richer understanding of instructional dynamics. This paper emphasizes the importance of aligning AI/ML technologies with pedagogical goals to realize their full potential in educational settings, advocating for a balanced approach that considers ethical considerations, data quality, and the integration of human expertise.
翻訳日:2024-03-07 13:49:48 公開日:2024-03-06
# 複数タスクを用いたマルチタスク強化学習による筋電図探索

Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks ( http://arxiv.org/abs/2403.01636v2 )

ライセンス: Link先を確認
Ziping Xu, Zifan Xu, Runxuan Jiang, Peter Stone, Ambuj Tewari(参考訳) マルチタスク強化学習(MTRL)アプローチは、多くの重要な強化学習(RL)タスクにおいて幅広い応用に注目が集まっている。 しかし、近年のMTRL理論の進歩は、タスク間の共有構造を仮定することで、統計効率の向上に焦点が当てられているが、RLの重要な側面である探索は、ほとんど見過ごされてきた。 本稿では, エージェントが十分に多様なタスクのセットで訓練された場合, 一般に非効率な$\epsilon$-greedyのような筋電図探索設計の一般的なポリシー共有アルゴリズムは, MTRLに対してサンプル効率がよいことを示す。 我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。 また、実際的なミオピック探索の幅広い応用の謎的な成功にも光を当てるかもしれない。 多様なタスクセットが自動カリキュラム学習によるタスク選択と整合し, サンプル効率の向上を実証的に示す合成ロボット制御環境において, 多様性の役割を検証する。

Multitask Reinforcement Learning (MTRL) approaches have gained increasing attention for its wide applications in many important Reinforcement Learning (RL) tasks. However, while recent advancements in MTRL theory have focused on the improved statistical efficiency by assuming a shared structure across tasks, exploration--a crucial aspect of RL--has been largely overlooked. This paper addresses this gap by showing that when an agent is trained on a sufficiently diverse set of tasks, a generic policy-sharing algorithm with myopic exploration design like $\epsilon$-greedy that are inefficient in general can be sample-efficient for MTRL. To the best of our knowledge, this is the first theoretical demonstration of the "exploration benefits" of MTRL. It may also shed light on the enigmatic success of the wide applications of myopic exploration in practice. To validate the role of diversity, we conduct experiments on synthetic robotic control environments, where the diverse task set aligns with the task selection by automatic curriculum learning, which is empirically shown to improve sample-efficiency.
翻訳日:2024-03-07 11:59:32 公開日:2024-03-06
# 回路上のスケーラブルで一般化可能な学習のためのHop-Wise Graph Attention

Less is More: Hop-Wise Graph Attention for Scalable and Generalizable Learning on Circuits ( http://arxiv.org/abs/2403.01317v2 )

ライセンス: Link先を確認
Chenhui Deng, Zichao Yue, Cunxi Yu, Gokce Sarar, Ryan Carey, Rajeev Jain, Zhiru Zhang(参考訳) グラフニューラルネットワーク(GNN)は、様々な電子設計自動化(EDA)タスクにおける回路表現の学習に人気があるが、大きなグラフに適用するとスケーラビリティの課題に直面し、新しい設計に限定的な一般化性を示す。 これらの制限は、大規模で複雑な回路問題に対処する上で実用的でない。 本研究では,回路表現をスケーラブルで一般化可能な方法で学習するための新しい注意モデルHOGAを提案する。 HOGAはまず、モデルトレーニングの前にノード毎のホップワイズ機能を計算します。 その後、ホップワイズ機能は、グラフトポロジを伴わずに異なるホップ間の重要な特徴を適応的に学習するゲート自己アテンションモジュールを通じてノード表現を生成するためにのみ使用される。 その結果、HOGAは様々な回路の様々な構造に適応し、分散的に効率的に訓練することができる。 HOGAの有効性を示すために,結果の質(QoR)予測と機能的推論の2つのEDAタスクを検討する。 実験結果は,1)論理合成後のQoR予測における従来のGNNに対する推定誤差を46.76%削減し,2)複雑な技術マッピング後のゲートレベルネットリスト上の機能ブロックを特定するため,GNNに対する推論精度を10.0%改善し,(3)計算資源の増加に伴い,HOGAのトレーニング時間はほぼ直線的に減少することを示した。

While graph neural networks (GNNs) have gained popularity for learning circuit representations in various electronic design automation (EDA) tasks, they face challenges in scalability when applied to large graphs and exhibit limited generalizability to new designs. These limitations make them less practical for addressing large-scale, complex circuit problems. In this work we propose HOGA, a novel attention-based model for learning circuit representations in a scalable and generalizable manner. HOGA first computes hop-wise features per node prior to model training. Subsequently, the hop-wise features are solely used to produce node representations through a gated self-attention module, which adaptively learns important features among different hops without involving the graph topology. As a result, HOGA is adaptive to various structures across different circuits and can be efficiently trained in a distributed manner. To demonstrate the efficacy of HOGA, we consider two representative EDA tasks: quality of results (QoR) prediction and functional reasoning. Our experimental results indicate that (1) HOGA reduces estimation error over conventional GNNs by 46.76% for predicting QoR after logic synthesis; (2) HOGA improves 10.0% reasoning accuracy over GNNs for identifying functional blocks on unseen gate-level netlists after complex technology mapping; (3) The training time for HOGA almost linearly decreases with an increase in computing resources.
翻訳日:2024-03-07 11:59:12 公開日:2024-03-06
# シリコンバレーの群衆の知恵: LLM Ensemble Prediction Capability Rival Human Crowd Accuracy

Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy ( http://arxiv.org/abs/2402.19379v2 )

ライセンス: Link先を確認
Philipp Schoenegger, Indre Tuminauskaite, Peter S. Park, Philip E. Tetlock(参考訳) 実際に人間の予測精度は、個々の予測者の群集を集約することで将来の出来事についての予測を大幅に改善する「群衆のウィズド」効果に依存している。 大規模言語モデル(LLM)の予測能力に関する過去の研究は、フロンティアのLLMは、個人予測家として、人間の群衆予測トーナメントアグリゲーションのゴールドスタンダードに比べて性能が劣っていることを示唆している。 研究1では、12個のLLMの群集からなるLLMアンサンブルアプローチを用いて、この研究を拡大する。 我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントの925人の予測者の群集と比較した。 我々の事前登録された主要な分析は、LLMの群集が単純な非情報ベンチマークよりも優れており、統計的にヒトの群集と異なるものではないことを示している。 探索分析において、これらの2つのアプローチは中規模効果の同値境界に対して等価であることがわかった。 また, 正解と負解がほぼ均等に分かれているにもかかわらず, 平均モデル予測が50%以上であるような収差効果も観測した。 さらに,研究2では,人間の認知的アウトプットに基づいてLCM予測(GPT-4とClaude 2)を改善することができるかどうかを検証した。 モデルによる予測精度は、情報として人間予測の中央値に曝露することによる利点があり、17%から28%の精度向上が期待できる。 以上の結果から, LLMは, 簡易かつ実用的な予測集計手法により, 人体予測トーナメントに匹敵する予測精度を達成できることが示唆された。 これは、llmの'wisdom of the crowd'効果を再現し、社会全体で様々なアプリケーションへの使用を開放する。

Human forecasting accuracy in practice relies on the 'wisdom of the crowd' effect, in which predictions about future events are significantly improved by aggregating across a crowd of individual forecasters. Past work on the forecasting ability of large language models (LLMs) suggests that frontier LLMs, as individual forecasters, underperform compared to the gold standard of a human crowd forecasting tournament aggregate. In Study 1, we expand this research by using an LLM ensemble approach consisting of a crowd of twelve LLMs. We compare the aggregated LLM predictions on 31 binary questions to that of a crowd of 925 human forecasters from a three-month forecasting tournament. Our preregistered main analysis shows that the LLM crowd outperforms a simple no-information benchmark and is not statistically different from the human crowd. In exploratory analyses, we find that these two approaches are equivalent with respect to medium-effect-size equivalence bounds. We also observe an acquiescence effect, with mean model predictions being significantly above 50%, despite an almost even split of positive and negative resolutions. Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2) can be improved by drawing on human cognitive output. We find that both models' forecasting accuracy benefits from exposure to the median human prediction as information, improving accuracy by between 17% and 28%: though this leads to less accurate predictions than simply averaging human and machine forecasts. Our results suggest that LLMs can achieve forecasting accuracy rivaling that of human crowd forecasting tournaments: via the simple, practically applicable method of forecast aggregation. This replicates the 'wisdom of the crowd' effect for LLMs, and opens up their use for a variety of applications throughout society.
翻訳日:2024-03-07 11:58:44 公開日:2024-03-06
# ニューラルネットワークのグローバルロバスト性検証

Verification of Neural Networks' Global Robustness ( http://arxiv.org/abs/2402.19322v2 )

ライセンス: Link先を確認
Anan Kabaha, Dana Drachsler-Cohen(参考訳) ニューラルネットワークは様々なアプリケーションで成功しているが、逆境攻撃の影響を受けやすい。 ネットワーク分類器の安全性を示すために、与えられた摂動に対する入力の局所的ロバスト性を説明するために多くの検証器が導入された。 成功しても、局所ロバスト性は目に見えない入力に一般化できない。 いくつかの研究は、グローバルなロバスト性特性を分析するが、ネットワーク分類器がその分類を変更しない場合の正確な保証は得られない。 本研究では,分類器の局所的ロバスト性特性を自然に拡張する最小のグローバルロバスト境界を求めることを目的とした,分類器に対する新たなグローバルロバスト性特性を提案する。 我々は、この境界を計算するための任意の検証器であるVHAGaRを紹介する。 VHAGaRは、問題を混合整数プログラミングとして符号化し、摂動やネットワークの計算に起因した依存関係を特定し、未知の入力に敵攻撃を一般化することで、探索空間を刈り取るという3つの主要なアイデアに依存している。 我々は,VHAGaRを複数のデータセットと分類器で評価し,3時間のタイムアウトを条件に,VHAGaRが計算した最小大域的ロバスト境界上の下限と上限のギャップは1.9であり,既存の大域的ロバスト性検証器のギャップは154.7であることを示す。 さらに、vhagarはこの検証器より130.6x高速である。 以上の結果から,VHAGaR 78.6倍の高速化が期待できる。

Neural networks are successful in various applications but are also susceptible to adversarial attacks. To show the safety of network classifiers, many verifiers have been introduced to reason about the local robustness of a given input to a given perturbation. While successful, local robustness cannot generalize to unseen inputs. Several works analyze global robustness properties, however, neither can provide a precise guarantee about the cases where a network classifier does not change its classification. In this work, we propose a new global robustness property for classifiers aiming at finding the minimal globally robust bound, which naturally extends the popular local robustness property for classifiers. We introduce VHAGaR, an anytime verifier for computing this bound. VHAGaR relies on three main ideas: encoding the problem as a mixed-integer programming and pruning the search space by identifying dependencies stemming from the perturbation or the network's computation and generalizing adversarial attacks to unknown inputs. We evaluate VHAGaR on several datasets and classifiers and show that, given a three hour timeout, the average gap between the lower and upper bound on the minimal globally robust bound computed by VHAGaR is 1.9, while the gap of an existing global robustness verifier is 154.7. Moreover, VHAGaR is 130.6x faster than this verifier. Our results further indicate that leveraging dependencies and adversarial attacks makes VHAGaR 78.6x faster.
翻訳日:2024-03-07 11:58:12 公開日:2024-03-06
# 2次周期的信号の推定とデコンボリューション

Estimation and Deconvolution of Second Order Cyclostationary Signals ( http://arxiv.org/abs/2402.19290v2 )

ライセンス: Link先を確認
Igor Makienko, Michael Grebshtein, Eli Gildish(参考訳) 本手法は,センサへのトランスファー関数(TF)を伝送する雑音性二階シクロ定常(CS2)信号のブラインドデコンボリューションと時間波形の推定という2つの問題を解く。 我々は、デコンボリューションフィルタが存在することを証明し、時間とともに統計が変化する信号からtf効果を排除する。 この方法は盲目であり、信号やtfに関する事前の知識を必要としない。 シミュレーションは、様々な信号タイプ、tfs、snr(signal-to-noise ratios)において高い精度を示す。 本研究では,CS2信号ファミリーは決定論的周期関数と白色雑音の積に制限される。 さらに、同一のシステムからの信号の集約が異なるtfsで必要とされる機械学習モデルのトレーニングを改善する可能性を秘めている。

This method solves the dual problem of blind deconvolution and estimation of the time waveform of noisy second-order cyclo-stationary (CS2) signals that traverse a Transfer Function (TF) en route to a sensor. We have proven that the deconvolution filter exists and eliminates the TF effect from signals whose statistics vary over time. This method is blind, meaning it does not require prior knowledge about the signals or TF. Simulations demonstrate the algorithm high precision across various signal types, TFs, and Signal-to-Noise Ratios (SNRs). In this study, the CS2 signals family is restricted to the product of a deterministic periodic function and white noise. Furthermore, this method has the potential to improve the training of Machine Learning models where the aggregation of signals from identical systems but with different TFs is required.
翻訳日:2024-03-07 11:57:46 公開日:2024-03-06
# ステレオマッチングのためのイントラビューとクロスビューの幾何学知識の学習

Learning Intra-view and Cross-view Geometric Knowledge for Stereo Matching ( http://arxiv.org/abs/2402.19270v2 )

ライセンス: Link先を確認
Rui Gong, Weide Liu, Zaiwang Gu, Xulei Yang, Jun Cheng(参考訳) 幾何学的知識はステレオマッチングに有用であることが示されている。 しかし、幾何学的洞察をステレオマッチングアルゴリズムに統合する以前の試みは、単一画像からの幾何学的知識に主に焦点を合わせ、オクルージョンや一意性といった重要なクロスビュー要素は見過ごされている。 このギャップに対処するため,我々は,ビュー内知識とクロスビュー幾何学知識の両相同化を目的として,ICGNet(Intra-view and Cross-view Geometric Knowledge Learning Network)を提案する。 ICGNetは、ビュー内幾何学的理解のためのチャンネルとして機能するために、関心点の力を利用する。 同時に、これらの点間の対応を利用して、断面幾何学的関係を捉える。 この二重編入により、提案されたIGGNetは、その学習プロセスにおいて、ビュー内およびクロスビュー幾何学的知識の両方を活用することができ、その格差を推定する能力を大幅に向上する。 我々の広範な実験は、icgnetが現代の先行モデルよりも優れていることを示している。

Geometric knowledge has been shown to be beneficial for the stereo matching task. However, prior attempts to integrate geometric insights into stereo matching algorithms have largely focused on geometric knowledge from single images while crucial cross-view factors such as occlusion and matching uniqueness have been overlooked. To address this gap, we propose a novel Intra-view and Cross-view Geometric knowledge learning Network (ICGNet), specifically crafted to assimilate both intra-view and cross-view geometric knowledge. ICGNet harnesses the power of interest points to serve as a channel for intra-view geometric understanding. Simultaneously, it employs the correspondences among these points to capture cross-view geometric relationships. This dual incorporation empowers the proposed ICGNet to leverage both intra-view and cross-view geometric knowledge in its learning process, substantially improving its ability to estimate disparities. Our extensive experiments demonstrate the superiority of the ICGNet over contemporary leading models.
翻訳日:2024-03-07 11:57:29 公開日:2024-03-06
# 任意の次元におけるLandau-StreaterあるいはWerner-Holevoチャネル

The noisy Landau-Streater or the Werner-Holevo channel in arbitrary dimensions ( http://arxiv.org/abs/2402.07700v3 )

ライセンス: Link先を確認
Vahid Karimipour(参考訳) 量子チャネルの2つの重要なクラス、namly the werner-holevoとlandau-streater channelは、3次元、すなわちクトリット上で振る舞うときのみ関連していることが知られている。 本研究において、ランダウ・セプターチャネルの定義は、すべての次元のヴェルナー・ホルボチャネルと同値を保つような方法で拡張される。 このチャネルは、quditsに作用するノイズのモデルとして表現できるように修正される。 次に, 結果として発生する雑音チャネルのプロピテンスを調査し, マルコフ進化の結果では得られない条件を決定する。 さらに,古典的および量子的情報を絡み合うことなく伝達する能力について検討する。 特に、純(または高ノイズ)ランダウ・セプタまたはヴェルナー・ホールボチャネルが絡み合っており、従って容量がゼロであるのに対し、量子容量に対する下界を見つけることにより、ノイズレベルが臨界値よりも低い場合、量子容量はゼロでないことを示す。 この値は、すべての次元においておよそ0.4$である。 最後に、偶数次元において、このチャネルはユニタリ操作の観点で分解されることを示す。 これは、そのような分解が可能であることが証明された3次元の場合とは対照的であり、他の量子写像の観点でも不可能である。

Two important classes of quantum channels, namly the Werner-Holevo and the Landau-Streater channels are known to be related only in three dimensions, i.e. when acting on qutrits. In this work, the definition of the Landau-Streater channel is extended in such a way which retains its equivalence to the Werner-Holevo channel in all dimensions. This channel is then modified to be representable as a model of noise acting on qudits. We then investigate propeties of the resulting noisy channel and determine the conditions under which it cannot be the result of a Markovian evolution. Furthermore, we investigate its different capacities for transmitting classical and quantum information with or without entanglement. In particular, while the pure (or high noise) Landau-Streater or the Werner-Holevo channel is entanglement breaking and hence has zero capacity, by finding a lower bound for the quantum capacity, we show that when the level of noise is lower than a critical value the quantum capacity will be non-zero. Surprizingly this value turns out to be approximately equal to $0.4$ in all dimensions. Finally we show that, in even dimensions, this channel has a decomposition in terms of unitary operations. This is in contrast with the three dimensional case where it has been proved that such a decomposition is possible is impossible, even in terms of other quantum maps.
翻訳日:2024-03-07 11:57:10 公開日:2024-03-06
# NLIに基づくゼロショット感情分類のための英語のプロンプト

English Prompts are Better for NLI-based Zero-Shot Emotion Classification than Target-Language Prompts ( http://arxiv.org/abs/2402.03223v3 )

ライセンス: Link先を確認
Patrick Barei{\ss} and Roman Klinger and Jeremy Barnes(参考訳) テキストにおける感情分類は、テキスト刺激を解釈するために必要とされる認知的推論プロセスが関与しているため、困難で主観的な課題である。 加えて、感情カテゴリのセットは非常にドメイン固有です。 例えば、文学分析は美的感情(例えば、美しいものを見つけるなど)を使う必要があり、ソーシャルメディア分析は、基本的な感情カテゴリーとは対照的に、きめ細かいセット(例えば、怒りと不快さを分離する)の恩恵を受ける。 これによりタスクはゼロショット分類の興味深いフィールドとなり、モデル開発時にラベルセットが知られていない。 残念なことに、感情分析のほとんどのリソースは英語であり、それゆえ、感情分析のほとんどの研究は、テキストラベルの言語モデルを促進することを含む、英語で行われている。 どちらの言語で、非英語のテキストに感情ラベルを付けるべきか? 英語以外のデータでも、英語プロンプト付きのラベルをリクエストできるため、多言語大言語モデルにアクセスできる場合、これは特に興味深いことです。 自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。

Emotion classification in text is a challenging and subjective task, due to the involved cognitive inference processes that are required to interpret a textual stimulus. In addition, the set of emotion categories is highly domain-specific. For instance, literature analysis might require the use of aesthetic emotions (e.g., finding something beautiful), and social media analysis could benefit from fine-grained sets (e.g., separating anger from annoyance) in contrast to basic emotion categories. This renders the task an interesting field for zero-shot classifications, in which the label set is not known at model development time. Unfortunately, most resources for emotion analysis are English, and therefore, most studies on emotion analysis have been performed in English, including those that involve prompting language models for text labels. This leaves us with a research gap that we address in this paper: In which language should we prompt for emotion labels on non-English texts? This is particularly of interest when we have access to a multilingual large language model, because we could request labels with English prompts even for non-English data. Our experiments with natural language inference-based language models show that it is consistently better to use English prompts even if the data is in a different language.
翻訳日:2024-03-07 11:56:44 公開日:2024-03-06
# DevEval: 実践的なソフトウェアプロジェクトにおけるコード生成の評価

DevEval: Evaluating Code Generation in Practical Software Projects ( http://arxiv.org/abs/2401.06401v4 )

ライセンス: Link先を確認
Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Zhi Jin, Hao Zhu, Huanyu Liu, Kaibo Liu, Lecheng Wang, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yihong Dong, Yuqi Zhu, Bin Gu, Mengfei Yang(参考訳) コード生成におけるLarge Language Models(LLM)の評価はオープンな問題である。 多くのベンチマークが提案されているが、非現実的なプログラムディストリビューション、依存関係の不足、小規模プロジェクトコンテキストなど、実用的なソフトウェアプロジェクトとは矛盾している。 したがって、実用プロジェクトでのLLMの能力はまだ不明である。 本稿では,実用的なプロジェクトにおける開発者の経験と整合した新しいベンチマークdevevalを提案する。 devevalは厳密なパイプラインを通して収集され、119の実践プロジェクトから2,690のサンプルと10のドメインを含んでいる。 以前のベンチマークと比較すると、DevEvalは実際のプログラム分布、十分な依存関係、十分な規模のプロジェクトコンテキストなど、複数の次元の実践的なプロジェクトと一致している。 DevEval上の5つの人気のあるLCM(gpt-4、gpt-3.5-turbo、CodeLLaMa、StarCoder)を評価し、コード生成における実際の能力を明らかにする。 例えば、gpt-3.5-turboの最も高いpass@1は実験で42である。 また,実践プロジェクトにおけるコード生成の課題と今後の方向性についても論じる。 私たちはdevevalをオープンソースとして公開し、実用的なプロジェクトでのコード生成を促進することを望んでいます。

How to evaluate Large Language Models (LLMs) in code generation is an open question. Many benchmarks have been proposed but are inconsistent with practical software projects, e.g., unreal program distributions, insufficient dependencies, and small-scale project contexts. Thus, the capabilities of LLMs in practical projects are still unclear. In this paper, we propose a new benchmark named DevEval, aligned with Developers' experiences in practical projects. DevEval is collected through a rigorous pipeline, containing 2,690 samples from 119 practical projects and covering 10 domains. Compared to previous benchmarks, DevEval aligns to practical projects in multiple dimensions, e.g., real program distributions, sufficient dependencies, and enough-scale project contexts. We assess five popular LLMs on DevEval (e.g., gpt-4, gpt-3.5-turbo, CodeLLaMa, and StarCoder) and reveal their actual abilities in code generation. For instance, the highest Pass@1 of gpt-3.5-turbo only is 42 in our experiments. We also discuss the challenges and future directions of code generation in practical projects. We open-source DevEval and hope it can facilitate the development of code generation in practical projects.
翻訳日:2024-03-07 11:56:25 公開日:2024-03-06
# 大規模言語モデル構築のための前頭前皮質刺激型アーキテクチャ

A Prefrontal Cortex-inspired Architecture for Planning in Large Language Models ( http://arxiv.org/abs/2310.00194v3 )

ライセンス: Link先を確認
Taylor Webb, Shanka Subhra Mondal, Chi Wang, Brian Krabach, Ida Momennejad(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的なパフォーマンスを示すが、多段階の推論や目標指向の計画を必要とするタスクにしばしば苦労する。 そこで我々は,前頭前皮質(PFC)の特別なモジュールの反復的相互作用によって計画が達成される,人間の脳からインスピレーションを得た。 これらのモジュールは競合監視、状態予測、状態評価、タスク分解、タスク調整などの機能を実行する。 LLMは、これらの機能を単独で行うことができる場合もあるが、目標を達成するために自律的に協調するのは難しい。 そこで本研究では,複数のLCM(GPT-4)モジュールを用いたブラックボックスアーキテクチャを提案する。 このアーキテクチャは、特定のPFCにインスパイアされたモジュールの相互作用によって計画を改善し、より大きな問題をLLMへの複数の短時間の自動呼び出しに分解する。 グラフトラバーサル,ハノイ塔,ロジスティクスの3つの挑戦的計画課題におけるアーキテクチャの組み合わせを評価し,標準LLM法(ゼロショットプロンプト,コンテキスト内学習,チェーン・オブ・シントなど)よりも大幅に改善されていることを確認した。 これらの結果は,認知神経科学の知識を活用し,llmの計画を改善することの利点を示す。

Large language models (LLMs) demonstrate impressive performance on a wide variety of tasks, but they often struggle with tasks that require multi-step reasoning or goal-directed planning. To address this, we take inspiration from the human brain, in which planning is accomplished via the recurrent interaction of specialized modules in the prefrontal cortex (PFC). These modules perform functions such as conflict monitoring, state prediction, state evaluation, task decomposition, and task coordination. We find that LLMs are sometimes capable of carrying out these functions in isolation, but struggle to autonomously coordinate them in the service of a goal. Therefore, we propose a black box architecture with multiple LLM-based (GPT-4) modules. The architecture improves planning through the interaction of specialized PFC-inspired modules that break down a larger problem into multiple brief automated calls to the LLM. We evaluate the combined architecture on three challenging planning tasks -- graph traversal, Tower of Hanoi, and logistics -- finding that it yields significant improvements over standard LLM methods (e.g., zero-shot prompting, in-context learning, and chain-of-thought). These results demonstrate the benefit of utilizing knowledge from cognitive neuroscience to improve planning in LLMs.
翻訳日:2024-03-07 11:56:05 公開日:2024-03-06
# FIMP: グラフニューラルネットワークのための基礎モデルインフォームドメッセージパッシング

FIMP: Foundation Model-Informed Message Passing for Graph Neural Networks ( http://arxiv.org/abs/2210.09475v4 )

ライセンス: Link先を確認
Syed Asad Rizvi, Nhi Nguyen, Haoran Lyu, Benjamin Christensen, Josue Ortega Caro, Antonio H. O. Fonseca, Emanuele Zappala, Maryam Bagherian, Christopher Averill, Chadi G. Abdallah, Amin Karbasi, Rex Ying, Maria Brbic, Rahul Madhav Dhodapkar, David van Dijk(参考訳) ファンデーションモデルは、幅広い下流タスクに適応可能な汎用プラットフォームとして機能する、ディープラーニング(DL)のランドスケープに革命をもたらした。 その適応性にもかかわらず、ダウンストリームグラフベースのタスクへの基礎モデルの応用は限られており、グラフ構造設定で大規模非グラフプリトレーニングモデルを活用するための便利な方法はない。 本稿では、基礎モデルとGNNの分野を単純な概念で橋渡しするFIMP(Foundation-Informed Message Passing)と呼ばれる新しいフレームワークを提案する。 提案手法により,複数のデータ領域におけるグラフベースタスクの性能が向上し,基礎モデルの知識をグラフニューラルネットワークで活用できることが示唆された。

Foundation models have revolutionized the landscape of Deep Learning (DL), serving as a versatile platform which can be adapted to a wide range of downstream tasks. Despite their adaptability, applications of foundation models to downstream graph-based tasks have been limited, and there remains no convenient way to leverage large-scale non-graph pretrained models in graph-structured settings. In this work, we present a new framework which we term Foundation-Informed Message Passing (FIMP) to bridge the fields of foundational models and GNNs through a simple concept: constructing message-passing operators from pretrained foundation model weights. We show that this approach results in improved performance for graph-based tasks in a number of data domains, allowing graph neural networks to leverage the knowledge of foundation models.
翻訳日:2024-03-07 11:55:41 公開日:2024-03-06
# PCB-RandNet:自律走行シーンにおけるLIDARセマンティックセグメンテーションのためのランダムサンプリングの再考

PCB-RandNet: Rethinking Random Sampling for LIDAR Semantic Segmentation in Autonomous Driving Scene ( http://arxiv.org/abs/2209.13797v3 )

ライセンス: Link先を確認
XianFeng Han, Huixian Cheng, Hang Jiang, Dehong He, Guoqiang Xiao(参考訳) 大規模lidarポイントクラウドの高速かつ効率的なセマンティクスセグメンテーションは、自動運転における根本的な問題である。 この目標を達成するために、既存のポイントベースのメソッドは主に大規模なポイントクラウドを処理するためにランダムサンプリング戦略を採用する。 しかし,我々の定量的・定性的な研究では,lidar点が空間全体にわたって不均一あるいは長尾の分布に従うため,ランダムサンプリングは自律運転のシナリオには適さない可能性があり,距離範囲の異なる点から十分な情報を取得できないため,モデルの学習能力が低下する。 この問題を軽減するために、よりバランスのとれた分布を維持し、異なる空間分布下でのセグメンテーション性能を向上させることができる新しい極柱平衡ランダムサンプリング法を提案する。 さらに,セグメント化性能を向上し,異なるサンプリング手法によるモデルの分散を低減するため,サンプリング一貫性損失が導入された。 実験の結果,SemanticKITTIとSemanticPOSSのベンチマークでは,それぞれ2.8%,4.0%の改善が得られた。 ソースコードはhttps://github.com/huixiancheng/PCB-RandNetで入手できる。

Fast and efficient semantic segmentation of large-scale LiDAR point clouds is a fundamental problem in autonomous driving. To achieve this goal, the existing point-based methods mainly choose to adopt Random Sampling strategy to process large-scale point clouds. However, our quantative and qualitative studies have found that Random Sampling may be less suitable for the autonomous driving scenario, since the LiDAR points follow an uneven or even long-tailed distribution across the space, which prevents the model from capturing sufficient information from points in different distance ranges and reduces the model's learning capability. To alleviate this problem, we propose a new Polar Cylinder Balanced Random Sampling method that enables the downsampled point clouds to maintain a more balanced distribution and improve the segmentation performance under different spatial distributions. In addition, a sampling consistency loss is introduced to further improve the segmentation performance and reduce the model's variance under different sampling methods. Extensive experiments confirm that our approach produces excellent performance on both SemanticKITTI and SemanticPOSS benchmarks, achieving a 2.8% and 4.0% improvement, respectively. The source code is available at https://github.com/huixiancheng/PCB-RandNet.
翻訳日:2024-03-07 11:55:27 公開日:2024-03-06
# Triple-CFN:抽象推論プロセスの強化のための概念空間の再構築

Triple-CFN: Restructuring Conceptual Spaces for Enhancing Abstract Reasoning process ( http://arxiv.org/abs/2403.03190v2 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan(参考訳) 抽象的推論問題は、人工知能アルゴリズムに重大な課題をもたらし、知覚タスクに必要な以上の認知能力を要求する。 本研究では,競合するインスタンスの概念空間を暗黙的に再編成することにより,ボナード・ローゴ問題に対処するトリプルCFN手法を提案する。 さらに、トリプルCFNパラダイムは、必要な修正を加えてRPM問題に有効であることを証明し、競争結果をもたらす。 rpm問題の性能をさらに高めるために,プログレッシブパターンの解釈性を維持しつつ問題空間を明示的に構築するメタトリプルcfnネットワークを開発した。 Meta Triple-CFNの成功は、概念空間をモデル化するパラダイムが、正規化推論情報と等価であることによる。 このイデオロギーに基づいて、Re-space層を導入し、Meta Triple-CFNとTriple-CFNの両方の性能を向上させる。 本稿では、抽象推論問題に対処する革新的なネットワーク設計を探求し、この領域におけるさらなるブレークスルーへの道を開くことにより、機械学習の進歩に貢献することを目的とする。

Abstract reasoning problems pose significant challenges to artificial intelligence algorithms, demanding cognitive capabilities beyond those required for perception tasks. This study introduces the Triple-CFN approach to tackle the Bongard-Logo problem, achieving notable reasoning accuracy by implicitly reorganizing the concept space of conflicting instances. Additionally, the Triple-CFN paradigm proves effective for the RPM problem with necessary modifications, yielding competitive results. To further enhance performance on the RPM issue, we develop the Meta Triple-CFN network, which explicitly structures the problem space while maintaining interpretability on progressive patterns. The success of Meta Triple-CFN is attributed to its paradigm of modeling the conceptual space, equivalent to normalizing reasoning information. Based on this ideology, we introduce the Re-space layer, enhancing the performance of both Meta Triple-CFN and Triple-CFN. This paper aims to contribute to advancements in machine intelligence by exploring innovative network designs for addressing abstract reasoning problems, paving the way for further breakthroughs in this domain.
翻訳日:2024-03-07 11:51:30 公開日:2024-03-06
# ダイヤモンド量子センサのマイクロエレクトロニック読み出し

Microelectronic readout of a diamond quantum sensor ( http://arxiv.org/abs/2403.03090v2 )

ライセンス: Link先を確認
Daniel Wirtitsch, Georg Wachter, Sarah Reisenbauer, Johannes Schalko, Ulrich Schmid, Andrea Fant, Luca Sant, Michael Trupke(参考訳) ダイヤモンドの窒素空隙(nv)中心に基づく量子センサーは、科学探査から商業用途の第一世代へと急速に進歩している。 NV中心スピン状態の操作に適した方法の開発には大きな進歩があったが、欠陥発光の検出は、これまで小型化されたセンサアーキテクチャの性能を制限してきた。 最近のNV中心のスピン状態の光電検出は、これらの制限を回避する道を提供するが、これらのシステムから得られるピコアンペアスケールの電流を検出するために、これまで研究グレードの低電流増幅器を必要としていた。 本稿では,金属酸化物半導体(CMOS)素子を用いたNVアンサンブルを用いた磁気共鳴(PDMR)の光電検出について報告する。 集積回路は、低ノイズおよび50フェムトアンペア分解能を有するダイヤモンドセンサのディジタル出力を提供する。 この統合は、ダイヤモンドベースのコンパクトな量子センサーへの道の最後の欠落コンポーネントを提供する。 この装置はパルス操作と同様に連続波(CW)にも適している。 数メガヘルツ、コヒーレントスピン回転、および量子センシングのための多軸デカップリングシーケンスまで、DCおよびAC磁気計でその機能を示す。

Quantum sensors based on the nitrogen-vacancy (NV) centre in diamond are rapidly advancing from scientific exploration towards the first generation of commercial applications. While significant progress has been made in developing suitable methods for the manipulation of the NV centre spin state, the detection of the defect luminescence has so far limited the performance of miniaturized sensor architectures. The recent development of photoelectric detection of the NV centre's spin state offers a path to circumvent these limitations, but has to-date required research-grade low current amplifiers to detect the picoampere-scale currents obtained from these systems. Here we report on the photoelectric detection of magnetic resonance (PDMR) with NV ensembles using a complementary metal-oxide semiconductor (CMOS) device. The integrated circuit delivers a digitized output of the diamond sensor with low noise and 50 femtoampere resolution. This integration provides the last missing component on the path to a compact, diamond-based quantum sensor. The device is suited for continuous wave (CW) as well as pulsed operation. We demonstrate its functionality with DC and AC magnetometry up to several megahertz, coherent spin rotation and multi-axial decoupling sequences for quantum sensing.
翻訳日:2024-03-07 11:51:09 公開日:2024-03-06
# 最適化励起計数による高効率で頑健なボゾン状態復元

Demonstrating efficient and robust bosonic state reconstruction via optimized excitation counting ( http://arxiv.org/abs/2403.03080v2 )

ライセンス: Link先を確認
Tanjung Krisnanda, Clara Yun Fontaine, Adrian Copetudo, Pengtao Song, Kai Xiang Lee, Ni-Ni Huang, Fernando Valadares, Timothy C. H. Liew, Yvonne Y. Gao(参考訳) 量子状態再構成は、量子情報処理において重要な要素である。 しかし、ハードウェア不完全な存在下での非自明な量子状態の効率的かつ信頼性の高い再構成は困難である。 この課題は連続可変(CV)システムで符号化された高次元状態に対して特に要求される。 本稿では,励起数サンプリング(orens)に基づく最適再構成のための効率的でロバストな手法を提案する。 標準ボソニック回路量子電磁力学 (cqed) を用いて, オーレンのロバスト性を実験的に証明し, ウィグナートモグラフィやフシミq関数などの既存のcqed再構成技術よりも優れていることを示す。 私たちの調査では、orensは寄生系のダイナミクスがなく、ハードウェアのデコヒーレンス効果に耐性があることが強調されている。 最後に、ORENSは状態の励起数を正確に測定する能力にのみ依存しており、幅広いCVプラットフォーム向けの汎用的でアクセスしやすいツールであり、マルチモードシステムに容易に拡張できる。 したがって,本研究はボソニックモードを用いた実用的な量子情報処理において重要かつ貴重なプリミティブとなる。

Quantum state reconstruction is an essential element in quantum information processing. However, efficient and reliable reconstruction of non-trivial quantum states in the presence of hardware imperfections can be challenging. This task is particularly demanding for high-dimensional states encoded in continuous-variable (CV) systems, as many error-prone measurements are needed to cover the relevant degrees of freedom of the system in phase space. In this work, we introduce an efficient and robust technique for optimized reconstruction based on excitation number sampling (ORENS). We use a standard bosonic circuit quantum electrodynamics (cQED) setup to experimentally demonstrate the robustness of ORENS and show that it outperforms the existing cQED reconstruction techniques such as Wigner tomography and Husimi Q-function. Our investigation highlights that ORENS is naturally free of parasitic system dynamics and resilient to decoherence effects in the hardware. Finally, ORENS relies only on the ability to accurately measure the excitation number of the state, making it a versatile and accessible tool for a wide range of CV platforms and readily scalable to multimode systems. Thus, our work provides a crucial and valuable primitive for practical quantum information processing using bosonic modes.
翻訳日:2024-03-07 11:50:49 公開日:2024-03-06
# 大規模言語モデルのテキスト-SQL能力のベンチマーク:包括的評価

Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation ( http://arxiv.org/abs/2403.02951v2 )

ライセンス: Link先を確認
Bin Zhang, Yuxiao Ye, Guoqing Du, Xiaoru Hu, Zhishuai Li, Sun Yang, Chi Harold Liu, Rui Zhao, Ziyue Li, Hangyu Mao(参考訳) 大規模言語モデル(llm)は、テキストからsqlへのタスクを進めるための強力なツールとして登場し、従来の方法を大きく上回っている。 しかし、初期の研究分野として、最適なプロンプトテンプレートと設計フレームワークについてはまだ合意が得られていない。 さらに、既存のベンチマークでは、LLMの認知能力の評価やLLMベースのソリューションの最適化を妨げているText-to-SQLプロセスの様々なサブタスクにわたるLCMのパフォーマンスを不適切に調査している。 上記の問題に対処するため、まずLLMにおける過度適合のリスクを軽減するために設計された新しいデータセットを構築する。 そこで本研究では,テキスト・トゥ・SQLプロセスを通じて多種多様なメソッドのパフォーマンスを総合的に評価する5つの評価タスクを定式化し,各タスクに適した最適テキスト内学習ソリューションを提案する。 これらの知見は LLM ベースの Text-to-SQL システムの開発を促進する上で貴重な洞察を与える。

Large Language Models (LLMs) have emerged as a powerful tool in advancing the Text-to-SQL task, significantly outperforming traditional methods. Nevertheless, as a nascent research field, there is still no consensus on the optimal prompt templates and design frameworks. Additionally, existing benchmarks inadequately explore the performance of LLMs across the various sub-tasks of the Text-to-SQL process, which hinders the assessment of LLMs' cognitive capabilities and the optimization of LLM-based solutions. To address the aforementioned issues, we firstly construct a new dataset designed to mitigate the risk of overfitting in LLMs. Then we formulate five evaluation tasks to comprehensively assess the performance of diverse methods across various LLMs throughout the Text-to-SQL process.Our study highlights the performance disparities among LLMs and proposes optimal in-context learning solutions tailored to each task. These findings offer valuable insights for enhancing the development of LLM-based Text-to-SQL systems.
翻訳日:2024-03-07 11:50:28 公開日:2024-03-06
# ImgTrojan: ONE画像付き視覚ランゲージモデルの脱獄

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image ( http://arxiv.org/abs/2403.02910v2 )

ライセンス: Link先を確認
Xijia Tao, Shuai Zhong, Lei Li, Qi Liu, Lingpeng Kong(参考訳) 大型言語モデル(LLM)と人間の価値の整合性への関心が高まっている。 しかしながら、視覚モジュールや視覚言語モデル(VLM)との統合の安全性の問題は、いまだに未解明のままである。 本稿では,ユーザが有害な指示を入力した場合の安全障壁を回避することを目的とした,新しいVLMに対する脱獄攻撃を提案する。 有毒な(画像、テキスト)データペアがトレーニングデータに含まれているシナリオを想定します。 原文のキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることで、中毒画像をジェイルブレイク攻撃することができる。 さらに, トレーニング可能なパラメータの位置と毒の比率が攻撃の成功率に及ぼす影響を解析した。 評価のために、攻撃の成功率とステルスネスを定量化する2つの指標を設計する。 治癒した有害な指示のリストとともに、攻撃効果を測定するためのベンチマークが提供される。 ベースライン法と比較することにより,攻撃の有効性を実証する。

There has been an increasing interest in the alignment of large language models (LLMs) with human values. However, the safety issues of their integration with a vision module, or vision language models (VLMs), remain relatively underexplored. In this paper, we propose a novel jailbreaking attack against VLMs, aiming to bypass their safety barrier when a user inputs harmful instructions. A scenario where our poisoned (image, text) data pairs are included in the training data is assumed. By replacing the original textual captions with malicious jailbreak prompts, our method can perform jailbreak attacks with the poisoned images. Moreover, we analyze the effect of poison ratios and positions of trainable parameters on our attack's success rate. For evaluation, we design two metrics to quantify the success rate and the stealthiness of our attack. Together with a list of curated harmful instructions, a benchmark for measuring attack efficacy is provided. We demonstrate the efficacy of our attack by comparing it with baseline methods.
翻訳日:2024-03-07 11:50:12 公開日:2024-03-06
# PromptKD:ビジョンランゲージモデルのための教師なしプロンプト蒸留

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models ( http://arxiv.org/abs/2403.02781v2 )

ライセンス: Link先を確認
Zheng Li, Xiang Li, Xinyi Fu, Xing Zhang, Weiqiang Wang, Shuo Chen, Jian Yang(参考訳) プロンプト学習は、特定のドメインの下流タスクのためのCLIPのような視覚言語モデル(VLM)を強化するための貴重なテクニックとして登場した。 既存の研究は主に様々な学習形態のプロンプトの設計に重点を置いており、より大きな教師モデルから学ぶための効果的な蒸留器としてのプロンプトの可能性を無視している。 本稿では,大規模教師モデルの知識を,ラベルなしドメイン画像を用いた即時模倣により軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。 具体的には,2つの異なる段階から構成される。 最初の段階では、ドメインラベルを用いて大規模なCLIP教師モデルを事前訓練する。 事前学習後,教師のテキストエンコーダを通じてのみ,テキスト特徴をクラスベクトルとして事前計算し,保存することにより,CLIPの独特な分離モダリティ特性を活用する。 その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。 さらに,教師と生徒モデルのロジットをklダイバージェンスを通じて調整し,学習可能なプロンプトを通じて,生徒画像エンコーダが教師と同じような確率分布を生成するように促す。 提案するプロンプト蒸留プロセスはラベル付きデータへの依存をなくし、アルゴリズムはドメイン内の大量のラベル付き画像を活用することができる。 最後に、よく訓練された学生画像エンコーダと事前記憶されたテキスト特徴(クラスベクトル)を推論に利用する。 最善の知識として,(1)非教師付きドメイン特化プロンプト型知識蒸留をクリップに対して実施し,(2)教師と生徒の共有クラスベクトルとしてテキスト特徴の実用的事前保存機構を確立する。 11のデータセットに関する広範囲な実験により,本手法の有効性が示された。

Prompt learning has emerged as a valuable technique in enhancing vision-language models (VLMs) such as CLIP for downstream tasks in specific domains. Existing work mainly focuses on designing various learning forms of prompts, neglecting the potential of prompts as effective distillers for learning from larger teacher models. In this paper, we introduce an unsupervised domain prompt distillation framework, which aims to transfer the knowledge of a larger teacher model to a lightweight target model through prompt-driven imitation using unlabeled domain images. Specifically, our framework consists of two distinct stages. In the initial stage, we pre-train a large CLIP teacher model using domain (few-shot) labels. After pre-training, we leverage the unique decoupled-modality characteristics of CLIP by pre-computing and storing the text features as class vectors only once through the teacher text encoder. In the subsequent stage, the stored class vectors are shared across teacher and student image encoders for calculating the predicted logits. Further, we align the logits of both the teacher and student models via KL divergence, encouraging the student image encoder to generate similar probability distributions to the teacher through the learnable prompts. The proposed prompt distillation process eliminates the reliance on labeled data, enabling the algorithm to leverage a vast amount of unlabeled images within the domain. Finally, the well-trained student image encoders and pre-stored text features (class vectors) are utilized for inference. To our best knowledge, we are the first to (1) perform unsupervised domain-specific prompt-driven knowledge distillation for CLIP, and (2) establish a practical pre-storing mechanism of text features as shared class vectors between teacher and student. Extensive experiments on 11 datasets demonstrate the effectiveness of our method.
翻訳日:2024-03-07 11:49:56 公開日:2024-03-06
# HoloVIC:マルチセンサホログラフィーの大規模データセットとベンチマーク

HoloVIC: Large-scale Dataset and Benchmark for Multi-Sensor Holographic Intersection and Vehicle-Infrastructure Cooperative ( http://arxiv.org/abs/2403.02640v2 )

ライセンス: Link先を確認
Cong Ma, Lei Qiao, Chengkai Zhu, Kai Liu, Zelong Kong, Qing Li, Xueqi Zhou, Yuheng Kan, Wei Wu(参考訳) 自動運転車(V2X)は、近年の自動運転分野における一般的な話題である。 自動車インフラ協力(vic)は重要な研究分野の1つである。 盲点や咬合などの交通条件の複雑さのため、単視点道路サイドセンシングシステムの認識能力が大幅に制限される。 路面認識の精度をさらに高め,車両側により良い情報を提供するため,本論文では,大規模多センサホログラフィック車両・インフラ協調データセットであるHoloVICを構築するために,様々なレイアウトのホログラフィック交差点を構築した。 私たちのデータセットには3種類のセンサー(Camera, Lidar, Fisheye)が含まれており、異なる交差点に基づいて4つのセンサーレイアウトを採用している。 各交差点は同期データをキャプチャする6-18センサーを備えている。 自動運転車はこれらの交差点を通過してVICデータを収集する。 HoloVICには、さまざまなセンサーから100k以上の同期フレームが含まれている。 さらに,カメラ,魚眼,ライダーに基づいて3dバウンディングボックスをアノテーションした。 また、異なるデバイスと連続するフレーム間で同じオブジェクトのidを連続的に関連付ける。 本研究は,HoloVICに基づく4つの課題を定式化した。 これらのタスクのベンチマークも提供しています。

Vehicle-to-everything (V2X) is a popular topic in the field of Autonomous Driving in recent years. Vehicle-infrastructure cooperation (VIC) becomes one of the important research area. Due to the complexity of traffic conditions such as blind spots and occlusion, it greatly limits the perception capabilities of single-view roadside sensing systems. To further enhance the accuracy of roadside perception and provide better information to the vehicle side, in this paper, we constructed holographic intersections with various layouts to build a large-scale multi-sensor holographic vehicle-infrastructure cooperation dataset, called HoloVIC. Our dataset includes 3 different types of sensors (Camera, Lidar, Fisheye) and employs 4 sensor-layouts based on the different intersections. Each intersection is equipped with 6-18 sensors to capture synchronous data. While autonomous vehicles pass through these intersections for collecting VIC data. HoloVIC contains in total on 100k+ synchronous frames from different sensors. Additionally, we annotated 3D bounding boxes based on Camera, Fisheye, and Lidar. We also associate the IDs of the same objects across different devices and consecutive frames in sequence. Based on HoloVIC, we formulated four tasks to facilitate the development of related research. We also provide benchmarks for these tasks.
翻訳日:2024-03-07 11:49:27 公開日:2024-03-06
# FedHCDR:ハイパーグラフ信号デカップリングによるクロスドメイン勧告

FedHCDR: Federated Cross-Domain Recommendation with Hypergraph Signal Decoupling ( http://arxiv.org/abs/2403.02630v2 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Lin Zhong, Xu Yang, Jiyuan Feng, Yunqing Feng, Qing Liao(参考訳) 近年,複数のドメインのユーザデータを用いて推薦性能を向上させるクロスドメイン勧告 (CDR) が注目されている。 しかし、現在のCDRメソッドでは、ドメイン間でユーザデータを共有する必要があるため、GDPR(General Data Protection Regulation)に違反する。 その結果,Federated Cross-Domain Recommendation (FedCDR) には多くのアプローチが提案されている。 それでも、異なる領域にわたるデータの異質性は、フェデレート学習の全体的なパフォーマンスに必然的に影響を及ぼす。 本研究では,ハイパーグラフ信号デカップリングを用いた新しいFederated Cross-Domain RecommendationフレームワークであるFedHCDRを提案する。 具体的には、ドメイン間のデータの均一性に対処するため、ハイパーグラフ信号デカップリング(HSD)と呼ばれるアプローチを導入し、ユーザ機能をドメイン排他的およびドメイン共有機能に分離する。 このアプローチでは、ハイパスおよびローパスハイパーグラフフィルタを使用して、ローカルグローバル双方向転送アルゴリズムによって訓練されたドメイン排他的およびドメイン共有ユーザ表現を分離する。 さらに、ユーザハイパーグラフを摂動させることにより、ドメイン共有ユーザ関係情報の学習を強化するために、ハイパーグラフコントラスト学習(HCL)モジュールを考案する。 3つの実世界のシナリオで実施された大規模な実験は、FedHCDRが既存のベースラインを大幅に上回ることを示した。

In recent years, Cross-Domain Recommendation (CDR) has drawn significant attention, which utilizes user data from multiple domains to enhance the recommendation performance. However, current CDR methods require sharing user data across domains, thereby violating the General Data Protection Regulation (GDPR). Consequently, numerous approaches have been proposed for Federated Cross-Domain Recommendation (FedCDR). Nevertheless, the data heterogeneity across different domains inevitably influences the overall performance of federated learning. In this study, we propose FedHCDR, a novel Federated Cross-Domain Recommendation framework with Hypergraph signal decoupling. Specifically, to address the data heterogeneity across domains, we introduce an approach called hypergraph signal decoupling (HSD) to decouple the user features into domain-exclusive and domain-shared features. The approach employs high-pass and low-pass hypergraph filters to decouple domain-exclusive and domain-shared user representations, which are trained by the local-global bi-directional transfer algorithm. In addition, a hypergraph contrastive learning (HCL) module is devised to enhance the learning of domain-shared user relationship information by perturbing the user hypergraph. Extensive experiments conducted on three real-world scenarios demonstrate that FedHCDR outperforms existing baselines significantly.
翻訳日:2024-03-07 11:49:09 公開日:2024-03-06
# OffLanDat: プロンプトエンジニアリングによる大規模言語モデルによるコミュニティベースの攻撃的言語データセット

OffLanDat: A Community Based Implicit Offensive Language Dataset Generated by Large Language Model Through Prompt Engineering ( http://arxiv.org/abs/2403.02472v2 )

ライセンス: Link先を確認
Amit Das, Mostafa Rahgouy, Dongji Feng, Zheng Zhang, Tathagata Bhattacharya, Nilanjana Raychawdhary, Mary Sandage, Lauramarie Pope, Gerry Dozier and Cheryl Seals(参考訳) ソーシャルメディアにおける攻撃的言語の存在は、社会的幸福に悪影響を及ぼしている。 その結果、この問題に高い優先度で対処することが非常に重要になった。 攻撃的な言語は明示的な形式と暗黙的な形式の両方に存在し、後者はより検出が難しい。 現在のこの分野の研究はいくつかの課題に直面している。 第一に、既存のデータセットは主に明示的な攻撃的キーワードを含むテキストの集合に依存しているため、これらのキーワードを欠いた暗黙的に攻撃的なコンテンツをキャプチャすることが困難である。 第二に、通常の方法論は、コミュニティ情報が提供できる貴重な洞察を無視して、テキスト分析のみに焦点を当てる傾向がある。 本稿では,38の異なる対象グループを対象としたデータを含むchatgptによって生成された,コミュニティベースの暗黙的攻撃言語データセットであるofflandatを提案する。 倫理上の制約により chatgpt を用いた攻撃的テキストの生成が制限されているにもかかわらず,暗黙的攻撃的言語を効果的に生成するプロンプトベースアプローチを提案する。 データ品質を確保するために、我々はデータを人間で評価する。 さらに,ChatGPTを用いたプロンプトベースのZero-Shot法を用いて,人間のアノテーションとChatGPTアノテーションの検知結果を比較する。 既存の最先端モデルを用いて、そのような言語を検出するのがいかに効果的かを確認する。 他の研究者のためにコードとデータセットを公開します。

The widespread presence of offensive languages on social media has resulted in adverse effects on societal well-being. As a result, it has become very important to address this issue with high priority. Offensive languages exist in both explicit and implicit forms, with the latter being more challenging to detect. Current research in this domain encounters several challenges. Firstly, the existing datasets primarily rely on the collection of texts containing explicit offensive keywords, making it challenging to capture implicitly offensive contents that are devoid of these keywords. Secondly, usual methodologies tend to focus solely on textual analysis, neglecting the valuable insights that community information can provide. In this research paper, we introduce a novel dataset OffLanDat, a community based implicit offensive language dataset generated by ChatGPT containing data for 38 different target groups. Despite limitations in generating offensive texts using ChatGPT due to ethical constraints, we present a prompt-based approach that effectively generates implicit offensive languages. To ensure data quality, we evaluate our data with human. Additionally, we employ a prompt-based Zero-Shot method with ChatGPT and compare the detection results between human annotation and ChatGPT annotation. We utilize existing state-of-the-art models to see how effective they are in detecting such languages. We will make our code and dataset public for other researchers.
翻訳日:2024-03-07 11:48:49 公開日:2024-03-06
# NeuroVoz : パーキンソン語音声のカスティーリャスペイン語コーパス

NeuroVoz: a Castillian Spanish corpus of parkinsonian speech ( http://arxiv.org/abs/2403.02371v2 )

ライセンス: Link先を確認
Jana\'ina Mendes-Laureano, Jorge A. G\'omez-Garc\'ia, Alejandro Guerrero-L\'opez, Elisa Luque-Buzo, Juli\'an D. Arias-Londo\~no, Francisco J. Grandas-P\'erez, Juan I. Godino-Llorente(参考訳) 音声分析によるパーキンソン病(PD)診断の進歩は、公開可能な多様な言語データセットの欠如、再現可能性の制限、既存の研究のさらなる探索によって妨げられている。 このギャップに対処するため,カスティーリャ生まれのスペイン語話者108名を対象に,健康管理55名,PDと診断された53名からなる包括的コーパスを導入した。 このユニークなデータセットは5つのスペイン語母音の持続的な発声、ダイアドコキネティックテスト、16のリス・アンド・リピート発話、フリーモノローグを含む幅広い音声タスクを特徴としている。 このデータセットは、リスニング・アンド・リピートタスクの専門的な手作業による書き起こしによって正確性と信頼性を強調し、自動モノローグの書き起こしにwhisperを活用し、パーキンソン語音声の最も完全な公的なコーパスとなり、カスティル語では初めてとなる。 neurovozは1人あたり平均26.88 \pm 3.35$のオーディオ録音2,903曲で構成されており、pdが音声に与える影響を科学的に探究するのにかなりのリソースを提供している。 このデータセットはすでにいくつかの研究を基礎としており、pd音声パターン識別において89%のベンチマーク精度を達成している。 これらの進歩にもかかわらず、パーキンソン病の発話パターンの言語非依存でクロスコーポラ分析を行うという幅広い課題は、将来の研究のためのオープンエリアである。 この貢献は、pd音声分析リソースの批判的な空白を埋めるだけでなく、神経変性疾患の診断ツールとして音声を活用するグローバル研究コミュニティの新たな標準を定めている。

The advancement of Parkinson's Disease (PD) diagnosis through speech analysis is hindered by a notable lack of publicly available, diverse language datasets, limiting the reproducibility and further exploration of existing research. In response to this gap, we introduce a comprehensive corpus from 108 native Castilian Spanish speakers, comprising 55 healthy controls and 53 individuals diagnosed with PD, all of whom were under pharmacological treatment and recorded in their medication-optimized state. This unique dataset features a wide array of speech tasks, including sustained phonation of the five Spanish vowels, diadochokinetic tests, 16 listen-and-repeat utterances, and free monologues. The dataset emphasizes accuracy and reliability through specialist manual transcriptions of the listen-and-repeat tasks and utilizes Whisper for automated monologue transcriptions, making it the most complete public corpus of Parkinsonian speech, and the first in Castillian Spanish. NeuroVoz is composed by 2,903 audio recordings averaging $26.88 \pm 3.35$ recordings per participant, offering a substantial resource for the scientific exploration of PD's impact on speech. This dataset has already underpinned several studies, achieving a benchmark accuracy of 89% in PD speech pattern identification, indicating marked speech alterations attributable to PD. Despite these advances, the broader challenge of conducting a language-agnostic, cross-corpora analysis of Parkinsonian speech patterns remains an open area for future research. This contribution not only fills a critical void in PD speech analysis resources but also sets a new standard for the global research community in leveraging speech as a diagnostic tool for neurodegenerative diseases.
翻訳日:2024-03-07 11:48:26 公開日:2024-03-06
# UniCtrl: 学習自由統一注意制御によるテキスト・ビデオ拡散モデルの時空間整合性の改善

UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control ( http://arxiv.org/abs/2403.02332v3 )

ライセンス: Link先を確認
Xuweiyi Chen, Tian Xia, and Sihan Xu(参考訳) ビデオ拡散モデルはビデオ生成のために開発されており、通常はテキストと画像条件を統合して生成されたコンテンツの制御を強化する。 進歩にもかかわらず、特にテキストプロンプトを制御条件として使用する場合、フレーム間の一貫性の確保は依然として課題である。 そこで本研究では,テキスト対ビデオモデルによる映像の時空間的一貫性と動きの多様性を改善するために,新たなプラグ・アンド・プレイ方式であるunictrlを提案する。 UniCtrlは、フレーム間の自己アテンション制御を通じて、異なるフレーム間のセマンティック一貫性を保証すると同時に、モーションインジェクションと時空間同期によって、運動品質と時空間一貫性を高める。 実験の結果、UniCtrlは様々なテキスト・ビデオ・モデルを強化し、その有効性と普遍性を確認した。

Video Diffusion Models have been developed for video generation, usually integrating text and image conditioning to enhance control over the generated content. Despite the progress, ensuring consistency across frames remains a challenge, particularly when using text prompts as control conditions. To address this problem, we introduce UniCtrl, a novel, plug-and-play method that is universally applicable to improve the spatiotemporal consistency and motion diversity of videos generated by text-to-video models without additional training. UniCtrl ensures semantic consistency across different frames through cross-frame self-attention control, and meanwhile, enhances the motion quality and spatiotemporal consistency through motion injection and spatiotemporal synchronization. Our experimental results demonstrate UniCtrl's efficacy in enhancing various text-to-video models, confirming its effectiveness and universality.
翻訳日:2024-03-07 11:47:52 公開日:2024-03-06
# ニューロミクスコンピューティングに向けて: ニューロンをオートエンコーダとして

Toward Neuromic Computing: Neurons as Autoencoders ( http://arxiv.org/abs/2403.02331v2 )

ライセンス: Link先を確認
Larry Bull(参考訳) デンドライトの計算能力はますます明確になっている。 このレターは、神経バックプロパゲーションが樹状突起処理を使用して個々のニューロンが自動的にエンコードできるという考えを示している。 超単純な接続重み探索ヒューリスティックおよび人工ニューラルネットワークモデルを用いて、フィードフォワードネットワークの隠れ層における各ニューロンに対する相互結合型自己符号化の効果を探索する。 これは、オートエンコーディングの標準層アプローチとは対照的である。 このような個別化処理は有害ではなく、ネットワーク学習を改善することができる。

The computational capabilities of dendrites have become increasingly clear. This letter presents the idea that neural backpropagation is using dendritic processing to enable individual neurons to perform autoencoding. Using a very simple connection weight search heuristic and artificial neural network model, the effects of interleaving autoencoding for each neuron in a hidden layer of a feedforward network are explored. This is contrasted to the standard layered approach to autoencoding. It is shown that such individualised processing is not detrimental and can improve network learning.
翻訳日:2024-03-07 11:47:33 公開日:2024-03-06
# 動的アルゴリズム選択のための深層強化学習:微分進化の原理実証研究

Deep Reinforcement Learning for Dynamic Algorithm Selection: A Proof-of-Principle Study on Differential Evolution ( http://arxiv.org/abs/2403.02131v2 )

ライセンス: Link先を確認
Hongshu Guo, Yining Ma, Zeyuan Ma, Jiacheng Chen, Xinglin Zhang, Zhiguang Cao, Jun Zhang, Yue-Jiao Gong(参考訳) 微分進化のような進化的アルゴリズムは、実パラメータ最適化の課題を解決するのに優れている。 しかし、1つのアルゴリズムの有効性は異なる問題インスタンスによって異なり、アルゴリズムの選択や構成にかなりの労力を要する。 本稿では,アルゴリズム群を補完する強みを生かし,特定の問題に対する最適化の進捗を動的にスケジューリングすることで,その限界に対処することを目的とする。 この課題を達成するために,深層強化学習に基づく動的アルゴリズム選択フレームワークを提案する。 提案手法は,マルコフ決定プロセスを選択する動的アルゴリズムをモデル化し,最適化過程で観察された特徴に応じて最適なアルゴリズムを選択するために,エージェントをポリシー勾配に訓練する。 エージェントに必要な情報を与えるため,我々のフレームワークはランドスケープとアルゴリズム的特徴の思慮深い設計を取り入れている。 一方,高度な深層ニューラルネットワークモデルを用いて最適動作を推定し,アルゴリズム選択のインフォームドを保証する。 さらに、異なるアルゴリズム間のスムーズな切り替えを容易にするために、アルゴリズムコンテキスト復元機構が組み込まれている。 これらのメカニズムを組み合わせることで、動的オンライン方式でアルゴリズムをシームレスに選択および切り替えすることが可能になります。 特に、提案されたフレームワークは単純で汎用的であり、幅広い進化的アルゴリズムにまたがる潜在的な改善を提供する。 原理実証研究として,この枠組みを微分進化アルゴリズム群に適用する。 実験結果は,最適化性能を向上するだけでなく,様々な問題クラスにまたがる優れた一般化能力を示すとともに,提案フレームワークの顕著な有効性を示した。

Evolutionary algorithms, such as Differential Evolution, excel in solving real-parameter optimization challenges. However, the effectiveness of a single algorithm varies across different problem instances, necessitating considerable efforts in algorithm selection or configuration. This paper aims to address the limitation by leveraging the complementary strengths of a group of algorithms and dynamically scheduling them throughout the optimization progress for specific problems. We propose a deep reinforcement learning-based dynamic algorithm selection framework to accomplish this task. Our approach models the dynamic algorithm selection a Markov Decision Process, training an agent in a policy gradient manner to select the most suitable algorithm according to the features observed during the optimization process. To empower the agent with the necessary information, our framework incorporates a thoughtful design of landscape and algorithmic features. Meanwhile, we employ a sophisticated deep neural network model to infer the optimal action, ensuring informed algorithm selections. Additionally, an algorithm context restoration mechanism is embedded to facilitate smooth switching among different algorithms. These mechanisms together enable our framework to seamlessly select and switch algorithms in a dynamic online fashion. Notably, the proposed framework is simple and generic, offering potential improvements across a broad spectrum of evolutionary algorithms. As a proof-of-principle study, we apply this framework to a group of Differential Evolution algorithms. The experimental results showcase the remarkable effectiveness of the proposed framework, not only enhancing the overall optimization performance but also demonstrating favorable generalization ability across different problem classes.
翻訳日:2024-03-07 11:47:23 公開日:2024-03-06
# テキスト・画像間モデルの暗黙的プロンプトに向けて

Towards Implicit Prompt For Text-To-Image Models ( http://arxiv.org/abs/2403.02118v2 )

ライセンス: Link先を確認
Yue Yang, Yuqi lin, Hong Liu, Wenqi Shao, Runjian Chen, Hailong Shang, Yu Wang, Yu Qiao, Kaipeng Zhang, Ping Luo(参考訳) 最近のテキスト・ツー・イメージ(T2I)モデルは大きな成功を収め、その性能と安全性を評価するために多くのベンチマークが提案されている。 しかし、明示的なプロンプトのみを考慮し、暗黙的なプロンプトを無視する(明示的に言及せずにターゲットに隠れる)。 これらのプロンプトは安全性の制約を排除し、これらのモデルの応用に潜在的な脅威をもたらす可能性がある。 本稿では,T2Iモデルの現状を暗黙のプロンプトに向けて強調する。 我々は、ImplicitBenchというベンチマークを示し、一般的なT2Iモデルを用いた暗黙的なプロンプトの性能と影響について調査する。 具体的には、一般シンボル、セレブプライバシ、Not-Safe-For-Work(NSFW)問題という3つの側面の2000以上の暗黙的なプロンプトを設計し、収集し、これらの暗黙的なプロンプトの下で6つのよく知られたT2Iモデルの能力を評価する。 実験結果から,(1)T2Iモデルが暗黙のプロンプトによって示される様々なターゲットシンボルを正確に生成できること,(2)暗黙のプロンプトがT2Iモデルのプライバシー漏洩の潜在的なリスクをもたらすことが示唆された。 (3) 評価されたほとんどのT2IモデルにおけるNSFWの制約は暗黙のプロンプトでバイパスすることができる。 我々は,t2iコミュニティにおける暗黙のプロンプトの可能性とリスクに対する注意の高まりと,暗黙のプロンプトの能力と影響に関するさらなる調査を求め,そのリスクを緩和しながらそのメリットを活用するバランスのとれたアプローチを提唱する。

Recent text-to-image (T2I) models have had great success, and many benchmarks have been proposed to evaluate their performance and safety. However, they only consider explicit prompts while neglecting implicit prompts (hint at a target without explicitly mentioning it). These prompts may get rid of safety constraints and pose potential threats to the applications of these models. This position paper highlights the current state of T2I models toward implicit prompts. We present a benchmark named ImplicitBench and conduct an investigation on the performance and impacts of implicit prompts with popular T2I models. Specifically, we design and collect more than 2,000 implicit prompts of three aspects: General Symbols, Celebrity Privacy, and Not-Safe-For-Work (NSFW) Issues, and evaluate six well-known T2I models' capabilities under these implicit prompts. Experiment results show that (1) T2I models are able to accurately create various target symbols indicated by implicit prompts; (2) Implicit prompts bring potential risks of privacy leakage for T2I models. (3) Constraints of NSFW in most of the evaluated T2I models can be bypassed with implicit prompts. We call for increased attention to the potential and risks of implicit prompts in the T2I community and further investigation into the capabilities and impacts of implicit prompts, advocating for a balanced approach that harnesses their benefits while mitigating their risks.
翻訳日:2024-03-07 11:46:59 公開日:2024-03-06
# AllSpark: 半スーパービジョンセマンティックセグメンテーションのためのトランスフォーマーでラベル付けされていないラベル付き機能

AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.01818v2 )

ライセンス: Link先を確認
Haonan Wang, Qixiang Zhang, Yi Li, Xiaomeng Li(参考訳) 半教師付きセマンティックセマンティックセグメンテーション(SSSS)は、ラベル付きデータと大量のラベル付きデータを利用する、時間を要するピクセルレベルの手動ラベリングの負担を軽減するために提案されている。 現在の最先端の手法では、ラベル付きデータを基底真理、ラベルなしデータを擬似ラベルでトレーニングする。 しかし、2つのトレーニングフローは分離されており、ラベル付きデータがトレーニングプロセスを支配し、結果として低品質の擬似ラベルと結果として準最適結果が得られる。 この問題を軽減するためにallsparkを提案する。これはラベルのない機能からラベル付きの特徴を再生するものだ。 さらに,ラベルのない特徴がラベル付き特徴を適切に表現することを保証するために,チャネル意味グループ化戦略とともに意味記憶を導入する。 AllSparkは、フレームワークレベルではなく、SSSSのアーキテクチャレベル設計に新たな光を当てた。 また、一般的なトランスフォーマーベースのセグメンテーションモデルにシームレスに統合できるフレキシブルなボトルネックモジュールと見なすこともできる。 提案されたAllSparkは、Pascal、Cityscapes、COCOベンチマークのすべての評価プロトコルで、ベル・アンド・ウィストルなしで既存のメソッドより優れている。 コードとモデルの重み付けは以下の通りである。

Semi-supervised semantic segmentation (SSSS) has been proposed to alleviate the burden of time-consuming pixel-level manual labeling, which leverages limited labeled data along with larger amounts of unlabeled data. Current state-of-the-art methods train the labeled data with ground truths and unlabeled data with pseudo labels. However, the two training flows are separate, which allows labeled data to dominate the training process, resulting in low-quality pseudo labels and, consequently, sub-optimal results. To alleviate this issue, we present AllSpark, which reborns the labeled features from unlabeled ones with the channel-wise cross-attention mechanism. We further introduce a Semantic Memory along with a Channel Semantic Grouping strategy to ensure that unlabeled features adequately represent labeled features. The AllSpark shed new light on the architecture level designs of SSSS rather than framework level, which avoids increasingly complicated training pipeline designs. It can also be regarded as a flexible bottleneck module that can be seamlessly integrated into a general transformer-based segmentation model. The proposed AllSpark outperforms existing methods across all evaluation protocols on Pascal, Cityscapes and COCO benchmarks without bells-and-whistles. Code and model weights are available at: https://github.com/xmed-lab/AllSpark.
翻訳日:2024-03-07 11:46:32 公開日:2024-03-06