このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240404となっている論文です。

PDF登録状況(公開日: 20240404)

TitleAuthorsAbstract論文公表日・翻訳日
# LiteNeXt:医療画像セグメンテーションのための自己埋め込み表現パラレルを用いた軽量ConvMixerベースモデル

LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation ( http://arxiv.org/abs/2405.15779v1 )

ライセンス: Link先を確認
Ngoc-Du Tran, Thi-Thao Tran, Quang-Huy Nguyen, Manh-Hung Vu, Van-Truong Pham, (参考訳) 深層学習技術の出現は、特に医用画像において、画像セグメンテーションタスクを前進させてきた。 過去10年間に多くのニューラルネットワークモデルが導入され、手動セグメンテーションに近い自動セグメンテーションの精度を実現している。 しかし、Transformerベースのアーキテクチャのような最先端モデルは、大規模なアノテートされたトレーニングデータに依存しており、一般にエンコーダ、デコーダ、スキップ接続の層が密に連続して設計され、多数のパラメータが生成される。 さらに、パフォーマンス向上のためには、大きなデータで事前訓練されることが多いため、メモリサイズが大きくなり、リソースコストが増加する必要がある。 本研究では,医用画像セグメンテーションのために,畳み込みと簡易デコーダと混合モジュールに基づく軽量だが効率的な新しいモデル LiteNeXt を提案する。 このモデルは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。 特に医用画像領域では, 境界ファジィやオクルージョンや乱れに対処するために, 物体と背景の境界を効果的に決定できるMarginal Weight Lossを提案する。 さらに,自己埋め込み表現パラレル手法を提案する。 Data Science Bowls、GlaS、ISIC2018、PH2、Sunnybrookといった公開データセットの実験は、他の最先端のCNNベースのアーキテクチャやTransformerベースのアーキテクチャと比較して有望な結果を示している。 私たちのコードは、https://github.com/tranngocduvnvp/LiteNeXt.comで公開されます。

The emergence of deep learning techniques has advanced the image segmentation task, especially for medical images. Many neural network models have been introduced in the last decade bringing the automated segmentation accuracy close to manual segmentation. However, cutting-edge models like Transformer-based architectures rely on large scale annotated training data, and are generally designed with densely consecutive layers in the encoder, decoder, and skip connections resulting in large number of parameters. Additionally, for better performance, they often be pretrained on a larger data, thus requiring large memory size and increasing resource expenses. In this study, we propose a new lightweight but efficient model, namely LiteNeXt, based on convolutions and mixing modules with simplified decoder, for medical image segmentation. The model is trained from scratch with small amount of parameters (0.71M) and Giga Floating Point Operations Per Second (0.42). To handle boundary fuzzy as well as occlusion or clutter in objects especially in medical image regions, we propose the Marginal Weight Loss that can help effectively determine the marginal boundary between object and background. Furthermore, we propose the Self-embedding Representation Parallel technique, that can help augment the data in a self-learning manner. Experiments on public datasets including Data Science Bowls, GlaS, ISIC2018, PH2, and Sunnybrook data show promising results compared to other state-of-the-art CNN-based and Transformer-based architectures. Our code will be published at: https://github.com/tranngocduvnvp/LiteNeXt.
翻訳日:2024-07-01 08:29:41 公開日:2024-04-04
# コンフォーマルアポテンションによるLLM幻覚の緩和

Mitigating LLM Hallucinations via Conformal Abstention ( http://arxiv.org/abs/2405.01563v1 )

ライセンス: Link先を確認
Yasin Abbasi Yadkori, Ilja Kuzborskij, David Stutz, András György, Adam Fisch, Arnaud Doucet, Iuliya Beloshapka, Wei-Hung Weng, Yao-Yuan Yang, Csaba Szepesvári, Ali Taylan Cemgil, Nenad Tomasev, (参考訳) 我々は,大言語モデル (LLM) が一般ドメインにおける応答(例えば "I don't know" など)を,非感覚的あるいは誤った解答を "幻滅" する代わりに,いつ応答を控えるべきかを決定するための,原則化された手順を開発する。 より信頼性の高いモデル信頼度尺度として自己整合性を用いた従来のアプローチに基づいて,LLM自体を用いて,与えられたクエリに対する各サンプル応答の類似性を自己評価する。 さらに,ホルンシン化率(エラー率)の厳密な理論的保証の恩恵を受けるため,コンフォメーション予測手法を活用して留置手順を開発する。 実験によって得られたコンフォメーション・オブステンション法は,様々な閉書,オープンドメイン生成質問応答データセットに対して,幻覚率を確実に拘束すると同時に,長い応答(テンポラルシーケンス)を持つデータセットに対して,ログ確率スコアを用いて不確実性を定量化するためのベースラインに比べて,保守的アステンション率を著しく低く保ちつつ,短い応答(TriviaQA)を持つデータセット上で同等の性能を達成する。 実験を自動評価するには、2つの応答が質問に等しいかどうかを判断する必要がある。 標準手法に従って、2つの応答が一致したかどうかを判定するために閾値類似関数を用いるが、一致予測に基づくしきい値の校正方法も提供し、一致予測の精度を理論的に保証する。

We develop a principled procedure for determining when a large language model (LLM) should abstain from responding (e.g., by saying "I don't know") in a general domain, instead of resorting to possibly "hallucinating" a non-sensical or incorrect answer. Building on earlier approaches that use self-consistency as a more reliable measure of model confidence, we propose using the LLM itself to self-evaluate the similarity between each of its sampled responses for a given query. We then further leverage conformal prediction techniques to develop an abstention procedure that benefits from rigorous theoretical guarantees on the hallucination rate (error rate). Experimentally, our resulting conformal abstention method reliably bounds the hallucination rate on various closed-book, open-domain generative question answering datasets, while also maintaining a significantly less conservative abstention rate on a dataset with long responses (Temporal Sequences) compared to baselines using log-probability scores to quantify uncertainty, while achieveing comparable performance on a dataset with short answers (TriviaQA). To evaluate the experiments automatically, one needs to determine if two responses are equivalent given a question. Following standard practice, we use a thresholded similarity function to determine if two responses match, but also provide a method for calibrating the threshold based on conformal prediction, with theoretical guarantees on the accuracy of the match prediction, which might be of independent interest.
翻訳日:2024-05-12 16:10:01 公開日:2024-04-04
# GP-MoLFormer:分子生成の基礎モデル

GP-MoLFormer: A Foundation Model For Molecular Generation ( http://arxiv.org/abs/2405.04912v1 )

ライセンス: Link先を確認
Jerret Ross, Brian Belgodere, Samuel C. Hoffman, Vijil Chenthamarakshan, Youssef Mroueh, Payel Das, (参考訳) 分子列からなる大規模かつ汎用的なデータセットに基づいてトレーニングされたトランスフォーマーベースモデルは、最近、様々な構造とプロパティの関係をモデル化する強力なツールとして登場した。 この成功に触発されて、我々は、大規模化学データセット上で化学言語トランスフォーマーを訓練するパラダイムを、本研究における生成タスクにまで拡張した。 具体的には, GP-MoLFormerを提案する。GP-MoLFormerは1.1B以上のケミカルSMILESをトレーニングした自己回帰分子文字列生成装置である。 GP-MoLFormerは46.8Mパラメータトランスフォーマーデコーダモデルを使用しており、ベースアーキテクチャは線形アテンションと回転位置エンコーディングである。 GP-MoLFormerの新規かつ有効かつユニークなSMILES生成における有用性について検討する。 印象的なことに、GP-MoLFormerは、生成分子数が100億の範囲にあり、参照集合が10億を超える場合でも、かなりの数の新規かつ有効でユニークなSMILESを生成することができる。 また, GP-MoLFormer 世代におけるトレーニングデータの強い記憶が, 化学言語モデルでは探索されていない。 本分析により, トレーニングデータの記憶と新規性は, トレーニングデータの質に左右され, 重複バイアスは, 新規性を低下させるコストで記憶を向上させることができることがわかった。 GP-MoLFormerの実用性を評価し,デノボ生成,足場拘束分子装飾,非拘束特性誘導最適化の3つのタスクにおける既存のベースラインと比較した。 最初の2つは、追加の訓練を伴わずに処理されるが、特性順序付き分子対を入力として使用する、最後のタスクに対するパラメータ効率の良い微調整法を提案する。 私たちはこの新しいアプローチをペアチューニングと呼んでいる。 この結果から,GP-MoLFormerは3つのタスクにまたがるベースラインと同等以上の性能を示し,その汎用性を実証した。

Transformer-based models trained on large and general purpose datasets consisting of molecular strings have recently emerged as a powerful tool for successfully modeling various structure-property relations. Inspired by this success, we extend the paradigm of training chemical language transformers on large-scale chemical datasets to generative tasks in this work. Specifically, we propose GP-MoLFormer, an autoregressive molecular string generator that is trained on more than 1.1B chemical SMILES. GP-MoLFormer uses a 46.8M parameter transformer decoder model with linear attention and rotary positional encodings as the base architecture. We explore the utility of GP-MoLFormer in generating novel, valid, and unique SMILES. Impressively, we find GP-MoLFormer is able to generate a significant fraction of novel, valid, and unique SMILES even when the number of generated molecules is in the 10 billion range and the reference set is over a billion. We also find strong memorization of training data in GP-MoLFormer generations, which has so far remained unexplored for chemical language models. Our analyses reveal that training data memorization and novelty in generations are impacted by the quality of the training data; duplication bias in training data can enhance memorization at the cost of lowering novelty. We evaluate GP-MoLFormer's utility and compare it with that of existing baselines on three different tasks: de novo generation, scaffold-constrained molecular decoration, and unconstrained property-guided optimization. While the first two are handled with no additional training, we propose a parameter-efficient fine-tuning method for the last task, which uses property-ordered molecular pairs as input. We call this new approach pair-tuning. Our results show GP-MoLFormer performs better or comparable with baselines across all three tasks, demonstrating its general utility.
翻訳日:2024-05-12 15:40:48 公開日:2024-04-04
# HookChain: EDRソリューションをバイパスする新しい視点

HookChain: A new perspective for Bypassing EDR Solutions ( http://arxiv.org/abs/2404.16856v1 )

ライセンス: Link先を確認
Helvio Carvalho Junior, (参考訳) 脅威が急速に複雑化する現在のデジタルセキュリティエコシステムでは、エンドポイント検出と応答(EDR)ソリューションを開発している企業は、追いつくだけでなく、新たな攻撃ベクトルも期待するイノベーションを常に探している。 本稿では、HookChainを紹介する。HookChainは、広く知られている技術から見て、従来のEDRシステムに対する高度な回避レイヤーを提供するものである。 IAT Hookingテクニック、動的SSN解像度、間接システムコールの正確な組み合わせにより、HookChainはWindowsサブシステムの実行フローを、Ntdll.dllにのみ作用するEDRの警戒的な目からは見えない方法でリダイレクトする。 この作業は、サイバーセキュリティの現在の慣例に挑戦するだけでなく、デジタルセキュリティの有効性の鍵となる継続的進化の理解を生かして、将来の保護戦略への有望な道に光を当てている。 HookChain技術の開発と探索により、この研究はエンドポイントセキュリティにおける知識の体系に大きく貢献し、デジタル脅威の絶え間なく変化するダイナミクスに効果的に対処できる、より堅牢で適応的なソリューションの開発を刺激する。 この研究は、常に敵に先立ついくつかのステップであるセキュリティ技術の研究と開発に深い反映と進歩を刺激することを目的としています。

In the current digital security ecosystem, where threats evolve rapidly and with complexity, companies developing Endpoint Detection and Response (EDR) solutions are in constant search for innovations that not only keep up but also anticipate emerging attack vectors. In this context, this article introduces the HookChain, a look from another perspective at widely known techniques, which when combined, provide an additional layer of sophisticated evasion against traditional EDR systems. Through a precise combination of IAT Hooking techniques, dynamic SSN resolution, and indirect system calls, HookChain redirects the execution flow of Windows subsystems in a way that remains invisible to the vigilant eyes of EDRs that only act on Ntdll.dll, without requiring changes to the source code of the applications and malwares involved. This work not only challenges current conventions in cybersecurity but also sheds light on a promising path for future protection strategies, leveraging the understanding that continuous evolution is key to the effectiveness of digital security. By developing and exploring the HookChain technique, this study significantly contributes to the body of knowledge in endpoint security, stimulating the development of more robust and adaptive solutions that can effectively address the ever-changing dynamics of digital threats. This work aspires to inspire deep reflection and advancement in the research and development of security technologies that are always several steps ahead of adversaries.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-04
# エントロピー的セキュア暗号化の実装:パーソナルヘルスデータの保護

Implementation of Entropically Secure Encryption: Securing Personal Health Data ( http://arxiv.org/abs/2404.16857v1 )

ライセンス: Link先を確認
Mehmet Hüseyin Temel, Boris Skoric, Idelfonso Tafur Monroy, (参考訳) Entropically Secure Encryption (ESE)はOne-Time Padに比べて短いキーで無条件のセキュリティを提供する。 本稿では,バルク暗号のためのESEの実装について述べる。 バルク ESE の主要な計算ボトルネックは、非常に大きな有限体における乗法である。 これは多項式の乗法とモジュラー還元を含む。 我々は gf2x ライブラリをベースとした多項式乗法を実装した。 さらに,最近提案した多項式次数に対して効率的な還元アルゴリズムを実装した。 患者のX線画像とヒトゲノムデータの2つのユースケースについて検討する。 ESEに必要な鍵長を決定する圧縮手法を用いてエントロピー推定を行う。 暗号化の全ステップのランニングタイムを報告します。 本稿では,QKD保護リンクの完全情報理論的セキュリティを実現するために,量子鍵分布(QKD)と協調して使用するESEの可能性について論じる。

Entropically Secure Encryption (ESE) offers unconditional security with shorter keys compared to the One-Time Pad. In this paper, we present the first implementation of ESE for bulk encryption. The main computational bottleneck for bulk ESE is a multiplication in a very large finite field. This involves multiplication of polynomials followed by modular reduction. We have implemented polynomial multiplication based on the gf2x library, with some modifications that avoid inputs of vastly different length, thus improving speed. Additionally, we have implemented a recently proposed efficient reduction algorithm that works for any polynomial degree. We investigate two use cases: X-ray images of patients and human genome data. We conduct entropy estimation using compression methods whose results determine the key lengths required for ESE. We report running times for all steps of the encryption. We discuss the potential of ESE to be used in conjunction with Quantum Key Distribution (QKD), in order to achieve full information-theoretic security of QKD-protected links for these use cases.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-04
# クラウドソーシングとスパミング行動検出におけるデータ品質

Data Quality in Crowdsourcing and Spamming Behavior Detection ( http://arxiv.org/abs/2404.17582v1 )

ライセンス: Link先を確認
Yang Ba, Michelle V. Mancenido, Erin K. Chiou, Rong Pan, (参考訳) クラウドソーシングは、機械学習データセットのラベルを取得するための効率的で費用効率のよい方法として登場し、クラウドソーシングされたデータの質を評価し、分析性能を改善し、その後の機械学習タスクにおけるバイアスを低減することが重要である。 クラウドソーシングのほとんどの場合において基礎的な真実が欠如していることを考えると、データ品質はアノテータの一貫性と信頼性である。 カッパ係数とクラス内相関係数が通常適用できる単純なシナリオとは異なり、オンラインのクラウドソーシングはより複雑な状況を扱う必要がある。 本研究では,分散分解によるデータ品質評価とスパムの脅威検出の体系的手法を導入し,異なる行動パターンに基づいてスパムを3つのカテゴリに分類する。 データ整合性を評価するためにスパマー指数を提案し、マルコフ連鎖と一般化ランダム効果モデルを用いて、群衆労働者の信頼度を測定するために2つの指標を開発した。 さらに,2つのクラウドソーシングプラットフォームから収集したシミュレーションデータと実世界データの両方を用いて,顔認証タスクに適用することで,本手法の実用性とその利点を示す。

As crowdsourcing emerges as an efficient and cost-effective method for obtaining labels for machine learning datasets, it is important to assess the quality of crowd-provided data, so as to improve analysis performance and reduce biases in subsequent machine learning tasks. Given the lack of ground truth in most cases of crowdsourcing, we refer to data quality as annotators' consistency and credibility. Unlike the simple scenarios where Kappa coefficient and intraclass correlation coefficient usually can apply, online crowdsourcing requires dealing with more complex situations. We introduce a systematic method for evaluating data quality and detecting spamming threats via variance decomposition, and we classify spammers into three categories based on their different behavioral patterns. A spammer index is proposed to assess entire data consistency and two metrics are developed to measure crowd worker's credibility by utilizing the Markov chain and generalized random effects models. Furthermore, we showcase the practicality of our techniques and their advantages by applying them on a face verification task with both simulation and real-world data collected from two crowdsourcing platforms.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-04
# 機械学習における大規模言語モデルを用いたデータセットの文書化

Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning ( http://arxiv.org/abs/2404.15320v1 )

ライセンス: Link先を確認
Joan Giner-Miguelez, Abel Gómez, Jordi Cabot, (参考訳) 欧州AI法や機械学習(ML)コミュニティにおける関連する声といった最近の規制イニシアチブは、前例のプロセスや社会的懸念など、信頼できるAIのいくつかの重要な側面に沿ってデータセットを記述する必要性を強調している。 しかしながら、この情報は典型的には、ドキュメントに付随する非構造化テキストとして表示され、その自動解析と処理を妨げる。 本研究では,大規模言語モデル (LLM) と文書からこれらの次元を自動的に抽出し,それらを用いたデータセット記述を充実させる一連の手順について検討する。 このアプローチは、データパブリッシャや実践者が、データセットの発見性を改善し、現在のAI規則への準拠を評価し、トレーニングされたMLモデルの全体的な品質を改善するために、マシン可読なドキュメントを作成する上で役立ちます。 本稿では,2つの学術雑誌(Nature's Scientific Data and Elsevier's Data in Brief)に掲載された12の学術論文に対するアプローチを,GPT3.5とFlan-UL2の2つの異なるLCMを用いて評価する。 その結果, 抽出手法の精度は良好であった。 コンクリートは寸法によって異なるが, GPT3.5は幻覚の傾向が強いものの, FLAN-UL2 (69,13%) よりも若干精度が良い(81,21%)。 我々は、我々のアプローチを実装したオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをオープンソースリポジトリでリリースしました。

Recent regulatory initiatives like the European AI Act and relevant voices in the Machine Learning (ML) community stress the need to describe datasets along several key dimensions for trustworthy AI, such as the provenance processes and social concerns. However, this information is typically presented as unstructured text in accompanying documentation, hampering their automated analysis and processing. In this work, we explore using large language models (LLM) and a set of prompting strategies to automatically extract these dimensions from documents and enrich the dataset description with them. Our approach could aid data publishers and practitioners in creating machine-readable documentation to improve the discoverability of their datasets, assess their compliance with current AI regulations, and improve the overall quality of ML models trained on them. In this paper, we evaluate the approach on 12 scientific dataset papers published in two scientific journals (Nature's Scientific Data and Elsevier's Data in Brief) using two different LLMs (GPT3.5 and Flan-UL2). Results show good accuracy with our prompt extraction strategies. Concrete results vary depending on the dimensions, but overall, GPT3.5 shows slightly better accuracy (81,21%) than FLAN-UL2 (69,13%) although it is more prone to hallucinations. We have released an open-source tool implementing our approach and a replication package, including the experiments' code and results, in an open-source repository.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-04
# Elicitron: 設計要求の緩和のためのLLMエージェントベースのシミュレーションフレームワーク

Elicitron: An LLM Agent-Based Simulation Framework for Design Requirements Elicitation ( http://arxiv.org/abs/2404.16045v1 )

ライセンス: Link先を確認
Mohammadmehdi Ataei, Hyunmin Cheong, Daniele Grandi, Ye Wang, Nigel Morris, Alexander Tessier, (参考訳) 製品開発における重要な、しかし時間がかかり、挑戦的なステップである要件適用は、ユーザニーズの全範囲を捉えるのに失敗することが多い。 これは、期待に届かない製品につながる可能性がある。 本稿では,Large Language Models (LLMs) を利用した新たなフレームワークを提案する。 LLMは多数のシミュレーションユーザ(LLMエージェント)を生成するために使用され、より広い範囲のユーザニーズと予期せぬユースケースを探索することができる。 これらのエージェントは、行動、観察、課題を説明することによって、製品エクスペリエンスのシナリオに従事します。 その後のエージェントインタビューと分析により、潜伏しているものを含む価値あるユーザニーズが明らかになった。 フレームワークを3つの実験で検証する。 まず,多様なエージェント生成のための異なる手法について検討し,その利点と欠点について議論する。 識別されたユーザニーズの多様性を測定し、コンテキスト対応エージェントの生成がより多様性をもたらすことを示す。 第2に、我々のフレームワークが従来の人間インタビューよりも多くの潜在ニーズを識別し、共感的なリードユーザインタビューを効果的に模倣しているかを示す。 第3に、LLMはインタビューを分析し、ニーズを捉え、それらを潜伏しているかどうかの分類に使用できることを示す。 我々の研究は、LCMエージェントが早期製品開発を加速し、コストを削減し、イノベーションを高める可能性を強調しています。

Requirements elicitation, a critical, yet time-consuming and challenging step in product development, often fails to capture the full spectrum of user needs. This may lead to products that fall short of expectations. This paper introduces a novel framework that leverages Large Language Models (LLMs) to automate and enhance the requirements elicitation process. LLMs are used to generate a vast array of simulated users (LLM agents), enabling the exploration of a much broader range of user needs and unforeseen use cases. These agents engage in product experience scenarios, through explaining their actions, observations, and challenges. Subsequent agent interviews and analysis uncover valuable user needs, including latent ones. We validate our framework with three experiments. First, we explore different methodologies for diverse agent generation, discussing their advantages and shortcomings. We measure the diversity of identified user needs and demonstrate that context-aware agent generation leads to greater diversity. Second, we show how our framework effectively mimics empathic lead user interviews, identifying a greater number of latent needs than conventional human interviews. Third, we showcase that LLMs can be used to analyze interviews, capture needs, and classify them as latent or not. Our work highlights the potential of using LLM agents to accelerate early-stage product development, reduce costs, and increase innovation.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-04
# マルコフポテンシャルゲームにおけるナッシュ平衡と非回帰保証への収束

Convergence to Nash Equilibrium and No-regret Guarantee in (Markov) Potential Games ( http://arxiv.org/abs/2404.06516v1 )

ライセンス: Link先を確認
Jing Dong, Baoxiang Wang, Yaoliang Yu, (参考訳) 本研究では,確率的コストと帯域幅フィードバックによる潜在的ゲームとマルコフ潜在的ゲームについて検討する。 本研究では,各プレイヤーに対するサブ線形後悔を達成しつつ,ナッシュ平衡に確実に収束する,十分な探索と再帰的勾配推定を行うFrank-Wolfeアルゴリズムの変種を提案する。 提案アルゴリズムは,新たなプロジェクションステップを使わずに最も有効な結果と一致したゲームに対して,ナッシュの後悔と,O(T^{4/5})$の後悔境界を同時に達成する。 過去のサンプルの再利用と新しいサンプルの探索を慎重にバランスさせ、その結果をマルコフポテンシャルゲームに拡張し、$O(T^{5/6})$から$O(T^{4/5})$への最良のNash後悔を改善する。 さらに,本アルゴリズムは,実際の実装においてより柔軟な分布ミスマッチ係数など,ゲームに関する知識を必要としない。 実験結果から理論的知見が得られ,本手法の有効性を裏付ける結果が得られた。

In this work, we study potential games and Markov potential games under stochastic cost and bandit feedback. We propose a variant of the Frank-Wolfe algorithm with sufficient exploration and recursive gradient estimation, which provably converges to the Nash equilibrium while attaining sublinear regret for each individual player. Our algorithm simultaneously achieves a Nash regret and a regret bound of $O(T^{4/5})$ for potential games, which matches the best available result, without using additional projection steps. Through carefully balancing the reuse of past samples and exploration of new samples, we then extend the results to Markov potential games and improve the best available Nash regret from $O(T^{5/6})$ to $O(T^{4/5})$. Moreover, our algorithm requires no knowledge of the game, such as the distribution mismatch coefficient, which provides more flexibility in its practical implementation. Experimental results corroborate our theoretical findings and underscore the practical effectiveness of our method.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-04
# DiffObs: 衛星観測のグローバル予測のための生成拡散

DiffObs: Generative Diffusion for Global Forecasting of Satellite Observations ( http://arxiv.org/abs/2404.06517v1 )

ライセンス: Link先を確認
Jason Stock, Jaideep Pathak, Yair Cohen, Mike Pritchard, Piyush Garg, Dale Durran, Morteza Mardani, Noah Brenowitz, (参考訳) 本研究は、日降量のグローバルな進化を予測するための自己回帰的生成拡散モデル(DiffObs)を提案し、衛星観測製品で訓練し、ドメイン固有診断を用いて評価する。 モデルは、日頭降雨を確率的に予測するように訓練されている。 にもかかわらず、多ヶ月のロールアウトには安定であり、熱帯における対流結合波動モードの質的に現実的な重ね合わせが現れる。 クロススペクトル解析により、観測大気中のほとんどの季節と季節の予測可能性を調節するマドデン・ジュリアン振動と、ほぼ正確な共振関係を持つ対流に結合したケビン波の低周波変動が得られたことが確認された。 二次的な問題や偏見にもかかわらず、この結果は、次世代のグローバル拡散モデルが、より疎らに訓練され、より直接的で差別化された世界の観測を、亜季節と気候の予測に実践的に応用する可能性があることを裏付けるものである。

This work presents an autoregressive generative diffusion model (DiffObs) to predict the global evolution of daily precipitation, trained on a satellite observational product, and assessed with domain-specific diagnostics. The model is trained to probabilistically forecast day-ahead precipitation. Nonetheless, it is stable for multi-month rollouts, which reveal a qualitatively realistic superposition of convectively coupled wave modes in the tropics. Cross-spectral analysis confirms successful generation of low frequency variations associated with the Madden--Julian oscillation, which regulates most subseasonal to seasonal predictability in the observed atmosphere, and convectively coupled moist Kelvin waves with approximately correct dispersion relationships. Despite secondary issues and biases, the results affirm the potential for a next generation of global diffusion models trained on increasingly sparse, and increasingly direct and differentiated observations of the world, for practical applications in subseasonal and climate prediction.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-04
# ATNバイオマーカーを用いたマルチモーダル規範モデルを用いたアルツハイマー病の多様性解析

Analysing heterogeneity in Alzheimer Disease using multimodal normative modelling on ATN biomarkers ( http://arxiv.org/abs/2404.05748v1 )

ライセンス: Link先を確認
Sayantan Kumara, Thomas Earnest, Braden Yang, Deydeep Kothapalli, Tammie L. S. Benzinger, Brian A. Gordon, Philip Payne, Aristeidis Sotiras, (参考訳) アルツハイマー病(英語: Alzheimer Disease、AD)は、多面性疾患であり、それぞれがADに関する特異かつ相補的な情報を提供する。 本研究では、深層学習に基づく多モード規範モデルを用いて、ATNバイオマーカーの局所脳パターンの不均一性を評価する。 我々は,TNバイオマーカー(Florbetapir amyloid,Flortaucipir tau,T1-weighted MRI(MRI))の同時使用が可能な発見(n = 665)と複製(n = 430)コホートを選択した。 マルチモーダル変動型オートエンコーダ(年齢と性別を条件とした)は,認知的不障害(CU)制御群の多モーダル局所脳パターンを学習するための規範モデルとして用いられた。 トレーニングされたモデルは、標準分布から偏差(Zスコア)を推定するためにADS(AD Spectrum)の個人に適用され、その結果、ADSの個人毎の局所偏差マップが得られた。 健常者および重度認知症者は,早期または軽度認知症と比較して,各モダリティの地域外乱率が高いとともに,モダリティ特異的地域外乱パターンの相違が大きかった。 DSIは認知症の進行段階と関連していた。 (II)神経心理学複合スコアと有意な関連性を示した。 (iii)CDR進行の経時的リスクに関連する。 発見は発見と複製のコホートの両方で再現可能であった。 本研究は,多発性神経画像モダリティ (ATN) のレンズによるADの多様性を,地域外縁偏差の相違パターンや重なりパターンに基づいて検討した最初の研究である。 局所MRI, Tauoutliersは局所アミロイドoutliersよりも異種性であった。 DSIは、抗アミロイド療法に対する患者反応の臨床的決定とモニタリングに役立つ、神経変性の個々の患者指標となる可能性がある。

Alzheimer Disease (AD) is a multi-faceted disorder, with each modality providing unique and complementary info about AD. In this study, we used a deep-learning based multimodal normative model to assess the heterogeneity in regional brain patterns for ATN (amyloid-tau-neurodegeneration) biomarkers. We selected discovery (n = 665) and replication (n = 430) cohorts with simultaneous availability of ATN biomarkers: Florbetapir amyloid, Flortaucipir tau and T1-weighted MRI (magnetic resonance imaging) imaging. A multimodal variational autoencoder (conditioned on age and sex) was used as a normative model to learn the multimodal regional brain patterns of a cognitively unimpaired (CU) control group. The trained model was applied on individuals on the ADS (AD Spectrum) to estimate their deviations (Z-scores) from the normative distribution, resulting in a Z-score regional deviation map per ADS individual per modality. ADS individuals with moderate or severe dementia showed higher proportion of regional outliers for each modality as well as more dissimilarity in modality-specific regional outlier patterns compared to ADS individuals with early or mild dementia. DSI was associated with the progressive stages of dementia, (ii) showed significant associations with neuropsychological composite scores and (iii) related to the longitudinal risk of CDR progression. Findings were reproducible in both discovery and replication cohorts. Our is the first study to examine the heterogeneity in AD through the lens of multiple neuroimaging modalities (ATN), based on distinct or overlapping patterns of regional outlier deviations. Regional MRI and tau outliers were more heterogenous than regional amyloid outliers. DSI has the potential to be an individual patient metric of neurodegeneration that can help in clinical decision making and monitoring patient response for anti-amyloid treatments.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-04
# 言語モデル進化 : 反復学習の視点から

Language Model Evolution: An Iterated Learning Perspective ( http://arxiv.org/abs/2404.04286v1 )

ライセンス: Link先を確認
Yi Ren, Shangmin Guo, Linlu Qiu, Bailin Wang, Danica J. Sutherland, (参考訳) LLM(Large Language Models)の普及に伴い,これらのモデル間の反復的相互作用の頻度が増加することが期待されている。 特に、近年の多ラウンド自己改善手法の進歩により、LLMはその後のモデルをトレーニングするための新しい例を生成することができる。 同時に,エージェント間の自動インタラクションを含むマルチエージェントLLMシステムも注目されている。 したがって、LLMは短期的にも長期的にも、進化過程に積極的に関与する可能性がある。 我々は、LLMの行動と人間の文化の進化の類似性を引き合いに出し、後者は認知科学者によって数十年にわたって広く研究されてきた。 我々のアプローチは、人間の文化進化においてどのように微妙なバイアスが拡大されるかを解明するベイズ的枠組みである反復学習(IL)を活用して、LLMのいくつかの振る舞いを説明することである。 本稿では,各種LLMを用いた実験的検証によって支持される予測を含む,ベイジアン・ILフレームワークにおけるエージェントの挙動の重要な特徴を概説する。 この理論的枠組みは、所望の方向にLSMの進化をより効果的に予測し、導くのに役立つ。

With the widespread adoption of Large Language Models (LLMs), the prevalence of iterative interactions among these models is anticipated to increase. Notably, recent advancements in multi-round self-improving methods allow LLMs to generate new examples for training subsequent models. At the same time, multi-agent LLM systems, involving automated interactions among agents, are also increasing in prominence. Thus, in both short and long terms, LLMs may actively engage in an evolutionary process. We draw parallels between the behavior of LLMs and the evolution of human culture, as the latter has been extensively studied by cognitive scientists for decades. Our approach involves leveraging Iterated Learning (IL), a Bayesian framework that elucidates how subtle biases are magnified during human cultural evolution, to explain some behaviors of LLMs. This paper outlines key characteristics of agents' behavior in the Bayesian-IL framework, including predictions that are supported by experimental verification with various LLMs. This theoretical framework could help to more effectively predict and guide the evolution of LLMs in desired directions.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-04
# CONFLARE: ConFormal LArge言語モデル検索

CONFLARE: CONFormal LArge language model REtrieval ( http://arxiv.org/abs/2404.04287v1 )

ライセンス: Link先を確認
Pouria Rouzrokh, Shahriar Faghani, Cooper U. Gamble, Moein Shariatnia, Bradley J. Erickson, (参考訳) Retrieval-augmented Generation (RAG)フレームワークは、大規模言語モデル(LLM)が知識ベースから関連する情報を検索し、応答を生成するコンテキストに組み込むことを可能にする。 これは幻覚を緩和し、LLMを再訓練することなく知識の更新を可能にする。 しかし、検索が必要な情報を応答生成のコンテキストとして識別できない場合、RAGは有効な応答を保証しない。 また、矛盾する内容がある場合、RAG応答は2つの可能な応答のうちの1つだけを反映する可能性が高い。 したがって、RAGの信頼性を確保するためには、検索プロセスにおける不確実性を定量化することが不可欠である。 本稿では,RAGフレームワークにおける検索不確実性を定量化するために,共形予測を適用した4段階のフレームワークを提案する。 まず、知識ベースから回答可能な質問の校正セットを構築する。 各質問の埋め込みは文書埋め込みと比較され、回答を含む最も関連性の高い文書チャンクを特定し、それらの類似点を記録する。 ユーザ特定誤差率({\alpha})が与えられた場合、これらの類似度スコアを解析して類似度スコアカットオフ閾値を決定する。 推論中、このしきい値を超える類似性を持つすべてのチャンクを検索してLLMにコンテキストを提供し、真の答えが(1-{\alpha})信頼レベルでコンテキスト内で取得されることを保証する。 LLMのみを使用して,人間の介入なしに,作業で提案したワークフロー全体を実装可能なPythonパッケージを提供しています。

Retrieval-augmented generation (RAG) frameworks enable large language models (LLMs) to retrieve relevant information from a knowledge base and incorporate it into the context for generating responses. This mitigates hallucinations and allows for the updating of knowledge without retraining the LLM. However, RAG does not guarantee valid responses if retrieval fails to identify the necessary information as the context for response generation. Also, if there is contradictory content, the RAG response will likely reflect only one of the two possible responses. Therefore, quantifying uncertainty in the retrieval process is crucial for ensuring RAG trustworthiness. In this report, we introduce a four-step framework for applying conformal prediction to quantify retrieval uncertainty in RAG frameworks. First, a calibration set of questions answerable from the knowledge base is constructed. Each question's embedding is compared against document embeddings to identify the most relevant document chunks containing the answer and record their similarity scores. Given a user-specified error rate ({\alpha}), these similarity scores are then analyzed to determine a similarity score cutoff threshold. During inference, all chunks with similarity exceeding this threshold are retrieved to provide context to the LLM, ensuring the true answer is captured in the context with a (1-{\alpha}) confidence level. We provide a Python package that enables users to implement the entire workflow proposed in our work, only using LLMs and without human intervention.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-04
# 人間エージェントのアライメント設計--エージェントから人間が望むものを理解する

Designing for Human-Agent Alignment: Understanding what humans want from their agents ( http://arxiv.org/abs/2404.04289v1 )

ライセンス: Link先を確認
Nitesh Goyal, Minsuk Chang, Michael Terry, (参考訳) Generative AIを活用する自律エージェントを構築する能力は、日ごとに向上し続けています。 このようなエージェントのビルダーやユーザとして、エージェントがタスクの実行を開始する前に、どのようなパラメータを調整する必要があるのかは不明です。 これらのパラメータを発見するために、私たちは、カメラをオンラインで販売する架空の作業中に交渉できるエージェントの設計に関する定性的な実証的研究を行った。 エージェントがタスクを成功させるためには,人間やユーザ,エージェントが6次元以上を整列する必要があることがわかった。 1)知識スキーマのアライメント 2)自律性と機関のアライメント 3【運用調整・訓練】 4)レポジトリカル・ヒューリスティックス・アライメント 5)倫理アライメント及び倫理アライメント 6) 人事の調整。 これらの経験的発見は、プロセスと仕様の整合性、人間とAIの相互作用における価値と安全性の必要性に関する以前の研究を拡張した。 続いて、人間とエージェントのコラボレーションに満ちた世界を想像するデザイナーのための3つのデザインの方向性について論じる。

Our ability to build autonomous agents that leverage Generative AI continues to increase by the day. As builders and users of such agents it is unclear what parameters we need to align on before the agents start performing tasks on our behalf. To discover these parameters, we ran a qualitative empirical research study about designing agents that can negotiate during a fictional yet relatable task of selling a camera online. We found that for an agent to perform the task successfully, humans/users and agents need to align over 6 dimensions: 1) Knowledge Schema Alignment 2) Autonomy and Agency Alignment 3) Operational Alignment and Training 4) Reputational Heuristics Alignment 5) Ethics Alignment and 6) Human Engagement Alignment. These empirical findings expand previous work related to process and specification alignment and the need for values and safety in Human-AI interactions. Subsequently we discuss three design directions for designers who are imagining a world filled with Human-Agent collaborations.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-04
# セルフプレイ言語モデルの正規化の検討

Investigating Regularization of Self-Play Language Models ( http://arxiv.org/abs/2404.04291v1 )

ライセンス: Link先を確認
Reda Alami, Abdalgader Abubaker, Mastane Achab, Mohamed El Amine Seddik, Salem Lahlou, (参考訳) 本稿では,言語モデルアライメントの文脈における様々な形態の正規化の効果を,セルフプレイによる検討する。 人からのフィードバックからの強化学習(RLHF)と直接選好最適化(DPO)の両方では、コストのかかる人手によるペアの選好を収集する必要があるが、セルフプレイ微調整(SPIN)アプローチは、前のイテレーションから生成されたデータによって拒否された回答を置き換える。 しかし,SPIN法では,従来の2つのイテレートを混合して演奏することで,学習段階における性能不安定性の問題が軽減される。 また,本研究では,この課題を2つの視点から解決することを提案する。第1に,参照ポリシの近傍に留まるためにKL(Kullback-Leibler)正則化を付加すること,第2に,前回の繰り返しにまたがって対立する政策を円滑化させる架空のプレイの概念を用いることである。 特に, KL ベースの正則化器は,SPIN の損失関数内の基本方針と幾何的混合により, 以前の方針を置き換えることが示される。 MT-BenchとHugging Face Open LLM Leaderboardの実証結果について論じる。

This paper explores the effects of various forms of regularization in the context of language model alignment via self-play. While both reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO) require to collect costly human-annotated pairwise preferences, the self-play fine-tuning (SPIN) approach replaces the rejected answers by data generated from the previous iterate. However, the SPIN method presents a performance instability issue in the learning phase, which can be mitigated by playing against a mixture of the two previous iterates. In the same vein, we propose in this work to address this issue from two perspectives: first, by incorporating an additional Kullback-Leibler (KL) regularization to stay at the proximity of the reference policy; second, by using the idea of fictitious play which smoothens the opponent policy across all previous iterations. In particular, we show that the KL-based regularizer boils down to replacing the previous policy by its geometric mixture with the base policy inside of the SPIN loss function. We finally discuss empirical results on MT-Bench as well as on the Hugging Face Open LLM Leaderboard.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-04
# 外部計画型大規模言語モデルによる会話性疾患の診断

Conversational Disease Diagnosis via External Planner-Controlled Large Language Models ( http://arxiv.org/abs/2404.04292v1 )

ライセンス: Link先を確認
Zhoujian Sun, Cheng Luo, Zhengxing Huang, (参考訳) 医療人工知能(AI)の進歩は、患者と対話して診断を導出することにより、AIシステムが人間の医師を模倣する会話診断の実現の舞台となった。 本研究では,大規模言語モデル(LLM)を付加した外部プランナを用いた医療タスク指向対話システムの開発に,革新的なアプローチを提案する。 本システムは、情報収集のためのポリシーモジュール、自然言語の理解と生成のためのLLMベースのモジュールを備え、これらの領域における従来のAIシステムの限界に対処する。 医師疾患スクリーニングと鑑別診断の2段階決定過程をエミュレートすることにより、診断を行う。 2つの異なるプランナーを設計しました 第1は、潜在的な疾患を特定するために患者の症状を収集することに焦点を当て、第2は、これらの疾患を確認または排除するために特定の問合せを精査する。 LLMを用いた強化学習とアクティブラーニングを利用して,これらのプランナーに医療対話を効果的にナビゲートさせる訓練を行った。 MIMIC-IVデータセットを用いた評価では, 既存のモデルより優れており, 自動対話型疾患診断の実現に向けた重要な一歩であり, 診断精度とアクセシビリティの向上を図っている。

The advancement of medical artificial intelligence (AI) has set the stage for the realization of conversational diagnosis, where AI systems mimic human doctors by engaging in dialogue with patients to deduce diagnoses. This study introduces an innovative approach using external planners augmented with large language models (LLMs) to develop a medical task-oriented dialogue system. This system comprises a policy module for information gathering, a LLM based module for natural language understanding and generation, addressing the limitations of previous AI systems in these areas. By emulating the two-phase decision-making process of doctors disease screening and differential diagnosis. we designed two distinct planners. The first focuses on collecting patient symptoms to identify potential diseases, while the second delves into specific inquiries to confirm or exclude these diseases. Utilizing reinforcement learning and active learning with LLMs, we trained these planners to navigate medical dialogues effectively. Our evaluation on the MIMIC-IV dataset demonstrated the system's capability to outperform existing models, indicating a significant step towards achieving automated conversational disease diagnostics and enhancing the precision and accessibility of medical diagnoses.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-04
# 失敗からの理由:論理的誤り理解を通じて大規模言語モデルの論理的推論を促進する

Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding ( http://arxiv.org/abs/2404.04293v1 )

ライセンス: Link先を確認
Yanda Li, Dixuan Wang, Jiaqing Liang, Guochao Jiang, Qianyu He, Yanghua Xiao, Deqing Yang, (参考訳) 大規模言語モデル(LLM)は、多くの推論タスクにおいて優れたパフォーマンスを示してきたが、論理的推論を含む複雑な推論タスクには依然として苦戦している。 LLMの論理的推論における準最適性能の非無視的な理由の1つは、論理的誤りを正しく理解することの見落としである。 本稿では,LLMの論理的誤り理解能力を評価するために,WHAT,WHY,HOWの3次元から5つの具体的タスクを提案する。 これらのLFUタスクに向けて,GPT-4に基づく新しいデータセットLFUDの構築に成功した。 我々のLFUDは, LLMのLFU能力を評価するだけでなく, LLMを微調整することで論理的推論の性能を大幅に向上させることができる。

Large Language Models (LLMs) have demonstrated good performance in many reasoning tasks, but they still struggle with some complicated reasoning tasks including logical reasoning. One non-negligible reason for LLMs' suboptimal performance on logical reasoning is their overlooking of understanding logical fallacies correctly. To evaluate LLMs' capability of logical fallacy understanding (LFU), we propose five concrete tasks from three cognitive dimensions of WHAT, WHY, and HOW in this paper. Towards these LFU tasks, we have successfully constructed a new dataset LFUD based on GPT-4 accompanied by a little human effort. Our extensive experiments justify that our LFUD can be used not only to evaluate LLMs' LFU capability, but also to fine-tune LLMs to obtain significantly enhanced performance on logical reasoning.
翻訳日:2024-04-09 23:37:10 公開日:2024-04-04
# 音声認識のための発音認識埋め込みを用いたトランスデューサ

Transducers with Pronunciation-aware Embeddings for Automatic Speech Recognition ( http://arxiv.org/abs/2404.04295v1 )

ライセンス: Link先を確認
Hainan Xu, Zhehuai Chen, Fei Jia, Boris Ginsburg, (参考訳) 本稿では,PET (Pronunciation-Aware Embeddings) を用いたトランスデューサを提案する。 異なるトークンに対するデコーダの埋め込みが独立して訓練される従来のトランスデューサとは異なり、PETモデルのデコーダの埋め込みでは、同じまたは類似の発音を持つテキストトークンのための共有コンポーネントが組み込まれている。 中国語と韓国語で複数のデータセットを用いて実験を行った結果,PETモデルは従来のトランスデューサと比較して音声認識精度を一貫して向上することがわかった。 我々の研究は、エラー連鎖反応と呼ばれる現象も明らかにしている。 音声認識エラーは発話中に均等に広まるのではなく、グループ化されがちで、後続のエラーはしばしばそれに続く。 解析の結果,PETモデルでは,先行モデルに後続する追加エラーが発生する可能性を大幅に低減することで,この問題を効果的に軽減できることが示された。 私たちの実装はNeMoツールキットでオープンソース化されます。

This paper proposes Transducers with Pronunciation-aware Embeddings (PET). Unlike conventional Transducers where the decoder embeddings for different tokens are trained independently, the PET model's decoder embedding incorporates shared components for text tokens with the same or similar pronunciations. With experiments conducted in multiple datasets in Mandarin Chinese and Korean, we show that PET models consistently improve speech recognition accuracy compared to conventional Transducers. Our investigation also uncovers a phenomenon that we call error chain reactions. Instead of recognition errors being evenly spread throughout an utterance, they tend to group together, with subsequent errors often following earlier ones. Our analysis shows that PET models effectively mitigate this issue by substantially reducing the likelihood of the model generating additional errors following a prior one. Our implementation will be open-sourced with the NeMo toolkit.
翻訳日:2024-04-09 23:37:10 公開日:2024-04-04
# ProLoc:ロバストなロバストな位置情報証明

ProLoc: Robust Location Proofs in Hindsight ( http://arxiv.org/abs/2404.04297v1 )

ライセンス: Link先を確認
Roberta De Viti, Pierfrancesco Ingo, Isaac Sheff, Peter Druschel, Deepak Garg, (参考訳) 多くのオンラインサービスは、スマートフォンのようなユーザーデバイスの自己申告された場所に依存している。 文献は、偽装された自己申告された場所の被害を軽減するために、信頼されたインフラまたはその周辺機器との短距離無線接触を用いて、その位置を報告し、その位置を裏付ける位置証明サービス(LPSs)を提案している。 本稿では,2つの方法で先行作業を拡張する新しいLPSであるProLocについて述べる。 第一に、ProLocは、あるデバイスが所定の場所にあるという以前の作業の証明を緩和し、あるデバイスが特定の場所の「d」の範囲内にあることを証明する。 私たちが「地域証明」と呼ぶこれらのより弱い証明は重要であると我々は主張する。 一 正確な位置証明とは対照的に、デバイス報告行動に関する要件がほとんどない領域証明を構築することができる。 (II) 既知の震源からの距離の定量的な境界は、多くの応用に有用である。 例えば、予期せぬ出来事(地震、暴力的抗議など)の近くで市民の報告の文脈では、事件の震源から報告装置の確認された距離が、偽の報告の関連性やフラグ付けによって報告をランク付けするのに有用である。 第二に、ProLocは、攻撃者が制御する一連のデバイスが互いに偽の場所を腐食するコラシオン攻撃を防止するための、新しいメカニズムを含んでいる。 攻撃者はどんな場所でも、何のコストもかからず、どんな場所でも攻撃を発生させることができる。 このため、私たちはTrustRankの変種を、自己報告されたトラジェクトリやデバイスの遭遇に応用しています。 我々の目標は、敵がどの偽の場所を報告したいかを事前に予測できないレトロアクティブ攻撃を防ぐことであり、これは予期せぬ出来事の報告である。

Many online services rely on self-reported locations of user devices like smartphones. To mitigate harm from falsified self-reported locations, the literature has proposed location proof services (LPSs), which provide proof of a device's location by corroborating its self-reported location using short-range radio contacts with either trusted infrastructure or nearby devices that also report their locations. This paper presents ProLoc, a new LPS that extends prior work in two ways. First, ProLoc relaxes prior work's proofs that a device was at a given location to proofs that a device was within distance "d" of a given location. We argue that these weaker proofs, which we call "region proofs", are important because (i) region proofs can be constructed with few requirements on device reporting behavior as opposed to precise location proofs, and (ii) a quantitative bound on a device's distance from a known epicenter is useful for many applications. For example, in the context of citizen reporting near an unexpected event (earthquake, violent protest, etc.), knowing the verified distances of the reporting devices from the event's epicenter would be valuable for ranking the reports by relevance or flagging fake reports. Second, ProLoc includes a novel mechanism to prevent collusion attacks where a set of attacker-controlled devices corroborate each others' false locations. Ours is the first mechanism that does not need additional infrastructure to handle attacks with made-up devices, which an attacker can create in any number at any location without any cost. For this, we rely on a variant of TrustRank applied to the self-reported trajectories and encounters of devices. Our goal is to prevent retroactive attacks where the adversary cannot predict ahead of time which fake location it will want to report, which is the case for the reporting of unexpected events.
翻訳日:2024-04-09 23:37:10 公開日:2024-04-04
# SELF-[IN]CORRECT:自己生成応答を精製するLLM構造

SELF-[IN]CORRECT: LLMs Struggle with Refining Self-Generated Responses ( http://arxiv.org/abs/2404.04298v1 )

ライセンス: Link先を確認
Dongwei Jiang, Jingyu Zhang, Orion Weller, Nathaniel Weir, Benjamin Van Durme, Daniel Khashabi, (参考訳) LLMは、より良い結果を得るために、以前の出力を継続的に改善できますか? 肯定的な答えは、LLMが初期応答を生成するよりも、以前生成された代替品の識別が優れていることを要求する。 我々は実際にこの仮説の有効性を探求する。 まず、任意のタスクにおける任意のモデルの生成的および識別的能力を比較するための統合されたフレームワークを紹介します。 そして,本研究で得られた複数のLCMの実験的解析では,これらのモデルの性能が世代よりも確実に向上するかどうかを観察することができない。 これらの発見が、自己改善型AIシステムに関する文献の増大を知らせてくれることを願っている。

Can LLMs continually improve their previous outputs for better results? An affirmative answer would require LLMs to be better at discriminating among previously-generated alternatives, than generating initial responses. We explore the validity of this hypothesis in practice. We first introduce a unified framework that allows us to compare the generative and discriminative capability of any model on any task. Then, in our resulting experimental analysis of several LLMs, we do not observe the performance of those models on discrimination to be reliably better than generation. We hope these findings inform the growing literature on self-improvement AI systems.
翻訳日:2024-04-09 23:37:10 公開日:2024-04-04
# genEVIC:インテリジェントインタラクティブコンソールによるジェネティックデータ探索と可視化

GENEVIC: GENetic data Exploration and Visualization via Intelligent interactive Console ( http://arxiv.org/abs/2404.04299v1 )

ライセンス: Link先を確認
Anindita Nath, Savannah Mwesigwa, Yulin Dai, Xiaoqian Jiang, Zhongming Zhao, (参考訳) まとめ:この膨大な世代の遺伝データは、価値ある知識を効率的に発見する上で大きな課題となる。 この課題に対処するAI駆動のチャットフレームワークであるGENEVICの導入は、遺伝データ生成と生物医学的知識発見のギャップを埋めることによるものだ。 生成AI、特にChatGPTを活用することで、生物学者の「コパイロット」として機能する。 カスタマイズされたドメイン固有の遺伝情報の分析、検索、視覚化を自動化し、機能を統合してタンパク質相互作用ネットワークを生成し、遺伝子セットを豊かにし、PubMed、Google Scholar、arXivから科学文献を検索する。 試験段階において、GENEVICは、アルツハイマー病、統合失調症、認知に関連する遺伝的変異をポリジェニックスコアカタログの作用量に基づいてランク付けし、複雑な疾患における遺伝的変異を優先順位付けするデータベースを用いて評価される。 GENEVICの操作はユーザフレンドリで、特別なトレーニングなしでアクセス可能で、Azure OpenAIのHIPAA準拠インフラストラクチャによって保護され、リアルタイムクエリテストを通じてその有効性を評価する。 原型として、GENEVICは遺伝子研究を推進し、情報的な生体医学的決定を可能にする。 可用性と実装:GENEVICはhttps://genevic-anath2024.streamlit.app.comで公開されている。 基盤となるコードはオープンソースで、GitHubでhttps://github.com/anath2110/GENEVIC.gitで公開されている。

Summary: The vast generation of genetic data poses a significant challenge in efficiently uncovering valuable knowledge. Introducing GENEVIC, an AI-driven chat framework that tackles this challenge by bridging the gap between genetic data generation and biomedical knowledge discovery. Leveraging generative AI, notably ChatGPT, it serves as a biologist's 'copilot'. It automates the analysis, retrieval, and visualization of customized domain-specific genetic information, and integrates functionalities to generate protein interaction networks, enrich gene sets, and search scientific literature from PubMed, Google Scholar, and arXiv, making it a comprehensive tool for biomedical research. In its pilot phase, GENEVIC is assessed using a curated database that ranks genetic variants associated with Alzheimer's disease, schizophrenia, and cognition, based on their effect weights from the Polygenic Score Catalog, thus enabling researchers to prioritize genetic variants in complex diseases. GENEVIC's operation is user-friendly, accessible without any specialized training, secured by Azure OpenAI's HIPAA-compliant infrastructure, and evaluated for its efficacy through real-time query testing. As a prototype, GENEVIC is set to advance genetic research, enabling informed biomedical decisions. Availability and implementation: GENEVIC is publicly accessible at https://genevic-anath2024.streamlit.app. The underlying code is open-source and available via GitHub at https://github.com/anath2110/GENEVIC.git.
翻訳日:2024-04-09 23:37:10 公開日:2024-04-04
# CBR-RAG:LLMにおけるケースベース推論

CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering ( http://arxiv.org/abs/2404.04302v1 )

ライセンス: Link先を確認
Nirmalie Wiratunga, Ramitha Abeyratne, Lasal Jayawardena, Kyle Martin, Stewart Massie, Ikechukwu Nkisi-Orji, Ruvan Weerasinghe, Anne Liret, Bruno Fleisch, (参考訳) Retrieval-Augmented Generation (RAG) は、入力のコンテキストとして事前知識を提供することで、Large Language Model (LLM) の出力を向上させる。 これは、生成したテキストの出力を検証する証拠を必要とする法的質問応答を含む、知識集約的で専門的なタスクにとって有益である。 ケースベース推論(CBR)は,LLMにおけるRAGプロセスの一部として構造検索を行う重要な機会を提供する。 我々は,CBRサイクルの初期検索段階,インデックス語彙,類似性知識コンテナを,文脈に関連のあるケースでLLMクエリを強化するために使用するCBR-RAGを紹介する。 この統合により、元のLLMクエリが強化され、よりリッチなプロンプトが提供される。 本稿では, CBR-RAGの評価を行い, 法的問合せ作業における異なる表現(一般, ドメイン固有埋め込み)と比較方法(インター, イントラ, ハイブリッド類似性)について検討する。 以上の結果から,CBRの事例再利用によって得られた文脈は,質問の関連成分とエビデンスベースとの類似性を強制し,生成した回答の品質を著しく向上させることが示唆された。

Retrieval-Augmented Generation (RAG) enhances Large Language Model (LLM) output by providing prior knowledge as context to input. This is beneficial for knowledge-intensive and expert reliant tasks, including legal question-answering, which require evidence to validate generated text outputs. We highlight that Case-Based Reasoning (CBR) presents key opportunities to structure retrieval as part of the RAG process in an LLM. We introduce CBR-RAG, where CBR cycle's initial retrieval stage, its indexing vocabulary, and similarity knowledge containers are used to enhance LLM queries with contextually relevant cases. This integration augments the original LLM query, providing a richer prompt. We present an evaluation of CBR-RAG, and examine different representations (i.e. general and domain-specific embeddings) and methods of comparison (i.e. inter, intra and hybrid similarity) on the task of legal question-answering. Our results indicate that the context provided by CBR's case reuse enforces similarity between relevant components of the questions and the evidence base leading to significant improvements in the quality of generated answers.
翻訳日:2024-04-09 23:37:10 公開日:2024-04-04
# インフォームドファジィ推論システムとしての近似ベイズ計算

Approximate Bayesian Computation As An Informed Fuzzing-Inference System ( http://arxiv.org/abs/2404.04303v1 )

ライセンス: Link先を確認
Chris Vaisnor, (参考訳) ファズテストのパワーは、ソフトウェアアプリケーションの予期せぬ振る舞いや脆弱性を引き起こすインプットの生成と実行である。 しかし、無限に可能な入力シーケンスの現実を考えると、全てのテストの組み合わせを追求することは、計算に高価であるだけでなく、事実上不可能である。 ベイズシミュレーションの形式である近似ベイズ計算(ABC)は、この問題に対処するための新しい確率論的アプローチである。 この種の問題を扱うためのパラメータ空間は事実上無限であり、これらの手法の適用は関連する文献では証明されていない。 我々は2つのABC手法の緩やかな手動実装、シークエンシャルモンテカルロ(SMC)シミュレーション、マルコフチェインモンテカルロ(MCMC)シミュレーションを使用する。 SMC後部とMCMC後部分布の混合が有望な結果であった。

The power of fuzz testing lies in its random, often brute-force, generation and execution of inputs to trigger unexpected behaviors and vulnerabilities in software applications. However, given the reality of infinite possible input sequences, pursuing all test combinations would not only be computationally expensive, but practically impossible. Approximate Bayesian Computation (ABC), a form of Bayesian simulation, represents a novel, probabilistic approach to addressing this problem. The parameter space for working with these types of problems is effectively infinite, and the application of these techniques is untested in relevant literature. We use a relaxed, manual implementation of two ABC methods, a Sequential Monte Carlo (SMC) simulation, and a Markov Chain Monte Carlo (MCMC) simulation. We found promising results with the SMC posterior and mixed results with MCMC posterior distributions on our white-box fuzz-test function.
翻訳日:2024-04-09 23:37:10 公開日:2024-04-04
# 単一量子系の量子スーパーセンス符号化と通信の古典的類似

Classical analogue of quantum superdense coding and communication advantage of a single quantum system ( http://arxiv.org/abs/2202.06796v4 )

ライセンス: Link先を確認
Ram Krishna Patra, Sahil Gopalkrishna Naik, Edwin Peter Lobo, Samrat Sen, Tamal Guha, Some Sankar Bhattacharya, Mir Alimuddin, Manik Banik, (参考訳) 我々は,送信側と受信側の間で共有される量子的あるいは古典的相関の短さがなければ通信チャネルの有用性を解析する。 そこで,本稿では,送信側から受信側へ,ノイズのない1ビットの古典的チャンネルを付与して,ゲームが獲得できないことを示す。 興味深いことに、チャンネルが古典的な共有ランダム性によってアシストされている場合、ゴールは完璧に達成できる。 これは、完全量子通信線の通信性を高めるために、事前共有された絡み合いが持つ量子超高密度符号化現象に類似した利点である。 驚くほど驚くべきことに、古典的な共有ランダム性の助けのない量子ビット通信は、その目標を達成することができ、したがって最も単純な通信シナリオにおいて、新しい量子優位性を確立することができる。 この利点のより深い起源を追求するためには、有利な量子戦略が送信者による符号化ステップと受信者による復号ステップの両方で量子干渉を起こさなければならないことを示す。 また、対称多角形状態空間によって記述された古典的でない玩具類の通信ユーティリティについても検討する。 古典的通信の1ドルビットやポリゴンシステムとの通信では達成できない通信タスクを考案する一方、1ドルキュービット通信は完全な戦略をもたらし、それらに対して量子的優位性を確立する。 この目的のために、量子優位性は不完全な符号化-復号化に対して堅牢であることを示し、現在利用可能な量子技術で実装可能なプロトコルを示す。

We analyze utility of communication channels in absence of any short of quantum or classical correlation shared between the sender and the receiver. To this aim, we propose a class of two-party communication games, and show that the games cannot be won given a noiseless $1$-bit classical channel from the sender to the receiver. Interestingly, the goal can be perfectly achieved if the channel is assisted with classical shared randomness. This resembles an advantage similar to the quantum superdense coding phenomenon where pre-shared entanglement can enhance the communication utility of a perfect quantum communication line. Quite surprisingly, we show that a qubit communication without any assistance of classical shared randomness can achieve the goal, and hence establishes a novel quantum advantage in the simplest communication scenario. In pursuit of a deeper origin of this advantage, we show that an advantageous quantum strategy must invoke quantum interference both at the encoding step by the sender and at the decoding step by the receiver. We also study communication utility of a class of non-classical toy systems described by symmetric polygonal state spaces. We come up with communication tasks that can be achieved neither with $1$-bit of classical communication nor by communicating a polygon system, whereas $1$-qubit communication yields a perfect strategy, establishing quantum advantage over them. To this end, we show that the quantum advantages are robust against imperfect encodings-decodings, making the protocols implementable with presently available quantum technologies.
翻訳日:2024-04-09 00:53:45 公開日:2024-04-04
# Shadow Cones: 部分順序埋め込みのための汎用フレームワーク

Shadow Cones: A Generalized Framework for Partial Order Embeddings ( http://arxiv.org/abs/2305.15215v2 )

ライセンス: Link先を確認
Tao Yu, Toni J. B. Liu, Albert Tseng, Christopher De Sa, (参考訳) 双曲空間は木や有向非巡回グラフのようなデータにおける階層的関係を捉えるのに適していることが証明されている。 以前の研究はエンテーメント・コーンの概念を導入しており、これはポアンカーの球のネストされた円錐によって定義される部分的な順序を使って階層をモデル化している。 ここでは、物理学に着想を得たエンテーメントコーン構築である「シャドウコーン」フレームワークを紹介する。 具体的には、光源によって形成される影と双曲空間における不透明物体との間の部分的順序を部分的関係としてモデル化する。 シャドウ・コーン・フレームワークは、ポアンカー・イ・ボールの向こうの広いクラスの定式化と双曲空間モデルにエンテーメント・コーンを一般化する。 この結果、既存の構成に対して明らかな利点がある: 例えば、シャドウコーンはポアンカーボールに制限された構成よりもより良い最適化特性を持つ。 種々の大きさのデータセットと階層構造に関する実験により、シャドーコーンは、既存のエンテーメントコーン構造よりも一貫して、著しく優れていることが示された。 これらの結果は、影の円錐が双曲空間における部分順序をモデル化する有効な方法であり、そのような構造の性質に関する物理的に直感的で新しい洞察を提供することを示している。

Hyperbolic space has proven to be well-suited for capturing hierarchical relations in data, such as trees and directed acyclic graphs. Prior work introduced the concept of entailment cones, which uses partial orders defined by nested cones in the Poincar\'e ball to model hierarchies. Here, we introduce the ``shadow cones" framework, a physics-inspired entailment cone construction. Specifically, we model partial orders as subset relations between shadows formed by a light source and opaque objects in hyperbolic space. The shadow cones framework generalizes entailment cones to a broad class of formulations and hyperbolic space models beyond the Poincar\'e ball. This results in clear advantages over existing constructions: for example, shadow cones possess better optimization properties over constructions limited to the Poincar\'e ball. Our experiments on datasets of various sizes and hierarchical structures show that shadow cones consistently and significantly outperform existing entailment cone constructions. These results indicate that shadow cones are an effective way to model partial orders in hyperbolic space, offering physically intuitive and novel insights about the nature of such structures.
翻訳日:2024-04-09 00:47:36 公開日:2024-04-04
# 閉じ込められたイオン量子コンピュータにおける高精度運動モード評価のためのパルス最適化

Pulse optimization for high-precision motional-mode characterization in trapped-ion quantum computers ( http://arxiv.org/abs/2307.15841v2 )

ライセンス: Link先を確認
Qiyao Liang, Mingyu Kang, Ming Li, Yunseong Nam, (参考訳) 量子コンピュータの高忠実度演算は、特性解析を通じて物理系の正確な知識を必要とする。 閉じ込められたイオンの運動による絡み合いの発生には、モード周波数やラムディッケパラメータといった運動モードパラメータの正確な知識が不可欠である。 残念なことに、最先端のモード特徴付けスキームは、単一のモードをターゲットとする周波数空間における隣接モードの不要な励起のために、十分にスケーラブルで正確な方法でモードパラメータを描画することができない。 本稿では,パルス設計における自由度を評価実験に利用して,モード間カップリングの効果を積極的に沈黙させる方法を提案する。 さらに,実験的なドリフトやキャラクタリゼーションの不正確さにより,モード周波数が正確に分かっていない場合でも,ラムディッケパラメータを正確に特徴付ける安定化手法を考案した。 我々は3イオン鎖のシミュレーションにおいて、我々の手法を広範囲にベンチマークし、形状パルスが従来の正方形パルスよりも著しく優れているパラメータ状態について議論する。

High-fidelity operation of quantum computers requires precise knowledge of the physical system through characterization. For motion-mediated entanglement generation in trapped ions, it is crucial to have precise knowledge of the motional-mode parameters such as the mode frequencies and the Lamb-Dicke parameters. Unfortunately, the state-of-the-art mode-characterization schemes do not easily render the mode parameters in a sufficiently scalable and accurate fashion, due to the unwanted excitation of adjacent modes in the frequency space when targeting a single mode, an effect known as the \textit{cross-mode coupling}. Here, we develop an alternative scheme that leverages the degrees of freedom in pulse design for the characterization experiment such that the effects of the cross-mode coupling is actively silenced. Further, we devise stabilization methods to accurately characterize the Lamb-Dicke parameters even when the mode frequencies are not precisely known due to experimental drifts or characterization inaccuracies. We extensively benchmark our scheme in simulations of a three-ion chain and discuss the parameter regimes in which the shaped pulses significantly outperform the traditional square pulses.
翻訳日:2024-04-09 00:47:36 公開日:2024-04-04
# 連続モンテカルロバンド

Sequential Monte Carlo Bandits ( http://arxiv.org/abs/1808.02933v4 )

ライセンス: Link先を確認
Iñigo Urteaga, Chris H. Wiggins, (参考訳) 我々は、連続モンテカルロ法(SMC)を用いることで、ベイジアン多重武装バンディット(MAB)アルゴリズムを元の設定を超えて拡張する。 MABは、実行された行動の報酬のみを観察する長期支払いを最大化するポリシーを学ぶことを目標とするシーケンシャルな意思決定問題である。 確率MABでは、各アクションに対する報酬は未知の分布から生成され、しばしば定常であると仮定される。 次にどのアクションをとるかを決定するには、MABエージェントは未知の報酬分布の特徴(例えば、その十分な統計値)を学習しなければならない。 しかし、これらの統計量に対する閉形式表現は、単純で定常な場合を除いて解析的に難解である。 ここでは、ベイジアンMABエージェントが計算する統計量の推定にSMCを利用し、よりリッチなバンディット問題に対処できる柔軟なポリシーを考案する。 線形力学系を用いて時間力学をモデル化した非定常バンドレットが,SMCベースのベイズバンドエージェントによってうまく対処できることを示す。 我々は,提案したSMCに基づくバンディット政策を,非定常バンディット(非定常バンディット)における非定常バンディット(非定常バンディット)のいくつかのMABシナリオにおいて,実演的に好意的に証明した。

We extend Bayesian multi-armed bandit (MAB) algorithms beyond their original setting by making use of sequential Monte Carlo (SMC) methods. A MAB is a sequential decision making problem where the goal is to learn a policy that maximizes long term payoff, where only the reward of the executed action is observed. In the stochastic MAB, the reward for each action is generated from an unknown distribution, often assumed to be stationary. To decide which action to take next, a MAB agent must learn the characteristics of the unknown reward distribution, e.g., compute its sufficient statistics. However, closed-form expressions for these statistics are analytically intractable except for simple, stationary cases. We here utilize SMC for estimation of the statistics Bayesian MAB agents compute, and devise flexible policies that can address a rich class of bandit problems: i.e., MABs with nonlinear, stateless- and context-dependent reward distributions that evolve over time. We showcase how non-stationary bandits, where time dynamics are modeled via linear dynamical systems, can be successfully addressed by SMC-based Bayesian bandit agents. We empirically demonstrate good regret performance of the proposed SMC-based bandit policies in several MAB scenarios that have remained elusive, i.e., in non-stationary bandits with nonlinear rewards.
翻訳日:2024-04-08 21:09:03 公開日:2024-04-04
# アドホックロボットネットワークのための最適トポロジーの学習

Learning Optimal Topology for Ad-hoc Robot Networks ( http://arxiv.org/abs/2201.12900v2 )

ライセンス: Link先を確認
Matin Macktoobian, Zhan Shu, Qing Zhao, (参考訳) 本稿では,アドホックロボットネットワークの最適トポロジを予測するために,データ駆動手法を合成する。 この問題は技術的にはマルチタスク分類の問題である。 しかし,より効率的に解ける多クラス分類問題に分類する。 この目的のために,まず,ロボットネットワークの様々な構成に付随する地中最適位相を生成するアルゴリズムを構成する。 このアルゴリズムは,我々の学習モデルが学習に成功している最適性基準の複雑なコレクションを組み込んだものである。 このモデルは、特定のロボットのトポロジー予測を出力とする積み重ねアンサンブルである。 積み重ねられた各アンサンブルインスタンスは、3つの低レベル推定器を構成し、その出力は高レベルブーピングミキサーによって集約される。 我々のモデルを10個のロボットネットワークに適用すると、引用されたネットワークの様々な構成に対応する最適なトポロジの予測において80%以上の精度が示される。

In this paper, we synthesize a data-driven method to predict the optimal topology of an ad-hoc robot network. This problem is technically a multi-task classification problem. However, we divide it into a class of multi-class classification problems that can be more efficiently solved. For this purpose, we first compose an algorithm to create ground-truth optimal topologies associated with various configurations of a robot network. This algorithm incorporates a complex collection of optimality criteria that our learning model successfully manages to learn. This model is an stacked ensemble whose output is the topology prediction for a particular robot. Each stacked ensemble instance constitutes three low-level estimators whose outputs will be aggregated by a high-level boosting blender. Applying our model to a network of 10 robots displays over 80% accuracy in the prediction of optimal topologies corresponding to various configurations of the cited network.
翻訳日:2024-04-08 21:09:03 公開日:2024-04-04
# 大規模で異なるプライベートなストリーム処理

Differentially Private Stream Processing at Scale ( http://arxiv.org/abs/2303.18086v2 )

ライセンス: Link先を確認
Bing Zhang, Vadym Doroshenko, Peter Kairouz, Thomas Steinke, Abhradeep Thakurta, Ziyin Ma, Eidan Cohen, Himani Apte, Jodi Spacek, (参考訳) 我々は、私たちの知る限り、最初の差分プライベート(DP)ストリーム集約処理システムを大規模に設計する。 当社のシステム - Differential Privacy SQL Pipelines (DP-SQLP) - Sparkストリーミングに似たストリーミングフレームワークを使用して構築されており、GoogleのSpannerデータベースとF1クエリエンジン上に構築されています。 DP-SQLPの設計に向けて,アルゴリズムとシステムの両方の進歩,すなわち我々は 二 新規(ユーザレベルの)DPキー選択アルゴリズムを設計し、使用可能なキーの無拘束セットを操作でき、ユーザがコントリビュートしたキーを10億個まで拡張することができる。 (二)トリガー時間毎に全てのキーを列挙しないDPキー選択のプリエンプティブ実行方式を設計し、 三 DP連続観測のアルゴリズムを用いて、ストリーム長の異なるキーに対するユーザのコントリビューションの連続DPヒストグラムを解放する。 有意義なベースラインよりも、少なくとも16\times$エラーを減らし、有効性を実証的に実証する。 DP-SQLPを用いたGoogle Shoppingのユーザ印象のストリーミングを実現した。 ストリーミングDPアルゴリズムは、Google Trendsにも適用される。

We design, to the best of our knowledge, the first differentially private (DP) stream aggregation processing system at scale. Our system -- Differential Privacy SQL Pipelines (DP-SQLP) -- is built using a streaming framework similar to Spark streaming, and is built on top of the Spanner database and the F1 query engine from Google. Towards designing DP-SQLP we make both algorithmic and systemic advances, namely, we (i) design a novel (user-level) DP key selection algorithm that can operate on an unbounded set of possible keys, and can scale to one billion keys that users have contributed, (ii) design a preemptive execution scheme for DP key selection that avoids enumerating all the keys at each triggering time, and (iii) use algorithmic techniques from DP continual observation to release a continual DP histogram of user contributions to different keys over the stream length. We empirically demonstrate the efficacy by obtaining at least $16\times$ reduction in error over meaningful baselines we consider. We implemented a streaming differentially private user impressions for Google Shopping with DP-SQLP. The streaming DP algorithms are further applied to Google Trends.
翻訳日:2024-04-08 20:59:44 公開日:2024-04-04
# 繰り返し微分によるニューラルネットワークの畳み込み

Neural Field Convolutions by Repeated Differentiation ( http://arxiv.org/abs/2304.01834v4 )

ライセンス: Link先を確認
Ntumba Elie Nsampi, Adarsh Djeacoumar, Hans-Peter Seidel, Tobias Ritschel, Thomas Leimkühler, (参考訳) ニューラルネットワークは、ビジュアルコンピューティングのための汎用的な連続表現へと進化している。 しかし、多くの魅力的な性質にもかかわらず、信号処理にはほとんど適していない。 本稿では,ニューラルネットワークなどの一般的な連続信号を用いて,一般的な連続的畳み込みを行う手法を提案する。 分割多項式核は、繰り返し微分された後にディラックデルタのスパース集合に還元され、畳み込みアイデンティティを活用し、繰り返し積分場を訓練し、大規模畳み込みを効率的に行う。 我々は、様々なデータモダリティと空間的に異なるカーネルに対して、我々のアプローチを実証する。

Neural fields are evolving towards a general-purpose continuous representation for visual computing. Yet, despite their numerous appealing properties, they are hardly amenable to signal processing. As a remedy, we present a method to perform general continuous convolutions with general continuous signals such as neural fields. Observing that piecewise polynomial kernels reduce to a sparse set of Dirac deltas after repeated differentiation, we leverage convolution identities and train a repeated integral field to efficiently execute large-scale convolutions. We demonstrate our approach on a variety of data modalities and spatially-varying kernels.
翻訳日:2024-04-08 20:59:44 公開日:2024-04-04
# Gland Layoutによる大腸癌組織像の合成

Synthesis of Annotated Colorectal Cancer Tissue Images from Gland Layout ( http://arxiv.org/abs/2305.05006v2 )

ライセンス: Link先を確認
Srijay Deshpande, Fayyaz Minhas, Nasir Rajpoot, (参考訳) 現実的な組織像をアノテーションで生成することは、多くの計算病理学応用において重要な課題である。 合成生成された画像とアノテーションは、この領域におけるアルゴリズムのトレーニングと評価に有用である。 そこで本研究では, 腺構造レイアウトから, 対応する腺マスクを用いて, リアルな大腸癌組織像を生成するインタラクティブなフレームワークを提案する。 このフレームワークは、ストローマ、ゴブレット細胞、腺路などの重要な特徴を正確に捉えている。 ユーザーは、腺の数、位置、サイズなどのパラメータを調整することで、腺の外観を制御することができる。 生成された画像は、最新画像画像画像変換モデルと比較して、良好なFrechet Inception Distance(FID)スコアを示す。 さらに, 腺分節アルゴリズムの評価における合成アノテーションの有用性を実証した。 さらに,潜伏拡散モデルなどの高度な深層生成モデルを用いて腺状マスクを構築する手法を提案する。 これらのマスクは、残留エンコーダデコーダネットワークを介して組織画像を生成することができる。

Generating realistic tissue images with annotations is a challenging task that is important in many computational histopathology applications. Synthetically generated images and annotations are valuable for training and evaluating algorithms in this domain. To address this, we propose an interactive framework generating pairs of realistic colorectal cancer histology images with corresponding glandular masks from glandular structure layouts. The framework accurately captures vital features like stroma, goblet cells, and glandular lumen. Users can control gland appearance by adjusting parameters such as the number of glands, their locations, and sizes. The generated images exhibit good Frechet Inception Distance (FID) scores compared to the state-of-the-art image-to-image translation model. Additionally, we demonstrate the utility of our synthetic annotations for evaluating gland segmentation algorithms. Furthermore, we present a methodology for constructing glandular masks using advanced deep generative models, such as latent diffusion models. These masks enable tissue image generation through a residual encoder-decoder network.
翻訳日:2024-04-08 20:59:44 公開日:2024-04-04
# ArtGPT-4: アダプタを改良した芸術的理解型大規模視覚言語モデルを目指して

ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter ( http://arxiv.org/abs/2305.07490v6 )

ライセンス: Link先を確認
Zhengqing Yuan, Yunhong He, Kun Wang, Yanfang Ye, Lichao Sun, (参考訳) 大規模言語モデル(LLM)の成功は、マルチモーダル学習の新たな研究分野にインスピレーションを与えている。 しかし、マルチモーダル学習にLLMを利用するという大きな課題は、常に数十億のパラメータを持つ事前学習LLMのサイズである。 この課題に対処するために、MiniGPT-4やLLaVAのようなモデルが開発され、より少ないパラメータで事前訓練されたモデルを微調整している。 有望なパフォーマンスにもかかわらず、これらのモデルは芸術的イメージの理解に限られている。 本稿では,芸術的理解における既存モデルの限界に対処するための視覚言語モデルであるArtGPT-4を提案する。 ArtGPT-4の鍵となるイノベーションは、芸術的イメージ理解の高度な挑戦のための技術であり、より広いテーマの細部を見渡せる他のモデルとは切り離されている。 具体的には、いくつかの特別なアダプタ層をLLMに統合することで、モデルが既存の方法のようにLLM全体を微調整するのではなく、より効率的に、効果的に複雑なビジュアルトークンを解析し、解釈することができる。 ArtGPT-4は、Tesla A100デバイスを使用することで、約0.52万エントリからなる画像テキストペアデータセットを使用して、わずか2時間でトレーニングを完了することができる。 さらにArtGPT-4はArtEmisとArtEmis-v2.0のデータセットとこの研究で確立されたベンチマークで最先端のパフォーマンスを達成しており、6ポイントのスケールで0.15ポイントのプロのアーティストの説明に遅れを取っている。 ArtGPT-4の優れたパフォーマンスは、芸術的理解で画像を描画し、それらが刺激する感情を伝達し、人間の解釈を反映できることを示している。 コードと事前訓練されたモデルは \url{https://github.com/DLYuanGod/ArtGPT-4} でアクセス可能である。

The success of large language models (LLMs) has inspired an emerging research field of multimodal learning. However, a grand challenge of exploiting LLMs for multimodal learning is the size of pre-trained LLMs which are always with billions of parameters. To tackle this challenge, models such as MiniGPT-4 and LLaVA have been developed to fine-tune the pre-trained models using fewer parameters. Despite their promising performance, these models remain limited in their understanding of artistic imagery. To facilitate better artistic-understanding, in this paper, we propose ArtGPT-4, a pioneering large vision-language model tailored to address the limitations of existing models in artistic comprehension. The key innovation of ArtGPT-4 lies in its craft for the sophisticated challenge of artistic image comprehension, setting it apart from other models that overlook fine details for broader themes. Specifically, it works by integrating some specialized adapter layers into the LLM, enabling the model to more efficiently and effectively parse and interpret complex visual tokens, instead of fine-tuning the whole LLM as in the existing method. ArtGPT-4 has demonstrated its outstanding performance on the efficiency: utilizing a Tesla A100 device, its training can be completed in mere 2 hours with an image-text pair dataset comprising approximately 0.52M entries. Additionally, ArtGPT-4 has also achieved state-of-the-art performance on the ArtEmis and ArtEmis-v2.0 datasets as well as the benchmarks established in this work, lagging behind professional artists' descriptions by a negligible 0.15 points on a 6-point scale. The outstanding performance of ArtGPT-4 shows that it can render images with an artistic-understanding and convey the emotions they inspire, mirroring human interpretation. The code and the pre-trained model are accessible in \url{https://github.com/DLYuanGod/ArtGPT-4}.
翻訳日:2024-04-08 20:59:44 公開日:2024-04-04
# DCプログラミングによる部分モジュラ最小化の差

Difference of Submodular Minimization via DC Programming ( http://arxiv.org/abs/2305.11046v2 )

ライセンス: Link先を確認
Marwa El Halabi, George Orfanides, Tim Hoheisel, (参考訳) 2つの部分モジュラ(DS)関数の違いを最小化することは、様々な機械学習問題に自然に発生する問題である。 DS問題は2つの凸関数(DC)の差の最小化として等価に定式化できることはよく知られているが、既存のアルゴリズムはこの接続を完全に利用していない。 DC問題に対する古典的アルゴリズムはDCアルゴリズム (DCA) と呼ばれる。 DS最小化に対応するDCプログラムに適用したDCAの変種とその完全形(CDCA)を紹介する。 DCAの既存の収束特性を拡張し、DS問題の収束特性に接続する。 DCAに関する我々の結果は、既存のDSアルゴリズムで満たされた理論的保証と一致し、収束特性のより完全な評価を提供する。 CDCAの場合、より強力な局所最小性保証が得られる。 提案アルゴリズムは,音声コーパス選択と特徴選択の2つの応用において,既存のベースラインよりも優れていることを示す。

Minimizing the difference of two submodular (DS) functions is a problem that naturally occurs in various machine learning problems. Although it is well known that a DS problem can be equivalently formulated as the minimization of the difference of two convex (DC) functions, existing algorithms do not fully exploit this connection. A classical algorithm for DC problems is called the DC algorithm (DCA). We introduce variants of DCA and its complete form (CDCA) that we apply to the DC program corresponding to DS minimization. We extend existing convergence properties of DCA, and connect them to convergence properties on the DS problem. Our results on DCA match the theoretical guarantees satisfied by existing DS algorithms, while providing a more complete characterization of convergence properties. In the case of CDCA, we obtain a stronger local minimality guarantee. Our numerical results show that our proposed algorithms outperform existing baselines on two applications: speech corpus selection and feature selection.
翻訳日:2024-04-08 20:59:44 公開日:2024-04-04
# 最大機械学習ポートフォリオ

Maximally Machine-Learnable Portfolios ( http://arxiv.org/abs/2306.05568v2 )

ライセンス: Link先を確認
Philippe Goulet Coulombe, Maximilian Goebel, (参考訳) 株価のリターンに関しては、どんな予測可能性でもリスク調整による収益性を高めることができる。 ポートフォリオの重み付けを最適化し、結果の合成セキュリティを最大限に予測できるように、協調的な機械学習アルゴリズムを開発する。 正確には、この方程式の一方にランダムフォレスト(ランダムフォレスト)を巻き込み、他方に制約のあるリッジ回帰(リッジ回帰)を巻き込み、上記の目標を達成するための交互条件予測の多変量拡張であるMACEを導入する。 Lo と MacKinlay の元々の最大予測可能なポートフォリオアプローチには,2つの重要な改善点がある。 まず、(非線形)予測アルゴリズムと予測器セットに対応している。 第二に、大きなポートフォリオを扱う。 日・月毎の頻度で運動を行い、非常に少ない条件情報を用いて予測可能性と収益性の顕著な増加を報告した。 興味深いことに、予測可能性も良いタイミングでも見つからず、MACEは2022年の崩壊をうまくナビゲートしている。

When it comes to stock returns, any form of predictability can bolster risk-adjusted profitability. We develop a collaborative machine learning algorithm that optimizes portfolio weights so that the resulting synthetic security is maximally predictable. Precisely, we introduce MACE, a multivariate extension of Alternating Conditional Expectations that achieves the aforementioned goal by wielding a Random Forest on one side of the equation, and a constrained Ridge Regression on the other. There are two key improvements with respect to Lo and MacKinlay's original maximally predictable portfolio approach. First, it accommodates for any (nonlinear) forecasting algorithm and predictor set. Second, it handles large portfolios. We conduct exercises at the daily and monthly frequency and report significant increases in predictability and profitability using very little conditioning information. Interestingly, predictability is found in bad as well as good times, and MACE successfully navigates the debacle of 2022.
翻訳日:2024-04-08 20:49:52 公開日:2024-04-04
# DisCo:リアル・ヒューマン・ダンス・ジェネレーションのためのアンタングル制御

DisCo: Disentangled Control for Realistic Human Dance Generation ( http://arxiv.org/abs/2307.00040v3 )

ライセンス: Link先を確認
Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang, (参考訳) 生成AIは、特にテキスト駆動画像/ビデオ合成(T2I/T2V)において、コンピュータビジョンにおいて大きな進歩を遂げている。 顕著な進歩にもかかわらず、現実的なダンス生成のような人間中心のコンテンツ合成は依然として困難である。 現在の手法は、人間の動きの伝達に特化しており、現実世界のダンスシナリオ(例えばソーシャルメディアダンス)に直面すると困難に遭遇する。 本稿では,人間の動き伝達の伝統的なパラダイムから脱却し,ソーシャルメディアにおける人間のダンスコンテンツ合成における2つの重要な特徴を強調する。 一 一般化可能性 モデルは、一般的な人間の視点を超えて、見知らぬ人間の主題、背景及びポーズを一般化することができるべきである。 (二 構成性:見知らぬ被写体、背景及び異なるソースからのポーズのシームレスな構成を可能にすること。 これらの課題に対処するために、ダンス合成の合成性を改善するためにアンタングル制御を備えた新しいモデルアーキテクチャと、目に見えない人間により良い一般化性を与える効果的な人的属性事前学習を含むdisCOを導入する。 広範に質的かつ定量的な結果は、DisCcが様々な外観と柔軟な動きを持つ高品質な人間のダンスイメージとビデオを生成することを実証している。 コードはhttps://disco-dance.github.io/で公開されている。

Generative AI has made significant strides in computer vision, particularly in text-driven image/video synthesis (T2I/T2V). Despite the notable advancements, it remains challenging in human-centric content synthesis such as realistic dance generation. Current methodologies, primarily tailored for human motion transfer, encounter difficulties when confronted with real-world dance scenarios (e.g., social media dance), which require to generalize across a wide spectrum of poses and intricate human details. In this paper, we depart from the traditional paradigm of human motion transfer and emphasize two additional critical attributes for the synthesis of human dance content in social media contexts: (i) Generalizability: the model should be able to generalize beyond generic human viewpoints as well as unseen human subjects, backgrounds, and poses; (ii) Compositionality: it should allow for the seamless composition of seen/unseen subjects, backgrounds, and poses from different sources. To address these challenges, we introduce DISCO, which includes a novel model architecture with disentangled control to improve the compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DisCc can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code is available at https://disco-dance.github.io/.
翻訳日:2024-04-08 20:49:52 公開日:2024-04-04
# 非クリフォードゲートの少ない量子状態の効率的な学習 II:単一コピー計測

Efficient Learning of Quantum States Prepared With Few Non-Clifford Gates II: Single-Copy Measurements ( http://arxiv.org/abs/2308.07175v2 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang, (参考訳) 最近の研究で、回路が出力する$n$-qubitの量子状態が少なくとも$t$の非クリフォードゲートを持つ場合、$\epsilon$を$\mathsf{poly}(n,2^t,1/\epsilon)$時間とサンプルで追跡することができることが示されている。 このランタイムを実現する前のアルゴリズムはすべて、入力状態の2つのコピーに絡み合った測定値を使用する。 そこで本研究では,単一コピー計測のみを用いて,同じ状態のクラスを学習するアルゴリズムを提案する。

Recent work has shown that $n$-qubit quantum states output by circuits with at most $t$ single-qubit non-Clifford gates can be learned to trace distance $\epsilon$ using $\mathsf{poly}(n,2^t,1/\epsilon)$ time and samples. All prior algorithms achieving this runtime use entangled measurements across two copies of the input state. In this work, we give a similarly efficient algorithm that learns the same class of states using only single-copy measurements.
翻訳日:2024-04-08 20:49:52 公開日:2024-04-04
# 効率的な抽象化のための誘導バイアスとしてのリレーショナルボトルネック

The Relational Bottleneck as an Inductive Bias for Efficient Abstraction ( http://arxiv.org/abs/2309.06629v4 )

ライセンス: Link先を確認
Taylor W. Webb, Steven M. Frankland, Awni Altabaa, Simon Segert, Kamesh Krishnamurthy, Declan Campbell, Jacob Russin, Tyler Giallanza, Zack Dulberg, Randall O'Reilly, John Lafferty, Jonathan D. Cohen, (参考訳) 認知科学における中心的な課題は、抽象概念が限られた経験からどのように獲得されるかを説明することである。 これはコネクショニストとシンボリック認知モデルの間の二分法という観点で表されることが多い。 ここでは、リレーショナルボトルネックと呼ばれる帰納的バイアスを活用することによって、これらのアプローチの新たな和解を示唆する最近の研究のラインを強調します。 このアプローチでは、ニューラルネットワークはアーキテクチャを通じて制約され、個々の入力の属性ではなく、知覚的な入力間の関係に焦点を当てる。 我々は、この手法を用いて抽象概念をデータ効率で誘導するモデル群をレビューし、人間の心と脳における抽象概念の獲得の候補モデルとしての可能性を強調した。

A central challenge for cognitive science is to explain how abstract concepts are acquired from limited experience. This has often been framed in terms of a dichotomy between connectionist and symbolic cognitive models. Here, we highlight a recently emerging line of work that suggests a novel reconciliation of these approaches, by exploiting an inductive bias that we term the relational bottleneck. In that approach, neural networks are constrained via their architecture to focus on relations between perceptual inputs, rather than the attributes of individual inputs. We review a family of models that employ this approach to induce abstractions in a data-efficient manner, emphasizing their potential as candidate models for the acquisition of abstract concepts in the human mind and brain.
翻訳日:2024-04-08 20:40:00 公開日:2024-04-04
# Struc-Bench: 大規模言語モデルは複雑な構造化データを生成するのに本当に優れているか?

Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? ( http://arxiv.org/abs/2309.08963v3 )

ライセンス: Link先を確認
Xiangru Tang, Yiming Zong, Jason Phang, Yilun Zhao, Wangchunshu Zhou, Arman Cohan, Mark Gerstein, (参考訳) GPT-4のような大規模言語モデル(LLM)の驚くべき機能にもかかわらず、複雑な構造化表データを生成することは依然として困難である。 本研究は, テーブル構造におけるLCMの習熟度を評価し, データ構造を認識するためのファインチューニング手法を提案する。 我々は、テキストテーブル、HTML、LaTeXフォーマットにまたがる優れたLCM(GPT-NeoX-20B、GPT-3.5、GPT-4、Vicuna)を特徴とする総合ベンチマークであるStruc-Benchを発表した。 提案する FormatCoT は,提案する出力からフォーマット固有の命令を作成して,このベンチマークを投入する。 タスク中心評価のギャップに対処するため、より正確にLCM性能を評価するために、Pスコア(Prompting Score)とHスコア(Heuristical Score)という2つの革新的な指標を提案する。 実験の結果,LLaMA-7Bに構造認識の微調整を適用すると性能が大幅に向上し,LLMの精度が向上することがわかった。 詳細なエラー分析と、6次元にわたる能力マップの作成 – カバレッジ、フォーマット、推論、理解、実践、幻覚 – は、将来の拡張の領域を強調し、今後の研究軌道を提案する。 私たちのコードとモデルは、https://github.com/gersteinlab/Struc-Bench.orgにある。

Despite the remarkable capabilities of Large Language Models (LLMs) like GPT-4, producing complex, structured tabular data remains challenging. Our study assesses LLMs' proficiency in structuring tables and introduces a novel fine-tuning method, cognizant of data structures, to bolster their performance. We unveil Struc-Bench, a comprehensive benchmark featuring prominent LLMs (GPT-NeoX-20B, GPT-3.5, GPT-4, and Vicuna), which spans text tables, HTML, and LaTeX formats. Our proposed FormatCoT aids in crafting format-specific instructions from the intended outputs to populate this benchmark. Addressing the gap in task-centered evaluation, we propose two innovative metrics, P-Score (Prompting Score) and H-Score (Heuristical Score), to more accurately gauge LLM performance. Our experiments show that applying our structure-aware fine-tuning to LLaMA-7B leads to substantial performance gains, outshining its LLM counterparts across most measures. In-depth error analysis and creating an ability map across six dimensions -- coverage, formatting, reasoning, comprehension, pragmatics, and hallucination -- highlight areas for future enhancements and suggest forthcoming research trajectories. Our code and models can be found at https://github.com/gersteinlab/Struc-Bench.
翻訳日:2024-04-08 20:40:00 公開日:2024-04-04
# The Reversal Curse: "A is B" でトレーニングされた LLM は "B is A" を学ぶことができません。

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" ( http://arxiv.org/abs/2309.12288v3 )

ライセンス: Link先を確認
Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans, (参考訳) 自動回帰型大言語モデル(LLM)における一般化の驚くべき失敗を明らかにする。 モデルが "A is B" という形式の文で訓練された場合、それは自動的に "B is A" に一般化されない。 これが逆転曲線である。 例えば、もしモデルが「Valentina Tereshkovaが最初に宇宙に旅行した女性」で訓練されたとしても、自動的には「誰が最初に宇宙に旅行した女性だったのか」という質問に答えることはできない。 さらに、正解(Valentina Tershkova)の確率は、ランダムな名前よりも高くない。 したがって、モデルがトレーニングセットの一般的なパターンを一般化しない: "A is B" が発生した場合、"B is A" はより起こりやすい。 しかし、「A is B」が文脈内で現れると、モデルは逆の関係を推論する。 我々は、GPT-3とLlama-1を「Uriah Hawthorne is the composer of Abyssal Melodies」のような架空の文で微調整することで、逆行曲線の証拠を提供し、彼らは「誰がAbyssal Melodiesを作曲したのか? Reversal Curseはモデルのサイズやモデルファミリに対して堅牢であり、データ拡張によって緩和されない。 また、ChatGPT (GPT-3.5 と GPT-4) を「トム・クルーズの母親は? [A:Mary Lee Pfeiffer]」や「メアリー・リー・プファイファーの息子は?」といった現実世界の有名人に関する質問に対して評価している。 GPT-4は、前の79%の時間のように正しく答えるが、後者は33%である。 コードは、https://github.com/lukasberglund/reversal_curse.comで公開されている。

We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained on a sentence of the form "A is B", it will not automatically generalize to the reverse direction "B is A". This is the Reversal Curse. For instance, if a model is trained on "Valentina Tereshkova was the first woman to travel to space", it will not automatically be able to answer the question, "Who was the first woman to travel to space?". Moreover, the likelihood of the correct answer ("Valentina Tershkova") will not be higher than for a random name. Thus, models do not generalize a prevalent pattern in their training set: if "A is B" occurs, "B is A" is more likely to occur. It is worth noting, however, that if "A is B" appears in-context, models can deduce the reverse relationship. We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of Abyssal Melodies" and showing that they fail to correctly answer "Who composed Abyssal Melodies?". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? [A: Mary Lee Pfeiffer]" and the reverse "Who is Mary Lee Pfeiffer's son?". GPT-4 correctly answers questions like the former 79% of the time, compared to 33% for the latter. Code available at: https://github.com/lukasberglund/reversal_curse.
翻訳日:2024-04-08 20:40:00 公開日:2024-04-04
# ChipNeMo: チップ設計のためのドメイン適応LDM

ChipNeMo: Domain-Adapted LLMs for Chip Design ( http://arxiv.org/abs/2311.00176v5 )

ライセンス: Link先を確認
Mingjie Liu, Teodor-Dumitru Ene, Robert Kirby, Chris Cheng, Nathaniel Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee, Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri, Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi, Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Ankit Jindal, Brucek Khailany, George Kokai, Kishor Kunal, Xiaowei Li, Charley Lind, Hao Liu, Stuart Oberman, Sujeet Omar, Ghasem Pasandi, Sreedhar Pratty, Jonathan Raiman, Ambar Sarkar, Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Walker Turner, Kaizhe Xu, Haoxing Ren, (参考訳) ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の応用を探求することを目的としている。 ドメイン適応型トークン化(Domain-adaptive tokenization)、ドメイン適応型継続事前トレーニング(Domain-adaptive continued pretraining)、ドメイン固有命令とのモデルアライメント、ドメイン適応型検索モデルなどです。 チップ設計のための3つのLLMアプリケーション(エンジニアリングアシスタントチャットボット,EDAスクリプト生成,バグ要約と解析)に対して,これらの手法を評価した。 評価の結果,言語モデルのドメイン適応型事前学習は,汎用能力の低下を伴わずに,ベースとなるLLaMA2に比べて,ドメイン関連下流タスクの性能が向上する可能性が示唆された。 特に、私たちの最大のモデルであるChipNeMo-70Bは、エンジニアリングアシスタントチャットボットとEDAスクリプト生成という2つのユースケースにおいて、高機能なGPT-4よりも優れています。 これらの結果は、ドメイン固有のカスタマイズが、特定のアプリケーションにおける大規模言語モデルの有効性を高める可能性を強調している。

ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: domain-adaptive tokenization, domain-adaptive continued pretraining, model alignment with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our evaluations demonstrate that domain-adaptive pretraining of language models, can lead to superior performance in domain related downstream tasks compared to their base LLaMA2 counterparts, without degradations in generic capabilities. In particular, our largest model, ChipNeMo-70B, outperforms the highly capable GPT-4 on two of our use cases, namely engineering assistant chatbot and EDA scripts generation, while exhibiting competitive performance on bug summarization and analysis. These results underscore the potential of domain-specific customization for enhancing the effectiveness of large language models in specialized applications.
翻訳日:2024-04-08 20:40:00 公開日:2024-04-04
# 観察から集団行動を学ぶ

Learning Collective Behaviors from Observation ( http://arxiv.org/abs/2311.00875v3 )

ライセンス: Link先を確認
Jinchao Feng, Ming Zhong, (参考訳) 本稿では,力学系の構造的同定に使用される学習手法を総合的に検討する。 これらの技術は、相互作用するエージェントの複雑なシステム内の創発的現象を解明するために設計されている。 提案手法は,理論収束を保証するだけでなく,高次元観測データを扱う際の計算効率も保証する。 この手法は、一階と二階の両方の力学系を適切に再構築し、観測と確率的雑音を調節し、複雑な相互作用規則、相互作用の欠如、エージェントシステムにおける実世界の観測を再現する。 学習手法の基本的側面は,逆問題法を用いて調整された損失関数を定式化することにある。

We present a comprehensive examination of learning methodologies employed for the structural identification of dynamical systems. These techniques are designed to elucidate emergent phenomena within intricate systems of interacting agents. Our approach not only ensures theoretical convergence guarantees but also exhibits computational efficiency when handling high-dimensional observational data. The methods adeptly reconstruct both first- and second-order dynamical systems, accommodating observation and stochastic noise, intricate interaction rules, absent interaction features, and real-world observations in agent systems. The foundational aspect of our learning methodologies resides in the formulation of tailored loss functions using the variational inverse problem approach, inherently equipping our methods with dimension reduction capabilities.
翻訳日:2024-04-08 20:40:00 公開日:2024-04-04
# 空間ベイズニューラルネットワーク

Spatial Bayesian Neural Networks ( http://arxiv.org/abs/2311.09491v2 )

ライセンス: Link先を確認
Andrew Zammit-Mangion, Michael D. Kaminski, Ba-Hien Tran, Maurizio Filippone, Noel Cressie, (参考訳) 解釈可能でよく理解されたモデルは、事前および後続の予測チェックによって明らかにされるように、たとえ日常的に使われているとしても、これらは、基礎となる関心の過程における空間的不均一性を不十分に特徴づけることができる。 本稿では,空間ベイズニューラルネットワーク(SBNN)と呼ばれる,新しいフレキシブルな空間プロセスモデルを提案する。 SBNNはベイズニューラルネットワークの表現能力を活用し、空間的な「埋め込み層」をネットワークと空間的に変化するネットワークパラメータに組み込むことによって空間的な設定に調整される。 SBNNは、空間の微細格子上の位置における有限次元分布を、対象とするプロセスのそれと整合させることにより、校正される。 そのプロセスは簡単にシミュレートできるかもしれません。 我々は,SBNNの変種をいくつか提案するが,そのほとんどは,従来のBNNに比べて,選択されたグリッドにおける対象プロセスの有限次元分布によく一致する。 また、SBNNはガウス過程、対数正規過程、最大安定過程など、実際によく使用される様々な空間過程を表現できることを示す。 我々は,SBNNによる推論に使用できるツールについて簡潔に議論し,その利点と限界について論じる。

interpretable, and well understood models that are routinely employed even though, as is revealed through prior and posterior predictive checks, these can poorly characterise the spatial heterogeneity in the underlying process of interest. Here, we propose a new, flexible class of spatial-process models, which we refer to as spatial Bayesian neural networks (SBNNs). An SBNN leverages the representational capacity of a Bayesian neural network; it is tailored to a spatial setting by incorporating a spatial ``embedding layer'' into the network and, possibly, spatially-varying network parameters. An SBNN is calibrated by matching its finite-dimensional distribution at locations on a fine gridding of space to that of a target process of interest. That process could be easy to simulate from or we may have many realisations from it. We propose several variants of SBNNs, most of which are able to match the finite-dimensional distribution of the target process at the selected grid better than conventional BNNs of similar complexity. We also show that an SBNN can be used to represent a variety of spatial processes often used in practice, such as Gaussian processes, lognormal processes, and max-stable processes. We briefly discuss the tools that could be used to make inference with SBNNs, and we conclude with a discussion of their advantages and limitations.
翻訳日:2024-04-08 18:45:22 公開日:2024-04-04
# コード生成のためのライブラリの文脈内学習の評価

Evaluating In-Context Learning of Libraries for Code Generation ( http://arxiv.org/abs/2311.09635v2 )

ライセンス: Link先を確認
Arkil Patel, Siva Reddy, Dzmitry Bahdanau, Pradeep Dasigi, (参考訳) 現代の大規模言語モデル(LLM)は、高いレベルのコード生成と理解能力を示す。 特に有望な分野は、ユーザが指示したタスクを解決するために、よく知らないライブラリからコードモジュールを解釈できることだ。 近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。 これらの結果は、ライブラリ使用のデモが必要なのか、より小さな(そしてよりオープンな)モデルもそのような機能を持っているのか、といった、いくつかのオープンな疑問を引き起こします。 本研究では,3つのシナリオにまたがる多様なLCMの配列を体系的に評価することで,ドメインの特殊化のレベルを反映し,コンテキスト内で定義されたライブラリに基づいたコード生成の能力と限界を理解する。 以上の結果から,Llama-2やStarCoderのような小型のオープンソースLLMでさえ,コンテクストで提示された仕様に基づいて,新しいコードライブラリを十分に理解していることがわかる。 さらに,LLMは,自然言語記述や関数の生コード実装だけでも,新たなライブラリモジュールを学習する上で驚くほど高い習熟度を示し,実演よりも安価に入手できることが示唆された。 全体として、より適応的で動的なコーディング環境におけるLLMの活用の道を開いた。

Contemporary Large Language Models (LLMs) exhibit a high degree of code generation and comprehension capability. A particularly promising area is their ability to interpret code modules from unfamiliar libraries for solving user-instructed tasks. Recent work has shown that large proprietary LLMs can learn novel library usage in-context from demonstrations. These results raise several open questions: whether demonstrations of library usage is required, whether smaller (and more open) models also possess such capabilities, etc. In this work, we take a broader approach by systematically evaluating a diverse array of LLMs across three scenarios reflecting varying levels of domain specialization to understand their abilities and limitations in generating code based on libraries defined in-context. Our results show that even smaller open-source LLMs like Llama-2 and StarCoder demonstrate an adept understanding of novel code libraries based on specification presented in-context. Our findings further reveal that LLMs exhibit a surprisingly high proficiency in learning novel library modules even when provided with just natural language descriptions or raw code implementations of the functions, which are often cheaper to obtain than demonstrations. Overall, our results pave the way for harnessing LLMs in more adaptable and dynamic coding environments.
翻訳日:2024-04-08 18:45:22 公開日:2024-04-04
# 量子誤り訂正のための機械学習モデルのベンチマーク

Benchmarking Machine Learning Models for Quantum Error Correction ( http://arxiv.org/abs/2311.11167v3 )

ライセンス: Link先を確認
Yue Zhao, (参考訳) 量子誤り補正(Quantum Error Correction, QEC)は、量子コンピュータにおけるデータ量子ビットの誤りを検出し、訂正することを目的とした量子コンピュータシステムの基本問題の一つである。 既存の量子コンピュータには信頼できないデータキュービットが存在するため、量子エラー補正を実装することは、安定した量子コンピュータシステムを確立する上で重要なステップである。 近年、機械学習(ML)ベースのアプローチがこの問題に対処するために提案されている。 しかし、それらは量子誤り訂正の完全な理解を欠いている。 本稿では,この研究ギャップを埋めるために,機械学習に基づくQECを理解するための新たな視点を提供する。 その結果、接続されたデータ量子ビットの誤差により、アシラ量子ビットのシンドロームが生じることが分かり、遠方のアシラ量子ビットは、データ量子ビットの誤った予測を除外するための補助情報を提供する。 したがって、データキュービットの誤りを検出するためには、長距離アンシラキュービットに存在する情報を考慮する必要がある。 我々の知る限りでは、機械学習はQECの依存関係関係においてあまり研究されていない。 空白を埋めるために、機械学習ベンチマークをキュレートし、量子エラー訂正のための長距離依存関係をキャプチャする能力を評価する。 本研究では,畳み込みニューラルネットワーク,グラフニューラルネットワーク,グラフトランスフォーマーなど,さまざまなニューラルネットワークアーキテクチャにまたがる7つの最先端ディープラーニングアルゴリズムを総合評価する。 遠方のアシラキュービットからの情報を活用するための受容場を拡大することにより、QECの精度が大幅に向上する。 例えば、U-NetはCNNを50%改善できる。 最後に、この分野での今後の研究を刺激する包括的な分析を提供する。

Quantum Error Correction (QEC) is one of the fundamental problems in quantum computer systems, which aims to detect and correct errors in the data qubits within quantum computers. Due to the presence of unreliable data qubits in existing quantum computers, implementing quantum error correction is a critical step when establishing a stable quantum computer system. Recently, machine learning (ML)-based approaches have been proposed to address this challenge. However, they lack a thorough understanding of quantum error correction. To bridge this research gap, we provide a new perspective to understand machine learning-based QEC in this paper. We find that syndromes in the ancilla qubits result from errors on connected data qubits, and distant ancilla qubits can provide auxiliary information to rule out some incorrect predictions for the data qubits. Therefore, to detect errors in data qubits, we must consider the information present in the long-range ancilla qubits. To the best of our knowledge, machine learning is less explored in the dependency relationship of QEC. To fill the blank, we curate a machine learning benchmark to assess the capacity to capture long-range dependencies for quantum error correction. To provide a comprehensive evaluation, we evaluate seven state-of-the-art deep learning algorithms spanning diverse neural network architectures, such as convolutional neural networks, graph neural networks, and graph transformers. Our exhaustive experiments reveal an enlightening trend: By enlarging the receptive field to exploit information from distant ancilla qubits, the accuracy of QEC significantly improves. For instance, U-Net can improve CNN by a margin of about 50%. Finally, we provide a comprehensive analysis that could inspire future research in this field.
翻訳日:2024-04-08 18:45:22 公開日:2024-04-04
# 量子コンピューティングアプローチによる高スピンモデルの2次元コヒーレントスペクトル

Two-dimensional coherent spectrum of high-spin models via a quantum computing approach ( http://arxiv.org/abs/2311.14035v2 )

ライセンス: Link先を確認
Martin Mootz, Peter P. Orth, Chuankun Huang, Liang Luo, Jigang Wang, Yong-Xin Yao, (参考訳) 本稿では,高スピンモデルの2次元コヒーレントスペクトル(2DCS)を計算するための量子コンピューティング手法を提案する。 本手法は,数個の磁場パルスの存在下でのリアルタイムダイナミクスのシミュレーションに基づく。 適応型変動量子力学シミュレーション(AVQDS)アルゴリズムを,その小型回路による研究に利用し,周波数空間の必要な分解能を達成するために,十分に長時間のシミュレーションを可能にする。 具体的には、Dzyaloshinskii-Moriya相互作用と単一イオン異方性を含む反強磁性量子スピンモデルを考える。 得られた2DCSスペクトルは、未摂動ハミルトニアンの異なる固有状態間の遷移から生じるマグノン周波数の倍数の異なるピークを示す。 1次元コヒーレントスペクトルを2DCSと比較することにより、2DCSがエネルギースペクトルの高分解能を提供することを示す。 さらに、高スピン演算子の2つの異なるバイナリエンコーディング(標準バイナリエンコーディングとグレイ符号)を用いて、スピンの大きさで量子資源がスケールする方法について検討する。 低磁場では、両方の符号化は同等の量子資源を必要とするが、より大きな磁場ではグレイ符号が有利である。 最後に,2DCSの数値計算結果と希土類オルソフェリットを用いた実験結果を比較した。 量子ハイスピンモデルの2DCSにおける高調波発生信号の観測強度は実験データとよく一致し, 対応する平均場よりも顕著に向上した。

We present and benchmark a quantum computing approach to calculate the two-dimensional coherent spectrum (2DCS) of high-spin models. Our approach is based on simulating their real-time dynamics in the presence of several magnetic field pulses, which are spaced in time. We utilize the adaptive variational quantum dynamics simulation (AVQDS) algorithm for the study due to its compact circuits, which enables simulations over sufficiently long times to achieve the required resolution in frequency space. Specifically, we consider an antiferromagnetic quantum spin model that incorporates Dzyaloshinskii-Moriya interactions and single-ion anisotropy. The obtained 2DCS spectra exhibit distinct peaks at multiples of the magnon frequency, arising from transitions between different eigenstates of the unperturbed Hamiltonian. By comparing the one-dimensional coherent spectrum with 2DCS, we demonstrate that 2DCS provides a higher resolution of the energy spectrum. We further investigate how the quantum resources scale with the magnitude of the spin using two different binary encodings of the high-spin operators: the standard binary encoding and the Gray code. At low magnetic fields both encodings require comparable quantum resources, but at larger field strengths the Gray code is advantageous. Lastly, we compare the numerical 2DCS with experimental results on a rare-earth orthoferrite system. The observed strength of the magnonic high-harmonic generation signals in the 2DCS of the quantum high-spin model aligns well with the experimental data, showing significant improvement over the corresponding mean-field results.
翻訳日:2024-04-08 18:45:22 公開日:2024-04-04
# 同期型オブジェクト中心コンフォーマンスアライメント(拡張版)

Object-Centric Conformance Alignments with Synchronization (Extended Version) ( http://arxiv.org/abs/2312.08537v2 )

ライセンス: Link先を確認
Alessandro Gianola, Marco Montali, Sarah Winkler, (参考訳) 現実世界のプロセスは、相互依存するオブジェクトで動作します。 このようなプロセスの性質を正確に反映するためには、特に適合性チェックにおいて、オブジェクト中心のプロセスマイニング技術が必要である。 しかし,近年はオブジェクト中心の視点が注目されているが,具体的なプロセスマイニング技術はほとんど示されていない。 さらに、既存のアプローチは、オブジェクトのアイデンティティとオブジェクトの依存関係を追跡する能力に非常に制限されています。 その結果、ログの深刻な問題は未発見のままである。 本稿では,2つの既存手法の重要なモデリング特徴,特に1対多の関係を捕捉するオブジェクト中心のペトリネットと,その同一性に基づいてオブジェクトを比較・同期する識別子を持つペトリネットとを組み合わせた新しい形式について述べる。 得られた形式主義を「識別子を持つ対象中心のペトリネット」と呼び、アライメントと適合性チェックタスクを定義する。 本研究では,SMT(Satisfiability modulo theory)の符号化に基づいて,そのようなネットに対する適合性チェック手法を提案する。 その実用性を評価するため,文献データの評価を行う。

Real-world processes operate on objects that are inter-dependent. To accurately reflect the nature of such processes, object-centric process mining techniques are needed, notably conformance checking. However, while the object-centric perspective has recently gained traction, few concrete process mining techniques have been presented so far. Moreover, existing approaches are severely limited in their abilities to keep track of object identity and object dependencies. Consequently, serious problems in logs remain undetected. In this paper, we present a new formalism that combines the key modelling features of two existing approaches, in particular the ability of object-centric Petri nets to capture one-to-many relations and the one of Petri nets with identifiers to compare and synchronize objects based on their identity. We call the resulting formalism 'object-centric Petri nets with identifiers', and define alignments and the conformance checking task for this setting. We propose a conformance checking approach for such nets based on an encoding in satisfiability modulo theories (SMT), and illustrate how it can be effectively used to overcome shortcomings of earlier work. To assess its practicality, we perform an evaluation on data from the literature.
翻訳日:2024-04-08 18:35:30 公開日:2024-04-04
# pixelSplat:スケーラブルな一般化可能な3D再構成のためのイメージペアからの3Dガウススプラット

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction ( http://arxiv.org/abs/2312.12337v4 )

ライセンス: Link先を確認
David Charatan, Sizhe Li, Andrea Tagliasacchi, Vincent Sitzmann, (参考訳) 画像のペアから3次元ガウスプリミティブによってパラメータ化される3次元放射界の再構成を学習するフィードフォワードモデルであるPixelSplatを導入する。 我々のモデルは、スケーラブルなトレーニングのためのリアルタイム・メモリ効率のレンダリングと、推論時の高速な3次元再構成を特徴としている。 疎小かつ局所的に支持された表現に固有の局所最小値を克服するために,その分布から3次元およびサンプルガウス平均上の密度確率分布を推定する。 このサンプリング操作をパラメータ化トリックで微分可能とし、ガウススプラッティング表現による勾配のバックプロパゲートを可能にする。 我々は,実世界のRealEstate10kおよびACデータセット上での広義の新規ビュー合成をベンチマークし,解釈可能で編集可能な3Dラジアンスフィールドを再構成しながら,最先端の光電場変換器を上回り,2.5桁のレンダリングを高速化する。

We introduce pixelSplat, a feed-forward model that learns to reconstruct 3D radiance fields parameterized by 3D Gaussian primitives from pairs of images. Our model features real-time and memory-efficient rendering for scalable training as well as fast 3D reconstruction at inference time. To overcome local minima inherent to sparse and locally supported representations, we predict a dense probability distribution over 3D and sample Gaussian means from that probability distribution. We make this sampling operation differentiable via a reparameterization trick, allowing us to back-propagate gradients through the Gaussian splatting representation. We benchmark our method on wide-baseline novel view synthesis on the real-world RealEstate10k and ACID datasets, where we outperform state-of-the-art light field transformers and accelerate rendering by 2.5 orders of magnitude while reconstructing an interpretable and editable 3D radiance field.
翻訳日:2024-04-08 18:35:30 公開日:2024-04-04
# 磁気トンネル接合を用いたランダムアクセスメモリの実証実験

Experimental demonstration of magnetic tunnel junction-based computational random-access memory ( http://arxiv.org/abs/2312.14264v2 )

ライセンス: Link先を確認
Yang Lv, Brandon R. Zink, Robert P. Bloom, Hüsrev Cılasun, Pravin Khanal, Salonik Resch, Zamshed Chowdhury, Ali Habiboglu, Weigang Wang, Sachin S. Sapatnekar, Ulya Karpuzcu, Jian-Ping Wang, (参考訳) 従来のコンピューティングパラダイムは、ロジックとメモリモジュール間の一定のデータ転送によって電力とエネルギーが消費されるため、新興アプリケーション、特にマシンインテリジェンスに対する要求が急速に増大するのに苦労している。 計算ランダムアクセスメモリ (Computational random- Access memory, CRAM) と呼ばれる新しいパラダイムが、この基本的な制限に対処するために登場した。 CRAMは、データがメモリを離れることなく、メモリセルを直接使用するロジック操作を実行する。 従来のCRAMと先進的なアプリケーションの両方において,CRAMのエネルギと性能の利点は,従来の数値研究によってよく確立されている。 しかし、CRAMの計算精度を評価するための実験的な実証や研究は欠けており、これはその技術的実現可能性と競争性のための現実的でアプリケーションクリティカルな指標である。 本研究では,磁気トンネル接合(MTJ)に基づくCRAMアレイ実験を行った。 まず, 2-, 3-, 5-インプット論理演算と同様に, 基本的なメモリ演算について検討する。 次に、2つの異なる設計の1ビットフル加算器を示す。 実験結果に基づいて,CRAM計算の精度を特徴付けるためのモデリングスイートが開発された。 スカラー加算、乗算、行列乗算のさらなる解析は有望な結果を示している。 これらの結果は、完全なアプリケーションに適用される: ニューラルネットワークベースの手書き桁分類器。 分類器はほぼ完璧な分類精度を達成し、将来のMTJ開発を合理的に予測した。 MTJベースのCRAMの精度の確認により、この技術が機械知能の電力およびエネルギー需要の応用に大きな影響を与えるという強いケースがある。

Conventional computing paradigm struggles to fulfill the rapidly growing demands from emerging applications, especially those for machine intelligence, because much of the power and energy is consumed by constant data transfers between logic and memory modules. A new paradigm, called "computational random-access memory (CRAM)" has emerged to address this fundamental limitation. CRAM performs logic operations directly using the memory cells themselves, without having the data ever leave the memory. The energy and performance benefits of CRAM for both conventional and emerging applications have been well established by prior numerical studies. However, there lacks an experimental demonstration and study of CRAM to evaluate its computation accuracy, which is a realistic and application-critical metrics for its technological feasibility and competitiveness. In this work, a CRAM array based on magnetic tunnel junctions (MTJs) is experimentally demonstrated. First, basic memory operations as well as 2-, 3-, and 5-input logic operations are studied. Then, a 1-bit full adder with two different designs is demonstrated. Based on the experimental results, a suite of modeling has been developed to characterize the accuracy of CRAM computation. Further analysis of scalar addition, multiplication, and matrix multiplication shows promising results. These results are then applied to a complete application: a neural network based handwritten digit classifier, as an example to show the connection between the application performance and further MTJ development. The classifier achieved almost-perfect classification accuracy, with reasonable projections of future MTJ development. With the confirmation of MTJ-based CRAM's accuracy, there is a strong case that this technology will have a significant impact on power- and energy-demanding applications of machine intelligence.
翻訳日:2024-04-08 18:35:30 公開日:2024-04-04
# リアルタイム動的ビュー合成のための時空ガウス特徴分割法

Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis ( http://arxiv.org/abs/2312.16812v2 )

ライセンス: Link先を確認
Zhan Li, Zhang Chen, Zhong Li, Yi Xu, (参考訳) 動的シーンの新たなビュー合成は、興味深いが挑戦的な問題である。 近年の進歩にもかかわらず、高解像度のフォトリアリスティックな結果、リアルタイムレンダリング、コンパクトストレージを同時に達成することは、依然として大きな課題である。 これらの課題に対処するために,3つの主成分からなる新しい動的シーン表現として時空間ガウス特徴分割法を提案する。 まず,3次元ガウスを時間的不透明度とパラメトリック運動・回転で拡張することにより,表現力のある時空間ガウスを定式化する。 これにより、Spacetime Gaussianは静的でダイナミックなコンテンツだけでなく、シーン内の過渡的なコンテンツもキャプチャできる。 第二に、球面高調波をニューラルな特徴に置き換えるスプレイト特徴レンダリングを導入する。 これらの特徴は、小さなサイズを維持しながら、ビューと時間に依存した外観のモデリングを容易にする。 第3に、トレーニングエラーと粗い深さのガイダンスを活用して、既存のパイプラインに収束することが難しい領域で、新しいガウシアンをサンプリングします。 いくつかの実世界のデータセットを用いた実験により,本手法は,コンパクトなストレージを維持しつつ,最先端のレンダリング品質と速度を達成することを示す。 8K解像度では、Nvidia RTX 4090 GPU上で60FPSでレンダリングできます。 私たちのコードはhttps://github.com/oppo-us-research/SpacetimeGaussians.comで公開されています。

Novel view synthesis of dynamic scenes has been an intriguing yet challenging problem. Despite recent advancements, simultaneously achieving high-resolution photorealistic results, real-time rendering, and compact storage remains a formidable task. To address these challenges, we propose Spacetime Gaussian Feature Splatting as a novel dynamic scene representation, composed of three pivotal components. First, we formulate expressive Spacetime Gaussians by enhancing 3D Gaussians with temporal opacity and parametric motion/rotation. This enables Spacetime Gaussians to capture static, dynamic, as well as transient content within a scene. Second, we introduce splatted feature rendering, which replaces spherical harmonics with neural features. These features facilitate the modeling of view- and time-dependent appearance while maintaining small size. Third, we leverage the guidance of training error and coarse depth to sample new Gaussians in areas that are challenging to converge with existing pipelines. Experiments on several established real-world datasets demonstrate that our method achieves state-of-the-art rendering quality and speed, while retaining compact storage. At 8K resolution, our lite-version model can render at 60 FPS on an Nvidia RTX 4090 GPU. Our code is available at https://github.com/oppo-us-research/SpacetimeGaussians.
翻訳日:2024-04-08 18:35:30 公開日:2024-04-04
# TinyGPT-V:小さなバックボーンによる効率的なマルチモーダル大言語モデル

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones ( http://arxiv.org/abs/2312.16862v2 )

ライセンス: Link先を確認
Zhengqing Yuan, Zhaoxu Li, Weiran Huang, Yanfang Ye, Lichao Sun, (参考訳) 近年, GPT-4V のようなマルチモーダル大規模言語モデル (MLLM) は, 様々な視覚言語タスクに優れ, 顕著な進歩を見せている。 その技術にもかかわらず、そのようなモデルのクローズドソースの性質と計算上の要求はアクセシビリティと適用性を制限する。 本研究は,画像キャプション(IC)や視覚質問応答(VQA)など,視覚言語タスクの効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。 TinyGPT-Vは、コンパクトだが強力なアーキテクチャを活用し、Phi-2言語モデルと事前訓練された視覚エンコーダを統合し、視覚情報と言語情報の融合のためのユニークなマッピングモジュールを利用する。 小さなバックボーンに最適化されたトレーニングレギュラーと多様なデータセットアマルガムを使用するため、TinyGPT-Vはトレーニングに24GB、パフォーマンスを損なうことなく推論に8GBの計算リソースを必要とする。 我々の実験は、TinyGPT-Vが言語モデル2.8億のパラメータを持つことにより、VQAと画像推論タスクに匹敵する結果を得ると同時に、革新的な量子化技術によるリソース制約されたデバイスへの展開に一意に適していることを示した。 この作業は、よりアクセスしやすく効率的なMLLMの道を開くだけでなく、現実世界のアプリケーションにおける高性能と計算効率のギャップを埋める上で、より小さく最適化されたモデルの可能性を強調している。 さらに,より小さなバックボーンを用いたマルチモーダルな大規模言語モデルに対する新しいアプローチを提案する。 コードとトレーニングの重み付けは \url{https://github.com/DLYuanGod/TinyGPT-V} で利用可能です。

In recent years, multimodal large language models (MLLMs) such as GPT-4V have demonstrated remarkable advancements, excelling in a variety of vision-language tasks. Despite their prowess, the closed-source nature and computational demands of such models limit their accessibility and applicability. This study introduces TinyGPT-V, a novel open-source MLLM, designed for efficient training and inference across various vision-language tasks, including image captioning (IC) and visual question answering (VQA). Leveraging a compact yet powerful architecture, TinyGPT-V integrates the Phi-2 language model with pre-trained vision encoders, utilizing a unique mapping module for visual and linguistic information fusion. With a training regimen optimized for small backbones and employing a diverse dataset amalgam, TinyGPT-V requires significantly lower computational resources 24GB for training and as little as 8GB for inference without compromising on performance. Our experiments demonstrate that TinyGPT-V, with its language model 2.8 billion parameters, achieves comparable results in VQA and image inference tasks to its larger counterparts while being uniquely suited for deployment on resource-constrained devices through innovative quantization techniques. This work not only paves the way for more accessible and efficient MLLMs but also underscores the potential of smaller, optimized models in bridging the gap between high performance and computational efficiency in real-world applications. Additionally, this paper introduces a new approach to multimodal large language models using smaller backbones. Our code and training weights are available in \url{https://github.com/DLYuanGod/TinyGPT-V}.
翻訳日:2024-04-08 18:35:30 公開日:2024-04-04
# Redditの大規模な非プラットフォーム化作戦の効力と意図しない結果

The Great Ban: Efficacy and Unintended Consequences of a Massive Deplatforming Operation on Reddit ( http://arxiv.org/abs/2401.11254v3 )

ライセンス: Link先を確認
Lorenzo Cima, Amaury Trujillo, Marco Avvenuti, Stefano Cresci, (参考訳) オンラインの悪用や害の現場では、安全で包括的なオンライン空間を育むために効果的なコンテンツモデレーションが必要である。 しかし、多くのモデレーション介入の有効性はまだ不明である。 ここでは、Reddit上で2000近いコミュニティに影響を及ぼした大規模な非プラットフォーム運用であるThe Great Banの有効性を評価する。 14ヶ月の間に17万のユーザーが投稿した16万件のコメントを分析して、この禁止が望まれているか、その他のかたちで、詳細な結果を提供する。 主な発見は、影響を受けたユーザーの15.6%がRedditを離れ、その毒性を平均6.6%減らしたことである。 この禁止により、5%のユーザーがプレバンレベルの70%以上の毒性を増すことになった。 全体として、当社の多面的結果は、デプラットフォームの有効性に関する新たな洞察を与えてくれます。 このようなことから,今後のモデレーション介入の進展とオンラインプラットフォームに対する規制の進展が示唆される。

In the current landscape of online abuses and harms, effective content moderation is necessary to cultivate safe and inclusive online spaces. Yet, the effectiveness of many moderation interventions is still unclear. Here, we assess the effectiveness of The Great Ban, a massive deplatforming operation that affected nearly 2,000 communities on Reddit. By analyzing 16M comments posted by 17K users during 14 months, we provide nuanced results on the effects, both desired and otherwise, of the ban. Among our main findings is that 15.6% of the affected users left Reddit and that those who remained reduced their toxicity by 6.6% on average. The ban also caused 5% users to increase their toxicity by more than 70% of their pre-ban level. Overall, our multifaceted results provide new insights into the efficacy of deplatforming. As such, our findings can inform the development of future moderation interventions and the policing of online platforms.
翻訳日:2024-04-08 18:25:45 公開日:2024-04-04
# 認知的負荷による補償バイアス:大規模言語モデルにおける選択バイアスの低減

Compensatory Biases Under Cognitive Load: Reducing Selection Bias in Large Language Models ( http://arxiv.org/abs/2402.01740v2 )

ライセンス: Link先を確認
J. E. Eicher, R. F. Irgolič, (参考訳) gpt-3.5-turboやclaude-instant-1.2のような大きな言語モデル(LLM)は意味に基づくタスクの解釈や実行に役立っている。 残念なことに、これらのモデル固有のバイアスは、人間の認知バイアスに似た、パフォーマンスに悪影響を及ぼす。 特に影響を受けるのは、リストからオブジェクトを選択することであり、これはデジタルナビゲーションと意思決定における基本的な操作である。 本研究は、これらのバイアスを批判的に検討し、代表リスト選択タスクへの影響を定量化する。 これらのバイアスを探索するため,温度操作,リスト長,オブジェクト識別,オブジェクトタイプ,迅速な複雑性,モデルなど,一連の制御された実験を行った。 これにより、選択行動に対するバイアスの影響を分離し、測定することができます。 以上の結果から, モデルにバイアス構造が強く依存していることが示唆された。 強いプライマリー効果により、リストの最初のオブジェクトが不均等に出力に表現される。 さらに、応答構造を保証する素早いエンジニアリング手法であるガードレールの使用は、選択タスクと組み合わせることでバイアスを増大させ、命令の順守を低減することができる。 ガードレールステップがリストサンプリングステップから分離されるとバイアスが緩和され、個々のタスクの複雑さが低下する。 この研究の意味は2つあり、実質的には、偏見のないLLMアプリケーションを設計するためのガイドを提供し、理論的には、LLMはバイアスの増加によって補償される認知的負荷の形式を経験することを示唆している。

Large Language Models (LLMs) like gpt-3.5-turbo and claude-instant-1.2 have become instrumental in interpreting and executing semantic-based tasks. Unfortunately, these models' inherent biases, akin to human cognitive biases, adversely affect their performance. Particularly affected is object selection from lists; a fundamental operation in digital navigation and decision-making. This research critically examines these biases and quantifies the effects on a representative list selection task. To explore these biases, we conducted a series of controlled experiments, manipulating temperature, list length, object identity, object type, prompt complexity, and model. This enabled us to isolate and measure the influence of the biases on selection behavior. Our findings show that bias structure is strongly dependent on the model, with object type modulating the magnitude of the effect. With a strong primacy effect, causing the first objects in a list to be disproportionately represented in outputs. Furthermore the usage of guard rails, a prompt engineering method of ensuring a response structure, can increase bias and decrease instruction adherence when combined with a selection task. The bias is ablated when the guard rail step is separated from the list sampling step, lowering the complexity of each individual task. The implications of this research are two-fold, practically providing a guide for designing unbiased LLM applications and theoretically suggesting that LLMs experience a form of cognitive load compensated for by increasing bias.
翻訳日:2024-04-08 18:25:45 公開日:2024-04-04
# 現代ホップフィールドモデルの計算極限について:細粒度複素度解析

On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis ( http://arxiv.org/abs/2402.04520v3 )

ライセンス: Link先を確認
Jerry Yao-Chieh Hu, Thomas Lin, Zhao Song, Han Liu, (参考訳) 本稿では,最近のホップフィールドモデルにおけるメモリ検索力学の計算限界について,微粒化複雑性解析から検討する。 我々の重要な貢献は、パターンのノルムに基づく全ての近代ホプフィールドモデルの効率における相転移の挙動を特徴づけることである。 具体的には、入力クエリパターンとメモリパターンのノルムに対する上限基準を確立する。 この基準の下には、Strong Exponential Time hypothesis (SETH) を仮定して、現代のホップフィールドモデルの準四分法的(効率的な)変種が存在する。 この理論を実証するために、効率的な基準が成立すると、低ランク近似を用いた現代のホップフィールドモデルの効率的な構成の形式的な例を示す。 これには、計算時間に基づく低い境界の導出、記憶されているメモリパターンの$\max\{$\#、入力クエリシーケンス$\}$の長さの線形スケーリングが含まれる。 さらに,メモリ検索誤差と指数的メモリ容量を有界に証明する。

We investigate the computational limits of the memory retrieval dynamics of modern Hopfield models from the fine-grained complexity analysis. Our key contribution is the characterization of a phase transition behavior in the efficiency of all possible modern Hopfield models based on the norm of patterns. Specifically, we establish an upper bound criterion for the norm of input query patterns and memory patterns. Only below this criterion, sub-quadratic (efficient) variants of the modern Hopfield model exist, assuming the Strong Exponential Time Hypothesis (SETH). To showcase our theory, we provide a formal example of efficient constructions of modern Hopfield models using low-rank approximation when the efficient criterion holds. This includes a derivation of a lower bound on the computational time, scaling linearly with $\max\{$\# of stored memory patterns, length of input query sequence$\}$. In addition, we prove its memory retrieval error bound and exponential memory capacity.
翻訳日:2024-04-08 18:25:45 公開日:2024-04-04
# シーケンス圧縮のためのマルチワードトークン化

Multi-word Tokenization for Sequence Compression ( http://arxiv.org/abs/2402.09949v2 )

ライセンス: Link先を確認
Leonidas Gee, Leonardo Rigutini, Marco Ernandes, Andrea Zugarini, (参考訳) 大規模言語モデルは、様々なタスクをモデル化するのに非常に成功した。 しかし、これは計算コストの急激な増加を招き、工業的普及を妨げている。 本稿では,多単語表現を単一トークンとして表現することで,単語境界を超えるマルチワードトケナイザ MWTを提案する。 MWT はよりコンパクトで効率的なトークン化を実現し,(1) 一定のシーケンス長の予算が与えられた場合の入力データのカバレッジ向上による性能向上,(2) 無視可能なドロップによるシーケンス長の削減による高速で軽量な推論,という2つの利点をもたらす。 以上の結果から,MWTは短いシーケンス長に対してより堅牢であり,早期シーケンス切断による大幅な高速化が可能であることが示唆された。

Large Language Models have proven highly successful at modelling a variety of tasks. However, this comes at a steep computational cost that hinders wider industrial uptake. In this paper, we present MWT: a Multi-Word Tokenizer that goes beyond word boundaries by representing frequent multi-word expressions as single tokens. MWTs produce a more compact and efficient tokenization that yields two benefits: (1) Increase in performance due to a greater coverage of input data given a fixed sequence length budget; (2) Faster and lighter inference due to the ability to reduce the sequence length with negligible drops in performance. Our results show that MWT is more robust across shorter sequence lengths, thus allowing for major speedups via early sequence truncation.
翻訳日:2024-04-08 18:25:45 公開日:2024-04-04
# 機械学習プロジェクトにおけるCI/CDパイプラインの進化に関する実証分析

Empirical Analysis on CI/CD Pipeline Evolution in Machine Learning Projects ( http://arxiv.org/abs/2403.12199v3 )

ライセンス: Link先を確認
Alaa Houerbi, Rahul Ghanshyam Chavan, Dhia Elhaq Rzig, Foyzul Hassan, (参考訳) 機械学習(ML)の人気が高まり、他のソフトウェアアーティファクトとのMLコンポーネントの統合が増加し、Travis CIやGitHub Actionsなどの継続的インテグレーションとデリバリ(CI/CD)ツールが利用されるようになった。 このようなCI/CD構成とサービスは、プロジェクトのライフサイクル中に同期を必要とする。 従来のソフトウェアシステムにおけるCI/CD構成とサービスの使い方について、いくつかの研究が議論された。 しかしながら、MLプロジェクトでのCI/CD構成とサービスの変更に関する知識は限られている。 この知識ギャップを埋めるために、この研究は、MLソフトウェアシステムにおけるCI/CD構成の進化に関する最初の経験的分析を示す。 我々は508のオープンソースMLプロジェクトから収集された343のコミットを手動で分析し、MLプロジェクトにおいて一般的なCI/CD構成変更カテゴリを特定し、CI/CDとMLコンポーネントの14の共変更の分類法を考案した。 さらに, 頻繁なCI/CD構成変更パターンを15,634コミットで識別するCI/CD構成変更クラスタリングツールを開発した。 さらに、CI/CD構成を変更するML開発者の専門知識を測定しました。 この分析から、コミットの61.8%がビルドポリシーの変更と、一般的なオープンソースプロジェクトと比較してパフォーマンスと保守性に関する最小限の変更を含んでいることがわかった。 さらに、共進化分析では、CI/CD構成が、依存関係の直接包摂や標準化されたテストフレームワークの使用の欠如といった悪いプラクティスのために、不要に変更されたことが判明した。 推奨外の設定とジェネリックビルド言語への依存による変更パターンの分析を通じて、さらに多くのプラクティスが見つかった。 最後に、私たちの開発者の専門知識分析は、経験豊富な開発者がCI/CD構成を変更する傾向にあることを示唆しています。

The growing popularity of machine learning (ML) and the integration of ML components with other software artifacts has led to the use of continuous integration and delivery (CI/CD) tools, such as Travis CI, GitHub Actions, etc. that enable faster integration and testing for ML projects. Such CI/CD configurations and services require synchronization during the life cycle of the projects. Several works discussed how CI/CD configuration and services change during their usage in traditional software systems. However, there is very limited knowledge of how CI/CD configuration and services change in ML projects. To fill this knowledge gap, this work presents the first empirical analysis of how CI/CD configuration evolves for ML software systems. We manually analyzed 343 commits collected from 508 open-source ML projects to identify common CI/CD configuration change categories in ML projects and devised a taxonomy of 14 co-changes in CI/CD and ML components. Moreover, we developed a CI/CD configuration change clustering tool that identified frequent CI/CD configuration change patterns in 15,634 commits. Furthermore, we measured the expertise of ML developers who modify CI/CD configurations. Based on this analysis, we found that 61.8% of commits include a change to the build policy and minimal changes related to performance and maintainability compared to general open-source projects. Additionally, the co-evolution analysis identified that CI/CD configurations, in many cases, changed unnecessarily due to bad practices such as the direct inclusion of dependencies and a lack of usage of standardized testing frameworks. More practices were found through the change patterns analysis consisting of using deprecated settings and reliance on a generic build language. Finally, our developer's expertise analysis suggests that experienced developers are more inclined to modify CI/CD configurations.
翻訳日:2024-04-08 18:06:16 公開日:2024-04-04
# Federated Bayesian Deep Learning: 統計的集約法のベイズモデルへの応用

Federated Bayesian Deep Learning: The Application of Statistical Aggregation Methods to Bayesian Models ( http://arxiv.org/abs/2403.15263v2 )

ライセンス: Link先を確認
John Fischer, Marko Orescanin, Justin Loomis, Patrick McClure, (参考訳) フェデレーション・ラーニング(FL)は、複数の分散データセットを活用しながらデータのプライバシを維持し、ローカルデータセットの共有に関連する通信コストを低減する機械学習モデルをトレーニングするアプローチである。 分散決定論的モデルの重みとバイアスをプールまたはフューズするために集約戦略が開発されたが、現代の決定論的深層学習(DL)モデルは、しばしば調整が不十分であり、リモートセンシングプラットフォームや安全クリティカルなアプリケーションに望ましい、予測における疫学的不確実性の尺度を伝える能力が欠如している。 逆に、ベイジアンDLモデルはよく校正され、競合予測精度とともにててんかんの不確実性の尺度を定量化し、伝達することができる。 残念なことに、ベイズDLモデルの重みとバイアスは確率分布によって定義されるため、決定論的モデルに対するFLスキームに付随するアグリゲーション手法の単純な適用は不可能か、あるいは準最適性能をもたらす。 本研究では,CIFAR-10データセットの独立分散IIDおよび非IIDパーティションとResNet-20アーキテクチャを用いて,ベイジアンDLモデルの6つの異なる集約戦略を解析する。 さらに,ベイジアンモンテカルロのドロップアウトモデルに適用された従来のフェデレーション平均化手法を,FLにおけるより複雑な変分推論手法の軽量な代替手段として解析した。 ベイズ型FLシステムの設計における集約戦略は, 精度, 校正, 不確実性定量化, トレーニング安定性, クライアントの計算要求に影響を及ぼす重要なパラメータであることを示す。

Federated learning (FL) is an approach to training machine learning models that takes advantage of multiple distributed datasets while maintaining data privacy and reducing communication costs associated with sharing local datasets. Aggregation strategies have been developed to pool or fuse the weights and biases of distributed deterministic models; however, modern deterministic deep learning (DL) models are often poorly calibrated and lack the ability to communicate a measure of epistemic uncertainty in prediction, which is desirable for remote sensing platforms and safety-critical applications. Conversely, Bayesian DL models are often well calibrated and capable of quantifying and communicating a measure of epistemic uncertainty along with a competitive prediction accuracy. Unfortunately, because the weights and biases in Bayesian DL models are defined by a probability distribution, simple application of the aggregation methods associated with FL schemes for deterministic models is either impossible or results in sub-optimal performance. In this work, we use independent and identically distributed (IID) and non-IID partitions of the CIFAR-10 dataset and a fully variational ResNet-20 architecture to analyze six different aggregation strategies for Bayesian DL models. Additionally, we analyze the traditional federated averaging approach applied to an approximate Bayesian Monte Carlo dropout model as a lightweight alternative to more complex variational inference methods in FL. We show that aggregation strategy is a key hyperparameter in the design of a Bayesian FL system with downstream effects on accuracy, calibration, uncertainty quantification, training stability, and client compute requirements.
翻訳日:2024-04-08 18:06:16 公開日:2024-04-04
# SteinGen: 水平グラフと横グラフのサンプルを生成する

SteinGen: Generating Fidelitous and Diverse Graph Samples ( http://arxiv.org/abs/2403.18578v2 )

ライセンス: Link先を確認
Gesine Reinert, Wenkai Xu, (参考訳) サンプルの多様性を促進しながら特性構造を保ちながらグラフを生成することは、特にグラフ観測の数が少ない場合、困難である。 ここでは、観測された1つのグラフのみからのグラフ生成の問題に取り組む。 パラメトリックモデルからのグラフ生成の古典的なアプローチはパラメータの推定に依存しており、これは難解な正規化定数のために計算に矛盾したりコストがかかる。 高品質なグラフサンプルを生成する機械学習技術に基づく生成モデリングは、パラメータ推定を避けるが、通常は豊富なトレーニングサンプルを必要とする。 提案手法であるSteinGenは,指数的ランダムグラフモデルの実現としてグラフの設定で表現され,ターゲットモデルに対するStein演算子に基づくマルコフ力学を用いて,Steinの手法とMCMCのアイデアを組み合わせる。 SteinGenは、推定されたStein演算子に関連するGlauberダイナミクスを使用してサンプルを生成し、サンプリングステップ毎にサンプルからStein演算子を再見積する。 指数的ランダムグラフのクラスにおいて、この新しい「推定と再推定」生成戦略は、元のデータに高い分布類似性(高忠実度)と高いサンプル多様性をもたらすことを示す。

Generating graphs that preserve characteristic structures while promoting sample diversity can be challenging, especially when the number of graph observations is small. Here, we tackle the problem of graph generation from only one observed graph. The classical approach of graph generation from parametric models relies on the estimation of parameters, which can be inconsistent or expensive to compute due to intractable normalisation constants. Generative modelling based on machine learning techniques to generate high-quality graph samples avoids parameter estimation but usually requires abundant training samples. Our proposed generating procedure, SteinGen, which is phrased in the setting of graphs as realisations of exponential random graph models, combines ideas from Stein's method and MCMC by employing Markovian dynamics which are based on a Stein operator for the target model. SteinGen uses the Glauber dynamics associated with an estimated Stein operator to generate a sample, and re-estimates the Stein operator from the sample after every sampling step. We show that on a class of exponential random graph models this novel "estimation and re-estimation" generation strategy yields high distributional similarity (high fidelity) to the original data, combined with high sample diversity.
翻訳日:2024-04-08 18:06:16 公開日:2024-04-04
# マルチパーティイトエッジモードとテンソルネットワーク

Multipartite edge modes and tensor networks ( http://arxiv.org/abs/2404.03651v1 )

ライセンス: Link先を確認
Chris Akers, Ronak M. Soni, Annie Y. Wei, (参考訳) ホログラフィックテンソルネットワークはAdS/CFTをモデル化しているが、これまでのところ、それらは重力と非常に異なるシステムのみによって制限されてきた。 残念なことに、微分同相不変性を損なうため、重力を組み込むように直接的に区別することはできない。 ここでは、解決を探求する。 低次元では、重力はトポロジカルゲージ理論として記述することができ、ゲージ不変性を破ることなく離散化することができる。 しかし、新たな問題が生じた。 基本的には、カットに沿ったリンク数とは無関係で、代わりにトポロジカルな、質的に新しいタイプの「エリア演算子」が必要である。 第二に、物質を包含することがより困難になる。 我々は,新しいタイプの領域を含むテンソルネットワークの構築に成功した。 特に、この領域は「エッジモード」自由度における絡み合いとまだ関係があるが、エッジモードはもはや二分割絡み合いの対ではない。 むしろ多人数制である。 その過程で、特定のトポロジカルゲージ理論において、新しい部分代数のエントロピーを計算する。 また、エッジモードの多重部分性は、他のテンソルネットワークが示さない特性である非可換領域演算子を生じさせることを示す。

Holographic tensor networks model AdS/CFT, but so far they have been limited by involving only systems that are very different from gravity. Unfortunately, we cannot straightforwardly discretize gravity to incorporate it, because that would break diffeomorphism invariance. In this note, we explore a resolution. In low dimensions gravity can be written as a topological gauge theory, which can be discretized without breaking gauge-invariance. However, new problems arise. Foremost, we now need a qualitatively new kind of "area operator," which has no relation to the number of links along the cut and is instead topological. Secondly, the inclusion of matter becomes trickier. We successfully construct a tensor network both including matter and with this new type of area. Notably, while this area is still related to the entanglement in "edge mode" degrees of freedom, the edge modes are no longer bipartite entangled pairs. Instead they are highly multipartite. Along the way, we calculate the entropy of novel subalgebras in a particular topological gauge theory. We also show that the multipartite nature of the edge modes gives rise to non-commuting area operators, a property that other tensor networks do not exhibit.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-04
# ポテト品種の予測分析

Predictive Analytics of Varieties of Potatoes ( http://arxiv.org/abs/2404.03701v1 )

ライセンス: Link先を確認
Fabiana Ferracina, Bala Krishnamoorthy, Mahantesh Halappanavar, Shengwei Hu, Vidyasagar Sathuvalli, (参考訳) 本研究では, 育種試験におけるRussetポテトクローンの適合性を予測するため, 機械学習アルゴリズムの適用について検討する。 オレゴン州で手作業で収集した試行のデータを活用し、多種多様な最先端のバイナリ分類モデルの可能性について検討する。 我々は、不足する値に対処するために、前処理、機能エンジニアリング、計算を含むデータセットの包括的な分析を行う。 モデル評価のために,精度,F1スコア,マシューズ相関係数(MCC)などの重要な指標に着目した。 マルチ層パーセプトロン(MLPC)、ヒストグラムに基づく勾配増強分類器(HGBC)、サポートベクターマシン(SVC)といったトップパフォーマンスモデルは、一貫性と重要な結果を示している。 可変選択はモデルの性能をさらに向上させ、トライアルの結果を予測する上で重要な特徴を識別する。 本研究は, ジャガイモ品種の選択プロセスの合理化における機械学習の可能性を強調し, 効率の向上, 大幅なコスト削減, 司法的資源利用などのメリットを提供している。 本研究は, 精密農業に関する知見を提供し, 育種プログラムにおける情報意思決定における先進技術の有効性を示す。

We explore the application of machine learning algorithms to predict the suitability of Russet potato clones for advancement in breeding trials. Leveraging data from manually collected trials in the state of Oregon, we investigate the potential of a wide variety of state-of-the-art binary classification models. We conduct a comprehensive analysis of the dataset that includes preprocessing, feature engineering, and imputation to address missing values. We focus on several key metrics such as accuracy, F1-score, and Matthews correlation coefficient (MCC) for model evaluation. The top-performing models, namely the multi-layer perceptron (MLPC), histogram-based gradient boosting classifier (HGBC), and a support vector machine (SVC), demonstrate consistent and significant results. Variable selection further enhances model performance and identifies influential features in predicting trial outcomes. The findings emphasize the potential of machine learning in streamlining the selection process for potato varieties, offering benefits such as increased efficiency, substantial cost savings, and judicious resource utilization. Our study contributes insights into precision agriculture and showcases the relevance of advanced technologies for informed decision-making in breeding programs.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-04
# 時空間予測のためのパーソナライズされたフェデレーション学習:二重意味的アライメントに基づくコントラスト的アプローチ

Personalized Federated Learning for Spatio-Temporal Forecasting: A Dual Semantic Alignment-Based Contrastive Approach ( http://arxiv.org/abs/2404.03702v1 )

ライセンス: Link先を確認
Qingxiang Liu, Sheng Sun, Yuxuan Liang, Jingjing Xue, Min Liu, (参考訳) 時空間予測のための既存のフェデレートラーニング(FL)法は、時空間変動パターンをモデル化するパーソナライズされたFL(PFL)法を要求される時空間不均一性を捉えることができない。 対時的不均一性に対処するためには、対照的な学習アプローチが有望であるが、既存の手法は負のペアを決定するのに効果がなく、PFLパラダイムにはほとんど適用できない。 この制限に対処するため,Federated dUal sEmantic aLignment-based contraStive Learning (FUELS) という新しいPFL手法を提案する。 時間的視点から、補足されたクライアント内コントラスト的タスクに対して、異種時間的表現を動的に整列させるために、ハード負のフィルタリングモジュールが導入された。 空間的視点から、我々はクライアントレベルの意味表現として軽量だが効率のよいプロトタイプを設計する。 大規模な実験では、FUELSは最先端の手法よりも優れており、通信コストは約94%低下している。

The existing federated learning (FL) methods for spatio-temporal forecasting fail to capture the inherent spatio-temporal heterogeneity, which calls for personalized FL (PFL) methods to model the spatio-temporally variant patterns. While contrastive learning approach is promising in addressing spatio-temporal heterogeneity, the existing methods are noneffective in determining negative pairs and can hardly apply to PFL paradigm. To tackle this limitation, we propose a novel PFL method, named Federated dUal sEmantic aLignment-based contraStive learning (FUELS), which can adaptively align positive and negative pairs based on semantic similarity, thereby injecting precise spatio-temporal heterogeneity into the latent representation space by auxiliary contrastive tasks. From temporal perspective, a hard negative filtering module is introduced to dynamically align heterogeneous temporal representations for the supplemented intra-client contrastive task. From spatial perspective, we design lightweight-but-efficient prototypes as client-level semantic representations, based on which the server evaluates spatial similarity and yields client-customized global prototypes for the supplemented inter-client contrastive task. Extensive experiments demonstrate that FUELS outperforms state-of-the-art methods, with communication cost decreasing by around 94%.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-04
# スタイル伝達を伴うfMRIにおける解析的変動の緩和

Mitigating analytical variability in fMRI results with style transfer ( http://arxiv.org/abs/2404.03703v1 )

ライセンス: Link先を確認
Elodie Germani, Elisa Fromont, Camille Maumet, (参考訳) 本稿では,異なる機能的MRIパイプライン間で統計マップを変換することで,ニューロイメージング結果の再現性を向上させる新しい手法を提案する。 我々は,パイプラインをデータのスタイルコンポーネントとみなすことができると仮定し,パイプライン間のデータ変換に拡散モデル(DM)を用いることを提案する。 我々は、DMベースの新しい教師なしマルチドメイン画像-画像遷移フレームワークを設計し、異なるパイプラインから統計マップを識別する補助分類器の潜在空間を用いて、3次元fMRI統計マップの生成を制約する。 DMにおける従来のサンプリング手法を拡張して,遷移性能を向上させる。 パイプラインは実際に転送可能であり、将来の医学研究にデータ拡張の重要な情報源となる。

We propose a novel approach to improve the reproducibility of neuroimaging results by converting statistic maps across different functional MRI pipelines. We make the assumption that pipelines can be considered as a style component of data and propose to use different generative models, among which, Diffusion Models (DM) to convert data between pipelines. We design a new DM-based unsupervised multi-domain image-to-image transition framework and constrain the generation of 3D fMRI statistic maps using the latent space of an auxiliary classifier that distinguishes statistic maps from different pipelines. We extend traditional sampling techniques used in DM to improve the transition performance. Our experiments demonstrate that our proposed methods are successful: pipelines can indeed be transferred, providing an important source of data augmentation for future medical studies.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# トランスフォーマーネットワークと単腰装着三軸加速度計を用いたパーキンソン病における歩行検出の凍結性能の改善

Improvement of Performance in Freezing of Gait detection in Parkinsons Disease using Transformer networks and a single waist worn triaxial accelerometer ( http://arxiv.org/abs/2404.03704v1 )

ライセンス: Link先を確認
Luis Sigcha, Luigi Borzì, Ignacio Pavón, Nélson Costa, Susana Costa, Pedro Arezes, Juan-Manuel López, Guillermo De Arcas, (参考訳) 歩行の凍結(FOG)はパーキンソン病の最も無力な症状の1つであり、進行期の患者の50%以上に影響を及ぼす。 FOGの存在は、人生の質の低下とともに、転倒と独立の喪失につながる可能性がある。 ウェアラブル技術と人工知能は、監視の最適化のためにFOGの自動検出に使われてきた。 しかし, 実験室と日常生活環境の違いは, 信頼性の高い検知システムの実現に課題を呈している。 その結果, FOG検出法の改良は, フリーライフおよびリアルタイム利用を目的とした正確なモニタリング機構を提供する上で, 依然として重要である。 本稿では、トランスフォーマーと畳み込みネットワークに基づく新しい分類アルゴリズムと、単体回転三軸加速度計を用いた自動FOG検出の進歩について述べる。 本研究は,在宅での日常生活活動中にFOGを発症した21人の患者から得られたデータを用いて行った。 その結果,提案するFOGトランスフォーマーは,LOSO CVを用いたFOG検出の大幅な改善をもたらす可能性が示唆された。 これらの結果から, 正確なモニタリングシステムの実現が期待できる。

Freezing of gait (FOG) is one of the most incapacitating symptoms in Parkinsons disease, affecting more than 50 percent of patients in advanced stages of the disease. The presence of FOG may lead to falls and a loss of independence with a consequent reduction in the quality of life. Wearable technology and artificial intelligence have been used for automatic FOG detection to optimize monitoring. However, differences between laboratory and daily-life conditions present challenges for the implementation of reliable detection systems. Consequently, improvement of FOG detection methods remains important to provide accurate monitoring mechanisms intended for free-living and real-time use. This paper presents advances in automatic FOG detection using a single body-worn triaxial accelerometer and a novel classification algorithm based on Transformers and convolutional networks. This study was performed with data from 21 patients who manifested FOG episodes while performing activities of daily living in a home setting. Results indicate that the proposed FOG-Transformer can bring a significant improvement in FOG detection using leave-one-subject-out cross-validation (LOSO CV). These results bring opportunities for the implementation of accurate monitoring systems for use in ambulatory or home settings.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# ゼロショット医療画像逆問題に対するバイレベル誘導拡散モデル

Bi-level Guided Diffusion Models for Zero-Shot Medical Imaging Inverse Problems ( http://arxiv.org/abs/2404.03706v1 )

ライセンス: Link先を確認
Hossein Askari, Fred Roosta, Hongfu Sun, (参考訳) 医療画像の分野では、逆問題は、医療現場の患者に対する費用とリスクを最小限に抑えることを目的として、不完全でノイズの多い測定結果から高品質な画像を推測することを目的としている。 拡散モデル(Diffusion Models)は近年,磁気共鳴画像(MRI)とCT(CT)で部分的に取得した画像のゼロショット推論に特に有用であることが証明された。 しかし、このアプローチにおける中心的な課題は、測定情報に従うために無条件の予測をどのように導くかである。 既存の手法は、欠点のある投影法や非効率な後部スコア近似法に依存しており、しばしば準最適性能をもたらす。 本稿では,ゼロショット画像フレームワークである \underline{\textbf{B}}i-level \underline{G}uided \underline{D}iffusion \underline{M}odels ({BGDM})を提案する。 具体的には、BGDM はまず、最初の測定一貫性のある基準点として \emph{inner-level} 条件後平均を近似し、次に、測定一貫性を強化するために \emph{outer-level} 近位最適化の目的を解く。 以上の結果から,BGDMは高忠実度医療像を忠実に生成し,高度に劣化した場合の幻覚的アーティファクトを著しく低減し,ベースラインよりも効率的かつ効率的であることが示唆された。

In the realm of medical imaging, inverse problems aim to infer high-quality images from incomplete, noisy measurements, with the objective of minimizing expenses and risks to patients in clinical settings. The Diffusion Models have recently emerged as a promising approach to such practical challenges, proving particularly useful for the zero-shot inference of images from partially acquired measurements in Magnetic Resonance Imaging (MRI) and Computed Tomography (CT). A central challenge in this approach, however, is how to guide an unconditional prediction to conform to the measurement information. Existing methods rely on deficient projection or inefficient posterior score approximation guidance, which often leads to suboptimal performance. In this paper, we propose \underline{\textbf{B}}i-level \underline{G}uided \underline{D}iffusion \underline{M}odels ({BGDM}), a zero-shot imaging framework that efficiently steers the initial unconditional prediction through a \emph{bi-level} guidance strategy. Specifically, BGDM first approximates an \emph{inner-level} conditional posterior mean as an initial measurement-consistent reference point and then solves an \emph{outer-level} proximal optimization objective to reinforce the measurement consistency. Our experimental findings, using publicly available MRI and CT medical datasets, reveal that BGDM is more effective and efficient compared to the baselines, faithfully generating high-fidelity medical images and substantially reducing hallucinatory artifacts in cases of severe degradation.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# ランクモデルに対する対実的学習のロバスト性の検討:再現性の検討

Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study ( http://arxiv.org/abs/2404.03707v1 )

ライセンス: Link先を確認
Zechun Niu, Jiaxin Mao, Qingyao Ai, Ji-Rong Wen, (参考訳) ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。 CLTRモデルは、ユーザの振る舞いの仮定が正しく、確率推定が正確である場合に理論的に偏りなくすることができるが、その効果は通常、広く利用可能な大規模なクリックログが欠如しているため、シミュレーションベースの実験によって実証的に評価される。 しかし、主流のシミュレーションベースの実験は、しばしば合成クリックログを生成するために、単一の決定論的生産ランク付けと単純化されたユーザーシミュレーションモデルを特徴付けるため、ある程度制限されている。 その結果、複雑で多様な状況におけるCLTRモデルの堅牢性はほとんど不明であり、さらなる調査が必要である。 そこで本研究では,(1) 決定的および確率的生産ランク付けをそれぞれ異なるランク付け性能で使用し,(2) 異なるユーザの振る舞いを仮定した複数のユーザシミュレーションモデルを利用する,広範囲なシミュレーションに基づく再現性実験において,既存のCLTRモデルのロバスト性について検討する。 その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。 さらに、既存のCLTRモデルは、生産ランク付けが比較的高い性能または一定のランダム性を持つ場合、単純なクリックベースラインを上回ることがしばしばあり、これらの設定で機能する新しいCLTRアルゴリズムの開発が緊急に必要であることを示している。

Counterfactual learning to rank (CLTR) has attracted extensive attention in the IR community for its ability to leverage massive logged user interaction data to train ranking models. While the CLTR models can be theoretically unbiased when the user behavior assumption is correct and the propensity estimation is accurate, their effectiveness is usually empirically evaluated via simulation-based experiments due to a lack of widely-available, large-scale, real click logs. However, the mainstream simulation-based experiments are somewhat limited as they often feature a single, deterministic production ranker and simplified user simulation models to generate the synthetic click logs. As a result, the robustness of CLTR models in complex and diverse situations is largely unknown and needs further investigation. To address this problem, in this paper, we aim to investigate the robustness of existing CLTR models in a reproducibility study with extensive simulation-based experiments that (1) use both deterministic and stochastic production rankers, each with different ranking performance, and (2) leverage multiple user simulation models with different user behavior assumptions. We find that the DLA models and IPS-DCM show better robustness under various simulation settings than IPS-PBM and PRS with offline propensity estimation. Besides, the existing CLTR models often fail to outperform the naive click baselines when the production ranker has relatively high ranking performance or certain randomness, which suggests an urgent need for developing new CLTR algorithms that work for these settings.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# 正確で堅牢でパラメータ効率のよい学習でニューラルネットワークを実現するデンドライト

Dendrites endow artificial neural networks with accurate, robust and parameter-efficient learning ( http://arxiv.org/abs/2404.03708v1 )

ライセンス: Link先を確認
Spyridon Chavlis, Panayiota Poirazi, (参考訳) 人工知能ニューラルネットワーク(ANN)は、画像認識や自律運転、自然言語処理といった複雑な問題にうまく対処する、ほとんどのディープラーニング(DL)アルゴリズムの中核にある。 しかし、非常に効率的な方法で同様の問題に取り組む生物学的脳とは異なり、DLアルゴリズムは多くの訓練可能なパラメータを必要とし、エネルギー集約的で過度に適合する傾向がある。 本稿では, 生物学的デンドライトの構造的接続と制限されたサンプリング特性を組み込んだ新しいANNアーキテクチャが, これらの制約に対処することを示す。 デンドライトANNは、トレーニング可能なパラメータをはるかに少なく使用しながら、複数の画像分類タスクにおいて従来のANNを過度に適合させ、性能を向上するために、より堅牢であることがわかった。 これは、クラス固有性を追求する古典的なANNとは異なり、ほとんどのノードが複数のクラスに応答する、異なる学習戦略を採用することで達成される。 これらの結果は,デンドライトを組み込むことで,ANNにおける学習の精度,弾力性,パラメータ効率が向上し,生物学的特徴がANNの学習戦略にどのような影響を及ぼすか,新たな光がもたらされることを示唆している。

Artificial neural networks (ANNs) are at the core of most Deep learning (DL) algorithms that successfully tackle complex problems like image recognition, autonomous driving, and natural language processing. However, unlike biological brains who tackle similar problems in a very efficient manner, DL algorithms require a large number of trainable parameters, making them energy-intensive and prone to overfitting. Here, we show that a new ANN architecture that incorporates the structured connectivity and restricted sampling properties of biological dendrites counteracts these limitations. We find that dendritic ANNs are more robust to overfitting and outperform traditional ANNs on several image classification tasks while using significantly fewer trainable parameters. This is achieved through the adoption of a different learning strategy, whereby most of the nodes respond to several classes, unlike classical ANNs that strive for class-specificity. These findings suggest that the incorporation of dendrites can make learning in ANNs precise, resilient, and parameter-efficient and shed new light on how biological features can impact the learning strategies of ANNs.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# 第12回Theorem Proceedings International Workshop on Theorem Proving Components for Educational Softwareに参加して

Proceedings 12th International Workshop on Theorem proving components for Educational software ( http://arxiv.org/abs/2404.03709v1 )

ライセンス: Link先を確認
Julien Narboux, Walther Neuper, Pedro Quaresma, (参考訳) セドゥ級数(Thedu series)は、中等教育における数学の直感的な方法から、STEM教育におけるより形式的なアプローチへのスムーズな移行を追求する一方で、定理証明技術の力を活用して、この移行に対するソフトウェアサポートを好んでいる。 以下は、この事業にどのように貢献するかの簡単な説明である。 第12回Theorem Proving Components for Educational Software(ThEdu'23)は、2023年7月1日から4日にかけて開催された第29回国際自動推論会議(CADE 2023)のサテライトイベントである。 ThEdu'23は非常に成功し、Yves Bertot(フランス、イリア)の講演で「型理論を使って数学を教えることの課題」と7つの定期的な貢献があった。 その後、公募が発行され、8件の論文が提出された。 私たちのレビュアーは7件の提出を受諾し、各コントリビューションについて少なくとも3件の注意深いレポートを共同で作成しました。 改訂版は本巻に収録されている。 我々は,この論文集が,定理に基づくソフトウェアの開発をさらに促進し,コンピュータ科学者,数学者および教育ステークホルダー間の相互理解を改善することを期待する。 PC議長:Julien Narboux(フランス、ストラスブール大学)、Walther Neuper(JKU、ヨハネス・ケプラー大学、オーストリア、リンツ)、Pedro Quaresma(ポルトガル、コインブラ大学)

The ThEdu series pursues the smooth transition from an intuitive way of doing mathematics at secondary school to a more formal approach to the subject in STEM education, while favouring software support for this transition by exploiting the power of theorem-proving technologies. What follows is a brief description of how the present volume contributes to this enterprise. The 12th International Workshop on Theorem Proving Components for Educational Software(ThEdu'23), was a satellite event of the 29th international Conference on Automated Deduction (CADE 2023), July 1-4, 2023, Rome, Italy. ThEdu'23 was very successful, with one invited talk, by Yves Bertot (Inria, France), "The challenges of using Type Theory to teach Mathematics", and seven regular contributions. An open call for papers was then issued, to which eight contributions were submitted. Seven submissions have been accepted by our reviewers, who jointly produced at least three careful reports on each of the contributions. The resulting revised papers are collected in the present volume. We, the volume editors, hope that this collection of papers will further promote the development of theorem-proving based software, and that it will allow to improve the mutual understanding between computer scientists, mathematicians and stakeholders in education. PC Chairs:Julien Narboux (University of Strasbourg, France); Walther Neuper (JKU, Johannes Kepler University, Linz, Austria); Pedro Quaresma (University of Coimbra, Portugal)
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# 都市空気移動のための自己組織型到着システム

Self-organized arrival system for urban air mobility ( http://arxiv.org/abs/2404.03710v1 )

ライセンス: Link先を確認
Martin Waltz, Ostap Okhrin, Michael Schultz, (参考訳) 都市空気移動は、垂直離着陸(eVTOL)車両がバーティポートと呼ばれるノード間で運行される革新的な輸送手段である。 深層強化学習に基づく自己組織型頂点到着システムについて概説する。 バーティポート周辺の空域は円形であり、車両は内部で自由に操作できる。 それぞれの航空機は個別のエージェントと見なされ、共有されたポリシーに従っており、その結果、ローカル情報に基づく分散された行動をもたらす。 トレーニング中の強化学習政策の開発について検討し,アルゴリズムが最適な局所保持パターンから安全かつ効率的な最終方針へとどのように移行するかを説明する。 後者はシミュレーションベースのシナリオで検証されており、実際のユーザビリティを示すために、小型無人航空機にも展開されている。

Urban air mobility is an innovative mode of transportation in which electric vertical takeoff and landing (eVTOL) vehicles operate between nodes called vertiports. We outline a self-organized vertiport arrival system based on deep reinforcement learning. The airspace around the vertiport is assumed to be circular, and the vehicles can freely operate inside. Each aircraft is considered an individual agent and follows a shared policy, resulting in decentralized actions that are based on local information. We investigate the development of the reinforcement learning policy during training and illustrate how the algorithm moves from suboptimal local holding patterns to a safe and efficient final policy. The latter is validated in simulation-based scenarios and also deployed on small-scale unmanned aerial vehicles to showcase its real-world usability.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# 説明可能性:概念活性化ベクトルを理解する

Explaining Explainability: Understanding Concept Activation Vectors ( http://arxiv.org/abs/2404.03713v1 )

ライセンス: Link先を確認
Angus Nicolson, Lisa Schut, J. Alison Noble, Yarin Gal, (参考訳) 最近の解釈可能性法では、概念に基づく説明を用いて、ディープラーニングモデルの内部表現を、人間が慣れ親しんだ言語に翻訳する。 これは、ニューラルネットワークの表現空間にどの概念が存在するかを理解する必要がある。 概念を見つけるための一般的な方法は概念活性化ベクトル(Concept Activation Vectors, CAV)である。 本研究では,CAVの3つの特性について検討する。 CAVは、(1)層間不整合、(2)異なる概念に絡み合う、(3)空間依存である。 各プロパティは、モデルを解釈する上での課題と機会の両方を提供します。 本研究では,これらの特性の存在を検出するためのツールを導入し,それらが引き起こした説明にどのように影響するかを把握し,その影響を最小限に抑えるための推奨事項を提供する。 これらの特性を理解することは、私たちの利益に役立ちます。 例えば、モデルが特定の概念やクラスに対して不変であるかどうかをテストするために、空間依存型CAVを導入する。 実験は ImageNet と新しい合成データセット Elements を用いて行った。 要素は概念とクラスの間の既知の真実の関係を捉えるように設計されている。 我々はこのデータセットを公開し、解釈可能性の方法の理解と評価のさらなる研究を促進する。

Recent interpretability methods propose using concept-based explanations to translate the internal representations of deep learning models into a language that humans are familiar with: concepts. This requires understanding which concepts are present in the representation space of a neural network. One popular method for finding concepts is Concept Activation Vectors (CAVs), which are learnt using a probe dataset of concept exemplars. In this work, we investigate three properties of CAVs. CAVs may be: (1) inconsistent between layers, (2) entangled with different concepts, and (3) spatially dependent. Each property provides both challenges and opportunities in interpreting models. We introduce tools designed to detect the presence of these properties, provide insight into how they affect the derived explanations, and provide recommendations to minimise their impact. Understanding these properties can be used to our advantage. For example, we introduce spatially dependent CAVs to test if a model is translation invariant with respect to a specific concept and class. Our experiments are performed on ImageNet and a new synthetic dataset, Elements. Elements is designed to capture a known ground truth relationship between concepts and classes. We release this dataset to facilitate further research in understanding and evaluating interpretability methods.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# SpikeExplorer:FPGA上のスパイクニューラルネットワークのためのハードウェア指向設計空間探索

SpikeExplorer: hardware-oriented Design Space Exploration for Spiking Neural Networks on FPGA ( http://arxiv.org/abs/2404.03714v1 )

ライセンス: Link先を確認
Dario Padovano, Alessio Carpegna, Alessandro Savino, Stefano Di Carlo, (参考訳) 今日の大きな懸念の1つは、エッジアプリケーション用の組み込みシステムに人工知能のパワーをもたらすことである。 最先端モデルに必要なハードウェアリソースと消費電力は、IoTノードやウェアラブルデバイスといったエッジシステムで観測される制約された環境と互換性がない。 神経科学に触発されて、専用のハードウェアアクセラレーターで実行すると、非並列的なパワーとリソース効率に達する。 しかし、そのような加速器を設計する場合、選択できる量は膨大である。 本稿では,SNN用FPGAアクセラレータの構成を自動化するハードウェア指向のAutomatic Design Space Explorationのための,モジュール型で柔軟なPythonツールであるSpikExplorerを提案する。 ベイズ最適化を使用することで、SpikeerExplorerはハードウェア中心の多目的最適化を可能にし、探索プロセス中に精度、面積、レイテンシ、電力、および様々な組み合わせをサポートする。 このツールは、最適なネットワークアーキテクチャ、ニューロンモデル、および内部およびトレーニングパラメータを検索し、ユーザが要求する制約に到達しようとする。 ネットワーク構成が簡単で,ユーザがニーズに最も適したトレードオフを選択するための,調査対象の完全なセットを提供する。 SpikExplorerのポテンシャルは、3つのベンチマークデータセットを使って示される。 MNISTデータセットでは95.8%の精度に達し、消費電力は180mW/image、レイテンシは0.12ms/imageとなり、自動的にSNNを最適化する強力なツールとなっている。

One of today's main concerns is to bring Artificial Intelligence power to embedded systems for edge applications. The hardware resources and power consumption required by state-of-the-art models are incompatible with the constrained environments observed in edge systems, such as IoT nodes and wearable devices. Spiking Neural Networks (SNNs) can represent a solution in this sense: inspired by neuroscience, they reach unparalleled power and resource efficiency when run on dedicated hardware accelerators. However, when designing such accelerators, the amount of choices that can be taken is huge. This paper presents SpikExplorer, a modular and flexible Python tool for hardware-oriented Automatic Design Space Exploration to automate the configuration of FPGA accelerators for SNNs. Using Bayesian optimizations, SpikerExplorer enables hardware-centric multi-objective optimization, supporting factors such as accuracy, area, latency, power, and various combinations during the exploration process. The tool searches the optimal network architecture, neuron model, and internal and training parameters, trying to reach the desired constraints imposed by the user. It allows for a straightforward network configuration, providing the full set of explored points for the user to pick the trade-off that best fits the needs. The potential of SpikExplorer is showcased using three benchmark datasets. It reaches 95.8% accuracy on the MNIST dataset, with a power consumption of 180mW/image and a latency of 0.12 ms/image, making it a powerful tool for automatically optimizing SNNs.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# ダイレクトナッシュ最適化: 言語モデルに汎用的な自己改善を指導する

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences ( http://arxiv.org/abs/2404.03715v1 )

ライセンス: Link先を確認
Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie, (参考訳) 本稿では,大規模言語モデル(LLM)の学習後,強力なオラクルからの選好フィードバックを用いて,モデル自体を反復的に改善する手法を提案する。 ポストトレーニング LLM の典型的なアプローチは、伝統的に報酬学習とその後のポリシー最適化を分離するReinforcement Learning from Human Feedback (RLHF) である。 しかし、そのような報酬の最大化アプローチは「ポイントワイズ」報酬の性質(ブラッドリー・テリーモデルなど)によって制限される。 RLHFの進歩は、報酬学習と政策最適化を、安定のための単一の対照的な目標にマージできることを示しているが、それでも報酬の最大化フレームワークに結びついている。 近年,「ペアワイズ」や一般の嗜好を直接最適化することを優先して,報酬の最大化推定を推し進めている。 そこで本稿では,提案するアルゴリズムであるDirect Nash Optimization (DNO)を導入し,コントラスト学習の単純さと安定性を,一般の嗜好の最適化から理論的一般性にマージする。 DNOは回帰に基づく目的を用いたバッチオンポジーアルゴリズムであるため、その実装は単純で効率的である。 さらに、DNOは、強い教師(GPT-4など)でさえ改善するのに役立つイテレーション間で単調な改善を楽しみます。 実験では、7BパラメータOrca-2.5モデルがDNOと一致し、AlpacaEval 2.0上で33%のGPT-4-Turboに対して、初期化モデルに対して26%(7%から33%)の絶対ゲインを達成した。 Mistral Large、Self-Rewarding LM (70Bパラメータ)、古いバージョンのGPT-4など、はるかに多くのパラメータを持つモデルより優れている。

This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# 固体量子ビットの大都市圏規模シェルドエンタングルメント

Metropolitan-scale heralded entanglement of solid-state qubits ( http://arxiv.org/abs/2404.03723v1 )

ライセンス: Link先を確認
Arian J. Stolk, Kian L. van der Enden, Marie-Christine Slater, Ingmar te Raa-Derckx, Pieter Botma, Joris van Rantwijk, Benjamin Biemond, Ronald A. J. Hagen, Rodolf W. Herfst, Wouter D. Koek, Arjan J. H. Meskers, René Vollmer, Erwin J. van Zwet, Matthew Markham, Andrew M. Edmonds, Jan Fabian Geus, Florian Elsen, Bernd Jungbluth, Constantin Haefner, Christoph Tresp, Jürgen Stuhler, Stephan Ritter, Ronald Hanson, (参考訳) 将来の量子インターネット技術にとって重要な課題は、大都市圏で量子プロセッサを接続することだ。 本稿では,10km間隔で分離された2つの独立動作量子ネットワークノード間の有意な絡み合いについて報告する。 ダイヤモンドスピンキュービットをホストする2つのノードは、25kmの光ファイバーを介して中間点局と接続される。 我々は、量子周波数変換によるファイバー光子損失の最小化と、損失耐性の単一光子エンタングリングプロトコルの使用を可能にする拡張可能な位相安定化アーキテクチャにリンクを埋め込むことにより、ファイバー光子損失の最小化を図る。 長寿命キュービット上でのリアルタイムフィードバックロジックと組み合わせてネットワークリンクの全階層化機能を利用することで、シーディング検出パターンに関係なく、ノード上に予め定義された絡み合った状態の配信を実証する。 主要なスケーリング課題に対処し、異なるキュービットシステムと互換性を持つアーキテクチャは、大都市圏の量子ネットワークを探索するための汎用的なプラットフォームを確立する。

A key challenge towards future quantum internet technology is connecting quantum processors at metropolitan scale. Here, we report on heralded entanglement between two independently operated quantum network nodes separated by 10km. The two nodes hosting diamond spin qubits are linked with a midpoint station via 25km of deployed optical fiber. We minimize the effects of fiber photon loss by quantum frequency conversion of the qubit-native photons to the telecom L-band and by embedding the link in an extensible phase-stabilized architecture enabling the use of the loss-resilient single-photon entangling protocol. By capitalizing on the full heralding capabilities of the network link in combination with real-time feedback logic on the long-lived qubits, we demonstrate the delivery of a predefined entangled state on the nodes irrespective of the heralding detection pattern. Addressing key scaling challenges and being compatible with different qubit systems, our architecture establishes a generic platform for exploring metropolitan-scale quantum networks.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# 絡み目からの等角形幾何学

Conformal geometry from entanglement ( http://arxiv.org/abs/2404.03725v1 )

ライセンス: Link先を確認
Isaac H. Kim, Xiang Li, Ting-Chun Lin, John McGreevy, Bowen Shi, (参考訳) 共形対称性を持つ物理系において、可観測量は交叉比、大域的共形変換の下での距離不変量の測度に依存する(略して共形幾何学)。 エネルギーギャップの大きい2+1D量子多体系のギャップレスエッジに共形幾何が現れる量子情報理論機構を同定する。 距離測度を事前に知ることなく、多体系の波動関数からエッジ上で局所的に定義される新しい情報理論量$(\mathfrak{c}_{\mathrm{tot}}, \eta)$を導入する。 位相基底状態に対して、$\mathfrak{c}_{\mathrm{tot}}$は量子状態の任意の変動の下で定常であり、論理的な結果を研究することを仮定する。 我々は、このバルクに関する絡み合いに基づく仮定を変調する定常性を示す。 (i)$\mathfrak{c}_{\mathrm{tot}}$は非負定数であり、エッジ理論の総中心電荷と解釈できる。 (ii)$\eta$ は交叉比であり、大域共形不変量を持つ辺の距離測度の存在をさらに示す数学的整合規則の完全な集合に従う。 したがって、共形幾何学は基底状態の絡み合いに関する単純な仮定から現れる。 我々は、$\mathfrak{c}_{\mathrm{tot}}$ の定常性が $\eta$ を含むベクトル固定点方程式と等価であることを示し、我々の仮定は局所的に検証可能である。 また、適切な仮定のセットの下で、1+1D系の同様の結果も導出する。

In a physical system with conformal symmetry, observables depend on cross-ratios, measures of distance invariant under global conformal transformations (conformal geometry for short). We identify a quantum information-theoretic mechanism by which the conformal geometry emerges at the gapless edge of a 2+1D quantum many-body system with a bulk energy gap. We introduce a novel pair of information-theoretic quantities $(\mathfrak{c}_{\mathrm{tot}}, \eta)$ that can be defined locally on the edge from the wavefunction of the many-body system, without prior knowledge of any distance measure. We posit that, for a topological groundstate, the quantity $\mathfrak{c}_{\mathrm{tot}}$ is stationary under arbitrary variations of the quantum state, and study the logical consequences. We show that stationarity, modulo an entanglement-based assumption about the bulk, implies (i) $\mathfrak{c}_{\mathrm{tot}}$ is a non-negative constant that can be interpreted as the total central charge of the edge theory. (ii) $\eta$ is a cross-ratio, obeying the full set of mathematical consistency rules, which further indicates the existence of a distance measure of the edge with global conformal invariance. Thus, the conformal geometry emerges from a simple assumption on groundstate entanglement. We show that stationarity of $\mathfrak{c}_{\mathrm{tot}}$ is equivalent to a vector fixed-point equation involving $\eta$, making our assumption locally checkable. We also derive similar results for 1+1D systems under a suitable set of assumptions.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# スピン-スピン相関の開始における導波路QED

Waveguide QED at the onset of spin-spin correlations ( http://arxiv.org/abs/2404.03727v1 )

ライセンス: Link先を確認
Sebastián Roca-Jerat, Marcos Rubín-Osanz, Mark D. Jenkins, Agustín Camón, Pablo J. Alonso, David Zueco, Fernando Luis, (参考訳) 導波路量子電磁力学における光媒介と直接物質-物質相互作用の競合について実験的に検討する。 このために、スピンが$S=1/2$と$g_{S}$因子が自由電子に非常に近い有機フリーラジカルDPPH分子からなるモデル磁性材料に超伝導線を結合する。 マイクロ波伝送は、幅広い温度(0.013$ K $\leq T \leq 2$ K)、磁場(0\leq B \leq 0.5$ T)、周波数(0 \leq \omega/2 \pi \leq 14$ GHz)で測定されている。 結晶Bに属する分子は1次元スピン鎖を形成する。 温度は鎖に沿った固有スピン相関を連続的かつ単調に制御する。 常磁性領域 (T > 0.7$K) では、マイクロ波透過は準恒等スピンが伝播する光子に結合する証拠を示し、その結合強度は散逸速度に近い値に達する。 T$が減少すると、スピン-スピン交換定数の異方性と組み合わさってスピン-光子結合が崩壊する。 この状態において、スピン共鳴可視性の温度依存性は、磁気相関成長によって引き起こされる1つのスピンフリップからボソニックマグノンへの支配的なスピン励起の性質の変化を反映している。

We experimentally explore the competition between light-mediated and direct matter-matter interactions in waveguide quantum electrodynamics. For this, we couple a superconducting line to a model magnetic material, made of organic free radical DPPH molecules with a spin $S=1/2$ and a $g_{S}$ factor very close to that of a free electron. The microwave transmission has been measured in a wide range of temperatures ($0.013$ K $\leq T \leq 2$ K), magnetic fields ($0\leq B \leq 0.5$ T) and frequencies ($0 \leq \omega/2 \pi \leq 14$ GHz). We find that molecules belonging to the crystal sublattice B form one-dimensional spin chains. Temperature then controls intrinsic spin correlations along the chain in a continuous and monotonic way. In the paramagnetic region ($T > 0.7$ K), the microwave transmission shows evidences for the collective coupling of quasi-identical spins to the propagating photons, with coupling strengths that reach values close to the dissipation rates. As $T$ decreases, the growth of intrinsic spin correlations, combined with the anisotropy in the spin-spin exchange constants, break down the collective spin-photon coupling. In this regime, the temperature dependence of the spin resonance visibility reflects the change in the nature of the dominant spin excitations, from single spin flips to bosonic magnons, which is brought about by the magnetic correlation growth.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# Pymablock:準退化摂動理論のためのアルゴリズムとパッケージ

Pymablock: an algorithm and a package for quasi-degenerate perturbation theory ( http://arxiv.org/abs/2404.03728v1 )

ライセンス: Link先を確認
Isidora Araya Day, Sebastian Miles, Hugo K. Kerstens, Daniel Varjas, Anton R. Akhmerov, (参考訳) 複素量子力学系の研究における一般的な手法は、準退化摂動理論を用いてハミルトンの自由度を減少させることである。 シュリーファー=ヴォルフ変換はこれを達成し、効果的なハミルトン変換を構築するが、そのスケーリングは最適以下であり、効果的に実装することは困難かつエラーを起こしやすい。 等価なハミルトニアンとそれを実装するPythonパッケージであるPymablockを構築するアルゴリズムを導入する。 我々のアルゴリズムは、最適な漸近スケーリングと、他の様々な改善を組み合わせている。 このパッケージは任意の順序の数値計算と解析計算をサポートしており、ハミルトニアンを指定するための他のパッケージと相互運用できるように設計されている。 我々は、パッケージがk.pモデルの構築をどのように処理し、超伝導量子ビットを解析し、大きな強結合モデルの低エネルギースペクトルを計算するかを実証する。 また、その性能を基準計算と比較し、その効率を実証する。

A common technique in the study of complex quantum-mechanical systems is to reduce the number of degrees of freedom in the Hamiltonian by using quasi-degenerate perturbation theory. While the Schrieffer--Wolff transformation achieves this and constructs an effective Hamiltonian, its scaling is suboptimal, and implementing it efficiently is both challenging and error-prone. We introduce an algorithm for constructing an equivalent effective Hamiltonian as well as a Python package, Pymablock, that implements it. Our algorithm combines an optimal asymptotic scaling with a range of other improvements. The package supports numerical and analytical calculations of any order and it is designed to be interoperable with any other packages for specifying the Hamiltonian. We demonstrate how the package handles constructing a k.p model, analyses a superconducting qubit, and computes the low-energy spectrum of a large tight-binding model. We also compare its performance with reference calculations and demonstrate its efficiency.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# JUICER: ロボットアセンブリのためのデータ効率のよい模倣学習

JUICER: Data-Efficient Imitation Learning for Robotic Assembly ( http://arxiv.org/abs/2404.03729v1 )

ライセンス: Link先を確認
Lars Ankile, Anthony Simeonov, Idan Shenfeld, Pulkit Agrawal, (参考訳) 実演から学ぶことは、ビジュモータポリシーを取得する上では強力だが、大規模な実演データセットを持たないハイパフォーマンスな模倣は、正確な長時間の操作を必要とするタスクでは依然として困難である。 本稿では,人体実験予算を小さくすることで,模擬学習性能を向上させるパイプラインを提案する。 我々は,長い水平線上の複数の部分と複数のタスクフェーズを正確に把握し,再配置し,挿入する必要のあるアセンブリタスクに対して,我々のアプローチを適用する。 我々のパイプラインは、表現力のあるポリシーアーキテクチャと、データセットの拡張とシミュレーションベースのデータ拡張のための様々な技術を組み合わせています。 これらのことは、データセットのサポートを拡張し、高精度を必要とするボトルネック領域の近くで局所的な修正アクションでモデルを監督するのに役立つ。 シミュレーションで4つの家具組立タスクのパイプラインを実演し、RGB画像から直接2500時間以上のステップでマニピュレータが最大5つのパーツを組み立て、模倣やデータ拡張のベースラインを上回ります。

While learning from demonstrations is powerful for acquiring visuomotor policies, high-performance imitation without large demonstration datasets remains challenging for tasks requiring precise, long-horizon manipulation. This paper proposes a pipeline for improving imitation learning performance with a small human demonstration budget. We apply our approach to assembly tasks that require precisely grasping, reorienting, and inserting multiple parts over long horizons and multiple task phases. Our pipeline combines expressive policy architectures and various techniques for dataset expansion and simulation-based data augmentation. These help expand dataset support and supervise the model with locally corrective actions near bottleneck regions requiring high precision. We demonstrate our pipeline on four furniture assembly tasks in simulation, enabling a manipulator to assemble up to five parts over nearly 2500 time steps directly from RGB images, outperforming imitation and data augmentation baselines.
翻訳日:2024-04-08 17:45:28 公開日:2024-04-04
# SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM based Classification for Hallucination Detection

SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM-Based Classification for Hallucination Detection ( http://arxiv.org/abs/2404.03732v1 )

ライセンス: Link先を確認
Bradley P. Allen, Fina Polat, Paul Groth, (参考訳) 本稿では,アムステルダム大学Intelligent Data Engineering LabのSemEval-2024 Task 6コンペティションへの参加について述べる。 SHROOM-INDElabシステムは、幻覚検出のための分類器を構築するために、大規模な言語モデル(LLM)を用いたプロンプトプログラミングとインコンテキストラーニングを使用して、以前の研究に基づいており、その作業は、タスク、ロール、ターゲット概念のコンテキスト固有の定義の組み入れ、数発のプロンプトアプローチで使用するためのサンプルの自動生成を通じて拡張されている。 その結果,タスク6のモデル非依存トラックとモデル認識トラックでは,それぞれ第4位と第6位を達成し,検証セットを用いた評価の結果,システムの分類決定はクラウドソースの人間ラベルラーと一致していることがわかった。 さらに, ゼロショット法は, 自動生成例を用いた数ショット法よりも精度が高いことがわかった。 本論文で説明したシステムのコードはGithubで公開されている。

We describe the University of Amsterdam Intelligent Data Engineering Lab team's entry for the SemEval-2024 Task 6 competition. The SHROOM-INDElab system builds on previous work on using prompt programming and in-context learning with large language models (LLMs) to build classifiers for hallucination detection, and extends that work through the incorporation of context-specific definition of task, role, and target concept, and automated generation of examples for use in a few-shot prompting approach. The resulting system achieved fourth-best and sixth-best performance in the model-agnostic track and model-aware tracks for Task 6, respectively, and evaluation using the validation sets showed that the system's classification decisions were consistent with those of the crowd-sourced human labellers. We further found that a zero-shot approach provided better accuracy than a few-shot approach using automatically generated examples. Code for the system described in this paper is available on Github.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# SC4D:Sparse-Controlled Video-to-4D Generation and Motion Transfer

SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer ( http://arxiv.org/abs/2404.03736v1 )

ライセンス: Link先を確認
Zijie Wu, Chaohui Yu, Yanqin Jiang, Chenjie Cao, Fan Wang, Xiang Bai, (参考訳) 2D/3D生成モデルの最近の進歩により、シングルビュービデオから動的3Dオブジェクトを生成することができる。 既存のアプローチでは、スコア蒸留サンプリングを使用してダイナミックなNeRFや密度の高い3Dガウスとして動的シーンを形成する。 しかし、これらの手法は、NeRFの暗黙的な性質や複雑な高密度ガウス運動予測のため、単一視点条件下での参照ビューアライメント、時空間整合性、動きの忠実さのバランスをとるのに苦労する。 これらの課題に対処するため, SC4D という高効率でスパース制御されたビデオ・トゥ・4D フレームワークを提案し, 映像・4D 生成に優れる動作と外観を分離する。 さらに,適応ガウス初期化(AG)とガウスアライメント(GA)の損失を導入し,形状劣化問題を緩和し,学習運動と形状の忠実性を確保する。 総合的な実験結果から,本手法は品質と効率の両面で既存手法を超越していることが明らかとなった。 さらに、SC4Dの動作と外観の非絡み合いモデリングにより、テキストによる記述に基づき、学習した動作を多種多様な4Dエンティティにシームレスに転送するアプリケーションを考案した。

Recent advances in 2D/3D generative models enable the generation of dynamic 3D objects from a single-view video. Existing approaches utilize score distillation sampling to form the dynamic scene as dynamic NeRF or dense 3D Gaussians. However, these methods struggle to strike a balance among reference view alignment, spatio-temporal consistency, and motion fidelity under single-view conditions due to the implicit nature of NeRF or the intricate dense Gaussian motion prediction. To address these issues, this paper proposes an efficient, sparse-controlled video-to-4D framework named SC4D, that decouples motion and appearance to achieve superior video-to-4D generation. Moreover, we introduce Adaptive Gaussian (AG) initialization and Gaussian Alignment (GA) loss to mitigate shape degeneration issue, ensuring the fidelity of the learned motion and shape. Comprehensive experimental results demonstrate that our method surpasses existing methods in both quality and efficiency. In addition, facilitated by the disentangled modeling of motion and appearance of SC4D, we devise a novel application that seamlessly transfers the learned motion onto a diverse array of 4D entities according to textual descriptions.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# 産業用異常セグメンテーションのための試験時間トレーニング

Test Time Training for Industrial Anomaly Segmentation ( http://arxiv.org/abs/2404.03743v1 )

ライセンス: Link先を確認
Alex Costanzino, Pierluigi Zama Ramirez, Mirko Del Moro, Agostino Aiezzo, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano, (参考訳) 産業品質管理にはAD&S(Anomaly Detection and Segmentation)が不可欠である。 既存の手法は各画素の異常スコアを生成するのに優れているが、実際は異常を識別するためにバイナリセグメンテーションを作成する必要がある。 多くの実シナリオにおいてラベル付き異常が欠如しているため、標準的なプラクティスは、名目標本のみを含む検証セットから得られた統計に基づいて、これらのマップをバイナライズし、セグメンテーション性能が劣る。 本稿では,セグメンテーション性能を向上させるためのテストタイムトレーニング戦略を提案する。 実際、テスト時には、異常サンプルから直接リッチな特徴を抽出して、欠陥を効果的に識別できる分類器を訓練することができる。 我々の一般的なアプローチは、マルチモーダル設定であっても、出力として異常スコアマップを提供する任意のAD&Sメソッドにダウンストリームできる。 我々は,MVTec ADとMVTec 3D-ADの広範囲な実験と評価を通じて,ベースラインに対するアプローチの有効性を実証した。

Anomaly Detection and Segmentation (AD&S) is crucial for industrial quality control. While existing methods excel in generating anomaly scores for each pixel, practical applications require producing a binary segmentation to identify anomalies. Due to the absence of labeled anomalies in many real scenarios, standard practices binarize these maps based on some statistics derived from a validation set containing only nominal samples, resulting in poor segmentation performance. This paper addresses this problem by proposing a test time training strategy to improve the segmentation performance. Indeed, at test time, we can extract rich features directly from anomalous samples to train a classifier that can discriminate defects effectively. Our general approach can work downstream to any AD&S method that provides an anomaly score map as output, even in multimodal settings. We demonstrate the effectiveness of our approach over baselines through extensive experimentation and evaluation on MVTec AD and MVTec 3D-AD.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# バリアリングシェードのフェイク:LLMの幻覚に対する人間の知覚とエンゲージメントの警告がいかに影響するか

Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations ( http://arxiv.org/abs/2404.03745v1 )

ライセンス: Link先を確認
Mahjabin Nahar, Haeseung Seo, Eun-Ju Lee, Aiping Xiong, Dongwon Lee, (参考訳) 大規模言語モデル(LLM)の普及と変革的効果は、不正確で架空のコンテンツを制作する能力に関する懸念を引き起こしている。 幻覚に関連する潜在的なリスクを考えると、人間はそれらを特定することができるはずだ。 本研究の目的は, 幻覚の程度(幻覚, 軽幻覚, 大幻覚)を体系的に変化させ, 警告との相互作用(すなわち, 潜在的な不正確さの警告: 現在と現在)を調べることで, LLM幻覚の人間の知覚を理解することである。 Prolificの参加者(N=419)は、知覚された正確さを評価し、Q/Aフォーマットでコンテンツ(例えば、好き嫌い、共有)に関わった。 以上の結果から,人間は本質的な幻覚<小幻覚><大幻覚とユーザエンゲージメント行動が,このパターンを反映していることが示唆された。 さらに,警告は真の内容の正しさに悪影響を及ぼすことなく,幻覚検出を改善することを観察した。 我々は、幻覚の人的検出を支援するための将来のツールに関する洞察を提供することで、結論付ける。

The widespread adoption and transformative effects of large language models (LLMs) have sparked concerns regarding their capacity to produce inaccurate and fictitious content, referred to as `hallucinations'. Given the potential risks associated with hallucinations, humans should be able to identify them. This research aims to understand the human perception of LLM hallucinations by systematically varying the degree of hallucination (genuine, minor hallucination, major hallucination) and examining its interaction with warning (i.e., a warning of potential inaccuracies: absent vs. present). Participants (N=419) from Prolific rated the perceived accuracy and engaged with content (e.g., like, dislike, share) in a Q/A format. Results indicate that humans rank content as truthful in the order genuine > minor hallucination > major hallucination and user engagement behaviors mirror this pattern. More importantly, we observed that warning improves hallucination detection without significantly affecting the perceived truthfulness of genuine content. We conclude by offering insights for future tools to aid human detection of hallucinations.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# GenQREnsemble:Zero-Shot LLM Ensemble Prompting for Generative Query Reformulation

GenQREnsemble: Zero-Shot LLM Ensemble Prompting for Generative Query Reformulation ( http://arxiv.org/abs/2404.03746v1 )

ライセンス: Link先を確認
Kaustubh Dhole, Eugene Agichtein, (参考訳) クエリリフォーム(QR)は、ユーザの本来の検索クエリを、ユーザの意図に合わせたテキストに変換し、検索エクスペリエンスを改善するための一連のテクニックである。 近年、ゼロショットQRは、大きな言語モデルに固有の知識を活用できるため、有望なアプローチであることが示されている。 多くのタスクに利益をもたらしているアンサンブルの成功からインスピレーションを得て、クエリのリフォームの改善に役立てられるかどうかを考察する。 本稿では、ゼロショット命令のパラフレーズを利用して複数のキーワードセットを生成するアンサンブルベースのプロンプト手法GenQREnsembleを提案する。 さらに、検索後の変種であるGenQREnsembleRFを導入し、擬似的な関連するフィードバックを組み込む。 4つのIRベンチマークで評価したところ、GenQREnsembleは相対的なnDCG@10の改善を18%まで、MAPの改善を24%まで改善した。 MSMarco Passage Ranking タスクでは、擬似関連フィードバックを用いて、GenQREnsembleRF は 5% MRR の相対的なゲインを示し、9% nDCG@10 は関連するフィードバック文書を用いている。

Query Reformulation(QR) is a set of techniques used to transform a user's original search query to a text that better aligns with the user's intent and improves their search experience. Recently, zero-shot QR has been shown to be a promising approach due to its ability to exploit knowledge inherent in large language models. By taking inspiration from the success of ensemble prompting strategies which have benefited many tasks, we investigate if they can help improve query reformulation. In this context, we propose an ensemble based prompting technique, GenQREnsemble which leverages paraphrases of a zero-shot instruction to generate multiple sets of keywords ultimately improving retrieval performance. We further introduce its post-retrieval variant, GenQREnsembleRF to incorporate pseudo relevant feedback. On evaluations over four IR benchmarks, we find that GenQREnsemble generates better reformulations with relative nDCG@10 improvements up to 18% and MAP improvements upto 24% over the previous zero-shot state-of-art. On the MSMarco Passage Ranking task, GenQREnsembleRF shows relative gains of 5% MRR using pseudo-relevance feedback, and 9% nDCG@10 using relevant feedback documents.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# テンソルネットワークからの開放量子東ガラスモデルにおける動的不均一性と大きな偏差

Dynamical heterogeneity and large deviations in the open quantum East glass model from tensor networks ( http://arxiv.org/abs/2404.03750v1 )

ライセンス: Link先を確認
Luke Causer, Mari Carmen Bañuls, Juan P. Garrahan, (参考訳) 数値テンソルネットワークを用いた散逸量子東モデルの非平衡ダイナミクスについて検討する。 我々は行列積状態を用いて、正確な対角化にアクセスできるものを超える大きさの量子ジャンプなき大きさの進化を表現する。 これにより、古典的なガラス系で見られるものと類似して、動的不均一性が緩やかに緩和することを示すことができる。 さらに、変分行列積演算子を用いて、 (i)リンドブラディアンのスペクトルギャップを計算し、純古典の場合と比較して弱い量子ゆらぎの存在下でガラス性が向上していることを示し、 2)傾斜したリンドブラディアンの主固有ベクトルを計算し、一階の活性-非活性な動的相転移の明確な証拠を求めることにより、動的大偏差を求める。 また、大きな偏差に関連する希少な量子軌道を直接サンプリングする方法を示す。

We study the non-equilibrium dynamics of the dissipative quantum East model via numerical tensor networks. We use matrix product states to represent evolution under quantum-jump unravellings for sizes beyond those accessible to exact diagonalisation. This allows us to demonstrate that dynamical heterogeneity accompanies slow relaxation, in analogy with what is seen in classical glassy systems. Furthermore, using variational matrix product operators we: (i) compute the spectral gap of the Lindbladian, and show that glassiness is enhanced in the presence of weak quantum fluctuations compared to the pure classical case, and (ii) obtain the dynamical large deviations by calculating the leading eigenvector of the tilted Lindbladian, and find clear evidence for a first-order active-inactive dynamical phase transition. We also show how to directly sample the rare quantum trajectories associated to the large deviations.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# 強化学習に基づくCDCL SATソルバーのリセットポリシー

A Reinforcement Learning based Reset Policy for CDCL SAT Solvers ( http://arxiv.org/abs/2404.03753v1 )

ライセンス: Link先を確認
Chunxiao Li, Charlie Liu, Jonathan Chung, Zhengyang, Lu, Piyush Jha, Vijay Ganesh, (参考訳) リスタートポリシは、現代の衝突駆動クローズラーニング(CDCL)ソルバで使用される重要なテクニックであり、ソルバ状態の一部が、ソルバの実行中に一定間隔で消去される。 ほとんどのソルバでは、変数のアクティビティは再起動バウンダリを越えて保存されるため、ソルバは再起動直前のアサインツリーの一部の検索を継続する。 代入木の「距離」のある部分の探索を可能にするために,代入軌跡を消去するだけでなく,再セット後の入力公式の変数の活性スコアをランダム化し,検索空間のより優れたグローバルな探索を可能にするリセットの効果について検討する。 本稿では、マルチアームバンディット(MAB)問題としてリセットをトリガするかどうかをモデル化し、アッパー信頼境界(UCB)とトンプソンサンプリングアルゴリズムを用いた2つの強化学習(RL)に基づく適応リセットポリシーを提案する。 これらの2つのアルゴリズムは、解法の実行中に推定された報酬に基づいてアーム(リセット対リセット)を適応的に選択することで、探索-探索トレードオフのバランスをとる。 我々は4つのベースラインSOTA CDCLソルバにリセットポリシーを実装し、ベースラインをSatcoinベンチマークとSATコンペティションインスタンスのリセットバージョンと比較する。 その結果, RL ベースのリセットバージョンは Satcoin と SAT の競合インスタンスで対応するベースラインソルバよりも優れており, RL ポリシーは任意の入力インスタンスに対してリセット頻度を動的に, 収益的に適応させるのに役立つことが示唆された。 また、部分的リセットの概念を導入し、少なくとも一定の数の変数アクティビティがリセット境界を越えて保持される。 以前の結果に基づいて、O(1) 対 $\Omega(n)$-長部分リセットの間に指数的分離が存在することを示す。

Restart policy is an important technique used in modern Conflict-Driven Clause Learning (CDCL) solvers, wherein some parts of the solver state are erased at certain intervals during the run of the solver. In most solvers, variable activities are preserved across restart boundaries, resulting in solvers continuing to search parts of the assignment tree that are not far from the one immediately prior to a restart. To enable the solver to search possibly "distant" parts of the assignment tree, we study the effect of resets, a variant of restarts which not only erases the assignment trail, but also randomizes the activity scores of the variables of the input formula after reset, thus potentially enabling a better global exploration of the search space. In this paper, we model the problem of whether to trigger reset as a multi-armed bandit (MAB) problem, and propose two reinforcement learning (RL) based adaptive reset policies using the Upper Confidence Bound (UCB) and Thompson sampling algorithms. These two algorithms balance the exploration-exploitation tradeoff by adaptively choosing arms (reset vs. no reset) based on their estimated rewards during the solver's run. We implement our reset policies in four baseline SOTA CDCL solvers and compare the baselines against the reset versions on Satcoin benchmarks and SAT Competition instances. Our results show that RL-based reset versions outperform the corresponding baseline solvers on both Satcoin and the SAT competition instances, suggesting that our RL policy helps to dynamically and profitably adapt the reset frequency for any given input instance. We also introduce the concept of a partial reset, where at least a constant number of variable activities are retained across reset boundaries. Building on previous results, we show that there is an exponential separation between O(1) vs. $\Omega(n)$-length partial resets.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# 地理情報システムのためのデータサイエンス

Data Science for Geographic Information Systems ( http://arxiv.org/abs/2404.03754v1 )

ライセンス: Link先を確認
Afonso Oliveira, Nuno Fachada, João P. Matos-Carvalho, (参考訳) データサイエンスを地理情報システム(GIS)に統合することで、これらのツールの完全な空間分析プラットフォームへの進化が促進された。 機械学習とビッグデータ技術の採用により、これらのプラットフォームはますます複雑なデータを扱う能力を備えており、より伝統的なアプローチの限界を超越している。 この研究は、研究分野としてのデータサイエンスとGISの歴史的および技術的な進化を辿り、ドメイン間の収束の重要なポイントを強調し、この統合に依存する多くの分野を基盤にしている。 災害管理分野におけるGIS適用事例として,ポルトガルのTr\oiaの航空データを用いて,生データからの洞察抽出のプロセスを強調した。 本稿では,これらの分野の総合的な統合における今後の研究の展望,特に先進的な応用について概説する。

The integration of data science into Geographic Information Systems (GIS) has facilitated the evolution of these tools into complete spatial analysis platforms. The adoption of machine learning and big data techniques has equipped these platforms with the capacity to handle larger amounts of increasingly complex data, transcending the limitations of more traditional approaches. This work traces the historical and technical evolution of data science and GIS as fields of study, highlighting the critical points of convergence between domains, and underlining the many sectors that rely on this integration. A GIS application is presented as a case study in the disaster management sector where we utilize aerial data from Tr\'oia, Portugal, to emphasize the process of insight extraction from raw data. We conclude by outlining prospects for future research in integration of these fields in general, and the developed application in particular.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# サブモジュール型マルチタスクサブセット選択における局所分布ロバスト性

Localized Distributional Robustness in Submodular Multi-Task Subset Selection ( http://arxiv.org/abs/2404.03759v1 )

ライセンス: Link先を確認
Ege C. Kaya, Abolfazl Hashemi, (参考訳) 本研究では,各タスクに重要なスコアを割り当てる参照分布の近傍において,局所分布のロバスト性の観点から,マルチタスク部分モジュラー最適化の問題にアプローチする。 まず,従来のマルチタスク目的に対して相対エントロピーを利用する正規化項を提案する。 次に、この新たな定式化自体が、標準グリーディ選択法によって効率的に実行されるような部分モジュラ函数の最大化と等価であることを示す。 このアプローチは、マルチタスクサブセット選択におけるパフォーマンス・ロバスト性トレードオフの最適化における既存のギャップを橋渡しする。 提案手法は, センサ選択問題における低軌道軌道上の衛星の選択と, ニューラルネットワークを用いた画像要約タスクの2つの異なる条件下で, 理論的結果の数値検証を行う。 提案手法は他の2つのアルゴリズムと比較して,最悪の場合のタスクの性能を最適化し,参照分布自体の性能を直接最適化する。 新たな定式化は, 局所的に分布性が高く, 計算コストも低い解を生成すると結論づける。

In this work, we approach the problem of multi-task submodular optimization with the perspective of local distributional robustness, within the neighborhood of a reference distribution which assigns an importance score to each task. We initially propose to introduce a regularization term which makes use of the relative entropy to the standard multi-task objective. We then demonstrate through duality that this novel formulation itself is equivalent to the maximization of a submodular function, which may be efficiently carried out through standard greedy selection methods. This approach bridges the existing gap in the optimization of performance-robustness trade-offs in multi-task subset selection. To numerically validate our theoretical results, we test the proposed method in two different setting, one involving the selection of satellites in low Earth orbit constellations in the context of a sensor selection problem, and the other involving an image summarization task using neural networks. Our method is compared with two other algorithms focused on optimizing the performance of the worst-case task, and on directly optimizing the performance on the reference distribution itself. We conclude that our novel formulation produces a solution that is locally distributional robust, and computationally inexpensive.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# 高次元における滑らかな関数の学習--スパース多項式からディープニューラルネットワークへ

Learning smooth functions in high dimensions: from sparse polynomials to deep neural networks ( http://arxiv.org/abs/2404.03761v1 )

ライセンス: Link先を確認
Ben Adcock, Simone Brugiapaglia, Nick Dexter, Sebastian Moraga, (参考訳) 有限個の点検点集合から多くの変数の滑らかな対象関数への近似を学習することは、科学計算における重要な課題であり、計算科学や工学における多くの応用である。 半世紀以上にわたる高次元近似の研究にもかかわらず、これは難しい問題である。 しかし、近年では、疎多項式近似法(sparse polynomial approximation method)と直近ではディープニューラルネットワーク(Deep Neural Networks, DNN)に基づく手法を併用し、効率的な手法に向けた大きな進歩がなされている。 タンデムでは、関連する近似理論とこれらの手法の分析にかなりの進歩があった。 本研究は,最近の進歩を概観する。 パラメトリックモデルと計算の不確実性定量化を起源とする同時代のモチベーション、関連する関数クラス、すなわち無限次元、バナッハ値、正則関数のクラス、これらのクラスに対する有限データからの学習可能性の基本的限界、そして最後に、これらの関数を有限データから効率的に学習するためのスパース多項式とDNN法について述べる。 後者については、現在DNNの近似理論とディープラーニングの実践的性能との間に大きなギャップがある。 このギャップを狭めるために、次元に依存しないDNNアーキテクチャの存在を主張する実践的存在論と、トレーニングデータの量の観点から、ほぼ最適に近い一般化誤差を確実に達成するトレーニング戦略を開発する。

Learning approximations to smooth target functions of many variables from finite sets of pointwise samples is an important task in scientific computing and its many applications in computational science and engineering. Despite well over half a century of research on high-dimensional approximation, this remains a challenging problem. Yet, significant advances have been made in the last decade towards efficient methods for doing this, commencing with so-called sparse polynomial approximation methods and continuing most recently with methods based on Deep Neural Networks (DNNs). In tandem, there have been substantial advances in the relevant approximation theory and analysis of these techniques. In this work, we survey this recent progress. We describe the contemporary motivations for this problem, which stem from parametric models and computational uncertainty quantification; the relevant function classes, namely, classes of infinite-dimensional, Banach-valued, holomorphic functions; fundamental limits of learnability from finite data for these classes; and finally, sparse polynomial and DNN methods for efficiently learning such functions from finite data. For the latter, there is currently a significant gap between the approximation theory of DNNs and the practical performance of deep learning. Aiming to narrow this gap, we develop the topic of practical existence theory, which asserts the existence of dimension-independent DNN architectures and training strategies that achieve provably near-optimal generalization errors in terms of the amount of training data.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# 機械学習のための自動テストマークアップ言語(ATML)の拡張について

On Extending the Automatic Test Markup Language (ATML) for Machine Learning ( http://arxiv.org/abs/2404.03769v1 )

ライセンス: Link先を確認
Tyler Cody, Bingtong Li, Peter A. Beling, (参考訳) 本稿では、機械学習(ML)アプリケーションの運用テストおよび評価(T&E)において、特にロボット、衛星、無人車両などのシステムに埋め込まれたエッジMLアプリケーションにおいて、メッセージ標準が緊急に必要となることを論じる。 IEEE標準1671 (IEEE Std 1671) は、ATML(Automatic Test Markup Language)として知られている。 論文では、データセットの使用やソフトウェアへの依存性など、MLアプリケーションのユニークな課題をカバーするために、IEEE Std 1671を拡張している。 本稿では, 対向ロバスト性やドリフト検出などの様々なテストのモデル化を通じて, 特定のアプリケーションに適用可能なフレームワークを提供する。 本稿では、予測モデルマークアップ言語(PMML)や、MLモデル仕様に重点を置くOpen Neural Network Exchange(ONNX)など、他のML標準に対するATMLの焦点を区別する。 私たちは、AIライフサイクル管理、安全性、ガバナンスの重要な側面である、MLアプリケーションの効果的でほぼリアルタイムな運用T&Eのための有望なツールである、と結論付けました。

This paper addresses the urgent need for messaging standards in the operational test and evaluation (T&E) of machine learning (ML) applications, particularly in edge ML applications embedded in systems like robots, satellites, and unmanned vehicles. It examines the suitability of the IEEE Standard 1671 (IEEE Std 1671), known as the Automatic Test Markup Language (ATML), an XML-based standard originally developed for electronic systems, for ML application testing. The paper explores extending IEEE Std 1671 to encompass the unique challenges of ML applications, including the use of datasets and dependencies on software. Through modeling various tests such as adversarial robustness and drift detection, this paper offers a framework adaptable to specific applications, suggesting that minor modifications to ATML might suffice to address the novelties of ML. This paper differentiates ATML's focus on testing from other ML standards like Predictive Model Markup Language (PMML) or Open Neural Network Exchange (ONNX), which concentrate on ML model specification. We conclude that ATML is a promising tool for effective, near real-time operational T&E of ML applications, an essential aspect of AI lifecycle management, safety, and governance.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# R5Detect:標準RISC-Vエンクレーブからの制御フロー攻撃の検出

R5Detect: Detecting Control-Flow Attacks from Standard RISC-V Enclaves ( http://arxiv.org/abs/2404.03771v1 )

ライセンス: Link先を確認
Davide Bove, Lukas Panzer, (参考訳) 組み込みデバイスとIoT(Internet-of-Things)デバイスは今日ではユビキタスであり、それらに基づくいくつかのボットネット(Mirai、Ripple20など)の蜂起は、そのようなデバイスのセキュリティに関する問題を提起している。 特に低消費電力デバイスは、スタックの完全性、非eXecutableビット、強力な暗号など、現代のシステムセキュリティ対策をサポートしていないことが多い。 本研究では,修正されていないRISC-V標準アーキテクチャに対する制御フロー攻撃を検出し防止するセキュリティ監視ソフトウェアであるR5Detectを提案する。 さまざまな保護テクニックを新たに組み合わせることで、適切なセキュリティ機能が欠如する可能性のある、組み込みおよび低消費電力のIoTデバイス上で実行することが可能になる。 R5Detectはメモリ保護されたシャドウスタックを実装し、ランタイム修正の防止と、ハードウェアパフォーマンスカウンタに基づくヒューリスティックス検出を実装し、制御フローの整合性違反を検出する。 この結果から,通常のソフトウェアは,平均性能のオーバーヘッドが5%未満の制御フロー操作に対して保護可能であることが示唆された。 我々は,R5Detectを標準の低消費電力RISC-Vデバイス上で実装し,そのセキュリティ機能を最小限のハードウェアサポートで効果的に利用できることを示す。

Embedded and Internet-of-Things (IoT) devices are ubiquitous today, and the uprising of several botnets based on them (e.g., Mirai, Ripple20) raises issues about the security of such devices. Especially low-power devices often lack support for modern system security measures, such as stack integrity, Non-eXecutable bits or strong cryptography. In this work, we present R5Detect, a security monitoring software that detects and prevents control-flow attacks on unmodified RISC-V standard architectures. With a novel combination of different protection techniques, it can run on embedded and low-power IoT devices, which may lack proper security features. R5Detect implements a memory-protected shadow stack to prevent runtime modifications, as well as a heuristics detection based on Hardware Performance Counters to detect control-flow integrity violations. Our results indicate that regular software can be protected against different degrees of control-flow manipulations with an average performance overhead of below 5 %. We implement and evaluate R5Detect on standard low-power RISC-V devices and show that such security features can be effectively used with minimal hardware support.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# 探索は予測より難しい:教師付き学習から強化学習を暗号化的に分離する

Exploration is Harder than Prediction: Cryptographically Separating Reinforcement Learning from Supervised Learning ( http://arxiv.org/abs/2404.03774v1 )

ライセンス: Link先を確認
Noah Golowich, Ankur Moitra, Dhruv Rohatgi, (参考訳) 教師付き学習は、実際は計算が簡単であることが多い。 しかし、このことは、強化学習(RL)のような他の学習方法が、拡張によって計算的に簡単であるべき、という意味なのだろうか? 本研究では,RLと教師付き学習との間の最初の暗号的分離を,報酬のない探索が関連する回帰問題よりも計算的に困難であるブロックMDPと関連する復号関数のクラスを示すことによって示す。 また、この回帰問題に対してオラクルへのアクセスを与えられた場合でも、ブロックMDPにおいて報酬指向RLの計算効率が良いアルゴリズムが存在しないことも示している。 ブロックMPPの回帰が可能であることは,適切な政策を見出す上で必要であることが知られており,その結果は十分ではないことを示唆している。 我々の分離下限は、RLデータの依存特性を扱う上で重要なLPN硬さ仮定の新たな堅牢性を利用する。 我々のような分離やオラクルの低い境界は、学習の難しさを証明するためのより意味のある方法である、と我々は主張する。

Supervised learning is often computationally easy in practice. But to what extent does this mean that other modes of learning, such as reinforcement learning (RL), ought to be computationally easy by extension? In this work we show the first cryptographic separation between RL and supervised learning, by exhibiting a class of block MDPs and associated decoding functions where reward-free exploration is provably computationally harder than the associated regression problem. We also show that there is no computationally efficient algorithm for reward-directed RL in block MDPs, even when given access to an oracle for this regression problem. It is known that being able to perform regression in block MDPs is necessary for finding a good policy; our results suggest that it is not sufficient. Our separation lower bound uses a new robustness property of the Learning Parities with Noise (LPN) hardness assumption, which is crucial in handling the dependent nature of RL data. We argue that separations and oracle lower bounds, such as ours, are a more meaningful way to prove hardness of learning because the constructions better reflect the practical reality that supervised learning by itself is often not the computational bottleneck.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# オンライン機械学習に対するシステム理論的アプローチ

A Systems Theoretic Approach to Online Machine Learning ( http://arxiv.org/abs/2404.03775v1 )

ライセンス: Link先を確認
Anli du Preez, Peter A. Beling, Tyler Cody, (参考訳) オンライン学習の機械学習の定式化は、システム理論の観点からは不完全である。 通常、機械学習の研究はドメインとタスク、そして問題解決の世界観を強調している。 アルゴリズムのパラメータ、特徴、サンプルに重点を置いており、システム構造やシステムの振る舞いやダイナミクスを考慮することで得られる視点を無視している。 オンライン学習は研究の活発な分野であり、統計理論や計算アルゴリズムの観点から広く研究されてきたが、一般には、オンライン学習システムのモデリングやシステム関連概念のドリフト問題の解決のための形式的な理論的枠組みが欠如している。 さらに、機械学習の定式化は手法や文献の分類に役立ち、ここで提示されるシステム理論の定式化は、オンライン学習の新たな定義や重要な設計パラメータの同定を含む、オンライン学習システムのトップダウン設計のためのフレームワークを提供する。 このフレームワークはインプット・アウトプット・システムの観点から定式化され、さらにシステム構造とシステム挙動に分けられる。 概念の漂流は、オンライン学習において直面する重要な課題であり、この研究は、システム行動特性の一部として、正式にそれにアプローチする。 医療提供者による機械学習を用いた不正検出は、実際のオンライン学習課題における議論の根拠となるために、論文全体のケーススタディとして使用される。

The machine learning formulation of online learning is incomplete from a systems theoretic perspective. Typically, machine learning research emphasizes domains and tasks, and a problem solving worldview. It focuses on algorithm parameters, features, and samples, and neglects the perspective offered by considering system structure and system behavior or dynamics. Online learning is an active field of research and has been widely explored in terms of statistical theory and computational algorithms, however, in general, the literature still lacks formal system theoretical frameworks for modeling online learning systems and resolving systems-related concept drift issues. Furthermore, while the machine learning formulation serves to classify methods and literature, the systems theoretic formulation presented herein serves to provide a framework for the top-down design of online learning systems, including a novel definition of online learning and the identification of key design parameters. The framework is formulated in terms of input-output systems and is further divided into system structure and system behavior. Concept drift is a critical challenge faced in online learning, and this work formally approaches it as part of the system behavior characteristics. Healthcare provider fraud detection using machine learning is used as a case study throughout the paper to ground the discussion in a real-world online learning challenge.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# 親性バイアスのフラッテニング:ポアンカレ球における階層的セマンティックセマンティックセグメンテーション

Flattening the Parent Bias: Hierarchical Semantic Segmentation in the Poincaré Ball ( http://arxiv.org/abs/2404.03778v1 )

ライセンス: Link先を確認
Simon Weber, Barış Zöngür, Nikita Araslanov, Daniel Cremers, (参考訳) 階層は、イメージセグメンテーションで日常的に使用されるものを含む意味分類の自然な表現である。 実際、セマンティックセグメンテーションに関する最近の研究は、階層的ラベル構造を利用した教師付きトレーニングの精度を改善した。 これらの結果を受けて、我々はその仕事の背後にある基本的な前提を再考する。 セグメンテーション精度が向上した理由がセグメンテーション階層の使用とは全く無関係である可能性があることを仮定し,実証的に検証した。 これを実証するために、代表的階層的アプローチによるクロスドメイン実験を設計する。 新たなテスト領域では,親が子どもから推定されるフラットな(階層的でない)セグメンテーションネットワークが,階層的アプローチよりも優れたセグメンテーション精度を持つことがわかった。 これらの知見を補完し、双曲空間の内在的性質にインスパイアされ、ポアンカーの球モデルを用いた階層的セグメンテーションへのより原理的なアプローチを研究する。 双曲表現は、以前の(ユークリッド)階層的アプローチよりも大きく優れており、分節精度の点で我々の平坦ユークリッド基底線と同程度である。 しかし、セマンティック階層における親ノードの驚くほど強いキャリブレーション品質、特により困難なドメインでは、さらに顕著である。 階層的セグメンテーションの確立された実践はドメイン内の設定に限られる可能性があるが、フラットな分類器は、特に双曲空間でモデル化されている場合、かなり良く一般化される。

Hierarchy is a natural representation of semantic taxonomies, including the ones routinely used in image segmentation. Indeed, recent work on semantic segmentation reports improved accuracy from supervised training leveraging hierarchical label structures. Encouraged by these results, we revisit the fundamental assumptions behind that work. We postulate and then empirically verify that the reasons for the observed improvement in segmentation accuracy may be entirely unrelated to the use of the semantic hierarchy. To demonstrate this, we design a range of cross-domain experiments with a representative hierarchical approach. We find that on the new testing domains, a flat (non-hierarchical) segmentation network, in which the parents are inferred from the children, has superior segmentation accuracy to the hierarchical approach across the board. Complementing these findings and inspired by the intrinsic properties of hyperbolic spaces, we study a more principled approach to hierarchical segmentation using the Poincar\'e ball model. The hyperbolic representation largely outperforms the previous (Euclidean) hierarchical approach as well and is on par with our flat Euclidean baseline in terms of segmentation accuracy. However, it additionally exhibits surprisingly strong calibration quality of the parent nodes in the semantic hierarchy, especially on the more challenging domains. Our combined analysis suggests that the established practice of hierarchical segmentation may be limited to in-domain settings, whereas flat classifiers generalize substantially better, especially if they are modeled in the hyperbolic space.
翻訳日:2024-04-08 17:35:40 公開日:2024-04-04
# Cu$2$O量子井戸におけるリドベルク励起子の共鳴エネルギーと直線幅

Resonance energies and linewidths of Rydberg excitons in Cu$_2$O quantum wells ( http://arxiv.org/abs/2404.03782v1 )

ライセンス: Link先を確認
Niklas Scheuler, Patric Rommel, Jörg Main, Pavel A. Belov, (参考訳) Rydberg exitons は、Rydberg 原子の固体類似体であり、例えば、銅酸化物の場合、主量子数に対して $\mu$m の領域において、最大$n=25$ の領域で容易に大きなサイズに達することができる。 結晶における量子井戸構造の形成は、量子閉じ込め効果をもたらし、3次元から2次元の励起子への交叉を研究する可能性を開く。 量子井戸(QW)の小さな幅については、様々な散乱しきい値の間にいくつかのよく分離されたリドバーグ級数があり、最低しきい値より有限寿命の電子ホール共鳴が発生する。 安定化法の適用により、摂動的処理が不可能な状況において、QWにおけるリードベルク励起子の共振エネルギーと直線幅を計算する。 第3しきい値以上のエネルギーにおける共鳴の位置と有限直線幅は、複素座標回転法の枠組み内で得られる複素共鳴エネルギーと比較される。 両手法がQW型構造物の中間サイズ,すなわち任意の幅に対して有効であることを示す。

Rydberg excitons are the solid-state analog of Rydberg atoms and can, e.g., for cuprous oxide, easily reach a large size in the region of $\mu$m for principal quantum numbers up to $n=25$. The fabrication of quantum well-like structures in the crystal leads to quantum confinement effects and opens the possibility to study a crossover from three-dimensional to two-dimensional excitons. For small widths of the quantum well (QW) there are several well separated Rydberg series between various scattering thresholds leading to the occurrence of electron-hole resonances with finite lifetimes above the lowest threshold. By application of the stabilization method to the parametric dependencies of the real-valued eigenvalues of the original three-dimensional Schr\"{o}dinger equation we calculate the resonance energies and linewidths for Rydberg excitons in QWs in regimes where a perturbative treatment is impossible. The positions and finite linewidths of resonances at energies above the third threshold are compared with the complex resonance energies obtained within the framework of the complex-coordinate-rotation technique. The excellent agreement between the results demonstrates the validity of both methods for intermediate sizes of the QW-like structures, and thus for arbitrary widths.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# テスト時間適応のための階層的早期停止

Layerwise Early Stopping for Test Time Adaptation ( http://arxiv.org/abs/2404.03784v1 )

ライセンス: Link先を確認
Sabyasachi Sahoo, Mostafa ElAraby, Jonas Ngnawe, Yann Pequignot, Frederic Precioso, Christian Gagne, (参考訳) テスト時間適応(TTA)は、事前訓練されたモデルがテスト時に見えないドメインで新機能を学習できるようにすることで、分散シフトの問題に対処する。 しかし、これは新しい機能の学習と有用な事前訓練された機能の維持のバランスを維持するために大きな課題となる。 本稿では,TTAのためのレイヤワイズ・アーリー・ストッピング(LEAST)を提案し,この問題に対処する。 鍵となる考え方は、学習対象の機能が新しいドメインにとって有益でないように見える場合、TTA中に個々のレイヤを適用するのをやめることである。 そこで本稿では,教師付きラベルを必要とせずに,学習した特徴を新しい領域に関連付けるための,新しい勾配に基づく尺度を提案する。 具体的には、TTA中に各レイヤの更新を停止するタイミングを動的に決定するために、このメトリックを使うことを提案する。 これにより、よりバランスの取れた適応が可能になり、その恩恵を受けるレイヤに制限され、特定のステップに限られます。 このようなアプローチは、新しいドメインを扱うのに役立つ事前訓練された機能の忘れを制限する効果もある。 広範な実験を通じて、Layerwise Early Stoppingは、複数のデータセット、ドメインシフト、モデルアーキテクチャ、TTA損失にまたがる既存のTTAアプローチのパフォーマンスを改善することを実証した。

Test Time Adaptation (TTA) addresses the problem of distribution shift by enabling pretrained models to learn new features on an unseen domain at test time. However, it poses a significant challenge to maintain a balance between learning new features and retaining useful pretrained features. In this paper, we propose Layerwise EArly STopping (LEAST) for TTA to address this problem. The key idea is to stop adapting individual layers during TTA if the features being learned do not appear beneficial for the new domain. For that purpose, we propose using a novel gradient-based metric to measure the relevance of the current learnt features to the new domain without the need for supervised labels. More specifically, we propose to use this metric to determine dynamically when to stop updating each layer during TTA. This enables a more balanced adaptation, restricted to layers benefiting from it, and only for a certain number of steps. Such an approach also has the added effect of limiting the forgetting of pretrained features useful for dealing with new domains. Through extensive experiments, we demonstrate that Layerwise Early Stopping improves the performance of existing TTA approaches across multiple datasets, domain shifts, model architectures, and TTA losses.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 変分ベイズ混合による運動予測の不確かさの定量化

Quantifying Uncertainty in Motion Prediction with Variational Bayesian Mixture ( http://arxiv.org/abs/2404.03789v1 )

ライセンス: Link先を確認
Juanwu Lu, Can Cui, Yunsheng Ma, Aniket Bera, Ziran Wang, (参考訳) 安全と堅牢性は、信頼できる自動運転車を開発する上で重要な要素である。 これらの要因に対処する上で重要な側面の1つは、周囲の全ての移動物体の将来の軌跡を予測し、予測の不確実性を定量化する能力を備えた車両を装備することである。 本稿では,1つの移動物体に対する将来の軌跡の分布を記述する生成モデルSeNeVAを提案する。 提案手法は,Argoverse 2 および InterAction データセットの最先端手法と比較して,不確実性を定量化し,競争性能を達成するとともに,アウト・オブ・ディストリビューションデータを識別することができる。 具体的には、インターアクションテストセットでは、0.446mの最小変位誤差、0.203mの最小変位誤差、および5.35%のミスレートが達成される。 また,提案モデルを評価するために,大規模定性的,定量的な分析を行った。 私たちのオープンソースコードはhttps://github.com/PurdueDigitalTwin/seneva.comで公開されています。

Safety and robustness are crucial factors in developing trustworthy autonomous vehicles. One essential aspect of addressing these factors is to equip vehicles with the capability to predict future trajectories for all moving objects in the surroundings and quantify prediction uncertainties. In this paper, we propose the Sequential Neural Variational Agent (SeNeVA), a generative model that describes the distribution of future trajectories for a single moving object. Our approach can distinguish Out-of-Distribution data while quantifying uncertainty and achieving competitive performance compared to state-of-the-art methods on the Argoverse 2 and INTERACTION datasets. Specifically, a 0.446 meters minimum Final Displacement Error, a 0.203 meters minimum Average Displacement Error, and a 5.35% Miss Rate are achieved on the INTERACTION test set. Extensive qualitative and quantitative analysis is also provided to evaluate the proposed model. Our open-source code is available at https://github.com/PurdueDigitalTwin/seneva.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 言語誘導型インスタンス・ドメイン適応型パノプティブ・セグメンテーション(Language-Guided Instance-Aware Domain-Adaptive Panoptic Segmentation)

Language-Guided Instance-Aware Domain-Adaptive Panoptic Segmentation ( http://arxiv.org/abs/2404.03799v1 )

ライセンス: Link先を確認
Elham Amin Mansour, Ozan Unal, Suman Saha, Benjamin Bejar, Luc Van Gool, (参考訳) 汎視的セグメンテーションの関連性は、自律運転とAR/VR応用の進歩と結びついている。 しかし、そのようなモデルの展開は、高密度データアノテーションの高価な性質のために制限されており、教師なしドメイン適応(UDA)が生まれている。 汎視的UDAにおける重要な課題は、破滅的な干渉を制限するためにセマンティックとインスタンスセグメンテーションのサブタスクを調和させながら、ラベル付きソースとラベルなしターゲットドメインの間のドメインギャップを減らすことである。 かなりの進歩が達成されているが、既存のアプローチは主にセマンティックセグメンテーションの適応に焦点を当てている。 本研究では、新しいインスタンス対応クロスドメイン混合戦略IMixによるインスタンスレベル適応の導入に焦点をあてる。 IMixは、インスタンスセグメンテーション性能を向上させることにより、パノプティクスの品質を大幅に向上させる。 具体的には、ターゲット領域からの高信頼度予測インスタンスをソースイメージに挿入し、擬似ラベルの徹底性を保ちながら、注入された確認バイアスを低減することを提案する。 それにもかかわらず、このような拡張は、破滅的な忘れ物による、劣化したセマンティックパフォーマンスのコストが伴う。 この問題を緩和するために、我々はCLIPベースのドメインアライメント(CDA)を用いてセマンティックブランチを規則化し、自然言語プロンプトのドメイン・ロバスト性を活用する。 最後に、LIDAPSと呼ばれる2つのメカニズムを組み込んだエンドツーエンドモデルを提案する。

The increasing relevance of panoptic segmentation is tied to the advancements in autonomous driving and AR/VR applications. However, the deployment of such models has been limited due to the expensive nature of dense data annotation, giving rise to unsupervised domain adaptation (UDA). A key challenge in panoptic UDA is reducing the domain gap between a labeled source and an unlabeled target domain while harmonizing the subtasks of semantic and instance segmentation to limit catastrophic interference. While considerable progress has been achieved, existing approaches mainly focus on the adaptation of semantic segmentation. In this work, we focus on incorporating instance-level adaptation via a novel instance-aware cross-domain mixing strategy IMix. IMix significantly enhances the panoptic quality by improving instance segmentation performance. Specifically, we propose inserting high-confidence predicted instances from the target domain onto source images, retaining the exhaustiveness of the resulting pseudo-labels while reducing the injected confirmation bias. Nevertheless, such an enhancement comes at the cost of degraded semantic performance, attributed to catastrophic forgetting. To mitigate this issue, we regularize our semantic branch by employing CLIP-based domain alignment (CDA), exploiting the domain-robustness of natural language prompts. Finally, we present an end-to-end model incorporating these two mechanisms called LIDAPS, achieving state-of-the-art results on all popular panoptic UDA benchmarks.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# キッドニー・プレースメントにおける非専門家の意見から社会的公正度を学習する

Learning Social Fairness Preferences from Non-Expert Stakeholder Opinions in Kidney Placement ( http://arxiv.org/abs/2404.03800v1 )

ライセンス: Link先を確認
Mukund Telukunta, Sukruth Rao, Gabriella Stickney, Venkata Sriram Siddardh Nadendla, Casey Canfield, (参考訳) 現代の腎臓の配置には、訓練データから受け継がれたバイアスによる社会的差別を示すいくつかのインテリジェントなレコメンデーションシステムが含まれている。 腎臓の配置におけるアルゴリズム的公正性を研究するために文献で最初の試みが行われたが、これらの手法は、そのような結果を確実に記録するのに長い遅れがあるため、外科医の判断に取って代わるものである。 しかし、外科医の判断による真の結果の置き換えは、専門知識を持たない他の利害関係者の社会的意見だけでなく、専門家の偏見を無視する。 本論文は後者の懸念を緩和し,腎-マッチペアにおける腎臓の受容率を予測する受容率予測器 (ARP) を評価するための新しい公正フィードバックサーベイを設計する。 調査はクラウドソーシングプラットフォームであるProlific上で開始され、85名の匿名の参加者から世論が集められている。 新たなロジットに基づくフェアネスフィードバックモデルを用いて,社会フィードバックの最小化に基づく,新たな社会的フェアネス選好学習アルゴリズムを提案する。 提案したモデルと学習アルゴリズムはシミュレーション実験とProlificデータを用いて検証する。 腎臓配置の文脈における群フェアネス概念に対する公衆の嗜好は推定され、詳細に議論されている。 Prolific Surveyでテストされた特定のARPは、参加者によって公平に評価されている。

Modern kidney placement incorporates several intelligent recommendation systems which exhibit social discrimination due to biases inherited from training data. Although initial attempts were made in the literature to study algorithmic fairness in kidney placement, these methods replace true outcomes with surgeons' decisions due to the long delays involved in recording such outcomes reliably. However, the replacement of true outcomes with surgeons' decisions disregards expert stakeholders' biases as well as social opinions of other stakeholders who do not possess medical expertise. This paper alleviates the latter concern and designs a novel fairness feedback survey to evaluate an acceptance rate predictor (ARP) that predicts a kidney's acceptance rate in a given kidney-match pair. The survey is launched on Prolific, a crowdsourcing platform, and public opinions are collected from 85 anonymous crowd participants. A novel social fairness preference learning algorithm is proposed based on minimizing social feedback regret computed using a novel logit-based fairness feedback model. The proposed model and learning algorithm are both validated using simulation experiments as well as Prolific data. Public preferences towards group fairness notions in the context of kidney placement have been estimated and discussed in detail. The specific ARP tested in the Prolific survey has been deemed fair by the participants.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 量子特異点センサのための量子フィッシャー情報のスケーリング

Scaling of quantum Fisher information for quantum exceptional point sensors ( http://arxiv.org/abs/2404.03803v1 )

ライセンス: Link先を確認
Chun-Hui Liu, Fu Li, Shengwang Du, Jianming Wen, Lan Yang, Chuanwei Zhang, (参考訳) 近年、古典的システムにおけるセンシングにおいて、スペクトル応答率のばらつき(EP)を生かし、量子EPのセンシングへの応用とキャラクタリゼーションは明らかにされていない。 量子EPセンサにとって重要な問題は、量子EPの順序と量子フィッシャー情報(QFI)のスケーリングの関係である。 本稿では,高次EPダイナミクスを示す多モード二次ボゾン系について検討するが,Langevinノイズを伴わないエルミート・ハミルトン系を有するため,量子センシングに利用することができる。 我々はQFIの正確な解析式を導出し、QFIとEPの順序のスケーリング関係を確立する。 本研究では, 3モードのEPセンサと多モードのボソニック・キタエフ・チェーンを解析し, EP物理が感度を著しく高めることを示す。 我々の研究は、非エルミートEP力学と量子センシングという2つの重要な分野の接続を確立し、量子情報と量子非エルミート物理学における重要な応用を見出すことができる。

In recent years, significant progress has been made in utilizing the divergence of spectrum response rate at the exceptional point (EP) for sensing in classical systems, while the use and characterization of quantum EPs for sensing have been largely unexplored. For a quantum EP sensor, an important issue is the relation between the order of the quantum EP and the scaling of quantum Fisher information (QFI), an essential quantity for characterizing quantum sensors. Here we investigate multi-mode quadratic bosonic systems, which exhibit higher-order EP dynamics, but possess Hermitian Hamiltonians without Langevin noise, thus can be utilized for quantum sensing. We derive an exact analytic formula for the QFI, from which we establish a scaling relation between the QFI and the order of the EP. We apply the formula to study a three-mode EP sensor and a multi-mode bosonic Kitaev chain and show that the EP physics can significantly enhance the sensing sensitivity. Our work establishes the connection between two important fields: non-Hermitian EP dynamics and quantum sensing, and may find important applications in quantum information and quantum non-Hermitian physics.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# TransformerLSR:連続潜時構造を伴う経時的・生存的・反復的事象の注意関節モデル

TransformerLSR: Attentive Joint Model of Longitudinal Data, Survival, and Recurrent Events with Concurrent Latent Structure ( http://arxiv.org/abs/2404.03804v1 )

ライセンス: Link先を確認
Zhiyue Zhang, Yao Zhao, Yanxun Xu, (参考訳) 生医学研究、疫学、社会科学などの応用において、反復的な出来事はしばしば縦断的な測定や死のような終末的な出来事と共起する。 したがって, 依存関係を考慮に入れながら, 時系列計測, 繰り返しイベント, 生存データを共同でモデル化することが重要である。 3つの成分の合同モデルは統計学において存在するが、これらのアプローチの多くは重いパラメトリック仮定と拡張性の問題によって制限されている。 近年,共同モデリングに深層学習手法を取り入れることで,有望な結果が得られている。 しかし、現在の手法は、周期的に間隔付けられた観測時間と生存イベントにおける経時測定の連成モデリングにのみ対応し、繰り返し発生する事象を無視する。 本稿では,トランスフォーマーLSR(TransformerLSR)を開発し,これら3つのコンポーネントを同時にモデル化する。 TransformerLSRは、深い時間点過程を結合モデリングフレームワークに統合し、過去の経時的測定と繰り返しイベント時間に依存する2つの競合プロセスとして、繰り返しおよび終端イベントを扱います。 さらにTransformerLSRは、並列長周期変数間で既知の潜在構造に関する事前知識を組み込むために、新しい軌跡表現とモデルアーキテクチャを導入している。 腎移植後の患者に対する実世界の医療データセットをシミュレーションし分析することでTransformerLSRの有効性と必要性を実証する。

In applications such as biomedical studies, epidemiology, and social sciences, recurrent events often co-occur with longitudinal measurements and a terminal event, such as death. Therefore, jointly modeling longitudinal measurements, recurrent events, and survival data while accounting for their dependencies is critical. While joint models for the three components exist in statistical literature, many of these approaches are limited by heavy parametric assumptions and scalability issues. Recently, incorporating deep learning techniques into joint modeling has shown promising results. However, current methods only address joint modeling of longitudinal measurements at regularly-spaced observation times and survival events, neglecting recurrent events. In this paper, we develop TransformerLSR, a flexible transformer-based deep modeling and inference framework to jointly model all three components simultaneously. TransformerLSR integrates deep temporal point processes into the joint modeling framework, treating recurrent and terminal events as two competing processes dependent on past longitudinal measurements and recurrent event times. Additionally, TransformerLSR introduces a novel trajectory representation and model architecture to potentially incorporate a priori knowledge of known latent structures among concurrent longitudinal variables. We demonstrate the effectiveness and necessity of TransformerLSR through simulation studies and analyzing a real-world medical dataset on patients after kidney transplantation.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 非線形代数方程式の解く量子アルゴリズム

Quantum Algorithm For Solving Nonlinear Algebraic Equations ( http://arxiv.org/abs/2404.03810v1 )

ライセンス: Link先を確認
Nhat A. Nghiem, Tzu-Chieh Wei, (参考訳) 非線形方程式は、本質的に非線形の性質のため、解決が難しい。 解析解は通常存在しないため、それらの解に取り組むために数値法が開発されている。 本稿では、各方程式が既知の係数の多変量多項式である非線形代数方程式の系を解くための量子アルゴリズムを提案する。 古典ニュートン法と量子特異値変換からブロックを符号化する量子アルゴリズムに関する最近の研究に基づいて、各寄与方程式が偶数の斉次多項式であるようなニュートンの非線形方程式を解くために、ジャコビアン行列を逆転してニュートンの反復法を実行する方法を示す。 そこで,本手法が変数数に対して多対数時間を実現することを明らかにするために,詳細な解析を行った。 さらに、必要なキュービットの数は変数の数で対数的である。 特に,本手法は様々なタイプの多項式にほとんど対応せず修正可能であることを示し,本手法の一般化を示唆する。 非線形偏微分方程式を含むGross-Pitaevski方程式やLotka-Volterra方程式などの物理的文脈から得られるいくつかの例は、潜在的な応用を動機付けるために提供され、そのようなシナリオにおいてさらに少ない労力でアルゴリズムを拡張する方法について記述されている。 我々の研究は、量子特異値変換の枠組みによって実現された非線形科学における量子優位へのさらなる重要な一歩である。

Nonlinear equations are challenging to solve due to their inherently nonlinear nature. As analytical solutions typically do not exist, numerical methods have been developed to tackle their solutions. In this article, we give a quantum algorithm for solving a system of nonlinear algebraic equations, in which each equation is a multivariate polynomial of known coefficients. Building upon the classical Newton method and some recent works on quantum algorithm plus block encoding from the quantum singular value transformation, we show how to invert the Jacobian matrix to execute Newton's iterative method for solving nonlinear equations, where each contributing equation is a homogeneous polynomial of an even degree. A detailed analysis are then carried out to reveal that our method achieves polylogarithmic time in relative to the number of variables. Furthermore, the number of required qubits is logarithmic in the number of variables. In particular, we also show that our method can be modified with little effort to deal with polynomial of various types, thus implying the generality of our approach. Some examples coming from physical context, such as Gross-Pitaevski equation and Lotka-Volterra equations, involving nonlinear partial differential equations are provided to motivate the potential application, with a description on how to extend our algorithm with even less effort in such a scenario. Our work thus marks a further important step towards quantum advantage in nonlinear science, enabled by the framework of quantum singular value transformation.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 安定化剤製品状態のアグノスティック・トモグラフィ

Agnostic Tomography of Stabilizer Product States ( http://arxiv.org/abs/2404.03813v1 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang, (参考訳) ここでは、任意の状態 $\rho$ と量子状態のクラス $\mathcal{C}$ のコピーを与えられた場合、少なくとも$\rho$ を近似する状態の簡潔な記述を出力し、$\mathcal{C}$ の任意の状態も出力する。 このタスクは$\mathcal{C}$で状態の通常の量子トモグラフィーを一般化し、学習アルゴリズムは$\rho$の摂動に対して堅牢でなければならないため、より難しい。 クラス $\mathcal{C}$ of $n$-qubit 安定化器状態に対する効率的な非依存トモグラフィーアルゴリズムを提案する。 安定な積状態を持つ少なくとも$\tau$の忠実度を仮定すると、アルゴリズムは時間$n^{O(1 + \log(1/\tau))} / \varepsilon^2$で実行される。 このランタイムはすべてのパラメータで準多項式であり、$\tau$ が定数であれば多項式である。

We define a quantum learning task called agnostic tomography, where given copies of an arbitrary state $\rho$ and a class of quantum states $\mathcal{C}$, the goal is to output a succinct description of a state that approximates $\rho$ at least as well as any state in $\mathcal{C}$ (up to some small error $\varepsilon$). This task generalizes ordinary quantum tomography of states in $\mathcal{C}$ and is more challenging because the learning algorithm must be robust to perturbations of $\rho$. We give an efficient agnostic tomography algorithm for the class $\mathcal{C}$ of $n$-qubit stabilizer product states. Assuming $\rho$ has fidelity at least $\tau$ with a stabilizer product state, the algorithm runs in time $n^{O(1 + \log(1/\tau))} / \varepsilon^2$. This runtime is quasipolynomial in all parameters, and polynomial if $\tau$ is a constant.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# PRobELM:言語モデルの可塑性ランキング評価

PRobELM: Plausibility Ranking Evaluation for Language Models ( http://arxiv.org/abs/2404.03818v1 )

ライセンス: Link先を確認
Zhangdie Yuan, Chenxi Whitehouse, Eric Chamoun, Rami Aly, Andreas Vlachos, (参考訳) 本稿では,Plausibility Ranking Evaluation for Language Models(Plausibility Ranking Evaluation for Language Models)を提案する。 TruthfulQAのようなベンチマークは、事実の正確さや真実性を強調し、COPAのようなベンチマークは、世界の知識を明示的に取り入れずに、もっともらしいシナリオを探求するが、PRobELMは、このギャップを埋めようとしている。 この設計により、文学に基づく発見のような下流のユースケースにおける言語モデルの可能性を評価することができる。 我々のベンチマークは、Wikidata編集履歴から算出したデータセットから構築され、評価されたモデルに対するトレーニングデータの時間的境界を整列するように調整されている。 PRobELMは、ステートメント、テキスト補完、質問応答など、複数のプロンプト型にわたる言語モデルの評価を容易にする。 モデルスケール, トレーニング精度, 可視性パフォーマンスの関係に関する10種類のモデルとアーキテクチャを用いた実験では, 事実精度が可視性性能と直接相関せず, 最新のトレーニングデータにより, 異なるモデルアーキテクチャ間での可視性評価が促進されることがわかった。

This paper introduces PRobELM (Plausibility Ranking Evaluation for Language Models), a benchmark designed to assess language models' ability to discern more plausible from less plausible scenarios through their parametric knowledge. While benchmarks such as TruthfulQA emphasise factual accuracy or truthfulness, and others such as COPA explore plausible scenarios without explicitly incorporating world knowledge, PRobELM seeks to bridge this gap by evaluating models' capabilities to prioritise plausible scenarios that leverage world knowledge over less plausible alternatives. This design allows us to assess the potential of language models for downstream use cases such as literature-based discovery where the focus is on identifying information that is likely but not yet known. Our benchmark is constructed from a dataset curated from Wikidata edit histories, tailored to align the temporal bounds of the training data for the evaluated models. PRobELM facilitates the evaluation of language models across multiple prompting types, including statement, text completion, and question-answering. Experiments with 10 models of various sizes and architectures on the relationship between model scales, training recency, and plausibility performance, reveal that factual accuracy does not directly correlate with plausibility performance and that up-to-date training data enhances plausibility assessment across different model architectures.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 位置ずれクエリ選択とコントラストクエリ表現を用いたCTスキャンにおける効率的なリンパ節検出

Effective Lymph Nodes Detection in CT Scans Using Location Debiased Query Selection and Contrastive Query Representation in Transformer ( http://arxiv.org/abs/2404.03819v1 )

ライセンス: Link先を確認
Qinji Yu, Yirui Wang, Ke Yan, Haoshen Li, Dazhou Guo, Li Zhang, Le Lu, Na Shen, Qifeng Wang, Xiaowei Ding, Xianghua Ye, Dakai Jin, (参考訳) リンパ節評価(LN)は、放射線学と腫瘍学の日常的な臨床ワークフローにおいて、重要で必要不可欠な課題である。 正確なLN分析は、癌診断、ステージング、治療計画に不可欠である。 3次元CTで低コントラスト,低コントラスト,低コントラストのLNを見出すことは,経験者でも高いサーバ間変動下では困難である。 以前の自動LN検出作業は、画像強度、形状、テクスチャ(血管、筋肉、食道など)が類似した隣り合う解剖により、リコールと偽陽性(FP)が制限されるのが一般的である。 本研究では,LN-DETRと呼ばれる新しいLN検出TRansformerを提案する。 マルチスケールの2.5D機能融合による2Dバックボーンの強化により、3Dコンテキストを明示的に組み込むことにより、LNクエリの表現品質向上に2つの主な貢献をする。 1) LN境界が不明確であることが多いことを踏まえ, 復号器クエリの初期化として, より高精度なLNクエリを選択するために, IoU予測ヘッドと位置ずれクエリ選択を提案する。 2) FP を減らすために,クエリコントラスト学習を用いて,LN クエリを不整合クエリ予測よりも最整合の基底トラスクエリへ明示的に強化する。 異なる部位(頸部,胸,腹部)から7つのLNデータセットと病理・癌を併用し,1067例(ラベル付きLN1,000以上)の3DCTで訓練および検査を行ったところ,本手法は内外両方のFP比で4-5%以上の平均リコール率で従来の先行法の性能を有意に改善した。 NIH DeepLesionベンチマークを用いて全病変検出タスクについてさらに評価し,他の先行報告結果と比較して,画像毎の平均リコール率88.46%,画像毎のFPが0.5~4FPで最高性能を達成した。

Lymph node (LN) assessment is a critical, indispensable yet very challenging task in the routine clinical workflow of radiology and oncology. Accurate LN analysis is essential for cancer diagnosis, staging, and treatment planning. Finding scatteredly distributed, low-contrast clinically relevant LNs in 3D CT is difficult even for experienced physicians under high inter-observer variations. Previous automatic LN detection works typically yield limited recall and high false positives (FPs) due to adjacent anatomies with similar image intensities, shapes, or textures (vessels, muscles, esophagus, etc). In this work, we propose a new LN DEtection TRansformer, named LN-DETR, to achieve more accurate performance. By enhancing the 2D backbone with a multi-scale 2.5D feature fusion to incorporate 3D context explicitly, more importantly, we make two main contributions to improve the representation quality of LN queries. 1) Considering that LN boundaries are often unclear, an IoU prediction head and a location debiased query selection are proposed to select LN queries of higher localization accuracy as the decoder query's initialization. 2) To reduce FPs, query contrastive learning is employed to explicitly reinforce LN queries towards their best-matched ground-truth queries over unmatched query predictions. Trained and tested on 3D CT scans of 1067 patients (with 10,000+ labeled LNs) via combining seven LN datasets from different body parts (neck, chest, and abdomen) and pathologies/cancers, our method significantly improves the performance of previous leading methods by > 4-5% average recall at the same FP rates in both internal and external testing. We further evaluate on the universal lesion detection task using NIH DeepLesion benchmark, and our method achieves the top performance of 88.46% averaged recall across 0.5 to 4 FPs per image, compared with other leading reported results.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# CantTalkAboutThis: 対話におけるトピックに留まる言語モデルの調整

CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues ( http://arxiv.org/abs/2404.03820v1 )

ライセンス: Link先を確認
Makesh Narsimhan Sreedhar, Traian Rebedea, Shaona Ghosh, Christopher Parisien, (参考訳) 命令チューニングデータセットの最近の進歩は、主に数学的または論理的推論のような特定のタスクに焦点を当てている。 会話におけるトピック関連性を維持するために言語モデルを調整するように設計されたデータには、注目すべきギャップがある。 我々はCantTalkAboutThisデータセットを導入し、タスク指向インタラクションの間、言語モデルが対象に焦点を合わせるのを助ける。 異なるドメインからの幅広い会話トピックに関する合成対話で構成されている。 これらの対話は、事前に定義されたトピックからチャットボットを意図的に逸脱させるイントラクタ・ターンによって分散される。 このデータセット上の微調整言語モデルは、GPT-4-turboやMixtral-Instructのような汎用的な命令チューニングLLMと比較して、割り当てられた役割から逸脱し、トピックコヒーレンスを維持する能力を向上させるのに役立つ。 さらに、予備的な観察では、このデータセットのトレーニングモデルが、タスクに追従するきめ細かい命令のパフォーマンスを向上させることも示唆されている。

Recent advancements in instruction-tuning datasets have predominantly focused on specific tasks like mathematical or logical reasoning. There has been a notable gap in data designed for aligning language models to maintain topic relevance in conversations - a critical aspect for deploying chatbots to production. We introduce the CantTalkAboutThis dataset to help language models remain focused on the subject at hand during task-oriented interactions. It consists of synthetic dialogues on a wide range of conversation topics from different domains. These dialogues are interspersed with distractor turns that intentionally divert the chatbot from the predefined topic. Fine-tuning language models on this dataset helps make them resilient to deviating from the role assigned and improves their ability to maintain topical coherence compared to general-purpose instruction-tuned LLMs like GPT-4-turbo and Mixtral-Instruct. Additionally, preliminary observations suggest that training models on this dataset also enhance their performance on fine-grained instruction following tasks.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 大規模言語モデルによるJavaセキュリティAPIの誤用に関する検討

An Investigation into Misuse of Java Security APIs by Large Language Models ( http://arxiv.org/abs/2404.03823v1 )

ライセンス: Link先を確認
Zahra Mousavi, Chadni Islam, Kristen Moore, Alsharif Abuadbba, Muhammad Ali Babar, (参考訳) コード生成にLLM(Large Language Models)を使用する傾向が高まり、信頼に値するコードを生成する能力に関する疑問が持ち上がっている。 多くの研究者がソフトウェア脆弱性を明らかにするためのコード生成の実用性を検討しているが、重要なものの見落とされがちな側面は、セキュリティアプリケーションプログラミングインタフェース(API)である。 APIはソフトウェアセキュリティの維持において重要な役割を担いますが、セキュリティAPIを効果的に統合することは重大な課題を示します。 これにより、開発者が不注意に誤用し、ソフトウェアを脆弱性に晒すことになる。 これらの課題を克服するために、開発者はLSMから助けを求めることができる。 本稿では,JavaにおけるセキュリティAPIのユースケースに対して,ChatGPTのコード生成に対する信頼性を体系的に評価する。 徹底的な評価を行うため、広く使用されている5つのセキュリティAPIに対して、48のプログラミングタスクの広範なコレクションをコンパイルする。 これらのタスクのためにChatGPTが生成したコードのセキュリティAPIの誤用を効果的に検出するために、自動的および手動的アプローチの両方を使用します。 コードインスタンスの約70%は、タスク毎にセキュリティAPIの誤用が含まれており、20の異なる誤用タイプが特定されています。 さらに、約半数のタスクにおいて、この割合は100%に達し、開発者がセキュリティAPIコードをセキュアに実装するためにChatGPTに頼るまでには長い道のりがあることを示している。

The increasing trend of using Large Language Models (LLMs) for code generation raises the question of their capability to generate trustworthy code. While many researchers are exploring the utility of code generation for uncovering software vulnerabilities, one crucial but often overlooked aspect is the security Application Programming Interfaces (APIs). APIs play an integral role in upholding software security, yet effectively integrating security APIs presents substantial challenges. This leads to inadvertent misuse by developers, thereby exposing software to vulnerabilities. To overcome these challenges, developers may seek assistance from LLMs. In this paper, we systematically assess ChatGPT's trustworthiness in code generation for security API use cases in Java. To conduct a thorough evaluation, we compile an extensive collection of 48 programming tasks for 5 widely used security APIs. We employ both automated and manual approaches to effectively detect security API misuse in the code generated by ChatGPT for these tasks. Our findings are concerning: around 70% of the code instances across 30 attempts per task contain security API misuse, with 20 distinct misuse types identified. Moreover, for roughly half of the tasks, this rate reaches 100%, indicating that there is a long way to go before developers can rely on ChatGPT to securely implement security API code.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 近代ホップフィールドモデルのための容量を大きくした均一メモリ検索

Uniform Memory Retrieval with Larger Capacity for Modern Hopfield Models ( http://arxiv.org/abs/2404.03827v1 )

ライセンス: Link先を確認
Dennis Wu, Jerry Yao-Chieh Hu, Teng-Yun Hsiao, Han Liu, (参考訳) 本稿では,最近のホップフィールドモデルに対して,メモリ容量を拡張した2段階のメモリ検索ダイナミックス($\mathtt{U\text{-}Hop}$)を提案する。 私たちの重要な貢献は、ホップフィールドエネルギー関数をカーネル空間に変換する学習可能な特徴写像$\Phi$である。 この変換により、エネルギーの局所最小値とカーネル空間内の検索力学の固定点との収束が保証される。 したがって、$\Phi$によって誘導されるカーネルノルムは、新しい類似度尺度として機能する。 記憶されたメモリパターンを学習データとして利用し、現代のホップフィールドモデル全体のメモリ容量を向上させる。 具体的には、カーネル空間に記憶されたメモリパターンを分離することにより、カーネル化されたエネルギーの局所的なミニマを分離する分離損失$\mathcal{L}_\Phi$を構築する。 方法論的には、$\mathtt{U\text{-}Hop}$ メモリ検索プロセスは以下の通りである: \textbf{(Stage~I.)} より均一なメモリ(ローカル最小限)分布の分離損失を最小化する。 これによりホップフィールドエネルギー関数の準安定状態が大幅に減少し、メモリ混乱を防止してメモリ容量が増大する。 実世界のデータセットを用いて、$\mathtt{U\text{-}Hop}$が既存のホップフィールドモデルとSOTAの類似度を全て上回り、連想記憶検索とディープラーニングタスクの両方で大幅に改善されていることを実証した。

We propose a two-stage memory retrieval dynamics for modern Hopfield models, termed $\mathtt{U\text{-}Hop}$, with enhanced memory capacity. Our key contribution is a learnable feature map $\Phi$ which transforms the Hopfield energy function into a kernel space. This transformation ensures convergence between the local minima of energy and the fixed points of retrieval dynamics within the kernel space. Consequently, the kernel norm induced by $\Phi$ serves as a novel similarity measure. It utilizes the stored memory patterns as learning data to enhance memory capacity across all modern Hopfield models. Specifically, we accomplish this by constructing a separation loss $\mathcal{L}_\Phi$ that separates the local minima of kernelized energy by separating stored memory patterns in kernel space. Methodologically, $\mathtt{U\text{-}Hop}$ memory retrieval process consists of: \textbf{(Stage~I.)} minimizing separation loss for a more uniformed memory (local minimum) distribution, followed by \textbf{(Stage~II.)} standard Hopfield energy minimization for memory retrieval. This results in a significant reduction of possible meta-stable states in the Hopfield energy function, thus enhancing memory capacity by preventing memory confusion. Empirically, with real-world datasets, we demonstrate that $\mathtt{U\text{-}Hop}$ outperforms all existing modern Hopfield models and SOTA similarity measures, achieving substantial improvements in both associative memory retrieval and deep learning tasks.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# 大規模変圧器モデルのための高効率ホップフィールド層

Outlier-Efficient Hopfield Layers for Large Transformer-Based Models ( http://arxiv.org/abs/2404.03828v1 )

ライセンス: Link先を確認
Jerry Yao-Chieh Hu, Pei-Hsuan Chang, Robin Luo, Hong-Yu Chen, Weijian Li, Wei-Po Wang, Han Liu, (参考訳) ここでは,大域変圧器モデルに基づく量子化における外周誘起問題に対処するために,外周効率のよい現代ホップフィールドモデル($\mathtt{OutEffHop}$)を導入する。 我々の主な貢献は、連想記憶の検索を容易にする新しい連想記憶モデルである。 興味深いことに、このメモリモデルは、アウトリア効率の注意機構($\text{Softmax}_1$):$\mathtt{OutEffHop}$のメモリ検索プロセスの近似である。 提案手法により,新奇な外周効率を持つホップフィールド層を,量子化後の性能に優れる強力なアテンションとしてデビューさせることができる。 理論的には、Outlier-Efficient Modern Hopfield Modelは、固定点収束と指数記憶容量を含む標準的な近代ホップフィールドモデルの望ましい特性を維持し、改善する。 実験により,提案モデルの有効性は, BERT, OPT, ViT, STanHop-Netを含む大規模トランスフォーマーベースおよびホップフィールドベースモデルを対象に, $\mathtt{Clipped\_Softmax}$および$\mathtt{Gated\_Attention}$を含む最先端手法に対するベンチマークを行った。 特に、$\mathtt{OutEffHop}$は平均的なカルトーシスとモデル出力の最大無限ノルムにおいて平均$\sim$22+\%の還元で達成される。

We introduce an Outlier-Efficient Modern Hopfield Model (termed $\mathtt{OutEffHop}$) and use it to address the outlier-induced challenge of quantizing gigantic transformer-based models. Our main contribution is a novel associative memory model facilitating \textit{outlier-efficient} associative memory retrievals. Interestingly, this memory model manifests a model-based interpretation of an outlier-efficient attention mechanism ($\text{Softmax}_1$): it is an approximation of the memory retrieval process of $\mathtt{OutEffHop}$. Methodologically, this allows us to debut novel outlier-efficient Hopfield layers a powerful attention alternative with superior post-quantization performance. Theoretically, the Outlier-Efficient Modern Hopfield Model retains and improves the desirable properties of the standard modern Hopfield models, including fixed point convergence and exponential storage capacity. Empirically, we demonstrate the proposed model's efficacy across large-scale transformer-based and Hopfield-based models (including BERT, OPT, ViT and STanHop-Net), benchmarking against state-of-the-art methods including $\mathtt{Clipped\_Softmax}$ and $\mathtt{Gated\_Attention}$. Notably, $\mathtt{OutEffHop}$ achieves on average $\sim$22+\% reductions in both average kurtosis and maximum infinity norm of model outputs accross 4 models.
翻訳日:2024-04-08 17:25:49 公開日:2024-04-04
# BiSHop: 汎用スパースホップフィールドモデルによる話者データの双方向セルラー学習

BiSHop: Bi-Directional Cellular Learning for Tabular Data with Generalized Sparse Modern Hopfield Model ( http://arxiv.org/abs/2404.03830v1 )

ライセンス: Link先を確認
Chenwei Xu, Yu-Chao Huang, Jerry Yao-Chieh Hu, Weijian Li, Ammar Gilani, Hsi-Sheng Goan, Han Liu, (参考訳) 本稿では,表層学習のための新しいエンド・ツー・エンド・エンドフレームワークであるtextbf{B}i-Directional \textbf{S}parse \textbf{Hop}field Network (\textbf{BiSHop})を紹介する。 BiSHopは、深層表型学習の2つの大きな課題に対処する。 我々の主要な動機は、連想記憶と注意機構の結びつきが最近確立されたことにある。 結果として、BiSHopは2つの相互接続された指向学習モジュールを通して列と行の両方のデータを逐次処理するデュアルコンポーネントアプローチを使用する。 計算学的には、これらの加群は一般化されたスパースな現代的なホップフィールド層(英語版)の層を持ち、適応可能な間隔を持つ現代のホップフィールドモデルのスパース拡張である。 メソジカルには、BiSHopはマルチスケールの表現学習を促進し、機能内相互作用と機能間相互作用の両方を、各スケールで適応的な間隔でキャプチャする。 実証的には、さまざまな実世界のデータセットの実験を通じて、BiSHopが現在のSOTAメソッドをはるかに少ないHPOの実行で超越し、深い表層学習のための堅牢なソリューションであることを実証した。

We introduce the \textbf{B}i-Directional \textbf{S}parse \textbf{Hop}field Network (\textbf{BiSHop}), a novel end-to-end framework for deep tabular learning. BiSHop handles the two major challenges of deep tabular learning: non-rotationally invariant data structure and feature sparsity in tabular data. Our key motivation comes from the recent established connection between associative memory and attention mechanisms. Consequently, BiSHop uses a dual-component approach, sequentially processing data both column-wise and row-wise through two interconnected directional learning modules. Computationally, these modules house layers of generalized sparse modern Hopfield layers, a sparse extension of the modern Hopfield model with adaptable sparsity. Methodologically, BiSHop facilitates multi-scale representation learning, capturing both intra-feature and inter-feature interactions, with adaptive sparsity at each scale. Empirically, through experiments on diverse real-world datasets, we demonstrate that BiSHop surpasses current SOTA methods with significantly less HPO runs, marking it a robust solution for deep tabular learning.
翻訳日:2024-04-08 17:16:00 公開日:2024-04-04
# SleepVST: 事前学習型変換器を用いた近赤外ビデオ信号からの睡眠の安定

SleepVST: Sleep Staging from Near-Infrared Video Signals using Pre-Trained Transformers ( http://arxiv.org/abs/2404.03831v1 )

ライセンス: Link先を確認
Jonathan F. Carter, João Jorge, Oliver Gibson, Lionel Tarassenko, (参考訳) カメラによる生理学的モニタリングの進歩は、睡眠段階を示すことが知られている呼吸と心臓の脈の堅牢で非接触な測定を可能にした。 この結果、カメラベースの睡眠モニタリングは「ゴールドスタンダード」なポリソムノグラフィーの代替として有望な研究に繋がった。 本稿では,スリープステージ分類(スリープステージ分類)における最先端性能を実現するトランスフォーマーモデルであるSleepVSTを紹介する。 コンタクトセンサーのデータを事前トレーニングした後、SleepVSTは、SHHSデータセットとMESAデータセットで既存の呼吸睡眠ステージ法より優れており、CohenのKappaスコアは0.75と0.77である。 次に,ビデオから抽出した心呼吸波形にSleepVSTをうまく移行させることで,完全な非接触型睡眠ステージリングが可能となることを示す。 50夜のビデオデータセットを使用して、合計78.8\%の精度と、Cohenの$\kappa$0.71の4クラスビデオベースの睡眠ステージを達成し、ドメインに新たな最先端技術を確立する。

Advances in camera-based physiological monitoring have enabled the robust, non-contact measurement of respiration and the cardiac pulse, which are known to be indicative of the sleep stage. This has led to research into camera-based sleep monitoring as a promising alternative to "gold-standard" polysomnography, which is cumbersome, expensive to administer, and hence unsuitable for longer-term clinical studies. In this paper, we introduce SleepVST, a transformer model which enables state-of-the-art performance in camera-based sleep stage classification (sleep staging). After pre-training on contact sensor data, SleepVST outperforms existing methods for cardio-respiratory sleep staging on the SHHS and MESA datasets, achieving total Cohen's kappa scores of 0.75 and 0.77 respectively. We then show that SleepVST can be successfully transferred to cardio-respiratory waveforms extracted from video, enabling fully contact-free sleep staging. Using a video dataset of 50 nights, we achieve a total accuracy of 78.8\% and a Cohen's $\kappa$ of 0.71 in four-class video-based sleep staging, setting a new state-of-the-art in the domain.
翻訳日:2024-04-08 17:16:00 公開日:2024-04-04
# 物質使用障害治療完了予測のための説明可能なFairフレームワーク

An ExplainableFair Framework for Prediction of Substance Use Disorder Treatment Completion ( http://arxiv.org/abs/2404.03833v1 )

ライセンス: Link先を確認
Mary M. Lucas, Xiaoyang Wang, Chia-Hsuan Chang, Christopher C. Yang, Jacqueline E. Braughton, Quyen M. Ngo, (参考訳) 医療における機械学習モデルの公正さは、臨床医や研究者、さらには政府の最高レベルからも注目を集めている。 一方、解釈可能なモデルや説明可能なモデルの開発と展開の重要性が示されており、これらのモデルの採用の信頼性と可能性を高めるのに不可欠である。 本研究の目的は, 公平性と説明可能性の両方に対処する枠組みを開発し, 実装することであった。 本稿では、まず、最適化された性能を持つモデルを開発し、次に、人種や性別の繊細な属性に対するモデルバイアスを軽減するために、内部処理アプローチを用いる、説明可能な公平性フレームワークを提案する。 次に、機能の重要性の変化を探索し、公正性向上プロセスに繋がるモデル変更の説明を探索し、視覚化する。 得られた公正度向上モデルは、公正度の向上と、医療提供者が臨床意思決定と資源配分をガイドする上で有用な洞察を提供するであろう公正度向上の説明により、高い感度を維持している。

Fairness of machine learning models in healthcare has drawn increasing attention from clinicians, researchers, and even at the highest level of government. On the other hand, the importance of developing and deploying interpretable or explainable models has been demonstrated, and is essential to increasing the trustworthiness and likelihood of adoption of these models. The objective of this study was to develop and implement a framework for addressing both these issues - fairness and explainability. We propose an explainable fairness framework, first developing a model with optimized performance, and then using an in-processing approach to mitigate model biases relative to the sensitive attributes of race and sex. We then explore and visualize explanations of the model changes that lead to the fairness enhancement process through exploring the changes in importance of features. Our resulting-fairness enhanced models retain high sensitivity with improved fairness and explanations of the fairness-enhancement that may provide helpful insights for healthcare providers to guide clinical decision-making and resource allocation.
翻訳日:2024-04-08 17:16:00 公開日:2024-04-04
# PARIS3D:大規模マルチモーダルモデルを用いた推論に基づく3次元分割

PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model ( http://arxiv.org/abs/2404.03836v1 )

ライセンス: Link先を確認
Amrin Kareem, Jean Lahoud, Hisham Cholakkal, (参考訳) 近年の3次元認識システムの進歩は,セグメンテーションなどの視覚的認識機能を大幅に向上させた。 しかしながら、これらのシステムは、ターゲットオブジェクトやカテゴリを特定するための明示的なヒューマンインストラクションに大きく依存しており、暗黙のユーザの意図を積極的に推論し理解する能力が欠如している。 本稿では,3次元オブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力することを目的とした,3次元オブジェクトの推論部分セグメンテーションとして知られる新しいセグメンテーションタスクを提案する。 評価とベンチマークを容易にするため,60k以上の命令からなる大規模3次元データセットと,推論に基づく3次元部分分割に特化して算出された接地構造部分分割アノテーションを組み合わせて提案する。 暗黙のテキストクエリに基づいて3次元オブジェクトの一部をセグメント化し、3次元オブジェクトのセグメント化要求に対応する自然言語説明を生成するモデルを提案する。 実験により, 明示的なクエリを用いたモデルに対して, パート概念を識別し, 推論し, それらを世界的知識で補完する能力を付加して, 競合性能を達成できることが確認された。 ソースコード、データセット、トレーニングされたモデルはhttps://github.com/AmrinKareem/PARIS3D.comで公開されています。

Recent advancements in 3D perception systems have significantly improved their ability to perform visual recognition tasks such as segmentation. However, these systems still heavily rely on explicit human instruction to identify target objects or categories, lacking the capability to actively reason and comprehend implicit user intentions. We introduce a novel segmentation task known as reasoning part segmentation for 3D objects, aiming to output a segmentation mask based on complex and implicit textual queries about specific parts of a 3D object. To facilitate evaluation and benchmarking, we present a large 3D dataset comprising over 60k instructions paired with corresponding ground-truth part segmentation annotations specifically curated for reasoning-based 3D part segmentation. We propose a model that is capable of segmenting parts of 3D objects based on implicit textual queries and generating natural language explanations corresponding to 3D object segmentation requests. Experiments show that our method achieves competitive performance to models that use explicit queries, with the additional abilities to identify part concepts, reason about them, and complement them with world knowledge. Our source code, dataset, and trained models are available at https://github.com/AmrinKareem/PARIS3D.
翻訳日:2024-04-08 17:16:00 公開日:2024-04-04
# ブロック座標Descent EMOアルゴリズム:理論的および経験的解析

A Block-Coordinate Descent EMO Algorithm: Theoretical and Empirical Analysis ( http://arxiv.org/abs/2404.03838v1 )

ライセンス: Link先を確認
Benjamin Doerr, Joshua Knowles, Aneta Neumann, Frank Neumann, (参考訳) 開問題に対処する進化的多目的最適化において,ブロック座標降下が漸近的に効率的である条件が存在するかどうかを考察する。 ブロックコーディネート降下(Block-coordinate descend)は、最適化問題を決定変数の$k$ブロックに分解し、各ブロックを(他のブロックを固定した)順序で最適化する手法であり、航空スケジューリングなどの大規模最適化問題で使用されるが、多目的最適化におけるその使用はあまり研究されていない。 本稿では,GSEMOのブロックコーディネートバージョンを提案し,その実行時間を標準GSEMOアルゴリズムと比較する。 LOTZの変種である二重対象検定関数に関する理論的および実証的な結果は、ブロック座標降下がより速いケースの存在を実証するのに役立つ。 この結果は、このクラスのアルゴリズムに対するより広範な洞察をもたらす可能性がある。

We consider whether conditions exist under which block-coordinate descent is asymptotically efficient in evolutionary multi-objective optimization, addressing an open problem. Block-coordinate descent, where an optimization problem is decomposed into $k$ blocks of decision variables and each of the blocks is optimized (with the others fixed) in a sequence, is a technique used in some large-scale optimization problems such as airline scheduling, however its use in multi-objective optimization is less studied. We propose a block-coordinate version of GSEMO and compare its running time to the standard GSEMO algorithm. Theoretical and empirical results on a bi-objective test function, a variant of LOTZ, serve to demonstrate the existence of cases where block-coordinate descent is faster. The result may yield wider insights into this class of algorithms.
翻訳日:2024-04-08 17:16:00 公開日:2024-04-04
# モダリティ間の歩行認識:人間識別のためのLiDARとカメラモダリティのブリッジ化

Cross-Modality Gait Recognition: Bridging LiDAR and Camera Modalities for Human Identification ( http://arxiv.org/abs/2404.04120v1 )

ライセンス: Link先を確認
Rui Wang, Chuanfu Shen, Manuel J. Marin-Jimenez, George Q. Huang, Shiqi Yu, (参考訳) 現在の歩行認識研究は、主に同じ種類のセンサーによって捕獲された歩行者を特定することに焦点を当てており、様々な環境に適応するために、個人が異なるセンサーによって捕獲されたという事実を無視している。 より実践的なアプローチは、異なるセンサー間での相互モダリティマッチングを含むべきである。 そこで本研究では,多様な視覚センサを用いた歩行者の正確な識別を目的とした,モダリティ間歩行認識の課題について検討する。 多様なデータモダリティをクロス検索できる機能アライメント戦略に着想を得たCrossGaitを提案する。 具体的には、まず各モダリティ内の特徴を抽出し、その後、これらの特徴をモダリティ間で整列させることにより、モダリティ間認識タスクについて検討する。 そこで本研究では,2つのモーダリティ特化特徴からモーダリティ共有特徴を学習するプロトタイプ型モーダリティ共有アテンションモジュールを提案する。 さらに、学習したモダリティ固有の特徴を統一された特徴空間に変換するクロスモダリティ特徴適応器を設計する。 SUSTech1Kデータセットで実施した大規模な実験は、(1)多様な場面で異なるセンサーから様々なモードで歩行者を検索する上で有望なクロスモダリティ能力を示し、(2)クロスゲイトは、クロスモダリティ歩行認識のためのモダリティ共有の特徴を学習するだけでなく、単一モダリティ認識のためのモダリティ特有な特徴も維持する。

Current gait recognition research mainly focuses on identifying pedestrians captured by the same type of sensor, neglecting the fact that individuals may be captured by different sensors in order to adapt to various environments. A more practical approach should involve cross-modality matching across different sensors. Hence, this paper focuses on investigating the problem of cross-modality gait recognition, with the objective of accurately identifying pedestrians across diverse vision sensors. We present CrossGait inspired by the feature alignment strategy, capable of cross retrieving diverse data modalities. Specifically, we investigate the cross-modality recognition task by initially extracting features within each modality and subsequently aligning these features across modalities. To further enhance the cross-modality performance, we propose a Prototypical Modality-shared Attention Module that learns modality-shared features from two modality-specific features. Additionally, we design a Cross-modality Feature Adapter that transforms the learned modality-specific features into a unified feature space. Extensive experiments conducted on the SUSTech1K dataset demonstrate the effectiveness of CrossGait: (1) it exhibits promising cross-modality ability in retrieving pedestrians across various modalities from different sensors in diverse scenes, and (2) CrossGait not only learns modality-shared features for cross-modality gait recognition but also maintains modality-specific features for single-modality recognition.
翻訳日:2024-04-08 15:55:28 公開日:2024-04-04
# 指数データのない「ゼロショット」:マルチモーダルモデルの性能を規定する概念周波数の事前学習

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance ( http://arxiv.org/abs/2404.04125v1 )

ライセンス: Link先を確認
Vishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge, (参考訳) ウェブクロールプレトレーニングデータセットは、分類/検索のためのCLIPや画像生成のための安定拡散といったマルチモーダルモデルの印象的な「ゼロショット」評価性能を提供する。 しかしながら、「ゼロショット」の一般化の概念がそのようなマルチモーダルモデルにとってどの程度意味があるのかは、その事前学習データセットが「ゼロショット」評価時にターゲットとする下流の概念をどの程度包含しているかは分かっていない。 事前学習データセットにおけるこれらの概念の頻度に影響された下流概念のマルチモーダルモデルの性能は、どのように影響されるのか? この問題を、34のモデルと5つの標準事前トレーニングデータセット(CC-3M、CC-12M、YFCC-15M、LAION-400M、LAION-Aesthetics)で包括的に調査し、300GB以上のデータアーティファクトを生成する。 マルチモーダルモデルは「ゼロショット」の一般化を示すことよりも、下流の「ゼロショット」性能の線形改善を実現するために指数関数的に多くのデータを必要とする。 この傾向は、事前学習データセットと下流データセットのサンプルレベルの類似性を制御したり、純粋に合成されたデータ分布をテストする場合にも継続する。 さらに,本分析に基づいてサンプリングした長期データに対するベンチマークモデルを用いて,ボード全体のマルチモーダルモデルの性能が低かったことを実証した。 我々はこのロングテールテストセットを"Let it Wag!"ベンチマークとして、この方向のさらなる研究に貢献する。 本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵はいまだ発見されていないことを示唆する,トレーニングデータに対する指数関数的なニーズを明らかにした。

Web-crawled pretraining datasets underlie the impressive "zero-shot" evaluation performance of multimodal models, such as CLIP for classification/retrieval and Stable-Diffusion for image generation. However, it is unclear how meaningful the notion of "zero-shot" generalization is for such multimodal models, as it is not known to what extent their pretraining datasets encompass the downstream concepts targeted for during "zero-shot" evaluation. In this work, we ask: How is the performance of multimodal models on downstream concepts influenced by the frequency of these concepts in their pretraining datasets? We comprehensively investigate this question across 34 models and five standard pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data artifacts. We consistently find that, far from exhibiting "zero-shot" generalization, multimodal models require exponentially more data to achieve linear improvements in downstream "zero-shot" performance, following a sample inefficient log-linear scaling trend. This trend persists even when controlling for sample-level similarity between pretraining and downstream datasets, and testing on purely synthetic data distributions. Furthermore, upon benchmarking models on long-tailed data sampled based on our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this long-tail test set as the "Let it Wag!" benchmark to further research in this direction. Taken together, our study reveals an exponential need for training data which implies that the key to "zero-shot" generalization capabilities under large-scale training paradigms remains to be found.
翻訳日:2024-04-08 15:45:42 公開日:2024-04-04
# 学習したグアシアンスプラッツレンダリングと微調整拡散特性による雲の復元とデノナイズ

Few-shot point cloud reconstruction and denoising via learned Guassian splats renderings and fine-tuned diffusion features ( http://arxiv.org/abs/2404.01112v3 )

ライセンス: Link先を確認
Pietro Bonazzi, (参考訳) 点雲の復元と復調のための既存のディープラーニング手法は、3次元形状の小さなデータセットに依存している。 何十億もの画像で訓練されたディープラーニング手法を活用することで、この問題を回避する。 画像ベース深層学習モデルから抽出した事前知識を利用して,少ない画像から点雲を再構成し,そのレンダリングから点雲を識別する手法を提案する。 制約設定の再構築を改善するために,意味的整合性管理を導入することで,ハイブリッド表面と外観の相違可能なレンダラーのトレーニングを規則化する。 さらに、ノイズの多い点雲の描画を微調整する安定拡散パイプラインを提案し、これらの学習されたフィルタを用いて、3Dの監督なしに来る点雲ノイズを除去する方法を実証する。 提案手法をDSSとPointRadianceと比較し,Sketchfab TestsetとSCUT Datasetで高品質な3D再構成を実現した。

Existing deep learning methods for the reconstruction and denoising of point clouds rely on small datasets of 3D shapes. We circumvent the problem by leveraging deep learning methods trained on billions of images. We propose a method to reconstruct point clouds from few images and to denoise point clouds from their rendering by exploiting prior knowledge distilled from image-based deep learning models. To improve reconstruction in constraint settings, we regularize the training of a differentiable renderer with hybrid surface and appearance by introducing semantic consistency supervision. In addition, we propose a pipeline to finetune Stable Diffusion to denoise renderings of noisy point clouds and we demonstrate how these learned filters can be used to remove point cloud noise coming without 3D supervision. We compare our method with DSS and PointRadiance and achieved higher quality 3D reconstruction on the Sketchfab Testset and SCUT Dataset.
翻訳日:2024-04-08 11:45:06 公開日:2024-04-04
# シーングラフからの3次元シーン生成と自己注意

3D scene generation from scene graphs and self-attention ( http://arxiv.org/abs/2404.01887v2 )

ライセンス: Link先を確認
Pietro Bonazzi, (参考訳) リアルで多様な屋内3Dシーンレイアウトをコントロール可能な方法で合成することで、シミュレートされたナビゲーションとバーチャルリアリティーの応用が開かれる。 シーンの簡潔で堅牢な表現として、シーングラフは生成されたレイアウトのセマンティックコントロールとして適していることが証明されている。 本稿では,シーングラフとフロアプランから3次元シーンを合成する条件付き変分オートエンコーダ(cVAE)モデルを提案する。 我々は、シーン内のオブジェクト間の高レベルな関係をキャプチャするために、自己注意層の特性を利用し、これらをモデルの構築ブロックとして使用します。 本モデルでは,室内の物体の大きさ,寸法,配向を推定するために,所定のシーングラフ内の関係を満足させながらグラフトランスフォーマーを利用する。 実験では、自己保持層がスペーサー(Graphto3Dの7.9倍)とより多様なシーン(16%)につながることが示された。

Synthesizing realistic and diverse indoor 3D scene layouts in a controllable fashion opens up applications in simulated navigation and virtual reality. As concise and robust representations of a scene, scene graphs have proven to be well-suited as the semantic control on the generated layout. We present a variant of the conditional variational autoencoder (cVAE) model to synthesize 3D scenes from scene graphs and floor plans. We exploit the properties of self-attention layers to capture high-level relationships between objects in a scene, and use these as the building blocks of our model. Our model, leverages graph transformers to estimate the size, dimension and orientation of the objects in a room while satisfying relationships in the given scene graph. Our experiments shows self-attention layers leads to sparser (7.9x compared to Graphto3D) and more diverse scenes (16%).
翻訳日:2024-04-08 11:37:03 公開日:2024-04-04
# InstantStyle: テキスト・ツー・イメージ生成におけるスタイル保存に向けたフリーランチ

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation ( http://arxiv.org/abs/2404.02733v2 )

ライセンス: Link先を確認
Haofan Wang, Matteo Spinelli, Qixun Wang, Xu Bai, Zekui Qin, Anthony Chen, (参考訳) 教師なし拡散に基づくモデルは、画像のパーソナライゼーションとカスタマイズの領域において大きな可能性を証明している。 しかし、この顕著な進歩にもかかわらず、現在のモデルは、スタイル一貫性のある画像生成において、いくつかの複雑な課題に悩まされ続けている。 第一に、スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造など多岐にわたる要素を包含している。 第二に、インバージョンベースの手法はスタイル劣化の傾向があり、しばしば細かな詳細が失われる。 最後に、アダプタベースのアプローチでは、スタイル強度とテキスト制御性のバランスをとるために、各参照画像に対して綿密な重み調整が必要となることが多い。 本稿では,いくつかの観測結果から開始するが,見落とされがちな観測結果について考察する。 InstantStyleは2つの主要な戦略の実装を通じてこれらの問題に対処するように設計されたフレームワークです。 1) 特徴空間内の参照画像からスタイルと内容を分離する簡単なメカニズムであって、同一空間内の特徴を互いに付加または減算することができるという仮定に基づいている。 2) 参照画像の特徴をスタイル固有のブロックに限定的に注入することにより,スタイルリークを防止し,よりパラメータの多いデザインを特徴付けるような重み調整の必要性を解消し,スタイルの強度とテキスト要素の制御性との最適なバランスを図りながら,優れた視覚的スタイライズ結果を示す。 私たちのコードはhttps://github.com/InstantStyle/InstantStyleで利用可能です。

Tuning-free diffusion-based models have demonstrated significant potential in the realm of image personalization and customization. However, despite this notable progress, current models continue to grapple with several complex challenges in producing style-consistent image generation. Firstly, the concept of style is inherently underdetermined, encompassing a multitude of elements such as color, material, atmosphere, design, and structure, among others. Secondly, inversion-based methods are prone to style degradation, often resulting in the loss of fine-grained details. Lastly, adapter-based approaches frequently require meticulous weight tuning for each reference image to achieve a balance between style intensity and text controllability. In this paper, we commence by examining several compelling yet frequently overlooked observations. We then proceed to introduce InstantStyle, a framework designed to address these issues through the implementation of two key strategies: 1) A straightforward mechanism that decouples style and content from reference images within the feature space, predicated on the assumption that features within the same space can be either added to or subtracted from one another. 2) The injection of reference image features exclusively into style-specific blocks, thereby preventing style leaks and eschewing the need for cumbersome weight tuning, which often characterizes more parameter-heavy designs.Our work demonstrates superior visual stylization outcomes, striking an optimal balance between the intensity of style and the controllability of textual elements. Our codes will be available at https://github.com/InstantStyle/InstantStyle.
翻訳日:2024-04-08 11:37:03 公開日:2024-04-04
# 心臓科における深層学習

Deep Learning in Cardiology ( http://arxiv.org/abs/1902.11122v5 )

ライセンス: Link先を確認
Paschalis Bizopoulos, Dimitrios Koutsouris, (参考訳) 医療分野は、医師が解読し、効率的に使用できない大量のデータを作成している。 さらに、ルールベースのエキスパートシステムは、複雑な医療課題の解決やビッグデータによる洞察の創造に非効率である。 深層学習は、診断、予測、介入など幅広い医療問題において、より正確で効果的な技術として現れてきた。 ディープラーニングは、データを非線形に変換するレイヤで構成された表現学習手法であり、階層的な関係と構造を明らかにする。 本稿では, 構造化データ, 信号, 画像モダリティを用いた深層学習応用論文について検討する。 医学全般にも応用できる深層学習のメリットと限界について論じるとともに,臨床応用において最も有効な方法として,特定の方向を提案する。

The medical field is creating large amount of data that physicians are unable to decipher and use efficiently. Moreover, rule-based expert systems are inefficient in solving complicated medical tasks or for creating insights using big data. Deep learning has emerged as a more accurate and effective technology in a wide range of medical problems such as diagnosis, prediction and intervention. Deep learning is a representation learning method that consists of layers that transform the data non-linearly, thus, revealing hierarchical relationships and structures. In this review we survey deep learning application papers that use structured data, signal and imaging modalities from cardiology. We discuss the advantages and limitations of applying deep learning in cardiology that also apply in medicine in general, while proposing certain directions as the most viable for clinical use.
翻訳日:2024-04-07 23:24:36 公開日:2024-04-04
# 粒度の大きいオブジェクトセグメンテーションに向けて - 2020年の3D AIチャレンジへの第1の解決 -- インスタンスセグメンテーショントラック

Towards Fine-grained Large Object Segmentation 1st Place Solution to 3D AI Challenge 2020 -- Instance Segmentation Track ( http://arxiv.org/abs/2009.04650v2 )

ライセンス: Link先を確認
Zehui Chen, Qiaofei Li, Feng Zhao, (参考訳) このテクニカルレポートでは、3D AI Challenge 2020で、インスタンスセグメンテーショントラックのためのTeam 'FineGrainedSeg'のソリューションを紹介します。 3D-Futureで非常に大きなオブジェクトを扱うために、HTCやSOLOv2に比べてきめ細かいマスクを出力するPointRendを基本フレームワークとして採用しています。 最後の提出は5つのPointRendモデルのアンサンブルで、検証とテストのリーダーボードの両方で1位を獲得します。 コードはhttps://github.com/zehuichen123/3DFuture_ins_segで公開されている。

This technical report introduces our solutions of Team 'FineGrainedSeg' for Instance Segmentation track in 3D AI Challenge 2020. In order to handle extremely large objects in 3D-FUTURE, we adopt PointRend as our basic framework, which outputs more fine-grained masks compared to HTC and SOLOv2. Our final submission is an ensemble of 5 PointRend models, which achieves the 1st place on both validation and test leaderboards. The code is available at https://github.com/zehuichen123/3DFuture_ins_seg.
翻訳日:2024-04-07 23:24:36 公開日:2024-04-04
# ニューラルランダムフォレスト模倣

Neural Random Forest Imitation ( http://arxiv.org/abs/1911.10829v2 )

ライセンス: Link先を確認
Christoph Reinders, Bodo Rosenhahn, (参考訳) 我々は、ランダムな森林をニューラルネットワークに変換する新しいアプローチとして、ニューラルランダムフォレスト・イミテーション(Neural Random Forest Imitation)を提案する。 既存の手法では、直接マッピングを提案し、非常に非効率なアーキテクチャを生成する。 本研究では、ランダムな森林からトレーニングデータを生成し、その振る舞いを模倣するニューラルネットワークを学習することで、模倣学習アプローチを導入する。 この暗黙的な変換は、ランダムな森林の決定境界を学習する非常に効率的なニューラルネットワークを生成する。 生成されたモデルは微分可能で、微調整の温かいスタートとして使用することができ、エンドツーエンドの最適化を可能にする。 いくつかの実世界のベンチマークデータセットの実験は、特にほとんどトレーニング例のないトレーニングでは、優れたパフォーマンスを示している。 最先端手法と比較して,ネットワークパラメータの数を著しく削減すると同時に,より一般化された結果,精度も向上した。

We present Neural Random Forest Imitation - a novel approach for transforming random forests into neural networks. Existing methods propose a direct mapping and produce very inefficient architectures. In this work, we introduce an imitation learning approach by generating training data from a random forest and learning a neural network that imitates its behavior. This implicit transformation creates very efficient neural networks that learn the decision boundaries of a random forest. The generated model is differentiable, can be used as a warm start for fine-tuning, and enables end-to-end optimization. Experiments on several real-world benchmark datasets demonstrate superior performance, especially when training with very few training examples. Compared to state-of-the-art methods, we significantly reduce the number of network parameters while achieving the same or even improved accuracy due to better generalization.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-04
# 奥行きLSTMを用いた変圧器のリライト

Rewiring the Transformer with Depth-Wise LSTMs ( http://arxiv.org/abs/2007.06257v2 )

ライセンス: Link先を確認
Hongfei Xu, Yang Song, Qiuhui Liu, Josef van Genabith, Deyi Xiong, (参考訳) 非線形レイヤを積み重ねることで、ディープニューラルネットワークが複雑な関数をモデル化し、Transformerレイヤの残余接続を含めることは、収束とパフォーマンスに有益である。 しかし、余分な接続により、モデルが遠方のレイヤを「忘れる」ことができ、前のレイヤからの情報を効果的に融合することができない可能性がある。 Transformerレイヤの表現アグリゲーションを選択的に管理することで、パフォーマンスが向上する可能性がある。 本稿では,カスケードトランス層とサブ層を接続する奥行きLSTMを用いた変圧器を提案する。 本研究では,トランスフォーマー層内の層正規化とフィードフォワード計算を,純粋なトランスフォーマーアテンション層を接続する深度ワイドLSTMに吸収可能であることを示す。 6層トランスを用いた実験では,WMT 14英語-ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方においてBLEUの大幅な改善が見られ,深層トランスフォーマーの収束と性能に対する深部LSTMの有効性が実証された。

Stacking non-linear layers allows deep neural networks to model complicated functions, and including residual connections in Transformer layers is beneficial for convergence and performance. However, residual connections may make the model "forget" distant layers and fail to fuse information from previous layers effectively. Selectively managing the representation aggregation of Transformer layers may lead to better performance. In this paper, we present a Transformer with depth-wise LSTMs connecting cascading Transformer layers and sub-layers. We show that layer normalization and feed-forward computation within a Transformer layer can be absorbed into depth-wise LSTMs connecting pure Transformer attention layers. Our experiments with the 6-layer Transformer show significant BLEU improvements in both WMT 14 English-German / French tasks and the OPUS-100 many-to-many multilingual NMT task, and our deep Transformer experiments demonstrate the effectiveness of depth-wise LSTM on the convergence and performance of deep Transformers.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-04
# オープンワールド知識グラフにおけるエンティティの分散表現

Distributed Representations of Entities in Open-World Knowledge Graphs ( http://arxiv.org/abs/2010.08114v2 )

ライセンス: Link先を確認
Lingbing Guo, Zhuo Chen, Jiaoyan Chen, Yichi Zhang, Zequn Sun, Zhongpo Bo, Yin Fang, Xiaoze Liu, Huajun Chen, Wen Zhang, (参考訳) グラフニューラルネットワーク(GNN)に基づく手法は,様々な知識グラフ(KG)タスクにおいて顕著な性能を示した。 しかし、既存のほとんどのアプローチは、トレーニング中にすべてのエンティティを観察することに依存しており、新しいエンティティが頻繁に出現する現実世界の知識グラフにおいて課題を提起している。 この制限に対処するため、分散注意ネットワーク(DAN)を導入する。 DANは、隣接するコンテキストをクエリベクトルとして利用し、エンティティの隣人を評価することで、エンティティのセマンティクスを隣人の埋め込みの中でのみ分散する。 DANを効果的に訓練するために、所望の表現を生成する際にネットワークを誘導する技法である自己蒸留を導入する。 理論的解析は我々のアプローチの有効性を検証する。 エンド・ツー・エンドのフレームワークを実装し,提案手法の評価を行い,従来のエンティティアライメントとエンティティ予測タスクにおける競合性能を示す。 さらに,本手法は,オープンワールド設定における既存手法よりも優れていた。

Graph neural network (GNN)-based methods have demonstrated remarkable performance in various knowledge graph (KG) tasks. However, most existing approaches rely on observing all entities during training, posing a challenge in real-world knowledge graphs where new entities emerge frequently. To address this limitation, we introduce Decentralized Attention Network (DAN). DAN leverages neighbor context as the query vector to score the neighbors of an entity, thereby distributing the entity semantics only among its neighbor embeddings. To effectively train a DAN, we introduce self-distillation, a technique that guides the network in generating desired representations. Theoretical analysis validates the effectiveness of our approach. We implement an end-to-end framework and conduct extensive experiments to evaluate our method, showcasing competitive performance on conventional entity alignment and entity prediction tasks. Furthermore, our method significantly outperforms existing methods in open-world settings.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-04
# 多段階モデリングによるアンタングル表現学習者の再構築

Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling ( http://arxiv.org/abs/2010.13187v2 )

ライセンス: Link先を確認
Akash Srivastava, Yamini Bansal, Yukun Ding, Cole Lincoln Hurwitz, Kai Xu, Bernhard Egger, Prasanna Sattigeri, Joshua B. Tenenbaum, Phuong Le, Arun Prakash R, Nengfeng Zhou, Joel Vaughan, Yaquan Wang, Anwesha Bhattacharyya, Kristjan Greenewald, David D. Cox, Dan Gutfreund, (参考訳) 現在の自己エンコーダに基づく非絡み合い表現学習法は、後部(アグリゲート)をペナル化して、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。 このアプローチは、ほとんどの画像データに存在する詳細情報をキャプチャする相関潜伏変数を学習するのに十分な能力を持っていないため、不整合表現学習と再構成品質のトレードオフを導入する。 このトレードオフを克服するために、ペナルティに基づく非絡み合い表現学習法を用いて、まず非絡み合い因子を学習する新しい多段階モデリング手法を提案する。 D-分離の原理によって理論的に正当化され、変分自己エンコーダや生成逆数ネットワークのような暗黙的モデル、正規化フローやガウスの混合物のようなトラクタブルモデルを含む様々なモデルクラスで実現できる。 提案するマルチステージモデルは,複数の標準ベンチマークにおいて等価なアンタングル性能を有する現在の最先端手法よりも高い再現性を有することを示す。 さらに,マルチステージモデルを用いて合成表付きデータセットを生成することにより,ベンチマークモデルに対する各種メトリクスの性能向上を示す。 さらに, 解釈可能性解析により, 多段階モデルにより, 元の分布を復元できる変分の特徴を効果的に発見できることが示唆された。

Current autoencoder-based disentangled representation learning methods achieve disentanglement by penalizing the (aggregate) posterior to encourage statistical independence of the latent factors. This approach introduces a trade-off between disentangled representation learning and reconstruction quality since the model does not have enough capacity to learn correlated latent variables that capture detail information present in most image data. To overcome this trade-off, we present a novel multi-stage modeling approach where the disentangled factors are first learned using a penalty-based disentangled representation learning method; then, the low-quality reconstruction is improved with another deep generative model that is trained to model the missing correlated latent variables, adding detail information while maintaining conditioning on the previously learned disentangled factors. Taken together, our multi-stage modelling approach results in a single, coherent probabilistic model that is theoretically justified by the principal of D-separation and can be realized with a variety of model classes including likelihood-based models such as variational autoencoders, implicit models such as generative adversarial networks, and tractable models like normalizing flows or mixtures of Gaussians. We demonstrate that our multi-stage model has higher reconstruction quality than current state-of-the-art methods with equivalent disentanglement performance across multiple standard benchmarks. In addition, we apply the multi-stage model to generate synthetic tabular datasets, showcasing an enhanced performance over benchmark models across a variety of metrics. The interpretability analysis further indicates that the multi-stage model can effectively uncover distinct and meaningful features of variations from which the original distribution can be recovered.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-04
# 単一絡み目計測による絡み目分類

Entanglement Classification via Single Entanglement Measure ( http://arxiv.org/abs/2106.00850v3 )

ライセンス: Link先を確認
Adam Burchardt, Gonçalo M. Quinta, Rui André, (参考訳) 本稿では,SLOCC(Stochastic Local Operations with Classical Communication)の下での一般的な$n$-qubit状態間の等価性を検証するのに,単一の多項式絡み合い尺度が十分であることを示す。 SLOCC演算は、ブロッホ球上のエンタングルメント測度の根上のM\"obius変換によって幾何学的に表現することができる。 さらに, 3-tangle測度の根が 4-qubit のジェネリック状態をどのように分類するかを示し, 可能な無限反復手順をバイパスする 4-qubit 状態の正規形式を得る方法を提案する。

We show that a single polynomial entanglement measure is enough to verify equivalence between generic $n$-qubit states under Stochastic Local Operations with Classical Communication (SLOCC). SLOCC operations may be represented geometrically by M\"obius transformations on the roots of the entanglement measure on the Bloch sphere. Moreover, we show how the roots of the 3-tangle measure classify 4-qubit generic states, and propose a method to obtain the normal form of a 4-qubit state which bypasses the possibly infinite iterative procedure.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-04
# 相容れない文脈

Contextuality without incompatibility ( http://arxiv.org/abs/2106.09045v3 )

ライセンス: Link先を確認
John H. Selby, David Schmid, Elie Wolfe, Ana Belén Sainz, Ravi Kunjwal, Robert W. Spekkens, (参考訳) 不整合の測定の存在は、古典的な世界観と矛盾する量子論の特徴であると考えられている。 Kochen-Specker の非コンテクスト性という意味での古典性の失敗を証明するためには、実際には非互換な測定の集合を必要とする。 しかし、より広く適用可能な古典性の概念は、一般化された非文脈的存在論モデルの存在である。 特に、この概念は単一の非射影測度においても結果の表現に制約を課すことができる。 この事実を利用して、一般の非コンテクスト性の失敗の証明には、測定の不整合性は必要ないこと、あるいは十分であることを示す。 さらに、量子的準備測度シナリオにおける一般化された非コンテキスト性の失敗のすべての証明は、不整合測定のない対応するシナリオにおける一般化された非コンテキスト性の失敗の証明に変換可能であることを示す。

The existence of incompatible measurements is often believed to be a feature of quantum theory which signals its inconsistency with any classical worldview. To prove the failure of classicality in the sense of Kochen-Specker noncontextuality, one does indeed require sets of incompatible measurements. However, a more broadly applicable notion of classicality is the existence of a generalized-noncontextual ontological model. In particular, this notion can imply constraints on the representation of outcomes even within a single nonprojective measurement. We leverage this fact to demonstrate that measurement incompatibility is neither necessary nor sufficient for proofs of the failure of generalized noncontextuality. Furthermore, we show that every proof of the failure of generalized noncontextuality in a quantum prepare-measure scenario can be converted into a proof of the failure of generalized noncontextuality in a corresponding scenario with no incompatible measurements.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-04
# 一般化確率論のアクセシブルフラグメント、コーン同値および非古典性目撃への応用

Accessible fragments of generalized probabilistic theories, cone equivalence, and applications to witnessing nonclassicality ( http://arxiv.org/abs/2112.04521v3 )

ライセンス: Link先を確認
John H. Selby, David Schmid, Elie Wolfe, Ana Belén Sainz, Ravi Kunjwal, Robert W. Spekkens, (参考訳) 一般化確率論(GPT)の形式主義は、もともと、知覚可能な物理理論の風景を特徴づける手段として開発された。 したがって、与えられた物理理論を記述する GPT は必然的に全ての物理的可能な過程を含む。 本稿では、与えられた物理理論の中で、特定の実験的な設定のGPT的特徴を与える方法について考察する。 得られた特徴は一般的には GPT ではなく、それ自身ではなく、より一般的な数学的対象によって説明され、アクセス可能な GPT フラグメントを導入し、定義する。 次に、アクセス可能なGPTフラグメント(および特別な場合として標準GPT間の)の間に、コーン同値(cone equivalence)と呼ばれる同値関係を導入する。 本稿では、GPTフラグメントを用いて最もよく記述される実験シナリオの例を挙げ、さらにコーン等価性が自然に生じる事例について述べる。 すると、アクセス可能なGPTフラグメントが古典的な説明を許容していることと、それと等価である他のすべてのフラグメントが古典的な説明を許容することを証明する。 最後に、この結果を利用して、一般化された非文脈性の失敗を目撃するための実験的な要件について、いくつかの基礎的な結果を示す。 特に、一般化された非文脈性の失敗を目撃するには、測定の不適合性も選択の自由の仮定も必要ないこと、さらに、任意に非効率な検出器を用いても、そのような失敗を目撃することは可能であることを証明している。

The formalism of generalized probabilistic theories (GPTs) was originally developed as a way to characterize the landscape of conceivable physical theories. Thus, the GPT describing a given physical theory necessarily includes all physically possible processes. We here consider the question of how to provide a GPT-like characterization of a particular experimental setup within a given physical theory. We show that the resulting characterization is not generally a GPT in and of itself-rather, it is described by a more general mathematical object that we introduce and term an accessible GPT fragment. We then introduce an equivalence relation, termed cone equivalence, between accessible GPT fragments (and, as a special case, between standard GPTs). We give a number of examples of experimental scenarios that are best described using accessible GPT fragments, and where moreover cone-equivalence arises naturally. We then prove that an accessible GPT fragment admits of a classical explanation if and only if every other fragment that is cone-equivalent to it also admits of a classical explanation. Finally, we leverage this result to prove several fundamental results regarding the experimental requirements for witnessing the failure of generalized noncontextuality. In particular, we prove that neither incompatibility among measurements nor the assumption of freedom of choice is necessary for witnessing failures of generalized noncontextuality, and, moreover, that such failures can be witnessed even using arbitrarily inefficient detectors.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# 眼底画像のロバスト深層学習--一般化のための実データと合成データをブリッジする

Robust deep learning for eye fundus images: Bridging real and synthetic data for enhancing generalization ( http://arxiv.org/abs/2203.13856v2 )

ライセンス: Link先を確認
Guilherme C. Oliveira, Gustavo H. Rosa, Daniel C. G. Pedronette, João P. Papa, Himeesh Kumar, Leandro A. Passos, Dinesh Kumar, (参考訳) 医学画像を評価するためのディープラーニングアプリケーションは、データセットが小さく不均衡であることが多いため、制限されている。 合成データの利用は文献で提案されているが、異なる方法の堅牢な比較や一般化性は報告されていない。 本手法は,網膜画像品質評価モデルとStyleGAN2アーキテクチャを統合し,加齢関連黄斑変性(AMD)の検出能力を向上し,一般化性を向上させる。 この研究は、GAN(Generative Adversarial Network)アーキテクチャを10の異なるアーキテクチャと比較し、AMDなしで合成眼底画像を生成する。 私たちは3つのパブリックデータベース(iChallenge-AMD、ODIR-2019、RIADD)のサブセットを組み合わせて、単一のトレーニングとテストセットを作りました。 我々は、STAREデータセットを外部検証に使用し、提案手法の総合的な評価を確実にした。 その結果、StyleGAN2は最も低いFrechet Inception Distance(166.17)に達し、臨床医は実際の画像と合成画像とを正確に区別できなかった。 ResNet-18アーキテクチャは85%の精度で最高の性能を獲得し、2人の専門家(80%と75%)がAMDの眼底画像を検出するのに優れていた。 精度はテストセットで82.8%、STAREデータセットで81.3%であり、モデルの一般化可能性を示している。 合成医用画像生成法は, この分野でのさらなる研究・開発のために, そのコードに自由にアクセスできるように, 堅牢性と精度で検証されている。

Deep learning applications for assessing medical images are limited because the datasets are often small and imbalanced. The use of synthetic data has been proposed in the literature, but neither a robust comparison of the different methods nor generalizability has been reported. Our approach integrates a retinal image quality assessment model and StyleGAN2 architecture to enhance Age-related Macular Degeneration (AMD) detection capabilities and improve generalizability. This work compares ten different Generative Adversarial Network (GAN) architectures to generate synthetic eye-fundus images with and without AMD. We combined subsets of three public databases (iChallenge-AMD, ODIR-2019, and RIADD) to form a single training and test set. We employed the STARE dataset for external validation, ensuring a comprehensive assessment of the proposed approach. The results show that StyleGAN2 reached the lowest Frechet Inception Distance (166.17), and clinicians could not accurately differentiate between real and synthetic images. ResNet-18 architecture obtained the best performance with 85% accuracy and outperformed the two human experts (80% and 75%) in detecting AMD fundus images. The accuracy rates were 82.8% for the test set and 81.3% for the STARE dataset, demonstrating the model's generalizability. The proposed methodology for synthetic medical image generation has been validated for robustness and accuracy, with free access to its code for further research and development in this field.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# 非古典性テストのための線形プログラムとオープンソース実装

A linear program for testing nonclassicality and an open-source implementation ( http://arxiv.org/abs/2204.11905v3 )

ライセンス: Link先を確認
John H. Selby, Elie Wolfe, David Schmid, Ana Belén Sainz, Vinicius P. Rossi, (参考訳) 実験が古典的な説明に抵抗することを示すためのよく動機付けられた方法は、その統計が一般化された非文脈性に反することを示すことである。 本稿では,この問題を線形プログラムとして定式化し,任意の準備実験が古典的に説明可能であるか否かを検証したオープンソース実装を提供する。 プログラムへの入力は、単に任意の量子状態の集合と任意の量子効果の集合であり、このプログラムは、これらの全てのペアによって生成されるボルンルール統計が古典的な(非文脈的な)モデルで説明できるかどうかを決定する。 古典的モデルが存在する場合、明示的なモデルを提供する。 そうでなければ、モデルが存在するように追加しなければならない最小限のノイズを計算し、そのモデルを提供する。 これらの結果は、任意の一般化された確率論(およびそれらのアクセシブルな断片)にも一般化される。

A well motivated method for demonstrating that an experiment resists any classical explanation is to show that its statistics violate generalized noncontextuality. We here formulate this problem as a linear program and provide an open-source implementation of it which tests whether or not any given prepare-measure experiment is classically-explainable in this sense. The input to the program is simply an arbitrary set of quantum states and an arbitrary set of quantum effects; the program then determines if the Born rule statistics generated by all pairs of these can be explained by a classical (noncontextual) model. If a classical model exists, it provides an explicit model. If it does not, then it computes the minimal amount of noise that must be added such that a model does exist, and then provides this model. We generalize all these results to arbitrary generalized probabilistic theories (and accessible fragments thereof) as well; indeed, our linear program is a test of simplex-embeddability.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# 線形分類器の自己学習のレプリカ解析

A replica analysis of Self-Training of Linear Classifier ( http://arxiv.org/abs/2205.07739v2 )

ライセンス: Link先を確認
Takashi Takahashi, (参考訳) セルフトレーニング(ST)は、半教師付き学習におけるシンプルで標準的なアプローチであり、多くの機械学習問題に適用されている。 広く受け入れられ、実際的な効果があるにもかかわらず、なぜSTが間違った擬似ラベルにモデルを適合させることでパフォーマンスを改善するのかは、まだよく分かっていない。 本研究では, 線形分類器の訓練において, 入力次元とデータサイズが比例する漸近的限界において, 2成分ガウス混合物の隆起・正則化凸損失を最小化することにより, 繰り返しSTの挙動の鋭い特徴を導出し, 解析する。 この導出は統計力学の複製法に基づいている。 その結果, 繰り返し回数の総和が大きい場合, ST はラベルの不均衡にかかわらず, 長い反復で小さなパラメータの更新を蓄積することにより, 最適方向の分類平面を求めることができることがわかった。 これは、STの小さな更新が、ほとんどノイズのない方法でデータの情報を蓄積できるためである、と論じられている。 しかし、ラベルの不均衡が真のラベルに存在する場合、重みのノルムとバイアスの大きさの比が著しく大きくなるため、STの性能は真のラベルによる教師あり学習よりも著しく低い。 ラベルの不均衡ケースの問題を克服するために、いくつかのヒューリスティックスを導入している。 漸近式を数値解析することにより,提案したヒューリスティックスにより,有意なラベルの不均衡が存在する場合でも,真のラベルを用いた教師あり学習とほぼ互換性のある分類器が見つかることを示した。

Self-training (ST) is a simple and standard approach in semi-supervised learning that has been applied to many machine learning problems. Despite its widespread acceptance and practical effectiveness, it is still not well understood why and how ST improves performance by fitting the model to potentially erroneous pseudo-labels. To investigate the properties of ST, in this study, we derive and analyze a sharp characterization of the behavior of iterative ST when training a linear classifier by minimizing the ridge-regularized convex loss for binary Gaussian mixtures, in the asymptotic limit where input dimension and data size diverge proportionally. The derivation is based on the replica method of statistical mechanics. The result indicates that, when the total number of iterations is large, ST may find a classification plane with the optimal direction regardless of the label imbalance by accumulating small parameter updates over long iterations. It is argued that this is because the small update of ST can accumulate information of the data in an almost noiseless way. However, when a label imbalance is present in true labels, the performance of the ST is significantly lower than that of supervised learning with true labels, because the ratio between the norm of the weight and the magnitude of the bias can become significantly large. To overcome the problems in label imbalanced cases, several heuristics are introduced. By numerically analyzing the asymptotic formula, it is demonstrated that with the proposed heuristics, ST can find a classifier whose performance is nearly compatible with supervised learning using true labels even in the presence of significant label imbalance.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# DeepIPC: 実環境における自動運転車の深い統合認識と制御

DeepIPC: Deeply Integrated Perception and Control for an Autonomous Vehicle in Real Environments ( http://arxiv.org/abs/2207.09934v7 )

ライセンス: Link先を確認
Oskar Natan, Jun Miura, (参考訳) 本研究では、自律運転に適した新しいエンドツーエンドモデルであるDeepIPCを紹介し、知覚と制御タスクをシームレスに統合する。 これらのタスクを別々に扱う従来のモデルとは異なり、DeepIPCは、意味的セグメンテーションのためにRGBDイメージを処理し、鳥の目視(BEV)マッピングを生成する知覚モジュールと、GNSSや角速度測定とともにこれらの洞察を利用してナビゲーションの方向を正確に予測するコントローラモジュールを革新的に組み合わせている。 この統合により、DeepIPCは複雑な環境データを効率的に実行可能な駆動コマンドに変換することができる。 我々は,DeepIPCのドライバビリティとマルチタスク効率の面での優れた性能を実世界のさまざまなシナリオで実証し,よりリーンなモデルアーキテクチャでエンドツーエンドの自動運転システムのベンチマークを新たに設定した。 実験結果は、DeepIPCが自律車載ナビゲーションを大幅に強化する可能性を強調し、自動運転技術の発展に一歩前進することを約束している。 さらなる洞察とレプリケーションのために、コードとデータセットはhttps://github.com/oskarnatan/DeepIPC.comで公開します。

In this work, we introduce DeepIPC, a novel end-to-end model tailored for autonomous driving, which seamlessly integrates perception and control tasks. Unlike traditional models that handle these tasks separately, DeepIPC innovatively combines a perception module, which processes RGBD images for semantic segmentation and generates bird's eye view (BEV) mappings, with a controller module that utilizes these insights along with GNSS and angular speed measurements to accurately predict navigational waypoints. This integration allows DeepIPC to efficiently translate complex environmental data into actionable driving commands. Our comprehensive evaluation demonstrates DeepIPC's superior performance in terms of drivability and multi-task efficiency across diverse real-world scenarios, setting a new benchmark for end-to-end autonomous driving systems with a leaner model architecture. The experimental results underscore DeepIPC's potential to significantly enhance autonomous vehicular navigation, promising a step forward in the development of autonomous driving technologies. For further insights and replication, we will make our code and datasets available at https://github.com/oskarnatan/DeepIPC.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# トラップイオン量子ビットを用いた古典的半減算器:エネルギー効率の計算を目指して

Classical Half-Adder using Trapped-ion Quantum Bits: Towards Energy-efficient Computation ( http://arxiv.org/abs/2210.10470v2 )

ライセンス: Link先を確認
Sagar Silva Pratapsi, Patrick H. Huber, Patrick Barthel, Sougato Bose, Christof Wunderlich, Yasser Omar, (参考訳) エネルギー効率の高い計算のための将来のパラダイムとして可逆計算が提案されているが、実際に実現されている実装はほとんどない。 量子コンピュータ上で動作する量子回路は、可逆性を持つことが知られている1つの構造である。 本研究では、量子技術上で動く古典論理ゲートの証明を提供する。 特に,無線周波数制御の$^{171}$Yb$^+$イオンを量子ビットとして用いて,古典計算に適したToffoli回路とHalf-Adder回路を実験的に提案し,実現した。 論理ゲートを操作するのに必要なエネルギーを、理論的にも実験的にも、制御エネルギーに焦点をあてて分析する。 アンテナとキャビティQEDを統合したトラップチップなど,エネルギー効率の高い計算のための将来のプラットフォームにおけるボトルネックと改善の可能性を明らかにする。 我々の実験的に検証されたエネルギーモデルもまた、量子情報のエネルギー学の文献のギャップを埋め、その詳細な研究の道筋と、その古典コンピューティングへの応用の可能性について概説する。

Reversible computation has been proposed as a future paradigm for energy efficient computation, but so far few implementations have been realised in practice. Quantum circuits, running on quantum computers, are one construct known to be reversible. In this work, we provide a proof-of-principle of classical logical gates running on quantum technologies. In particular, we propose, and realise experimentally, Toffoli and Half-Adder circuits suitable for classical computation, using radiofrequency-controlled $^{171}$Yb$^+$ ions in a macroscopic linear Paul-trap as qubits. We analyse the energy required to operate the logic gates, both theoretically and experimentally, with a focus on the control energy. We identify bottlenecks and possible improvements in future platforms for energetically-efficient computation, e.g., trap chips with integrated antennas and cavity QED. Our experimentally verified energetic model also fills a gap in the literature of the energetics of quantum information, and outlines the path for its detailed study, as well as its potential applications to classical computing.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# SceneFake: SceneFakeオーディオ検出の初期データセットとベンチマーク

SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection ( http://arxiv.org/abs/2211.06073v2 )

ライセンス: Link先を確認
Jiangyan Yi, Chenglong Wang, Jianhua Tao, Chu Yuan Zhang, Cunhang Fan, Zhengkun Tian, Haoxin Ma, Ruibo Fu, (参考訳) 多くのデータセットは、フェイクオーディオ検出の開発をさらに進めるために設計されている。 しかし、以前のデータセットにおける偽の発話は、主に、音色、韻律、言語内容または元の音声のチャネルノイズを変更することによって生成される。 これらのデータセットは、オリジナルのオーディオの音響シーンを偽造音で操作するシナリオを残している。 悪質な目的で操作されたオーディオを誤用する人もいれば、社会にとって大きな脅威となるでしょう。 したがって、このことはギャップを埋める動機になります。 本稿では,音声強調技術を用いて実発話の音響シーンに触発するだけで,操作された音声を生成できるSceneFakeというシーン偽音声検出用データセットを提案する。 本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。 また,異なる音声強調技術と信号対雑音比を用いたフェイク攻撃の解析を行った。 その結果,ASVspoof 2019データセットでトレーニングされたベースラインモデルでは,シーンの偽発話を確実に検出できないことがわかった。 これらのモデルは、SceneFakeのトレーニングセットとテストセットでうまく機能するが、見知らぬテストセットではパフォーマンスが悪い。 データセット(https://zenodo.org/record/7663324#.Y_XKMuPYuUk)とベンチマークソースコード(https://github.com/ADDchallenge/SceneFake)が公開されている。

Many datasets have been designed to further the development of fake audio detection. However, fake utterances in previous datasets are mostly generated by altering timbre, prosody, linguistic content or channel noise of original audio. These datasets leave out a scenario, in which the acoustic scene of an original audio is manipulated with a forged one. It will pose a major threat to our society if some people misuse the manipulated audio with malicious purpose. Therefore, this motivates us to fill in the gap. This paper proposes such a dataset for scene fake audio detection named SceneFake, where a manipulated audio is generated by only tampering with the acoustic scene of an real utterance by using speech enhancement technologies. Some scene fake audio detection benchmark results on the SceneFake dataset are reported in this paper. In addition, an analysis of fake attacks with different speech enhancement technologies and signal-to-noise ratios are presented in this paper. The results indicate that scene fake utterances cannot be reliably detected by baseline models trained on the ASVspoof 2019 dataset. Although these models perform well on the SceneFake training set and seen testing set, their performance is poor on the unseen test set. The dataset (https://zenodo.org/record/7663324#.Y_XKMuPYuUk) and benchmark source codes (https://github.com/ADDchallenge/SceneFake) are publicly available.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# 非同期RGB-D系列に対する自己調整深度正規化放射場

Self-Aligning Depth-regularized Radiance Fields for Asynchronous RGB-D Sequences ( http://arxiv.org/abs/2211.07459v2 )

ライセンス: Link先を確認
Yuxin Huang, Andong Yang, Zirui Wu, Yuantao Chen, Runyi Yang, Zhenxin Zhu, Chao Hou, Hao Zhao, Guyue Zhou, (参考訳) 深度レンダリングと深度監視を併用した学習ラディアンス場は,視線合成の質と収束を効果的に促進できることが示されている。 しかし、このパラダイムでは、入力されたRGB-Dシーケンスを同期させる必要があり、UAV都市のモデリングシナリオでの使用を妨げている。 高速飛行によるRGB画像と深度画像の間には非同期性が存在するため,タイムスタンプを$\rm SE(3)$要素にマッピングする暗黙のネットワークである,新しい時間目的関数を提案する。 また,学習過程を簡略化するために,大規模深度規則化放射場と時刻関数を協調的に学習する共同最適化手法を設計する。 提案アルゴリズムは,(1)時間的関数フィッティング,(2)放射場ブートストレッピング,(3)結合ポーズ誤差補償,および放射場改良の3段階からなる。 さらに, この新たな課題を体系的に評価するために, 多様な制御ミスマッチと基底真理を持つ大規模合成データセットを提案する。 広範囲な実験により,本手法は正規化を伴わないベースラインよりも優れた性能を示す。 また,ドローンによってキャプチャされた実世界の非同期RGB-Dシーケンスに対して,定性的に改善された結果を示す。 コード、データ、モデルは公開されます。

It has been shown that learning radiance fields with depth rendering and depth supervision can effectively promote the quality and convergence of view synthesis. However, this paradigm requires input RGB-D sequences to be synchronized, hindering its usage in the UAV city modeling scenario. As there exists asynchrony between RGB images and depth images due to high-speed flight, we propose a novel time-pose function, which is an implicit network that maps timestamps to $\rm SE(3)$ elements. To simplify the training process, we also design a joint optimization scheme to jointly learn the large-scale depth-regularized radiance fields and the time-pose function. Our algorithm consists of three steps: (1) time-pose function fitting, (2) radiance field bootstrapping, (3) joint pose error compensation and radiance field refinement. In addition, we propose a large synthetic dataset with diverse controlled mismatches and ground truth to evaluate this new problem setting systematically. Through extensive experiments, we demonstrate that our method outperforms baselines without regularization. We also show qualitatively improved results on a real-world asynchronous RGB-D sequence captured by drone. Codes, data, and models will be made publicly available.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# 強調に対するコヒーレンス消滅と最大ロバスト性による文脈性

Contextuality with vanishing coherence and maximal robustness to dephasing ( http://arxiv.org/abs/2212.06856v4 )

ライセンス: Link先を確認
Vinicius P. Rossi, David Schmid, John H. Selby, Ana Belén Sainz, (参考訳) 汎用コンテキスト性(Generalized contextuality)は、幅広い通信および情報処理プロトコルのためのリソースである。 しかし、コンテキスト性はコヒーレンスなしでは不可能であり、ノイズを軽視することで破壊することができる。 本稿では,文脈性(文脈性)が資源である状態の識別に関連するシナリオにおいて,雑音を部分的に強調する文脈性の頑健性について考察する。 このシナリオでは、無意味性の失敗を示すのに、消失するコヒーレンス量が十分であることが分かり、任意の量の部分的強調ノイズに対して頑健な文脈性の証明を与える。 これは、文脈性を破壊するのに常に十分である部分偏極ノイズとは対照的である。

Generalized contextuality is a resource for a wide range of communication and information processing protocols. However, contextuality is not possible without coherence, and so can be destroyed by dephasing noise. Here, we explore the robustness of contextuality to partially dephasing noise in a scenario related to state discrimination (for which contextuality is a resource). We find that a vanishing amount of coherence is sufficient to demonstrate the failure of noncontextuality in this scenario, and we give a proof of contextuality that is robust to arbitrary amounts of partially dephasing noise. This is in stark contrast to partially depolarizing noise, which is always sufficient to destroy contextuality.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-04
# 建築情報のマイニング:システムマッピング研究

Mining Architectural Information: A Systematic Mapping Study ( http://arxiv.org/abs/2212.13179v5 )

ライセンス: Link先を確認
Musengamana Jean de Dieu, Peng Liang, Mojtaba Shahin, Chen Yang, Zengyang Li, (参考訳) マイニングソフトウェアリポジトリ(MSR)はソフトウェア開発において重要な活動となっている。 近年,建築理解などの建築活動を支援するため,建築情報のマイニングが注目されている。 しかし、建築情報の発掘に関する文献は明らかになっていない。 結果として、アーキテクト活動を支援するためにどのようなアーキテクチャ情報をマイニングするためにどのようなアプローチを採用するべきかといった、最先端の研究結果を理解し、採用することの難しさを、実践者が引き起こす可能性がある。 また、研究者が特定された研究ギャップの課題や改善に気付くのを妨げている。 我々は,建築情報や発掘資料,建築活動の支援,使用済みのアプローチとツール,直面する課題の観点から,建築情報に関する文献を特定し,分析し,合成することを目的としている。 2006年1月から2022年12月にかけて、SMSが刊行された。 選抜された104の第一次研究のうち、建築記述が最も多く採掘された建築情報のうち7つのカテゴリが採掘され、11のカテゴリが建築情報を採掘するために活用され、うちバージョン管理システムがもっとも一般的な情報源である11のカテゴリが採掘された建築情報によって支援され、建築理解が最も支持された活動である建築情報によって11のアーキテクチャ活動が支援され、95のアプローチと56のツールが提案され、建築情報の採掘に利用された4つの課題が特定された。 このSMSは、研究者たちに今後の方向性を提供し、実践者がどのようなアーキテクチャ情報を使ってさまざまなアーキテクチャ活動を支援するかを知るための、どのようなアプローチとツールが使えるかを知るのに役立つ。

Mining Software Repositories (MSR) has become an essential activity in software development. Mining architectural information to support architecting activities, such as architecture understanding, has received significant attention in recent years. However, there is a lack of clarity on what literature on mining architectural information is available. Consequently, this may create difficulty for practitioners to understand and adopt the state-of-the-art research results, such as what approaches should be adopted to mine what architectural information in order to support architecting activities. It also hinders researchers from being aware of the challenges and remedies for the identified research gaps. We aim to identify, analyze, and synthesize the literature on mining architectural information in terms of architectural information and sources mined, architecting activities supported, approaches and tools used, and challenges faced. An SMS has been conducted on the literature published between January 2006 and December 2022. Of the 104 primary studies selected, 7 categories of architectural information have been mined, among which architectural description is the most mined architectural information; 11 categories of sources have been leveraged for mining architectural information, among which version control system is the most popular source; 11 architecting activities can be supported by the mined architectural information, among which architecture understanding is the most supported activity; 95 approaches and 56 tools were proposed and employed in mining architectural information; and 4 types of challenges in mining architectural information were identified. This SMS provides researchers with future directions and help practitioners be aware of what approaches and tools can be used to mine what architectural information from what sources to support various architecting activities.
翻訳日:2024-04-05 20:51:59 公開日:2024-04-04
# FUN with Fisher: スケジューリング凍結による適応型言語間移動の一般化の改善

FUN with Fisher: Improving Generalization of Adapter-Based Cross-lingual Transfer with Scheduled Unfreezing ( http://arxiv.org/abs/2301.05487v2 )

ライセンス: Link先を確認
Chen Cecilia Liu, Jonas Pfeiffer, Ivan Vulić, Iryna Gurevych, (参考訳) 言語モデルの標準的な微調整は、典型的には分散データでうまく機能するが、分布シフトへの一般化に苦しむ。 本研究では,このような言語間分布の変化が差し迫った場合,アダプタベースの言語間タスク転送の一般化を目標とする。 我々は,タスクアダプターの微調整を行うために,当初提案されていた非凍結アルゴリズムについて検討した。 実験により, スケジュールされた凍結解凍法は, 完全微調整のギャップを埋め, 言語間移動性能を向上し, 破滅的忘れを緩和するだけでなく, 破滅的忘れ込みを軽減できることが示唆された。 次に,これらの経験的知見を理解することを目的として,フィッシャー情報を用いた未凍結の学習動態について検討する。 実験の結果,スケジュールされた凍結は通常の微調整と比較して異なる学習力学を誘導し,訓練中のフィッシャー情報のダイナミクスが言語間一般化性能と相関していることを示す。 さらに,通常の微調整と比較して,4つのデータセットに対して平均2点改善を達成し,ヒューリスティックな非凍結スケジュールの正当性に関する実証的な証拠を提供する,一般的な非凍結アルゴリズムを提案する。

Standard fine-tuning of language models typically performs well on in-distribution data, but suffers with generalization to distribution shifts. In this work, we aim to improve the generalization of adapter-based cross-lingual task transfer where such cross-language distribution shifts are imminent. We investigate scheduled unfreezing algorithms -- originally proposed to mitigate catastrophic forgetting in transfer learning -- for fine-tuning task adapters. Our experiments show that scheduled unfreezing methods close the gap to full fine-tuning and achieve stronger cross-lingual transfer performance, suggesting that these methods can go beyond just mitigating catastrophic forgetting. Next, aiming to understand these empirical findings, we investigate the learning dynamics of scheduled unfreezing using Fisher Information. Our experiments reveal that scheduled unfreezing induces different learning dynamics compared to standard fine-tuning, and provide evidence that the dynamics of Fisher Information during training correlate with cross-lingual generalization performance. We additionally propose a general scheduled unfreezing algorithm that achieves an average of 2 points improvement over four datasets compared to standard fine-tuning and provides empirical evidence for a theory-based justification of the heuristic unfreezing schedule for adapter training.
翻訳日:2024-04-05 20:51:59 公開日:2024-04-04
# 強化学習に基づく偏微分方程式の推定

Reinforcement learning-based estimation for partial differential equations ( http://arxiv.org/abs/2302.01189v2 )

ライセンス: Link先を確認
Saviz Mowlavi, Mouhacine Benosman, (参考訳) 流体流動のような非線形偏微分方程式に支配されるシステムでは、カルマンフィルタのような状態推定器の設計は、元の高次元力学を計算的に抽出可能な低次元空間に投影する減階モデル(ROM)に依存している。 しかし、ROMは大きなエラーを起こしやすいため、推定器の性能に悪影響を及ぼす。 本稿では,RL-ROE (Regress Learning reduced-order estimator) について述べる。 ポリシーの非線形性により、RL-ROEはROMの誤りを効率よく補うことができるが、力学の完全な知識を生かしたままである。 バーガース方程式とナビエ・ストークス方程式を含む例を用いて、訓練されたRL-ROEは、非常に少ないセンサーの限界において、同じROMを用いて設計されたカルマンフィルタよりも優れていることを示す。 さらに、各物理パラメータ値に対応する軌跡の高精度な高次元状態推定を、後者の直接的知識を使わずに得られる。

In systems governed by nonlinear partial differential equations such as fluid flows, the design of state estimators such as Kalman filters relies on a reduced-order model (ROM) that projects the original high-dimensional dynamics onto a computationally tractable low-dimensional space. However, ROMs are prone to large errors, which negatively affects the performance of the estimator. Here, we introduce the reinforcement learning reduced-order estimator (RL-ROE), a ROM-based estimator in which the correction term that takes in the measurements is given by a nonlinear policy trained through reinforcement learning. The nonlinearity of the policy enables the RL-ROE to compensate efficiently for errors of the ROM, while still taking advantage of the imperfect knowledge of the dynamics. Using examples involving the Burgers and Navier-Stokes equations, we show that in the limit of very few sensors, the trained RL-ROE outperforms a Kalman filter designed using the same ROM. Moreover, it yields accurate high-dimensional state estimates for trajectories corresponding to various physical parameter values, without direct knowledge of the latter.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# 超強結合超伝導量子回路における仮想光子の検出

Detecting virtual photons in ultrastrongly coupled superconducting quantum circuits ( http://arxiv.org/abs/2302.10973v3 )

ライセンス: Link先を確認
Luigi Giannelli, Elisabetta Paladino, Miroslav Grajcar, Gheorghe Sorin Paraoanu, Giuseppe Falci, (参考訳) 量子技術の発展には、光と物質の相互作用と基礎物理学の理解が不可欠である。 固体デバイスは、結合強度が「超強」、すなわちサブシステムのエネルギーに匹敵する新しい体制を探求することができる。 新しいエキゾチックな現象は、その多くの共通根は、絡み合った真空が仮想光子を含むという事実である。 彼らは、U(1)対称性を破る超強結合の証となる励起数の保存の欠如を説いた。 10年以上にわたる研究にもかかわらず、地上状態の仮想光子の検出はまだ実証を待っている。 本研究では,実験的な課題の集合を認識し,その克服方法を示し,長年の課題に対する解決策を提供する。 スーパーインダクタに基づく非伝統的な「ライトフラクトロニウム」キューディとコヒーレント制御を組み合わせることで、仮想光子を現実の光子に高効率で忠実で選択的に変換できることがわかった。 これにより、現在の量子技術で利用可能なリソースによる検出が可能になる。

Light-matter interaction and understanding the fundamental physics behind is essential for emerging quantum technologies. Solid-state devices may explore new regimes where coupling strengths are "ultrastrong", i.e., comparable to the energies of the subsystems. New exotic phenomena occur the common root of many of them being the fact that the entangled vacuum contains virtual photons. They herald the lack of conservation of the number of excitations which is the witness of ultrastrong coupling breaking the U(1) symmetry. Despite more than a decade of research, the detection of ground-state virtual photons still awaits demonstration. In this work, we recognize the "conspiring" set of experimental challenges and show how to overcome them, thus providing a solution to this long-standing problem. We find that combining a superinductor-based unconventional "light fluxonium" qudit and coherent control yields a highly efficient, faithful, and selective conversion of virtual photons into real ones. This enables their detection with resources available to present-day quantum technologies.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# ディープラーニングを容易にする言語は何なのか?

What Makes a Language Easy to Deep-Learn? ( http://arxiv.org/abs/2302.12239v3 )

ライセンス: Link先を確認
Lukas Galke, Yoav Ram, Limor Raviv, (参考訳) ディープニューラルネットワークは自然言語処理の成功を促進する。 言語の基本的特性はその構成構造であり、人間は新しい意味の形式を体系的に生成することができる。 人間にとって、より構成的で透明な構造を持つ言語は、不透明で不規則な構造を持つ言語よりも学習しやすい。 しかし、この学習可能性の利点はディープニューラルネットワークでは示されておらず、人間の言語学習のモデルとしての使用を制限している。 ここでは、ニューラルネットワークが学習において人間とどのように比較し、構成構造の程度によって異なる異なる言語を一般化するかを直接検証する。 我々は、大規模言語モデルと繰り返しニューラルネットワークの記憶と一般化能力を評価し、深層ニューラルネットワークがより構造化された言語入力に対して学習性優位性を示すことを示す。

Deep neural networks drive the success of natural language processing. A fundamental property of language is its compositional structure, allowing humans to systematically produce forms for new meanings. For humans, languages with more compositional and transparent structures are typically easier to learn than those with opaque and irregular structures. However, this learnability advantage has not yet been shown for deep neural networks, limiting their use as models for human language learning. Here, we directly test how neural networks compare to humans in learning and generalizing different languages that vary in their degree of compositional structure. We evaluate the memorization and generalization capabilities of a large language model and recurrent neural networks, and show that both deep neural networks exhibit a learnability advantage for more structured linguistic input: neural networks exposed to more compositional languages show more systematic generalization, greater agreement between different agents, and greater similarity to human learners.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# 有意義な補助課題を生成するための文脈構造の作成

Exploiting Contextual Structure to Generate Useful Auxiliary Tasks ( http://arxiv.org/abs/2303.05038v2 )

ライセンス: Link先を確認
Benedict Quartey, Ankit Shah, George Konidaris, (参考訳) 強化学習はロボットにとって高価な環境との相互作用を必要とする。 この制約は、以前の経験の再利用を最大化することで、限られた環境相互作用を扱うアプローチを必要とする。 本稿では,有用な補助タスクを生成し,同時に学習することで,与えられたタスクを学習しながら経験再利用を最大化する手法を提案する。 これらのタスクを生成するために、与えられたタスクの抽象的時間論理表現を構築し、大きな言語モデルを利用して、オブジェクトの置換を容易にするコンテキスト認識オブジェクトの埋め込みを生成する。 対実的推論と非政治的手法は、与えられた目標タスクを解きながら、これらの補助タスクを同時に学習することを可能にする。 我々はこれらの知見をマルチタスク強化学習のための新しい枠組みに組み合わせ、生成した補助タスクが与えられたタスクと類似した探索要件を共有できることを実験的に示し、指向探索の有用性を最大化する。 当社のアプローチでは, 余分な環境相互作用を伴わずに, 追加の有用なポリシーを自動学習することができる。

Reinforcement learning requires interaction with an environment, which is expensive for robots. This constraint necessitates approaches that work with limited environmental interaction by maximizing the reuse of previous experiences. We propose an approach that maximizes experience reuse while learning to solve a given task by generating and simultaneously learning useful auxiliary tasks. To generate these tasks, we construct an abstract temporal logic representation of the given task and leverage large language models to generate context-aware object embeddings that facilitate object replacements. Counterfactual reasoning and off-policy methods allow us to simultaneously learn these auxiliary tasks while solving the given target task. We combine these insights into a novel framework for multitask reinforcement learning and experimentally show that our generated auxiliary tasks share similar underlying exploration requirements as the given task, thereby maximizing the utility of directed exploration. Our approach allows agents to automatically learn additional useful policies without extra environment interaction.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# NEMTO: 透明物体の新しい視界と光合成のためのニューラル環境マッチング

NEMTO: Neural Environment Matting for Novel View and Relighting Synthesis of Transparent Objects ( http://arxiv.org/abs/2303.11963v2 )

ライセンス: Link先を確認
Dongqing Wang, Tong Zhang, Sabine Süsstrunk, (参考訳) 我々は、複雑な幾何学と未知の屈折率を持つ3次元透明物体をモデル化するための、最初のエンドツーエンドニューラルネットワークパイプラインであるNEMTOを提案する。 Disney BSDF モデルのような一般的な外観モデルでは、屈折によって曲げられる複雑な光路や、表面の外観が照明に強く依存するため、この問題に正確に対処することはできない。 透明物体の2次元像を入力として, 高品質な新規ビューと光合成が可能となる。 本研究では、暗黙的符号距離関数(SDF)を用いて物体形状をモデル化し、物体内部の光屈折の影響をモデル化する屈折型光曲げネットワークを提案する。 我々のレイ曲げネットワークは、透明物体をレンダリングする従来の物理的手法よりも、幾何学的不正確性に寛容である。 合成データセットと実世界のデータセットについて広範囲な評価を行い、高品質な合成と本手法の適用性を実証する。

We propose NEMTO, the first end-to-end neural rendering pipeline to model 3D transparent objects with complex geometry and unknown indices of refraction. Commonly used appearance modeling such as the Disney BSDF model cannot accurately address this challenging problem due to the complex light paths bending through refractions and the strong dependency of surface appearance on illumination. With 2D images of the transparent object as input, our method is capable of high-quality novel view and relighting synthesis. We leverage implicit Signed Distance Functions (SDF) to model the object geometry and propose a refraction-aware ray bending network to model the effects of light refraction within the object. Our ray bending network is more tolerant to geometric inaccuracies than traditional physically-based methods for rendering transparent objects. We provide extensive evaluations on both synthetic and real-world datasets to demonstrate our high-quality synthesis and the applicability of our method.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# $CrowdDiff$:拡散モデルを用いた多仮説集団密度推定

$CrowdDiff$: Multi-hypothesis Crowd Density Estimation using Diffusion Models ( http://arxiv.org/abs/2303.12790v3 )

ライセンス: Link先を確認
Yasiru Ranasinghe, Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara, Vishal M. Patel, (参考訳) 群集カウントは群集解析の基本的な問題であり、群集密度マップを推定し,その密度値について要約することによって達成されるのが典型的である。 しかし、このアプローチは、基底真理密度マップを作成するために広いガウス核を使用するため、背景雑音の蓄積と密度の損失に悩まされる。 この問題はガウス核を狭めることで克服できる。 しかし、既存のアプローチは、広いカーネルを持つ基底真理密度写像で訓練された場合、性能が良くない。 この制限に対処するため、我々は条件付き拡散モデルを用いて密度マップを予測し、拡散モデルは生成時のトレーニングデータに対して高い忠実度を示す。 これにより、逆拡散過程として群衆密度マップを生成するCrowdDiff$を提示する。 さらに,拡散過程の中間段階はノイズが多いため,訓練中にのみ直接集団推定を行う回帰分岐を組み込んで特徴学習を改善する。 また,拡散モデルの確率的性質から,既存の群集計数パイプラインとは対照的なカウント性能を向上させるために,複数の密度マップを作成することを提案する。 提案手法の有効性を検証するために,公開データセットに関する広範な実験を行った。 $CrowdDiff$は、いくつかの公開クラウド分析ベンチマークにおいて、既存の最先端のクラウドカウントメソッドよりも、大幅に改善されている。

Crowd counting is a fundamental problem in crowd analysis which is typically accomplished by estimating a crowd density map and summing over the density values. However, this approach suffers from background noise accumulation and loss of density due to the use of broad Gaussian kernels to create the ground truth density maps. This issue can be overcome by narrowing the Gaussian kernel. However, existing approaches perform poorly when trained with ground truth density maps with broad kernels. To deal with this limitation, we propose using conditional diffusion models to predict density maps, as diffusion models show high fidelity to training data during generation. With that, we present $CrowdDiff$ that generates the crowd density map as a reverse diffusion process. Furthermore, as the intermediate time steps of the diffusion process are noisy, we incorporate a regression branch for direct crowd estimation only during training to improve the feature learning. In addition, owing to the stochastic nature of the diffusion model, we introduce producing multiple density maps to improve the counting performance contrary to the existing crowd counting pipelines. We conduct extensive experiments on publicly available datasets to validate the effectiveness of our method. $CrowdDiff$ outperforms existing state-of-the-art crowd counting methods on several public crowd analysis benchmarks with significant improvements.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# WM-MoE:Blind 逆気象除去のための気象対応マルチスケール混合機

WM-MoE: Weather-aware Multi-scale Mixture-of-Experts for Blind Adverse Weather Removal ( http://arxiv.org/abs/2303.13739v2 )

ライセンス: Link先を確認
Yulin Luo, Rui Zhao, Xiaobao Wei, Jinwei Chen, Yijie Lu, Shenghao Xie, Tianyu Wang, Ruiqin Xiong, Ming Lu, Shanghang Zhang, (参考訳) 逆の天候除去タスク(デレーニング、デリーディング、デヘイジング)は、通常は別のタスクとして扱われる。 しかし、現実的な自律運転シナリオでは、タイプ、強度、混合度は不明であり、それぞれのタスクを個別に扱うことは複雑な現実的なシナリオには対応できない。 本稿では,視覚障害者の悪天候除去問題について検討する。 Mixture-of-Experts (MoE) は、学習可能なゲートを採用して、入力を異なる専門家ネットワークにルーティングする人気モデルである。 MoEの原理は、異なるタイプの未知の入力を処理するために適応的なネットワークを使用することである。 したがって、MoEは盲点の悪天候を除去する大きな可能性を秘めている。 しかし、オリジナルのMoEモジュールは複数の気象タイプを結合するのに不適であり、性能向上のためにマルチスケール機能を利用することができない。 そこで本稿では,Transformer を用いた気象対応マルチスケールMOE (Weather-Aware Multi-scale MoE) という手法を提案する。 WM-MoEには、WEather-Aware Router (WEAR)とMulti-Scale Experts (MSE)の2つの重要な設計が含まれている。 WEARは、分離されたコンテンツと天気の特徴に基づいて、各画像トークンに専門家を割り当て、複数の悪天候を処理するモデルの能力を高める。 画像から識別可能な気象特徴を得るため,気象クラスタ情報を用いて各画像トークンに対する正と負のサンプルの割り当てを誘導する気象誘導微粒コントラスト学習(WGF-CL)を提案する。 異なる気象タイプを処理するには異なる受容場を必要とするため、MSEは様々な気象タイプや強度の高品質な復元を容易にするため、空間関係モデリング能力を高めるためにマルチスケールの特徴を活用している。 本手法は,2つのパブリックデータセットとデータセットに対して,盲点悪天候除去における最先端性能を実現する。 また、下流セグメンテーションタスクにおける手法の利点を実証する。

Adverse weather removal tasks like deraining, desnowing, and dehazing are usually treated as separate tasks. However, in practical autonomous driving scenarios, the type, intensity,and mixing degree of weather are unknown, so handling each task separately cannot deal with the complex practical scenarios. In this paper, we study the blind adverse weather removal problem. Mixture-of-Experts (MoE) is a popular model that adopts a learnable gate to route the input to different expert networks. The principle of MoE involves using adaptive networks to process different types of unknown inputs. Therefore, MoE has great potential for blind adverse weather removal. However, the original MoE module is inadequate for coupled multiple weather types and fails to utilize multi-scale features for better performance. To this end, we propose a method called Weather-aware Multi-scale MoE (WM-MoE) based on Transformer for blind weather removal. WM-MoE includes two key designs: WEather-Aware Router (WEAR) and Multi-Scale Experts (MSE). WEAR assigns experts for each image token based on decoupled content and weather features, which enhances the model's capability to process multiple adverse weathers. To obtain discriminative weather features from images, we propose Weather Guidance Fine-grained Contrastive Learning (WGF-CL), which utilizes weather cluster information to guide the assignment of positive and negative samples for each image token. Since processing different weather types requires different receptive fields, MSE leverages multi-scale features to enhance the spatial relationship modeling capability, facilitating the high-quality restoration of diverse weather types and intensities. Our method achieves state-of-the-art performance in blind adverse weather removal on two public datasets and our dataset. We also demonstrate the advantage of our method on downstream segmentation tasks.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# フォノンとの相互作用による共振器-マグノン偏光子

Entangling cavity-magnon polaritons by interacting with phonons ( http://arxiv.org/abs/2303.15217v5 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Rui-Chang Shen, Jie Li, (参考訳) 2つの強く結合したマイクロ波キャビティとマグノンモードによって形成される2つのキャビティ-マグノン偏光子(CMP)の絡み合わせ方法を示す。 これは、マグノンモードに分散結合された系に磁歪を介して振動フォノンを導入することで実現される。 2つのCMP間の定常的絡み合いは、フォノンが散乱する駆動フィールドの2つのサイドバンドにそれぞれ共鳴しているときに達成され、2つのポラリトンにおけるキャビティとマグノンモードの比率が適切に選択される。 絡み合ったCMPは、CMPを用いた暗黒物質探索実験における検出感度を向上させることができ、周波数に絡み合ったマイクロ波光子の放出につながる。

We show how to entangle two cavity-magnon polaritons (CMPs) formed by two strongly coupled microwave cavity and magnon modes. This is realized by introducing vibration phonons, via magnetostriction, into the system that are dispersively coupled to the magnon mode. Stationary entanglement between two CMPs can be achieved when they are respectively resonant with the two sidebands of the drive field scattered by the phonons, and when the proportions of the cavity and magnon modes in the two polaritons are appropriately chosen. The entangled CMPs can improve the detection sensitivity in the dark matter search experiments using CMPs, and can also lead to the emission of frequency-entangled microwave photons.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# 一般化ポッツモデルへの注意機構のマッピング

Mapping of attention mechanisms to a generalized Potts model ( http://arxiv.org/abs/2304.07235v4 )

ライセンス: Link先を確認
Riccardo Rende, Federica Gerace, Alessandro Laio, Sebastian Goldt, (参考訳) トランスフォーマーは自然言語処理と機械学習に革命をもたらしたニューラルネットワークである。 彼らは単語のように入力のシーケンスを自己認識と呼ばれるメカニズムを使って処理し、それはマスク付き言語モデリング(MLM)によって訓練される。 MLMでは、単語は入力シーケンスでランダムにマスクされ、ネットワークは欠落した単語を予測するために訓練される。 変圧器の実用的成功にもかかわらず、どのようなデータ分散自意識が効率的に学習できるかは不明だ。 ここでは,単語の位置と埋め込みの処理を分離すると,一層の自己注意層が,サイトとポッツの色間の相互作用を伴う一般化ポッツモデルの条件を学習することを示す。 さらに, このニューラルネットワークのトレーニングは, 統計物理学でよく知られた擬似類似解法によって, 逆ポッツ問題の解法と完全に等価であることを示す。 このマッピングを用いて、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。

Transformers are neural networks that revolutionized natural language processing and machine learning. They process sequences of inputs, like words, using a mechanism called self-attention, which is trained via masked language modeling (MLM). In MLM, a word is randomly masked in an input sequence, and the network is trained to predict the missing word. Despite the practical success of transformers, it remains unclear what type of data distribution self-attention can learn efficiently. Here, we show analytically that if one decouples the treatment of word positions and embeddings, a single layer of self-attention learns the conditionals of a generalized Potts model with interactions between sites and Potts colors. Moreover, we show that training this neural network is exactly equivalent to solving the inverse Potts problem by the so-called pseudo-likelihood method, well known in statistical physics. Using this mapping, we compute the generalization error of self-attention in a model scenario analytically using the replica method.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# TiDEによる長期予測:時系列Dense Encoder

Long-term Forecasting with TiDE: Time-series Dense Encoder ( http://arxiv.org/abs/2304.08424v5 )

ライセンス: Link先を確認
Abhimanyu Das, Weihao Kong, Andrew Leach, Shaan Mathur, Rajat Sen, Rose Yu, (参考訳) 最近の研究で、単純な線形モデルは、長期の時系列予測において、トランスフォーマーベースのアプローチより優れていることが示されている。 そこで我々は,線形モデルの単純さと高速さを享受しつつ,共変量や非線形依存性を扱える時系列予測のためのマルチレイヤパーセプトロン(MLP)ベースのエンコーダ・デコーダモデルであるTiDEを提案する。 理論的には, 線形力学系 (LDS) において, 最も単純な線形類似体は, いくつかの仮定の下でほぼ最適な誤差率が得られることを証明している。 実験により,提案手法は,最も優れたTransformerベースモデルよりも5~10倍高速でありながら,一般的な時系列予測ベンチマークにおいて,先行手法に適合あるいは優れることを示す。

Recent work has shown that simple linear models can outperform several Transformer based approaches in long term time-series forecasting. Motivated by this, we propose a Multi-layer Perceptron (MLP) based encoder-decoder model, Time-series Dense Encoder (TiDE), for long-term time-series forecasting that enjoys the simplicity and speed of linear models while also being able to handle covariates and non-linear dependencies. Theoretically, we prove that the simplest linear analogue of our model can achieve near optimal error rate for linear dynamical systems (LDS) under some assumptions. Empirically, we show that our method can match or outperform prior approaches on popular long-term time-series forecasting benchmarks while being 5-10x faster than the best Transformer based model.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-04
# 光多層膜構造における逆設計の基礎モデルOptoGPT

OptoGPT: A Foundation Model for Inverse Design in Optical Multilayer Thin Film Structures ( http://arxiv.org/abs/2304.10294v2 )

ライセンス: Link先を確認
Taigao Ma, Haozhu Wang, L. Jay Guo, (参考訳) 光多層膜構造は、多くのフォトニック用途で広く利用されている。 しかし, 既存の逆設計手法には, 異なる設計対象に迅速に適応できない, あるいは異なるタイプの構造に適合しにくい, といった欠点が数多くある。 これらの手法は、異なる角度と偏光の下で汎用的な設計状況に対応できない。 また、実用的な製造・製造にどう役立つかは、まだ広く検討されていない。 本稿では,デコーダのみのトランスであるOptoGPT(Opto Generative Pretrained Transformer)を導入し,これらの欠点と問題を同時に解決する。

Optical multilayer thin film structures have been widely used in numerous photonic applications. However, existing inverse design methods have many drawbacks because they either fail to quickly adapt to different design targets, or are difficult to suit for different types of structures, e.g., designing for different materials at each layer. These methods also cannot accommodate versatile design situations under different angles and polarizations. In addition, how to benefit practical fabrications and manufacturing has not been extensively considered yet. In this work, we introduce OptoGPT (Opto Generative Pretrained Transformer), a decoder-only transformer, to solve all these drawbacks and issues simultaneously.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# qBangを用いた変分量子アルゴリズムの最適化:フラットエネルギーランドスケープの効率的なインターウィービング方法とモーメント

Optimizing Variational Quantum Algorithms with qBang: Efficiently Interweaving Metric and Momentum to Navigate Flat Energy Landscapes ( http://arxiv.org/abs/2304.13882v2 )

ライセンス: Link先を確認
David Fitzek, Robert S. Jonsson, Werner Dobrautz, Christian Schäfer, (参考訳) 変分量子アルゴリズム(VQA)は、現在の量子コンピューティングインフラを利用するための有望なアプローチである。 VQAは古典的アルゴリズムによって閉じたループに最適化されたパラメータ化量子回路に基づいている。 このハイブリッドアプローチは、量子処理ユニットの負荷を減らすが、フラットなエネルギーランドスケープを特徴とする古典的な最適化のコストがかかる。 既存の最適化手法(想像的時間プロパゲーション、自然勾配、運動量に基づくアプローチなど)は有望な候補であるが、量子デバイスに重大な負担をかけるか、しばしば収束が遅くなる。 本研究では,量子ブロイデン適応型自然勾配(qBang)アプローチを提案する。 フィッシャー情報行列の近似更新にブロイデンのアプローチを採用し、それをモーメントベースのアルゴリズムと組み合わせることで、qBangは、より多くのリソース要求の代替手段よりも優れたパフォーマンスを保ちながら、量子リソース要求を削減できる。 バレン台地、量子化学、最大カット問題のベンチマークは、フラットな(指数関数的に平坦ではない)最適化ランドスケープにおいて、既存の技術よりも明らかに改善され、全体的な安定した性能を示す。 qBangは、グラデーションベースのVQAの新しい開発戦略を導入し、多くの改善が考えられる。

Variational quantum algorithms (VQAs) represent a promising approach to utilizing current quantum computing infrastructures. VQAs are based on a parameterized quantum circuit optimized in a closed loop via a classical algorithm. This hybrid approach reduces the quantum processing unit load but comes at the cost of a classical optimization that can feature a flat energy landscape. Existing optimization techniques, including either imaginary time-propagation, natural gradient, or momentum-based approaches, are promising candidates but place either a significant burden on the quantum device or suffer frequently from slow convergence. In this work, we propose the quantum Broyden adaptive natural gradient (qBang) approach, a novel optimizer that aims to distill the best aspects of existing approaches. By employing the Broyden approach to approximate updates in the Fisher information matrix and combining it with a momentum-based algorithm, qBang reduces quantum-resource requirements while performing better than more resource-demanding alternatives. Benchmarks for the barren plateau, quantum chemistry, and the max-cut problem demonstrate an overall stable performance with a clear improvement over existing techniques in the case of flat (but not exponentially flat) optimization landscapes. qBang introduces a new development strategy for gradient-based VQAs with a plethora of possible improvements.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# Poisson Multi-Bernoulli SLAM を用いた集合型信念伝播

Set-Type Belief Propagation with Applications to Poisson Multi-Bernoulli SLAM ( http://arxiv.org/abs/2305.04797v3 )

ライセンス: Link先を確認
Hyowon Kim, Angel F. García-Fernández, Yu Ge, Yuxuan Xia, Lennart Svensson, Henk Wymeersch, (参考訳) 確率伝播(BP)は、確率変数の近辺確率密度を効率的に計算するための有用な確率的推論アルゴリズムである。 しかし、その標準形式では、BP はベクトル要素の固定かつ既知の数のベクトル要素を持つベクトル型確率変数にのみ適用できるが、特定のアプリケーションは未知のベクトル要素を持つ RFS に依存する。 本稿では,各 RFS が未知の要素数を持つ RFS の列上に定義された因子グラフに対するBP ルールを開発し,新しい RFS の推論手法の導出を目的とする。 さらに、ベクトル型BPは、各 RFS がベルヌーイ過程に従うような集合型BPの特別な場合であることを示す。 提案手法の有効性を実証するため, SLAM の PMB フィルタに適用し, 新しい BP マッピング, SLAM, マルチターゲット追跡, 同時局所化・追跡フィルタを実現する。 最後に,ベクトル型BPと提案したセット型BP PMB-SLAM実装の関係について検討し,提案したセット型BP PMB-SLAMフィルタとベクトル型BP-SLAMフィルタを比較した。

Belief propagation (BP) is a useful probabilistic inference algorithm for efficiently computing approximate marginal probability densities of random variables. However, in its standard form, BP is only applicable to the vector-type random variables with a fixed and known number of vector elements, while certain applications rely on RFSs with an unknown number of vector elements. In this paper, we develop BP rules for factor graphs defined on sequences of RFSs where each RFS has an unknown number of elements, with the intention of deriving novel inference methods for RFSs. Furthermore, we show that vector-type BP is a special case of set-type BP, where each RFS follows the Bernoulli process. To demonstrate the validity of developed set-type BP, we apply it to the PMB filter for SLAM, which naturally leads to new set-type BP-mapping, SLAM, multi-target tracking, and simultaneous localization and tracking filters. Finally, we explore the relationships between the vector-type BP and the proposed set-type BP PMB-SLAM implementations and show a performance gain of the proposed set-type BP PMB-SLAM filter in comparison with the vector-type BP-SLAM filter.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# 安定な異方性規則化

Stable Anisotropic Regularization ( http://arxiv.org/abs/2305.19358v3 )

ライセンス: Link先を確認
William Rudman, Carsten Eickhoff, (参考訳) LLM(Large Language Models)の成功を考えると、モデルアクティベーションの特性の研究にかなりの関心が寄せられている。 文献は、LLM表現は、非常に高いばらつきと大きさを持ついくつかの「外界次元」に支配されていることに圧倒的に同意している。 自然言語処理(NLP)におけるいくつかの研究は、そのような外接次元の影響を緩和し、LLMを等方性にする(つまり、埋め込み空間におけるすべての次元に均一な分散を持つ)ことを目指している。 等方性は、モデル性能を改善し、テキスト表現と人間の直感をより緊密に整合させるLLMにとって望ましい性質であると考えられている。 しかし、NLPにおける等方性に関する多くの主張は、埋め込みの平均コサイン類似性に基づいており、これは最近、等方性に欠陥があることが示されている。 本稿では,I-STAR: IsoScore*-based STable Anisotropic Regularizationを提案する。 I-STARはIsoScore*を用いており、IsoScore*はアイソトロピーの最初の正確な測定値であり、ミニバッチ計算では微分可能で安定である。 従来のいくつかの研究とは対照的に、文脈的埋め込みにおける等方性低下は、本論文で検討したタスクやモデルの大部分における性能を向上させることが判明した。

Given the success of Large Language Models (LLMs), there has been considerable interest in studying the properties of model activations. The literature overwhelmingly agrees that LLM representations are dominated by a few "outlier dimensions" with exceedingly high variance and magnitude. Several studies in Natural Language Processing (NLP) have sought to mitigate the impact of such outlier dimensions and force LLMs to be isotropic (i.e., have uniform variance across all dimensions in embedding space). Isotropy is thought to be a desirable property for LLMs that improves model performance and more closely aligns textual representations with human intuition. However, many of the claims regarding isotropy in NLP have been based on the average cosine similarity of embeddings, which has recently been shown to be a flawed measure of isotropy. In this paper, we propose I-STAR: IsoScore*-based STable Anisotropic Regularization, a novel regularization method that can be used to increase or decrease levels of isotropy in embedding space during training. I-STAR uses IsoScore*, the first accurate measure of isotropy that is both differentiable and stable on mini-batch computations. In contrast to several previous works, we find that decreasing isotropy in contextualized embeddings improves performance on the majority of tasks and models considered in this paper.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# Trncated Affinity Maximization: グラフ異常検出のための一級ホモフィリモデリング

Truncated Affinity Maximization: One-class Homophily Modeling for Graph Anomaly Detection ( http://arxiv.org/abs/2306.00006v5 )

ライセンス: Link先を確認
Hezhe Qiao, Guansong Pang, (参考訳) 我々は、実世界のグラフ異常検出(GAD)データセットで経験的に見られる1種類のホモフィリ現象、すなわち、正常なノードは互いに強い接続/親和性を持ち、異常なノードのホモフィリは正常なノードよりも著しく弱いことを明らかにした。 しかし、この異常識別特性は、データ再構成のような従来の異常検出目的を用いて構築される既存のGAD法では無視される。 本研究では,GADの非教師付き異常評価尺度である局所ノード親和性(ローカルノード親和性)を導入し,ノード属性/表現上の類似性として定義される親和性を用いて,隣接ノードに関連のないノードにより大きな異常スコアを割り当てる手法を提案する。 さらに, 隣接ノードの局所親和性を最大化することにより, 異常測度に適したノード表現を学習するTruncated Affinity Maximization (TAM)を提案する。 元のグラフ構造を最適化することは、非ホモフィリーエッジ(通常ノードと異常ノードを繋ぐエッジ)によってバイアスを受けることができる。 したがって、TAMは、非ホモフィリーエッジを反復的に除去し、このバイアスを緩和するトランケートグラフに最適化される。 学習された表現は、正常なノードに対して異常なノードよりもはるかに強い局所親和性をもたらす。 10の現実世界のGADデータセットに対する大規模な実験結果によると、TAMは7つの競合モデルを大幅に上回り、AUROC/AUPRCの10%以上を達成している。 私たちのコードはhttps://github.com/mala-lab/TAM-master/で利用可能です。

We reveal a one-class homophily phenomenon, which is one prevalent property we find empirically in real-world graph anomaly detection (GAD) datasets, i.e., normal nodes tend to have strong connection/affinity with each other, while the homophily in abnormal nodes is significantly weaker than normal nodes. However, this anomaly-discriminative property is ignored by existing GAD methods that are typically built using a conventional anomaly detection objective, such as data reconstruction. In this work, we explore this property to introduce a novel unsupervised anomaly scoring measure for GAD, local node affinity, that assigns a larger anomaly score to nodes that are less affiliated with their neighbors, with the affinity defined as similarity on node attributes/representations. We further propose Truncated Affinity Maximization (TAM) that learns tailored node representations for our anomaly measure by maximizing the local affinity of nodes to their neighbors. Optimizing on the original graph structure can be biased by nonhomophily edges (i.e., edges connecting normal and abnormal nodes). Thus, TAM is instead optimized on truncated graphs where non-homophily edges are removed iteratively to mitigate this bias. The learned representations result in significantly stronger local affinity for normal nodes than abnormal nodes. Extensive empirical results on 10 real-world GAD datasets show that TAM substantially outperforms seven competing models, achieving over 10% increase in AUROC/AUPRC compared to the best contenders on challenging datasets. Our code is available at https://github.com/mala-lab/TAM-master/.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# 物質量子定規を用いた関係重ね合わせ測定

Relational superposition measurements with a material quantum ruler ( http://arxiv.org/abs/2306.00347v3 )

ライセンス: Link先を確認
Hui Wang, Flaminia Giacomini, Franco Nori, Miles P. Blencowe, (参考訳) 物理学では、抽象量に物理的意味を与えるための操作的測定手順を特定することが重要である。 量子システムを使った時間の定義には多大な努力が払われているが、宇宙でも同じことが達成されていない。 量子系の位置に関する情報を得るための操作手順の開発は、時空の古典的な概念に頼らない一般相対性理論と量子論を組み合わせた理論にとって特に重要である。 ここでは、この目標に向けて第一歩を踏み出し、位置測定装置として機能する拡張材料量子システムを記述するモデルを導入する。 このような「量子定規」は、調和して相互作用する双極子から成り、別の量子系の位置に対する(量子)参照システムとして機能する。 我々は「位置の重畳」に対応する量子測定手順を定義でき、この測定を行うことで、量子系が整合的あるいは非整合的な重畳状態にあるときに、位置ベースで区別できることを示す。 モデルは完全にリレーショナルであり、唯一の有意な変数は定規と系の間の相対的な位置であり、測定値は測定装置と測定システムの間の相互作用によって表される。

In physics, it is crucial to identify operational measurement procedures to give physical meaning to abstract quantities. There has been significant effort to define time operationally using quantum systems, but the same has not been achieved for space. Developing an operational procedure to obtain information about the location of a quantum system is particularly important for a theory combining general relativity and quantum theory, which cannot rest on the classical notion of spacetime. Here, we take a first step towards this goal, and introduce a model to describe an extended material quantum system working as a position measurement device. Such a "quantum ruler" is composed of $N$ harmonically interacting dipoles and serves as a (quantum) reference system for the position of another quantum system. We show that we can define a quantum measurement procedure corresponding to the "superposition of positions", and that by performing this measurement we can distinguish when the quantum system is in a coherent or incoherent superposition in the position basis. The model is fully relational, because the only meaningful variables are the relative positions between the ruler and the system, and the measurement is expressed in terms of an interaction between the measurement device and the measured system.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# 音響散乱におけるカシミールエネルギー計算の数値的側面

Numerical aspects of Casimir energy computation in acoustic scattering ( http://arxiv.org/abs/2306.01280v2 )

ライセンス: Link先を確認
Xiaoshu Sun, Timo Betcke, Alexander Strohmaier, (参考訳) カシミール力と物体間のエネルギーの計算は、1940年代までさかのぼる量子論の古典的な問題である。 文学におけるいくつかの異なるアプローチは、しばしば異なる物理原理に基づいて開発されてきた。 特に、境界層作用素の行列式によるカシミールエネルギーの表現は、数値的なアプローチにアクセスできる。 本稿ではまず,様々な手法の概要を述べるとともに,Krein-spectral shift関数と計算面との関係について考察する。 大規模問題に対するカシミールエネルギーの計算のためのクリロフ部分空間法の変種を提案し、いくつかの複雑な構成に対するカシミール計算を実証する。 これにより、大規模な実用上の問題に対するカシミールエネルギー計算が可能となり、その場合の計算が大幅に高速化される。

Computing the Casimir force and energy between objects is a classical problem of quantum theory going back to the 1940s. Several different approaches have been developed in the literature often based on different physical principles. Most notably a representation of the Casimir energy in terms of determinants of boundary layer operators makes it accessible to a numerical approach. In this paper, we first give an overview of the various methods and discuss the connection to the Krein-spectral shift function and computational aspects. We propose variants of Krylov subspace methods for the computation of the Casimir energy for large-scale problems and demonstrate Casimir computations for several complex configurations. This allows for Casimir energy calculation for large-scale practical problems and significantly speeds up the computations in that case.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# 超強結合超伝導量子回路における仮想光子の集積変換と光検出

Integrated conversion and photodetection of virtual photons in an ultrastrongly coupled superconducting quantum circuit ( http://arxiv.org/abs/2306.05200v3 )

ライセンス: Link先を確認
Luigi Giannelli, Giorgio Anfuso, Miroslav Grajcar, Gheorghe Sorin Paraoanu, Elisabetta Paladino, Giuseppe Falci, (参考訳) 量子化されたモードに超強結合された人工原子の基底状態は絡み合い、任意の数の仮想光子を含む。 彼らの発見の問題は、フィールドの誕生以来提起されてきたが、理論的な努力にもかかわらず、まだ実験的なデモンストレーションを待っている。 近年, 人工原子の非従来型設計と高度なコヒーレント制御を組み合わせることで, 克服可能であることを示す実験的問題に対処している。 本研究は, 制御積分連続測定の簡単なスキームについて検討し, 測定効率とバックアクションのトレードオフを著しく有利にすることで, 最先端の量子技術において, 仮想光子のあいまいな検出が可能であることを示す。

The ground-state of an artificial atom ultrastrongly coupled to quantized modes is entangled and contains an arbitrary number of virtual photons. The problem of their detection has been raised since the very birth of the field but despite the theoretical efforts still awaits experimental demonstration. Recently experimental problems have been addressed in detail showing that they can be overcome by combining an unconventional design of the artificial atom with advanced coherent control. In this work we study a simple scheme of control-integrated continuous measurement which makes remarkably favourable the tradeoff between measurement efficiency and backaction showing that the unambiguous detection of virtual photons can be achieved within state-of-the art quantum technologies.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# Kernel Debiased Plug-in Estimation: 多数のターゲットパラメータに対する影響関数を伴わない同時自動デバイアス

Kernel Debiased Plug-in Estimation: Simultaneous, Automated Debiasing without Influence Functions for Many Target Parameters ( http://arxiv.org/abs/2306.08598v4 )

ライセンス: Link先を確認
Brian Cho, Yaroslav Mukhin, Kyra Gan, Ivana Malenica, (参考訳) 非パラメトリックモデルにおけるターゲットパラメータをニュアンスパラメータで推定する問題では、未知のニュアンスを非パラメトリック推定器で置換することで、「プラグインバイアス」を導入することができる。 この準最適バイアス分散トレードオフに対処する従来の手法は、対象パラメータの影響関数(IF)に依存している。 複数の対象パラメータを推定する場合、これらの手法は対応するIFを用いて複数のニュアンスパラメータをデバイアスし、解析的および計算的課題を提起する。 本研究では,カーネル・デバイアスド・プラグイン推定(KDPE)という新しい手法を提案する。 KDPEは、再現されたカーネルヒルベルト空間に基づいた非パラメトリックモデルを用いて、正規化された極大化ステップを通じて初期推定を洗練する。 我々は、KDPEが i) 規則性条件を満たす全ての経路微分可能なターゲットパラメータを同時に分離する。 (ii)実装にIFを必要とせず、 (iii)計算能力は保たれている。 我々は、KDPEの使用法を数値的に説明し、理論結果を検証した。

In the problem of estimating target parameters in nonparametric models with nuisance parameters, substituting the unknown nuisances with nonparametric estimators can introduce "plug-in bias." Traditional methods addressing this sub-optimal bias-variance trade-offs rely on the influence function (IF) of the target parameter. When estimating multiple target parameters, these methods require debiasing the nuisance parameter multiple times using the corresponding IFs, posing analytical and computational challenges. In this work, we leverage the targeted maximum likelihood estimation framework to propose a novel method named kernel debiased plug-in estimation (KDPE). KDPE refines an initial estimate through regularized likelihood maximization steps, employing a nonparametric model based on reproducing kernel Hilbert spaces. We show that KDPE (i) simultaneously debiases all pathwise differentiable target parameters that satisfy our regularity conditions, (ii) does not require the IF for implementation, and (iii) remains computationally tractable. We numerically illustrate the use of KDPE and validate our theoretical results.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# ハイゼンベルクスピン鎖における無限温度における磁化のダイナミクス

Dynamics of magnetization at infinite temperature in a Heisenberg spin chain ( http://arxiv.org/abs/2306.09333v2 )

ライセンス: Link先を確認
Eliott Rosenberg, Trond Andersen, Rhine Samajdar, Andre Petukhov, Jesse Hoke, Dmitry Abanin, Andreas Bengtsson, Ilya Drozdov, Catherine Erickson, Paul Klimov, Xiao Mi, Alexis Morvan, Matthew Neeley, Charles Neill, Rajeev Acharya, Richard Allen, Kyle Anderson, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Joseph Bardin, A. Bilmes, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, Bob B. Buckley, David Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Juan Campero, Hung-Shen Chang, Zijun Chen, Benjamin Chiaro, Desmond Chik, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander Crook, Ben Curtin, Dripto Debroy, Alexander Del Toro Barba, Sean Demura, Agustin Di Paolo, Andrew Dunsworth, Clint Earle, E. Farhi, Reza Fatemi, Vinicius Ferreira, Leslie Flores, Ebrahim Forati, Austin Fowler, Brooks Foxen, Gonzalo Garcia, Élie Genois, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Raja Gosula, Alejandro Grajales Dau, Jonathan Gross, Steve Habegger, Michael Hamilton, Monica Hansen, Matthew Harrigan, Sean Harrington, Paula Heu, Gordon Hill, Markus Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, William Huggins, Lev Ioffe, Sergei Isakov, Justin Iveland, Evan Jeffrey, Zhang Jiang, Cody Jones, Pavol Juhas, D. Kafri, Tanuj Khattar, Mostafa Khezri, Mária Kieferová, Seon Kim, Alexei Kitaev, Andrey Klots, Alexander Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Kim Ming Lau, Lily Laws, Joonho Lee, Kenneth Lee, Yuri Lensky, Brian Lester, Alexander Lill, Wayne Liu, William P. Livingston, A. Locharla, Salvatore Mandrà, Orion Martin, Steven Martin, Jarrod McClean, Matthew McEwen, Seneca Meeks, Kevin Miao, Amanda Mieszala, Shirin Montazeri, Ramis Movassagh, Wojciech Mruczkiewicz, Ani Nersisyan, Michael Newman, Jiun How Ng, Anthony Nguyen, Murray Nguyen, M. Niu, Thomas O'Brien, Seun Omonije, Alex Opremcak, Rebecca Potter, Leonid Pryadko, Chris Quintana, David Rhodes, Charles Rocque, N. Rubin, Negar Saei, Daniel Sank, Kannan Sankaragomathi, Kevin Satzinger, Henry Schurkus, Christopher Schuster, Michael Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Volodymyr Sivak, Jindra Skruzny, Clarke Smith, Rolando Somma, George Sterling, Doug Strain, Marco Szalay, Douglas Thor, Alfredo Torres, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Theodore White, Bryan Woo, Cheng Xing, Jamie Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Hartmut Neven, Ryan Babbush, Dave Bacon, Sergio Boixo, Jeremy Hilton, Erik Lucero, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Vedika Khemani, Sarang Gopalakrishnan, Tomaž Prosen, Pedram Roushan, (参考訳) 量子力学の普遍的な側面を理解することは、統計力学における未解決の問題である。 特に、1Dハイゼンベルクモデルのスピンダイナミクスは、無限温度スピン相関関数のスケーリングに基づいて、KPZ(Kardar-Parisi-Zhang)普遍性クラスに属すると推測された。 46個の超伝導量子ビットの鎖において、チェーンの中心に伝達される磁化の確率分布である$P(\mathcal{M})$について検討する。 P(\mathcal{M})$の最初の2つのモーメントは超拡散的挙動を示し、これはKPZ普遍性の指標である。 しかし、第三モーメントと第四モーメントは、KPZ予想を除外し、他の理論を評価することができる。 この結果は、動的普遍性クラスの決定における高次モーメントの研究の重要性を強調し、量子システムにおける普遍的振る舞いに関する重要な洞察を提供する。

Understanding universal aspects of quantum dynamics is an unresolved problem in statistical mechanics. In particular, the spin dynamics of the 1D Heisenberg model were conjectured to belong to the Kardar-Parisi-Zhang (KPZ) universality class based on the scaling of the infinite-temperature spin-spin correlation function. In a chain of 46 superconducting qubits, we study the probability distribution, $P(\mathcal{M})$, of the magnetization transferred across the chain's center. The first two moments of $P(\mathcal{M})$ show superdiffusive behavior, a hallmark of KPZ universality. However, the third and fourth moments rule out the KPZ conjecture and allow for evaluating other theories. Our results highlight the importance of studying higher moments in determining dynamic universality classes and provide key insights into universal behavior in quantum systems.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# 画像復調のための重み付き構造テンソル全変動

Weighted structure tensor total variation for image denoising ( http://arxiv.org/abs/2306.10482v2 )

ライセンス: Link先を確認
Xiuhan Sheng, Lijuan Yang, Jingya Chang, (参考訳) 画像復号化問題に対して、構造テンソル全変量モデル(STV)は、他の競合する正規化手法と比較して優れた性能を示す。 しかし、STVレギュレータは画像のローカル情報を結合せず、画像の詳細を保持できない可能性がある。 そこで, 異方性全変動(ATV)モデルに導入された異方性重み付き行列を用いて, STVモデルを改善する。 STVにおけるパッチベースのヤコビアン演算子の離散勾配に重み付き行列を適用することにより、提案手法により、画像から局所情報を効果的に取得し、復調過程において詳細を維持することができる。 モデルの最適化問題は、O(1 / i^2)$の複雑性結果を持つ高速な一階勾配予測アルゴリズムによって解決される。 ガウスノイズレベルが異なる画像に対して、WSTVモデルは、他のテレビやSTVモデルと比較して、復元された画像の品質を効果的に向上させることができることを示す実験結果が得られた。

For image denoising problems, the structure tensor total variation (STV)-based models show good performances when compared with other competing regularization approaches. However, the STV regularizer does not couple the local information of the image and may not maintain the image details. Therefore, we employ the anisotropic weighted matrix introduced in the anisotropic total variation (ATV) model to improve the STV model. By applying the weighted matrix to the discrete gradient of the patch-based Jacobian operator in STV, our proposed weighted STV (WSTV) model can effectively capture local information from images and maintain their details during the denoising process. The optimization problem in the model is solved by a fast first-order gradient projection algorithm with a complexity result of $O(1 / i^2)$. For images with different Gaussian noise levels, the experimental results demonstrate that the WSTV model can effectively improve the quality of restored images compared to other TV and STV-based models.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-04
# 非一様ハイパーグラフに対するスケーラブルテンソル法

Scalable tensor methods for nonuniform hypergraphs ( http://arxiv.org/abs/2306.17825v2 )

ライセンス: Link先を確認
Sinan G. Aksoy, Ilya Amburg, Stephen J. Young, (参考訳) 多重線型代数は、ハイパーグラフによってモデル化されたマルチウェイ相互作用を研究するのに自然に現れるが、一般的なハイパーグラフのテンソル法は理論的および実践的な障壁によって妨げられている。 最近提案された隣接テンソルは、非一様ハイパーグラフに適用できるが、実際は形成・解析するのに著しくコストがかかる。 我々は、このテンソルのテンソル時間同値ベクトル(TTSV)アルゴリズムを開発し、複雑さを$O(n^r)$から$r$の低次多項式に改善する。 我々のアルゴリズムは暗黙的であり、次数$r$隣接テンソルの形成を避ける。 テンソルベースハイパーグラフ集中度とクラスタリングアルゴリズムを開発することにより,我々のアプローチの柔軟性と実用性を実証する。 また、これらのテンソル測度は、データ上の類似グラフ推論手法と相補的な情報を提供し、既存の行列ベースのアプローチで証明不可能な高次構造を検出できることを示す。

While multilinear algebra appears natural for studying the multiway interactions modeled by hypergraphs, tensor methods for general hypergraphs have been stymied by theoretical and practical barriers. A recently proposed adjacency tensor is applicable to nonuniform hypergraphs, but is prohibitively costly to form and analyze in practice. We develop tensor times same vector (TTSV) algorithms for this tensor which improve complexity from $O(n^r)$ to a low-degree polynomial in $r$, where $n$ is the number of vertices and $r$ is the maximum hyperedge size. Our algorithms are implicit, avoiding formation of the order $r$ adjacency tensor. We demonstrate the flexibility and utility of our approach in practice by developing tensor-based hypergraph centrality and clustering algorithms. We also show these tensor measures offer complementary information to analogous graph-reduction approaches on data, and are also able to detect higher-order structure that many existing matrix-based approaches provably cannot.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# Infinite Tensor Network Contraction によるオープン量子システムダイナミクス

Open Quantum System Dynamics from Infinite Tensor Network Contraction ( http://arxiv.org/abs/2307.01802v4 )

ライセンス: Link先を確認
Valentin Link, Hong-Hao Tu, Walter T. Strunz, (参考訳) 非マルコフ開量子系の長時間のダイナミクスへのアプローチは、入浴が強く結合されている場合、難しい課題となる。 最近の提案では、いわゆるプロセステンソルをテンソルネットワークで表現することでこの問題に対処している。 ガウス環境において、行列積演算子(MPO)形式への高効率な収縮は、無限のMPO進化法で達成できることを示し、既存の提案よりも計算速度が大幅に向上することを示した。 この結果は、階層的あるいは擬態的手法のように、慎重に設計された補助的な自由度を持つオープンシステムの進化と構造的に類似している。 しかし、これらの自由度はMPO進化アルゴリズムによって自動的に生成される。 さらに、結果として生じるプロパゲータの半群形式は、相転移のような定常物理学を探索することができる。

Approaching the long-time dynamics of non-Markovian open quantum systems presents a challenging task if the bath is strongly coupled. Recent proposals address this problem through a representation of the so-called process tensor in terms of a tensor network. We show that for Gaussian environments highly efficient contraction to matrix product operator (MPO) form can be achieved with infinite MPO evolution methods, leading to significant computational speed-up over existing proposals. The result structurally resembles open system evolution with carefully designed auxiliary degrees of freedom, as in hierarchical or pseudomode methods. Here, however, these degrees of freedom are generated automatically by the MPO evolution algorithm. Moreover, the semi-group form of the resulting propagator enables us to explore steady-state physics, such as phase transitions.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# ニューラルシュレーディンガー鍛造に基づくハイブリッド基底状態量子アルゴリズム

Hybrid Ground-State Quantum Algorithms based on Neural Schrödinger Forging ( http://arxiv.org/abs/2307.02633v2 )

ライセンス: Link先を確認
Paulin de Schoulepnikoff, Oriel Kiss, Sofia Vallecorsa, Giuseppe Carleo, Michele Grossi, (参考訳) エンタングルメント鍛造に基づく変分アルゴリズムは、基底状態問題に対処するために量子系の二分割を利用する。 これらのアプローチの主な制限は、システム全体のシュミット分解を実行する際に、多くのポテンシャル基底状態、またはビットストリングに必要となる指数的な和である。 この課題を克服するために,生成型ニューラルネットワークを用いたエンタングルメント鍛造法を提案する。 複雑性が増大するシステムの実証実験を通じて,提案アルゴリズムは,既存のエンタングルメント鍛造の標準実装と比較して,同等あるいは優れた性能を達成可能であることを示す。 さらに、必要なリソースの量を制御することによって、後者の制約がハイゼンベルク鍛造手順と関連付けられているような非置換不変系と同様に、このスキームをより大きく適用することができる。 本研究では, 1次元リング, 2次元三角格子トポロジー, 核殻モデル構成を示すスピンモデルを用いて数値シミュレーションを行った。

Entanglement forging based variational algorithms leverage the bi-partition of quantum systems for addressing ground state problems. The primary limitation of these approaches lies in the exponential summation required over the numerous potential basis states, or bitstrings, when performing the Schmidt decomposition of the whole system. To overcome this challenge, we propose a new method for entanglement forging employing generative neural networks to identify the most pertinent bitstrings, eliminating the need for the exponential sum. Through empirical demonstrations on systems of increasing complexity, we show that the proposed algorithm achieves comparable or superior performance compared to the existing standard implementation of entanglement forging. Moreover, by controlling the amount of required resources, this scheme can be applied to larger, as well as non permutation invariant systems, where the latter constraint is associated with the Heisenberg forging procedure. We substantiate our findings through numerical simulations conducted on spins models exhibiting one-dimensional ring, two-dimensional triangular lattice topologies, and nuclear shell model configurations.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# 1つの観測可能な特別な状態に対する分離性基準:量子クエンチによる絡み検出

Separability criterion using one observable for special states: Entanglement detection via quantum quench ( http://arxiv.org/abs/2307.03735v2 )

ライセンス: Link先を確認
Roopayan Ghosh, Sougato Bose, (参考訳) 多体量子系における絡み合いの検出は極めて重要であるが、通常は複数の測定を必要とする。 ここでは、ちょうど$\textit{one}$基底における連結相関の測定が十分であり、適切な基底と可観測値が選択された場合、二部分離性を検出するために必要となる状態のクラスを確立する。 この手法は、状態に関する事前情報を活用するが、完全な状態や絡み合いを明らかにするには不十分であるが、我々の1つの基礎的アプローチが効果的である。 本稿では,Transverse Ising モデルのような保存電荷を持たないものを含む,様々なシステムにおける観測可能な絡み合い検出の可能性について論じる。 これは、以前の作業よりもずっと単純な検出経路を提供する。 また、ピアソン相関検出技術による感度の向上も示した。

Detecting entanglement in many-body quantum systems is crucial but challenging, typically requiring multiple measurements. Here, we establish the class of states where measuring connected correlations in just $\textit{one}$ basis is sufficient and necessary to detect bipartite separability, provided the appropriate basis and observables are chosen. This methodology leverages prior information about the state, which, although insufficient to reveal the complete state or its entanglement, enables our one basis approach to be effective. We discuss the possibility of one observable entanglement detection in a variety of systems, including those without conserved charges, such as the Transverse Ising model, reaching the appropriate basis via quantum quench. This provides a much simpler pathway of detection than previous works. It also shows improved sensitivity from Pearson Correlation detection techniques.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# DeepIPCv2:LiDARによる自動運転車のロバスト環境認識とナビゲーション制御

DeepIPCv2: LiDAR-powered Robust Environmental Perception and Navigational Control for Autonomous Vehicle ( http://arxiv.org/abs/2307.06647v3 )

ライセンス: Link先を確認
Oskar Natan, Jun Miura, (参考訳) 本稿では,LiDARセンサを用いた環境認識モデルであるDeepIPCv2について述べる。 DeepIPCv2は、LiDAR点雲の集合を主知覚入力とする。 点雲は照明の変化の影響を受けないため、条件が何であれ周囲をはっきりと観察することができる。 これにより、ナビゲーション制御を適切に推定するコントローラモジュールをサポートするために、知覚モジュールによって提供されるシーン理解と安定した機能が改善される。 その性能を評価するため、3つの異なる条件下で実走行記録を予測し、実走行運転を行うためにモデルを配置し、いくつかの試験を行った。 また,最近のモデルを用いてアブレーションと比較研究を行い,その性能を正当化する。 実験結果に基づいて、DeepIPCv2は、すべての駆動シナリオで最高の乾燥性を達成することにより、堅牢なパフォーマンスを示す。 さらに、将来の研究をサポートするために、コードとデータをhttps://github.com/oskarnatan/DeepIPCv2.comにアップロードします。

We present DeepIPCv2, an autonomous driving model that perceives the environment using a LiDAR sensor for more robust drivability, especially when driving under poor illumination conditions where everything is not clearly visible. DeepIPCv2 takes a set of LiDAR point clouds as the main perception input. Since point clouds are not affected by illumination changes, they can provide a clear observation of the surroundings no matter what the condition is. This results in a better scene understanding and stable features provided by the perception module to support the controller module in estimating navigational control properly. To evaluate its performance, we conduct several tests by deploying the model to predict a set of driving records and perform real automated driving under three different conditions. We also conduct ablation and comparative studies with some recent models to justify its performance. Based on the experimental results, DeepIPCv2 shows a robust performance by achieving the best drivability in all driving scenarios. Furthermore, to support future research, we will upload the codes and data to https://github.com/oskarnatan/DeepIPCv2.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# キャビティ量子電磁力学によるWSe$_{2}$単一光子源のコヒーレンスに及ぼすフォノン減圧の影響

Engineering the impact of phonon dephasing on the coherence of a WSe$_{2}$ single-photon source via cavity quantum electrodynamics ( http://arxiv.org/abs/2307.06891v2 )

ライセンス: Link先を確認
Victor Nikolaevich Mitryakhin, Alexander Steinhoff, Jens-Christian Drawer, Hangyong Shan, Matthias Florian, Lukas Lackner, Bo Han, Falk Eilenberger, Sefaattin Tongay, Kenji Watanabe, Takashi Taniguchi, Carlos Antón-Solanas, Ana Predojević, Christopher Gies, Martin Esmann, Christian Schneider, (参考訳) Emitter dephasingは固体単一光子源の性能の鍵となる問題の一つである。 様々な劣化源の中で、音響フォノンは単一光子の放出にデコヒーレンスを加える上で中心的な役割を果たす。 ここでは、単一WSe$_2$単層量子ドットから放射される光子のコヒーレンスを、スペクトル共振器共鳴に選択的に結合することで調整し、設計できることを実証する。 オープンキャビティを用いて、高非対称フォノンサイドバンドのスペクトル増強、レベリング、抑制を図り、真の2次元システムにおけるエキシトン-フォノン強調の微視的記述とよく一致した。 さらに, キャビティチューニングがデファスティングに与える影響を光学干渉計で直接評価し, ステアへの光物質結合を利用でき, 原子状結晶中の量子エミッタのデファス化とコヒーレンスを設計できることを示した。

Emitter dephasing is one of the key issues in the performance of solid-state single photon sources. Among the various sources of dephasing, acoustic phonons play a central role in adding decoherence to the single photon emission. Here, we demonstrate, that it is possible to tune and engineer the coherence of photons emitted from a single WSe$_2$ monolayer quantum dot via selectively coupling it to a spectral cavity resonance. We utilize an open cavity to demonstrate spectral enhancement, leveling, and suppression of the highly asymmetric phonon sideband, finding excellent agreement with a microscopic description of the exciton-phonon dephasing in a truly two-dimensional system. Moreover, the impact of cavity tuning on the dephasing is directly assessed via optical interferometry, which points out the capability to utilize light-matter coupling to steer and design dephasing and coherence of quantum emitters in atomically thin crystals.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# 言語モデルによるシュレーディンガー方程式の解法

Solving Schrödinger Equation with a Language Model ( http://arxiv.org/abs/2307.09343v4 )

ライセンス: Link先を確認
Honghui Shang, Chu Guo, Yangjun Wu, Zhenyu Li, Jinlong Yang, (参考訳) 複雑な系に対するシュリンガー方程式の正確な解法は、物理科学において依然として顕著な課題である。 この課題に対処するパラダイムシフトアプローチには、人工知能技術の応用が含まれる。 本研究では,言語モデルで使用されるトランスフォーマーアーキテクチャに基づいて,QiankunNetという機械学習モデルを提案する。 注意機構を組み込むことで、QiankunNetはその表現力を高める複雑な量子相関を取り込む。 QiankunNetの自己回帰特性は、モデルトレーニングプロセスを容易にし、総エネルギーを推定するために非常に効率的なサンプリング手法を採用することを可能にする。 さらに、QiankunNetのパフォーマンスは事前トレーニングプロセスによってさらに改善できる。 この研究は、量子力学における人工知能のパワーを実証するだけでなく、完全な構成と相互作用の精度で研究できるシステムの境界を拡張するための重要な進歩を示す。

Accurately solving the Schr\"odinger equation for intricate systems remains a prominent challenge in physical sciences. A paradigm-shifting approach to address this challenge involves the application of artificial intelligence techniques. In this study, we introduce a machine-learning model named QiankunNet, based on the transformer architecture employed in language models. By incorporating the attention mechanism, QiankunNet adeptly captures intricate quantum correlations, which enhances its expressive power. The autoregressive attribute of QiankunNet allows for the adoption of an exceedingly efficient sampling technique to estimate the total energy, facilitating the model training process. Additionally, performance of QiankunNet can be further improved via a pre-training process. This work not only demonstrates the power of artificial intelligence in quantum mechanics but also signifies a pivotal advancement in extending the boundary of systems which can be studied with a full-configuration-interaction accuracy.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# RANSACを用いたトレーニング不要の画像異常検出

Image Outlier Detection Without Training using RANSAC ( http://arxiv.org/abs/2307.12301v3 )

ライセンス: Link先を確認
Chen-Han Tsai, Yu-Shao Peng, (参考訳) 画像異常検出(OD)は、コンピュータビジョンタスクで使用される画像の品質を保証するための重要なツールである。 既存のアルゴリズムは、しばしば不整合分布を表すためにモデルを訓練し、外周は偏差測度によって決定される。 既存の手法は厳密な不整合サンプルをトレーニングする際に有効であることが証明されているが、その性能はトレーニング中に望ましくない外れ値が含まれている場合に疑問が残る。 この制限により、新しいドメインのためのODモデルを開発する際に、データを慎重に検討する必要がある。 本研究では,RANSAC-NNと呼ばれる新しい画像ODアルゴリズムを提案する。 既存のアプローチとは異なり、RANSAC-NNはデータのサブセットをサンプリングして比較することで、アウトレーヤを含むデータセットに直接適用することができる。 提案アルゴリズムは, 既存のベンチマーク手法と比較して, 良好な性能を保っている。 さらに、RANSAC-NNは、データ作成プロセスの一部としてアルゴリズムを組み込むことにより、既存の手法の堅牢性を高めることができることを示す。

Image outlier detection (OD) is an essential tool to ensure the quality of images used in computer vision tasks. Existing algorithms often involve training a model to represent the inlier distribution, and outliers are determined by some deviation measure. Although existing methods proved effective when trained on strictly inlier samples, their performance remains questionable when undesired outliers are included during training. As a result of this limitation, it is necessary to carefully examine the data when developing OD models for new domains. In this work, we present a novel image OD algorithm called RANSAC-NN that eliminates the need of data examination and model training altogether. Unlike existing approaches, RANSAC-NN can be directly applied on datasets containing outliers by sampling and comparing subsets of the data. Our algorithm maintains favorable performance compared to existing methods on a range of benchmarks. Furthermore, we show that RANSAC-NN can enhance the robustness of existing methods by incorporating our algorithm as part of the data preparation process.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# スピンの空間波動関数

Spatial Wavefunctions of Spin ( http://arxiv.org/abs/2307.13591v3 )

ライセンス: Link先を確認
T. Peter Rakitzis, (参考訳) 我々は、オイラー角$\phi, \theta, \chi$に依存する空間波動関数に基づく量子力学的角運動量の別の定式化を提案する。 波動関数はウィグナー D-函数、$D_{n m}^j (\phi, \theta, \chi)$ で、体固定射影量子数 $n$ は異常値 $n=|j|=\sqrt{j(j+1)}$ または $n=0$ を持つ。 D_{\sqrt{j(j+1)},m}^j (\phi, \theta, \chi)$ 波動関数は正規化できないが、期待値の計算を可能にする再正規化手順を示す: 例えば、状態 $D_{\sqrt{S(S+1)} M}^S (\phi, \theta, \chi)$ スピンを持つ素粒子の値 $S$ は、g=2$ のジャイロ磁性比を$S>0$ に対して与える。 したがって、$D_{n m}^j (\phi, \theta, \chi)$ が角運動量に対する空間波動関数として有用であるとする。 基本粒子に対する量子数$n$のいくつかの意味は、ニュートリノのディラックフェルミオンの性質やダークマター候補の提案などである。

We present an alternative formulation of quantum mechanical angular momentum, based on spatial wavefunctions that depend on the Euler angles $\phi, \theta, \chi$. The wavefunctions are Wigner D-functions, $D_{n m}^j (\phi, \theta, \chi)$, for which the body-fixed projection quantum number $n$ has the unusual value $n=|j|=\sqrt{j(j+1)}$, or $n=0$. The $D_{\sqrt{j(j+1)},m}^j (\phi, \theta, \chi)$ wavefunctions are unnormalizable, however we demonstrate a renormalization procedure that allows the calculation of expectation values: for example, the states $D_{\sqrt{S(S+1)} M}^S (\phi, \theta, \chi)$ of elementary particles with spin $S$ give a gyromagnetic ratio of $g=2$ for $S>0$, and we identify these as the spatial angular-momentum wavefunctions of known fundamental charged particles with spin. Therefore, we make the case that the $D_{n m}^j (\phi, \theta, \chi)$ are useful as spatial wavefunctions for angular momentum. Some implications of the quantum number $n$ for fundamental particles are discussed, such as the proposed Dirac-fermion nature of the neutrino, and some proposed dark-matter candidates.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# コードレビューにおけるコードスニペットの廃止 - OpenStackコミュニティとQtコミュニティの検討と実践者調査

Demystifying Code Snippets in Code Reviews: A Study of the OpenStack and Qt Communities and A Practitioner Survey ( http://arxiv.org/abs/2307.14406v3 )

ライセンス: Link先を確認
Beiqi Zhang, Liming Fu, Peng Liang, Jiaxin Yu, Chong Wang, (参考訳) コードレビューは、ソフトウェア開発におけるソフトウェア品質保証のためのベストプラクティスの1つとして広く知られている。 典型的なコードレビュープロセスでは、レビュー担当者が開発者がコミットしたコードをチェックして、コードの品質を保証する。 その結果、レビューコメントにある情報を理解することは、レビュー担当者や開発者が効果的なコードレビューを行うための前提条件となる。 コードスニペットは、特別なコード形式として、コードレビューで必要な情報を伝えるために使用することができる。 例えば、レビュアはコードスニペットを使って提案したり、アイデアを精巧にすることで、コードレビューで開発者に必要な情報を満たすことができる。 しかし、コードレビューでコードスニペットを提供するプラクティスについてはほとんど研究されていない。 このギャップを埋めるために、コードレビューのコードスニペットに関する情報と知識をマイニングする混合手法の研究を行い、実践者や研究者がコードレビューでコードスニペットを使用することについて理解を深めるのに役立つ。 具体的には,コードレビューデータのマイニングと実践者の調査の2段階を含む。 調査の結果は、レビュー担当者がコードレビューで開発者が必要とする特定の情報を満たすために、適切なシナリオでコードスニペットを提供することで、コードレビュープロセスを容易にし、加速することができることを強調している。

Code review is widely known as one of the best practices for software quality assurance in software development. In a typical code review process, reviewers check the code committed by developers to ensure the quality of the code, during which reviewers and developers would communicate with each other in review comments to exchange necessary information. As a result, understanding the information in review comments is a prerequisite for reviewers and developers to conduct an effective code review. Code snippet, as a special form of code, can be used to convey necessary information in code reviews. For example, reviewers can use code snippets to make suggestions or elaborate their ideas to meet developers' information needs in code reviews. However, little research has focused on the practices of providing code snippets in code reviews. To bridge this gap, we conduct a mixed-methods study to mine information and knowledge related to code snippets in code reviews, which can help practitioners and researchers get a better understanding about using code snippets in code review. Specifically, our study includes two phases: mining code review data and conducting practitioners' survey. The study results highlight that reviewers can provide code snippets in appropriate scenarios to meet developers' specific information needs in code reviews, which will facilitate and accelerate the code review process.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# マルチプロテクション属性によるフェアネス改善: どこまで?

Fairness Improvement with Multiple Protected Attributes: How Far Are We? ( http://arxiv.org/abs/2308.01923v3 )

ライセンス: Link先を確認
Zhenpeng Chen, Jie M. Zhang, Federica Sarro, Mark Harman, (参考訳) 既存の研究は、一度に1つの保護属性に関する機械学習(ML)ソフトウェアの公平性を大幅に改善していますが、多くのユーザが複数の保護属性を持っているため、これは現実的ではありません。 本報告では, マルチプロテクト属性に関するフェアネス改善手法について, 11種類の最先端フェアネス改善手法について, 広範囲にわたる検討を行った。 複数の保護属性を考慮した場合、これらの手法の有効性を異なるデータセット、メトリクス、MLモデルで分析する。 その結果、単一の保護属性の公平性を改善することは、未検討の保護属性に対する公平性を大幅に低下させることが判明した。 この減少は88.3%のシナリオで観測される(平均57.5%)。 より驚くべきことに、単一属性と複数の保護属性を考えると、精度損失の差はほとんど見られず、多重属性パラダイムでは精度が維持できることを示している。 しかし、2つの保護属性を扱う場合のF1スコアへの影響は、1つの属性の約2倍である。 これは将来の公正性研究に重要な意味を持ち、現在文献で一般的なMLパフォーマンス指標としてのみ正確さを報告することは不十分である。

Existing research mostly improves the fairness of Machine Learning (ML) software regarding a single protected attribute at a time, but this is unrealistic given that many users have multiple protected attributes. This paper conducts an extensive study of fairness improvement regarding multiple protected attributes, covering 11 state-of-the-art fairness improvement methods. We analyze the effectiveness of these methods with different datasets, metrics, and ML models when considering multiple protected attributes. The results reveal that improving fairness for a single protected attribute can largely decrease fairness regarding unconsidered protected attributes. This decrease is observed in up to 88.3% of scenarios (57.5% on average). More surprisingly, we find little difference in accuracy loss when considering single and multiple protected attributes, indicating that accuracy can be maintained in the multiple-attribute paradigm. However, the effect on F1-score when handling two protected attributes is about twice that of a single attribute. This has important implications for future fairness research: reporting only accuracy as the ML performance metric, which is currently common in the literature, is inadequate.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# 協調フィルタリングに基づくレコメンダシステムへの無謀性の導入

Incorporating Recklessness to Collaborative Filtering based Recommender Systems ( http://arxiv.org/abs/2308.02058v2 )

ライセンス: Link先を確認
Diego Pérez-López, Fernando Ortega, Ángel González-Prieto, Jorge Dueñas-Lerín, (参考訳) リコメンダシステムは本質的に信頼性とカバレッジのジレンマに結びついている: 予測の信頼性が高ければ高いほど、決定はより保守的になり、したがって、より少ない項目が推奨される。 これは、不確実なアイテムを推奨する代わりに、成功を保証されたアイテムを予測することに集中するため、これらのシステムの新規性を大幅に低下させる。 本稿では,行列因数分解に基づく推薦システムの学習過程において,予測された評価の出力確率分布のばらつきを考慮した新しい用語「無謀性」を提案する。 このようにして、この無謀性尺度を掲げることで、よりスパイクな出力分布を強制することができ、予測の信頼性に関する決定を行う際に、望ましいリスクレベルの制御を可能にします。 実験結果から、無謀性はリスクレギュレーションだけでなく、レコメンダシステムが提供する予測量や品質も改善することが示された。

Recommender systems are intrinsically tied to a reliability/coverage dilemma: The more reliable we desire the forecasts, the more conservative the decision will be and thus, the fewer items will be recommended. This leads to a significant drop in the novelty of these systems, since instead of recommending uncertain unusual items, they focus on predicting items with guaranteed success. In this paper, we propose the inclusion of a new term in the learning process of matrix factorization-based recommender systems, called recklessness, that takes into account the variance of the output probability distribution of the predicted ratings. In this way, gauging this recklessness measure we can force more spiky output distribution, enabling the control of the risk level desired when making decisions about the reliability of a prediction. Experimental results demonstrate that recklessness not only allows for risk regulation but also improves the quantity and quality of predictions provided by the recommender system.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# 不均質な時間MMMAグラフによるフラッド検出のクラウドソーシング

Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph ( http://arxiv.org/abs/2308.02793v2 )

ライセンス: Link先を確認
Zequan Xu, Qihang Sun, Shaofeng Hu, Jieming Shi, Hui Li, (参考訳) 多目的メッセージングモバイルアプリ(MMMA)を用いたクリックファームビジネスの興隆は、サイバー犯罪者を誘惑し、クラウドソーシング詐欺を犯し、農業労働者をクリックさせる経済的損失を引き起こす。 本稿では,MMMAのヘテロジニアス時間グラフ(HTG)上での不正検出をクラウドソーシングするための,CMTという新しいコントラスト型マルチビュー学習手法を提案する。 CMTはHTGの不均一性と動的性の両方を捕捉し、自己管理的なクラウドソーシング詐欺検出のための高品質な表現を生成する。 我々は,代表的MMMA WeChatの業界規模のHTG上で,クラウドソーシング詐欺を検出するためにCMTをデプロイし,他の手法よりも優れています。 CMTはまた、大規模な公的金融HTGにおける不正検出の有望な結果を示し、他のグラフ異常検出タスクにも適用可能であることを示す。 実装はhttps://github.com/KDEGroup/CMTで公開しています。

The rise of the click farm business using Multi-purpose Messaging Mobile Apps (MMMAs) tempts cybercriminals to perpetrate crowdsourcing frauds that cause financial losses to click farm workers. In this paper, we propose a novel contrastive multi-view learning method named CMT for crowdsourcing fraud detection over the heterogeneous temporal graph (HTG) of MMMA. CMT captures both heterogeneity and dynamics of HTG and generates high-quality representations for crowdsourcing fraud detection in a self-supervised manner. We deploy CMT to detect crowdsourcing frauds on an industry-size HTG of a representative MMMA WeChat and it significantly outperforms other methods. CMT also shows promising results for fraud detection on a large-scale public financial HTG, indicating that it can be applied in other graph anomaly detection tasks. We provide our implementation at https://github.com/KDEGroup/CMT.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-04
# Bias Behind the Wheel:Fairness Analysis of autonomous Driving Systems (特集:自動車と自動車)

Bias Behind the Wheel: Fairness Analysis of Autonomous Driving Systems ( http://arxiv.org/abs/2308.02935v3 )

ライセンス: Link先を確認
Xinyue Li, Zhenpeng Chen, Jie M. Zhang, Federica Sarro, Ying Zhang, Xuanzhe Liu, (参考訳) 本稿では,自律走行システムにおける重要な課題である自動歩行者検出の公平性について分析する。 我々は,大規模な実世界のデータセットを用いて,人口集団間で最先端のディープラーニングに基づく歩行者検出器を8つ評価した。 その結果、16,070の性別ラベル、20,115の年齢ラベル、3,513の肌色ラベルを持つ8,311の画像が得られた。 以上の結果から,特に年齢に有意な公平性障害がみられた。 検出されていない子供の比率は、大人より20.14%高い。 さらに,歩行者検知器の公平性に様々な運転シナリオがどう影響するかを考察する。 歩行者検出器は、夜間に有意な性別バイアスを示し、夜間外出時に女性の安全に関する社会的問題を悪化させる可能性がある。 さらに, 歩行者検出装置は, 特定運転条件下での公正性向上と優れた性能の両立を図り, フェアネス文献で広く認められているフェアネス・パフォーマンストレードオフ理論に挑戦する。 我々は、自動運転の公正性に関する将来の研究を支援するために、コード、データ、結果を公開します。

This paper analyzes fairness in automated pedestrian detection, a crucial but under-explored issue in autonomous driving systems. We evaluate eight state-of-the-art deep learning-based pedestrian detectors across demographic groups on large-scale real-world datasets. To enable thorough fairness testing, we provide extensive annotations for the datasets, resulting in 8,311 images with 16,070 gender labels, 20,115 age labels, and 3,513 skin tone labels. Our findings reveal significant fairness issues, particularly related to age. The undetected proportions for children are 20.14% higher compared to adults. Furthermore, we explore how various driving scenarios affect the fairness of pedestrian detectors. We find that pedestrian detectors demonstrate significant gender biases during night time, potentially exacerbating the prevalent societal issue of female safety concerns during nighttime out. Moreover, we observe that pedestrian detectors can demonstrate both enhanced fairness and superior performance under specific driving conditions, which challenges the fairness-performance trade-off theory widely acknowledged in the fairness literature. We publicly release the code, data, and results to support future research on fairness in autonomous driving.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# CMB:中国語の総合医療ベンチマーク

CMB: A Comprehensive Medical Benchmark in Chinese ( http://arxiv.org/abs/2308.08833v2 )

ライセンス: Link先を確認
Xidong Wang, Guiming Hardy Chen, Dingjie Song, Zhiyi Zhang, Zhihong Chen, Qingying Xiao, Feng Jiang, Jianquan Li, Xiang Wan, Benyou Wang, Haizhou Li, (参考訳) 大きな言語モデル(LLM)は、医学に大きなブレークスルーをもたらす可能性がある。 標準化された医療ベンチマークの確立は、進歩を測定するための基本的な基盤となる。 しかし、各地域の医療環境は、中国における漢方医学の在来性や意義など、その地域的特徴を持っている。 したがって、単に英語に基づく医療評価を単に翻訳すれば、ローカルな領域に「textit{contextual incongruities}」をもたらす可能性がある。 そこで本研究では,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)と呼ばれる局所的な医療ベンチマークを提案する。 伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。 本ベンチマークを用いて,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,大規模LSMの大規模評価を行った。 本ベンチマークは,既存の医学 LLM の先進的な体験を提供し,中国における医学 LLM の普及と普及を促進することを願っている。 私たちのデータとコードはhttps://github.com/FreedomIntelligence/CMBで公開されています。

Large Language Models (LLMs) provide a possibility to make a great breakthrough in medicine. The establishment of a standardized medical benchmark becomes a fundamental cornerstone to measure progression. However, medical environments in different regions have their local characteristics, e.g., the ubiquity and significance of traditional Chinese medicine within China. Therefore, merely translating English-based medical evaluation may result in \textit{contextual incongruities} to a local region. To solve the issue, we propose a localized medical benchmark called CMB, a Comprehensive Medical Benchmark in Chinese, designed and rooted entirely within the native Chinese linguistic and cultural framework. While traditional Chinese medicine is integral to this evaluation, it does not constitute its entirety. Using this benchmark, we have evaluated several prominent large-scale LLMs, including ChatGPT, GPT-4, dedicated Chinese LLMs, and LLMs specialized in the medical domain. We hope this benchmark provide first-hand experience in existing LLMs for medicine and also facilitate the widespread adoption and enhancement of medical LLMs within China. Our data and code are publicly available at https://github.com/FreedomIntelligence/CMB.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# (レ)量子空間時間の構成:ヒルベルトを構成空間に変換する

(Re)Construction of Quantum Space-Time: Transcribing Hilbert Into Configuration Space ( http://arxiv.org/abs/2308.09715v2 )

ライセンス: Link先を確認
Karl Svozil, (参考訳) 量子力学における時空はヒルベルトと構成空間をブリッジすることである。 これにより、ニュートンの時空劇場を、おそらく高次元ヒルベルト空間のイメージに置き換え、空間時間が内部観測者によって解釈されるエピノメノンとなる、全く新しい視点が得られる。

Space-time in quantum mechanics is about bridging Hilbert and configuration space. Thereby, an entirely new perspective is obtained by replacing the Newtonian space-time theater with the image of a presumably high-dimensional Hilbert space, through which space-time becomes an epiphenomenon construed by internal observers.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# 大規模言語モデルに基づく自律エージェントに関する調査

A Survey on Large Language Model based Autonomous Agents ( http://arxiv.org/abs/2308.11432v5 )

ライセンス: Link先を確認
Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, Ji-Rong Wen, (参考訳) 自律的なエージェントは、長い間、学術と産業の両方で顕著な研究の焦点であった。 この分野での以前の研究は、しばしば孤立した環境の中で限られた知識を持つ訓練エージェントに焦点を当てており、それは人間の学習プロセスと大きく異なるため、エージェントが人間のような決定を下すのを困難にしている。 近年,膨大な量のWeb知識の獲得により,人間レベルの知能を実現する上で,大きな言語モデル(LLM)が顕著な可能性を示している。 LLMをベースとした自律型エージェントの研究が急増した。 本稿では、これらの研究を総合的に調査し、LLMに基づく自律エージェントの分野を総合的な視点から体系的にレビューする。 より具体的には、LLMに基づく自律エージェントの構築について論じ、前回の作業の大部分を包含する統一的なフレームワークを提案する。 次に、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。 最後に,LLMをベースとした自律エージェントの評価手法について検討する。 本研究は,本分野における課題と今後の方向性についても述べる。 このフィールドを追跡し、調査を継続的に更新するために、私たちはhttps://github.com/Paitesanshi/LLM-Agent-Survey.comで関連するリファレンスのリポジトリを管理します。

Autonomous agents have long been a prominent research focus in both academic and industry communities. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from human learning processes, and thus makes the agents hard to achieve human-like decisions. Recently, through the acquisition of vast amounts of web knowledge, large language models (LLMs) have demonstrated remarkable potential in achieving human-level intelligence. This has sparked an upsurge in studies investigating LLM-based autonomous agents. In this paper, we present a comprehensive survey of these studies, delivering a systematic review of the field of LLM-based autonomous agents from a holistic perspective. More specifically, we first discuss the construction of LLM-based autonomous agents, for which we propose a unified framework that encompasses a majority of the previous work. Then, we present a comprehensive overview of the diverse applications of LLM-based autonomous agents in the fields of social science, natural science, and engineering. Finally, we delve into the evaluation strategies commonly used for LLM-based autonomous agents. Based on the previous studies, we also present several challenges and future directions in this field. To keep track of this field and continuously update our survey, we maintain a repository of relevant references at https://github.com/Paitesanshi/LLM-Agent-Survey.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# 自己注意による構造方程式モデリングに基づく欠落データ計算

Missing Data Imputation Based on Structural Equation Modeling Enhanced with Self-Attention ( http://arxiv.org/abs/2308.12388v3 )

ライセンス: Link先を確認
Ou Deng, Qun Jin, (参考訳) EHR(Electronic Health Records)のような複雑なデータセットに欠落したデータに対処することは、医療における正確な分析と意思決定を保証するために重要である。 本稿では,SESA(Self-Attention Method)によって強化された構造方程式モデリング(Structure Equation Modeling, SEM)を提案する。 SESAは、自己アテンションメカニズムを導入し、さまざまなEHRデータセットに対するモデルの適応性と正確性を高めることで、従来のSEMベースのメソッドを超えて革新する。 この拡張により、SESAは静的SEMフレームワークの制限を克服し、動的に命令処理を調整および最適化することができる。 実験により,SESAは高い予測性能を示し,EHRの欠落データ処理を効果的に行うことができた。 さらに、SESAのアーキテクチャは、SEMの潜在的な誤特定を正すだけでなく、因果発見アルゴリズムと相乗化して、基礎となるデータ構造に基づく計算ロジックを洗練させる。 これらの機能は、SESAの高度な機能と、EHRデータ分析などにおけるより広範な応用の可能性を強調し、データ計算分野における大きな飛躍を象徴している。

Addressing missing data in complex datasets like Electronic Health Records (EHR) is critical for ensuring accurate analysis and decision-making in healthcare. This paper proposes Structural Equation Modeling (SEM) enhanced with the Self-Attention method (SESA), an innovative approach for data imputation in EHR. SESA innovates beyond traditional SEM-based methods by incorporating self-attention mechanisms, enhancing the model's adaptability and accuracy across diverse EHR datasets. This enhancement allows SESA to dynamically adjust and optimize imputation processes, overcoming the limitations of static SEM frameworks. Our experimental analyses demonstrate that SESA achieves robust predictive performance, effectively handling missing data in EHR. Moreover, SESA's architecture not only rectifies potential mis-specifications in SEM but also synergizes with causal discovery algorithms, to refine its imputation logic based on underlying data structures. These features highlight SESA's advanced capabilities and its potential for broader application in EHR data analysis and beyond, marking a significant leap forward in the field of data imputation.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# 物体認識のための脳波からの自然画像の復号

Decoding Natural Images from EEG for Object Recognition ( http://arxiv.org/abs/2308.13234v3 )

ライセンス: Link先を確認
Yonghao Song, Bingchuan Liu, Xiang Li, Nanlin Shi, Yijun Wang, Xiaorong Gao, (参考訳) 脳波(EEG)信号は, 簡便な非侵襲的取得で知られているが, 自然画像の復号化の可能性から近年注目されている。 本稿では,脳波信号,特に物体認識における学習画像表現の実現可能性を示す自己教師型フレームワークを提案する。 このフレームワークは、画像と脳波エンコーダを使用して、ペア画像刺激と脳波応答から特徴を抽出する。 対照的な学習は、それらの類似性を制限することによって、これらの2つのモダリティを整合させる。 このフレームワークでは、包括的な脳波画像データセットの精度が大幅に向上し、トップ1の精度は15.6%、トップ5の精度は42.8%となり、200ウェイゼロショットタスクに挑戦した。 さらに,脳波信号の時間的,空間的,スペクトル的,意味的な側面を解明することにより,生物の可視性を探るための広範な実験を行った。 また,脳波データから知覚される脳活動の暗黙の証拠として,空間的相関を捉えたアテンションモジュールを導入する。 これらの発見は、実世界のシナリオにおける神経復号と脳-コンピュータインタフェースの貴重な洞察をもたらす。 コードはhttps://github.com/eeyhsong/NICE-EEG.comでリリースされる。

Electroencephalography (EEG) signals, known for convenient non-invasive acquisition but low signal-to-noise ratio, have recently gained substantial attention due to the potential to decode natural images. This paper presents a self-supervised framework to demonstrate the feasibility of learning image representations from EEG signals, particularly for object recognition. The framework utilizes image and EEG encoders to extract features from paired image stimuli and EEG responses. Contrastive learning aligns these two modalities by constraining their similarity. With the framework, we attain significantly above-chance results on a comprehensive EEG-image dataset, achieving a top-1 accuracy of 15.6% and a top-5 accuracy of 42.8% in challenging 200-way zero-shot tasks. Moreover, we perform extensive experiments to explore the biological plausibility by resolving the temporal, spatial, spectral, and semantic aspects of EEG signals. Besides, we introduce attention modules to capture spatial correlations, providing implicit evidence of the brain activity perceived from EEG data. These findings yield valuable insights for neural decoding and brain-computer interfaces in real-world scenarios. The code will be released on https://github.com/eeyhsong/NICE-EEG.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# クーパー対スプリッターを用いたフェルミオン量子計算

Fermionic quantum computation with Cooper pair splitters ( http://arxiv.org/abs/2309.00447v3 )

ライセンス: Link先を確認
Kostas Vilkelis, Antonio Manesco, Juan Daniel Torres Luna, Sebastian Miles, Michael Wimmer, Anton Akhmerov, (参考訳) 量子ビットではなく局所フェルミオンモード(LFM)を用いる普遍量子コンピュータの実践的実装を提案する。 デバイスレイアウトは、ハイブリッド超伝導島で結合された量子ドットトンネルと、ドット間の可変容量結合からなる。 クーパー対分割, 弾性コツネリング, クーロン相互作用のコヒーレント制御により, ブラヴィイとキタエフによって定義された量子ゲートの普遍的な集合を実現できることを示す。 電荷量子ビットとの類似性のため、電荷ノイズがデコヒーレンスの主な原因になると期待する。 このため、量子ドットが超伝導体に調整可能な結合を持つような代替設計も検討する。 この第2のデバイス設計では、局所フェルミオンモードが電荷中立であるスイートスポットが存在し、ノイズ効果に敏感であることを示す。 最後に、設計と実験的制約を比較し、それらを克服するための今後の取り組みを提案する。

We propose a practical implementation of a universal quantum computer that uses local fermionic modes (LFM) rather than qubits. The device layout consists of quantum dots tunnel coupled by a hybrid superconducting island and a tunable capacitive coupling between the dots. We show that coherent control of Cooper pair splitting, elastic cotunneling, and Coulomb interactions allows us to implement the universal set of quantum gates defined by Bravyi and Kitaev. Due to the similarity with charge qubits, we expect charge noise to be the main source of decoherence. For this reason, we also consider an alternative design where the quantum dots have tunable coupling to the superconductor. In this second device design, we show that there is a sweetspot for which the local fermionic modes are charge neutral, making the device insensitive to charge noise effects. Finally, we compare both designs and their experimental limitations and suggest future efforts to overcome them.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# パラメトリックカップリングを用いた超伝導回路における効率の良い2量子ゲート

Efficient two-qutrit gates in superconducting circuits using parametric coupling ( http://arxiv.org/abs/2309.05766v2 )

ライセンス: Link先を確認
Mahadevan Subramanian, Adrian Lupascu, (参考訳) 近年,超伝導回路を用いた単一クォートゲートと結合クォートゲートの実証において,大きな進展が見られた。 結合クォートリットゲートは、実装時間が長いため、単一のクォートリットゲートよりも忠実度が著しく低い。 本稿では,2つの部分状態スワップとローカル操作を含む分解に基づいて,CZユニバーサルゲートを実装するプロトコルを提案する。 部分状態スワップはパラメトリック結合を用いて効果的に実装できるが、これは高速で周波数選択性の利点がある。 本稿では,このプロトコルをフラックス可変トランスモンで結合した2つの固定周波数トランスモンからなるシステムで詳細に解析する。 可変トランスモンにおける交流フラックスの適用はパラメトリックゲートを制御する。 このプロトコルは超伝導回路アーキテクチャにおいて高速でスケーラブルな2量子ゲートにつながる可能性がある。

Recently, significant progress has been made in the demonstration of single qutrit and coupled qutrit gates with superconducting circuits. Coupled qutrit gates have significantly lower fidelity than single qutrit gates, owing to long implementation times. We present a protocol to implement the CZ universal gate for two qutrits based on a decomposition involving two partial state swaps and local operations. The partial state swaps can be implemented effectively using parametric coupling, which is fast and has the advantage of frequency selectivity. We perform a detailed analysis of this protocol in a system consisting of two fixed-frequency transmons coupled by a flux-tunable transmon. The application of an AC flux in the tunable transmon controls the parametric gates. This protocol has the potential to lead to fast and scalable two-qutrit gates in superconducting circuit architectures.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# コントラスト学習とミニマックスエントロピーを用いたグラフ上の半教師付きドメイン適応

Semi-supervised Domain Adaptation on Graphs with Contrastive Learning and Minimax Entropy ( http://arxiv.org/abs/2309.07402v2 )

ライセンス: Link先を確認
Jiaren Xiao, Quanyu Dai, Xiao Shen, Xiaochen Xie, Jing Dai, James Lam, Ka-Wai Kwok, (参考訳) グラフにおけるラベルの不足は、高コストなデータラベリングのため、実世界のアプリケーションで頻繁に発生する。 この目的のために、グラフ上の半教師付きドメイン適応(SSDA)は、ラベル付きソースグラフの知識を活用し、限られたラベルを持つターゲットグラフ上のノード分類を支援することを目的としている。 SSDAタスクは、ソースとターゲットグラフの間のドメインギャップを克服する必要があります。 しかし、これまでは、この挑戦的な研究問題は、クロスグラフノード分類用に設計された既存のアプローチでは、公式には検討されていない。 本稿では,SemiGCL(SemiGCL)と呼ばれる新しい手法を提案する。この手法は, グラフ \textbf{G}raph \textbf{C}ontrastive \textbf{L}earning と minimax entropy training を併用する。 SemiGCLは、グラフの局所的およびグローバルなビューから得られた表現を対比することにより、情報ノード表現を生成する。 さらに、SemiGCLは、未ラベルのターゲットノードのエントロピー損失に逆最適化され、ドメインのばらつきが軽減される。 ベンチマークデータセットの実験結果は、SemiGCLがSSDAタスクの最先端ベースラインを上回っていることを示している。 SemiGCLのソースコードはhttps://github.com/ JiarenX/SemiGCLで公開されている。

Label scarcity in a graph is frequently encountered in real-world applications due to the high cost of data labeling. To this end, semi-supervised domain adaptation (SSDA) on graphs aims to leverage the knowledge of a labeled source graph to aid in node classification on a target graph with limited labels. SSDA tasks need to overcome the domain gap between the source and target graphs. However, to date, this challenging research problem has yet to be formally considered by the existing approaches designed for cross-graph node classification. This paper proposes a novel method called SemiGCL to tackle the graph \textbf{Semi}-supervised domain adaptation with \textbf{G}raph \textbf{C}ontrastive \textbf{L}earning and minimax entropy training. SemiGCL generates informative node representations by contrasting the representations learned from a graph's local and global views. Additionally, SemiGCL is adversarially optimized with the entropy loss of unlabeled target nodes to reduce domain divergence. Experimental results on benchmark datasets demonstrate that SemiGCL outperforms the state-of-the-art baselines on the SSDA tasks. The source codes of SemiGCL are publicly available at https://github.com/ JiarenX/SemiGCL.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# ベイズ適応モーメント正規化によるロバスト連続学習に向けて

Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization ( http://arxiv.org/abs/2309.08546v2 )

ライセンス: Link先を確認
Jack Foster, Alexandra Brintrup, (参考訳) 長期的な自律性の追求は、ロボットエージェントが変化する環境に継続的に適応し、新しいタスクの解決を学ぶことを義務付ける。 継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。 従来の連続学習手法は、空間効率が良く、タスクの数が増加するにつれて計算複雑性が増大しないため、ロボット応用にアピールしている。 これらの望ましい性質にもかかわらず、事前ベースのアプローチは一般的に重要なベンチマークでは失敗し、結果としてメモリベースのアプローチと比較して潜在的なアプリケーションでは制限される。 ベイズ適応モーメント正規化(Badam)は,パラメータ成長の抑制を図り,破滅的な記憶を抑える新しい手法である。 提案手法は,軽量でタスクラベルのない,短時間で収束する,安全な実世界展開に重要な校正された不確実性など,ロボットアプリケーションに望ましい特性を多数備えている。 その結果, BAdamは, Split MNIST や Split FashionMNIST のような単頭クラスインクリメンタルな実験に挑戦し, タスクラベルや個別のタスク境界に頼らずに, 先行手法の最先端性能を実現していることがわかった。

The pursuit of long-term autonomy mandates that robotic agents must continuously adapt to their changing environments and learn to solve new tasks. Continual learning seeks to overcome the challenge of catastrophic forgetting, where learning to solve new tasks causes a model to forget previously learnt information. Prior-based continual learning methods are appealing for robotic applications as they are space efficient and typically do not increase in computational complexity as the number of tasks grows. Despite these desirable properties, prior-based approaches typically fail on important benchmarks and consequently are limited in their potential applications compared to their memory-based counterparts. We introduce Bayesian adaptive moment regularization (BAdam), a novel prior-based method that better constrains parameter growth, leading to lower catastrophic forgetting. Our method boasts a range of desirable properties for robotic applications such as being lightweight and task label-free, converging quickly, and offering calibrated uncertainty that is important for safe real-world deployment. Results show that BAdam achieves state-of-the-art performance for prior-based methods on challenging single-headed class-incremental experiments such as Split MNIST and Split FashionMNIST, and does so without relying on task labels or discrete task boundaries.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# 短期記憶コーディネーションを用いたLCMを用いた医療アシスタントのパーソナライゼーション

LLM-based Medical Assistant Personalization with Short- and Long-Term Memory Coordination ( http://arxiv.org/abs/2309.11696v3 )

ライセンス: Link先を確認
Kai Zhang, Yangyang Kang, Fubang Zhao, Xiaozhong Liu, (参考訳) GPT3.5のような大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。 一方、医療助手は個人に多大な利益をもたらす可能性を秘めている。 しかし、LSMをベースとしたパーソナライズされた医療アシスタントの探索は依然として比較的少ない。 典型的には、患者は、ユーザ指向の医療アシスタントを強化するタスクを必要とする背景や嗜好に基づいて異なる会話をする。 この目的のために LLM を完全に訓練することは可能だが、リソース消費は計り知れない。 これまでの研究では、対話セッション中に新しいクエリに対する以前の誤りを認識して応答を高めるためのメモリベースの手法が検討されてきた。 我々は、単にメモリモジュールが不十分であり、LLMを完全に訓練することは、過度にコストがかかることを主張する。 本研究では,パラメータ効率のよい微細チューニング(PEFT)スキーマを備え,医療アシスタントをパーソナライズするための新しい計算バイオニックメモリ機構を提案する。

Large Language Models (LLMs), such as GPT3.5, have exhibited remarkable proficiency in comprehending and generating natural language. On the other hand, medical assistants hold the potential to offer substantial benefits for individuals. However, the exploration of LLM-based personalized medical assistant remains relatively scarce. Typically, patients converse differently based on their background and preferences which necessitates the task of enhancing user-oriented medical assistant. While one can fully train an LLM for this objective, the resource consumption is unaffordable. Prior research has explored memory-based methods to enhance the response with aware of previous mistakes for new queries during a dialogue session. We contend that a mere memory module is inadequate and fully training an LLM can be excessively costly. In this study, we propose a novel computational bionic memory mechanism, equipped with a parameter-efficient fine-tuning (PEFT) schema, to personalize medical assistants.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# ロバスト最適化によるニューラルネットワークの確率的ロバストかつ可算的対実的説明

Provably Robust and Plausible Counterfactual Explanations for Neural Networks via Robust Optimisation ( http://arxiv.org/abs/2309.12545v2 )

ライセンス: Link先を確認
Junqi Jiang, Jianglin Lan, Francesco Leofante, Antonio Rago, Francesca Toni, (参考訳) ニューラルネットワークの分類法を説明する主要な方法論として、CE(Counterfactual Explanations)が注目されている。 通常、入力出力対のCEは、出力と異なるラベルで分類された入力と最小距離のデータポイントとして定義される。 モデルパラメータが更新された場合(例えば再訓練された場合)、CEが容易に無効になるという確固たる問題に対処するため、標準球で束縛されたモデルパラメータ変化の下でCEの堅牢性を証明する方法が提案されている。 しかし、このような頑丈さを目標とする既存の手法は、音や完全ではなく、不明瞭なCEを生成する可能性がある。 実際、ロバスト性を保証する一方で、近接性と可視性を同時に最適化する既存の方法は存在しない。 本稿では,文献の制約に対処するために,頑健な最適化技術を活用したPROPLACE(Provably RObust and PLAUSible Counterfactual Explanations)を提案する。 証明可能な堅牢なCEを計算し、その収束性、健全性、完全性を証明するための反復アルゴリズムを定式化する。 6つのベースライン(うち5つはロバスト性)を対象とする比較実験により, ProPLACEが3つの評価面における測定値に対して最先端のパフォーマンスを達成することを示す。

Counterfactual Explanations (CEs) have received increasing interest as a major methodology for explaining neural network classifiers. Usually, CEs for an input-output pair are defined as data points with minimum distance to the input that are classified with a different label than the output. To tackle the established problem that CEs are easily invalidated when model parameters are updated (e.g. retrained), studies have proposed ways to certify the robustness of CEs under model parameter changes bounded by a norm ball. However, existing methods targeting this form of robustness are not sound or complete, and they may generate implausible CEs, i.e., outliers wrt the training dataset. In fact, no existing method simultaneously optimises for closeness and plausibility while preserving robustness guarantees. In this work, we propose Provably RObust and PLAusible Counterfactual Explanations (PROPLACE), a method leveraging on robust optimisation techniques to address the aforementioned limitations in the literature. We formulate an iterative algorithm to compute provably robust CEs and prove its convergence, soundness and completeness. Through a comparative experiment involving six baselines, five of which target robustness, we show that PROPLACE achieves state-of-the-art performances against metrics on three evaluation aspects.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-04
# 相互に非可換な観測可能な2つの集合間の確率的等価性を予測する文脈の形式

Form of Contextuality Predicting Probabilistic Equivalence between Two Sets of Three Mutually Noncommuting Observables ( http://arxiv.org/abs/2309.13091v2 )

ライセンス: Link先を確認
Mirko Navara, Karl Svozil, (参考訳) 相互に相補的な観測可能な2つ以上の擬似文脈の集合と結果の確率和からなる文脈量子システムを提案する。 これらの擬コンテキストはヒルベルト空間内の非直交基底を構成し、状態に依存しない確率の和を特徴とする。 言い換えれば、初期状態の準備にかかわらず、全体の確率は一定であるが、ユニタリとは区別される。 このセットアップにおける測定の文脈性は、ハイパーグラフの量子化から生じ、これは確率の線形結合の特定の境界に固執する。 対照的に、古典的な実現はこの境界を超えることができる。 量子境界の違反は、古典的存在論的モデル、特に観測値の集合に対応するハイパーグラフの集合論的表現が、観測された統計に忠実で説明できないことに起因する。

We introduce a contextual quantum system comprising mutually complementary observables organized into two or more collections of pseudocontexts with the same probability sums of outcomes. These pseudocontexts constitute non-orthogonal bases within the Hilbert space, featuring a state-independent sum of probabilities. In other words, regardless of the initial state preparation, the total probability remains constant but may be distinct from unity. The measurement contextuality in this setup arises from the quantum realizations of the hypergraph, which adhere to a specific bound on the linear combination of probabilities. In contrast, classical realizations can surpass this bound. The violation of quantum bounds stems from the inability of classical ontological models, specifically the set-theoretic representation of the hypergraph corresponding to the quantum observables' collections, to adhere to and explain the observed statistics.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# 画像超解像のためのデータアップサイクリング知識蒸留

Data Upcycling Knowledge Distillation for Image Super-Resolution ( http://arxiv.org/abs/2309.14162v3 )

ライセンス: Link先を確認
Yun Zhang, Wei Li, Simiao Li, Hanting Chen, Zhijun Tu, Wenjia Wang, Bingyi Jing, Shaohui Lin, Jie Hu, (参考訳) 知識蒸留(KD)は、複雑な教師モデルから生徒モデルへのタスク関連知識の伝達によって、ディープニューラルネットワークを圧縮する。 しかし、現状の超解像(SR)ネットワークにおけるKD手法は、教師モデルの出力が高画質画像(GT)の地上構造分布にノイズがあるというSRタスクの性質を見落とし、教師モデルの知識を陰影にし、限られたKD効果をもたらす。 GT上層部を超越した教師モデルを活用するため,教師モデルの知識を学習データから収集したドメイン内データを通じて学生モデルに伝達するデータアップサイクリング知識蒸留(DuKD)を提案する。 さらに,学習者モデルの性能と頑健性を改善するために,2組の可逆拡張によるSR用KDにラベル整合性正則化を課す。 総合的な実験により、DUKD法は、いくつかのSRタスクにおいて、過去の芸術を著しく上回っていることが示された。

Knowledge distillation (KD) compresses deep neural networks by transferring task-related knowledge from cumbersome pre-trained teacher models to compact student models. However, current KD methods for super-resolution (SR) networks overlook the nature of SR task that the outputs of the teacher model are noisy approximations to the ground-truth distribution of high-quality images (GT), which shades the teacher model's knowledge to result in limited KD effects. To utilize the teacher model beyond the GT upper-bound, we present the Data Upcycling Knowledge Distillation (DUKD), to transfer the teacher model's knowledge to the student model through the upcycled in-domain data derived from training data. Besides, we impose label consistency regularization to KD for SR by the paired invertible augmentations to improve the student model's performance and robustness. Comprehensive experiments demonstrate that the DUKD method significantly outperforms previous arts on several SR tasks.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# T-COL:可変機械学習システムにおける一般ユーザ嗜好に対する対実的説明の生成

T-COL: Generating Counterfactual Explanations for General User Preferences on Variable Machine Learning Systems ( http://arxiv.org/abs/2309.16146v2 )

ライセンス: Link先を確認
Ming Wang, Daling Wang, Wenfang Wu, Shi Feng, Yifei Zhang, (参考訳) 機械学習(ML)システムにおける解釈可能性の問題に対処するため、対実的説明(CE)が有望な解決策として浮上した。 CEは、なぜある結果が予測されたのかを説明することに加えて、ユーザに対して実行可能な提案を提供するため、ユニークなものだ。 CEの応用は、一般的なユーザの好みと可変MLシステムという2つの大きな課題に直面している。 ユーザの好みは特定のものよりも一般的で、CEは変更しても堅牢性を維持しながら、可変MLモデルに適応する必要がある。 これらの課題に直面すると、徹底的なユーザ調査から導かれる、検証済みの一般ユーザ嗜好に根ざしたソリューションが提示される。 これらの選好をCEの特性にマップする。 さらに,2つのオプション構造と複数の条件群を組み込んで,一般的なユーザの好みに適応可能なCEを生成する新しい方法である \uline{T}ree-based \uline{C}onditions \uline{O}ptional \uline{L}inks (T-COL)を導入する。 一方,T-COLを用いて特定の条件でCEのロバスト性を向上し,MLモデルを置き換える場合においても有効である。 ユーザの好みの違いによる実験結果から,T-COLは,反事実を生成可能な大規模言語モデルを含む,すべてのベースラインを上回ります。

To address the interpretability challenge in machine learning (ML) systems, counterfactual explanations (CEs) have emerged as a promising solution. CEs are unique as they provide workable suggestions to users, in addition to explaining why a certain outcome was predicted. The application of CEs encounters two main challenges: general user preferences and variable ML systems. User preferences tend to be general rather than specific, and CEs need to be adaptable to variable ML models while maintaining robustness even as these models change. Facing these challenges, we present a solution rooted in validated general user preferences, which are derived from thorough user research. We map these preferences to the properties of CEs. Additionally, we introduce a novel method, \uline{T}ree-based \uline{C}onditions \uline{O}ptional \uline{L}inks (T-COL), which incorporates two optional structures and multiple condition groups for generating CEs adaptable to general user preferences. Meanwhile, we employ T-COL to enhance the robustness of CEs with specific conditions, making them more valid even when the ML model is replaced. Our experimental comparisons under different user preferences show that T-COL outperforms all baselines, including Large Language Models which are shown to be able to generate counterfactuals.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# 軌道生成による汎用ツールスキルの学習

Learning Generalizable Tool-use Skills through Trajectory Generation ( http://arxiv.org/abs/2310.00156v3 )

ライセンス: Link先を確認
Carl Qi, Yilin Wu, Lifan Yu, Haoyue Liu, Bowen Jiang, Xingyu Lin, David Held, (参考訳) ツールを効果的に活用する自律システムは、調理やクリーニングといった多くの一般的なタスクを完了させるのを助けることができる。 しかし、現在のシステムは、新しいツールに適応するという意味では、人間のレベルの知性に合わない。 余裕に基づく先行研究は、しばしば環境について強い仮定をし、より複雑で接触に富んだタスクにスケールできない。 本研究では、この課題に取り組み、以前は目に見えないツールを使って変形可能なオブジェクトを操作する方法を学ぶ。 本稿では,ツールポイント雲の列としてツール利用軌跡の生成モデルを学習し,様々なツール形状に一般化することを提案する。 どのような新しいツールであっても、最初にツール使用軌跡を生成し、生成した軌跡に合わせるために、ツールポーズのシーケンスを最適化する。 私たちは、タスクごとに1つのツールからのみデモデータを使用して、4つの異なる難解な変形可能なオブジェクト操作タスクで1つのモデルをトレーニングします。 モデルは様々な新しいツールに一般化され、ベースラインを大幅に上回る。 トレーニングされたポリシーを、目に見えないツールを使って現実世界でテストし、人間に匹敵するパフォーマンスを実現します。 追加資料はプロジェクトのWebサイト(https://sites.google.com/view/toolgen.com)で参照できます。

Autonomous systems that efficiently utilize tools can assist humans in completing many common tasks such as cooking and cleaning. However, current systems fall short of matching human-level of intelligence in terms of adapting to novel tools. Prior works based on affordance often make strong assumptions about the environments and cannot scale to more complex, contact-rich tasks. In this work, we tackle this challenge and explore how agents can learn to use previously unseen tools to manipulate deformable objects. We propose to learn a generative model of the tool-use trajectories as a sequence of tool point clouds, which generalizes to different tool shapes. Given any novel tool, we first generate a tool-use trajectory and then optimize the sequence of tool poses to align with the generated trajectory. We train a single model on four different challenging deformable object manipulation tasks, using demonstration data from only one tool per task. The model generalizes to various novel tools, significantly outperforming baselines. We further test our trained policy in the real world with unseen tools, where it achieves the performance comparable to human. Additional materials can be found on our project website: https://sites.google.com/view/toolgen.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# 言語モデリングからインストラクション・フォローへ:インストラクション・チューニング後のLCMにおける行動変化の理解

From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning ( http://arxiv.org/abs/2310.00492v3 )

ライセンス: Link先を確認
Xuansheng Wu, Wenlin Yao, Jianshu Chen, Xiaoman Pan, Xiaoyang Wang, Ninghao Liu, Dong Yu, (参考訳) 大規模言語モデル(LLM)は、LLMをユーザ意図と整合させる上で、命令チューニングが重要なステップであるという点で、大きな成功を収めている。 本研究は,本質的な変化に着目した事前学習モデルの調整方法について検討する。 具体的には、まず、インプット・アウトプット・アトリビューションの勾配に基づく手法や、自己注意層やフィードフォワード層におけるパターンや概念を解釈する手法など、いくつかの局所的およびグローバルな説明手法を開発する。 次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。 このアプローチは、モデルが人間に理解可能なレベルにシフトする、という内部的な視点を提供する。 この結果から,指導指導の3つの重要な影響が明らかになった。 1) LLM にユーザプロンプトの命令部分を認識する権限を与え,命令に対して常に条件付の応答生成を促進する。 2) 指導動詞に関する単語関係をより多く捉えるように, 自己注意型ヘッダーを奨励する。 3)フィードフォワードネットワークは,事前学習した知識をユーザ指向のタスクに向けて回転させることを奨励する。 これらの知見は、命令チューニングのより包括的な理解に寄与し、様々なアプリケーションのためのLLMの説明と最適化を目的とした将来の作業の基盤となる。 私たちのコードとデータはhttps://github.com/JacksonWuxs/Interpret_Instruction_Tuning_LLMsで公開されています。

Large Language Models (LLMs) have achieved remarkable success, where instruction tuning is the critical step in aligning LLMs with user intentions. In this work, we investigate how the instruction tuning adjusts pre-trained models with a focus on intrinsic changes. Specifically, we first develop several local and global explanation methods, including a gradient-based method for input-output attribution, and techniques for interpreting patterns and concepts in self-attention and feed-forward layers. The impact of instruction tuning is then studied by comparing the explanations derived from the pre-trained and instruction-tuned models. This approach provides an internal perspective of the model shifts on a human-comprehensible level. Our findings reveal three significant impacts of instruction tuning: 1) It empowers LLMs to recognize the instruction parts of user prompts, and promotes the response generation constantly conditioned on the instructions. 2) It encourages the self-attention heads to capture more word-word relationships about instruction verbs. 3) It encourages the feed-forward networks to rotate their pre-trained knowledge toward user-oriented tasks. These insights contribute to a more comprehensive understanding of instruction tuning and lay the groundwork for future work that aims at explaining and optimizing LLMs for various applications. Our code and data are publicly available at https://github.com/JacksonWuxs/Interpret_Instruction_Tuning_LLMs.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# 相互距離予測によるシーン認識型人間の動き予測

Scene-aware Human Motion Forecasting via Mutual Distance Prediction ( http://arxiv.org/abs/2310.00615v3 )

ライセンス: Link先を確認
Chaoyue Xing, Wei Mao, Miaomiao Liu, (参考訳) 本稿では,シーン認識型3次元動作予測の課題に対処する。 このタスクの重要な課題は、人間とシーンの相互作用をモデル化することによって、シーンと整合した将来の人間の動きを予測することである。 近年の研究では、人間とシーンの相互作用に対する明示的な制約がゴーストモーションの発生を妨げていることが示されているが、それらは部分的な人間の動き、例えば人間のグローバルな動き、あるいはシーンに接触する少数の関節にのみ制約を与え、残りの動きは拘束されないままである。 この制限に対処するため,人体とシーン間の相互距離との人間とシーンの相互作用をモデル化する。 このような相互距離は局所的な動きと大域的な動きの両方を制約し、結果として全身的な動きは予測される。 特に、相互距離制約は、人メッシュ上の各頂点からシーン表面への署名された距離と、人メッシュへのベースシーンの距離の2つの成分から構成される。 さらに、符号付き距離関数(SDF)ボリュームから学習したグローバルシーン表現を導入し、グローバルシーン表現と相互距離からの明示的制約とのコヒーレンスを確保する。 2つのステップでパイプラインを構築し、まず将来の相互距離を予測し、次に将来の人間の動きを予測する。 トレーニング中、予測されたポーズと相互距離の一貫性を明示的に促進する。 既存の合成および実データセットに対する広範囲な評価は、我々のアプローチが最先端の手法を一貫して上回っていることを示している。

In this paper, we tackle the problem of scene-aware 3D human motion forecasting. A key challenge of this task is to predict future human motions that are consistent with the scene by modeling the human-scene interactions. While recent works have demonstrated that explicit constraints on human-scene interactions can prevent the occurrence of ghost motion, they only provide constraints on partial human motion e.g., the global motion of the human or a few joints contacting the scene, leaving the rest of the motion unconstrained. To address this limitation, we propose to model the human-scene interaction with the mutual distance between the human body and the scene. Such mutual distances constrain both the local and global human motion, resulting in a whole-body motion constrained prediction. In particular, mutual distance constraints consist of two components, the signed distance of each vertex on the human mesh to the scene surface and the distance of basis scene points to the human mesh. We further introduce a global scene representation learned from a signed distance function (SDF) volume to ensure coherence between the global scene representation and the explicit constraint from the mutual distance. We develop a pipeline with two sequential steps: predicting the future mutual distances first, followed by forecasting future human motion. During training, we explicitly encourage consistency between predicted poses and mutual distances. Extensive evaluations on the existing synthetic and real datasets demonstrate that our approach consistently outperforms the state-of-the-art methods.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# ネットワーク環境下での確率的電圧包絡に関するデータ効率戦略

Data-Efficient Strategies for Probabilistic Voltage Envelopes under Network Contingencies ( http://arxiv.org/abs/2310.00763v3 )

ライセンス: Link先を確認
Parikshit Pareek, Deepjyoti Deka, Sidhant Misra, (参考訳) 本研究では,ネットワーク共振器を有するグリッドにおける電力フロー学習を用いた確率電圧エンベロープ(PVE)を構築するための効率的なデータ駆動手法を提案する。 まず,VDK-GP(Vertex-Degree Kernel, Vertex-Degree Kernel, Vertex-Degree Kernel, Vertex-Degree Kernel, Vertex-Degree Kernel, VDK-GP)と呼ばれるネットワーク対応ガウスプロセスを用いて,ネットワーク構成の電圧パワー関数を推定する。 本稿では,学習したVDK-GPと融合して未確認ネットワークの電力フローを決定するマルチタスク頂点核(MT-VDK)を提案する。 IEEE 30-Bus ネットワーク上のシミュレーションは、N-1 と N-2 の同時実行シナリオにおいて、電力フローの知識の保持と伝達を実証している。 MT-VDK-GPアプローチは、VDK-GP上での低トレーニングデータレジーム(50-250サンプル)において、新しいN-1整合ネットワーク構成に対する平均予測誤差を50%以上低減する。 さらに、MT-VDK-GPは、歴史的N-2の停止データなしでも、N-2の待ち時間ネットワーク構造の75%以上において、ハイパーパラメータベースのトランスファーラーニングアプローチより優れている。 提案手法は,モンテカルロサンプリング法に比べて16倍少ない電力フロー解を用いてPVEを実現できることを示す。

This work presents an efficient data-driven method to construct probabilistic voltage envelopes (PVE) using power flow learning in grids with network contingencies. First, a network-aware Gaussian process (GP) termed Vertex-Degree Kernel (VDK-GP), developed in prior work, is used to estimate voltage-power functions for a few network configurations. The paper introduces a novel multi-task vertex degree kernel (MT-VDK) that amalgamates the learned VDK-GPs to determine power flows for unseen networks, with a significant reduction in the computational complexity and hyperparameter requirements compared to alternate approaches. Simulations on the IEEE 30-Bus network demonstrate the retention and transfer of power flow knowledge in both N-1 and N-2 contingency scenarios. The MT-VDK-GP approach achieves over 50% reduction in mean prediction error for novel N-1 contingency network configurations in low training data regimes (50-250 samples) over VDK-GP. Additionally, MT-VDK-GP outperforms a hyper-parameter based transfer learning approach in over 75% of N-2 contingency network structures, even without historical N-2 outage data. The proposed method demonstrates the ability to achieve PVEs using sixteen times fewer power flow solutions compared to Monte-Carlo sampling-based methods.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# ディープニューラルネットワークにおけるノード摂動による効果的な学習

Effective Learning with Node Perturbation in Deep Neural Networks ( http://arxiv.org/abs/2310.00965v3 )

ライセンス: Link先を確認
Sander Dalm, Marcel van Gerven, Nasir Ahmad, (参考訳) バックプロパゲーション(BP)は、ディープニューラルネットワークモデルのパラメータをトレーニングするための支配的かつ最も成功した手法である。 しかし、BPは2つの計算的に異なるフェーズに依存しており、生物学的学習の十分な説明を提供しておらず、不連続性やノイズのあるノードダイナミクスを持つネットワークのトレーニングに応用することは困難である。 ノード摂動(NP)は,ネットワークアクティベーションへのノイズ注入による学習を提案し,その後の損失変化の測定を行う。 NPは2つの前方(推論)パスに依存し、ネットワークデリバティブを使用しず、生物学的システムにおける学習のモデルとして提案されている。 しかし、標準NPは、非誘導ノイズベースの探索プロセスのため、データ非効率で不安定である。 本研究では、NPの異なる定式化について検討し、指向性微分の概念と関連づけるとともに、レイヤーワイズ入力のデコレーション機構と組み合わせる。 各層での入力デコリレーションと指向性導関数との密接なアライメントにより,パラメータ収束の大幅な向上とテストデータの性能向上により,NP学習の性能が有意に向上し,BPに近づいた。 さらに、新しい定式化により、ノイズプロセス自体がアクセス不能なノイズシステムへの適用が可能となる。

Backpropagation (BP) is the dominant and most successful method for training parameters of deep neural network models. However, BP relies on two computationally distinct phases, does not provide a satisfactory explanation of biological learning, and can be challenging to apply for training of networks with discontinuities or noisy node dynamics. By comparison, node perturbation (NP) proposes learning by the injection of noise into network activations, and subsequent measurement of the induced loss change. NP relies on two forward (inference) passes, does not make use of network derivatives, and has been proposed as a model for learning in biological systems. However, standard NP is highly data inefficient and unstable due to its unguided noise-based search process. In this work, we investigate different formulations of NP and relate it to the concept of directional derivatives as well as combining it with a decorrelating mechanism for layer-wise inputs. We find that a closer alignment with directional derivatives together with input decorrelation at every layer significantly enhances performance of NP learning with significant improvements in parameter convergence and much higher performance on the test data, approaching that of BP. Furthermore, our novel formulation allows for application to noisy systems in which the noise process itself is inaccessible.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# L2MAC:大規模コード生成のための大規模言語モデル自動計算機

L2MAC: Large Language Model Automatic Computer for Extensive Code Generation ( http://arxiv.org/abs/2310.02003v4 )

ライセンス: Link先を確認
Samuel Holt, Max Ruiz Luyten, Mihaela van der Schaar, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定されたコンテキストウィンドウによって制約され、長い一貫性のある出力を生成する能力を妨げる。 メモリ拡張LDMは有望なソリューションであるが,(1)読み出しのみに集中し,新たなメモリの結合への進化を減少させる,あるいは(2)他のドメインに適応できない非常に特殊なメモリを使用するため,現在のアプローチでは長い出力タスクを処理できない。 本稿では,L2MAC について述べる。L2MAC は LLM をベースとしたマルチエージェントシステムである LLM をベースとした初の実用的記憶型自動計算機 (von Neumann アーキテクチャ) フレームワークで,長期的かつ一貫した出力生成を実現する。 そのメモリには2つのコンポーネントがある: 命令レジストリは、ユーザ登録タスクを解決するプロンプトプログラムで集約され、ファイルストアは、最終的な出力と中間出力を含む。 各命令は別個のLCMエージェントによって実行され、そのコンテキストは、ファイルストアとの効果的な相互作用を確保するために、正確なメモリ読み書きが可能な制御ユニットによって管理される。 これらのコンポーネントにより、L2MACは、複雑なユーザ指定タスクを満たす出力を生成しながら、有限コンテキストウィンドウの制約をバイパスして、広範な出力を生成することができる。 我々は,L2MACがシステム設計タスクの大規模コードベースの生成において最先端のパフォーマンスを実現し,詳細なユーザ指定タスクの実装において,他のコーディング手法を著しく上回っていることを実証的に証明し,この性能ギャップの原因について貴重な知見を提供する。

Transformer-based large language models (LLMs) are constrained by the fixed context window of the underlying transformer architecture, hindering their ability to produce long and coherent outputs. Memory-augmented LLMs are a promising solution, but current approaches cannot handle long output generation tasks since they (1) only focus on reading memory and reduce its evolution to the concatenation of new memories or (2) use very specialized memories that cannot adapt to other domains. This paper presents L2MAC, the first practical LLM-based stored-program automatic computer (von Neumann architecture) framework, an LLM-based multi-agent system, for long and consistent output generation. Its memory has two components: the instruction registry, which is populated with a prompt program to solve the user-given task, and a file store, which will contain the final and intermediate outputs. Each instruction in turn is executed by a separate LLM agent, whose context is managed by a control unit capable of precise memory reading and writing to ensure effective interaction with the file store. These components enable L2MAC to generate extensive outputs, bypassing the constraints of the finite context window while producing outputs that fulfill a complex user-specified task. We empirically demonstrate that L2MAC achieves state-of-the-art performance in generating large codebases for system design tasks, significantly outperforming other coding methods in implementing the detailed user-specified task, and we provide valuable insights into the reasons for this performance gap.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# GitHubのCopilot生成コードのセキュリティ欠陥

Security Weaknesses of Copilot Generated Code in GitHub ( http://arxiv.org/abs/2310.02059v2 )

ライセンス: Link先を確認
Yujia Fu, Peng Liang, Amjed Tahir, Zengyang Li, Mojtaba Shahin, Jiaxin Yu, Jinfu Chen, (参考訳) LLM(Large Language Models)のようなAIモデルを利用した現代的なコード生成ツールは、関数型コードの生成で人気を集めている。 しかし、それらの使用法はセキュリティ上の問題を示し、多くの場合、安全でないコードがコードベースにマージされる。 生成されたコードの品質、特にセキュリティを評価することが重要です。 以前の研究では、コード生成のさまざまな側面について検討されていたが、セキュリティへの焦点は限られており、主に現実世界のシナリオではなく、制御された環境で生成されたコードを調べている。 このギャップに対処するため、GitHub CopilotがGitHubプロジェクトから生成したコードスニペットを分析して、実証的研究を行った。 分析では、Copilotが生成した452個のスニペットを特定し、セキュリティ上の問題の高い可能性を示し、Pythonの32.8%とJavaScriptスニペットの24.5%が影響を受けた。 これらの問題は、CWE-330: 不十分なランダム値の使用、CWE-78: OSコマンドインジェクション、CWE-94: コード生成の不適切な制御などを含む38の異なる共通弱度列挙(CWE)カテゴリにまたがっている。 8台のCWEが2023年のCWEトップ25に入っていて、その厳しさを強調しています。 私たちの調査では、開発者はCopilotで生成されたコードを追加する際に注意すべきであり、提案されたコードを受け入れた時に適切なセキュリティチェックを実行する必要があることを確認しています。 また、実践者は、対応するセキュリティ意識とスキルを育む必要があることも示している。

Modern code generation tools, utilizing AI models like Large Language Models (LLMs), have gained popularity for producing functional code. However, their usage presents security challenges, often resulting in insecure code merging into the code base. Evaluating the quality of generated code, especially its security, is crucial. While prior research explored various aspects of code generation, the focus on security has been limited, mostly examining code produced in controlled environments rather than real-world scenarios. To address this gap, we conducted an empirical study, analyzing code snippets generated by GitHub Copilot from GitHub projects. Our analysis identified 452 snippets generated by Copilot, revealing a high likelihood of security issues, with 32.8% of Python and 24.5% of JavaScript snippets affected. These issues span 38 different Common Weakness Enumeration (CWE) categories, including significant ones like CWE-330: Use of Insufficiently Random Values, CWE-78: OS Command Injection, and CWE-94: Improper Control of Generation of Code. Notably, eight CWEs are among the 2023 CWE Top-25, highlighting their severity. Our findings confirm that developers should be careful when adding code generated by Copilot and should also run appropriate security checks as they accept the suggested code. It also shows that practitioners should cultivate corresponding security awareness and skills.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# 新しい不確定性に基づく量子論

A new indeterminacy-based quantum theory ( http://arxiv.org/abs/2310.04002v4 )

ライセンス: Link先を確認
Francisco Pipa, (参考訳) 本稿では,環境決定性に基づく,あるいはEnD量子理論(EnDQT)と呼ぶ新しい量子理論を提案する。 良く知られた量子論とは対照的に、EnDQTは隠れ変数を追加しない利点があり、例えばシステムや世界によって異なる測定結果なしで量子相関を局所的に因果的に説明することで相対論的因果関係と緊張関係にあるわけではない。 この理論は保守的であり、自然崩壊理論のような理論とは異なり、量子論の基本方程式の修正は、決定的な値が生じたときに確立する必要はなく、原則として任意の系は任意の時間の間重ね合わせにすることができる。 EnDQTによると、一部のシステムはある時点で決定値を取得し、相互作用を通じて決定値を持ち、発生させる能力は、局所的な相互作用を介して他のシステムに伝播する。 これらの相互作用の連鎖に属する系から系が分離された場合、原則として一意的に進化することができる。 EnDQTは、量子論の他の解釈と区別する可能性のある、一連の新しい経験的ポジットを提供する。 さらに、これらの相互作用の連鎖を開始する系を特徴づけることで、宇宙論、熱力学、統計力学などの他の分野の物理学とその基礎への支払いが可能になる。

I propose a novel (interpretation of) quantum theory, which I will call Environmental Determinacy-based or EnD Quantum Theory (EnDQT). In contrast to the well-known quantum theories, EnDQT has the benefit of not adding hidden variables, and it is not in tension with relativistic causality by providing a local causal explanation of quantum correlations without measurement outcomes varying according to, for example, systems or worlds. It is conservative, and so unlike theories such as spontaneous collapse theories, no modifications of the fundamental equations of quantum theory are required to establish when determinate values arise, and in principle, arbitrary systems can be in a superposition for an arbitrary amount of time. According to EnDQT, some systems acquire determinate values at some point, and the capacity to have and give rise to determinate values through interactions propagates to other systems via local interactions. When systems are isolated from the systems that belong to these chains of interactions, they can, in principle, evolve unitarily indefinitely. EnDQT provides a series of novel empirical posits that may distinguish it from other interpretations of quantum theory. Furthermore, via its characterization of the systems that start these chains of interactions, it provides possible payoffs to other areas of physics and their foundations, such as cosmology, thermodynamics, and statistical mechanics.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# 転がり検証によるオンライン推定:ストリーミングデータを用いた適応的非パラメトリック推定

Online Estimation with Rolling Validation: Adaptive Nonparametric Estimation with Streaming Data ( http://arxiv.org/abs/2310.12140v2 )

ライセンス: Link先を確認
Tianyu Zhang, Jing Lei, (参考訳) オンラインの非パラメトリック推定器は、効率的な計算と競争的な一般化能力によって人気を集めている。 重要な例としては確率勾配勾配の変種がある。 これらのアルゴリズムは、しばしば1回に1つのサンプルポイントを取り、パラメータの利子推定を即座に更新する。 本研究では,このようなオンラインアルゴリズムのモデル選択とハイパーパラメータチューニングについて検討する。 本稿では,多くの典型的な確率勾配降下推定器に対して,最小限の余剰計算を要し,オンライン版Left-outクロスバリデーションである重み付き転がりバリデーション手法を提案する。 バッチクロスバリデーションと同様に、ベース推定器を強化して、より優れた適応収束率を達成することができる。 我々の理論解析は単純であり、主にいくつかの一般的な統計的安定性の仮定に依存している。 シミュレーション研究は, 転がり検証において, 転がり重みのばらつきが重要であり, 候補推定器間にスリムな差がある場合にも, 感度が向上することを示した。

Online nonparametric estimators are gaining popularity due to their efficient computation and competitive generalization abilities. An important example includes variants of stochastic gradient descent. These algorithms often take one sample point at a time and instantly update the parameter estimate of interest. In this work we consider model selection and hyperparameter tuning for such online algorithms. We propose a weighted rolling-validation procedure, an online variant of leave-one-out cross-validation, that costs minimal extra computation for many typical stochastic gradient descent estimators. Similar to batch cross-validation, it can boost base estimators to achieve a better, adaptive convergence rate. Our theoretical analysis is straightforward, relying mainly on some general statistical stability assumptions. The simulation study underscores the significance of diverging weights in rolling validation in practice and demonstrates its sensitivity even when there is only a slim difference between candidate estimators.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# SalUn: 画像分類と生成の両方において、グラディエントベースのウェイト・サリエンシによるマシン・アンラーニングの強化

SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation ( http://arxiv.org/abs/2310.12508v5 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Yihua Zhang, Eric Wong, Dennis Wei, Sijia Liu, (参考訳) データ規制の進化に伴い、マシンアンラーニング(MU)は、今日のAIモデルの信頼性と安全性を促進する重要なツールとなっている。 しかし、データおよび/またはウェイトパースペクティブに焦点を当てた既存のMUメソッドは、未学習の精度、安定性、ドメイン間の適用性に制限を受けることが多い。 これらの課題に対処するため、モデル説明において、MUの「重み値」の概念を導入し、入力値値と並列性を引き出す。 この革新は、MUがモデル全体よりも特定のモデルウェイトに注意を向け、効率と効率を改善します。 サリエンシ・アンラーニング(SalUn)と呼ぶ結果の手法は、データポイントを忘れた後にスクラッチからモデル再トレーニングする)によってパフォーマンスギャップを狭める。 私たちの知る限りでは、SalUnは、画像分類と生成タスクの両方において、データ、クラス、概念を忘れることの影響を効果的に消すことができる、最初の原則的MUアプローチです。 例えば、SalUnは、CIFAR-10データセットの正確なアンラーニングに比べて0.2%の差で、高分散乱数データの忘れにおいて安定性の優位性を得る。 さらに、条件付き拡散モデルが有害な画像を生成するのを防ぐために、SalUnは100%近い未学習の精度を達成し、時代遅れの安定拡散やForget-Me-Notのような最先端のベースラインを上回っている。 コードはhttps://github.com/OPTML-Group/Unlearn-Saliency.comで公開されている。 (注意:本論文は自然に悪影響を及ぼす可能性のあるモデルアウトプットを含む。)

With evolving data regulations, machine unlearning (MU) has become an important tool for fostering trust and safety in today's AI models. However, existing MU methods focusing on data and/or weight perspectives often suffer limitations in unlearning accuracy, stability, and cross-domain applicability. To address these challenges, we introduce the concept of 'weight saliency' for MU, drawing parallels with input saliency in model explanation. This innovation directs MU's attention toward specific model weights rather than the entire model, improving effectiveness and efficiency. The resultant method that we call saliency unlearning (SalUn) narrows the performance gap with 'exact' unlearning (model retraining from scratch after removing the forgetting data points). To the best of our knowledge, SalUn is the first principled MU approach that can effectively erase the influence of forgetting data, classes, or concepts in both image classification and generation tasks. As highlighted below, For example, SalUn yields a stability advantage in high-variance random data forgetting, e.g., with a 0.2% gap compared to exact unlearning on the CIFAR-10 dataset. Moreover, in preventing conditional diffusion models from generating harmful images, SalUn achieves nearly 100% unlearning accuracy, outperforming current state-of-the-art baselines like Erased Stable Diffusion and Forget-Me-Not. Codes are available at https://github.com/OPTML-Group/Unlearn-Saliency. (WARNING: This paper contains model outputs that may be offensive in nature.)
翻訳日:2024-04-05 20:12:51 公開日:2024-04-04
# ケラ強化光ばね

Kerr-Enhanced Optical Spring ( http://arxiv.org/abs/2310.18828v2 )

ライセンス: Link先を確認
Sotatsu Otabe, Wataru Usukura, Kaido Suzuki, Kentaro Komori, Yuta Michimura, Ken-ichi Harada, Kentaro Somiya, (参考訳) 光カー効果を用いた拡張光バネの生成を実験的に提案する。 可動ミラーを備えたファブリペロキャビティに非線形光学結晶を挿入し、位相ミスマッチ状態における2階非線形光学効果の連鎖がカー効果を誘導する。 光バネ定数は線形理論よりも1.6\pm0.1$の係数で強化される。 我々の知る限り、これは非線形光学効果を用いた光学的カップリング強化の最初の実現であり、線形光学系の性能限界を克服するために理論的に研究されている。 証明されたシステムのチューニング可能な非線形性は、二元中性子星の連星後残基から放出される重力波の観測から、マクロ振動子を冷却して量子基底状態まで、幅広い可能性を持つ。

We propose and experimentally demonstrate the generation of enhanced optical springs using the optical Kerr effect. A nonlinear optical crystal is inserted into a Fabry-Perot cavity with a movable mirror, and a chain of second-order nonlinear optical effects in the phase-mismatched condition induces the Kerr effect. The optical spring constant is enhanced by a factor of $1.6\pm0.1$ over linear theory. To our knowledge, this is the first realization of optomechanical coupling enhancement using a nonlinear optical effect, which has been theoretically investigated to overcome the performance limitations of linear optomechanical systems. The tunable nonlinearity of demonstrated system has a wide range of potential applications, from observing gravitational waves emitted by binary neutron star post-merger remnants to cooling macroscopic oscillators to their quantum ground state.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# MMMとMMMSynth:不均一表データのクラスタリングと合成データ生成

MMM and MMMSynth: Clustering of heterogeneous tabular data, and synthetic data generation ( http://arxiv.org/abs/2310.19454v2 )

ライセンス: Link先を確認
Chandrani Kumari, Rahul Siddharthan, (参考訳) 我々は、クラスタリングと合成データ生成という異質な表型データセットに関連する2つのタスクに対して、新しいアルゴリズムを提供する。 タブラルデータセットは典型的には列内の異種データ型(数値、順序、カテゴリー)から構成されるが、行内に隠されたクラスタ構造を持つ場合もある。例えば、それらは異種(地理、社会経済、方法論)のソースから引き出され、それらが記述する結果変数(病気の存在など)は他の変数だけでなく、クラスタコンテキストにも依存する。 さらに、医療データの共有は患者の秘密保持法によって妨げられがちであり、例えばディープラーニングを通じて、実際のデータから合成表データを生成するアルゴリズムには現在関心が集まっている。 本稿では,EMに基づくクラスタリングアルゴリズムであるMMM(`Madras Mixture Model''')について述べる。 そこで本研究では,MMMsynthという合成表データ生成アルゴリズムを用いて,入力データを事前クラスタ化し,クラスタ固有のデータ分布を仮定したクラスタワイズ合成データを生成する。 我々は、このアルゴリズムを、合成データで訓練され、実際に公開されたデータセットでテストされる際に、標準MLアルゴリズムの性能をテストすることで、ベンチマークする。 我々の合成データ生成アルゴリズムは、他の文献表データ生成装置よりも優れており、実データで純粋にトレーニングのパフォーマンスにアプローチする。

We provide new algorithms for two tasks relating to heterogeneous tabular datasets: clustering, and synthetic data generation. Tabular datasets typically consist of heterogeneous data types (numerical, ordinal, categorical) in columns, but may also have hidden cluster structure in their rows: for example, they may be drawn from heterogeneous (geographical, socioeconomic, methodological) sources, such that the outcome variable they describe (such as the presence of a disease) may depend not only on the other variables but on the cluster context. Moreover, sharing of biomedical data is often hindered by patient confidentiality laws, and there is current interest in algorithms to generate synthetic tabular data from real data, for example via deep learning. We demonstrate a novel EM-based clustering algorithm, MMM (``Madras Mixture Model''), that outperforms standard algorithms in determining clusters in synthetic heterogeneous data, and recovers structure in real data. Based on this, we demonstrate a synthetic tabular data generation algorithm, MMMsynth, that pre-clusters the input data, and generates cluster-wise synthetic data assuming cluster-specific data distributions for the input columns. We benchmark this algorithm by testing the performance of standard ML algorithms when they are trained on synthetic data and tested on real published datasets. Our synthetic data generation algorithm outperforms other literature tabular-data generators, and approaches the performance of training purely with real data.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# 二体・三体相互作用を持つ多体スピン系における量子相関の共有性

Shareability of Quantum Correlations in a Many-Body Spin System with Two- and Three-Body Interactions ( http://arxiv.org/abs/2310.20372v2 )

ライセンス: Link先を確認
P. Kiran, Harsha Miriam Reji, Hemant Shreepad Hegde, R. Prabhu, (参考訳) マルチパーティ量子システムの構成要素間の量子相関の共有性は、モノガミーと呼ばれる量子情報理論の概念によって制限される。 マルチパーティ量子システムによって、量子相関の異なる測度は、モノガミーの異なるシグネチャを示す。 本研究は,2次元および3次元相互作用を含む多面体量子スピン系において,絡み合いの分離性と情報理論の両種類から,量子相関の共有性を特徴付けるものである。 本システムにおけるモノガミースコアは, 量子相関測度, システムパラメータの強度, 外部磁場に依存する一夫一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一夫一婦一婦一婦一婦一夫一婦一夫一婦一婦一婦一婦一婦一婦一夫一夫一夫一婦一夫一夫一夫一夫一夫一夫一夫一夫二婦二婦二婦二婦二婦二婦二婦 情報理論量子相関を考慮した場合の非単価状態の比率は、これらの変数の許容範囲における絡み合い-分離性の種類よりも高い。 非一夫一婦制状態が一夫一婦制となる量子相関測度の積分力を同定する。

The shareability of quantum correlations among the constituent parties of a multiparty quantum system is restricted by the quantum information theoretic concept called monogamy. Depending on the multiparty quantum systems, different measures of quantum correlations show disparate signatures for monogamy. We characterize the shareability of quantum correlations, from both entanglement-separability and information-theoretic kinds, in a multiparty quantum spin system containing two- and three-body interactions with respect to its system parameters and external applied magnetic field. Monogamy score in this system exhibits both monogamous and non-monogamous traits depending on the quantum correlation measure, strengths of system parameters and external magnetic field. The percentage of non-monogamous states when the information-theoretic quantum correlations are considered is higher than that of the entanglement-separability kind in allowed ranges of these variables. The integral powers of the quantum correlation measures for which the non-monogamous states become monogamous are identified.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# Ziya2: データ中心学習はすべてのLLMを必要とする

Ziya2: Data-centric Learning is All LLMs Need ( http://arxiv.org/abs/2311.03301v2 )

ライセンス: Link先を確認
Ruyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Junqing He, Yuanhe Tian, Ping Yang, Qi Yang, Hao Wang, Jiaxing Zhang, Yan Song, (参考訳) 近年、クローズドおよびオープンソースを含む様々な大規模言語モデル(LLM)が提案されており、複数のベンチマークで新しいレコードを継続的に設定している。 しかし、LLMの開発は、スクラッチからのトレーニングモデルの高コスト化や、破滅的な忘れ込みにつながる継続的な事前トレーニングなど、いくつかの問題に直面している。 このような課題の多くはLLMの研究の過程で解決されているが、多くの研究は、学習プロセスにおける事前学習データの使用を包括的に分析・最適化することなく、モデルサイズの拡大を徹底的に追求している。 本研究では、基礎モデルとしてLLaMA2を採用した13億のパラメータを持つモデルであるZiya2を提案し、さらに700億のトークンを事前訓練し、事前学習技術に注目し、異なる段階におけるZiya2の学習プロセスを強化するためにデータ中心の最適化を利用する。 3つのデータ属性を定義し、まずデータ中心のスケーリング法則を確立し、異なるデータがLLMに与える影響を説明する。 実験の結果、Ziya2は他のモデルを特にオープンソースと比較して有望な結果で、複数のベンチマークで大きく上回っていることがわかった。 Ziya2 (Base)はhttps://huggingface.co/IDEA-CCNL/Ziya2-13B-Baseとhttps://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summaryでリリースされた。

Various large language models (LLMs) have been proposed in recent years, including closed- and open-source ones, continually setting new records on multiple benchmarks. However, the development of LLMs still faces several issues, such as high cost of training models from scratch, and continual pre-training leading to catastrophic forgetting, etc. Although many such issues are addressed along the line of research on LLMs, an important yet practical limitation is that many studies overly pursue enlarging model sizes without comprehensively analyzing and optimizing the use of pre-training data in their learning process, as well as appropriate organization and leveraging of such data in training LLMs under cost-effective settings. In this work, we propose Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation model, and further pre-trained on 700 billion tokens, where we focus on pre-training techniques and use data-centric optimization to enhance the learning process of Ziya2 on different stages. We define three data attributes and firstly establish data-centric scaling laws to illustrate how different data impacts LLMs. Experiments show that Ziya2 significantly outperforms other models in multiple benchmarks especially with promising results compared to representative open-source ones. Ziya2 (Base) is released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# 雑音対応強化学習エージェントを用いた量子誤り訂正符号とエンコーダの同時発見

Simultaneous Discovery of Quantum Error Correction Codes and Encoders with a Noise-Aware Reinforcement Learning Agent ( http://arxiv.org/abs/2311.04750v3 )

ライセンス: Link先を確認
Jan Olle, Remmy Zen, Matteo Puviani, Florian Marquardt, (参考訳) 量子エラー補正(QEC)の実験的実装に向けて進行中の競争の中で、量子ビットハードウェアプラットフォームに適したコードや符号化戦略を自動的に発見する方法が重要な問題として浮上している。 強化学習(Reinforcement Learning, RL)は有望なアプローチとして認識されている。 本研究では,QECコード発見に対するRLアプローチのパワーを大幅に拡張する。 具体的には、所定のゲートセット、キュービット接続、エラーモデルに対して、QEC符号と符号化回路の両方をスクラッチから自動的に検出するRLエージェントを訓練する。 これはKnill-Laflamme条件とベクトル化されたクリフォードシミュレータに基づく報酬によって実現され、その結果を20の物理量子ビットと距離5の符号に拡張することができる。 さらに,様々なノイズモデルに対して同時に符号化戦略を作成することを学習し,異なる状況間での洞察の伝達を活用する雑音認識メタエージェントの概念を導入する。 我々のアプローチは、量子ハードウェアプラットフォームの全領域にわたるQECアプローチのハードウェア適応型高速化発見への扉を開く。

In the ongoing race towards experimental implementations of quantum error correction (QEC), finding ways to automatically discover codes and encoding strategies tailored to the qubit hardware platform is emerging as a critical problem. Reinforcement learning (RL) has been identified as a promising approach, but so far it has been severely restricted in terms of scalability. In this work, we significantly expand the power of RL approaches to QEC code discovery. Explicitly, we train an RL agent that automatically discovers both QEC codes and their encoding circuits for a given gate set, qubit connectivity and error model, from scratch. This is enabled by a reward based on the Knill-Laflamme conditions and a vectorized Clifford simulator, allowing us to scale our results to 20 physical qubits and distance 5 codes. Moreover, we introduce the concept of a noise-aware meta-agent, which learns to produce encoding strategies simultaneously for a range of noise models, thus leveraging transfer of insights between different situations. Our approach opens the door towards hardware-adapted accelerated discovery of QEC approaches across the full spectrum of quantum hardware platforms of interest.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# グラフ強化学習による自律移動型電動システムのリアルタイム制御

Real-time Control of Electric Autonomous Mobility-on-Demand Systems via Graph Reinforcement Learning ( http://arxiv.org/abs/2311.05780v2 )

ライセンス: Link先を確認
Aaryan Singhal, Daniele Gammelli, Justin Luke, Karthik Gopalakrishnan, Dominik Helmreich, Marco Pavone, (参考訳) エレクトロニック・モビリティ・オン・デマンド(E-AMoD)のオペレーターは、要求に乗るために利用可能な車両をマッチングしたり、アイドルカーを高需要の領域に再バランスさせたり、十分な距離を確保するために充電したりといった、いくつかのリアルタイムな決定を行う必要がある。 この問題は、空間電荷時間グラフ上のフローを最適化する線形プログラムとして表すことができるが、結果として得られる最適化問題のサイズは、現実的な設定でのリアルタイム実装を許さない。 本研究では,強化学習のレンズによるE-AMoD制御問題を提案するとともに,拡張性を大幅に向上し,ヒューリスティックスよりも優れた性能を実現するためのグラフネットワークベースのフレームワークを提案する。 具体的には、(1)グラフネットワークベースのRLエージェントを利用して、スペースチャージグラフ内の所望の次状態を指定し、(2)より抽出可能な線形プログラムを解決し、実現可能性を確保しつつ、最適な状態を実現する。 サンフランシスコとニューヨークにおける実世界のデータを用いた実験により、我々の手法は理論上最適解の利益の最大89%を達成し、計算時間の100倍以上のスピードアップを達成した。 さらに、都市間一般化やサービス領域の拡張といったタスクにおいて、学習したポリシーのゼロショット転送機能に期待できる点を強調し、フレームワークの有用性、拡張性、柔軟性を示します。 最後に、我々のアプローチは、同等のランタイムで最高のドメイン固有のヒューリスティックよりも優れており、利益は最大3.2倍に増加する。

Operators of Electric Autonomous Mobility-on-Demand (E-AMoD) fleets need to make several real-time decisions such as matching available vehicles to ride requests, rebalancing idle vehicles to areas of high demand, and charging vehicles to ensure sufficient range. While this problem can be posed as a linear program that optimizes flows over a space-charge-time graph, the size of the resulting optimization problem does not allow for real-time implementation in realistic settings. In this work, we present the E-AMoD control problem through the lens of reinforcement learning and propose a graph network-based framework to achieve drastically improved scalability and superior performance over heuristics. Specifically, we adopt a bi-level formulation where we (1) leverage a graph network-based RL agent to specify a desired next state in the space-charge graph, and (2) solve more tractable linear programs to best achieve the desired state while ensuring feasibility. Experiments using real-world data from San Francisco and New York City show that our approach achieves up to 89% of the profits of the theoretically-optimal solution while achieving more than a 100x speedup in computational time. We further highlight promising zero-shot transfer capabilities of our learned policy on tasks such as inter-city generalization and service area expansion, thus showing the utility, scalability, and flexibility of our framework. Finally, our approach outperforms the best domain-specific heuristics with comparable runtimes, with an increase in profits by up to 3.2x.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# REST: 検索ベースの投機的デコーディング

REST: Retrieval-Based Speculative Decoding ( http://arxiv.org/abs/2311.08252v2 )

ライセンス: Link先を確認
Zhenyu He, Zexuan Zhong, Tianle Cai, Jason D. Lee, Di He, (参考訳) 本稿では,言語モデル生成の高速化を目的とした新しいアルゴリズムであるRetrieval-Based Speculative Decoding(REST)を紹介する。 RESTの開発を導く重要な洞察は、テキスト生成のプロセスが共通のフェーズやパターンを含むことが多い、という観察である。 投機的復号化のためのドラフト言語モデルに依存する従来の方法とは異なり、RESTは検索の力を利用してドラフトトークンを生成する。 この方法は既存の知識の蓄積から引き出され、現在の文脈に基づいて関連するトークンを検索し、利用する。 そのプラグアンドプレイの性質は、追加のトレーニングを必要とせずに、あらゆる言語モデルのシームレスな統合とアクセラレーションを可能にする。 単一バッチ環境で7Bと13Bの言語モデルでベンチマークすると、RESTはコードやテキスト生成において1.62Xから2.36Xの大幅なスピードアップを達成する。 RESTのコードはhttps://github.com/FasterDecoding/RESTで公開されている。

We introduce Retrieval-Based Speculative Decoding (REST), a novel algorithm designed to speed up language model generation. The key insight driving the development of REST is the observation that the process of text generation often includes certain common phases and patterns. Unlike previous methods that rely on a draft language model for speculative decoding, REST harnesses the power of retrieval to generate draft tokens. This method draws from the reservoir of existing knowledge, retrieving and employing relevant tokens based on the current context. Its plug-and-play nature allows for seamless integration and acceleration of any language models, all without necessitating additional training. When benchmarked on 7B and 13B language models in a single-batch setting, REST achieves a significant speedup of 1.62X to 2.36X on code or text generation. The code of REST is available at https://github.com/FasterDecoding/REST.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# TableLlama: テーブルのための大規模汎用モデルを目指す

TableLlama: Towards Open Large Generalist Models for Tables ( http://arxiv.org/abs/2311.09206v3 )

ライセンス: Link先を確認
Tianshu Zhang, Xiang Yue, Yifei Li, Huan Sun, (参考訳) 半構造化テーブルはユビキタスである。 テーブルを自動的に解釈し、拡張し、クエリすることを目的とした、さまざまなタスクがあった。 現在のメソッドは、しばしばテーブルや特別なモデルアーキテクチャ設計の事前訓練を必要とし、特定のテーブルタイプに制限されるか、テーブルやタスクに関する仮定を単純化する。 本稿では,多種多様なテーブルベースタスクのジェネラリストとして,オープンソースの大規模言語モデル(LLM)の開発に向けた第一歩を示す。 そこで我々は,様々な現実的なテーブルやタスクを備えた新しいデータセットであるTableInstructを構築し,LLMのチューニングと評価を行う。 さらに,LongLoRAを用いてLlama 2 (7B) を微調整することで,テーブル用の最初のオープンソースジェネラリストモデルであるTableLlamaを開発した。 ドメイン内設定とドメイン外設定の両方で実験する。 ドメイン内の8つのタスクのうち7つで、TableLlamaはタスクごとにSOTAと同等かそれ以上のパフォーマンスを実現している。 6つのドメイン外のデータセットでは、ベースモデルと比較して5-44の絶対点ゲインを実現しており、TableInstructでのトレーニングがモデルの一般化性を高めることを示している。 データセットとトレーニングされたモデルをオープンソースとして公開し、テーブルのオープンなジェネラリストモデルの開発を後押しします。

Semi-structured tables are ubiquitous. There has been a variety of tasks that aim to automatically interpret, augment, and query tables. Current methods often require pretraining on tables or special model architecture design, are restricted to specific table types, or have simplifying assumptions about tables and tasks. This paper makes the first step towards developing open-source large language models (LLMs) as generalists for a diversity of table-based tasks. Towards that end, we construct TableInstruct, a new dataset with a variety of realistic tables and tasks, for instruction tuning and evaluating LLMs. We further develop the first open-source generalist model for tables, TableLlama, by fine-tuning Llama 2 (7B) with LongLoRA to address the long context challenge. We experiment under both in-domain setting and out-of-domain setting. On 7 out of 8 in-domain tasks, TableLlama achieves comparable or better performance than the SOTA for each task, despite the latter often has task-specific design. On 6 out-of-domain datasets, it achieves 5-44 absolute point gains compared with the base model, showing that training on TableInstruct enhances the model's generalizability. We open-source our dataset and trained model to boost future work on developing open generalist models for tables.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# LEEET-Dial: エンドツーエンドタスク指向対話システムにおける言語順応

LEEETs-Dial: Linguistic Entrainment in End-to-End Task-oriented Dialogue systems ( http://arxiv.org/abs/2311.09390v2 )

ライセンス: Link先を確認
Nalin Kumar, Ondřej Dušek, (参考訳) 言語的エントレメント(英: Linguistic entrainment)またはアライメント(アライメント)は、会話参加者が採用する言語パターンが互いに収束する現象である。 トレーニングはより自然なユーザエクスペリエンスを生み出すことが示されているが、ほとんどの対話システムはそれに対する規定を持っていない。 本稿では,GPT-2をベースとしたタスク指向対話システムにおいて,共用語彙を利用した対話学習を実現する手法を提案する。 我々は、トレーニングインスタンスの重み付け、トレーニング固有の損失、およびユーザーと一致した応答を生成するための追加条件付けを実験した。 自動評価と手動評価の両方で確認されたように、3つのアプローチがベースである非トレーニング最適化モデルよりもはるかに優れたエントレメントをもたらすことを示す。

Linguistic entrainment, or alignment, represents a phenomenon where linguistic patterns employed by conversational participants converge to one another. While entrainment has been shown to produce a more natural user experience, most dialogue systems do not have any provisions for it. In this work, we introduce methods for achieving dialogue entrainment in a GPT-2-based end-to-end task-oriented dialogue system through the utilization of shared vocabulary. We experiment with training instance weighting, entrainment-specific loss, and additional conditioning to generate responses that align with the user. We demonstrate that all three approaches produce significantly better entrainment than the base, non-entrainment-optimized model, as confirmed by both automated and manual evaluation metrics.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# LMのパラメトリック知識によるコンテキスト内例の作成

Crafting In-context Examples according to LMs' Parametric Knowledge ( http://arxiv.org/abs/2311.09579v2 )

ライセンス: Link先を確認
Yoonsang Lee, Pranav Atreya, Xi Ye, Eunsol Choi, (参考訳) コンテキスト内学習は、質問応答のような知識豊富なタスクのパフォーマンスを向上させることができる。 このようなシナリオでは、コンテキスト内の例が言語モデル(LM)をトリガーし、パラメトリック知識に格納された情報をサーフェスする。 そこで本研究では,モデルがコンテキスト内サンプルを認識しているかどうかに基づいて,コンテキスト内サンプルセットをよりよく構築する方法について検討する。 モデルがパラメトリックな知識から正しく答えられるような'既知の'例と、未知の'未知の'例を識別する。 実験の結果, パラメトリックな知識を探索するよりも, 幻覚を助長する可能性があり, 「未知」の例でみると, 性能が低下することが示唆された。 既知の情報と未知の情報の両方を示すコンテキスト内サンプルセットの構築は、さまざまな設定で最高のパフォーマンスを発揮する。 我々は,3つの質問応答データセットの分析を行い,各回答に関するLMの知識に基づいて,回答セットの順序付け戦略をさらに研究することができる。 そこで本研究では,知識豊富なタスクに対して,コンテキスト内サンプルセットを最適に構築する方法について検討した。

In-context learning can improve the performances of knowledge-rich tasks such as question answering. In such scenarios, in-context examples trigger a language model (LM) to surface information stored in its parametric knowledge. We study how to better construct in-context example sets, based on whether the model is aware of the in-context examples. We identify 'known' examples, where models can correctly answer from their parametric knowledge, and 'unknown' ones. Our experiments show that prompting with 'unknown' examples decreases the performance, potentially as it encourages hallucination rather than searching for its parametric knowledge. Constructing an in-context example set that presents both known and unknown information performs the best across diverse settings. We perform analysis on three multi-answer question answering datasets, which allows us to further study answer set ordering strategies based on the LM's knowledge of each answer. Together, our study sheds light on how to best construct in-context example sets for knowledge-rich tasks.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# P^3SUM:拡散言語モデルを用いたニュース要約における著者視点の保存

P^3SUM: Preserving Author's Perspective in News Summarization with Diffusion Language Models ( http://arxiv.org/abs/2311.09741v2 )

ライセンス: Link先を確認
Yuhan Liu, Shangbin Feng, Xiaochuang Han, Vidhisha Balachandran, Chan Young Park, Sachin Kumar, Yulia Tsvetkov, (参考訳) 本研究では,著者の意図に忠実な要約システムを設計する第一歩を踏み出した。 ニュース要約における政治的視点の保存に関するケーススタディに着目し,既存のアプローチは,要約の50%以上において,新聞記事の政治的意見やスタンスを変え,ニュース作家の意図や視点を誤って表現することを見出した。 そこで本稿では,政治的視点分類器によって制御される拡散モデルに基づく要約手法であるP^3SUMを提案する。 P^3SUMでは、生成された要約の政治的傾きを復号ステップ毎に反復的に評価し、記事の元々のスタンスからのドリフトは、埋め込み層に逆転した損失を発生させ、要約の政治的スタンスを推論時に制御する。 3つのニュース要約データセットの大規模な実験により、P^3SUMは最新の要約システムと大規模言語モデルを最大13.7%上回った。 本研究は, 要約における実用的特徴の保存を初めて分析し, 既存の要約モデルにおいて, 最先端のモデルでも著者の意図の保存に苦慮することが多く, 著者の視点に忠実な新しい要約システムを開発することを強調した。

In this work, we take a first step towards designing summarization systems that are faithful to the author's intent, not only the semantic content of the article. Focusing on a case study of preserving political perspectives in news summarization, we find that existing approaches alter the political opinions and stances of news articles in more than 50% of summaries, misrepresenting the intent and perspectives of the news authors. We thus propose P^3SUM, a diffusion model-based summarization approach controlled by political perspective classifiers. In P^3SUM, the political leaning of a generated summary is iteratively evaluated at each decoding step, and any drift from the article's original stance incurs a loss back-propagated to the embedding layers, steering the political stance of the summary at inference time. Extensive experiments on three news summarization datasets demonstrate that P^3SUM outperforms state-of-the-art summarization systems and large language models by up to 13.7% in terms of the success rate of stance preservation, with competitive performance on standard metrics of summarization quality. Our findings present a first analysis of preservation of pragmatic features in summarization, highlight the lacunae in existing summarization models -- that even state-of-the-art models often struggle to preserve author's intents -- and develop new summarization systems that are more faithful to author's perspectives.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-04
# 工学的損失を有するフォトニックアレイの非エルミート位相と臨界性

Non-Hermitian topology and criticality in photonic arrays with engineered losses ( http://arxiv.org/abs/2311.09959v2 )

ライセンス: Link先を確認
Elizabeth Louis Pereira, Hongwei Li, Andrea Blanco-Redondo, Jose L. Lado, (参考訳) 統合フォトニクスシステムは、人工格子を再構成可能な方法で設計できる柔軟なプラットフォームを提供する。 ここでは、工学的損失を伴う1次元フォトニックアレイは、非ハーモニティおよびバルクモード臨界から生じるトポロジカル励起の実現を可能にすることを示す。 局所的なフォトニック損失の一般化された変調により、周期性の有無と準周期的状態においてもトポロジカルモードの創出が可能であることを示す。 我々は、準周期的な損失変調の存在下で、バルクフォトニックモードの局所化遷移を設計できることを示し、さらに、共鳴周波数変調と損失変調の両方の存在下で、そのような遷移が生成されることを証明した。 我々は最終的に、この現象学の頑健さと、臨界モードと位相モードの出現における隣り合う隣り合う結合と障害の存在に対処する。 本研究は, 光化学系における工学的損失のみからトポロジと臨界を工学する戦略を提唱し, トポロジカルおよび臨界フォトニクス物質における非線形性の影響を研究するための潜在的プラットフォームを構築した。

Integrated photonic systems provide a flexible platform where artificial lattices can be engineered in a reconfigurable fashion. Here, we show that one-dimensional photonic arrays with engineered losses allow the realization of topological excitations stemming from non-Hermiticity and bulk mode criticality. We show that a generalized modulation of the local photonic losses allows the creation of topological modes both in the presence of periodicity and even in the quasiperiodic regime. We demonstrate that a localization transition of all the bulk photonic modes can be engineered in the presence of a quasiperiodic loss modulation, and we further demonstrate that such a transition can be created in the presence of both resonance frequency modulation and loss modulation. We finally address the robustness of this phenomenology to the presence of next to the nearest neighbor couplings and disorder in the emergence of criticality and topological modes. Our results put forward a strategy to engineer topology and criticality solely from engineered losses in a photonic system, establishing a potential platform to study the impact of nonlinearities in topological and critical photonic matter.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# Chemist-X:化学合成における反応条件勧告のための大規模言語モデル導入剤

Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis ( http://arxiv.org/abs/2311.10776v5 )

ライセンス: Link先を確認
Kexin Chen, Junyou Li, Kunyi Wang, Yuyang Du, Jiahui Yu, Jiamin Lu, Lanqing Li, Jiezhong Qiu, Jianzhang Pan, Yi Huang, Qun Fang, Pheng Ann Heng, Guangyong Chen, (参考訳) 最近のAI研究は、化学社会における自動化学反応の将来をプロットしている。 本研究では, 化学合成における反応条件レコメンデーション(RCR)タスクを, 検索増強生成(RAG)技術で自動化する変換型AIエージェントであるChemist-Xを提案する。 ケミストXは、RCRタスクを解く際、専門家の化学者の戦略をエミュレートするため、オンライン分子データベースを疑問視し、最新の文献データベースから臨界データを蒸留するために、高度なRAGスキームを使用している。 さらに、エージェントは、大規模言語モデル(LLM)に教師付きプログラミングインタフェースを備えた、最先端のコンピュータ支援設計(CAD)ツールを活用する。 我々のエージェントは、最新の化学知識とCADツールを活用する能力により、トレーニングデータ内の固定知識に制限された従来の合成AIよりも大幅に優れています。 Chemist-Xは化学者の作業量を著しく減らし、より根本的で創造的な問題に集中できるようにし、より高度な計算技術と化学研究をもたらし、科学的な発見においてAIの全能力を活用するための驚くべき飛躍を成し遂げる。

Recent AI research plots a promising future of automatic chemical reactions within the chemistry society. This study proposes Chemist-X, a transformative AI agent that automates the reaction condition recommendation (RCR) task in chemical synthesis with retrieval-augmented generation (RAG) technology. To emulate expert chemists' strategies when solving RCR tasks, Chemist-X utilizes advanced RAG schemes to interrogate online molecular databases and distill critical data from the latest literature database. Further, the agent leverages state-of-the-art computer-aided design (CAD) tools with a large language model (LLM) supervised programming interface. With the ability to utilize updated chemical knowledge and CAD tools, our agent significantly outperforms conventional synthesis AIs confined to the fixed knowledge within its training data. Chemist-X considerably reduces chemists' workload and allows them to focus on more fundamental and creative problems, thereby bringing closer computational techniques and chemical research and making a remarkable leap toward harnessing AI's full capabilities in scientific discovery.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# 積分可能性からカオスへ:三重井戸ボゾン模型における量子古典対応

From integrability to chaos: the quantum-classical correspondence in a triple well bosonic model ( http://arxiv.org/abs/2311.13189v2 )

ライセンス: Link先を確認
Erick R. Castro, Karin Wittmann W., Jorge Chávez-Carlos, Itzhak Roditi, Angela Foerster, Jorge G. Hirsch, (参考訳) 本研究では, 単純なボソニック量子多体系の半古典的限界を解析し, 可積分性およびカオス性の両方を示す。 古典的ハミルトニアンはコヒーレント状態を用いて導出される。 古典力学における正則性からカオスへの遷移は、ポアンカーの切断を通して可視化される。 位相空間における古典的な軌跡は、カオスの場合でさえ、同様のエネルギーを持つ固有状態のフシミ函数の射影によく似ている。 この相関は、固有状態がフォック状態に投影されるときにより明らかである。 この分析は、固有状態がフォック基底で最大で非局在化される臨界エネルギーで行われる。 不完全な非局在化にもかかわらず、その影響は研究中の古典的および量子的性質に存在している。 この研究は、カオス領域内でさえ、2つ以上の井戸を持つボソニック多体系の量子古典対応を体系的に確立する。

In this work, we investigate the semiclassical limit of a simple bosonic quantum many-body system exhibiting both integrable and chaotic behavior. A classical Hamiltonian is derived using coherent states. The transition from regularity to chaos in classical dynamics is visualized through Poincar\'e sections. Classical trajectories in phase space closely resemble the projections of the Husimi functions of eigenstates with similar energy, even in chaotic cases. It is demonstrated that this correlation is more evident when projecting the eigenstates onto the Fock states. The analysis is carried out at a critical energy where the eigenstates are maximally delocalized in the Fock basis. Despite the imperfect delocalization, its influence is present in the classical and quantum properties under investigation. The study systematically establishes quantum-classical correspondence for a bosonic many-body system with more than two wells, even within the chaotic region.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# Hessianは継続学習のための低域重摂動を意識している

Hessian Aware Low-Rank Weight Perturbation for Continual Learning ( http://arxiv.org/abs/2311.15161v2 )

ライセンス: Link先を確認
Jiaqi Li, Rui Wang, Yuanhao Lai, Changjian Shui, Sabyasachi Sahoo, Charles X. Ling, Shichun Yang, Boyu Wang, Christian Gagné, Fan Zhou, (参考訳) 連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。 本研究では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。 重み行列変換を用いて逐次タスクに沿ったパラメータ遷移をモデル化することにより、ニューラルネットワークの各層におけるタスク適応パラメータに低ランク近似を適用することを提案する。 具体的には,ヘッセン近似と提案した低ランク近似の量的関係を理論的に実証する。 近似ランクは、層比勾配と低ランク近似誤差によって推定される経験的損失の限界増加に従って、全世界的に決定される。 さらに,パラメータ成長を抑えるために,重要度を低くすることでモデル容量を制御する。 大規模タスクのデータセットを含む様々なベンチマークで広範な実験を行い、提案手法の有効性と拡張性を示す最新手法と比較する。 実験の結果,提案手法は様々なベンチマークにおいて,特にタスク順序の堅牢性を達成し,忘れる問題に対処する上で,優れた性能を示すことがわかった。 ソースコードはhttps://github.com/lijiaqi/HALRPにある。

Continual learning aims to learn a series of tasks sequentially without forgetting the knowledge acquired from the previous ones. In this work, we propose the Hessian Aware Low-Rank Perturbation algorithm for continual learning. By modeling the parameter transitions along the sequential tasks with the weight matrix transformation, we propose to apply the low-rank approximation on the task-adaptive parameters in each layer of the neural networks. Specifically, we theoretically demonstrate the quantitative relationship between the Hessian and the proposed low-rank approximation. The approximation ranks are then globally determined according to the marginal increment of the empirical loss estimated by the layer-specific gradient and low-rank approximation error. Furthermore, we control the model capacity by pruning less important parameters to diminish the parameter growth. We conduct extensive experiments on various benchmarks, including a dataset with large-scale tasks, and compare our method against some recent state-of-the-art methods to demonstrate the effectiveness and scalability of our proposed method. Empirical results show that our method performs better on different benchmarks, especially in achieving task order robustness and handling the forgetting issue. The source code is at https://github.com/lijiaqi/HALRP.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# 特異値分解による非エルミート多体局在と量子カオスの診断

Diagnosing non-Hermitian Many-Body Localization and Quantum Chaos via Singular Value Decomposition ( http://arxiv.org/abs/2311.16229v2 )

ライセンス: Link先を確認
Federico Roccati, Federico Balducci, Ruth Shir, Aurélia Chenu, (参考訳) 相互作用する量子スピン鎖の強い局所障害は、非局在化された固有モードを局所化された固有状態に変換し、多体局在(MBL)相を引き起こす。 これは、非局在化相はカオスであり、局所化相は可積分である。 孤立系では、局所化とカオスは固有値、固有ベクトル、リアルタイムダイナミクスの間の関係の網を通じて定義される。 システムがオープンになると、これらは変更される可能性がある。 我々は、ランダムな散逸(ランダムな乱れなしで)が、他の可積分系においてカオス的あるいは局所的な振る舞いを誘発するかどうかを問う。 散逸は非エルミートハミルトニアンを用いて記述され、これは零測度で条件付けられたマルコフ力学から効果的に得ることができる。 特異値分解と特異値統計、すなわち特異形係数、逆成分比、特異ベクトルの絡み合いエントロピーを補完する新しい診断ツールの導入により、正の答えが得られる。 この方法はランダムな局所散逸を伴うXXZハミルトニアンで示される。

Strong local disorder in interacting quantum spin chains can turn delocalized eigenmodes into localized eigenstates, giving rise to many-body localized (MBL) phases. This is accompanied by distinct spectral statistics: chaotic for the delocalized phase and integrable for the localized phase. In isolated systems, localization and chaos are defined through a web of relations among eigenvalues, eigenvectors, and real-time dynamics. These may change as the system is made open. We ask whether random dissipation (without random disorder) can induce chaotic or localized behavior in an otherwise integrable system. The dissipation is described using non-Hermitian Hamiltonians, which can effectively be obtained from Markovian dynamics conditioned on null measurement. Through the use of the singular value decomposition and the introduction of new diagnostic tools complementing the singular-value statistics, namely, the singular form factor, the inverse participation ratio, and entanglement entropy for singular vectors, we provide a positive answer. Our method is illustrated in an XXZ Hamiltonian with random local dissipation.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# Relic: 自己整合性を用いた大規模言語モデル応答の調査

RELIC: Investigating Large Language Model Responses using Self-Consistency ( http://arxiv.org/abs/2311.16842v2 )

ライセンス: Link先を確認
Furui Cheng, Vilém Zouhar, Simran Arora, Mrinmaya Sachan, Hendrik Strobelt, Mennatallah El-Assady, (参考訳) LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。 この課題に対処するために,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。 提案手法は,LLMが生成した複数のサンプルの自己整合性が,生成したテキストの個々の主張に対する信頼度に関係している,という考え方に基づいている。 このアイデアを用いて,複数の長文応答における意味レベルの変動をユーザが調査し,検証できる対話型システムであるRELICを設計する。 これにより、ユーザは生成したテキストの潜在的な不正確な情報を認識し、必要な修正を行うことができる。 10人の参加者によるユーザスタディから、我々のアプローチが、生成したテキストの信頼性をよりよく検証するのに役立つことを実証する。 本研究から得られた設計内容と教訓を,信頼性のある人間-LLMインタラクションの今後の研究のために要約する。

Large Language Models (LLMs) are notorious for blending fact with fiction and generating non-factual content, known as hallucinations. To address this challenge, we propose an interactive system that helps users gain insight into the reliability of the generated text. Our approach is based on the idea that the self-consistency of multiple samples generated by the same LLM relates to its confidence in individual claims in the generated texts. Using this idea, we design RELIC, an interactive system that enables users to investigate and verify semantic-level variations in multiple long-form responses. This allows users to recognize potentially inaccurate information in the generated text and make necessary corrections. From a user study with ten participants, we demonstrate that our approach helps users better verify the reliability of the generated text. We further summarize the design implications and lessons learned from this research for future studies of reliable human-LLM interactions.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# Fleming-Viotはバレンプラトーの存在下で変分量子アルゴリズムを高速化する

Fleming-Viot helps speed up variational quantum algorithms in the presence of barren plateaus ( http://arxiv.org/abs/2311.18090v2 )

ライセンス: Link先を確認
Daniel Mastropietro, Georgios Korpas, Vyacheslav Kungurtsev, Jakub Marecek, (参考訳) Fleming-Viot 確率過程に着想を得て,アルゴリズムが不規則な高原から抜け出すのを助けるために,変分量子アルゴリズムの並列実装を提案する。 フレミング・ヴィオットの伝統では、平行探索は粒子と呼ばれる。 提案手法では,勾配が小さすぎる領域やうるさい領域に遭遇した場合,フレミング・ヴィオット粒子による探索は停止され,不毛の台地が示唆される。 停止した粒子は、パラメータ空間の別の場所で再生された後に探索を続け、不毛の台地から探索を遠ざける可能性がある。 まず理論的な観点からフレミング・ヴィオット粒子の挙動を解析する。 シミュレーションアニーリングオプティマイザを粒子として使用する場合,Fleming-Viot系は単一シミュレートアニーリングオプティマイザよりも大域的最適化が速く,ドメイン内のバレン高原の割合に比例して高い相対効率が期待できる。 この結果は,合成問題やMax-Cut問題に対する数値実験によって裏付けられ,本手法は領域内に大きなバレンプラトーが存在する場合の模擬アニーリングよりも優れた性能を示すことが示された。

Inspired by the Fleming-Viot stochastic process, we propose a parallel implementation of variational quantum algorithms with the aim of helping the algorithm get out of barren plateaus, where optimization direction is unclear. In the Fleming-Viot tradition, parallel searches are called particles. In our proposed approach, the search by a Fleming-Viot particle is stopped when it encounters a region where the gradient is too small or noisy, suggesting a barren plateau area. The stopped particle continues the search after being regenerated at another location of the parameter space, potentially taking the exploration away from barren plateaus. We first analyze the behavior of the Fleming-Viot particles from a theoretical standpoint. We show that, when simulated annealing optimizers are used as particles, the Fleming-Viot system is expected to find the global optimum faster than a single simulated annealing optimizer, with a relative efficiency that increases proportionally to the percentage of barren plateaus in the domain. This result is backed up by numerical experiments carried out on synthetic problems as well as on instances of the Max-Cut problem, which show that our method performs better than plain simulated annealing when large barren plateaus are present in the domain.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# シミュレーションによるアルゴリズムによる説得

Algorithmic Persuasion Through Simulation ( http://arxiv.org/abs/2311.18138v3 )

ライセンス: Link先を確認
Keegan Harris, Nicole Immorlica, Brendan Lucier, Aleksandrs Slivkins, (参考訳) 本稿では,受取人に製品購入などの二元的行動を取るよう説得したいというベイズ的説得問題について考察する。 送信者は、製品の品質が高いか低いかなどの世界の(バイナリ)状態について通知されるが、受信者の信念やユーティリティに関する情報は限られている。 顧客調査やユーザスタディ、最近のジェネレーティブAIの進歩に動機付けられ、受信者の振る舞いをシミュレートする託宣をクエリすることで、送信側が受信者についてより深く学ぶことができる。 一定の数のクエリの後、送信側はメッセージポリシーにコミットし、受信側は受信したメッセージに対して期待するユーティリティを最大化するアクションを取る。 我々は受信側が受信側タイプにまたがる分散を考慮すれば,送信側が最適なメッセージポリシーを特徴付ける。 次に,このベイジアン説得ゲームにおいて,送信者の期待するユーティリティを最適化する多項式時間クエリアルゴリズムを設計する。 また、近似オラクル、より一般的なクエリ構造、高価なクエリについても検討しています。

We study a Bayesian persuasion problem where a sender wants to persuade a receiver to take a binary action, such as purchasing a product. The sender is informed about the (binary) state of the world, such as whether the quality of the product is high or low, but only has limited information about the receiver's beliefs and utilities. Motivated by customer surveys, user studies, and recent advances in generative AI, we allow the sender to learn more about the receiver by querying an oracle that simulates the receiver's behavior. After a fixed number of queries, the sender commits to a messaging policy and the receiver takes the action that maximizes her expected utility given the message she receives. We characterize the sender's optimal messaging policy given any distribution over receiver types. We then design a polynomial-time querying algorithm that optimizes the sender's expected utility in this Bayesian persuasion game. We also consider approximate oracles, more general query structures, and costly queries.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# MorpheuS: モノクラーRGB-Dビデオによるニューラルダイナミック360°表面の再構成

MorpheuS: Neural Dynamic 360° Surface Reconstruction from Monocular RGB-D Video ( http://arxiv.org/abs/2312.00778v2 )

ライセンス: Link先を確認
Hengyi Wang, Jingwen Wang, Lourdes Agapito, (参考訳) ニューラルレンダリングは動的シーン再構成において顕著な成功を収めた。 神経表現の表現力のおかげで、先行研究は運動を正確に捉え、対象の物体を高忠実に再現することができる。 これにもかかわらず、実世界のビデオシナリオは、神経表現が現実的な完了を達成するのに苦労する大きな未観測領域を特徴とすることが多い。 この課題に対処するために、カジュアルにキャプチャされたRGB-Dビデオから360{\deg}表面を動的に再構成するフレームワークであるMorpheuSを紹介した。 我々のアプローチは、ターゲットシーンを、その形状と外観を符号化した標準場としてモデル化し、現在のフレームから標準空間へ点をワープする変形場と組み合わせる。 我々は、ビュー依存拡散を先取りし、その知識を蒸留し、観測されていない領域の現実的な完成を達成する。 実世界および合成データセットを用いた実験結果から, モノクラーRGB-Dビデオから変形可能な物体の高忠実度360{\deg}表面の再構成が可能であることが示された。

Neural rendering has demonstrated remarkable success in dynamic scene reconstruction. Thanks to the expressiveness of neural representations, prior works can accurately capture the motion and achieve high-fidelity reconstruction of the target object. Despite this, real-world video scenarios often feature large unobserved regions where neural representations struggle to achieve realistic completion. To tackle this challenge, we introduce MorpheuS, a framework for dynamic 360{\deg} surface reconstruction from a casually captured RGB-D video. Our approach models the target scene as a canonical field that encodes its geometry and appearance, in conjunction with a deformation field that warps points from the current frame to the canonical space. We leverage a view-dependent diffusion prior and distill knowledge from it to achieve realistic completion of unobserved regions. Experimental results on various real-world and synthetic datasets show that our method can achieve high-fidelity 360{\deg} surface reconstruction of a deformable object from a monocular RGB-D video.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# ビジョンファウンデーションモデルによるスパースフォーマーのブートストラップ

Bootstrapping SparseFormers from Vision Foundation Models ( http://arxiv.org/abs/2312.01987v2 )

ライセンス: Link先を確認
Ziteng Gao, Zhan Tong, Kevin Qinghong Lin, Joya Chen, Mike Zheng Shou, (参考訳) 最近提案されたSparseFormerアーキテクチャは、RoIを調整し、計算コストを大幅に削減し、有望な性能を保ちながら、視覚的トークンの少ない数を活用することで、視覚的理解に代替的なアプローチを提供する。 しかし、スクラッチからSparseFormerをトレーニングするのは依然として高価であり、パラメータの数をスケールアップすることは難しい。 本稿では,視覚基盤モデルからSparseFormersをシンプルかつ効率的な方法でブートストラップすることを提案する。 SparseFormerブロックの大部分は標準のトランスなので、大規模な事前学習されたビジョントランスからウェイトを継承し、可能な限り凍結することができる。 したがって、SparseFormer固有の軽量フォーカス変換器をトレーニングしてトークンRoIを調整し、いくつかの初期トレーニング済みブロックを微調整して、最終的なトークン表現を調整するだけでよい。 このような方法で,大規模な事前トレーニングモデル(例えば,IN-21K事前トレーニングされたAugRegsやCLIP)から,比較的少ないトレーニングサンプル(例えば,IN-1K)とラベルやキャプションなしで,SparseFormerアーキテクチャをブートストラップすることが可能になります。 結果として、ブートストラップ付きunimodal SparseFormer(AugReg-ViT-L/16-384)は49個のトークンを持つIN-1K上で84.9%の精度に達し、CLIPsのマルチモーダルSparseFormerはブートストラップ手順中にキャプションを見ることなく、計算コストを大幅に削減して、顕著なゼロショット性能を示す。 さらに、単語を見ることなく出力空間を言語と整列させるCLIP-bootstrapped SparseFormersは、マルチモーダルな大規模言語モデルにおける効率的な視覚エンコーダとして機能する。 コードとモデルはhttps://github.com/showlab/sparseformerで入手できる。

The recently proposed SparseFormer architecture provides an alternative approach to visual understanding by utilizing a significantly lower number of visual tokens via adjusting RoIs, greatly reducing computational costs while still achieving promising performance. However, training SparseFormers from scratch is still expensive, and scaling up the number of parameters can be challenging. In this paper, we propose to bootstrap SparseFormers from ViT-based vision foundation models in a simple and efficient way. Since the majority of SparseFormer blocks are the standard transformer ones, we can inherit weights from large-scale pre-trained vision transformers and freeze them as much as possible. Therefore, we only need to train the SparseFormer-specific lightweight focusing transformer to adjust token RoIs and fine-tune a few early pre-trained blocks to align the final token representation. In such a way, we can bootstrap SparseFormer architectures from various large-scale pre-trained models (e.g., IN-21K pre-trained AugRegs or CLIPs) using a rather smaller amount of training samples (e.g., IN-1K) and without labels or captions within just a few hours. As a result, the bootstrapped unimodal SparseFormer (from AugReg-ViT-L/16-384) can reach 84.9% accuracy on IN-1K with only 49 tokens, and the multimodal SparseFormer from CLIPs also demonstrates notable zero-shot performance with highly reduced computational cost without seeing any caption during the bootstrapping procedure. In addition, CLIP-bootstrapped SparseFormers, which align the output space with language without seeing a word, can serve as efficient vision encoders in multimodal large language models. Code and models are available at https://github.com/showlab/sparseformer
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# HumanNeRF-SE:多元性を持つ人間NeRFの簡易的かつ効果的なアプローチ

HumanNeRF-SE: A Simple yet Effective Approach to Animate HumanNeRF with Diverse Poses ( http://arxiv.org/abs/2312.02232v2 )

ライセンス: Link先を確認
Caoyuan Ma, Yu-Lun Liu, Zhixiang Wang, Wu Liu, Xinchen Liu, Zheng Wang, (参考訳) 本稿では,多様な新しいポーズ画像を簡単な入力で合成する,シンプルで効果的なHumanNeRF-SEを提案する。 以前のHumanNeRFの作業は、人間の画像に合わせるために、多数の最適化可能なパラメータを必要とする。 代わりに、これらのアプローチを明示的および暗黙的な人間の表現を組み合わせることで再ロードし、一般化された剛性変形と特定の非剛性変形の両方を設計する。 我々の重要な洞察は、明示的な形状は暗黙の表現に合うサンプリングポイントを減らすことができ、一般化された剛性変形を構成するSMPLからの凍結した混合重量は、過度な適合を効果的に回避し、ポーズの一般化性能を向上させることができるということである。 明示的表現と暗黙的表現の両方を含むアーキテクチャはシンプルだが効果的である。 実験では,既存の加速度モジュールを使わずに,任意のポーズで画像を合成し,画像の合成速度を15倍に向上できることを示した。 最先端のHumanNeRF研究と比較すると、HumanNeRF-SEは学習可能なパラメータが少なく、トレーニング時間も少ないパフォーマンスを実現している。

We present HumanNeRF-SE, a simple yet effective method that synthesizes diverse novel pose images with simple input. Previous HumanNeRF works require a large number of optimizable parameters to fit the human images. Instead, we reload these approaches by combining explicit and implicit human representations to design both generalized rigid deformation and specific non-rigid deformation. Our key insight is that explicit shape can reduce the sampling points used to fit implicit representation, and frozen blending weights from SMPL constructing a generalized rigid deformation can effectively avoid overfitting and improve pose generalization performance. Our architecture involving both explicit and implicit representation is simple yet effective. Experiments demonstrate our model can synthesize images under arbitrary poses with few-shot input and increase the speed of synthesizing images by 15 times through a reduction in computational complexity without using any existing acceleration modules. Compared to the state-of-the-art HumanNeRF studies, HumanNeRF-SE achieves better performance with fewer learnable parameters and less training time.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-04
# LaMPilot: 言語モデルプログラムによる自律運転のためのオープンベンチマークデータセット

LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs ( http://arxiv.org/abs/2312.04372v2 )

ライセンス: Link先を確認
Yunsheng Ma, Can Cui, Xu Cao, Wenqian Ye, Peiran Liu, Juanwu Lu, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, Aniket Bera, James M. Rehg, Ziran Wang, (参考訳) 自律運転(AD)は近年大きな進歩を遂げている。 しかし、既存のフレームワークは「先行する車を追い越す」などの自発的なユーザー指示を解釈し実行するのに苦労している。 大きな言語モデル(LLM)は、このギャップを埋める可能性を示す印象的な推論能力を示している。 本稿では,LLMをADシステムに統合する新しいフレームワークであるLaMPilotについて述べる。 また、ADにおける言語モデルプログラムの有効性を定量的に評価するために設計された最初のベンチマークデータセットであるLaMPilot-Benchを紹介する。 本稿では,LaMPilot-Bench 上での既製の LLM の性能を評価するために,LaMPilot フレームワークを広範囲に導入した。 この結果から,多様な運転シナリオの処理や運転時のユーザ指示に従う上でのLLMの可能性が示された。 この領域のさらなる研究を促進するため、コードとデータはhttps://github.com/PurdueDigitalTwin/LaMPilot.comで公開しています。

Autonomous driving (AD) has made significant strides in recent years. However, existing frameworks struggle to interpret and execute spontaneous user instructions, such as "overtake the car ahead." Large Language Models (LLMs) have demonstrated impressive reasoning capabilities showing potential to bridge this gap. In this paper, we present LaMPilot, a novel framework that integrates LLMs into AD systems, enabling them to follow user instructions by generating code that leverages established functional primitives. We also introduce LaMPilot-Bench, the first benchmark dataset specifically designed to quantitatively evaluate the efficacy of language model programs in AD. Adopting the LaMPilot framework, we conduct extensive experiments to assess the performance of off-the-shelf LLMs on LaMPilot-Bench. Our results demonstrate the potential of LLMs in handling diverse driving scenarios and following user instructions in driving. To facilitate further research in this area, we release our code and data at https://github.com/PurdueDigitalTwin/LaMPilot.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# SoK: マシンラーニングの防御とリスク間の意図しないインタラクション

SoK: Unintended Interactions among Machine Learning Defenses and Risks ( http://arxiv.org/abs/2312.04542v2 )

ライセンス: Link先を確認
Vasisht Duddu, Sebastian Szyller, N. Asokan, (参考訳) 機械学習(ML)モデルは、セキュリティ、プライバシ、公正性のリスクを無視することはできない。 このようなリスクを軽減するため、いくつかの防衛策が提案されている。 防御が1つのリスクを緩和する効果がある場合、他のリスクに対する感受性が増大または低下する可能性がある。 既存の研究には、意図しない相互作用を認識し説明するための効果的な枠組みが欠けている。 このような枠組みは、過剰適合と暗記が意図しない相互作用を弱めるという予想に基づくものである。 我々は、意図しない相互作用に関する既存の文献を調査し、フレームワーク内でそれらを収容する。 2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。

Machine learning (ML) models cannot neglect risks to security, privacy, and fairness. Several defenses have been proposed to mitigate such risks. When a defense is effective in mitigating one risk, it may correspond to increased or decreased susceptibility to other risks. Existing research lacks an effective framework to recognize and explain these unintended interactions. We present such a framework, based on the conjecture that overfitting and memorization underlie unintended interactions. We survey existing literature on unintended interactions, accommodating them within our framework. We use our framework to conjecture on two previously unexplored interactions, and empirically validate our conjectures.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# AI-Truckを用いた建設廃棄物輸送活動の短期予測

Short-term prediction of construction waste transport activities using AI-Truck ( http://arxiv.org/abs/2312.04609v2 )

ライセンス: Link先を確認
Meng Xu, Ke Han, (参考訳) 建設廃棄物運搬トラック(またはスラグトラック)は、都市部でよく見られる重厚なディーゼル車であり、大きな炭素、NO$_{\textbf{x}}$およびPM$_{\textbf{2.5}}$エミッションを生産するだけでなく、路上および現場の逃亡ダストの主要な供給源でもある。 スラグトラックは、地域交通と環境政策によって、一連の空間的および時間的アクセス制限を受ける。 本稿では, 環境法執行機関が局所トラック収集に対して, 時間的かつ積極的に対応できるように, 都市規模でスラグトラック活動のレベルを予測するという現実的な課題に対処する。 ディープアンサンブル学習フレームワーク (coined AI-Truck) は,Bi-LSTM, TCN, STGCN, PDFormerをベース分類器として使用するソフト投票積分器を用いて設計されている。 AI-Truckはサンプルの不均衡に対応するためにダウンサンプリングと重み付き損失の組み合わせを採用し、トラック軌道を利用してより正確で効果的な地理的特徴を抽出する。 このフレームワークは、1km$\times$1km$\times$0.5hの解像度で、中国成都の255km$^{\textbf{2}}$エリアに展開された。 分類器として、AI-Truckは、0.5時間予測時間におけるスラグトラック活動のレベル予測における0.747のマクロF1を達成し、80%以上の精度で、高活動位置1.5時間前倒しが可能となる。

Construction waste hauling trucks (or `slag trucks') are among the most commonly seen heavy-duty diesel vehicles in urban streets, which not only produce significant carbon, NO$_{\textbf{x}}$ and PM$_{\textbf{2.5}}$ emissions but are also a major source of on-road and on-site fugitive dust. Slag trucks are subject to a series of spatial and temporal access restrictions by local traffic and environmental policies. This paper addresses the practical problem of predicting levels of slag truck activity at a city scale during heavy pollution episodes, such that environmental law enforcement units can take timely and proactive measures against localized truck aggregation. A deep ensemble learning framework (coined AI-Truck) is designed, which employs a soft vote integrator that utilizes Bi-LSTM, TCN, STGCN, and PDFormer as base classifiers. AI-Truck employs a combination of downsampling and weighted loss is employed to address sample imbalance, and utilizes truck trajectories to extract more accurate and effective geographic features. The framework was deployed for truck activity prediction at a resolution of 1km$\times$1km$\times$0.5h, in a 255 km$^{\textbf{2}}$ area in Chengdu, China. As a classifier, AI-Truck achieves a macro F1 of 0.747 in predicting levels of slag truck activity for 0.5-h prediction time length, and enables personnel to spot high-activity locations 1.5 hrs ahead with over 80\% accuracy.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# 3DGS-アバター:変形可能な3Dガウススプレイティングによるアニマタブルアバター

3DGS-Avatar: Animatable Avatars via Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2312.09228v3 )

ライセンス: Link先を確認
Zhiyin Qian, Shaofei Wang, Marko Mihajlovic, Andreas Geiger, Siyu Tang, (参考訳) モノクロビデオからアニマタブルな人間のアバターを3Dガウススプラッティング(3DGS)を用いて生成する手法を提案する。 ニューラルレイディアンス場(NeRF)に基づく既存の手法は、高品質なノベルビュー/ノーベル目的画像合成を実現するが、しばしばトレーニングの日数を必要とし、推論時に非常に遅い。 近年,布張りアバターの効率的なトレーニングのための高速グリッド構造を探求している。 非常に高速なトレーニングではあるものの、これらの手法は15FPS程度のインタラクティブなレンダリングフレームレートをほとんど達成できない。 本稿では,30分以内でトレーニング可能で,フレームレート(50FPS以上)でレンダリング可能な,非剛性変形ネットワークを学習する。 表現の明示的な性質を考えると、ガウス平均ベクトルと共分散行列の両面に等距離可測正規化を導入し、高度に調音された未知のポーズ上でのモデルの一般化を促進させる。 実験結果から,本手法は単分子入力によるアニマタブルアバター生成に対する最先端手法と比較して,それぞれ400倍,250倍の高速化を実現していることがわかった。

We introduce an approach that creates animatable human avatars from monocular videos using 3D Gaussian Splatting (3DGS). Existing methods based on neural radiance fields (NeRFs) achieve high-quality novel-view/novel-pose image synthesis but often require days of training, and are extremely slow at inference time. Recently, the community has explored fast grid structures for efficient training of clothed avatars. Albeit being extremely fast at training, these methods can barely achieve an interactive rendering frame rate with around 15 FPS. In this paper, we use 3D Gaussian Splatting and learn a non-rigid deformation network to reconstruct animatable clothed human avatars that can be trained within 30 minutes and rendered at real-time frame rates (50+ FPS). Given the explicit nature of our representation, we further introduce as-isometric-as-possible regularizations on both the Gaussian mean vectors and the covariance matrices, enhancing the generalization of our model on highly articulated unseen poses. Experimental results show that our method achieves comparable and even better performance compared to state-of-the-art approaches on animatable avatar creation from a monocular input, while being 400x and 250x faster in training and inference, respectively.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# 量子回路設計における強化学習の課題

Challenges for Reinforcement Learning in Quantum Circuit Design ( http://arxiv.org/abs/2312.11337v2 )

ライセンス: Link先を確認
Philipp Altmann, Jonas Stein, Michael Kölle, Adelina Bärligea, Thomas Gabor, Thomy Phan, Sebastian Feld, Claudia Linnhoff-Popien, (参考訳) 現在のNISQ時代の量子コンピューティング(QC)は、サイズと精度がまだ限られている。 これらの欠点を緩和するハイブリッドアプリケーションは、早期の洞察とアドバンテージを得るために一般的である。 ハイブリッド量子機械学習(QML)は、機械学習(ML)を改善するためのQCの応用と、QCアーキテクチャを改善するためのMLの両方を含む。 この研究は後者を考察し、強化学習(RL)を活用して実現可能な量子アーキテクチャの探索を改善する。 さらに,マルコフ決定過程として定式化された具体的な枠組みを提案し,連続パラメータ化量子ゲートの普遍的な集合を制御することができる学習ポリシーを実現する。 最後に、現在の最先端RLアルゴリズムの欠点と長所を評価するために、ベンチマーク比較を行う。

Quantum computing (QC) in the current NISQ era is still limited in size and precision. Hybrid applications mitigating those shortcomings are prevalent to gain early insight and advantages. Hybrid quantum machine learning (QML) comprises both the application of QC to improve machine learning (ML) and ML to improve QC architectures. This work considers the latter, leveraging reinforcement learning (RL) to improve the search for viable quantum architectures, which we formalize by a set of generic challenges. Furthermore, we propose a concrete framework, formalized as a Markov decision process, to enable learning policies capable of controlling a universal set of continuously parameterized quantum gates. Finally, we provide benchmark comparisons to assess the shortcomings and strengths of current state-of-the-art RL algorithms.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# ポーカーハンドの記録と記述

Recording and Describing Poker Hands ( http://arxiv.org/abs/2312.11753v3 )

ライセンス: Link先を確認
Juho Kim, (参考訳) 本稿ではポーカーハンドヒストリー(PHH)ファイルフォーマットを紹介する。 心身スポーツとしてポーカーが主流の文化で広く普及し、不完全な情報AIエージェントのベンチマークとしての人工知能(AI)研究の分野における卓越しているにもかかわらず、機械で簡単に解析できる様々な種類のポーカーハンドを人間が文書化するために使用できる一貫したフォーマットが欠如している。 このギャップに対処するため,本論文では,初期ゲームパラメータやアクションから,会場,プレーヤ,タイムコントロール情報に制限されないコンテキストパラメータに至るまで,手作業のさまざまな詳細を包括的にキャプチャする,手作業履歴の簡潔で可読なマシンフレンドリーな表現を提供するPHHフォーマットを提案する。 補足では、PHHフォーマットの11種類の変種をカバーする10,088個の手を提供する。 パーサーのソースコードはGitHubで入手できる。

This paper introduces the Poker Hand History (PHH) file format, designed to standardize the recording of poker hands across different game variants. Despite poker's widespread popularity in the mainstream culture as a mind sport and its prominence in the field of artificial intelligence (AI) research as a benchmark for imperfect information AI agents, it lacks a consistent format that humans can use to document poker hands across different variants that can also easily be parsed by machines. To address this gap in the literature, we propose the PHH format which provides a concise human-readable machine-friendly representation of hand history that comprehensively captures various details of the hand, ranging from initial game parameters and actions to contextual parameters including but not limited to the venue, players, and time control information. In the supplementary, we provide 10,088 hands covering 11 different variants in the PHH format. The source code of the parser is available on GitHub: https://github.com/uoftcprg/pokerkit
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# 3次元人体運動の表現的予測

Expressive Forecasting of 3D Whole-body Human Motions ( http://arxiv.org/abs/2312.11972v2 )

ライセンス: Link先を確認
Pengxiang Ding, Qiongjie Cui, Min Zhang, Mengyuan Liu, Haofan Wang, Donglin Wang, (参考訳) 人間の動作予測は、ある期間にわたって将来の人間の行動を推定することを目的としており、多くの現実世界のアプリケーションにおいて基本的な課題である。 しかし、現存する研究は通常、人間の手の繊細な動きを考慮せずに、人体の主要な関節を予測することに集中している。 実世界の人間とのコミュニケーションにおいて手振りは重要な役割を担い、人間の第一の意図を表現している。 本研究は,身体と手の動きを共同で予測する,全身のポーズ予測タスクを初めて定式化したものである。 そこで我々は,3次元人体動作の表現的・横断的予測を可能にする,粗い(体関節)ときめ細かな(姿勢)の両方を協調的に予測することを目的とした,新しいエンコーディング・アライメント・インタラクション(EAI)フレームワークを提案する。 具体的には、クロスコンテクストアライメント(XCA)とクロスコンテクストインタラクション(XCI)の2つの重要な構成要素について検討する。 全身の異種情報を考えると、XCAは様々な人間の成分の潜伏した特徴を整列することを目的としており、XCIは人間の成分間のコンテキスト相互作用を効果的に捉えることに焦点を当てている。 我々は,新たに導入した大規模ベンチマークの広範な実験を行い,最先端の性能を実現する。 コードはhttps://github.com/Dingpx/EAI.comで公開されている。

Human motion forecasting, with the goal of estimating future human behavior over a period of time, is a fundamental task in many real-world applications. However, existing works typically concentrate on predicting the major joints of the human body without considering the delicate movements of the human hands. In practical applications, hand gesture plays an important role in human communication with the real world, and expresses the primary intention of human beings. In this work, we are the first to formulate a whole-body human pose forecasting task, which jointly predicts the future body and hand activities. Correspondingly, we propose a novel Encoding-Alignment-Interaction (EAI) framework that aims to predict both coarse (body joints) and fine-grained (gestures) activities collaboratively, enabling expressive and cross-facilitated forecasting of 3D whole-body human motions. Specifically, our model involves two key constituents: cross-context alignment (XCA) and cross-context interaction (XCI). Considering the heterogeneous information within the whole-body, XCA aims to align the latent features of various human components, while XCI focuses on effectively capturing the context interaction among the human components. We conduct extensive experiments on a newly-introduced large-scale benchmark and achieve state-of-the-art performance. The code is public for research purposes at https://github.com/Dingpx/EAI.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# プロの写真のアウトペイントによる被写体認識クロップの学習

Learning Subject-Aware Cropping by Outpainting Professional Photos ( http://arxiv.org/abs/2312.12080v2 )

ライセンス: Link先を確認
James Hong, Lu Yuan, Michaël Gharbi, Matthew Fisher, Kayvon Fatahalian, (参考訳) 写真のフレーム(あるいは作物)の作り方は、画像の主題とそのコンテキストに依存することが多い。 近年の研究では、被写体認識画像トリミングタスクを、画像トリミングのニュアンスで実践的なバージョンとして定義している。 本稿では,プロのストックイメージから高品質な主観認識作物の作法を学ぶために,弱教師付きアプローチ(GenCrop)を提案する。 監督された以前の作業とは異なり、GenCropは既存のストックイメージコレクション以外の新しい手動アノテーションを必要としない。 しかし、このデータから学ぶ上で重要な課題は、画像がすでに収穫されており、どの領域が削除されたのかわからないことだ。 私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。 ストック画像収集は、多様性を提供し、その画像は、良好な作物のための擬似ラベルとして機能し、テキスト画像拡散モデルは、現実的な(すなわち、外向きの塗布)非クロッピング画像に使用される。 この手法を用いることで、収穫された無作為のトレーニングペアの大規模なデータセットを自動的に生成して、収穫モデルのトレーニングを行うことができる。 GenCropは、弱教師付きであるにもかかわらず、最先端の教師付き手法と競合し、定量的および定性的評価の指標において、同等の弱教師付きベースラインよりもはるかに優れている。

How to frame (or crop) a photo often depends on the image subject and its context; e.g., a human portrait. Recent works have defined the subject-aware image cropping task as a nuanced and practical version of image cropping. We propose a weakly-supervised approach (GenCrop) to learn what makes a high-quality, subject-aware crop from professional stock images. Unlike supervised prior work, GenCrop requires no new manual annotations beyond the existing stock image collection. The key challenge in learning from this data, however, is that the images are already cropped and we do not know what regions were removed. Our insight is to combine a library of stock images with a modern, pre-trained text-to-image diffusion model. The stock image collection provides diversity and its images serve as pseudo-labels for a good crop, while the text-image diffusion model is used to out-paint (i.e., outward inpainting) realistic uncropped images. Using this procedure, we are able to automatically generate a large dataset of cropped-uncropped training pairs to train a cropping model. Despite being weakly-supervised, GenCrop is competitive with state-of-the-art supervised methods and significantly better than comparable weakly-supervised baselines on quantitative and qualitative evaluation metrics.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# SOLAR 10.7B: 単純だが効果的なアップスケーリングによる大規模言語モデルのスケーリング

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling ( http://arxiv.org/abs/2312.15166v3 )

ライセンス: Link先を確認
Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee, Sunghun Kim, (参考訳) 我々は107億のパラメータを持つ大規模言語モデル(LLM)であるSOLAR 10.7Bを紹介し、様々な自然言語処理(NLP)タスクにおいて優れた性能を示す。 近年のLLMのスケールアップに着想を得て,DUS(Deepd Up-scaling)と呼ばれるLLMのスケーリング手法を提案する。 他のLLMアップスケーリング手法とは対照的に、DUSはトレーニングや推論を効率的に行うのに複雑な変更を必要としない。 実験により, DUS は単純だが, 高速 LLM のスケールアップには有効であることがわかった。 DUSモデル上に構築されたSOLAR 10.7B-インストラクトは、Mixtral-8x7B-インストラクトを超越した、命令追従機能用に微調整された変種である。 SOLAR 10.7BはApache 2.0ライセンスの下で公開されている。

We introduce SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Inspired by recent efforts to efficiently up-scale LLMs, we present a method for scaling LLMs called depth up-scaling (DUS), which encompasses depthwise scaling and continued pretraining. In contrast to other LLM up-scaling methods that use mixture-of-experts, DUS does not require complex changes to train and inference efficiently. We show experimentally that DUS is simple yet effective in scaling up high-performance LLMs from small ones. Building on the DUS model, we additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B-Instruct. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# 大規模言語モデルはウォール街に勝てるか? - 株式選択におけるAIの可能性

Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection ( http://arxiv.org/abs/2401.03737v2 )

ライセンス: Link先を確認
Georgios Fatouros, Konstantinos Metaxas, John Soldatos, Dimosthenis Kyriazis, (参考訳) 本稿では,GPT-4による金融市場における株式選択の先進的推論を活用する革新的なフレームワークであるMarketSenseAIを紹介する。 Chain of ThoughtとIn-Context Learningを統合することで、MarketSenseAIは、市場動向、ニュース、基本、マクロ経済要因など、さまざまなデータソースを分析し、専門家の投資決定をエミュレートする。 フレームワークの開発、実装、検証について詳しく議論し、実行可能で解釈可能な投資信号を生成する能力について説明する。 この研究で注目すべき特徴は、GPT-4を予測機構と信号評価器の両方として使用し、AIが生成した説明が信号の正確性、信頼性、受け入れに与える影響を明らかにしたことである。 15ヶ月にわたる競争力のあるS&P100株の実証テストを通じて、MarketSenseAIは、異常なパフォーマンスを示し、10%から30%の過剰なアルファを納品し、その期間に最大72%の累積リターンを達成した。 我々の発見は、金融意思決定におけるLarge Language Modelsのトランスフォーメーションの可能性を強調し、生成AIを財務分析と投資戦略に統合する大きな飛躍となった。

This paper introduces MarketSenseAI, an innovative framework leveraging GPT-4's advanced reasoning for selecting stocks in financial markets. By integrating Chain of Thought and In-Context Learning, MarketSenseAI analyzes diverse data sources, including market trends, news, fundamentals, and macroeconomic factors, to emulate expert investment decision-making. The development, implementation, and validation of the framework are elaborately discussed, underscoring its capability to generate actionable and interpretable investment signals. A notable feature of this work is employing GPT-4 both as a predictive mechanism and signal evaluator, revealing the significant impact of the AI-generated explanations on signal accuracy, reliability and acceptance. Through empirical testing on the competitive S&P 100 stocks over a 15-month period, MarketSenseAI demonstrated exceptional performance, delivering excess alpha of 10% to 30% and achieving a cumulative return of up to 72% over the period, while maintaining a risk profile comparable to the broader market. Our findings highlight the transformative potential of Large Language Models in financial decision-making, marking a significant leap in integrating generative AI into financial analytics and investment strategies.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# ModaVerse: LLMで効率よくモダリティを変える

ModaVerse: Efficiently Transforming Modalities with LLMs ( http://arxiv.org/abs/2401.06395v2 )

ライセンス: Link先を確認
Xinyu Wang, Bohan Zhuang, Qi Wu, (参考訳) 人間は多様なモダリティを理解し、情報をシームレスに伝達する能力を持っている。 本研究では,画像やビデオ,音声など,さまざまなモダリティにまたがるコンテンツの理解と変換が可能なマルチモーダル大言語モデル(MLLM)であるModaVerseを紹介する。 MLLMフレームワークは、テキストと非テキストの特徴の潜在空間のアライメントに大きく依存している。 このアライメントプロセスは、テキストデータで訓練された言語モデルを、マルチモーダルデータで訓練されたエンコーダやデコーダと同期させる。 LLM-as-agent法にヒントを得て,自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。 LLMの出力を生成モデルの入力と整合させ、潜在特徴アライメントに関連する複雑さを回避し、既存のMLLMの複数のトレーニング段階を1つの効率的なプロセスに単純化する。 この概念的な進歩により、データコストと計算コストの両方が大幅に削減される。 いくつかのベンチマークで実験を行うことで,本手法が最先端技術と同等の性能を発揮しつつ,データ使用率やトレーニング期間の大幅な効率化を実現していることを示す。

Humans possess the capability to comprehend diverse modalities and seamlessly transfer information between them. In this work, we introduce ModaVerse, a Multi-modal Large Language Model (MLLM) capable of comprehending and transforming content across various modalities including images, videos, and audio. Predominant MLLM frameworks have largely relied on the alignment of latent spaces of textual and non-textual features. This alignment process, which synchronizes a language model trained on textual data with encoders and decoders trained on multi-modal data, often necessitates extensive training of several projection layers in multiple stages. Inspired by LLM-as-agent methodologies, we propose a novel Input/Output (I/O) alignment mechanism that operates directly at the level of natural language. It aligns the LLM's output with the input of generative models, avoiding the complexities associated with latent feature alignments, and simplifying the multiple training stages of existing MLLMs into a single, efficient process. This conceptual advancement leads to significant reductions in both data and computational costs. By conducting experiments on several benchmarks, we demonstrate that our approach attains comparable performance with the state of the art while achieving considerable efficiencies in data usage and training duration.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# RoleCraft-GLM: 大規模言語モデルにおけるパーソナライズされたロールプレイングの改善

RoleCraft-GLM: Advancing Personalized Role-Playing in Large Language Models ( http://arxiv.org/abs/2401.09432v2 )

ライセンス: Link先を確認
Meiling Tao, Xuechen Liang, Tianyu Shi, Lei Yu, Yiting Xie, (参考訳) 本研究では,Large Language Models (LLM) を用いたパーソナライズされたロールプレイングの促進を目的とした,革新的なフレームワークであるRoleCraft-GLMを提案する。 RoleCraft-GLMは、対話型AIにおけるパーソナライズされたインタラクションの欠如という重要な問題に対処し、詳細で感情的にニュアンスのある人物描写を備えたソリューションを提供する。 我々は,従来の有名人中心のキャラクターから多彩な非有名人ペルソナへと移行し,言語モデリング相互作用の現実性と複雑さを向上する,ユニークな会話データセットを提供する。 さらに,本手法では,直感的なキャラクタ開発や,対話が現実的かつ感情的に共鳴することを保証する。 RoleCraft-GLMの有効性は、さまざまなケーススタディを通じて検証され、さまざまなシナリオにおけるその汎用性とスキルを強調している。 本フレームワークは,キャラクターの性格特性や感情を正確に反映した対話生成に優れ,ユーザのエンゲージメントを高める。 結論として、RoleCraft-GLMはパーソナライズされたAIインタラクションの大きな飛躍であり、よりニュアンスで感情に富んだ対話を可能にすることで、より正確で没入的なAI支援型ロールプレイングエクスペリエンスの道を開く。

This study presents RoleCraft-GLM, an innovative framework aimed at enhancing personalized role-playing with Large Language Models (LLMs). RoleCraft-GLM addresses the key issue of lacking personalized interactions in conversational AI, and offers a solution with detailed and emotionally nuanced character portrayals. We contribute a unique conversational dataset that shifts from conventional celebrity-centric characters to diverse, non-celebrity personas, thus enhancing the realism and complexity of language modeling interactions. Additionally, our approach includes meticulous character development, ensuring dialogues are both realistic and emotionally resonant. The effectiveness of RoleCraft-GLM is validated through various case studies, highlighting its versatility and skill in different scenarios. Our framework excels in generating dialogues that accurately reflect characters' personality traits and emotions, thereby boosting user engagement. In conclusion, RoleCraft-GLM marks a significant leap in personalized AI interactions, and paves the way for more authentic and immersive AI-assisted role-playing experiences by enabling more nuanced and emotionally rich dialogues
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# 仮想試行モデルの蒸留知識による新しいガーメント転送法

A Novel Garment Transfer Method Supervised by Distilled Knowledge of Virtual Try-on Model ( http://arxiv.org/abs/2401.12433v2 )

ライセンス: Link先を確認
Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Kerui Hu, Jianrong Tan, (参考訳) 本稿では,仮想試行から知識蒸留を指導する新しい衣服転送手法を提案する。 提案手法は、まず、下流タスクの前に形を提供するために転送解析を行う。 我々は多段階の教育戦略を用いて、伝達解析推論モデルの訓練を監督し、応答と特徴知識をトライオン解析推論モデルから学習する。 教えの誤りを正すため、服を所有者に戻して自己学習段階のハードな知識を吸収する。 転送解析により、STNを介して転送された衣服の位置を調整し、歪みを防止する。 その後, 衣服の形状と内容の対応を正確に整えるために, プログレッシブフローを推定する。 そこで,本研究では,目標形状と仮想試行による知識のゆがみを用いて,衣服のゆがみモデルのトレーニングを監督する。 移植結果の身体的特徴をよりよく保存するために,新しい露出皮膚を推測するための腕再成長タスクのためのよく設計されたトレーニング戦略を提案する。 また, 衣服のテクスチャや体の特徴を保ちながら, 他の仮想試着法や衣服の移動法と比較して, 本手法は最先端性能を有することを示した。

This paper proposes a novel garment transfer method supervised with knowledge distillation from virtual try-on. Our method first reasons the transfer parsing to provide shape prior to downstream tasks. We employ a multi-phase teaching strategy to supervise the training of the transfer parsing reasoning model, learning the response and feature knowledge from the try-on parsing reasoning model. To correct the teaching error, it transfers the garment back to its owner to absorb the hard knowledge in the self-study phase. Guided by the transfer parsing, we adjust the position of the transferred garment via STN to prevent distortion. Afterward, we estimate a progressive flow to precisely warp the garment with shape and content correspondences. To ensure warping rationality, we supervise the training of the garment warping model using target shape and warping knowledge from virtual try-on. To better preserve body features in the transfer result, we propose a well-designed training strategy for the arm regrowth task to infer new exposure skin. Experiments demonstrate that our method has state-of-the-art performance compared with other virtual try-on and garment transfer methods in garment transfer, especially for preserving garment texture and body features.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# 3次元意味的活動予測のための一元的時空間三視点表示法

Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2401.13785v2 )

ライセンス: Link先を確認
Sathira Silva, Savindu Bhashitha Wannigama, Gihan Jayatilaka, Muhammad Haris Khan, Roshan Ragel, (参考訳) 3Dシーンにおける全体的理解と推論は、自律運転システムの成功に重要な役割を果たす。 3Dセマンティック占有予測の進化は、自律走行とロボット下流タスクのための事前訓練タスクとして、3D検出のような方法と比較して細かな3Dの詳細をキャプチャする。 既存のアプローチは、しばしば時間的手がかりを見渡す、トリ・パースペクティブ・ビュー・埋め込み(TPV)のような空間的手がかりに重点を置いている。 本研究では,時間的コヒーレントな3次元セマンティック占有予測のための時空間変圧器アーキテクチャS2TPVFormerを提案する。 我々は、新しい時間的相互視ハイブリッドアテンション機構(TCVHA)を用いて時間的手がかりを組み込んで、時空間TPV埋め込み(すなわちS2TPV埋め込み)を発生させることにより、事前のプロセスを強化した。 nuScenesデータセットの実験的評価では,TPVFormerと比較して,平均3次元セマンティックアクセプタシー(mIoU)が約4.1%向上し,S2TPVFormerの有効性が確認された。

Holistic understanding and reasoning in 3D scenes play a vital role in the success of autonomous driving systems. The evolution of 3D semantic occupancy prediction as a pretraining task for autonomous driving and robotic downstream tasks capture finer 3D details compared to methods like 3D detection. Existing approaches predominantly focus on spatial cues such as tri-perspective view embeddings (TPV), often overlooking temporal cues. This study introduces a spatiotemporal transformer architecture S2TPVFormer for temporally coherent 3D semantic occupancy prediction. We enrich the prior process by including temporal cues using a novel temporal cross-view hybrid attention mechanism (TCVHA) and generate spatiotemporal TPV embeddings (i.e. S2TPV embeddings). Experimental evaluations on the nuScenes dataset demonstrate a substantial 4.1% improvement in mean Intersection over Union (mIoU) for 3D Semantic Occupancy compared to TPVFormer, confirming the effectiveness of the proposed S2TPVFormer in enhancing 3D scene perception.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-04
# 無限次元のChoi形式主義から完全正の動的半群の生成元の一意分解へ

From the Choi Formalism in Infinite Dimensions to Unique Decompositions of Generators of Completely Positive Dynamical Semigroups ( http://arxiv.org/abs/2401.14344v2 )

ライセンス: Link先を確認
Frederik vom Ende, (参考訳) 任意の可分複素ヒルベルト空間が与えられたとき、純粋に虚トレースを持たないトレースクラス作用素$B$と、全正写像のノルム連続一パラメータ半群の任意の生成元$L$は、一意有界作用素$K$と一意完全正写像$Phi$が存在することを証明する。 (i)$L=K(\cdot)+(\cdot)K^*+\Phi$, (ii) Superoperator $\Phi(B^*(\cdot)B)$はトレースクラスであり、トレースが消滅する。 (iii)${\rm tr}(B^*K)$は実数である。 私たちの証明の中心は、正の半定値作用素に完全正の写像を関連付けるチェ形式論の修正版である。 この対応がそれぞれ単射かつ全射であるときの特徴付けを行い、その結果、主結果の証明アイデアが非分離ヒルベルト空間に拡張できない理由を説明する。 特に、上述のヒルベルト空間が無限次元となるとすぐに、チェイ形式の下で空の事前像を持つ正半定値作用素の例が見つかる。

Given any separable complex Hilbert space, any trace-class operator $B$ which does not have purely imaginary trace, and any generator $L$ of a norm-continuous one-parameter semigroup of completely positive maps we prove that there exists a unique bounded operator $K$ and a unique completely positive map $\Phi$ such that (i) $L=K(\cdot)+(\cdot)K^*+\Phi$, (ii) the superoperator $\Phi(B^*(\cdot)B)$ is trace class and has vanishing trace, and (iii) ${\rm tr}(B^*K)$ is a real number. Central to our proof is a modified version of the Choi formalism which relates completely positive maps to positive semi-definite operators. We characterize when this correspondence is injective and surjective, respectively, which in turn explains why the proof idea of our main result cannot extend to non-separable Hilbert spaces. In particular, we find examples of positive semi-definite operators which have empty pre-image under the Choi formalism as soon as the underlying Hilbert space is infinite-dimensional.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization

Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization ( http://arxiv.org/abs/2401.15496v3 )

ライセンス: Link先を確認
Jianfei Xiao, Yancan Chen, Yimin Ou, Hanyi Yu, Kai Shu, Yiyong Xiao, (参考訳) Llama、Baichuan、Bloomモデルのような大規模言語モデル(LLM)は、多くの自然言語タスクにおいて命令を微調整する優れた能力を示している。 それでも、対話における異なる役割の要約を意図した対話要約タスクでは、最先端の手法のほとんどが小さなモデル(例えばバートやバート)で実行される。 既存の方法は、グローバルな局所集中度スコアをモデルに追加するなど、小さなモデルにタスク指定の最適化を追加しようとする。 本稿では,役割指向のダイアグルージュ要約のための命令微調整モデルBaichuan2-Sumを提案する。 異なる役割に対して異なる命令を設定することで、モデルは対話相互作用から学び、期待される要約を出力することができる。 さらに, NEFTune法を適用し, トレーニング中に適切な雑音を付加し, 結果を改善する。 実験により,提案モデルがCSDSとSAMSUMの2つの公開対話要約データセットに対して,新たな最先端結果が得られることを示した。 我々は,対話要約タスクの今後の研究を容易にするため,モデルおよび関連コードをリリースする。

Large language models (LLMs) like Llama, Baichuan and Bloom models show remarkable ability with instruction fine-tuning in many natural language tasks. Nevertheless, for the dialogue summarization task, which aims to generate summaries for different roles in dialogue, most of the state-of-the-art methods conduct on small models (e.g Bart and Bert). Existing methods try to add task specified optimization on small models like adding global-local centrality score to models. In this paper, we propose an instruction fine-tuning model: Baichuan2-Sum, for role-oriented diaglouge summarization. By setting different instructions for different roles, the model can learn from the dialogue interactions and output the expected summaries. Furthermore, we applied NEFTune technique to add suitable noise during training to improve the results. The experiments demonstrate that the proposed model achieves the new state-of-the-art results on two public dialogue summarization datasets: CSDS and SAMSUM. We release our model and related codes to facilitate future studies on dialogue summarization task.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# KVQuant:KVキャッシュ量子化による1000万コンテキストLLM推論を目指して

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization ( http://arxiv.org/abs/2401.18079v3 )

ライセンス: Link先を確認
Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney, Yakun Sophia Shao, Kurt Keutzer, Amir Gholami, (参考訳) LLMは、大きなコンテキストウインドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増加しており、これらの大きなコンテキストウインドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な原因となっている。 量子化はKVキャッシュのアクティベーションを圧縮するための有望なアプローチであるが、既存のソリューションは、サブ-4ビットのような超低精度でアクティベーションを正確に表現することができない。 本稿では、キャッシュされたKVアクティベーションを定量化する新しい手法を取り入れて、この問題に対処するKVQuantについて述べる。 i) チャネルごとの鍵量子化。ここでは、キーアクティベーションを量子化し、分布をよりよく一致させる寸法を調整する。 二 回転位置埋め込みの前のキーアクティベーションを定量化し、その量子化への影響を緩和する前回転鍵量子化 三 非均一KVキャッシュの量子化で、各層ごとの感度重み付き非均一なデータ型を導出し、その分布をよりよく表す。 四) ベクトル単位の Dense-and-Sparse Quantization では、各ベクトルに対して別々に外れ値を分離し、量子化範囲のスキューを最小化する。 (v)Q-Normでは、分散シフトを緩和するために量子化セントロイドを正規化し、2ビット量子化のさらなる利点を提供する。 提案手法をLLaMA, LLaMA-2, Mistralモデルに適用することにより, Wikitext-2およびC4の3ビット量子化による<0.1$パープレキシティ劣化を実現し, 既存手法よりも優れた性能を発揮する。 提案手法は,A100-80GBのGPUで最大100万,8GPUで最大1000万のコンテキスト長を持つLLaMA-7Bモデルを実現する。

LLMs are seeing growing use for applications such as document analysis and summarization which require large context windows, and with these large context windows KV cache activations surface as the dominant contributor to memory consumption during inference. Quantization is a promising approach for compressing KV cache activations; however, existing solutions fail to represent activations accurately in ultra-low precisions, such as sub-4-bit. In this work, we present KVQuant, which addresses this problem by incorporating novel methods for quantizing cached KV activations, including: (i) Per-Channel Key Quantization, where we adjust the dimension along which we quantize the Key activations to better match the distribution; (ii) Pre-RoPE Key Quantization, where we quantize Key activations before the rotary positional embedding to mitigate its impact on quantization; (iii) Non-Uniform KV Cache Quantization, where we derive per-layer sensitivity-weighted non-uniform datatypes that better represent the distributions; (iv) Per-Vector Dense-and-Sparse Quantization, where we isolate outliers separately for each vector to minimize skews in quantization ranges; and (v) Q-Norm, where we normalize quantization centroids in order to mitigate distribution shift, providing additional benefits for 2-bit quantization. By applying our method to the LLaMA, LLaMA-2, and Mistral models, we achieve $<0.1$ perplexity degradation with 3-bit quantization on both Wikitext-2 and C4, outperforming existing approaches. Our method enables serving the LLaMA-7B model with a context length of up to 1 million on a single A100-80GB GPU and up to 10 million on an 8-GPU system.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# 2次元重力における閉宇宙

Closed universes in two dimensional gravity ( http://arxiv.org/abs/2402.00098v2 )

ライセンス: Link先を確認
Mykhaylo Usatyuk, Zi-Yue Wang, Ying Zhao, (参考訳) 我々は、物質に結合したジャッキー・タイテルボイム(JT)重力のような2次元重力の単純なモデルと、前者の重要な特徴を捉えるおもちゃのトポロジーモデルで閉じた宇宙を研究する。 我々は、この理論の摂動的側面と非摂動的側面の間には、強いコントラストといくつかの関係があることを発見した。 私たちはリッチな半古典物理学を見つける。 しかし、摂動効果を含まない場合、それぞれの理論には一意に閉じた宇宙状態が存在する。 我々はこの観察の可能な意味と解釈について議論する。

We study closed universes in simple models of two dimensional gravity, such as Jackiw-Teiteilboim (JT) gravity coupled to matter, and a toy topological model that captures the key features of the former. We find there is a stark contrast, as well as some connections, between the perturbative and non-perturbative aspects of the theory. We find rich semi-classical physics. However, when non-perturbative effects are included there is a unique closed universe state in each theory. We discuss possible meanings and interpretations of this observation.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# 多体トンクの高忠実度制御-ジラルドーガスの有効平均場アプローチ

High fidelity control of a many-body Tonks--Girardeau gas with an effective mean-field approach ( http://arxiv.org/abs/2402.00349v4 )

ライセンス: Link先を確認
Muhammad S. Hasan, Thomás Fogarty, Jing Li, Andreas Ruschhaupt, Thomas Busch, (参考訳) STA(Shortcut to adiabaticity)は、高忠実度で量子システムを制御できる強力なツールである。 それらは、正確に記述でき、不変あるいは自己相似力学を持つ単一粒子系や非相互作用系に対して特にうまく機能する。 しかし、強相関多体系に対する正確な STA を見つけることは困難であり、特に自己相似解を持たない大規模系では、それらの複雑な力学は簡単に説明できない。 ここでは、STAをトンクス-ジラルドー極限の1次元ボソニックガスに設計し、Schr\\odinger方程式のクインティック非線形項を通して強相互作用効果を簡潔に捉える平均場アプローチを用いる。 時間依存トラップ周波数を持つ高調波発振器の場合、平均場アプローチは正確に動作し、文献からよく知られたSTAを復元する。 提案手法のロバスト性を強調するために,非調和ポテンシャルに対して効果的に作用し,他の一般的な制御手法よりも高い忠実性を達成することを示す。

Shortcuts to adiabaticity (STA) are powerful tools that can be used to control quantum systems with high fidelity. They work particularly well for single particle and non-interacting systems which can be described exactly and which possess invariant or self-similar dynamics. However, finding an exact STA for strongly correlated many-body systems can be difficult, as their complex dynamics may not be easily described, especially for larger systems that do not possess self-similar solutions. Here, we design STAs for one-dimensional bosonic gas in the Tonks--Girardeau limit by using a mean-field approach that succinctly captures the strong interaction effects through a quintic nonlinear term in the Schr\"odinger equation. We show that for the case of the harmonic oscillator with a time-dependent trap frequency the mean-field approach works exactly and recovers the well-known STA from literature. To highlight the robustness of our approach we also show that it works effectively for anharmonic potentials, achieving higher fidelities than other typical control techniques.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# Parametric-Task MAP-Elites

Parametric-Task MAP-Elites ( http://arxiv.org/abs/2402.01275v2 )

ライセンス: Link先を確認
Timothée Anne, Jean-Baptiste Mouret, (参考訳) 類似性を利用して関数の集合を同時に最適化することは、マルチタスク最適化(multi-task optimization)と呼ばれる。 現在のブラックボックスマルチタスクアルゴリズムは、タスクが連続空間から派生した場合でも、有限のタスクのみを解く。 本稿では,連続マルチタスク最適化問題に対する新しいブラックボックスアルゴリズムであるParametric-Task MAP-Elites (PT-ME)を提案する。 本アルゴリズムは,(1)連続空間を効果的にカバーし,(2)局所線形回帰に基づく新しい変分演算子を利用する。 結果として得られるソリューションのデータセットは、任意のタスクパラメータを最適なソリューションにマッピングする関数を作成することができる。 PT-ME は2つのパラメトリックタスクの玩具問題に対する深層強化学習アルゴリズム PPO やシミュレーションにおけるロボット問題など,すべてのベースラインより優れていることを示す。

Optimizing a set of functions simultaneously by leveraging their similarity is called multi-task optimization. Current black-box multi-task algorithms only solve a finite set of tasks, even when the tasks originate from a continuous space. In this paper, we introduce Parametric-Task MAP-Elites (PT-ME), a new black-box algorithm for continuous multi-task optimization problems. This algorithm (1) solves a new task at each iteration, effectively covering the continuous space, and (2) exploits a new variation operator based on local linear regression. The resulting dataset of solutions makes it possible to create a function that maps any task parameter to its optimal solution. We show that PT-ME outperforms all baselines, including the deep reinforcement learning algorithm PPO on two parametric-task toy problems and a robotic problem in simulation.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# エッジコンテンツ配信のための学習型キャッシュ機構

A Learning-Based Caching Mechanism for Edge Content Delivery ( http://arxiv.org/abs/2402.02795v2 )

ライセンス: Link先を確認
Hoda Torabi, Hamzeh Khazaei, Marin Litoiu, (参考訳) 5Gネットワークの出現とIoT(Internet of Things)の台頭により、Content Delivery Networks(CDNs)はますますネットワークエッジに拡張されている。 このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。 これらのエッジ環境は、さまざまなオブジェクトサイズ分布とオブジェクトアクセスパターンによって特徴づけられるトラフィッククラスをホストすることができる。 このような複雑さにより、要求頻度や時間間隔といったメトリクスに依存する従来のキャッシュ戦略が効果的になるのが難しくなる。 これらの複雑さにもかかわらず、エッジキャッシュの最適化は不可欠である。 エッジでのバイトヒット率の改善は、ネットワークバックボーンの負荷を軽減するだけでなく、運用コストを最小化し、エンドユーザへのコンテンツ配信を迅速化する。 本稿では,ハザードレート(HR)順序付けの原則に基づく総合的な学習ベースのキャッシュフレームワークであるHR-Cacheを紹介する。 HR-Cacheはこのルールを利用して、将来のオブジェクトの排除決定を導く。 HRの順序付けに基づくキャッシュ決定から学習するために、軽量な機械学習モデルを採用し、その後、受信するリクエストの"キャッシュフレンドリ"を予測する。 cache-averse"と見なされるオブジェクトは、消去の優先候補としてキャッシュに置かれる。 大規模な実験を通じて、HR-Cacheは既存の最先端手法と比較して一貫してバイトヒット率を向上するだけでなく、予測オーバーヘッドを最小限に抑えてこれを達成できることを示した。 実世界の3つのトレースと1つの合成トレースを用いた実験の結果、HR-CacheはLRUよりも2.2-14.6%大きなWANトラフィックを継続的に達成していることが示された。 ヒューリスティックなキャッシュ戦略だけでなく、最先端の学習ベースのアルゴリズムよりも優れています。

With the advent of 5G networks and the rise of the Internet of Things (IoT), Content Delivery Networks (CDNs) are increasingly extending into the network edge. This shift introduces unique challenges, particularly due to the limited cache storage and the diverse request patterns at the edge. These edge environments can host traffic classes characterized by varied object-size distributions and object-access patterns. Such complexity makes it difficult for traditional caching strategies, which often rely on metrics like request frequency or time intervals, to be effective. Despite these complexities, the optimization of edge caching is crucial. Improved byte hit rates at the edge not only alleviate the load on the network backbone but also minimize operational costs and expedite content delivery to end-users. In this paper, we introduce HR-Cache, a comprehensive learning-based caching framework grounded in the principles of Hazard Rate (HR) ordering, a rule originally formulated to compute an upper bound on cache performance. HR-Cache leverages this rule to guide future object eviction decisions. It employs a lightweight machine learning model to learn from caching decisions made based on HR ordering, subsequently predicting the "cache-friendliness" of incoming requests. Objects deemed "cache-averse" are placed into cache as priority candidates for eviction. Through extensive experimentation, we demonstrate that HR-Cache not only consistently enhances byte hit rates compared to existing state-of-the-art methods but also achieves this with minimal prediction overhead. Our experimental results, using three real-world traces and one synthetic trace, indicate that HR-Cache consistently achieves 2.2-14.6% greater WAN traffic savings than LRU. It outperforms not only heuristic caching strategies but also the state-of-the-art learning-based algorithm.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# 半古典的ユークリッド重力に対する新しい境界条件

New Well-Posed Boundary Conditions for Semi-Classical Euclidean Gravity ( http://arxiv.org/abs/2402.04308v2 )

ライセンス: Link先を確認
Xiaoyi Liu, Jorge E. Santos, Toby Wiseman, (参考訳) 有限空洞における4次元ユークリッド重力を考える。 ディリクレ条件は十分に仮定された楕円系を生じさせず、アンダーソンは境界条件を提案する。 ここでは、1パラメータの境界条件族が存在し、定数$p$でパラメータ化され、適切なワイル再スケール境界計量が固定され、すべてよく表される楕円系を与える。 アンダーソンとディリクレの境界条件は、これらの極限$p \to 0$と$\infty$と見ることができる。 静的ユークリッド解に焦点をあてて、熱力学第一法則を導出する。 球面空間境界に制限された充填は平坦な空間あるいはシュワルツシルト解であり、ディリクレの場合と同様の熱力学を持つ。 平坦空間のサドルに関する滑らかなユークリッドのゆらぎを考える:$p > 1/6$ に対して、リヒネロヴィチ作用素のスペクトルは安定であり、その固有値は正の実部分を持つ。 したがって、大きな$p$ を不備なディリクレ境界条件の正則化と見なすことができる。 しかし、$p < 1/6$ の場合、球対称セクターや静的セクターでも不安定なモードが存在する。 するとローレンツの署名に目を向ける。 p < 1/6$ に対して、この球面ユークリッド不安定性は境界自体の力学に付随するローレンツ不安定性と対になるものとして理解することができる。 しかし、球対称を破る摂動を考えると謎が現れる。 ここでは、$p > 1/6$ であっても、動的に不安定なモードが多数存在し、ユークリッド安定性とは対照的である。 したがって、安定な熱力学を持つ系のように見えるが、不安定な力学はユークリッド理論について議論する際に実装された滑らかさの標準仮定に疑問を呈する。

We consider four-dimensional Euclidean gravity in a finite cavity. Dirichlet conditions do not yield a well-posed elliptic system, and Anderson has suggested boundary conditions that do. Here we point out that there exists a one-parameter family of boundary conditions, parameterized by a constant $p$, where a suitably Weyl rescaled boundary metric is fixed, and all give a well-posed elliptic system. Anderson and Dirichlet boundary conditions can be seen as the limits $p \to 0$ and $\infty$ of these. Focussing on static Euclidean solutions, we derive a thermodynamic first law. Restricting to a spherical spatial boundary, the infillings are flat space or the Schwarzschild solution, and have similar thermodynamics to the Dirichlet case. We consider smooth Euclidean fluctuations about the flat space saddle; for $p > 1/6$ the spectrum of the Lichnerowicz operator is stable -- its eigenvalues have positive real part. Thus we may regard large $p$ as a regularization of the ill-posed Dirichlet boundary conditions. However for $p < 1/6$ there are unstable modes, even in the spherically symmetric and static sector. We then turn to Lorentzian signature. For $p < 1/6$ we may understand this spherical Euclidean instability as being paired with a Lorentzian instability associated with the dynamics of the boundary itself. However, a mystery emerges when we consider perturbations that break spherical symmetry. Here we find a plethora of dynamically unstable modes even for $p > 1/6$, contrasting starkly with the Euclidean stability we found. Thus we seemingly obtain a system with stable thermodynamics, but unstable dynamics, calling into question the standard assumption of smoothness that we have implemented when discussing the Euclidean theory.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# スタンディ・フィンガース:衛星フィンガープリントによるジャミング攻撃に対する抵抗性

Sticky Fingers: Resilience of Satellite Fingerprinting against Jamming Attacks ( http://arxiv.org/abs/2402.05042v2 )

ライセンス: Link先を確認
Joshua Smailes, Edd Salkield, Sebastian Köhler, Simon Birnbach, Martin Strohmeier, Ivan Martinovic, (参考訳) 無線通信システムに対する攻撃の増加に伴い、これらのシステムのセキュリティを高めるために様々な技術が展開されている。 このような手法の1つは無線フィンガープリンティングであり、信号で表現された小さなハードウェア差を観察することで送信機を識別し認証することができる。 フィンガープリンティングは特に衛星システムの防衛において研究されており、その多くが安全ではないため暗号セキュリティに適合できない。 本稿では,通常サービス拒否を意図した干渉・妨害攻撃における無線指紋認証の有効性を評価する。 学習済み指紋モデルを用いて、正規信号に異なるレベルのガウスノイズとトーンジャミングを加えた新たなデータセットを収集することにより、送信機指紋を破壊するために要する攻撃力を評価する。 我々はこれを信号のデータ部分のガウスジャミングと比較し、中程度のノイズが存在する場合でも、送信機指紋が認識可能であるという顕著な結果を得る。 結果のより深い分析により、メッセージの内容そのものを妨害するためには、指紋を妨害するためには、同様のジャミングパワーが必要であると結論付け、デニアル・オブ・サービス攻撃を容易にするためにシステムを開くことなく、衛星通信を認証する指紋認証システムを含むことは安全である。

In the wake of increasing numbers of attacks on radio communication systems, a range of techniques are being deployed to increase the security of these systems. One such technique is radio fingerprinting, in which the transmitter can be identified and authenticated by observing small hardware differences expressed in the signal. Fingerprinting has been explored in particular in the defense of satellite systems, many of which are insecure and cannot be retrofitted with cryptographic security. In this paper, we evaluate the effectiveness of radio fingerprinting techniques under interference and jamming attacks, usually intended to deny service. By taking a pre-trained fingerprinting model and gathering a new dataset in which different levels of Gaussian noise and tone jamming have been added to the legitimate signal, we assess the attacker power required in order to disrupt the transmitter fingerprint such that it can no longer be recognized. We compare this to Gaussian jamming on the data portion of the signal, obtaining the remarkable result that transmitter fingerprints are still recognizable even in the presence of moderate levels of noise. Through deeper analysis of the results, we conclude that it takes a similar amount of jamming power in order to disrupt the fingerprint as it does to jam the message contents itself, so it is safe to include a fingerprinting system to authenticate satellite communication without opening up the system to easier denial-of-service attacks.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# 改良KL PAC-Bayes境界

Better-than-KL PAC-Bayes Bounds ( http://arxiv.org/abs/2402.09201v2 )

ライセンス: Link先を確認
Ilja Kuzborskij, Kwang-Sung Jun, Yulian Wu, Kyoungseok Jang, Francesco Orabona, (参考訳) 例えば、$f(\theta, X_1),$ $ \dots,$ $ f(\theta, X_n)$ をランダム要素の列とし、$f$ を固定スカラー関数、$X_1, \dots, X_n$ を独立確率変数(データ)、$\theta$ をデータ依存後続分布 $P_n$ に従って分布するランダムパラメータとする。 本稿では,シーケンスの平均値を推定するために,集中度不等式を示す問題について考察する。 そのような問題の例として、f$が損失関数であるニューラルネットワークのような確率的アルゴリズムで訓練された予測器の一般化誤差の推定がある。 古典的には、この問題はPAC-Bayes分析を通じてアプローチされ、後部に加えて、学習問題の帰納バイアスについての信念を捉えた事前分布を選択する。 次に、PAC-Bayes濃度境界の鍵量は、事実上の標準選択がKL分散である学習問題の複雑さを捉える分岐である。 しかし、この選択の厳しさが疑問視されることはめったにない。 本稿では,KL-発散境界の厳密性に挑戦し,より厳密な境界を達成可能であることを示す。 特に,Zhang et al (2022)にインスパイアされた,新しい高確率PAC-Bayes境界と,より優れたKL分岐を実証する。 我々の証明は、ギャンブルアルゴリズムの後悔分析の最近の進歩と、その濃度不等式の導出に触発されたものである。 我々の結果は、既存のPAC-Bayes境界と非KL分岐は、KLよりも厳密に優れていることが分かっていないという点において、第一種である。 したがって、我々の研究は、PAC-Bayes境界の最適率を特定するための第一歩だと信じている。

Let $f(\theta, X_1),$ $ \dots,$ $ f(\theta, X_n)$ be a sequence of random elements, where $f$ is a fixed scalar function, $X_1, \dots, X_n$ are independent random variables (data), and $\theta$ is a random parameter distributed according to some data-dependent posterior distribution $P_n$. In this paper, we consider the problem of proving concentration inequalities to estimate the mean of the sequence. An example of such a problem is the estimation of the generalization error of some predictor trained by a stochastic algorithm, such as a neural network where $f$ is a loss function. Classically, this problem is approached through a PAC-Bayes analysis where, in addition to the posterior, we choose a prior distribution which captures our belief about the inductive bias of the learning problem. Then, the key quantity in PAC-Bayes concentration bounds is a divergence that captures the complexity of the learning problem where the de facto standard choice is the KL divergence. However, the tightness of this choice has rarely been questioned. In this paper, we challenge the tightness of the KL-divergence-based bounds by showing that it is possible to achieve a strictly tighter bound. In particular, we demonstrate new high-probability PAC-Bayes bounds with a novel and better-than-KL divergence that is inspired by Zhang et al. (2022). Our proof is inspired by recent advances in regret analysis of gambling algorithms, and its use to derive concentration inequalities. Our result is first-of-its-kind in that existing PAC-Bayes bounds with non-KL divergences are not known to be strictly better than KL. Thus, we believe our work marks the first step towards identifying optimal rates of PAC-Bayes bounds.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# SpikeNAS: ニューラルネットワークベースの自律エージェントをスパイクするための高速メモリ対応ニューラルネットワーク検索フレームワーク

SpikeNAS: A Fast Memory-Aware Neural Architecture Search Framework for Spiking Neural Network-based Autonomous Agents ( http://arxiv.org/abs/2402.11322v2 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique, (参考訳) 自律型移動エージェント(UAV、UGVなど)は、通常、ポータブルバッテリーによって駆動されるため、機械学習タスク(オブジェクト認識など)を解決するために低電力/エネルギー消費が期待されている。 これらの要求は、バイオインスパイアされたスパイクベースの操作が高精度で超低消費電力/エネルギー計算を提供するため、スパイクニューラルネットワーク(SNN)によって満たされる。 現在、ほとんどのSNNアーキテクチャは、ニューロンのアーキテクチャと操作がSNNとは異なる人工ニューラルネットワークから派生しており、自律移動エージェントの基盤となる処理ハードウェアからメモリ予算を考慮せずに開発されている。 これらの制限により、SNNは正確性と効率性において大きな可能性を秘めている。 そこで本研究では,SNNのための新しい高速メモリ対応ニューラルアーキテクチャ探索(NAS)フレームワークであるSpikeNASを提案する。 これを実現するために、私たちのSpikeNASでは、ネットワーク操作が正確性に与える影響を分析し、学習品質を改善するためにネットワークアーキテクチャを強化し、高速なメモリ認識検索アルゴリズムを開発しました。 実験結果から,我々のSpikeNASは検索時間を向上し,メモリ予算を満たしながら最先端と比較して高い精度を維持する(例えば,Nvidia RTX 6000 Ada GPUマシンを用いて,CIFAR100の1.3%の精度向上を図った4.4倍高速探索)。

Autonomous mobile agents (e.g., UAVs and UGVs) are typically expected to incur low power/energy consumption for solving machine learning tasks (such as object recognition), as these mobile agents are usually powered by portable batteries. These requirements can be fulfilled by Spiking Neural Networks (SNNs), since their bio-inspired spike-based operations offer high accuracy and ultra low-power/energy computation. Currently, most of the SNN architectures are derived from Artificial Neural Networks whose neurons' architectures and operations are different from SNNs, or developed without considering memory budgets from the underlying processing hardware of autonomous mobile agents. These limitations hinder SNNs from reaching their full potential in accuracy and efficiency. Toward this, we propose SpikeNAS, a novel fast memory-aware neural architecture search (NAS) framework for SNNs that quickly finds an appropriate SNN architecture with high accuracy under the given memory budgets from autonomous mobile agents. To do this, our SpikeNAS employs several key steps: analyzing the impacts of network operations on the accuracy, enhancing the network architecture to improve the learning quality, and developing a fast memory-aware search algorithm. The experimental results show that our SpikeNAS improves the searching time and maintains high accuracy as compared to state-of-the-art while meeting the given memory budgets (e.g., 4.4x faster search with 1.3% accuracy improvement for CIFAR100, using an Nvidia RTX 6000 Ada GPU machine), thereby quickly providing the appropriate SNN architecture for the memory-constrained autonomous mobile agents.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# 生成的半教師付きグラフ異常検出

Generative Semi-supervised Graph Anomaly Detection ( http://arxiv.org/abs/2402.11887v3 )

ライセンス: Link先を確認
Hezhe Qiao, Qingsong Wen, Xiaoli Li, Ee-Peng Lim, Guansong Pang, (参考訳) この研究は、グラフ内のノードの一部が正規であることが知られている実用的な半教師付きグラフ異常検出(GAD)シナリオを考察し、完全にラベル付けされていないグラフを持つほとんどのGAD研究において、教師なしの設定とは対照的である。 期待されたように、これらの通常のノードへのアクセスは、半教師付き設定に適応した場合に、既存の教師なしGADメソッドの検出性能を高めるのに役立つ。 しかし、これらの通常のノードの利用は限られている。 本稿では,通常のノードをよりよく活用するための,半教師付きシナリオのための新しいGAD手法を提案する。 鍵となるアイデアは、局所構造とノード表現の両方で異常ノードを同化する外れ値ノードを生成し、識別可能な一級分類器を訓練する際に効果的な負のノードサンプルを提供することである。 生成異常検出手法は数多く存在するが,非グラフデータ用に設計されており,その結果,グラフ構造情報の考慮に失敗した。 提案手法では,正規ノードから非対称親和性を持つグラフ構造を意識した外乱ノードを生成するとともに,ノード表現空間における正規ノードへの自我中心的近接性を達成し,この問題に対処する。 4つの実世界のデータセットに関する総合的な実験を行い、半教師付きGADのベンチマークを確立し、GGADが訓練正常ノード数の異なる最先端の非教師付きおよび半教師付きGADメソッドを大幅に上回っていることを示す。 コードはhttps://github.com/mala-lab/GGAD.comで公開される。

This work considers a practical semi-supervised graph anomaly detection (GAD) scenario, where part of the nodes in a graph are known to be normal, contrasting to the unsupervised setting in most GAD studies with a fully unlabeled graph. As expected, we find that having access to these normal nodes helps enhance the detection performance of existing unsupervised GAD methods when they are adapted to the semi-supervised setting. However, their utilization of these normal nodes is limited. In this paper, we propose a novel Generative GAD approach (GGAD) for the semi-supervised scenario to better exploit the normal nodes. The key idea is to generate outlier nodes that assimilate anomaly nodes in both local structure and node representations for providing effective negative node samples in training a discriminative one-class classifier. There have been many generative anomaly detection approaches, but they are designed for non-graph data, and as a result, they fail to take account of the graph structure information. Our approach tackles this problem by generating graph structure-aware outlier nodes that have asymmetric affinity separability from normal nodes while being enforced to achieve egocentric closeness to normal nodes in the node representation space. Comprehensive experiments on four real-world datasets are performed to establish a benchmark for semi-supervised GAD and show that GGAD substantially outperforms state-of-the-art unsupervised and semi-supervised GAD methods with varying numbers of training normal nodes. Code will be made available at https://github.com/mala-lab/GGAD.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# ダブル機械学習を用いた因果ハイブリッドモデリング

Causal hybrid modeling with double machine learning ( http://arxiv.org/abs/2402.13332v2 )

ライセンス: Link先を確認
Kai-Hendrik Cohrs, Gherardo Varando, Nuno Carvalhais, Markus Reichstein, Gustau Camps-Valls, (参考訳) ハイブリッドモデリングは、機械学習と科学的知識を統合し、解釈可能性、一般化、自然法則の遵守を強化する。 それでも、等質性と正規化バイアスは、これらの目的を達成するためにハイブリッドモデリングにおいて課題を提起する。 本稿では、因果関係を推定するためにDouble Machine Learning (DML) を用いる因果関係推論フレームワークを用いてハイブリッドモデルを推定する新しい手法を提案する。 我々は、二酸化炭素のフラックスに関連する2つの問題について、地球科学におけるその使用例を示す。 Q_{10}$モデルでは、DMLに基づくハイブリッドモデリングが、エンドツーエンドのディープニューラルネットワーク(DNN)アプローチよりも因果パラメータを推定し、効率性の証明、正規化手法からのバイアスへの堅牢性、等性回避に優れていることを示した。 本手法は, 炭素フラックスの分配に応用され, 不均一因果効果の調節に柔軟性を示す。 この研究は、因果グラフと関係を明確に定義することの必要性を強調し、これを一般的なベストプラクティスとして主張する。 我々は、知識誘導機械学習において、より解釈可能で信頼性の高い結果を得るために、ハイブリッドモデルにおける因果関係の継続的な探索を奨励する。

Hybrid modeling integrates machine learning with scientific knowledge to enhance interpretability, generalization, and adherence to natural laws. Nevertheless, equifinality and regularization biases pose challenges in hybrid modeling to achieve these purposes. This paper introduces a novel approach to estimating hybrid models via a causal inference framework, specifically employing Double Machine Learning (DML) to estimate causal effects. We showcase its use for the Earth sciences on two problems related to carbon dioxide fluxes. In the $Q_{10}$ model, we demonstrate that DML-based hybrid modeling is superior in estimating causal parameters over end-to-end deep neural network (DNN) approaches, proving efficiency, robustness to bias from regularization methods, and circumventing equifinality. Our approach, applied to carbon flux partitioning, exhibits flexibility in accommodating heterogeneous causal effects. The study emphasizes the necessity of explicitly defining causal graphs and relationships, advocating for this as a general best practice. We encourage the continued exploration of causality in hybrid models for more interpretable and trustworthy results in knowledge-guided machine learning.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-04
# TikTokがResearch APIで学んだこと

What we can learn from TikTok through its Research API ( http://arxiv.org/abs/2402.13855v2 )

ライセンス: Link先を確認
Francesco Corso, Francesco Pierri, Gianmarco De Francisci Morales, (参考訳) TikTokはソーシャルメディアプラットフォームで、近年、特に若年層で人気が高まっている。 最近リリースされた無料のResearch APIは、投稿されたビデオ、関連コメント、ユーザーアクティビティのデータを集めるための扉を開く。 本研究は,TikTokビデオのランダムなサンプルを6年間にわたって収集し,分析することにより,Research APIが返した結果の信頼性を評価することに焦点を当てた。 本研究は, ビデオの地理的分布と, バイラル・コンスピラリアル・ハッシュタグのグローバルな普及に注意を払って, プラットフォームの研究をめざして, 今後の研究に役立てるものである。

TikTok is a social media platform that has gained immense popularity over the last few years, particularly among younger demographics, due to the viral trends and challenges shared worldwide. The recent release of a free Research API opens the door to collecting data on posted videos, associated comments, and user activities. Our study focuses on evaluating the reliability of the results returned by the Research API, by collecting and analyzing a random sample of TikTok videos posted in a span of 6 years. Our preliminary results are instrumental for future research that aims to study the platform, highlighting caveats on the geographical distribution of videos and on the global prevalence of viral and conspiratorial hashtags.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# 建設廃棄物運搬トラックのGPSデータを用いた土木関連箇所の分類:Chengduケーススタディ

Using construction waste hauling trucks' GPS data to classify earthwork-related locations: A Chengdu case study ( http://arxiv.org/abs/2402.14698v3 )

ライセンス: Link先を確認
Lei Yu, Ke Han, (参考訳) 建設現場、埋立処分場、コンクリートミキシングステーションなど、アースワーク関連の場所(ERL)は、都市ごみ汚染の主な原因である(粒子状物質)。 ERLの効果的な管理は不可欠であり、市内のこれらの場所をタイムリーかつ効率的に追跡する必要がある。 本研究の目的は,16,000台以上の建設廃棄物運搬トラック(CWHT)のGPSトラジェクトリデータと,地理的,土地被覆,POI,輸送次元を含む58の都市特性を用いて都市ERLを識別・分類することである。 いくつかの機械学習モデルを比較し,中国成都市における実世界データを用いた分類性能に及ぼす時空間的特徴の影響を検討した。 その結果、77.8%の分類精度が限られた特徴で達成できることが示されている。 この分類は、2023年12月にチェンドゥのAlpha MAPSシステムで実施され、724の建設現場、48のコンクリートミキシングステーション、80のトラック駐車場所の特定に成功した。

Earthwork-related locations (ERLs), such as construction sites, earth dumping ground, and concrete mixing stations, are major sources of urban dust pollution (particulate matters). The effective management of ERLs is crucial and requires timely and efficient tracking of these locations throughout the city. This work aims to identify and classify urban ERLs using GPS trajectory data of over 16,000 construction waste hauling trucks (CWHTs), as well as 58 urban features encompassing geographic, land cover, POI and transport dimensions. We compare several machine learning models and examine the impact of various spatial-temporal features on classification performance using real-world data in Chengdu, China. The results demonstrate that 77.8% classification accuracy can be achieved with a limited number of features. This classification framework was implemented in the Alpha MAPS system in Chengdu, which has successfully identified 724 construction cites/earth dumping ground, 48 concrete mixing stations, and 80 truck parking locations in the city during December 2023, which has enabled local authority to effectively manage urban dust pollution at low personnel costs.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# 線としてのカメラ: 線拡散による空間推定

Cameras as Rays: Pose Estimation via Ray Diffusion ( http://arxiv.org/abs/2402.14817v3 )

ライセンス: Link先を確認
Jason Y. Zhang, Amy Lin, Moneish Kumar, Tzu-Hsuan Yang, Deva Ramanan, Shubham Tulsiani, (参考訳) カメラポーズの推定は3次元再構成の基本的な課題であり, まばらなサンプル画像(10。 カメラ外部のグローバルなパラメトリゼーションをトップダウンで予測する既存のアプローチとは対照的に,カメラを光束として扱うカメラポーズの分散表現を提案する。 この表現は、ポーズ精度を向上させる空間像特徴との密結合を可能にする。 この表現は、設定レベル変換器に自然に適しており、画像パッチを対応する光線にマッピングする回帰ベースのアプローチを開発する。 スパース・ビュー・ポーズ推論における不確かさを捉えるため,本手法を適応し,可視モードのサンプリングを可能とし,性能の向上を図る。 提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を実証し,未確認対象のカテゴリや被写体キャプチャに一般化した。

Estimating camera poses is a fundamental task for 3D reconstruction and remains challenging given sparsely sampled views (<10). In contrast to existing approaches that pursue top-down prediction of global parametrizations of camera extrinsics, we propose a distributed representation of camera pose that treats a camera as a bundle of rays. This representation allows for a tight coupling with spatial image features improving pose precision. We observe that this representation is naturally suited for set-level transformers and develop a regression-based approach that maps image patches to corresponding rays. To capture the inherent uncertainties in sparse-view pose inference, we adapt this approach to learn a denoising diffusion model which allows us to sample plausible modes while improving performance. Our proposed methods, both regression- and diffusion-based, demonstrate state-of-the-art performance on camera pose estimation on CO3D while generalizing to unseen object categories and in-the-wild captures.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# APIが十分:ロジットアクセシブのない大規模言語モデルのコンフォーマルな予測

API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access ( http://arxiv.org/abs/2403.01216v2 )

ライセンス: Link先を確認
Jiayuan Su, Jing Luo, Hongwei Wang, Lu Cheng, (参考訳) 本研究では,ロジットアクセスを伴わない大規模言語モデル(LLM)における不確実性を定量化する,広範囲にわたる課題に対処することを目的とする。 Conformal Prediction (CP) は、そのモデルに依存しない分布のない特徴で知られており、様々なLSMやデータ分布に対して望ましいアプローチである。 しかし、既存のLCMのCPメソッドは一般的に、APIのみのLCMでは利用できないロジットへのアクセスを前提としている。 さらに、ロジットの誤校正が知られており、CP性能の低下につながる可能性がある。 これらの課題に対処するために,(1)ロジットアクセスのないAPIのみのLCMに適したCP手法,(2)予測セットのサイズを最小化すること,(3)ユーザ定義カバレッジの統計的保証を確保することを提案する。 このアプローチの中核となる考え方は、粗粒度(サンプル周波数)と細粒度不確実性(セマンティック類似性など)の両方を用いて非整合測度を定式化することである。 クローズドとオープンエンドの両方の質問応答タスクの実験結果から,我々のアプローチはロジットベースのCPベースラインよりも優れていることがわかった。

This study aims to address the pervasive challenge of quantifying uncertainty in large language models (LLMs) without logit-access. Conformal Prediction (CP), known for its model-agnostic and distribution-free features, is a desired approach for various LLMs and data distributions. However, existing CP methods for LLMs typically assume access to the logits, which are unavailable for some API-only LLMs. In addition, logits are known to be miscalibrated, potentially leading to degraded CP performance. To tackle these challenges, we introduce a novel CP method that (1) is tailored for API-only LLMs without logit-access; (2) minimizes the size of prediction sets; and (3) ensures a statistical guarantee of the user-defined coverage. The core idea of this approach is to formulate nonconformity measures using both coarse-grained (i.e., sample frequency) and fine-grained uncertainty notions (e.g., semantic similarity). Experimental results on both close-ended and open-ended Question Answering tasks show our approach can mostly outperform the logit-based CP baselines.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# APISR:アニメ制作にインスパイアされた現実世界のアニメのスーパーリゾリューション

APISR: Anime Production Inspired Real-World Anime Super-Resolution ( http://arxiv.org/abs/2403.01598v2 )

ライセンス: Link先を確認
Boyang Wang, Fengyu Yang, Xihang Yu, Chao Zhang, Hanbin Zhao, (参考訳) リアル・ワールド・アニメ・スーパーレゾリューション (SR) は、SRコミュニティで注目されているが、既存の手法は依然としてフォトリアリスティック・ドメインの技法を取り入れている。 本稿では,アニメ制作のワークフローを分析し,その特徴を現実のアニメSRのために活用する方法を再考する。 まず,手書きフレームの繰り返し使用により,映像ネットワークやデータセットはアニメSRでは不要である。 代わりに,ビデオソースから最も圧縮され,最も情報に富んだフレームを選択することにより,アニメ画像収集パイプラインを提案する。 このパイプラインに基づいて,Anime Production-oriented Image (API)データセットを紹介する。 さらに,手描き線を歪ませるアニメ特有の課題と,不要なカラーアーティファクトの2つを同定した。 画像劣化モデルに予測指向圧縮モジュールを導入し,手書き線を拡張した擬似地下真実作成を行うことで,最初の課題に対処する。 さらに,アニメとフォトリアリスティックな高レベルの特徴を組み合わせたバランスの取れた双対の知覚損失を導入し,不要なカラーアーティファクトを緩和し,視覚的明瞭度を高める。 提案手法は,公開ベンチマークによる広範囲な実験により評価され,最先端のアニメデータセット学習手法よりも優れていた。

While real-world anime super-resolution (SR) has gained increasing attention in the SR community, existing methods still adopt techniques from the photorealistic domain. In this paper, we analyze the anime production workflow and rethink how to use characteristics of it for the sake of the real-world anime SR. First, we argue that video networks and datasets are not necessary for anime SR due to the repetition use of hand-drawing frames. Instead, we propose an anime image collection pipeline by choosing the least compressed and the most informative frames from the video sources. Based on this pipeline, we introduce the Anime Production-oriented Image (API) dataset. In addition, we identify two anime-specific challenges of distorted and faint hand-drawn lines and unwanted color artifacts. We address the first issue by introducing a prediction-oriented compression module in the image degradation model and a pseudo-ground truth preparation with enhanced hand-drawn lines. In addition, we introduce the balanced twin perceptual loss combining both anime and photorealistic high-level features to mitigate unwanted color artifacts and increase visual clarity. We evaluate our method through extensive experiments on the public benchmark, showing our method outperforms state-of-the-art anime dataset-trained approaches.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# 下流生態系保全のための適応型水力管理手法

An Adaptive Hydropower Management Approach for Downstream Ecosystem Preservation ( http://arxiv.org/abs/2403.02821v2 )

ライセンス: Link先を確認
C. Coelho, M. Jing, M. Fernanda P. Costa, L. L. Ferrás, (参考訳) 水力発電所はクリーンで持続可能なエネルギー生産を進める上で重要な役割を担っており、再生可能エネルギー源への世界的移行に大きく貢献している。 しかし、現在水力発電所は再生可能エネルギー源として、また生態系の破壊要因として、肯定的に見なされている。 本研究では,生態系の保護要因として水力発電所の利用の可能性について,適応的な生態放電を用いて概観する。 この視点を提唱するために、ニューラルネットワークを用いて、所望の時間毎に最小の生態的排出値を予測することを提案する。 さらに,従来の制約付き最適化アルゴリズムの確立したアプローチを活かして,シームレスに水力管理ソフトウェアに統合する新しいフレームワークを提案する。 この新しいアプローチは、生態系を気候変動から保護するだけでなく、電力生産の増加にも貢献する。

Hydropower plants play a pivotal role in advancing clean and sustainable energy production, contributing significantly to the global transition towards renewable energy sources. However, hydropower plants are currently perceived both positively as sources of renewable energy and negatively as disruptors of ecosystems. In this work, we highlight the overlooked potential of using hydropower plant as protectors of ecosystems by using adaptive ecological discharges. To advocate for this perspective, we propose using a neural network to predict the minimum ecological discharge value at each desired time. Additionally, we present a novel framework that seamlessly integrates it into hydropower management software, taking advantage of the well-established approach of using traditional constrained optimisation algorithms. This novel approach not only protects the ecosystems from climate change but also contributes to potentially increase the electricity production.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# 時空重畳における量子アルゴリズム

Quantum Algorithms in a Superposition of Spacetimes ( http://arxiv.org/abs/2403.02937v2 )

ライセンス: Link先を確認
Omri Shmueli, (参考訳) 量子コンピュータは私たちの情報処理能力に革命をもたらすと期待されている。 古典から量子コンピューティングへの進歩は、古典から量子物理学への進化の産物である。 自然の疑問は、物理学が将来どんなことを許すのかということだ。 物理学のより高度な理論は、量子コンピューティングを超えて、我々の計算能力を高めることができるのか? 物理学における活発な研究分野は、量子力学(QM)と一般相対性理論(GR)を量子重力の統一理論(QG)に結合しようとするときに形成される説明可能な量子力学の範囲外の理論現象の研究である。 QGは因果構造と事象順序の量子重ね合わせの可能性を示すことが知られている。 量子情報理論の文献では、これはユニタリ進化順序の重ね合わせに翻訳される。 本研究では、QGに基づく自然計算モデルの最初の例を示し、標準量子計算(標準硬度仮定の下で)よりも指数的な高速化を提供する。 我々は、一元的進化順序の重ね合わせを生成できる量子コンピュータのモデルと複雑性の尺度を定義し、そのようなコンピュータが多項式時間で解くことができることを示す: グラフ同型問題(\mathsf{GI}$)とギャップ$O\left(n^{2} \right)$)であるギャップのギャップを持つギャップクローズトベクトル問題(\mathsf{GapCVP}$)である。 これらの問題は、通常の量子コンピュータでは解決が難しいと専門家によって信じられている。 興味深いことに、我々のモデルはオーバーパワーとは思えず、$\mathbf{NP}$ や $\mathbf{SZK}$ のように、コンピュータ科学において難しいと考えられるすべての複雑性クラスを解く明確な方法が見つからなかった。

Quantum computers are expected to revolutionize our ability to process information. The advancement from classical to quantum computing is a product of our advancement from classical to quantum physics -- the more our understanding of the universe grows, so does our ability to use it for computation. A natural question that arises is, what will physics allow in the future? Can more advanced theories of physics increase our computational power, beyond quantum computing? An active field of research in physics studies theoretical phenomena outside the scope of explainable quantum mechanics, that form when attempting to combine Quantum Mechanics (QM) with General Relativity (GR) into a unified theory of Quantum Gravity (QG). QG is known to present the possibility of a quantum superposition of causal structure and event orderings. In the literature of quantum information theory, this translates to a superposition of unitary evolution orders. In this work we show a first example of a natural computational model based on QG, that provides an exponential speedup over standard quantum computation (under standard hardness assumptions). We define a model and complexity measure for a quantum computer that has the ability to generate a superposition of unitary evolution orders, and show that such computer is able to solve in polynomial time two of the fundamental problems in computer science: The Graph Isomorphism Problem ($\mathsf{GI}$) and the Gap Closest Vector Problem ($\mathsf{GapCVP}$), with gap $O\left( n^{2} \right)$. These problems are believed by experts to be hard to solve for a regular quantum computer. Interestingly, our model does not seem overpowered, and we found no obvious way to solve entire complexity classes that are considered hard in computer science, like the classes $\mathbf{NP}$ and $\mathbf{SZK}$.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# 多言語セマンティックマッチングのための汎用的で柔軟な多概念構文解析フレームワーク

A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching ( http://arxiv.org/abs/2403.02975v2 )

ライセンス: Link先を確認
Dong Yao, Asaad Alghamdi, Qingrong Xia, Xiaoye Qu, Xinyu Duan, Zhefeng Wang, Yi Zheng, Baoxing Huai, Peilun Cheng, Zhou Zhao, (参考訳) 文意味マッチングは自然言語処理におけるホットスポットであり、コミュニティの質問応答、検索、チャットボット、レコメンデーションなど、さまざまな重要なシナリオにおいて極めて重要である。 先進モデルのほとんどのモデルは、それらの概念を無視しながら、2つの文間の単語間の意味的関連を直接モデル化するため、DC-Matchはキーワードを意図から切り離し、それらを利用してマッチング性能を最適化する。 DC-Matchは、単純なセマンティックマッチングの手法であるが、文のキーワードを識別する外部のNER技術に大きく依存している。 本論文では,NERモデルに依存するモデルからモデルを解放するために,多言語セマンティックマッチングのためのテキストを多言語概念に一般かつ柔軟に分解することを提案する。 この目的のために、事前訓練された言語モデルに基づいて、 \underline{M}ulti-\underline{C}oncept \underline{P}arsed \underline{S}emantic \underline{M}atching frameworkを考案し、様々な概念を抽出し、それらを分類トークンに注入する。 英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。 さらにアラビアデータセット MQ2Q と XNLI を実験し、低リソース言語におけるMPP-SMの適用性をさらに証明した。

Sentence semantic matching is a research hotspot in natural language processing, which is considerably significant in various key scenarios, such as community question answering, searching, chatbot, and recommendation. Since most of the advanced models directly model the semantic relevance among words between two sentences while neglecting the \textit{keywords} and \textit{intents} concepts of them, DC-Match is proposed to disentangle keywords from intents and utilizes them to optimize the matching performance. Although DC-Match is a simple yet effective method for semantic matching, it highly depends on the external NER techniques to identify the keywords of sentences, which limits the performance of semantic matching for minor languages since satisfactory NER tools are usually hard to obtain. In this paper, we propose to generally and flexibly resolve the text into multi concepts for multilingual semantic matching to liberate the model from the reliance on NER models. To this end, we devise a \underline{M}ulti-\underline{C}oncept \underline{P}arsed \underline{S}emantic \underline{M}atching framework based on the pre-trained language models, abbreviated as \textbf{MCP-SM}, to extract various concepts and infuse them into the classification tokens. We conduct comprehensive experiments on English datasets QQP and MRPC, and Chinese dataset Medical-SM. Besides, we experiment on Arabic datasets MQ2Q and XNLI, the outstanding performance further prove MCP-SM's applicability in low-resource languages.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# ロバスト・フェデレーション・ラーニングはクライアントサイドのトレーニングデータ分散推論攻撃を軽減する

Robust Federated Learning Mitigates Client-side Training Data Distribution Inference Attacks ( http://arxiv.org/abs/2403.03149v2 )

ライセンス: Link先を確認
Yichang Xu, Ming Yin, Minghong Fang, Neil Zhenqiang Gong, (参考訳) 近年の研究では、クライアントがプライベートデータをサーバと共有していないために安全であると考えられていたフェデレートラーニング(FL)が、悪意のあるクライアントが被害者のデータを再現できるクライアント側トレーニングデータ分散推論のような攻撃に弱いことが判明している。 様々な対策が存在するが、それらは実用的ではなく、攻撃前の訓練データやラベルの分布に関する知識にサーバーがアクセスできると仮定することが多い。 本研究では,クライアント側のトレーニングデータ分散推論攻撃に対する防御を目的とした,新しいビザンチン・ロバストアグリゲーションルールであるInferGuardを提案することにより,ギャップを埋める。 提案したInferGuardでは、まずサーバが受信したモデル更新の座標中央値を計算する。 クライアントのモデル更新は、計算された中央値更新から著しく逸脱した場合、悪意があるとみなされる。 提案したInferGuardを5つのベンチマークデータセットで徹底的に評価し,10種類のベースライン手法との比較を行った。 実験の結果,我々の防御機構は,強い適応攻撃であっても,クライアント側のトレーニングデータ分散推論攻撃から保護する上で極めて有効であることが示唆された。 さらに,本手法は,様々な実用FLシナリオにおいて,ベースライン法を大幅に上回っている。

Recent studies have revealed that federated learning (FL), once considered secure due to clients not sharing their private data with the server, is vulnerable to attacks such as client-side training data distribution inference, where a malicious client can recreate the victim's data. While various countermeasures exist, they are not practical, often assuming server access to some training data or knowledge of label distribution before the attack. In this work, we bridge the gap by proposing InferGuard, a novel Byzantine-robust aggregation rule aimed at defending against client-side training data distribution inference attacks. In our proposed InferGuard, the server first calculates the coordinate-wise median of all the model updates it receives. A client's model update is considered malicious if it significantly deviates from the computed median update. We conduct a thorough evaluation of our proposed InferGuard on five benchmark datasets and perform a comparison with ten baseline methods. The results of our experiments indicate that our defense mechanism is highly effective in protecting against client-side training data distribution inference attacks, even against strong adaptive attacks. Furthermore, our method substantially outperforms the baseline methods in various practical FL scenarios.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# 回帰とスコアリングのためのメトリック認識型LLM推論

Metric-aware LLM inference for regression and scoring ( http://arxiv.org/abs/2403.04182v2 )

ライセンス: Link先を確認
Michal Lukasik, Harikrishna Narasimhan, Aditya Krishna Menon, Felix Yu, Sanjiv Kumar, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。 通常、出力はLLMの基底分布から自己回帰サンプリングによって得られる。 最小ベイズリスクデコーディングの先行研究に基づいて、この推論戦略が、様々な回帰・スコアリングタスクや関連する評価指標に最適であることを示す。 提案手法は,カスタム回帰を最適化し,評価基準を推定時に評価する決定論的手法である。 学術ベンチマークと公開モデルに基づくベースラインの改善について報告する。

Large language models (LLMs) have demonstrated strong results on a range of NLP tasks. Typically, outputs are obtained via autoregressive sampling from the LLM's underlying distribution. Building on prior work on Minimum Bayes Risk Decoding, we show that this inference strategy can be suboptimal for a range of regression and scoring tasks, and associated evaluation metrics. As a remedy, we propose metric aware LLM inference: a decision theoretic approach optimizing for custom regression and scoring metrics at inference time. We report improvements over baselines on academic benchmarks and publicly available models.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# 重み付きフロベニウスノルムに対するベッツァー=ウェンツェル不等式とその量子物理学への応用

Böttcher-Wenzel inequality for weighted Frobenius norms and its application to quantum physics ( http://arxiv.org/abs/2403.04199v2 )

ライセンス: Link先を確認
Aina Mayumi, Gen Kimura, Hiromichi Ohno, Dariusz Chruściński, (参考訳) 正行列 $\omega$ の重み付きフロベニウスノルムを用いることで、有名な B\'ottcher-Wenzel (BW) の不等式を自然に一般化する。 重み付きフロベニウスノルム $\|A\|_\omega := \sqrt{{\rm tr}(A^\ast A \omega)}$ と標準フロベニウスノルム $\|A\| := \sqrt{{\rm tr}(A^\ast A)}$ の組合せに基づいて、ラベル付けされた正確な5つの一般化が存在する。 (i) through (v) for the bounds on the norms of the commutator $[A,B]:= AB - BA$. 本稿では,ケース(iii)とケース(v)のタイトバウンドを確立し,ケースのタイトバウンドに関する予想を提案する。 (i)および (II)。 さらに、ケース(iv)のタイトバウンドは、ケースの系図として導出される (i)。 これらすべての境界 i)-(v) は BW の不等式を一般化する。 ケースの予想境界 (i)および (ii)(従って(iv))は、最大$n=15$までの行列に対して数値的に支持される。 証明は、$n=2$と特定の特別なケースに対して提供される。 興味深いことに、これらの境界は量子物理学、特に不確実性関係と開量子力学の文脈で応用されている。

By employing a weighted Frobenius norm with a positive matrix $\omega$, we introduce natural generalizations of the famous B\"ottcher-Wenzel (BW) inequality. Based on the combination of the weighted Frobenius norm $\|A\|_\omega := \sqrt{{\rm tr}(A^\ast A \omega)}$ and the standard Frobenius norm $\|A\| := \sqrt{{\rm tr}(A^\ast A)}$, there are exactly five possible generalizations, labeled (i) through (v), for the bounds on the norms of the commutator $[A,B]:= AB - BA$. In this paper, we establish the tight bounds for cases (iii) and (v), and propose conjectures regarding the tight bounds for cases (i) and (ii). Additionally, the tight bound for case (iv) is derived as a corollary of case (i). All these bounds (i)-(v) serve as generalizations of the BW inequality. The conjectured bounds for cases (i) and (ii) (and thus also (iv)) are numerically supported for matrices up to size $n=15$. Proofs are provided for $n=2$ and certain special cases. Interestingly, we find applications of these bounds in quantum physics, particularly in the contexts of the uncertainty relation and open quantum dynamics.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# 中央銀行デジタル通貨のリテール:モチベーション、オポチュニティ、ミス

Retail Central Bank Digital Currency: Motivations, Opportunities, and Mistakes ( http://arxiv.org/abs/2403.07070v2 )

ライセンス: Link先を確認
Geoffrey Goodell, Hazem Danny Al-Nakib, Tomaso Aste, (参考訳) 世界中の各国が中央銀行のデジタル通貨(CBDC)の設計について調査を行っている。 CBDCは個人や企業によって通常の商取引に適した金として使われる。 小売CBDCの発展における重要な動機は、小売購入のための中央銀行マネーの人気の低下と、そのような目的のために民間が生み出したデジタルマネーの利用の増加である。 小売CBDCがどのように設計され、実装されるかについての議論は、多くの提案に結びつき、ビジネスモデル、規制の枠組み、そして一般の金銭の社会技術的役割についてかなりの議論を巻き起こした。 ここでは、既存の提案について批判的な分析を行う。 モチベーションやテーマ、基礎となる前提について検討する。 我々はまた、小売CBDCが公共の関心をさらに進める道のりを示唆する機会を反映している。

Nations around the world are conducting research into the design of central bank digital currency (CBDC), a new, digital form of money that would be issued by central banks alongside cash and central bank reserves. Retail CBDC would be used by individuals and businesses as form of money suitable for routine commerce. An important motivating factor in the development of retail CBDC is the decline of the popularity of central bank money for retail purchases and the increasing use of digital money created by the private sector for such purposes. The debate about how retail CBDC would be designed and implemented has led to many proposals, which have sparked considerable debate about business models, regulatory frameworks, and the socio-technical role of money in general. Here, we present a critical analysis of the existing proposals. We examine their motivations and themes, as well as their underlying assumptions. We also offer a reflection of the opportunity that retail CBDC represents and suggest a way forward in furtherance of the public interest.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-04
# UniHand:KCI耐性を備えた5G対応モバイル通信における小セルネットワークのためのプライバシ保護ユニバーサルハンドオーバ

UniHand: Privacy-preserving Universal Handover for Small-Cell Networks in 5G-enabled Mobile Communication with KCI Resilience ( http://arxiv.org/abs/2403.07817v2 )

ライセンス: Link先を確認
Rabiah Alnashwan, Prosanta Gope, Benjamin Dowling, (参考訳) 小型セルネットワーク(SCN)の導入により、無線リンク品質、スペクトル効率、ネットワーク容量が大幅に向上し、第5世代(5G)モバイルネットワークにおける重要な技術のひとつと見なされている。 しかしながら、この技術は、セルカバレッジを低減し、ネットワーク内のセルの密集配置によって引き起こされるハンドオーバ(HO)手順の頻度を増大させ、新たなセキュリティとプライバシの問題を引き起こす。 現行の5G-AKAおよびHOプロトコルは、フォワードシークレットやID混乱攻撃の欠如など、セキュリティの弱点に対して脆弱である。 HOの頻度が高いことは、5Gモバイルネットワークにおけるセキュリティとプライバシーの懸念を増大させるかもしれない。 この研究は、5Gモバイル通信におけるSCNのためのセキュアなプライバシー保護ユニバーサルHOスキーム(\UniHand$)を提案し、これらの問題に対処する。 $\UniHand$は、相互認証、強力な匿名性、完全なフォワードシークレット、キー・エスクローフリー、キー・コンフリクト・イン偽装(KCI)のレジリエンスを達成することができる。 我々の知る限りでは、これは5G環境におけるユーザをローミングするための、セキュアでプライバシー保護のユニバーサルHOを実現するための、‘textit{first}スキームである。 提案手法は, 総合的なセキュリティ分析を行い, 提案方式の費用対効果を示すための関連する実験を行うことにより, 重要なセキュリティ脅威に対して耐性があることを実証する。

Introducing Small Cell Networks (SCN) has significantly improved wireless link quality, spectrum efficiency and network capacity, which has been viewed as one of the key technologies in the fifth-generation (5G) mobile network. However, this technology increases the frequency of handover (HO) procedures caused by the dense deployment of cells in the network with reduced cell coverage, bringing new security and privacy issues. The current 5G-AKA and HO protocols are vulnerable to security weaknesses, such as the lack of forward secrecy and identity confusion attacks. The high HO frequency of HOs might magnify these security and privacy concerns in the 5G mobile network. This work addresses these issues by proposing a secure privacy-preserving universal HO scheme ($\UniHand$) for SCNs in 5G mobile communication. $\UniHand$ can achieve mutual authentication, strong anonymity, perfect forward secrecy, key-escrow-free and key compromise impersonation (KCI) resilience. To the best of our knowledge, this is the \textit{first} scheme to achieve secure, privacy-preserving universal HO with \textit{KCI} resilience for roaming users in 5G environment. We demonstrate that our proposed scheme is resilient against all the essential security threats by performing a comprehensive formal security analysis and conducting relevant experiments to show the cost-effectiveness of the proposed scheme.
翻訳日:2024-04-05 19:14:12 公開日:2024-04-04
# メビウス帯上の反強磁性マグノン:位相誘起対称性の破れ

Antiferromagnetic magnons on a Möbius strip: topology-induced symmetry breaking ( http://arxiv.org/abs/2403.07846v2 )

ライセンス: Link先を確認
Kuangyin Deng, Ran Cheng, (参考訳) 2つの反強磁性結合スピン鎖からなるM\"obius stripは、非自明な物理的挙動を持つエキゾチックなマグノン励起を示す。 反対に、M\ "obius strip" 上のマグノンは、スピンハミルトニアンが異方性自明軸の周りの局所回転対称性を保ったとしても、キラリティを欠いたN\'eelベクトルの線型分極を特徴とする。 これらの線形偏極マグノンは2つの非退化枝を形成し、反強磁性体でよく見られる反対のキラリティーの円偏極マグノンによって滑らかに連結されず、分解されない。 一方の枝は、境界条件によって生じるスペクトルシフトのため、M\ "obius strip" 上の定常波の形成をサポートする。 トポロジーによって引き起こされる対称性破壊のメカニズムを解明することにより, 実空間トポロジーがマグノンだけでなく, その他のボソニック準粒子の物理的性質に深く影響することを明らかにする。

A M\"obius strip comprising of two antiferromagnetically coupled spin chains showcase exotic magnon excitations with non-trivial physical behavior, which is solely attributed to the real-space boundary condition even in the absence of local curvature effects. Counterintuitively, magnons on a M\"obius strip feature linear polarization of the N\'eel vector devoid of chirality even when the spin Hamiltonian preserves local rotational symmetry around the anisotropic easy axis. These linearly-polarized magnons form two non-degenerate branches that can neither be smoothly connected to nor be decomposed by the circularly-polarized magnons of opposite chirality commonly found in antiferromagnets. Only one branch supports standing-wave formation on the M\"obius strip while the other does not, owing to its spectral shift incurred by the boundary condition. By unraveling a hitherto unknown mechanism of topology-induced symmetry breaking, our findings highlight the profound impact of real-space topology on the physical nature of not only magnons but also other bosonic quasiparticles.
翻訳日:2024-04-05 19:14:12 公開日:2024-04-04
# 産業バッチプロセス監視のためのハイブリッド型教師なし学習戦略

Hybrid Unsupervised Learning Strategy for Monitoring Industrial Batch Processes ( http://arxiv.org/abs/2403.13032v2 )

ライセンス: Link先を確認
Christian W. Frey, (参考訳) 工業生産プロセス、特に製薬業界は、効率、製品品質、安全性を確保するために継続的な監視を必要とする複雑なシステムである。 本稿では,複雑な産業プロセスを監視するためのハイブリッド型教師なし学習戦略(HULS)を提案する。 従来の自己組織化マップ(SOM)の制限、特にバランスの取れていないデータセットと高相関のプロセス変数のシナリオに対処するため、HULSは既存の教師なし学習技術を組み合わせてこれらの課題に対処する。 HULSの概念の性能を評価するために,実験室のバッチに基づいて比較実験を行った。

Industrial production processes, especially in the pharmaceutical industry, are complex systems that require continuous monitoring to ensure efficiency, product quality, and safety. This paper presents a hybrid unsupervised learning strategy (HULS) for monitoring complex industrial processes. Addressing the limitations of traditional Self-Organizing Maps (SOMs), especially in scenarios with unbalanced data sets and highly correlated process variables, HULS combines existing unsupervised learning techniques to address these challenges. To evaluate the performance of the HULS concept, comparative experiments are performed based on a laboratory batch
翻訳日:2024-04-05 19:14:12 公開日:2024-04-04
# AgentGroupChat: 創発的行動を改善するための対話型グループチャットシミュラクラ

AgentGroupChat: An Interactive Group Chat Simulacra For Better Eliciting Emergent Behavior ( http://arxiv.org/abs/2403.13433v2 )

ライセンス: Link先を確認
Zhouhong Gu, Xiaoxuan Zhu, Haoran Guo, Lin Zhang, Yin Cai, Hao Shen, Jiangjie Chen, Zheyu Ye, Yifei Dai, Yan Gao, Yao Hu, Hongwei Feng, Yanghua Xiao, (参考訳) 言語は人間の創発的行動の形成と進化に大きく影響し、人間の社会における集団知性を理解するのに不可欠である。 本稿では,言語が人間の行動にどう影響するかを動的シナリオに組み込む必要があることを考慮し,対話的な議論シナリオを通じて,言語が集団行動を形成する上での複雑な役割を解明するシミュレーションであるAgentGroupChatを紹介する。 このシミュレーションの中心は、動的会話の相互作用に関わる文字である。 シミュレーションを実現するために,大規模な言語モデルを用いてペルソナとアクションの要素を組み込むことでインタラクション戦略を強化するVerbal Strategist Agentを導入する。 我々は,グループ力学における複雑な言語使用を模倣するシミュレーション能力を示すために,AgentGroupChatに基づく4つの物語シナリオを設定した。 評価は, エージェント行動と人間の期待との整合性, シミュレーションにおける集団行動の出現に焦点をあてる。 その結果,幅広い情報交換環境,多彩な特徴を持つ文字,高い言語的理解,戦略的適応性など,様々な要因から創発的行動が生み出すことが明らかとなった。 エージェントGroupChatシミュレーションにおける「AIが人間に与える影響」に関する議論において、哲学者は「AIは司法的制限を伴う社会的福祉を強化することができる」と一般的に合意し、「真の知性の本質は、自己能力の制約の必要性を理解することを含む」という結論に至った。 さらに、AgentGroupChatの映画における主要役のキャスティングの競争領域では、一部の俳優は、プロジェクトに深く貢献したいという願望から、報酬を減らしたり、より少ない役を受諾する準備ができていた。

Language significantly influences the formation and evolution of Human emergent behavior, which is crucial in understanding collective intelligence within human societies. Considering that the study of how language affects human behavior needs to put it into the dynamic scenarios in which it is used, we introduce AgentGroupChat in this paper, a simulation that delves into the complex role of language in shaping collective behavior through interactive debate scenarios. Central to this simulation are characters engaging in dynamic conversation interactions. To enable simulation, we introduce the Verbal Strategist Agent, utilizing large language models to enhance interaction strategies by incorporating elements of persona and action. We set four narrative scenarios based on AgentGroupChat to demonstrate the simulation's capacity to mimic complex language use in group dynamics. Evaluations focus on aligning agent behaviors with human expectations and the emergence of collective behaviors within the simulation. Results reveal that emergent behaviors materialize from a confluence of factors: a conducive environment for extensive information exchange, characters with diverse traits, high linguistic comprehension, and strategic adaptability. During discussions on ``the impact of AI on humanity'' in AgentGroupChat simulation, philosophers commonly agreed that ``AI could enhance societal welfare with judicious limitations'' and even come to a conclusion that ``the essence of true intelligence encompasses understanding the necessity to constrain self abilities''. Additionally, in the competitive domain of casting for primary roles in films in AgentGroupChat, certain actors were ready to reduce their remuneration or accept lesser roles, motivated by their deep-seated desire to contribute to the project.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# MMIDR:知識蒸留によるマルチモーダル誤情報解釈のための大規模言語モデル

MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation ( http://arxiv.org/abs/2403.14171v2 )

ライセンス: Link先を確認
Longzheng Wang, Xiaohan Xu, Lei Zhang, Jiarui Lu, Yongxiu Xu, Hongbo Xu, Minghao Tang, Chuang Zhang, (参考訳) 近年,マルチモーダル誤報の自動検出が注目されている。 しかし,マルチモーダルな誤情報検出のための強力な大規模言語モデル (LLM) の可能性はいまだ検討されていない。 また,マルチモーダルな誤報を低コストかつアクセシブルな方法で解釈する方法をLLMに教える方法は,まだ未解決の問題である。 そこで本研究では,マルチモーダル誤報の意思決定プロセスにおいて,LLMを学習し,質の高い文章説明を提供するためのフレームワークであるMMIDRを提案する。 マルチモーダルな誤情報を適切な命令追従形式に変換するために,データ拡張の視点とパイプラインを示す。 このパイプラインは、視覚情報処理モジュールとエビデンス検索モジュールからなる。 その後、プロプライエタリなLCMに処理内容を与え、マルチモーダル誤報の真偽を解釈する合理性を抽出する。 さらに, オープンソースのLLMに多モード誤情報を説明するために, プロプライエタリなLLMを蒸留する効率的な知識蒸留手法を設計する。 マルチモーダル誤情報検出タスクにおけるLCMの性能に関するいくつかの研究課題を探るため,命令追従型マルチモーダル誤情報データセットを構築し,総合的な実験を行った。 実験の結果,我々のMMIDRは十分な検出性能を示し,その評価を支援するための説得力のある合理性を提供する能力を有していることが明らかとなった。

Automatic detection of multimodal misinformation has gained a widespread attention recently. However, the potential of powerful Large Language Models (LLMs) for multimodal misinformation detection remains underexplored. Besides, how to teach LLMs to interpret multimodal misinformation in cost-effective and accessible way is still an open question. To address that, we propose MMIDR, a framework designed to teach LLMs in providing fluent and high-quality textual explanations for their decision-making process of multimodal misinformation. To convert multimodal misinformation into an appropriate instruction-following format, we present a data augmentation perspective and pipeline. This pipeline consists of a visual information processing module and an evidence retrieval module. Subsequently, we prompt the proprietary LLMs with processed contents to extract rationales for interpreting the authenticity of multimodal misinformation. Furthermore, we design an efficient knowledge distillation approach to distill the capability of proprietary LLMs in explaining multimodal misinformation into open-source LLMs. To explore several research questions regarding the performance of LLMs in multimodal misinformation detection tasks, we construct an instruction-following multimodal misinformation dataset and conduct comprehensive experiments. The experimental findings reveal that our MMIDR exhibits sufficient detection performance and possesses the capacity to provide compelling rationales to support its assessments.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# AIにおける信頼 - 進歩、挑戦、今後の方向性

Trust in AI: Progress, Challenges, and Future Directions ( http://arxiv.org/abs/2403.14680v3 )

ライセンス: Link先を確認
Saleh Afroogh, Ali Akbari, Evan Malone, Mohammadali Kargar, Hananeh Alambeigi, (参考訳) さまざまなアプリケーション、サービス、製品を通じて、私たちの日常生活における人工知能(AI)システムの利用の増加は、ユーザの視点からAIにおける信頼と不信の重要性を説明してくれます。 AI駆動システム(他の技術とは対照的に)は、人間のエージェントが使用する有益なツールとしてだけでなく、私たちの代理として、人間の思考、決定、エージェンシーに影響を及ぼす操作的マインドとして、私たちの生活に広く浸透しています。 AIにおける信頼/不信は規制官の役割を担い、信頼が増加し、不信がAIの採用率を低下させるため、この拡散のレベルを著しく制御することができる。 近年、さまざまな研究がAIにおける信頼/不信の異次元とその関連する考察に注意を払っている。 この体系的な文献レビューでは、現在のAI文献レビューにおける信頼の概念化の後、異なるタイプの人間と機械の相互作用に対する信頼と、その異なるドメインにおける技術受容への影響について検討する。 さらに, 技術的(安全性, 正確性, 堅牢性)と非技術的公理的(倫理的, 法的, 混合的)の分類法を提案し, 信頼性の測定を行った。 さらに、AI(例えば、自律性と尊厳の脅威)における主要な信頼の破滅者や信頼者について検討し、信頼に値するAIへの移行に向けた今後の方向性と潜在的な解決策を提案する。

The increasing use of artificial intelligence (AI) systems in our daily life through various applications, services, and products explains the significance of trust/distrust in AI from a user perspective. AI-driven systems (as opposed to other technologies) have ubiquitously diffused in our life not only as some beneficial tools to be used by human agents but also are going to be substitutive agents on our behalf, or manipulative minds that would influence human thought, decision, and agency. Trust/distrust in AI plays the role of a regulator and could significantly control the level of this diffusion, as trust can increase, and distrust may reduce the rate of adoption of AI. Recently, varieties of studies have paid attention to the variant dimension of trust/distrust in AI, and its relevant considerations. In this systematic literature review, after conceptualization of trust in the current AI literature review, we will investigate trust in different types of human-Machine interaction, and its impact on technology acceptance in different domains. In addition to that, we propose a taxonomy of technical (i.e., safety, accuracy, robustness) and non-technical axiological (i.e., ethical, legal, and mixed) trustworthiness metrics, and some trustworthy measurements. Moreover, we examine some major trust-breakers in AI (e.g., autonomy and dignity threat), and trust makers; and propose some future directions and probable solutions for the transition to a trustworthy AI.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# サブシーズン予測のためのベイジアンUNet++の校正

Calibrating Bayesian UNet++ for Sub-Seasonal Forecasting ( http://arxiv.org/abs/2403.16612v2 )

ライセンス: Link先を確認
Busra Asan, Abdullah Akgül, Alper Unal, Melih Kandemir, Gozde Unal, (参考訳) 季節予測は、気候変動による極端な暑さや寒さを検出する上で重要な課題である。 1年間の気温の上昇が世界に大きな影響を与えるため、予測の信頼性は信頼されるべきだ」と述べた。 ニューラルネットワークの校正は、予測に対する信頼性を確保する手段を提供する。 しかし、回帰モデルのキャリブレーションは、特に予報器において、未調査のトピックである。 UNet++ベースのアーキテクチャを校正し、温度異常の物理モデルより優れていることを示した。 予測誤差と校正誤差との多少のトレードオフにより、より信頼性が高く、よりシャープな予測が得られることを示す。 我々は、キャリブレーションは、天気予報装置のような安全クリティカルな機械学習アプリケーションにおいて重要な部分であるべきだと考えている。

Seasonal forecasting is a crucial task when it comes to detecting the extreme heat and colds that occur due to climate change. Confidence in the predictions should be reliable since a small increase in the temperatures in a year has a big impact on the world. Calibration of the neural networks provides a way to ensure our confidence in the predictions. However, calibrating regression models is an under-researched topic, especially in forecasters. We calibrate a UNet++ based architecture, which was shown to outperform physics-based models in temperature anomalies. We show that with a slight trade-off between prediction error and calibration error, it is possible to get more reliable and sharper forecasts. We believe that calibration should be an important part of safety-critical machine learning applications such as weather forecasters.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# As Good As A Coin Toss:AI生成画像、ビデオ、オーディオ、オーディオ視覚刺激の人間の検出

As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli ( http://arxiv.org/abs/2403.16760v3 )

ライセンス: Link先を確認
Di Cooke, Abigail Edwards, Sophia Barkoff, Kathryn Kelly, (参考訳) 合成メディアが徐々に現実的になり、それを使うための障壁が減っていくにつれて、この技術は、金融詐欺から非合意ポルノまで、悪意ある目的のためにますます利用されてきた。 今日では、合成メディアによる誤解に対する主要な防御は、人間の観察者が現実と偽の区別を視覚的に、聴覚的に行う能力に依存している。 しかし、人々が日々の生活の中で人工メディアを欺くのにどれほど脆弱かは、まだ不明だ。 被験者1276名を対象に, 合成画像, 音声のみ, ビデオのみ, 映像のみ, 音声視覚刺激を正当性から識別する能力について検討した。 人々が野生で合成メディアに遭遇する可能性のある状況を反映するために、テスト条件と刺激が典型的なオンラインプラットフォームをエミュレートした。 全体として、参加者は、合成コンテンツと真正コンテンツとを有意義に区別することに苦労していた。 また、刺激が合成内容を含むと検出性能が悪化し、非顔オブジェクトと比較して人間の顔が特徴付けられる画像、マルチモーダル刺激と比較して単一のモダリティ、オーディオ視覚刺激の完全合成に比べて混合された認証性が低下し、観察者が習熟している言語と比較して外国語が特徴的であることも見いだした。 最後に, 合成メディアの先行知識が検出性能に有意な影響を及ぼさないことも確認した。 これらの結果は, 日常の合成メディアに騙される可能性が高く, 人間の知覚検出能力は, 効果的な防御手段として信頼できないことを示唆している。

As synthetic media becomes progressively more realistic and barriers to using it continue to lower, the technology has been increasingly utilized for malicious purposes, from financial fraud to nonconsensual pornography. Today, the principal defense against being misled by synthetic media relies on the ability of the human observer to visually and auditorily discern between real and fake. However, it remains unclear just how vulnerable people actually are to deceptive synthetic media in the course of their day to day lives. We conducted a perceptual study with 1276 participants to assess how accurate people were at distinguishing synthetic images, audio only, video only, and audiovisual stimuli from authentic. To reflect the circumstances under which people would likely encounter synthetic media in the wild, testing conditions and stimuli emulated a typical online platform, while all synthetic media used in the survey was sourced from publicly accessible generative AI technology. We find that overall, participants struggled to meaningfully discern between synthetic and authentic content. We also find that detection performance worsens when the stimuli contains synthetic content as compared to authentic content, images featuring human faces as compared to non face objects, a single modality as compared to multimodal stimuli, mixed authenticity as compared to being fully synthetic for audiovisual stimuli, and features foreign languages as compared to languages the observer is fluent in. Finally, we also find that prior knowledge of synthetic media does not meaningfully impact their detection performance. Collectively, these results indicate that people are highly susceptible to being tricked by synthetic media in their daily lives and that human perceptual detection capabilities can no longer be relied upon as an effective counterdefense.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# 量子ムペンバ効果の熱力学

The thermodynamics of the quantum Mpemba effect ( http://arxiv.org/abs/2403.16959v2 )

ライセンス: Link先を確認
Mattia Moroder, Oisín Culhane, Krissia Zawadzki, John Goold, (参考訳) 非平衡量子熱力学の観点から量子Mpemba効果をデイビーズ写像で記述された緩和力学の研究により検討する。 エネルギー固有基底におけるコヒーレンスを持つ状態から始めると、エネルギー固有基底において状態が対角状態に変換された場合、指数的な平衡へのスピードアップが常に起こることを示し、生成子のスペクトルギャップが複素固有値によって定義される。 変換状態がより高い非平衡自由エネルギーを持つとき、熱力学的推論を用いて、これは量子Mpemba効果であると主張する。 さらに、初期状態におけるユニタリ変換が常に構成され、その効果が得られ、また、非平衡自由エネルギーと可逆エントロピー生成の両方のダイナミクスを単一および多ビットの例で研究することによって、我々の研究結果を示す。

We investigate the quantum Mpemba effect from the perspective of non-equilibrium quantum thermodynamics by studying relaxation dynamics described by Davies maps. Starting from a state with coherences in the energy eigenbasis, we demonstrate that an exponential speedup to equilibrium will always occur if the state is transformed to a diagonal state in the energy eigenbasis, provided that the spectral gap of the generator is defined by a complex eigenvalue. When the transformed state has a higher non-equilibrium free energy, we argue using thermodynamic reasoning that this is a \textit{genuine} quantum Mpemba effect. Furthermore, we show how a unitary transformation on an initial state can always be constructed to yield the effect and demonstrate our findings by studying the dynamics of both the non-equilibrium free energy and the irreversible entropy production in single and multi-qubit examples.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# CoDA:重度対応型ビジュアルプロンプトチューニングによるドメイン適応の指導

CoDA: Instructive Chain-of-Domain Adaptation with Severity-Aware Visual Prompt Tuning ( http://arxiv.org/abs/2403.17369v2 )

ライセンス: Link先を確認
Ziyang Gong, Fuhao Li, Yupeng Deng, Deblina Bhattacharjee, Xiangwei Zhu, Zhenming Ji, (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインへのモデルを適応することを目的としている。 悪い場面に適応する場合、既存のUDA手法は指示の欠如によりうまく機能せず、そのモデルがすべての悪い場面で相違点を見落としてしまう。 そこで本研究では,シーンレベルと画像レベルにおいて,これらの相違点を識別,焦点付け,学習するようにモデルに指示するCoDAを提案する。 具体的には、CoDAはChain-of-Domain(CoD)戦略とSeverity-Aware Visual Prompt Tuning(SAVPT)メカニズムで構成される。 CoDは、すべての悪いシーンを、簡単で困難なシーンに分割するためのシーンレベルの指示に焦点を当て、ソースから容易なシーンイメージのドメインに適応するモデルを誘導し、そして、ハードなシーンイメージのドメインに適応させる。 この基盤の上に構築されたSAVPTを用いて、より詳細な画像レベルのインストラクションを掘り下げ、パフォーマンスを向上させる。 SAVPTは、すべての有害なシーンイメージを低重度と高重度に分割する新しいメトリクスの重大度を特徴としている。 次に、Severityは視覚的なプロンプトとアダプタを指示し、モデルアーキテクチャに複雑さを加えることなく、シーン固有の機能ではなく、統一された深刻度機能に集中するようモデルに指示する。 CoDAは、あらゆる悪い場面で広く使用されているベンチマークでSOTAのパフォーマンスを達成する。 特にCoDAは、フォギー・ドライビングとフォギー・チューリッヒのベンチマークで、既存のものよりも4.6%、mIoUが10.3%上回っている。 私たちのコードはhttps://github.com/Cuzyoung/CoDAで利用可能です。

Unsupervised Domain Adaptation (UDA) aims to adapt models from labeled source domains to unlabeled target domains. When adapting to adverse scenes, existing UDA methods fail to perform well due to the lack of instructions, leading their models to overlook discrepancies within all adverse scenes. To tackle this, we propose CoDA which instructs models to distinguish, focus, and learn from these discrepancies at scene and image levels. Specifically, CoDA consists of a Chain-of-Domain (CoD) strategy and a Severity-Aware Visual Prompt Tuning (SAVPT) mechanism. CoD focuses on scene-level instructions to divide all adverse scenes into easy and hard scenes, guiding models to adapt from source to easy domains with easy scene images, and then to hard domains with hard scene images, thereby laying a solid foundation for whole adaptations. Building upon this foundation, we employ SAVPT to dive into more detailed image-level instructions to boost performance. SAVPT features a novel metric Severity that divides all adverse scene images into low-severity and high-severity images. Then Severity directs visual prompts and adapters, instructing models to concentrate on unified severity features instead of scene-specific features, without adding complexity to the model architecture. CoDA achieves SOTA performances on widely-used benchmarks under all adverse scenes. Notably, CoDA outperforms the existing ones by 4.6%, and 10.3% mIoU on the Foggy Driving, and Foggy Zurich benchmarks, respectively. Our code is available at https://github.com/Cuzyoung/CoDA
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# EulerFormer: 複雑なベクトル注意による逐次ユーザ行動モデリング

EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention ( http://arxiv.org/abs/2403.17729v2 )

ライセンス: Link先を確認
Zhen Tian, Wayne Xin Zhao, Changwang Zhang, Xin Zhao, Zhongrui Ma, Ji-Rong Wen, (参考訳) ユーザの嗜好を捉えるために、シーケンシャルなユーザの行動データをモデル化するために、トランスフォーマーモデルが広く適用されてきた。 トランスアーキテクチャのコアは自己アテンション機構にあり、シーケンス内のペアのアテンションスコアを計算する。 置換同変性のため、トークン表現間の注意を高めるために位置符号化が用いられる。 この設定では、ペアワイズアテンションスコアは意味差と位置差の両方によって導出することができる。 しかしながら、先行研究はしばしば異なる方法で2種類の差分測定をモデル化し、シーケンスモデリングの表現能力を制限する可能性がある。 この問題に対処するために,EulerFormerという名前の複雑なベクトル注意を持つ新しい変圧器変圧器を提案し,意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。 EulerFormerには2つの重要な技術的改善が含まれている。 まず、ユーラーの公式を用いてシーケンストークンを極形複素ベクトルに効率よく変換し、複雑な回転形式における意味情報と位置情報の双方の統一的なモデリングを可能にし、また、意味的回転角を適応関数で制御できる微分回転機構を開発し、意味的文脈に応じて意味的および位置情報の適応的な統合を可能にする。 我々の理論の枠組みは、高い完全性と一般性を持っている。 意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。 4つの公開データセットで行った大規模な実験は、我々のアプローチの有効性と効率を実証している。

To capture user preference, transformer models have been widely applied to model sequential user behavior data. The core of transformer architecture lies in the self-attention mechanism, which computes the pairwise attention scores in a sequence. Due to the permutation-equivariant nature, positional encoding is used to enhance the attention between token representations. In this setting, the pairwise attention scores can be derived by both semantic difference and positional difference. However, prior studies often model the two kinds of difference measurements in different ways, which potentially limits the expressive capacity of sequence modeling. To address this issue, this paper proposes a novel transformer variant with complex vector attention, named EulerFormer, which provides a unified theoretical framework to formulate both semantic difference and positional difference. The EulerFormer involves two key technical improvements. First, it employs a new transformation function for efficiently transforming the sequence tokens into polar-form complex vectors using Euler's formula, enabling the unified modeling of both semantic and positional information in a complex rotation form.Secondly, it develops a differential rotation mechanism, where the semantic rotation angles can be controlled by an adaptation function, enabling the adaptive integration of the semantic and positional information according to the semantic contexts.Furthermore, a phase contrastive learning task is proposed to improve the isotropy of contextual representations in EulerFormer. Our theoretical framework possesses a high degree of completeness and generality. It is more robust to semantic variations and possesses moresuperior theoretical properties in principle. Extensive experiments conducted on four public datasets demonstrate the effectiveness and efficiency of our approach.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# 絡み合い理論におけるマジックによる計算的分離

Magic-induced computational separation in entanglement theory ( http://arxiv.org/abs/2403.19610v2 )

ライセンス: Link先を確認
Andi Gu, Salvatore F. E. Oliviero, Lorenzo Leone, (参考訳) 絡み合いは量子情報理論の基本的な柱として機能し、古典的なものと量子的なものの境界を規定する。 一般的な仮定は、高い絡み合いはより大きな「量子性」に対応するというものである。 しかし、この民間信仰は、クリフォード回路のような古典的にシミュレート可能な操作が、非常に絡み合った状態を作り出すことができるという事実に挑戦されている。 これらの状態のシミュラビリティは、次のような疑問を提起する: 「低魔術的な」絡み合いと「高魔術的な」絡み合いの違いは何か? 本論では, 絡み合い理論における魔法の役割について, 厳密な調査を行い, この疑問に答える。 我々は, この関係を理解するために, 絡み合い推定, 蒸留, 希釈などのタスクを研究している。 このアプローチは、魔法が絡み合うのに驚くほど強い意味を持つことを示している。 具体的には、ヒルベルト空間をエンタングルメント支配(ED)相とマジック支配(MD)相の2つの異なる位相に分割するシャープな操作的分離を見出した。 大まかに言えば、ED状態は彼らの魔法をはるかに上回る絡み合いを持ち、MD状態は彼らの絡み合いを支配する魔法を持っている。 これら2つの相における2つのリソース間の競合は、それらの間の計算位相の分離を誘導する: ED状態のほとんど全ての絡み合うタスクに対してサンプルと時間効率の量子アルゴリズムが存在するが、これらのタスクは、MD相において、確実に計算的に引き出すことができる。 絡み合い理論を超越した結果の力を示すために,多体物理学および位相誤差補正における研究結果の関連性を強調した。 さらに, ED-MD相を用いた過去の数値実験で得られた現象学的観察について, 簡単な理論的説明を行う。

Entanglement serves as a foundational pillar in quantum information theory, delineating the boundary between what is classical and what is quantum. The common assumption is that higher entanglement corresponds to a greater degree of 'quantumness'. However, this folk belief is challenged by the fact that classically simulable operations, such as Clifford circuits, can create highly entangled states. The simulability of these states raises a question: what are the differences between 'low-magic' entanglement, and 'high-magic' entanglement? We answer this question in this work with a rigorous investigation into the role of magic in entanglement theory. We take an operational approach to understanding this relationship by studying tasks such as entanglement estimation, distillation and dilution. This approach reveals that magic has surprisingly strong implications for entanglement. Specifically, we find a sharp operational separation that splits Hilbert space into two distinct phases: the entanglement-dominated (ED) phase and magic-dominated (MD) phase. Roughly speaking, ED states have entanglement that significantly surpasses their magic, while MD states have magic that dominates their entanglement. The competition between the two resources in these two phases induces a computational phase separation between them: there are sample- and time-efficient quantum algorithms for almost any entanglement task on ED states, while these tasks are provably computationally intractable in the MD phase. To demonstrate the power of our results beyond entanglement theory, we highlight the relevance of our findings in many-body physics and topological error correction. Additionally, we offer simple theoretical explanations for phenomenological observations made in previous numerical studies using ED-MD phases.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# ILPO-NET:3次元における任意の体積パターンの不変認識のためのネットワーク

ILPO-NET: Network for the invariant recognition of arbitrary volumetric patterns in 3D ( http://arxiv.org/abs/2403.19612v2 )

ライセンス: Link先を確認
Dmitrii Zhemchuzhnikov, Sergei Grudinin, (参考訳) 空間パターンの効果的な認識とそれらの階層の学習は、現代の空間データ分析において不可欠である。 ボリュームデータアプリケーションは、シフトだけでなく、パターンの回転にも不変性を保証する技術を模索している。 従来の方法では翻訳的不変性は容易に達成できるが、回転的不変性には複数の課題があり、研究の活発な領域として残っている。 本稿では、Wigner行列拡張を用いた局所的な空間パターン配向に本質的に不変な畳み込み操作で任意の形状のパターンを扱う新しいアプローチであるILPO-Net(Invariant to Local Patterns Orientation Network)を提案する。 我々のアーキテクチャは新たな畳み込み演算子をシームレスに統合し、MedMNISTやCATHといった多様なボリュームデータセットをベンチマークすると、パラメータ数を大幅に削減したベースラインよりも優れた性能を示し、MedMNISTの1000倍も少ない。 これらの実証の他に、ILPO-Netの回転不変性は、複数の分野にわたる他のアプリケーションへの道を開く。 私たちのコードはhttps://gricad-gitlab.univ-grenoble-alpes.fr/GruLab/ILPONetで公開されています。

Effective recognition of spatial patterns and learning their hierarchy is crucial in modern spatial data analysis. Volumetric data applications seek techniques ensuring invariance not only to shifts but also to pattern rotations. While traditional methods can readily achieve translational invariance, rotational invariance possesses multiple challenges and remains an active area of research. Here, we present ILPO-Net (Invariant to Local Patterns Orientation Network), a novel approach that handles arbitrarily shaped patterns with the convolutional operation inherently invariant to local spatial pattern orientations using the Wigner matrix expansions. Our architecture seamlessly integrates the new convolution operator and, when benchmarked on diverse volumetric datasets such as MedMNIST and CATH, demonstrates superior performance over the baselines with significantly reduced parameter counts - up to 1000 times fewer in the case of MedMNIST. Beyond these demonstrations, ILPO-Net's rotational invariance paves the way for other applications across multiple disciplines. Our code is publicly available at https://gricad-gitlab.univ-grenoble-alpes.fr/GruLab/ILPONet.
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# ShapeFusion:局所的な形状編集のための3次元拡散モデル

ShapeFusion: A 3D diffusion model for localized shape editing ( http://arxiv.org/abs/2403.19773v2 )

ライセンス: Link先を確認
Rolandos Alexandros Potamias, Michail Tarasiou, Stylianos Ploumpis, Stefanos Zafeiriou, (参考訳) 3Dコンピュータビジョンの領域では、パラメトリックモデルは現実的で表現力のある3Dアバターを作成するための画期的な方法論として登場した。 伝統的に、彼らは主成分分析(PCA)に依存しており、データを正則空間に分解し、形状の変化を最大限に捉えている。 しかし、直交性の制約とPCAの分解のグローバルな性質により、これらのモデルは3次元形状の局所的・非絡み合いの編集に苦慮し、顔彫刻などの微妙な制御を必要とするアプリケーションでの使用に大きく影響する。 本稿では,拡散モデルを利用して,非編集領域を完全に保存しつつ,多種多様かつ完全に局所化された3次元メッシュの編集を可能にする。 本研究では,任意の形状領域の局所的な操作を,予め定義された領域に制限されず,かつ,事前定義された制御頂点の集合を疎結合にすることなく,効果的な拡散マスキング訓練戦略を提案する。 我々のフレームワークに従うと、ユーザーは選択した操作領域を明示的に設定し、3Dメッシュを編集するためのハンドルとして任意の頂点セットを定義することができる。 現在の最先端技術と比較して、我々の手法は、遅延コード状態に依存するメソッドよりも解釈可能な形状操作をし、ローカライゼーションと生成の多様性を高め、最適化ベースのアプローチよりも高速な推論を提供する。 プロジェクトページ: https://rolpotamias.github.io/Shapefusion/

In the realm of 3D computer vision, parametric models have emerged as a ground-breaking methodology for the creation of realistic and expressive 3D avatars. Traditionally, they rely on Principal Component Analysis (PCA), given its ability to decompose data to an orthonormal space that maximally captures shape variations. However, due to the orthogonality constraints and the global nature of PCA's decomposition, these models struggle to perform localized and disentangled editing of 3D shapes, which severely affects their use in applications requiring fine control such as face sculpting. In this paper, we leverage diffusion models to enable diverse and fully localized edits on 3D meshes, while completely preserving the un-edited regions. We propose an effective diffusion masking training strategy that, by design, facilitates localized manipulation of any shape region, without being limited to predefined regions or to sparse sets of predefined control vertices. Following our framework, a user can explicitly set their manipulation region of choice and define an arbitrary set of vertices as handles to edit a 3D mesh. Compared to the current state-of-the-art our method leads to more interpretable shape manipulations than methods relying on latent code state, greater localization and generation diversity while offering faster inference than optimization based approaches. Project page: https://rolpotamias.github.io/Shapefusion/
翻訳日:2024-04-05 19:14:11 公開日:2024-04-04
# 自動診断用サプライヤーのための微調整大言語モデル

Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries ( http://arxiv.org/abs/2403.20145v2 )

ライセンス: Link先を確認
Manjeet Yadav, Nilesh Kumar Sahu, Mudita Chaturvedi, Snehil Gupta, Haroon R Lone, (参考訳) 発展途上国におけるメンタルヘルスサポートの改善は、強いニーズである。 潜在的な解決策の1つは、診断スクリーニングを行うスケーラブルで自動化されたシステムの開発であり、メンタルヘルスの専門家の負担を軽減するのに役立つ。 本研究では、精神状態検査から簡潔な要約を生成するためのカスタムデータセットを用いて、微調整の有無にかかわらず、いくつかの最先端のLarge Language Model (LLMs)を評価した。 確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。 その結果,本モデルが既存のモデルより優れており,ROUGE-1とROUGE-Lはそれぞれ0.810と0.764であることがわかった。 さらに、利用可能なD4データセット上で、微調整されたモデルの一般化性を評価し、その結果が期待でき、私たちのカスタムデータセットを超えて、その潜在的な適用可能性を示した。

Improving mental health support in developing countries is a pressing need. One potential solution is the development of scalable, automated systems to conduct diagnostic screenings, which could help alleviate the burden on mental health professionals. In this work, we evaluate several state-of-the-art Large Language Models (LLMs), with and without fine-tuning, on our custom dataset for generating concise summaries from mental state examinations. We rigorously evaluate four different models for summary generation using established ROUGE metrics and input from human evaluators. The results highlight that our top-performing fine-tuned model outperforms existing models, achieving ROUGE-1 and ROUGE-L values of 0.810 and 0.764, respectively. Furthermore, we assessed the fine-tuned model's generalizability on a publicly available D4 dataset, and the outcomes were promising, indicating its potential applicability beyond our custom dataset.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-04
# LLMによる標準対応技術製品仕様に向けて

Towards Standards-Compliant Assistive Technology Product Specifications via LLMs ( http://arxiv.org/abs/2404.03122v1 )

ライセンス: Link先を確認
Chetan Arora, John Grundy, Louise Puli, Natasha Layton, (参考訳) 急速に発展する補助技術(AT)の分野では、製品の安全性、有効性、アクセシビリティーのためには、製品が国内および国際標準を満たすことを保証することが不可欠である。 本稿では,大規模言語モデル(LLM)の革新的利用を通じて,AT製品仕様のコンプライアンスプロセスをこれらの標準で合理化するための先駆的フレームワークであるCompliATを紹介する。 CompliATは3つの重要なタスクに対処する: 用語の整合性をチェックし、標準に従って製品を分類し、主要な製品仕様を標準要件に追跡する。 用語の整合性という課題に取り組み、製品仕様で使用される言語が関連する標準と整合し、誤解や非コンプライアンスリスクを減らす。 本稿では,学習データが少ないにもかかわらず,検索拡張生成モデルを用いて,国際標準に適合するAT製品を正確に分類する手法を提案する。 最後に、CompliATは、主要な製品仕様から標準要件まで、トレーサビリティとコンプライアンスのメカニズムを実装し、AT製品の全側面が対応する標準に対して徹底的に検査されることを保証する。 これらのプロセスの半自動化により、CompliATはAT製品標準の遵守に必要な時間と労力を大幅に削減し、品質と安全性の基準を守ろうとしています。 CompliATの計画と評価計画を概説する。

In the rapidly evolving field of assistive technology (AT), ensuring that products meet national and international standards is essential for user safety, efficacy, and accessibility. In this vision paper, we introduce CompliAT, a pioneering framework designed to streamline the compliance process of AT product specifications with these standards through the innovative use of Large Language Models (LLMs). CompliAT addresses three critical tasks: checking terminology consistency, classifying products according to standards, and tracing key product specifications to standard requirements. We tackle the challenge of terminology consistency to ensure that the language used in product specifications aligns with relevant standards, reducing misunderstandings and non-compliance risks. We propose a novel approach for product classification, leveraging a retrieval-augmented generation model to accurately categorize AT products aligning to international standards, despite the sparse availability of training data. Finally, CompliAT implements a traceability and compliance mechanism from key product specifications to standard requirements, ensuring all aspects of an AT product are thoroughly vetted against the corresponding standards. By semi-automating these processes, CompliAT aims to significantly reduce the time and effort required for AT product standards compliance and uphold quality and safety standards. We outline our planned implementation and evaluation plan for CompliAT.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-04
# GaSpCT:新しいCT投影ビュー合成のためのガウススプラッティング

GaSpCT: Gaussian Splatting for Novel CT Projection View Synthesis ( http://arxiv.org/abs/2404.03126v1 )

ライセンス: Link先を確認
Emmanouil Nikolakakis, Utkarsh Gupta, Jonathan Vengosh, Justin Bui, Razvan Marinescu, (参考訳) 本稿では,コンピュータ・トモグラフィー(CT)スキャンのための新しいプロジェクション・ビューを生成するために,新しいビュー合成と3次元シーン表現法であるGaSpCTを提案する。 我々は2次元画像投影の限られたセットをベースとしたCTにおける新しいビュー合成を可能にするためにガウス・スティング・フレームワークを適用し、SfM(Structure from Motion)手法を必要としない。 そこで本研究では,患者がスキャン中に受ける総スキャン期間と放射線線量を削減する。 本研究は,2種類のレギュラーライザ(ベータ・ロス)と総変量(TV)の損失)を用いて,背景と前景の差異を強くし,損失関数をユースケースに適応させた。 最後に、3次元空間を横断するガウス的位置を、脳の位置が視野内で予測される位置の均一な事前分布を用いて初期化する。 我々は,Parkinson's Progression Markers Initiative (PPMI) データセットの脳CTスキャンを用いてモデルの性能を評価し,レンダリングされた新規ビューが模擬スキャンのオリジナル投影ビューと密に一致し,他の暗黙的な3Dシーン表現手法よりも優れた性能を有することを示す。 さらに,Sparse-view CT画像再構成のためのニューラルネットワークによる画像合成と比較して,トレーニング時間の短縮を実証的に観察した。 最後に、ガウススプラッティング表現のメモリ要求を、等価なボクセルグリッド画像表現と比較して17%削減する。

We present GaSpCT, a novel view synthesis and 3D scene representation method used to generate novel projection views for Computer Tomography (CT) scans. We adapt the Gaussian Splatting framework to enable novel view synthesis in CT based on limited sets of 2D image projections and without the need for Structure from Motion (SfM) methodologies. Therefore, we reduce the total scanning duration and the amount of radiation dose the patient receives during the scan. We adapted the loss function to our use-case by encouraging a stronger background and foreground distinction using two sparsity promoting regularizers: a beta loss and a total variation (TV) loss. Finally, we initialize the Gaussian locations across the 3D space using a uniform prior distribution of where the brain's positioning would be expected to be within the field of view. We evaluate the performance of our model using brain CT scans from the Parkinson's Progression Markers Initiative (PPMI) dataset and demonstrate that the rendered novel views closely match the original projection views of the simulated scan, and have better performance than other implicit 3D scene representations methodologies. Furthermore, we empirically observe reduced training time compared to neural network based image synthesis for sparse-view CT image reconstruction. Finally, the memory requirements of the Gaussian Splatting representations are reduced by 17% compared to the equivalent voxel grid image representations.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-04
# ガイド型運動計画のためのフレームワーク

A Framework for Guided Motion Planning ( http://arxiv.org/abs/2404.03133v1 )

ライセンス: Link先を確認
Amnon Attali, Stav Ashur, Isaac Burton Love, Courtney McBeth, James Motes, Marco Morales, Nancy M. Amato, (参考訳) ランダム化サンプリングに基づくアルゴリズムは、問題の難易度からロボットの動き計画に広く使われ、幅広い問題に対して実験的に有効である。 ほとんどの変種は、探索空間の既知の基盤構造に関する様々なヒューリスティックを使ってサンプリングをバイアスする。 本研究では,ガイド空間の概念を定義することにより,直感的なガイド探索の概念を定式化する。 この新しい言語は、同じフレームワークの下で、明らかに異なる事前メソッドの多くをカプセル化しており、これまでは曖昧だった、異なるアルゴリズムのコアコントリビューションであるガイダンスについて推論することができます。 本研究では,様々な環境下で既知のアルゴリズムでテストした場合の直感と実験的に一致したガイダンスを評価するための情報理論手法を提案する。 言語とガイダンスの評価は、既存の手法の改善を示唆し、複数のソースからのガイダンスを組み合わせた単純なハイブリッドアルゴリズムを可能にする。

Randomized sampling based algorithms are widely used in robot motion planning due to the problem's intractability, and are experimentally effective on a wide range of problem instances. Most variants bias their sampling using various heuristics related to the known underlying structure of the search space. In this work, we formalize the intuitive notion of guided search by defining the concept of a guiding space. This new language encapsulates many seemingly distinct prior methods under the same framework, and allows us to reason about guidance, a previously obscured core contribution of different algorithms. We suggest an information theoretic method to evaluate guidance, which experimentally matches intuition when tested on known algorithms in a variety of environments. The language and evaluation of guidance suggests improvements to existing methods, and allows for simple hybrid algorithms that combine guidance from multiple sources.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-04
# Robust Pronoun Use Fidelity with English LLMs: You are Reasoning, Repeating, or Just Biased?

Robust Pronoun Use Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased? ( http://arxiv.org/abs/2404.03134v1 )

ライセンス: Link先を確認
Vagrant Gautam, Eileen Bingert, Dawei Zhu, Anne Lauscher, Dietrich Klakow, (参考訳) 個人に対するロバストで忠実で無害な代名詞の使用は、使用が増加するにつれて言語モデルにとって重要な目標である。 組み合わせた目的に向けての進捗を測定するために,共参照エンティティと代名詞を導入するコンテキストが与えられた場合,そのタスクは,潜在的な乱用者とは無関係に,後で正しい代名詞を再利用することである。 我々は,500万以上のインスタンスを慎重に設計し,代名詞使用の忠実度を評価し,アーキテクチャ(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)とスケール(11M-70Bパラメータ)の37大言語モデルを評価する。 モデルでは,従来特定されていた代名詞を気晴らしのない存在下で忠実に再利用することができるが,その処理能力は著しく低下し,特異な代名詞や新代名詞の処理が困難であることがわかった。 さらに、モデルは代名詞に忠実に忠実ではない。 気を散らす代名詞を含む追加の文でさえ、平均して34%の精度が低下する。 5つの散逸した文で、デコーダのみのモデルでは52%、エンコーダのみのモデルでは13%の精度が低下する。 我々は、広く使われている大きな言語モデルは依然として脆弱であり、推論や、人間にとって非常に簡単な設定で異なる代名詞を処理する際に大きなギャップがあることを示し、偏見や推論の研究者にそれらを橋渡しするように促している。

Robust, faithful and harm-free pronoun use for individuals is an important goal for language models as their use increases, but prior work tends to study only one or two of these components at a time. To measure progress towards the combined goal, we introduce the task of pronoun use fidelity: given a context introducing a co-referring entity and pronoun, the task is to reuse the correct pronoun later, independent of potential distractors. We present a carefully-designed dataset of over 5 million instances to evaluate pronoun use fidelity in English, and we use it to evaluate 37 popular large language models across architectures (encoder-only, decoder-only and encoder-decoder) and scales (11M-70B parameters). We find that while models can mostly faithfully reuse previously-specified pronouns in the presence of no distractors, they are significantly worse at processing she/her/her, singular they and neopronouns. Additionally, models are not robustly faithful to pronouns, as they are easily distracted. With even one additional sentence containing a distractor pronoun, accuracy drops on average by 34%. With 5 distractor sentences, accuracy drops by 52% for decoder-only models and 13% for encoder-only models. We show that widely-used large language models are still brittle, with large gaps in reasoning and in processing different pronouns in a setting that is very simple for humans, and we encourage researchers in bias and reasoning to bridge them.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# Promatch: 適応型プリデコーディングによるリアルタイム量子エラー補正の拡張

Promatch: Extending the Reach of Real-Time Quantum Error Correction with Adaptive Predecoding ( http://arxiv.org/abs/2404.03136v1 )

ライセンス: Link先を確認
Narges Alavisamani, Suhas Vittal, Ramin Ayanzadeh, Poulami Das, Moinuddin Qureshi, (参考訳) フォールトトレラント量子コンピューティングは、論理量子ビットをデータとパリティ量子ビットにエンコードする量子エラー補正に依存する。 エラー復号(Error decoding)は、測定されたパリティビットをエラーのタイプと場所に変換するプロセスである。 エラーのバックログを防ぐため、エラーの復号化をリアルタイムで行わなければならない。 MWPM (Minimum Weight Perfect Matching) はサーフェスコードの正確な復号アルゴリズムであり、最近の研究で最大9.5%の距離で MWPM (RT-MWPM) のリアルタイム実装を実証している。 残念ながら、d=9を超えると、この症候群のハミング重みと呼ばれるリフテッドパリティビットの数は、既存のRT-MWPMデコーダの能力を上回る。 本研究では,高ハミング重み症候群を低ハミング重み症候群に変換し,RT-MWPMデコーダによって正確に復号化できる適応型プリデコーダを用いて,RT-MWPMデコーダを実現することを目的とする。 効果的なプリデコーダは精度とカバレッジのバランスをとる必要がある。 本稿では,局所性を意識した,強欲なアプローチを用いて,単純なパターンと複雑なパターンの両方をプリデコードする,リアルタイム適応型プリデコーダPromatchを提案する。 私たちのアプローチは2つの重要な要素を保証します。 1)フリップビットのプリマッチの精度が高く、復号精度がプリデコーダによって妨げられないようにし、 2) 時間制約を考慮すれば、メインデコーダの能力に基づいて十分なカバレッジを調整できる。 Promatchは、距離11と13の表面符号を復号できる最初のリアルタイムデコードフレームワークであり、距離13に対して2.6\times 10^{-14}$のLERを実現する。 さらに,最近提案された Astrea-G と並行して Promatch を実行すると,距離 13 に対して MWPM LER に相当する LER が 3.4\times10^{-15}$ となることを示す。

Fault-tolerant quantum computing relies on Quantum Error Correction, which encodes logical qubits into data and parity qubits. Error decoding is the process of translating the measured parity bits into types and locations of errors. To prevent a backlog of errors, error decoding must be performed in real-time. Minimum Weight Perfect Matching (MWPM) is an accurate decoding algorithm for surface code, and recent research has demonstrated real-time implementations of MWPM (RT-MWPM) for a distance of up to 9. Unfortunately, beyond d=9, the number of flipped parity bits in the syndrome, referred to as the Hamming weight of the syndrome, exceeds the capabilities of existing RT-MWPM decoders. In this work, our goal is to enable larger distance RT-MWPM decoders by using adaptive predecoding that converts high Hamming weight syndromes into low Hamming weight syndromes, which are accurately decoded by the RT-MWPM decoder. An effective predecoder must balance both accuracy and coverage. In this paper, we propose Promatch, a real-time adaptive predecoder that predecodes both simple and complex patterns using a locality-aware, greedy approach. Our approach ensures two crucial factors: 1) high accuracy in prematching flipped bits, ensuring that the decoding accuracy is not hampered by the predecoder, and 2) enough coverage adjusted based on the main decoder's capability given the time constraints. Promatch represents the first real-time decoding framework capable of decoding surface codes of distances 11 and 13, achieving an LER of $2.6\times 10^{-14}$ for distance 13. Moreover, we demonstrate that running Promatch concurrently with the recently proposed Astrea-G achieves LER equivalent to MWPM LER, $3.4\times10^{-15}$, for distance 13, representing the first real-time accurate decoder for up-to a distance of 13.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# 補助エッジによる不連続保存正規化

Discontinuity-preserving Normal Integration with Auxiliary Edges ( http://arxiv.org/abs/2404.03138v1 )

ライセンス: Link先を確認
Hyomin Kim, Yucheol Jung, Seungyong Lee, (参考訳) 多くの表面再構成法には正規積分が組み込まれており、これは表面勾配から深度マップを得る過程である。 この過程において、入力は自己閉塞性により不連続な曲面、例えば g を表わすことができる。 入力された正規写像から正確な深度マップを再構築するには、ジャンプから発生する隠れ表面勾配を処理しなければならない。 これらのジャンプを正確にモデル化するために、正規積分領域のための新しい離散化スキームを設計する。 私たちのキーとなるアイデアは補助エッジの導入です。これはドメイン内の断片的にスムースなパッチをブリッジすることで、隠れたジャンプの規模を明示的に表現できるようにします。 補助エッジを用いて,入力正規写像から不連続性と深度マップを最適化する新しいアルゴリズムを設計する。 提案手法は, 繰り返し再重み付き最小二乗と補助エッジ上の跳躍等級の反復フィルタリングを組み合わせることで不連続性を最適化し, 強いスパーシリティ正則化を実現する。 ジャンプの大きさを暗黙的にのみモデル化する従来の不連続保存正規積分法と比較して, ジャンプの明示的な表現により, 厳密な不連続性を正確に再構成する。

Many surface reconstruction methods incorporate normal integration, which is a process to obtain a depth map from surface gradients. In this process, the input may represent a surface with discontinuities, e.g., due to self-occlusion. To reconstruct an accurate depth map from the input normal map, hidden surface gradients occurring from the jumps must be handled. To model these jumps correctly, we design a novel discretization scheme for the domain of normal integration. Our key idea is to introduce auxiliary edges, which bridge between piecewise-smooth patches in the domain so that the magnitude of hidden jumps can be explicitly expressed. Using the auxiliary edges, we design a novel algorithm to optimize the discontinuity and the depth map from the input normal map. Our method optimizes discontinuities by using a combination of iterative re-weighted least squares and iterative filtering of the jump magnitudes on auxiliary edges to provide strong sparsity regularization. Compared to previous discontinuity-preserving normal integration methods, which model the magnitudes of jumps only implicitly, our method reconstructs subtle discontinuities accurately thanks to our explicit representation of jumps allowing for strong sparsity regularization.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# グラフニューラルネットワークにおけるDegree Biasの起源に関する理論的および実証的研究

Theoretical and Empirical Insights into the Origins of Degree Bias in Graph Neural Networks ( http://arxiv.org/abs/2404.03139v1 )

ライセンス: Link先を確認
Arjun Subramonian, Jian Kang, Yizhou Sun, (参考訳) グラフニューラルネットワーク(GNN)は、ノード分類タスクにおいて、低次ノードよりも高次ノードでよく機能する。 この度合いバイアスは、引用ネットワークにおける論文トピックの予測において、低刺激の論文の著者をサイドラインにすることで、社会的疎外化を強化することができる。 研究者は、GNNの度数偏差がなぜ起こるのかという仮説を多数提案しているが、38度の偏差による調査の結果、これらの仮説は厳密に検証されておらず、矛盾する可能性さえあることが判明した。 そこで本稿では,異なるグラフフィルタを用いたメッセージパスGNNにおける次数バイアスの起源を解析する。 我々は、GNNの訓練方法にかかわらず、高次テストノードは誤分類の確率が低いことを証明している。 さらに、次数バイアスは、ノードの次数(例えば、隣人のホモフィリー、隣人の多様性)に関連する様々な要因から生じることを示す。 さらに,訓練中のGNNは,高次ノードよりも低次ノードの損失を緩やかに調整することができるが,訓練の時期が十分に多く,メッセージパッシングGNNは最大トレーニング精度を達成できる。 分析を通して、我々の発見を、以前に提案された学位バイアスの起源の仮説に結びつけ、疑念を抱きながら、一部を支持、統一する。 我々は,8つの一般的な実世界のネットワークに関する理論的知見を検証し,理論的および経験的洞察に基づいて,次数バイアスを緩和するためのロードマップを記述する。

Graph Neural Networks (GNNs) often perform better for high-degree nodes than low-degree nodes on node classification tasks. This degree bias can reinforce social marginalization by, e.g., sidelining authors of lowly-cited papers when predicting paper topics in citation networks. While researchers have proposed numerous hypotheses for why GNN degree bias occurs, we find via a survey of 38 degree bias papers that these hypotheses are often not rigorously validated, and can even be contradictory. Thus, we provide an analysis of the origins of degree bias in message-passing GNNs with different graph filters. We prove that high-degree test nodes tend to have a lower probability of misclassification regardless of how GNNs are trained. Moreover, we show that degree bias arises from a variety of factors that are associated with a node's degree (e.g., homophily of neighbors, diversity of neighbors). Furthermore, we show that during training, some GNNs may adjust their loss on low-degree nodes more slowly than on high-degree nodes; however, with sufficiently many epochs of training, message-passing GNNs can achieve their maximum possible training accuracy, which is not significantly limited by their expressive power. Throughout our analysis, we connect our findings to previously-proposed hypotheses for the origins of degree bias, supporting and unifying some while drawing doubt to others. We validate our theoretical findings on 8 common real-world networks, and based on our theoretical and empirical insights, describe a roadmap to alleviate degree bias.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# Zero-shot Multi-label 分類のためのディバース画像とテーラー画像の生成

Diverse and Tailored Image Generation for Zero-shot Multi-label Classification ( http://arxiv.org/abs/2404.03144v1 )

ライセンス: Link先を確認
Kaixin Zhang, Zhixiang Yuan, Tao Huang, (参考訳) 近年、ゼロショットのマルチラベル分類は、人間のアノテーションを使わずに、目に見えないラベルの予測を行う能力にかなりの注意を払っている。 それにもかかわらず、一般的なアプローチでは、目に見えないものに対する不完全なプロキシとしてクラスをよく使用し、結果として準最適性能をもたらす。 実写画像生成におけるテキスト・画像生成モデルの成功からインスピレーションを得て,未確認ラベルのプロキシレストレーニングに適したトレーニングセットを構築するための合成データを生成するという,革新的なソリューションを提案する。 本稿では,未確認クラスの複数ラベル合成画像を生成する新しい画像生成フレームワークを提案する。 生成した画像の多様性を高めるために,事前学習された大規模言語モデルを用いて多様なプロンプトを生成する。 事前学習したマルチモーダルCLIPモデルを判別器として使用し,生成した画像がターゲットクラスを正確に表現するかどうかを評価する。 これにより、不正確な生成画像の自動フィルタリングが可能となり、分類器の精度が保たれる。 テキストプロンプトを改良し,より正確かつ効果的なマルチラベルオブジェクト生成を実現するために,拡散モデルにおいてテキストエンコーダを微調整するCLIPスコアに基づく識別的損失を導入する。 さらに,本来の特徴の一般化を維持しつつ,視覚的エンコーダ全体の微調整による破滅的な忘れを軽減しつつ,目標タスクの視覚的特徴を高めるために,トランスフォーマーの注意機構にインスパイアされた機能融合モジュールを提案する。 このモジュールは、複数のオブジェクト間のグローバルな依存関係をより効率的に取得するのに役立つ。 提案手法の有効性を実験的に検証し,最先端手法に比較して有意な改善が認められた。

Recently, zero-shot multi-label classification has garnered considerable attention for its capacity to operate predictions on unseen labels without human annotations. Nevertheless, prevailing approaches often use seen classes as imperfect proxies for unseen ones, resulting in suboptimal performance. Drawing inspiration from the success of text-to-image generation models in producing realistic images, we propose an innovative solution: generating synthetic data to construct a training set explicitly tailored for proxyless training on unseen labels. Our approach introduces a novel image generation framework that produces multi-label synthetic images of unseen classes for classifier training. To enhance diversity in the generated images, we leverage a pre-trained large language model to generate diverse prompts. Employing a pre-trained multi-modal CLIP model as a discriminator, we assess whether the generated images accurately represent the target classes. This enables automatic filtering of inaccurately generated images, preserving classifier accuracy. To refine text prompts for more precise and effective multi-label object generation, we introduce a CLIP score-based discriminative loss to fine-tune the text encoder in the diffusion model. Additionally, to enhance visual features on the target task while maintaining the generalization of original features and mitigating catastrophic forgetting resulting from fine-tuning the entire visual encoder, we propose a feature fusion module inspired by transformer attention mechanisms. This module aids in capturing global dependencies between multiple objects more effectively. Extensive experimental results validate the effectiveness of our approach, demonstrating significant improvements over state-of-the-art methods.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# DreamWalk:拡散誘導による宇宙探査

DreamWalk: Style Space Exploration using Diffusion Guidance ( http://arxiv.org/abs/2404.03145v1 )

ライセンス: Link先を確認
Michelle Shu, Charles Herrmann, Richard Strong Bowen, Forrester Cole, Ramin Zabih, (参考訳) テキスト条件の拡散モデルは印象的な画像を生成することができるが、きめ細かい制御に関しては不十分である。 Photoshopのような直接編集ツールとは異なり、テキスト条件付きモデルでは、出力画像に存在する特定の主題のスタイルや量を制御するための特別なテキスト文を構築するため、アーティストが「プロンプトエンジニアリング」を実行する必要がある。 私たちのゴールは、例えば、画像の異なる領域におけるスタイルの強度を調整するなど、プロンプトによって指定されたスタイルや物質をきめ細かな制御を提供することです(第1図)。 我々のアプローチは、テキストプロンプトを概念的要素に分解し、各要素に個別のガイダンス項を単一の拡散過程に適用することである。 本稿では,拡散過程と干渉する画像中の 'emph{where} を制御するためのガイダンススケール関数を提案する。 本手法は,拡散誘導の調整のみに基づくため,拡散モデルのニューラルネットワークの内部層を微調整したり操作したりする必要がなく,LoRAモデルやDreamBoothトレーニングモデルと組み合わせて使用することができる(図2)。 プロジェクトページ: https://mshu1.github.io/dreamwalk.github.io/

Text-conditioned diffusion models can generate impressive images, but fall short when it comes to fine-grained control. Unlike direct-editing tools like Photoshop, text conditioned models require the artist to perform "prompt engineering," constructing special text sentences to control the style or amount of a particular subject present in the output image. Our goal is to provide fine-grained control over the style and substance specified by the prompt, for example to adjust the intensity of styles in different regions of the image (Figure 1). Our approach is to decompose the text prompt into conceptual elements, and apply a separate guidance term for each element in a single diffusion process. We introduce guidance scale functions to control when in the diffusion process and \emph{where} in the image to intervene. Since the method is based solely on adjusting diffusion guidance, it does not require fine-tuning or manipulating the internal layers of the diffusion model's neural network, and can be used in conjunction with LoRA- or DreamBooth-trained models (Figure2). Project page: https://mshu1.github.io/dreamwalk.github.io/
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# 固有プルーニング

Eigenpruning ( http://arxiv.org/abs/2404.03147v1 )

ライセンス: Link先を確認
Tomás Vergara-Browne, Álvaro Soto, Akiko Aizawa, (参考訳) 固有プルーニング(eigenpruning)は、LLMの重み行列から特異値を取り除き、特定のタスクの性能を向上させる手法である。 この方法は、特定のタスクを解決するモデルのサブネットワークを自動的に見つけるために設計された解釈可能性メソッドにインスパイアされている。 実験では, プルーンドモデルでは, 重量行列のプルーニングに最小限の計算しか必要とせず, 元のモデルよりも大きなマージンで性能が向上した。 整数乗算における小さな合成タスクの場合、Phi-2モデルはテストセットの精度を13.75%から97.50%に向上させることができる。 興味深いことに、これらの結果はタスクを効果的に解決できる計算経路の存在を示すものと思われるが、元のモデルでは使われていなかった。 最後に、我々の作業のカメラ対応バージョンで実装をオープンソース化する予定です。

We introduce eigenpruning, a method that removes singular values from weight matrices in an LLM to improve its performance in a particular task. This method is inspired by interpretability methods designed to automatically find subnetworks of a model which solve a specific task. In our tests, the pruned model outperforms the original model by a large margin, while only requiring minimal computation to prune the weight matrices. In the case of a small synthetic task in integer multiplication, the Phi-2 model can improve its accuracy in the test set from 13.75% to 97.50%. Interestingly, these results seem to indicate the existence of a computation path that can solve the task very effectively, but it was not being used by the original model. Finally, we plan to open-source our implementation in the camera-ready version of our work.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# UC Santa Cruz at SemEval-2024 Task 5: Legal Answer Validation using Few-Shot Multi-Choice QA (英語)

NLP at UC Santa Cruz at SemEval-2024 Task 5: Legal Answer Validation using Few-Shot Multi-Choice QA ( http://arxiv.org/abs/2404.03150v1 )

ライセンス: Link先を確認
Anish Pahilajani, Samyak Rajesh Jain, Devasha Trivedi, (参考訳) 本稿では,民事訴訟における第5節第5節第1節第1節第2節第2節第2節第1節第2節第2節第2節第1節第1節第2節第2節第1節第1節第1節第2節第2節第1節第1節第1節第2節第1節第1節第1節第2節第1節第1節第1節第1節第1節第1節第1節第1節第1節第1節第1節第2節第2節 本稿では, 法的回答検証の課題を解決するための2つのアプローチを提案する。 まず、トレーニング済みのBERTベースのモデルを微調整し、ドメイン知識に基づいてトレーニングされたモデルの性能が向上することを発見した。 第2に, GPTモデル上で数発のプロンプトを行い, 回答検証タスクを複数選択QAタスクに書き換えることで, モデルの性能が著しく向上することを発見した。 私たちのベストの応募は、BERTベースのモデルで、20位中7位を獲得しました。

This paper presents our submission to the SemEval 2024 Task 5: The Legal Argument Reasoning Task in Civil Procedure. We present two approaches to solving the task of legal answer validation, given an introduction to the case, a question and an answer candidate. Firstly, we fine-tuned pre-trained BERT-based models and found that models trained on domain knowledge perform better. Secondly, we performed few-shot prompting on GPT models and found that reformulating the answer validation task to be a multiple-choice QA task remarkably improves the performance of the model. Our best submission is a BERT-based model that achieved the 7th place out of 20.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# HandDiff:イメージポイントクラウド上での拡散による3Dハンドポース推定

HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud ( http://arxiv.org/abs/2404.03159v1 )

ライセンス: Link先を確認
Wencan Cheng, Hao Tang, Luc Van Gool, Jong Hwan Ko, (参考訳) 入力ハンドフレームからキーポイント位置を抽出する3Dハンドポーズ推定(英語版)は、様々な人間とコンピュータのインタラクションアプリケーションにおいて重要なタスクである。 基本的に、3Dハンドポーズ推定は、入力フレームに条件付き3Dポイントサブセット生成問題とみなすことができる。 拡散に基づく生成モデルの最近の顕著な進歩により、手振り推定は拡散モデルの恩恵を受け、高品質なキーポイント位置を推定することができる。 しかし、手振り推定を解くために既存の拡散モデルを直接デプロイするのは簡単ではない。 このモチベーションに基づいて,手形のイメージポイント・クラウド上での正確な手ポーズを反復的に認識する拡散型手ポーズ推定モデルであるHandDiffを提案する。 キーポイントの置換と正確な位置を復元するために,さらに結合性のある条件と局所的な詳細条件を導入する。 実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。 コードと事前訓練されたモデルはhttps://github.com/cwc1260/HandDiff.comで公開されている。

Extracting keypoint locations from input hand frames, known as 3D hand pose estimation, is a critical task in various human-computer interaction applications. Essentially, the 3D hand pose estimation can be regarded as a 3D point subset generative problem conditioned on input frames. Thanks to the recent significant progress on diffusion-based generative models, hand pose estimation can also benefit from the diffusion model to estimate keypoint locations with high quality. However, directly deploying the existing diffusion models to solve hand pose estimation is non-trivial, since they cannot achieve the complex permutation mapping and precise localization. Based on this motivation, this paper proposes HandDiff, a diffusion-based hand pose estimation model that iteratively denoises accurate hand pose conditioned on hand-shaped image-point clouds. In order to recover keypoint permutation and accurate location, we further introduce joint-wise condition and local detail condition. Experimental results demonstrate that the proposed HandDiff significantly outperforms the existing approaches on four challenging hand pose benchmark datasets. Codes and pre-trained models are publicly available at https://github.com/cwc1260/HandDiff.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# BioVL-QR:マイクロQRコードを用いたEgocentric Biochemical Video-and-Language Dataset

BioVL-QR: Egocentric Biochemical Video-and-Language Dataset Using Micro QR Codes ( http://arxiv.org/abs/2404.03161v1 )

ライセンス: Link先を確認
Taichi Nishimura, Koki Yamamoto, Yuto Haneji, Keiya Kajimura, Chihiro Nishiwaki, Eriko Daikoku, Natsuko Okuda, Fumihito Ono, Hirotaka Kameko, Shinsuke Mori, (参考訳) 本稿では,24のエゴセントリックな実験ビデオ,対応するプロトコル,およびビデオ・アンド・ランゲージアライメントからなるバイオケミカルビジョン・アンド・ランゲージデータセットを提案する。 ウェットラブ領域の鍵となる課題は、装置、試薬、容器を検知することである。 そのため、従来の研究では、オブジェクトは手動でアノテートされ、下流のタスクに与えられると仮定していたが、これはコストと時間を要する。 そこで本研究では,オブジェクトを自動的に検出するマイクロQRコードに焦点を当てた。 予備研究では、マイクロQRコードのみを用いて物体を検出することは、研究者が物体を操作し、ぼやけや閉塞を頻繁に起こすため、依然として難しいことが判明した。 そこで本研究では,マイクロQRコード検出器とオフザシェルフハンドオブジェクト検出器を組み合わせた新しいオブジェクトラベリング手法を提案する。 データセットの応用の一つとして、実験ビデオからプロトコルを生成するタスクを実行し、我々のアプローチが正確なプロトコルを生成することができることを確かめる。

This paper introduces a biochemical vision-and-language dataset, which consists of 24 egocentric experiment videos, corresponding protocols, and video-and-language alignments. The key challenge in the wet-lab domain is detecting equipment, reagents, and containers is difficult because the lab environment is scattered by filling objects on the table and some objects are indistinguishable. Therefore, previous studies assume that objects are manually annotated and given for downstream tasks, but this is costly and time-consuming. To address this issue, this study focuses on Micro QR Codes to detect objects automatically. From our preliminary study, we found that detecting objects only using Micro QR Codes is still difficult because the researchers manipulate objects, causing blur and occlusion frequently. To address this, we also propose a novel object labeling method by combining a Micro QR Code detector and an off-the-shelf hand object detector. As one of the applications of our dataset, we conduct the task of generating protocols from experiment videos and find that our approach can generate accurate protocols.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# LTRDetector:持続的脅威検出のための長期的関係を探る

LTRDetector: Exploring Long-Term Relationship for Advanced Persistent Threats Detection ( http://arxiv.org/abs/2404.03162v1 )

ライセンス: Link先を確認
Xiaoxiao Liu, Fan Xu, Nan Wang, Qinxin Zhao, Dalin Zhang, Xibin Zhao, Jiqiang Liu, (参考訳) Advanced Persistent Threat (APT) は, 持続時間, 発生頻度, 適応的隠蔽技術により, 検出が困難である。 既存のアプローチは主に、永続的な攻撃ライフサイクルを通じて形成された複雑な関係を無視して、攻撃行動の観測可能な特性に重点を置いている。 そこで我々はLTRDetectorという革新的なAPT検出フレームワークを提案し、エンドツーエンドの総合的な操作を実装した。 LTRDetectorは、包括的な文脈情報を保持するために革新的なグラフ埋め込み技術を使用し、これらの埋め込み前駆グラフから長期的な特徴を導出する。 プロセス中、有効な特徴学習のためにシステム証明グラフのデータを圧縮する。 さらに,ゼロデイエクスプロイトによる攻撃を検出するため,事前に定義された攻撃シグネチャに頼ることなく,システムの通常の動作を捉え,異常な動作を検出する。 また,従来の最先端技術と比較して,LTRDetectorの優位性を裏付ける有効性評価を5つの顕著なデータセットを用いて行った。

Advanced Persistent Threat (APT) is challenging to detect due to prolonged duration, infrequent occurrence, and adept concealment techniques. Existing approaches primarily concentrate on the observable traits of attack behaviors, neglecting the intricate relationships formed throughout the persistent attack lifecycle. Thus, we present an innovative APT detection framework named LTRDetector, implementing an end-to-end holistic operation. LTRDetector employs an innovative graph embedding technique to retain comprehensive contextual information, then derives long-term features from these embedded provenance graphs. During the process, we compress the data of the system provenance graph for effective feature learning. Furthermore, in order to detect attacks conducted by using zero-day exploits, we captured the system's regular behavior and detects abnormal activities without relying on predefined attack signatures. We also conducted extensive evaluations using five prominent datasets, the efficacy evaluation of which underscores the superiority of LTRDetector compared to existing state-of-the-art techniques.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# 言語モデルの不確かさ:ランクキャリブレーションによる評価

Uncertainty in Language Models: Assessment through Rank-Calibration ( http://arxiv.org/abs/2404.03163v1 )

ライセンス: Link先を確認
Xinmeng Huang, Shuo Li, Mengxin Yu, Matteo Sesia, Hamed Hassani, Insup Lee, Osbert Bastani, Edgar Dobriban, (参考訳) 言語モデル(LM)は、自然言語生成において有望な性能を示している。 しかし、LMはしばしば誤ったあるいは幻覚的な応答を生成するため、与えられた入力に応答する際の不確かさを正しく定量化することが重要である。 プロンプトによって誘発される言語化された自信に加えて、多くの不確実性対策(例えば、意味エントロピー、親和性グラフに基づく尺度)が提案されている。 しかし、これらの測度は大きな違いがあり、異なる範囲(例えば $, $[0,\infty)$ または $[0,1]$)で値を取るため、どのように比較するかは不明である。 本稿では,LMの確実性と信頼性を評価するために,新規で実用的なフレームワークである$Rank$-$Calibration$を開発し,この問題に対処する。 私たちのキーテットは、高い不確実性(または低い信頼)は、平均して世代品質を低下させるべきだ、ということです。 ランクキャリブレーションは、正当性スコア(例えば、ROUGEやMETEOR)のアドホックな二項しきい値を必要とすることなく、この理想的関係からの偏差を原則的に定量化する。 本手法の広範な適用性と粒度の解釈性について実験的に検証した。

Language Models (LMs) have shown promising performance in natural language generation. However, as LMs often generate incorrect or hallucinated responses, it is crucial to correctly quantify their uncertainty in responding to given inputs. In addition to verbalized confidence elicited via prompting, many uncertainty measures ($e.g.$, semantic entropy and affinity-graph-based measures) have been proposed. However, these measures can differ greatly, and it is unclear how to compare them, partly because they take values over different ranges ($e.g.$, $[0,\infty)$ or $[0,1]$). In this work, we address this issue by developing a novel and practical framework, termed $Rank$-$Calibration$, to assess uncertainty and confidence measures for LMs. Our key tenet is that higher uncertainty (or lower confidence) should imply lower generation quality, on average. Rank-calibration quantifies deviations from this ideal relationship in a principled manner, without requiring ad hoc binary thresholding of the correctness score ($e.g.$, ROUGE or METEOR). The broad applicability and the granular interpretability of our methods are demonstrated empirically.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# 知識グラフはレコメンダシステムにとって本当に重要か?

Does Knowledge Graph Really Matter for Recommender Systems? ( http://arxiv.org/abs/2404.03164v1 )

ライセンス: Link先を確認
Haonan Zhang, Dongxia Wang, Zhu Sun, Yanhui Li, Youcheng Sun, Huizhi Liang, Wenhai Wang, (参考訳) Recommender System(RS)は、ユーザにパーソナライズされたレコメンデーションを提供するように設計されている。 近年,リコメンデーション精度を向上させるため,知識グラフ(KG)がRSに広く導入されている。 しかし,本研究では,KGがユーザ・イテム相互作用グラフのみにダウングレードされたり,削除されたりしても,RSは必ずしも悪化しないことを示した。 提案手法では,提案手法を用いて,KGがKGベースRSの推薦精度にどの程度貢献するかを,提案手法を用いて体系的に評価する。 KGの知識が完全に取り除かれ、ランダムに歪められ、減少するシナリオや、コールドスタートユーザのためのレコメンデーションも考慮する。 一般的に使用されている4つのデータセットと、最先端のKGベースのRSに関する広範な実験は、次のように示している。 これらの知見は、既存のKGの知識をより有効活用する方法を再考するきっかけとなり、データセットとKGベースのRSの特徴がKGの利用効率を改善するのにどう役立つかを議論し、洞察する。

Recommender systems (RSs) are designed to provide personalized recommendations to users. Recently, knowledge graphs (KGs) have been widely introduced in RSs to improve recommendation accuracy. In this study, however, we demonstrate that RSs do not necessarily perform worse even if the KG is downgraded to the user-item interaction graph only (or removed). We propose an evaluation framework KG4RecEval to systematically evaluate how much a KG contributes to the recommendation accuracy of a KG-based RS, using our defined metric KGER (KG utilization efficiency in recommendation). We consider the scenarios where knowledge in a KG gets completely removed, randomly distorted and decreased, and also where recommendations are for cold-start users. Our extensive experiments on four commonly used datasets and a number of state-of-the-art KG-based RSs reveal that: to remove, randomly distort or decrease knowledge does not necessarily decrease recommendation accuracy, even for cold-start users. These findings inspire us to rethink how to better utilize knowledge from existing KGs, whereby we discuss and provide insights into what characteristics of datasets and KG-based RSs may help improve KG utilization efficiency.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# 非変分量子組合せ最適化

Non-variational Quantum Combinatorial Optimisation ( http://arxiv.org/abs/2404.03167v1 )

ライセンス: Link先を確認
Tavis Bennett, Lyle Noakes, Jingbo Wang, (参考訳) 本稿では,様々な組合せ最適化問題を解くために,非変分量子アルゴリズムを提案する。 このアルゴリズムは、2つのユニタリの繰り返し適用によって達成されるエンジニアリングされた干渉プロセスを利用する。一方は目的関数値に依存する位相シフトを誘導し、もう一方は問題固有のグラフ上の連続時間量子ウォーク(CTQW)を介して位相シフトされた確率振幅を混合する。 アルゴリズムの汎用性は、様々な問題、すなわち解がバイナリ変数のベクトル、非バイナリ整数変数のベクトル、あるいは置換(繰り返しを持たない整数変数のベクトル)によって特徴づけられることを通じて示される。 これらの問題の種類ごとにCTQWの効率的な量子回路の実装についても論じる。 ペナルティ関数を最適化する方法を含む制約付き問題に対するペナルティ関数アプローチも導入する。 アルゴリズムの性能は、重み付きマックスカット(18頂点)、最大独立セット(18頂点)、k平均クラスタリング(12データポイント、3クラスタ)、容量化された施設位置(12顧客、3施設位置)、二次割り当て問題(9箇所)のランダムに生成されたインスタンスの数値シミュレーションによって実証される。 各問題インスタンスに対して、アルゴリズムは少数の反復で大域的に最適な解を求める。

This paper introduces a non-variational quantum algorithm designed to solve a wide range of combinatorial optimisation problems. The algorithm leverages an engineered interference process achieved through repeated application of two unitaries; one inducing phase-shifts dependent on objective function values, and the other mixing phase-shifted probability amplitudes via a continuous-time quantum walk (CTQW) on a problem-specific graph. The algorithm's versatility is demonstrated through its application to various problems, namely those for which solutions are characterised by either a vector of binary variables, a vector of non-binary integer variables, or permutations (a vector of integer variables without repetition). An efficient quantum circuit implementation of the CTQW for each of these problem types is also discussed. A penalty function approach for constrained problems is also introduced, including a method for optimising the penalty function. The algorithm's performance is demonstrated through numerical simulation for randomly generated instances of the following problems (and problem sizes): weighted maxcut (18 vertices), maximum independent set (18 vertices), k-means clustering (12 datapoints, 3 clusters), capacitated facility location (12 customers, 3 facility locations), and the quadratic assignment problem (9 locations). For each problem instance, the algorithm finds a globally optimal solution with a small number of iterations.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# 故障した量子軌道の漸近的浄化

Asymptotic Purification of Disordered Quantum Trajectories ( http://arxiv.org/abs/2404.03168v1 )

ライセンス: Link先を確認
Owen Ekblad, Eloy Moreno-Nadales, Lubashan Pathirana, Jeffrey Schenker, (参考訳) 時間依存的不規則環境における量子軌道の理論について研究した。 本研究では,不必要だが定常的な測定を繰り返すことによって得られる量子軌道の挙動を研究できる一般的な枠組みを開発する。 この枠組みを用いることで、K\"ummerer と Maassen [KM] の漸近的浄化結果を現在の設定に一般化することができる。 特に、[KM] からのダーク部分空間の概念は現在の設定に一般化され、[KM] の主定理を乱の場合へ持ち上げることができる。

The theory of quantum trajectories in a time-dependent disordered environment is studied. We develop a general framework in which one can study the behavior of quantum trajectories that are obtained by repeated not-necessarily-independent but stationary measurements. Using this framework, we are able to generalize the asymptotic purification results of K\"ummerer and Maassen [KM] to the current setting. Most notably, the concept of a dark subspace from [KM] is generalized to the current setting, which enables us to lift the main theorem of [KM] to the disordered case.
翻訳日:2024-04-05 16:03:13 公開日:2024-04-04
# WebAssemblyリバースエンジニアリングのためのマルチモーダル学習

Multi-modal Learning for WebAssembly Reverse Engineering ( http://arxiv.org/abs/2404.03171v1 )

ライセンス: Link先を確認
Hanxian Huang, Jishen Zhao, (参考訳) パフォーマンスクリティカルでセキュリティに敏感なタスクに対するWebAssembly(Wasm)の採用の増加により、WebAssemblyプログラムの理解とリバースエンジニアリングの需要が高まっている。 最近の研究は、機械学習(ML)ベースのWebAssemblyリバースエンジニアリングツールを導入している。 しかし、タスク固有のMLソリューションの一般化は、その有効性は、高品質なタスク固有のラベル付きデータの十分な供給にかかっているため、依然として困難である。 さらに、以前の研究は、ソースコードとそのドキュメントにあるハイレベルなセマンティクスを見落としていた。 WebAssemblyにコンパイル可能なドキュメントで利用可能なソースコードが豊富であることを認識し、その表現を同時に学習し、WebAssemblyのリバースエンジニアリングに相互関係を活用することを提案する。 本稿では、WebAssemblyリバースエンジニアリングのための最初のマルチモーダル事前訓練言語モデルであるWasmRevを紹介する。 WasmRevは、ラベル付きデータを必要とせず、ソースコード、コードドキュメンテーション、コンパイルされたWebAssemblyを含む大規模なマルチモーダルコーパスで、自己教師付き学習を使用して事前トレーニングされている。 WasmRevには3つの調整されたマルチモーダル事前トレーニングタスクが組み込まれている。 WasmRevは、ラベル付きデータの少ない数ショットの微調整によってWebAssemblyのリバースエンジニアリングタスクを広くサポートする汎用表現を生成するために、一度だけ訓練されている。 WasmRevを3つの重要なリバースエンジニアリングタスク、タイプリカバリ、関数目的の識別、WebAssemblyの要約に微調整します。 以上の結果から,WasmRevがマルチモーダルサンプルのコーパスで事前訓練されたことにより,タスクの精度が向上し,WebAssemblyのリバースエンジニアリングにおける最先端のMLメソッドよりも優れていることが示唆された。

The increasing adoption of WebAssembly (Wasm) for performance-critical and security-sensitive tasks drives the demand for WebAssembly program comprehension and reverse engineering. Recent studies have introduced machine learning (ML)-based WebAssembly reverse engineering tools. Yet, the generalization of task-specific ML solutions remains challenging, because their effectiveness hinges on the availability of an ample supply of high-quality task-specific labeled data. Moreover, previous works overlook the high-level semantics present in source code and its documentation. Acknowledging the abundance of available source code with documentation, which can be compiled into WebAssembly, we propose to learn representations of them concurrently and harness their mutual relationships for effective WebAssembly reverse engineering. In this paper, we present WasmRev, the first multi-modal pre-trained language model for WebAssembly reverse engineering. WasmRev is pre-trained using self-supervised learning on a large-scale multi-modal corpus encompassing source code, code documentation and the compiled WebAssembly, without requiring labeled data. WasmRev incorporates three tailored multi-modal pre-training tasks to capture various characteristics of WebAssembly and cross-modal relationships. WasmRev is only trained once to produce general-purpose representations that can broadly support WebAssembly reverse engineering tasks through few-shot fine-tuning with much less labeled data, improving data efficiency. We fine-tune WasmRev onto three important reverse engineering tasks: type recovery, function purpose identification and WebAssembly summarization. Our results show that WasmRev pre-trained on the corpus of multi-modal samples establishes a robust foundation for these tasks, achieving high task accuracy and outperforming the state-of-the-art ML methods for WebAssembly reverse engineering.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# SEPE-SQED:意味的に等価なプログラム実行によるシンボル的クイックエラー検出

SEPE-SQED: Symbolic Quick Error Detection by Semantically Equivalent Program Execution ( http://arxiv.org/abs/2404.03172v1 )

ライセンス: Link先を確認
Yufeng Li, Qiusong Yang, Yiwei Ci, Enyuan Tian, (参考訳) シンボリッククイックエラー検出(SQED)は、フォーマルチップ検証の効率を大幅に改善した。 しかし,自己整合性に依存した単一命令バグの検出には限界がある。 そこで本研究では,意味論的に等価なプログラム実行(SEPE-SQED)を用いた記号的クイックエラー検出法を提案する。 SEPE-SQEDは、元の命令とその意味論的に等価なプログラム(命令シーケンス)への影響を識別することにより、単一命令バグを効果的に検出する。 プログラム合成に関連する探索空間を管理するために,最優先の第1アルゴリズムに基づくCEGISを導入する。 実験の結果,提案手法は,従来の手法と比較して,所望の等価プログラムセットを50%高速化することを示した。 SQEDと比較して、SEPE-SQEDは幅広い命令の組み合わせを提供し、特定のシナリオでバグをトリガーするための短いトレースを提供する。

Symbolic quick error detection (SQED) has greatly improved efficiency in formal chip verification. However, it has a limitation in detecting single-instruction bugs due to its reliance on the self-consistency property. To address this, we propose a new variant called symbolic quick error detection by semantically equivalent program execution (SEPE-SQED), which utilizes program synthesis techniques to find sequences with equivalent meanings to original instructions. SEPE-SQED effectively detects single-instruction bugs by differentiating their impact on the original instruction and its semantically equivalent program (instruction sequence). To manage the search space associated with program synthesis, we introduce the CEGIS based on the highest priority first algorithm. The experimental results show that our proposed CEGIS approach improves the speed of generating the desired set of equivalent programs by 50% in time compared to previous methods. Compared to SQED, SEPE-SQED offers a wider variety of instruction combinations and can provide a shorter trace for triggering bugs in certain scenarios.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# ディープニューラルネットワークのための情報理論一般化境界

Information-Theoretic Generalization Bounds for Deep Neural Networks ( http://arxiv.org/abs/2404.03176v1 )

ライセンス: Link先を確認
Haiyun He, Christina Lee Yu, Ziv Goldfeld, (参考訳) ディープニューラルネットワーク(DNN)は、実用的な応用において、非常に優れた一般化能力を示す。 本研究の目的は,情報理論の一般化境界による教師あり学習における深度の影響とメリットを捉えることである。 まず、KL(Kullback-Leibler)の発散や、列車間の1-ワッサーシュタイン距離とネットワーク内部表現の試験分布の2つの階層的境界を導出する。 層指数が増加するにつれて KL の発散境界は縮小し、一方ワッサーシュタイン境界は1-ワッサーシュタイン距離が最小となる一般化ファンネルとして機能する層の存在を意味する。 両境界に対する解析式は、線形DNNによる二進ガウス分類の設定の下で導出される。 そこで本研究では,DNNモデルの連続層間における強データ処理の不等式(SDPI)係数(Dropout, DropConnect, Gaussianノイズインジェクション)を分析する。 これにより、一般化境界を書き換えて、ネットワークアーキテクチャパラメータの関数として収縮を捉えることができます。 有限パラメータ空間を持つ DNN と Gibbs のアルゴリズムにより、これらの例ではより深く、より狭いネットワークアーキテクチャがより一般化されることが分かるが、この主張がいかに広く適用されるかは疑問である。

Deep neural networks (DNNs) exhibit an exceptional capacity for generalization in practical applications. This work aims to capture the effect and benefits of depth for supervised learning via information-theoretic generalization bounds. We first derive two hierarchical bounds on the generalization error in terms of the Kullback-Leibler (KL) divergence or the 1-Wasserstein distance between the train and test distributions of the network internal representations. The KL divergence bound shrinks as the layer index increases, while the Wasserstein bound implies the existence of a layer that serves as a generalization funnel, which attains a minimal 1-Wasserstein distance. Analytic expressions for both bounds are derived under the setting of binary Gaussian classification with linear DNNs. To quantify the contraction of the relevant information measures when moving deeper into the network, we analyze the strong data processing inequality (SDPI) coefficient between consecutive layers of three regularized DNN models: Dropout, DropConnect, and Gaussian noise injection. This enables refining our generalization bounds to capture the contraction as a function of the network architecture parameters. Specializing our results to DNNs with a finite parameter space and the Gibbs algorithm reveals that deeper yet narrower network architectures generalize better in those examples, although how broadly this statement applies remains a question.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# UniAV:マルチタスクビデオローカライゼーションのための統一型オーディオ・ビジュアル・パーセプション

UniAV: Unified Audio-Visual Perception for Multi-Task Video Localization ( http://arxiv.org/abs/2404.03179v1 )

ライセンス: Link先を確認
Tiantian Geng, Teng Wang, Yanfu Zhang, Jinming Duan, Weili Guan, Feng Zheng, (参考訳) ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。 既存の方法はタスクごとに過度に特殊化され、これらのインスタンスが同じビデオ内でしばしば発生し、完全なビデオコンテンツを形成するという事実を見落としている。 そこで本研究では, TAL, SED, AVELタスクの協調学習を初めて行うために, Unified Audio-Visual Recognition Network (UniAV) を提案する。 UniAVはタスク固有のデータセットで利用可能な多様なデータを活用することができ、モデルがタスクやモダリティ間で相互に有益な知識を学習し、共有することができる。 データセット(サイズ/ドメイン/デュレーション)とタスク特性の相違による課題に対処するため,全ビデオの視覚的・音声的モダリティを一様にエンコードして汎用表現を導出するとともに,タスク固有の専門家を設計し,各タスクのユニークな知識を捉えることを提案する。 さらに,事前学習したテキストエンコーダを利用して,様々なタイプのインスタンスを柔軟に検出し,推論中のプロンプトを単純に変更することで,従来は見つからなかったものを認識できる統一型言語認識分類器を開発した。 UniAVは、ActivityNet 1.3、DESED、UnAV-100ベンチマークをまたいだ最先端のタスク固有のメソッドと比較して、パラメータの少ないシングルタスクよりもパフォーマンスが優れている。

Video localization tasks aim to temporally locate specific instances in videos, including temporal action localization (TAL), sound event detection (SED) and audio-visual event localization (AVEL). Existing methods over-specialize on each task, overlooking the fact that these instances often occur in the same video to form the complete video content. In this work, we present UniAV, a Unified Audio-Visual perception network, to achieve joint learning of TAL, SED and AVEL tasks for the first time. UniAV can leverage diverse data available in task-specific datasets, allowing the model to learn and share mutually beneficial knowledge across tasks and modalities. To tackle the challenges posed by substantial variations in datasets (size/domain/duration) and distinct task characteristics, we propose to uniformly encode visual and audio modalities of all videos to derive generic representations, while also designing task-specific experts to capture unique knowledge for each task. Besides, we develop a unified language-aware classifier by utilizing a pre-trained text encoder, enabling the model to flexibly detect various types of instances and previously unseen ones by simply changing prompts during inference. UniAV outperforms its single-task counterparts by a large margin with fewer parameters, achieving on-par or superior performances compared to state-of-the-art task-specific methods across ActivityNet 1.3, DESED and UnAV-100 benchmarks.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# Goldfish: 効果的なフェデレーション・アンラーニングフレームワーク

Goldfish: An Efficient Federated Unlearning Framework ( http://arxiv.org/abs/2404.03180v1 )

ライセンス: Link先を確認
Houzhe Wang, Xiaojie Zhu, Chi Chen, Paulo Esteves-Veríssimo, (参考訳) 忘れられる権利に関する最近の法律により、機械学習は重要な研究領域として浮上してきた。 これにより、スクラッチから再トレーニングする必要なく、フェデレーション付きトレーニングされた機械学習モデルからユーザのデータを削除することができる。 しかし、現在の機械学習アルゴリズムは効率と妥当性の課題に直面しており、上記の問題に対処するため、Goldfishという新しいフレームワークを提案する。 基本モデル、損失関数、最適化、拡張の4つのモジュールで構成されている。 既存の機械学習アルゴリズムの妥当性の低い課題に対処するため,新しい損失関数を提案する。 残りのデータセットの予測と実際のラベルの相違から生じる損失を考慮に入れます。 同時に、削除されたデータセットの予測結果のバイアスを考慮する。 さらに、予測結果の信頼度も考慮する。 さらに, 基礎モデルに知識蒸留技術を導入し, 経験的リスクとデータ分割機構によって導かれる早期終了機構を含む最適化モジュールを導入する。 さらに, 集約モデルのロバスト性を高めるために, ユーザの局所データの不均一性に対処するための適応蒸留温度を用いた機構と, アップロードしたモデルの品質の多様性を扱うための適応重みを用いた機構を組み込んだ拡張モジュールを提案する。 最後に,提案手法の有効性を示す総合的な実験を行った。

With recent legislation on the right to be forgotten, machine unlearning has emerged as a crucial research area. It facilitates the removal of a user's data from federated trained machine learning models without the necessity for retraining from scratch. However, current machine unlearning algorithms are confronted with challenges of efficiency and validity.To address the above issues, we propose a new framework, named Goldfish. It comprises four modules: basic model, loss function, optimization, and extension. To address the challenge of low validity in existing machine unlearning algorithms, we propose a novel loss function. It takes into account the loss arising from the discrepancy between predictions and actual labels in the remaining dataset. Simultaneously, it takes into consideration the bias of predicted results on the removed dataset. Moreover, it accounts for the confidence level of predicted results. Additionally, to enhance efficiency, we adopt knowledge distillation technique in basic model and introduce an optimization module that encompasses the early termination mechanism guided by empirical risk and the data partition mechanism. Furthermore, to bolster the robustness of the aggregated model, we propose an extension module that incorporates a mechanism using adaptive distillation temperature to address the heterogeneity of user local data and a mechanism using adaptive weight to handle the variety in the quality of uploaded models. Finally, we conduct comprehensive experiments to illustrate the effectiveness of proposed approach.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# MonoCD: 補足深度による単眼3次元物体検出

MonoCD: Monocular 3D Object Detection with Complementary Depths ( http://arxiv.org/abs/2404.03181v1 )

ライセンス: Link先を確認
Longfei Yan, Pei Yan, Shengzhou Xiong, Xuanyu Xiang, Yihua Tan, (参考訳) モノクロ3次元物体検出は、単一の画像からの物体3次元位置決めを低コストで正確に得る可能性から、広く注目を集めている。 深度推定は2次元から3次元へのマッピングの不適切さによる単眼的な3次元物体検出に不可欠だが挑戦的なサブタスクである。 多くの手法は、物体の高さやキーポイントなどの複数の局所的な深度手がかりを探索し、その後、物体の深度推定を複数の深度予測のアンサンブルとして定式化し、単一深度情報の不十分さを軽減する。 しかし、既存の多重深さの誤差は同じ符号を持つ傾向にあり、それによって互いに中和を妨げ、組み合わせた深さの全体的な精度を制限する。 この問題を軽減するために,2つの新しい設計で深度の相補性を高めることを提案する。 まず、局所的な手がかりではなく、全体像からのグローバルかつ効率的な深度手がかりを利用して、深度予測の相関を小さくする補完深度予測枝を新たに追加する。 次に,複数の奥行き手がかり間の幾何学的関係をフル活用し,相補性を実現することを提案する。 これらの設計により,本手法は高い相補性を実現する。 KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。 さらに、補完的な深さは軽量でプラグアンドプレイのモジュールであり、既存の複数のモノクル3d物体検出器を増強することができる。 コードはhttps://github.com/elvintanhust/MonoCDで入手できる。

Monocular 3D object detection has attracted widespread attention due to its potential to accurately obtain object 3D localization from a single image at a low cost. Depth estimation is an essential but challenging subtask of monocular 3D object detection due to the ill-posedness of 2D to 3D mapping. Many methods explore multiple local depth clues such as object heights and keypoints and then formulate the object depth estimation as an ensemble of multiple depth predictions to mitigate the insufficiency of single-depth information. However, the errors of existing multiple depths tend to have the same sign, which hinders them from neutralizing each other and limits the overall accuracy of combined depth. To alleviate this problem, we propose to increase the complementarity of depths with two novel designs. First, we add a new depth prediction branch named complementary depth that utilizes global and efficient depth clues from the entire image rather than the local clues to reduce the correlation of depth predictions. Second, we propose to fully exploit the geometric relations between multiple depth clues to achieve complementarity in form. Benefiting from these designs, our method achieves higher complementarity. Experiments on the KITTI benchmark demonstrate that our method achieves state-of-the-art performance without introducing extra data. In addition, complementary depth can also be a lightweight and plug-and-play module to boost multiple existing monocular 3d object detectors. Code is available at https://github.com/elvintanhust/MonoCD.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# 行列積作用素としての離散フーリエ変換の直接補間構成

Direct interpolative construction of the discrete Fourier transform as a matrix product operator ( http://arxiv.org/abs/2404.03182v1 )

ライセンス: Link先を確認
Jielun Chen, Michael Lindsey, (参考訳) 量子フーリエ変換 (QFT) は離散フーリエ変換 (DFT) の回帰と見なすことができ、低ランク行列積演算子 (MPO) や量子テンソルトレイン (QTT) 演算子 (QTT) として圧縮可能であることが示されている。 しかし、この事実の元々の証明は、保証された誤差境界を持つMPOの構成を与えるものではない。 一方、量子回路の圧縮に基づく既存のMPOの実用的構築は、可能な限り効率的ではない。 補間分解を用いたQFT MPOの簡単なクローズドフォーム構成を提案し、与えられたランクに対する近似圧縮誤差を保証した。 この構成は、量子回路シミュレーションとQTTアプリケーションにおいて、それぞれQFTとDFTの適用を高速化することができる。 また、補間構造を近似量子フーリエ変換(AQFT)に接続し、異なる補間スキームを用いて構築されたMPOとしてAQFTを見ることができることを示す。

The quantum Fourier transform (QFT), which can be viewed as a reindexing of the discrete Fourier transform (DFT), has been shown to be compressible as a low-rank matrix product operator (MPO) or quantized tensor train (QTT) operator. However, the original proof of this fact does not furnish a construction of the MPO with a guaranteed error bound. Meanwhile, the existing practical construction of this MPO, based on the compression of a quantum circuit, is not as efficient as possible. We present a simple closed-form construction of the QFT MPO using the interpolative decomposition, with guaranteed near-optimal compression error for a given rank. This construction can speed up the application of the QFT and the DFT, respectively, in quantum circuit simulations and QTT applications. We also connect our interpolative construction to the approximate quantum Fourier transform (AQFT) by demonstrating that the AQFT can be viewed as an MPO constructed using a different interpolation scheme.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# BodyMAP -- ベッドの人のための人体メッシュと3D応用圧力マップを共同で予測する

BodyMAP -- Jointly Predicting Body Mesh and 3D Applied Pressure Map for People in Bed ( http://arxiv.org/abs/2404.03183v1 )

ライセンス: Link先を確認
Abhishek Tandon, Anujraaj Goyal, Henry M. Clever, Zackory Erickson, (参考訳) 3次元の圧力マップで体メッシュ(3Dポーズと形状)として視覚化されたベッドで休息する人の体に作用する3次元姿勢と圧力を正確に予測することは、特に圧力潰瘍の予防において医療応用に有意な可能性を秘めている。 現在の手法では、問題の特異な面に注目しており、2D/3Dのポーズのみを予測し、2Dの圧力画像を生成し、全身の代わりに特定の身体領域のみを予測し、3Dの圧力マップに間接的な近似を形成する。 対照的に,人体メッシュと人体全体にわたる3次元加圧マップを共同で予測するBodyMAPを導入する。 本ネットワークは,ベッド内の人物の深度画像と,圧力感知マットレスから取得した2次元圧力画像とを併用して,複数の視覚的モダリティを利用する。 3次元圧力マップは、各メッシュ頂点における圧力値として表され、体上の高圧領域の正確な位置決めを可能にする。 さらに,感性2次元圧力像と予測された3次元圧力図の微分可能な2次元投影とを整列させて3次元の圧力を暗黙的に学習する新しい圧力予測法であるBodyMAP-WSを提案する。 実世界の人体データを用いた評価では, ベッド内の人体メッシュおよび3次元圧力マップ予測タスクにおいて, 現在の最先端技術よりも25%優れていた。

Accurately predicting the 3D human posture and the pressure exerted on the body for people resting in bed, visualized as a body mesh (3D pose & shape) with a 3D pressure map, holds significant promise for healthcare applications, particularly, in the prevention of pressure ulcers. Current methods focus on singular facets of the problem -- predicting only 2D/3D poses, generating 2D pressure images, predicting pressure only for certain body regions instead of the full body, or forming indirect approximations to the 3D pressure map. In contrast, we introduce BodyMAP, which jointly predicts the human body mesh and 3D applied pressure map across the entire human body. Our network leverages multiple visual modalities, incorporating both a depth image of a person in bed and its corresponding 2D pressure image acquired from a pressure-sensing mattress. The 3D pressure map is represented as a pressure value at each mesh vertex and thus allows for precise localization of high-pressure regions on the body. Additionally, we present BodyMAP-WS, a new formulation of pressure prediction in which we implicitly learn pressure in 3D by aligning sensed 2D pressure images with a differentiable 2D projection of the predicted 3D pressure maps. In evaluations with real-world human data, our method outperforms the current state-of-the-art technique by 25% on both body mesh and 3D applied pressure map prediction tasks for people in bed.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# 特徴工学の死? BERTとSQuAD 2.0の言語学的特徴

The Death of Feature Engineering? BERT with Linguistic Features on SQuAD 2.0 ( http://arxiv.org/abs/2404.03184v1 )

ライセンス: Link先を確認
Jiawei Li, Yue Zhang, (参考訳) 機械読解は、コンテキストとクエリのペアを取り込んで、クエリに対する応答を予測する、必須の自然言語処理タスクである。 本稿では,BERTと追加言語機能を組み合わせたエンドツーエンドの質問応答モデルを開発した。 BERTのベースモデルは,特徴を取り入れることで改善されると結論付けた。 EMスコアとF1スコアはBERT(base)と比較して2.17と2.14が改善されている。 私たちの最高のシングルモデルは、隠れテストセットでEMスコア76.55とF1スコア79.97に到達します。 我々の誤り分析は、言語アーキテクチャがコンテキストをよりよく理解するのに役立ち、BERT が "No Answer" を誤って予測した答えを見つけるのに役立ちます。

Machine reading comprehension is an essential natural language processing task, which takes into a pair of context and query and predicts the corresponding answer to query. In this project, we developed an end-to-end question answering model incorporating BERT and additional linguistic features. We conclude that the BERT base model will be improved by incorporating the features. The EM score and F1 score are improved 2.17 and 2.14 compared with BERT(base). Our best single model reaches EM score 76.55 and F1 score 79.97 in the hidden test set. Our error analysis also shows that the linguistic architecture can help model understand the context better in that it can locate answers that BERT only model predicted "No Answer" wrongly.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# AGL-NET: 空域のクロスモーダルなグローバルなローカライゼーション

AGL-NET: Aerial-Ground Cross-Modal Global Localization with Varying Scales ( http://arxiv.org/abs/2404.03187v1 )

ライセンス: Link先を確認
Tianrui Guan, Ruiqi Xian, Xijun Wang, Xiyang Wu, Mohamed Elnoor, Daeun Song, Dinesh Manocha, (参考訳) 我々は,LiDAR点雲と衛星地図を用いたグローバルローカライゼーションのための新しい学習手法であるAGL-NETを提案する。 AGL-NETは、ロバストな特徴マッチングのために、イメージとポイントの間の表現ギャップを埋めること、グローバルビューとローカルビューの間の固有のスケールの相違に対処する、という2つの重要な課題に取り組む。 これらの課題に対処するため、AGL-NETは新たな2段階マッチング設計で統一されたネットワークアーキテクチャを活用している。 第1段階は、生センサデータから直接情報的ニューラル特徴を抽出し、初期特徴マッチングを実行する。 第2段階は、情報的骨格の特徴を抽出し、新しいスケールアライメントステップを導入して、LiDARとマップデータのスケール変動を補正することにより、このマッチングプロセスを洗練する。 さらに、新しいスケールと骨格損失関数は、スケール不変の特徴表現の学習に向けてネットワークを誘導し、衛星地図の事前処理の必要性を排除する。 これにより、未知のマップスケールのシナリオにおける実世界の適用性が大幅に向上する。 厳密な性能評価を容易にするため,メカニカルローカライゼーショントレーニングとアセスメントに適したCARLAシミュレータ内に,精密に設計されたデータセットを導入する。 コードとデータセットは一般公開される予定だ。

We present AGL-NET, a novel learning-based method for global localization using LiDAR point clouds and satellite maps. AGL-NET tackles two critical challenges: bridging the representation gap between image and points modalities for robust feature matching, and handling inherent scale discrepancies between global view and local view. To address these challenges, AGL-NET leverages a unified network architecture with a novel two-stage matching design. The first stage extracts informative neural features directly from raw sensor data and performs initial feature matching. The second stage refines this matching process by extracting informative skeleton features and incorporating a novel scale alignment step to rectify scale variations between LiDAR and map data. Furthermore, a novel scale and skeleton loss function guides the network toward learning scale-invariant feature representations, eliminating the need for pre-processing satellite maps. This significantly improves real-world applicability in scenarios with unknown map scales. To facilitate rigorous performance evaluation, we introduce a meticulously designed dataset within the CARLA simulator specifically tailored for metric localization training and assessment. The code and dataset will be made publicly available.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# DenseNetディープラーニングアーキテクチャを用いた鼻咽喉科症例の分類

Classification of Nasopharyngeal Cases using DenseNet Deep Learning Architecture ( http://arxiv.org/abs/2404.03188v1 )

ライセンス: Link先を確認
W. S. H. M. W. Ahmad, M. F. A. Fauzi, M. K. Abdullahi, Jenny T. H. Lee, N. S. A. Basry, A Yahaya, A. M. Ismail, A. Adam, Elaine W. L. Chan, F. S. Abas, (参考訳) 鼻咽頭癌(Nasopharyngeal carcinoma, NPC)は, 東南アジアで最多の死亡例である。 マレーシアでは、主にサラワク(英語版)でビダウ族(英語版)と同一視されている。 NPCは、初期無症候性であるため、診断が遅くなることが多い。 鼻咽頭生検には鼻咽頭炎症(NPI)、リンパ性過形成(LHP)、鼻咽頭癌(NPC)、正常組織などの組織像がある。 本論文は,NPC,NPI,正常症例の違いを特定するための最初の取り組みである。 7つの異なる患者と2つの病院からのギガピクセル解像度のスライド画像(WSI)を、異なる画像からなる2つのテストセットを用いて実験した。 組織領域は小さなブロックにパッチされ、21の層を持つDenseNetアーキテクチャを使って分類される。 概念実証(テスト1)と実テストシナリオ(テスト2)の2つのテストが実施されます。 NPCクラスで達成される精度は、テスト1では94.8%、テスト2では67.0%である。

Nasopharyngeal carcinoma (NPC) is one of the understudied yet deadliest cancers in South East Asia. In Malaysia, the prevalence is identified mainly in Sarawak, among the ethnic of Bidayuh. NPC is often late-diagnosed because it is asymptomatic at the early stage. There are several tissue representations from the nasopharynx biopsy, such as nasopharyngeal inflammation (NPI), lymphoid hyperplasia (LHP), nasopharyngeal carcinoma (NPC) and normal tissue. This paper is our first initiative to identify the difference between NPC, NPI and normal cases. Seven whole slide images (WSIs) with gigapixel resolutions from seven different patients and two hospitals were experimented with using two test setups, consisting of a different set of images. The tissue regions are patched into smaller blocks and classified using DenseNet architecture with 21 dense layers. Two tests are carried out, each for proof of concept (Test 1) and real-test scenario (Test 2). The accuracy achieved for NPC class is 94.8% for Test 1 and 67.0% for Test 2.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# 確率も重要:大規模言語モデルにおける自由テキスト記述の忠実度に関するより忠実な基準

The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models ( http://arxiv.org/abs/2404.03189v1 )

ライセンス: Link先を確認
Noah Y. Siegel, Oana-Maria Camburu, Nicolas Heess, Maria Perez-Ortiz, (参考訳) 先進的なAIシステムを監視するためには,その根底にある意思決定プロセスを理解することが重要である。 刺激を受けると、大きな言語モデル(LLM)は、人間のアノテータから高い評価を受けられるように聞こえる自然言語の説明や推論の痕跡を提供することができる。 しかし、これらの説明がどの程度忠実であるか、すなわち、モデルの予測に責任を負う要因を真に捉えているかは不明である。 本稿では、入力介入に基づく信頼度テストに使用できるメトリクスである相関説明信条(CEF)を紹介する。 このようなテストで使用される以前のメトリクスは、予測のバイナリ変更のみを考慮しています。 我々の測定基準は、モデルが予測するラベル分布の総変化を説明し、より正確に説明の忠実さを反映している。 次に,Atanasova et al (2023) から CEF on the Counterfactual Test (CT) をインスタンス化することによって相関対実テスト(CCT)を導入する。 3つのNLPタスクにおいて,Llama2ファミリーから数発のLLMが生成した自由文説明の忠実度を評価する。 我々は,CTが見逃す忠実さの側面を計測した。

In order to oversee advanced AI systems, it is important to understand their underlying decision-making process. When prompted, large language models (LLMs) can provide natural language explanations or reasoning traces that sound plausible and receive high ratings from human annotators. However, it is unclear to what extent these explanations are faithful, i.e., truly capture the factors responsible for the model's predictions. In this work, we introduce Correlational Explanatory Faithfulness (CEF), a metric that can be used in faithfulness tests based on input interventions. Previous metrics used in such tests take into account only binary changes in the predictions. Our metric accounts for the total shift in the model's predicted label distribution, more accurately reflecting the explanations' faithfulness. We then introduce the Correlational Counterfactual Test (CCT) by instantiating CEF on the Counterfactual Test (CT) from Atanasova et al. (2023). We evaluate the faithfulness of free-text explanations generated by few-shot-prompted LLMs from the Llama2 family on three NLP tasks. We find that our metric measures aspects of faithfulness which the CT misses.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# 自己教師型単眼深度推定のための適応離散分散量

Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2404.03190v1 )

ライセンス: Link先を確認
Jianwei Ren, (参考訳) 自己教師付き単分子深度推定タスクでは、離散差分予測は一般的な連続法よりも高品質の深度マップが得られることが証明されている。 しかしながら、現在の離散化戦略は、しばしばシーンの深さ範囲を手作りで厳密な方法でビンに分割し、モデルの性能を制限している。 本稿では,RGB画像の深度分布を動的に検出し,適応的なビンを生成することができる学習可能なモジュールAdaptive Discrete Disparity Volume (ADDV)を提案する。 余分な監督がなければ、このモジュールは既存のCNNアーキテクチャに統合することができ、ネットワークはビンの代表的な値とそれらの上の確率ボリュームを生成できる。 さらに, 損失項と温度パラメータを用いて, モデル劣化や崩壊を防止し, 自己監督条件下での正規化を実現する新たなトレーニング戦略を導入する。 実験の結果,ATDVはグローバルな情報を効果的に処理し,様々なシーンに適切なビンを生成し,手作りの手法に比べて高品質な深度マップを生成することがわかった。

In self-supervised monocular depth estimation tasks, discrete disparity prediction has been proven to attain higher quality depth maps than common continuous methods. However, current discretization strategies often divide depth ranges of scenes into bins in a handcrafted and rigid manner, limiting model performance. In this paper, we propose a learnable module, Adaptive Discrete Disparity Volume (ADDV), which is capable of dynamically sensing depth distributions in different RGB images and generating adaptive bins for them. Without any extra supervision, this module can be integrated into existing CNN architectures, allowing networks to produce representative values for bins and a probability volume over them. Furthermore, we introduce novel training strategies - uniformizing and sharpening - through a loss term and temperature parameter, respectively, to provide regularizations under self-supervised conditions, preventing model degradation or collapse. Empirical results demonstrate that ADDV effectively processes global information, generating appropriate bins for various scenes and producing higher quality depth maps compared to handcrafted methods.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# CORP: キャンパス指向ロードサイド知覚タスクのためのマルチモーダルデータセット

CORP: A Multi-Modal Dataset for Campus-Oriented Roadside Perception Tasks ( http://arxiv.org/abs/2404.03191v1 )

ライセンス: Link先を確認
Beibei Wang, Lu Zhang, Shuang Meng, Chenjie Wang, Jingjing Huang, Yao Li, Haojie Ren, Yuxuan Xiao, Yuru Peng, Jianmin Ji, Yu Zhang, Yanyong Zhang, (参考訳) 自律運転およびインテリジェント交通システムの研究・開発における進歩を促進するために、多くの道路側認識データセットが導入されている。 しかし、その中心となるのが都市幹線道路であり、公園やキャンパスなど、全く異なる特徴を示す住宅地を不注意に見下ろしていることが観察されている。 このギャップを鑑みて、キャンパスシナリオ下でのマルチモーダルな路面認識タスクに適した、最初の公開ベンチマークデータセットであるCORPを提案する。 大学キャンパスで収集されたCORPは、205k以上の画像と18台のカメラと9台のLiDARセンサーから撮影された102kの点雲で構成されている。 異なる構成のこれらのセンサーは、キャンパス内の様々な視点を提供するために、道路脇のユーティリティポールに取り付けられている。 CORPのアノテーションは、2Dおよび3Dバウンディングボックスを超えた多次元情報を含み、3Dのシームレスなトラッキングと、ターゲットを特定するためのユニークなIDとピクセルマスクによるインスタンスセグメンテーションのサポートを提供し、キャンパスの敷地に分散するオブジェクトとそれらの振る舞いの理解を強化する。 都市交通に関する他の道路脇のデータセットとは異なり、CORPはキャンパスや他の住宅地におけるマルチモーダル認識の課題を強調するためにスペクトルを拡張している。

Numerous roadside perception datasets have been introduced to propel advancements in autonomous driving and intelligent transportation systems research and development. However, it has been observed that the majority of their concentrates is on urban arterial roads, inadvertently overlooking residential areas such as parks and campuses that exhibit entirely distinct characteristics. In light of this gap, we propose CORP, which stands as the first public benchmark dataset tailored for multi-modal roadside perception tasks under campus scenarios. Collected in a university campus, CORP consists of over 205k images plus 102k point clouds captured from 18 cameras and 9 LiDAR sensors. These sensors with different configurations are mounted on roadside utility poles to provide diverse viewpoints within the campus region. The annotations of CORP encompass multi-dimensional information beyond 2D and 3D bounding boxes, providing extra support for 3D seamless tracking and instance segmentation with unique IDs and pixel masks for identifying targets, to enhance the understanding of objects and their behaviors distributed across the campus premises. Unlike other roadside datasets about urban traffic, CORP extends the spectrum to highlight the challenges for multi-modal perception in campuses and other residential areas.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# 大規模言語モデルは公平にランク付けされるか? LLM の公平性に関する実証的研究

Do Large Language Models Rank Fairly? An Empirical Study on the Fairness of LLMs as Rankers ( http://arxiv.org/abs/2404.03192v1 )

ライセンス: Link先を確認
Yuan Wang, Xuyang Wu, Hsin-Tai Wu, Zhiqiang Tao, Yi Fang, (参考訳) 情報検索におけるLarge Language Models(LLM)の統合は、テキストグレードモデルにおける公平性に対する批判的な再評価を引き起こしている。 GPTモデルやLlama2のようなLLMは、自然言語理解タスクにおいて有効性を示しており、先行研究(例えば RankGPT)も、ランキングタスクにおける従来のランキングモデルよりも優れた性能を示すことを示した。 しかし、その公平性はほとんど解明されていない。 本稿では,これらのLCMをTREC Fair Ranking データセットを用いて評価する実験的検討を行い,歴史的に検索結果に乏しい,性別や地理的位置などの二項保護属性の表現に着目した。 我々の分析は、これらのLCMがこれらの属性に関連するクエリやドキュメントをどのように扱うのかを考察し、ランキングアルゴリズムのバイアスを明らかにすることを目的としている。 ユーザとコンテンツの両方の観点から公平性を評価し,LLMを公正なランク付け者として評価するための実証的なベンチマークに寄与する。

The integration of Large Language Models (LLMs) in information retrieval has raised a critical reevaluation of fairness in the text-ranking models. LLMs, such as GPT models and Llama2, have shown effectiveness in natural language understanding tasks, and prior works (e.g., RankGPT) have also demonstrated that the LLMs exhibit better performance than the traditional ranking models in the ranking task. However, their fairness remains largely unexplored. This paper presents an empirical study evaluating these LLMs using the TREC Fair Ranking dataset, focusing on the representation of binary protected attributes such as gender and geographic location, which are historically underrepresented in search outcomes. Our analysis delves into how these LLMs handle queries and documents related to these attributes, aiming to uncover biases in their ranking algorithms. We assess fairness from both user and content perspectives, contributing an empirical benchmark for evaluating LLMs as the fair ranker.
翻訳日:2024-04-05 15:53:27 公開日:2024-04-04
# よーし、こうしよう! 生成した合理化と知識蒸留によるイベント参照のモデリング

Okay, Let's Do This! Modeling Event Coreference with Generated Rationales and Knowledge Distillation ( http://arxiv.org/abs/2404.03196v1 )

ライセンス: Link先を確認
Abhijnan Nath, Shadi Manafi, Avyakta Chelle, Nikhil Krishnaswamy, (参考訳) NLPでは、イベント・コア・レゾリューション(ECR)は、通常、ニューラルネットワークを介して、同じ現実のイベントを参照するイベント・クラスタを接続するタスクである。 本研究では,現代の自己回帰的LLMが生成する帰納的自由文有理性(FTR)を,クロスドキュメント・コアス(CDCR)のためのより小さな学生モデルの遠隔監視として用いた。 我々は,FTRからの豊富な情報を活用してCDCRを改良し,付加的なアノテーションや高価な文書クラスタリングを伴わずに,新たな合理的なイベントクラスタリングと知識蒸留手法を実装した。 コア基準別知識蒸留を用いたモデルにより,ECB+とGVCコーパスのSOTA B3 F1が達成され,AIDAフェーズ1コーパスの新たなベースラインが確立される。 私たちのコードはhttps://github.com/csu-signal/llama_cdcrで参照できます。

In NLP, Event Coreference Resolution (ECR) is the task of connecting event clusters that refer to the same underlying real-life event, usually via neural systems. In this work, we investigate using abductive free-text rationales (FTRs) generated by modern autoregressive LLMs as distant supervision of smaller student models for cross-document coreference (CDCR) of events. We implement novel rationale-oriented event clustering and knowledge distillation methods for event coreference scoring that leverage enriched information from the FTRs for improved CDCR without additional annotation or expensive document clustering. Our model using coreference specific knowledge distillation achieves SOTA B3 F1 on the ECB+ and GVC corpora and we establish a new baseline on the AIDA Phase 1 corpus. Our code can be found at https://github.com/csu-signal/llama_cdcr
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# これからの授業インクリメンタルラーニング

Future-Proofing Class Incremental Learning ( http://arxiv.org/abs/2404.03200v1 )

ライセンス: Link先を確認
Quentin Jodelet, Xin Liu, Yin Jun Phua, Tsuyoshi Murata, (参考訳) Exemplar-Free Class Incremental Learningは、リプレイメモリが利用できない非常に困難な設定である。 凍結した特徴抽出器に依存する手法が近年注目されているのは,その優れた性能と計算コストの低下である。 しかし,これらの手法は特徴抽出器の訓練に使用するデータに強く依存しており,第1段階の段階において不十分なクラスが利用可能になった場合に苦労する可能性がある。 この制限を克服するため、将来クラスの合成画像を生成し、特徴抽出器を訓練するために、事前訓練されたテキスト・画像拡散モデルを提案する。 CIFAR100 と ImageNet-Subset の標準ベンチマーク実験では,特に第1段階のインクリメンタルステップにクラスがほとんど含まれていない場合において,提案手法は,非正規クラスインクリメンタルラーニングにおける最先端の手法の改善に有効であることが示された。 さらに,将来の授業の合成サンプルを用いることで,異なるクラスの実データよりも高い性能が得られることを示す。

Exemplar-Free Class Incremental Learning is a highly challenging setting where replay memory is unavailable. Methods relying on frozen feature extractors have drawn attention recently in this setting due to their impressive performances and lower computational costs. However, those methods are highly dependent on the data used to train the feature extractor and may struggle when an insufficient amount of classes are available during the first incremental step. To overcome this limitation, we propose to use a pre-trained text-to-image diffusion model in order to generate synthetic images of future classes and use them to train the feature extractor. Experiments on the standard benchmarks CIFAR100 and ImageNet-Subset demonstrate that our proposed method can be used to improve state-of-the-art methods for exemplar-free class incremental learning, especially in the most difficult settings where the first incremental step only contains few classes. Moreover, we show that using synthetic samples of future classes achieves higher performance than using real data from different classes, paving the way for better and less costly pre-training methods for incremental learning.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# OmniGS:全方位画像を用いた高速放射場再構成のための全方位ガウススプラッティング

OmniGS: Omnidirectional Gaussian Splatting for Fast Radiance Field Reconstruction using Omnidirectional Images ( http://arxiv.org/abs/2404.03202v1 )

ライセンス: Link先を確認
Longwei Li, Huajian Huang, Sai-Kit Yeung, Hui Cheng, (参考訳) 3Dガウシアン・スプレイティングを頼りにした光現実的再構築は、ロボティクスに有望な可能性を示している。 しかし,現在の3次元ガウス散乱システムは,歪みのない視点像を用いた放射場再構成しかサポートしていない。 本稿では,全方位全方位撮影システムであるOmniGSについて,高速放射野再構成のための全方位画像の活用について述べる。 具体的には,3次元ガウス散乱における球面カメラモデル導関数の理論解析を行う。 導出物によれば、3Dガウスを正方形スクリーン空間に直接配置し、全方位画像レンダリングを行うGPU加速全方位ラスタライザを新たに実装する。 その結果、立方体写像の補正や接面近似を必要とせずに、放射界の微分可能最適化を実現した。 エゴセントリックおよびローミングのシナリオで実施された大規模な実験により,本手法は全方位画像を用いて最先端の復元品質と高速なレンダリングを実現することを示した。 研究コミュニティの利益を得るために、論文が公開されたら、コードは公開されます。

Photorealistic reconstruction relying on 3D Gaussian Splatting has shown promising potential in robotics. However, the current 3D Gaussian Splatting system only supports radiance field reconstruction using undistorted perspective images. In this paper, we present OmniGS, a novel omnidirectional Gaussian splatting system, to take advantage of omnidirectional images for fast radiance field reconstruction. Specifically, we conduct a theoretical analysis of spherical camera model derivatives in 3D Gaussian Splatting. According to the derivatives, we then implement a new GPU-accelerated omnidirectional rasterizer that directly splats 3D Gaussians onto the equirectangular screen space for omnidirectional image rendering. As a result, we realize differentiable optimization of the radiance field without the requirement of cube-map rectification or tangent-plane approximation. Extensive experiments conducted in egocentric and roaming scenarios demonstrate that our method achieves state-of-the-art reconstruction quality and high rendering speed using omnidirectional images. To benefit the research community, the code will be made publicly available once the paper is published.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# RALL-E: テキスト音声合成のためのChain-of-Thought Promptingを用いたロバストコーデック言語モデリング

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis ( http://arxiv.org/abs/2404.03204v1 )

ライセンス: Link先を確認
Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao, (参考訳) 本稿では,TTS合成のための頑健な言語モデリング手法であるRALL-Eを提案する。 大規模言語モデル(LLM)に基づく以前の研究は、ゼロショットTSにおいて印象的な性能を示したが、このような手法は、不安定な韻律(ピッチとリズム/デュレーション)や高い単語誤り率(WER)といった、言語モデルの自己回帰予測スタイルによって、しばしば弱い頑健さに悩まされる。 RALL-Eの背後にある中核的なアイデアはチェーン・オブ・シークレット(CoT)のプロンプトであり、LCMベースのTSの堅牢性を高めるため、タスクを単純なステップに分解する。 このアイデアを達成するために、RALL-Eはまず入力テキストの韻律的特徴(ピッチと持続時間)を予測し、それを中間条件としてCoTスタイルの音声トークンを予測する。 第二に、RALL-Eは予測時間プロンプトを用いてトランスフォーマーの自己注意重みの計算を誘導し、音声トークンを予測する際に対応する音素や韻律の特徴にフォーカスするようにモデルを強制する。 総合的な客観的評価と主観評価の結果、強力なベースライン法であるVALL-Eと比較して、RALL-E はゼロショット TTS の WER を 6.3 %$ (再ランクなし) と 2.1 %$ (再ランクなし) から 2.8 %$ (1.0 %$) に大幅に改善している。 さらに, VALL-E に難解な文を正しく合成し, 誤り率を 68 % から 4 % に下げることを示した。

We present RALL-E, a robust language modeling method for text-to-speech (TTS) synthesis. While previous work based on large language models (LLMs) shows impressive performance on zero-shot TTS, such methods often suffer from poor robustness, such as unstable prosody (weird pitch and rhythm/duration) and a high word error rate (WER), due to the autoregressive prediction style of language models. The core idea behind RALL-E is chain-of-thought (CoT) prompting, which decomposes the task into simpler steps to enhance the robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts prosody features (pitch and duration) of the input text and uses them as intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E utilizes the predicted duration prompt to guide the computing of self-attention weights in Transformer to enforce the model to focus on the corresponding phonemes and prosody features when predicting speech tokens. Results of comprehensive objective and subjective evaluations demonstrate that, compared to a powerful baseline method VALL-E, RALL-E significantly improves the WER of zero-shot TTS from $6.3\%$ (without reranking) and $2.1\%$ (with reranking) to $2.8\%$ and $1.0\%$, respectively. Furthermore, we demonstrate that RALL-E correctly synthesizes sentences that are hard for VALL-E and reduces the error rate from $68\%$ to $4\%$.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# 量子ラビモデルにおける最適動的ゲージ

Optimal Dynamical Gauge in the Quantum Rabi Model ( http://arxiv.org/abs/2404.03205v1 )

ライセンス: Link先を確認
Yuqi Qing, Wen-Long You, Yueheng Lan, Maoxin Liu, (参考訳) 本稿では、量子ラビモデル(QRM)における様々な物理観測値のゲージ依存性について、原子自由度のヒルベルト空間の切り離しから生じるポテンシャル場について検討する。 その結果,QRMの基底状態エネルギーに対する最適ゲージは,低周波域では双極子ゲージが最適であり,高周波域ではクーロンゲージが最適であることが判明した。 さらに、高エネルギーレベルでは、最適ゲージは漸近的に双極子ゲージに近づく。 しかし, 時間外相関器 (OTOC) では, 最適動力学的ゲージを導入する必要がある。 2レベルOTOCとフルハミルトニアン平均誤差を最小化して最適動力学的ゲージを決定する。 この研究は、ゲージ選択とQEDシステムの力学の微妙な関係について、より深い理解に寄与することを期待している。

In this paper, we investigate the gauge dependence of various physical observables in the quantum Rabi model (QRM) under different potential fields, arising from the Hilbert-space truncation of the atomic degree of freedom. We discover that in both the square-well potential and oscillator potential,the optimal gauges for the ground-state energy of the QRM vary with respect to the cavity frequency, with the dipole gauge being optimal in the low-frequency limit and the Coulomb gauge in the high-frequency limit of the cavity frequency. Additionally, for higher energy levels, the optimal gauge asymptotically approaches the dipole gauge. However, for the dynamical quantity out-time-order correlator (OTOC), we find the necessity to introduce an optimal dynamical gauge. We determine the optimal dynamical gauge by minimizing the mean error between the two-level OTOC and the full Hamiltonian one. We expect that this study will contribute to a more profound understanding of the subtle relation between gauge choice and the dynamics of QED systems.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# アルツハイマー病の進行を共同で予測・説明するためのマルチモーダル階層型マルチタスクディープラーニングフレームワーク

Multimodal hierarchical multi-task deep learning framework for jointly predicting and explaining Alzheimer disease progression ( http://arxiv.org/abs/2404.03208v1 )

ライセンス: Link先を確認
Sayantan Kumar, Sean Yu, Thomas Kannampallil, Andrew Michelson, Aristeidis Sotiras, Philip Payne, (参考訳) 最終的にアルツハイマー病(AD)に進展する軽度認知障害(MCI)の早期発見は困難である。 既存のディープラーニングモデルは、主に単一モードの単一タスクモデルであり、固定された時点において病気の進行のリスクを予測する。 訪問軌跡の各時点における疾患進行のリスクをモニタリングするマルチモーダル階層型マルチタスク学習手法を提案する。 アルツハイマー病神経画像イニシアチブ (ADNI) データセットのMCI個人から, マルチモーダル性 (MRI, 認知, 臨床データ) の経時的訪問データを収集した。 我々の階層モデルでは、各時点における神経心理学的複合認知機能のスコアを補助的タスクとして予測し、予測されたスコアを各時点における予測スコアを用いて、将来の病気のリスクを予測する。 各複合関数の関連重みは、疾患進行の潜在的要因についての説明を与えた。 提案手法は,AD進行リスクと複合スコアを予測する上で,最先端のベースラインよりも優れた性能を示した。 モダリティの数に関するアブレーション研究は、画像と認識データが結果に最も寄与していることを示した。 各時点におけるモデル説明は、将来ADに進展する可能性のある認知機能の低下について、臨床医に6ヶ月前に通知することができる。 来訪後6ヶ月毎にAD進行のリスクをモニターした。 補助的なタスクの階層的な学習はより良い最適化を可能にし、結果の縦断的な説明を可能にした。 本フレームワークは,入力モダリティの数や補助的タスクの選択に柔軟であるため,他の臨床問題にも一般化できる。

Early identification of Mild Cognitive Impairment (MCI) subjects who will eventually progress to Alzheimer Disease (AD) is challenging. Existing deep learning models are mostly single-modality single-task models predicting risk of disease progression at a fixed timepoint. We proposed a multimodal hierarchical multi-task learning approach which can monitor the risk of disease progression at each timepoint of the visit trajectory. Longitudinal visit data from multiple modalities (MRI, cognition, and clinical data) were collected from MCI individuals of the Alzheimer Disease Neuroimaging Initiative (ADNI) dataset. Our hierarchical model predicted at every timepoint a set of neuropsychological composite cognitive function scores as auxiliary tasks and used the forecasted scores at every timepoint to predict the future risk of disease. Relevance weights for each composite function provided explanations about potential factors for disease progression. Our proposed model performed better than state-of-the-art baselines in predicting AD progression risk and the composite scores. Ablation study on the number of modalities demonstrated that imaging and cognition data contributed most towards the outcome. Model explanations at each timepoint can inform clinicians 6 months in advance the potential cognitive function decline that can lead to progression to AD in future. Our model monitored their risk of AD progression every 6 months throughout the visit trajectory of individuals. The hierarchical learning of auxiliary tasks allowed better optimization and allowed longitudinal explanations for the outcome. Our framework is flexible with the number of input modalities and the selection of auxiliary tasks and hence can be generalized to other clinical problems too.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# イベントを伴う動的シーンのHDRイメージング

HDR Imaging for Dynamic Scenes with Events ( http://arxiv.org/abs/2404.03210v1 )

ライセンス: Link先を確認
Li Xiaopeng, Zeng Zhaoyuan, Fan Cien, Zhao Chen, Deng Lei, Yu Lei, (参考訳) 高ダイナミックレンジイメージング(HDRI)は、移動物体が低ダイナミックレンジと運動のぼかしのハイブリッド劣化を引き起こす可能性があるため、現実のダイナミックシーンにおいて困難である。 既存のイベントベースのアプローチは、別のタスクにのみ焦点をあてるが、HDRIとモーションデブロワーリングをカスケードすると、準最適解となり、未使用の地味な鋭いHDR画像は、プレディケーションを増大させる。 これらの課題に対処するため、実世界の動的シナリオにおいてHDRIのパフォーマンスを一般化するセルフ教師付き学習パラダイム(Self-EHDRI)の中で、イベントベースのHDRIフレームワークを提案する。 具体的には, 鮮明なLDR画像から鋭いLDR画像へのクロスドメイン変換を学習することにより, 強烈なHDR画像が欠落した場合でも, 鋭いHDR画像が中間プロセスでアクセスできるようにする。 そして、イベントベースHDRIとモーションデブロアリングモデルを定式化し、中間シャープなHDR結果を復元する統一ネットワークを構築し、高いダイナミックレンジと高時間分解能の両方を同時に利用して補償を行う。 提案手法の有効性を評価するため,大規模合成および実世界のデータセットを構築した。 総合的な実験により、提案されたSelf-EHDRIは最先端のアプローチよりも大きなマージンで優れていることが示された。 コード、データセット、結果はhttps://lxp-whu.github.io/Self-EHDRIで公開されている。

High dynamic range imaging (HDRI) for real-world dynamic scenes is challenging because moving objects may lead to hybrid degradation of low dynamic range and motion blur. Existing event-based approaches only focus on a separate task, while cascading HDRI and motion deblurring would lead to sub-optimal solutions, and unavailable ground-truth sharp HDR images aggravate the predicament. To address these challenges, we propose an Event-based HDRI framework within a Self-supervised learning paradigm, i.e., Self-EHDRI, which generalizes HDRI performance in real-world dynamic scenarios. Specifically, a self-supervised learning strategy is carried out by learning cross-domain conversions from blurry LDR images to sharp LDR images, which enables sharp HDR images to be accessible in the intermediate process even though ground-truth sharp HDR images are missing. Then, we formulate the event-based HDRI and motion deblurring model and conduct a unified network to recover the intermediate sharp HDR results, where both the high dynamic range and high temporal resolution of events are leveraged simultaneously for compensation. We construct large-scale synthetic and real-world datasets to evaluate the effectiveness of our method. Comprehensive experiments demonstrate that the proposed Self-EHDRI outperforms state-of-the-art approaches by a large margin. The codes, datasets, and results are available at https://lxp-whu.github.io/Self-EHDRI.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# 非定常データを用いたカーネルヒルベルト空間再現におけるオンライン正規化統計的学習の収束条件

Convergence Conditions of Online Regularized Statistical Learning in Reproducing Kernel Hilbert Space With Non-Stationary Data ( http://arxiv.org/abs/2404.03211v1 )

ライセンス: Link先を確認
Xiwei Zhang, Tao Li, (参考訳) 本研究では,RKHS空間における再帰的正規化学習アルゴリズムの収束性について検討した。 まず,RKHSにおけるランダム差分方程式の平均二乗漸近安定性について検討する。 第2に,ランダムなチコノフ正規化経路の概念を導入し,正規化経路が何らかの意味でゆっくりと時間変化している場合,アルゴリズムの出力は平均二乗の正規化経路と一致していることを示す。 さらに、データストリームが励起条件のRKHS持続性も満たしている場合、すなわち、各時間周期で蓄積された入力データによって誘導される演算子の条件予測の固有値が時間的に一様正の低い値であるような一定期間の周期が存在する場合、アルゴリズムの出力は平均二乗の未知関数と一致する。 最後に、独立および非同一分散データストリームの場合、入力データによって誘導される限界確率測度が徐々に時間変化し、各固定期間の平均測度が一様正の正下限を有する場合、平均二乗整合をアルゴリズムが達成する。

We study the convergence of recursive regularized learning algorithms in the reproducing kernel Hilbert space (RKHS) with dependent and non-stationary online data streams. Firstly, we study the mean square asymptotic stability of a class of random difference equations in RKHS, whose non-homogeneous terms are martingale difference sequences dependent on the homogeneous ones. Secondly, we introduce the concept of random Tikhonov regularization path, and show that if the regularization path is slowly time-varying in some sense, then the output of the algorithm is consistent with the regularization path in mean square. Furthermore, if the data streams also satisfy the RKHS persistence of excitation condition, i.e. there exists a fixed length of time period, such that each eigenvalue of the conditional expectation of the operators induced by the input data accumulated over every time period has a uniformly positive lower bound with respect to time, then the output of the algorithm is consistent with the unknown function in mean square. Finally, for the case with independent and non-identically distributed data streams, the algorithm achieves the mean square consistency provided the marginal probability measures induced by the input data are slowly time-varying and the average measure over each fixed-length time period has a uniformly strictly positive lower bound.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# LeGrad:特徴形成感度を用いた視覚変換器の説明可能性

LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity ( http://arxiv.org/abs/2404.03214v1 )

ライセンス: Link先を確認
Walid Bousselham, Angie Boggust, Sofian Chaybouti, Hendrik Strobelt, Hilde Kuehne, (参考訳) 視覚変換器(ViT)は、自己認識機構を通じて長距離依存をモデル化する能力を持ち、コンピュータビジョンの標準アーキテクチャとなっている。 しかし、これらのモデルの解釈可能性は依然として課題である。 そこで本研究では,ViTに特化して設計された説明可能性手法であるLeGradを提案する。 LeGradは、その勾配自体を説明可能性信号として考慮して、ViT層の注意マップに関する勾配を計算する。 我々は、全ての層に信号を集約し、ラストのアクティベーションと中間トークンを組み合わせて、マージされた説明可能性マップを生成する。 これにより、LeGradは概念的にシンプルで簡単に実装できるツールとなり、ViTの透明性を高めることができる。 我々はLeGradを,空間的忠実度や摂動に対する頑健性を示す他のSotA説明可能性法と比較して,探索的セグメンテーション,摂動,オープンボキャブラリ設定で評価し,その汎用性を示した。 デモとコードはhttps://github.com/WalBouss/LeGrad.comで公開されている。

Vision Transformers (ViTs), with their ability to model long-range dependencies through self-attention mechanisms, have become a standard architecture in computer vision. However, the interpretability of these models remains a challenge. To address this, we propose LeGrad, an explainability method specifically designed for ViTs. LeGrad computes the gradient with respect to the attention maps of ViT layers, considering the gradient itself as the explainability signal. We aggregate the signal over all layers, combining the activations of the last as well as intermediate tokens to produce the merged explainability map. This makes LeGrad a conceptually simple and an easy-to-implement tool for enhancing the transparency of ViTs. We evaluate LeGrad in challenging segmentation, perturbation, and open-vocabulary settings, showcasing its versatility compared to other SotA explainability methods demonstrating its superior spatial fidelity and robustness to perturbations. A demo and the code is available at https://github.com/WalBouss/LeGrad.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# ホモモルフィック暗号化における高速プライベート推論のための非線形演算子の高精度低次元多項式近似

Accurate Low-Degree Polynomial Approximation of Non-polynomial Operators for Fast Private Inference in Homomorphic Encryption ( http://arxiv.org/abs/2404.03216v1 )

ライセンス: Link先を確認
Jianming Tong, Jingtian Dang, Anupam Golder, Callie Hao, Arijit Raychowdhury, Tushar Krishna, (参考訳) マシンラーニング(ML)が医療、顔認識、ブロックチェーンといった分野に浸透するにつれ、機密データを保護する必要性が強まる。 FHE(Fully Homomorphic Encryption)は、暗号化されたデータの推論を可能にし、データのプライバシとMLモデルの両方のプライバシを保存する。 しかし、非ポリノミアル作用素(ReLUとMaxPooling)を高次多項式近似関数(PAF)に置き換える根本原因として、最大5等級の非安全推論を遅くする。 我々は,非多項式演算子を低次PSFに置き換えてPAF近似モデルの精度を回復するフレームワークであるSmartPAFを提案する。(1)係数チューニング(CT) -- 学習前の入力分布に基づいてPAF係数を調整する(2)進行近似(PA) -- 同時に1つの非多項式演算子を段階的に置き換える(3)代替学習(AT) -- 分離された方法でPAFと他の線形演算子間のトレーニングを交換する(4)動的スケール(DS)/静的スケール(SS) -- 動的スケール(DS) - 動的スケール(DS) - 動的スケール(SS) - である。 FHE 1.1のトレーニングでは、スケールをFHEデプロイメントのランニングマックス値として修正する。 CT、PA、AT、DS/SSの相乗効果により、SmartPAFは、複数のデータセットの下で様々な低度のPAFによって近似された様々なモデルの精度を高めることができる。 ImageNet-1kのResNet-18では、SmartPAFが遅延精度トレードオフ空間で発見したPareto-frontierは、1.42倍~13.64倍の精度向上と6.79倍~14.9倍のスピードアップを実現している。 さらに、SmartPAFは14° PAF(f1^2 g_1^2)を、同じ69.4%の置き換え精度でミニマックス近似によって得られる27° PAFと比較して7.81倍のスピードアップを達成することができる。 私たちのコードはhttps://github.com/TorchFHE/SmartPAF.comで公開されています。

As machine learning (ML) permeates fields like healthcare, facial recognition, and blockchain, the need to protect sensitive data intensifies. Fully Homomorphic Encryption (FHE) allows inference on encrypted data, preserving the privacy of both data and the ML model. However, it slows down non-secure inference by up to five magnitudes, with a root cause of replacing non-polynomial operators (ReLU and MaxPooling) with high-degree Polynomial Approximated Function (PAF). We propose SmartPAF, a framework to replace non-polynomial operators with low-degree PAF and then recover the accuracy of PAF-approximated model through four techniques: (1) Coefficient Tuning (CT) -- adjust PAF coefficients based on the input distributions before training, (2) Progressive Approximation (PA) -- progressively replace one non-polynomial operator at a time followed by a fine-tuning, (3) Alternate Training (AT) -- alternate the training between PAFs and other linear operators in the decoupled manner, and (4) Dynamic Scale (DS) / Static Scale (SS) -- dynamically scale PAF input value within (-1, 1) in training, and fix the scale as the running max value in FHE deployment. The synergistic effect of CT, PA, AT, and DS/SS enables SmartPAF to enhance the accuracy of the various models approximated by PAFs with various low degrees under multiple datasets. For ResNet-18 under ImageNet-1k, the Pareto-frontier spotted by SmartPAF in latency-accuracy tradeoff space achieves 1.42x ~ 13.64x accuracy improvement and 6.79x ~ 14.9x speedup than prior works. Further, SmartPAF enables a 14-degree PAF (f1^2 g_1^2) to achieve 7.81x speedup compared to the 27-degree PAF obtained by minimax approximation with the same 69.4% post-replacement accuracy. Our code is available at https://github.com/TorchFHE/SmartPAF.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# iSeg:インタラクティブな注意によるインタラクティブな3Dセグメンテーション

iSeg: Interactive 3D Segmentation via Interactive Attention ( http://arxiv.org/abs/2404.03219v1 )

ライセンス: Link先を確認
Itai Lang, Fei Xu, Dale Decatur, Sudarshan Babu, Rana Hanocka, (参考訳) iSegは3次元形状を分割するインタラクティブな手法である。 これまでは主に、テキストに基づく3Dセグメンテーションのための事前訓練された2D基礎モデルの活用に重点を置いてきた。 しかし、微細な空間分割を正確に記述するにはテキストが不十分である可能性がある。 さらに、同じ意味領域の隠蔽領域を任意の2次元ビューから一緒に見ることができないため、2次元モデルを用いて一貫した3次元セグメンテーションを実現することは困難である。 そこで我々は,3Dで完全に動作する細かなユーザクリックを条件としたセグメンテーション手法を設計する。 本システムでは, 形状分割から領域を含まないか排除するかを示すために, 形状表面の直接クリックを受け付けている。 多様なクリック設定に対応するために,異なる数や種類のクリックを処理できる新しい対話型アテンションモジュールを提案し,単一の統合型対話型セグメンテーションモデルのトレーニングを可能にする。 我々は、iSegを異なるドメインからの無数の形状に適用し、その汎用性とユーザ仕様への忠実性を示す。 私たちのプロジェクトページはhttps://threedle.github.io/iSeg/です。

We present iSeg, a new interactive technique for segmenting 3D shapes. Previous works have focused mainly on leveraging pre-trained 2D foundation models for 3D segmentation based on text. However, text may be insufficient for accurately describing fine-grained spatial segmentations. Moreover, achieving a consistent 3D segmentation using a 2D model is challenging since occluded areas of the same semantic region may not be visible together from any 2D view. Thus, we design a segmentation method conditioned on fine user clicks, which operates entirely in 3D. Our system accepts user clicks directly on the shape's surface, indicating the inclusion or exclusion of regions from the desired shape partition. To accommodate various click settings, we propose a novel interactive attention module capable of processing different numbers and types of clicks, enabling the training of a single unified interactive segmentation model. We apply iSeg to a myriad of shapes from different domains, demonstrating its versatility and faithfulness to the user's specifications. Our project page is at https://threedle.github.io/iSeg/.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# コミットは一方通行のステートジェネレータと等価です

Commitments are equivalent to one-way state generators ( http://arxiv.org/abs/2404.03220v1 )

ライセンス: Link先を確認
Rishabh Batra, Rahul Jain, (参考訳) ワンウェイ状態発生器 (OWSG) は古典的なワンウェイ関数の自然な量子アナログである。 我々は、$O\left(\frac{n}{\log(n)}\right)$-copy OWSGs(n$は入力長を表す)が$poly(n)$-copy OWSGと等価であり、量子コミットメントに等しいことを示す。 既知の結果は、$o\left(\frac{n}{\log(n)}\right)$-copy OWSG がコミットメントを示唆できないことを示しているので、$O\left(\frac{n}{\log(n)}\right)$-copy OWSG がコミットメントを得ることのできる最も弱い OWSG であることを示している。 H\r{a}stad, Impagliazzo, Levin, Luby [HILL] は古典的片方向関数 (OWF) から古典的擬似ランダム生成子 (PRG) を得たが、重要な修正を加えた。 我々の構成は、古典的な場合に適用すると、[HILL]が提供する構成の代替となる。 片方向関数の出力に条件づけられた議論はしないので、我々の構成と解析は間違いなく単純であり、独立した関心を持つかもしれない。

One-way state generators (OWSG) are natural quantum analogs to classical one-way functions. We show that $O\left(\frac{n}{\log(n)}\right)$-copy OWSGs ($n$ represents the input length) are equivalent to $poly(n)$-copy OWSG and to quantum commitments. Since known results show that $o\left(\frac{n}{\log(n)}\right)$-copy OWSG cannot imply commitments, this shows that $O\left(\frac{n}{\log(n)}\right)$-copy OWSGs are the weakest OWSGs from which we can get commitments (and hence much of quantum cryptography). Our construction follows along the lines of H\r{a}stad, Impagliazzo, Levin and Luby [HILL], who obtained classical pseudorandom generators (PRG) from classical one-way functions (OWF), however with crucial modifications. Our construction, when applied to the classical case, provides an alternative to the construction provided by [HILL]. Since we do not argue conditioned on the output of the one-way function, our construction and analysis are arguably simpler and may be of independent interest.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# 機械学習を利用した地下水素貯蔵によるクリーンエネルギーレジリエンスの実現

Enabling Clean Energy Resilience with Machine Learning-Empowered Underground Hydrogen Storage ( http://arxiv.org/abs/2404.03222v1 )

ライセンス: Link先を確認
Alvaro Carbonero, Shaowen Mao, Mohamed Mehana, (参考訳) 気候変動の急激な課題に対処するためには、化石燃料から持続可能なエネルギーシステムへの移行が不可欠であり、再生可能エネルギー源が重要な役割を担っている。 しかし、効率的な貯蔵ソリューションがなければ、再生可能エネルギーの本質的な変動は、エネルギー供給と需要のバランスを損なうことがしばしばある。 地下水素貯蔵(UHS)はこのギャップを埋めるために有望な長期保存ソリューションとして出現するが、その広範な実装は高忠実度UHSシミュレーションに伴う高い計算コストによって妨げられる。 本稿では、データ駆動の観点からUHSを紹介し、機械学習をUHSに統合するロードマップを概説し、UHSの大規模展開を容易にする。

To address the urgent challenge of climate change, there is a critical need to transition away from fossil fuels towards sustainable energy systems, with renewable energy sources playing a pivotal role. However, the inherent variability of renewable energy, without effective storage solutions, often leads to imbalances between energy supply and demand. Underground Hydrogen Storage (UHS) emerges as a promising long-term storage solution to bridge this gap, yet its widespread implementation is impeded by the high computational costs associated with high fidelity UHS simulations. This paper introduces UHS from a data-driven perspective and outlines a roadmap for integrating machine learning into UHS, thereby facilitating the large-scale deployment of UHS.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# FACTUAL: コントラスト学習に基づくロバストSAR画像分類のための新しいフレームワーク

FACTUAL: A Novel Framework for Contrastive Learning Based Robust SAR Image Classification ( http://arxiv.org/abs/2404.03225v1 )

ライセンス: Link先を確認
Xu Wang, Tian Ye, Rajgopal Kannan, Viktor Prasanna, (参考訳) Deep Learning (DL) Models for Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR) 改良された性能を提供する一方で、敵の攻撃に対して非常に脆弱であることが示されている。 既存の作業は、敵のサンプルのトレーニングモデルによって堅牢性を改善する。 しかし、画像をランダムに操作する攻撃に主に焦点を合わせることで、そのような攻撃の現実的な実現可能性を無視している。 本稿では,FACTUAL(Contrastive Learning framework for Adversarial Training and robust SAR classification)を提案する。 FACTUALは,(1)既存の作品と異なり,現実的な身体的敵意攻撃(OTSAなど)を取り入れて,教師付き敵意事前学習ネットワークを構築する,新たな摂動スキームである。 このネットワークは、クリーンで乱れた画像をより情報性の高い特徴空間にまとめるのにクラスラベルを使用する。 2) エンコーダの後, 対象ラベルの予測に計算表現を使用する線形分類器。 クリーンサンプルと逆サンプルの両方でモデルを事前学習し,微調整することにより,両ケースで高い予測精度が得られることを示す。 本モデルでは, 洗浄試料の99.7%, 摂動試料の89.6%の精度が得られた。

Deep Learning (DL) Models for Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR), while delivering improved performance, have been shown to be quite vulnerable to adversarial attacks. Existing works improve robustness by training models on adversarial samples. However, by focusing mostly on attacks that manipulate images randomly, they neglect the real-world feasibility of such attacks. In this paper, we propose FACTUAL, a novel Contrastive Learning framework for Adversarial Training and robust SAR classification. FACTUAL consists of two components: (1) Differing from existing works, a novel perturbation scheme that incorporates realistic physical adversarial attacks (such as OTSA) to build a supervised adversarial pre-training network. This network utilizes class labels for clustering clean and perturbed images together into a more informative feature space. (2) A linear classifier cascaded after the encoder to use the computed representations to predict the target labels. By pre-training and fine-tuning our model on both clean and adversarial samples, we show that our model achieves high prediction accuracy on both cases. Our model achieves 99.7% accuracy on clean samples, and 89.6% on perturbed samples, both outperforming previous state-of-the-art methods.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# グラフニューラルネットワークを用いた推定誤差最小化のための分散学習手法

Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks ( http://arxiv.org/abs/2404.03227v1 )

ライセンス: Link先を確認
Xingran Chen, Navid NaderiAlizadeh, Alejandro Ribeiro, Shirin Saeedi Bidokhti, (参考訳) 統計的に同一性を持つマルチホップ無線ネットワークにおける自動回帰マルコフ過程のサンプリングとリモート推定の課題に対処する。 エージェントは最新のサンプルを他の人からキャッシュし、基礎となるグラフトポロジーによって管理される無線衝突チャネルを介して通信する。 我々のゴールは、(意思決定が物理的プロセスに依存しない)難易度(意思決定が物理的プロセスに依存している)と(意思決定が物理的プロセスに依存している)非報知度の両方を考慮して、分散されたスケーラブルなサンプリングおよび送信ポリシーを用いて、時間平均推定誤差および/または情報の年齢を最小化することである。 難解なポリシーでは、推定誤差の最小化は情報の年齢の最小化と等価であることを示す。 問題の複雑さ、特に多次元のアクション空間と任意のネットワークトポロジは、最適な伝送ポリシーを見つける理論的方法を作成する。 グラフ多エージェント強化学習フレームワークを用いてポリシーを最適化し、各エージェントは置換同変グラフニューラルネットワークアーキテクチャを用いる。 理論的には,提案手法が望ましい転送性を示すことを証明し,小規模・中規模ネットワークで訓練された伝送ポリシーを大規模トポロジ上で効果的に実行できるようにする。 数値実験は i)提案するフレームワークは,最先端のベースラインを上回っている。 (二)訓練された方針は、より大きなネットワークに転送することができ、エージェントの数に応じてその性能が向上する。 三 独立学習技術を利用した場合であっても、非定常性に耐える訓練方法、及び (4)再帰は、独立学習と集中学習、分散実行の両方において重要であり、独立学習における非定常性に対するレジリエンスを向上させる。

We address the challenge of sampling and remote estimation for autoregressive Markovian processes in a multi-hop wireless network with statistically-identical agents. Agents cache the most recent samples from others and communicate over wireless collision channels governed by an underlying graph topology. Our goal is to minimize time-average estimation error and/or age of information with decentralized scalable sampling and transmission policies, considering both oblivious (where decision-making is independent of the physical processes) and non-oblivious policies (where decision-making depends on physical processes). We prove that in oblivious policies, minimizing estimation error is equivalent to minimizing the age of information. The complexity of the problem, especially the multi-dimensional action spaces and arbitrary network topologies, makes theoretical methods for finding optimal transmission policies intractable. We optimize the policies using a graphical multi-agent reinforcement learning framework, where each agent employs a permutation-equivariant graph neural network architecture. Theoretically, we prove that our proposed framework exhibits desirable transferability properties, allowing transmission policies trained on small- or moderate-size networks to be executed effectively on large-scale topologies. Numerical experiments demonstrate that (i) Our proposed framework outperforms state-of-the-art baselines; (ii) The trained policies are transferable to larger networks, and their performance gains increase with the number of agents; (iii) The training procedure withstands non-stationarity even if we utilize independent learning techniques; and, (iv) Recurrence is pivotal in both independent learning and centralized training and decentralized execution, and improves the resilience to non-stationarity in independent learning.
翻訳日:2024-04-05 15:43:35 公開日:2024-04-04
# 検出ループのない高速通信システムにおける非局所性のステアリング

Steering nonlocality in high-speed telecommunication system without detection loophole ( http://arxiv.org/abs/2404.03228v1 )

ライセンス: Link先を確認
Qiang Zeng, Huihong Yuan, Haoyang Wang, Lai Zhou, Zhiliang Yuan, (参考訳) 非局所相関は、量子情報処理の資源として利用される量子力学の重要な特徴である。 しかし、この抜け穴の問題は実用化を妨げている。 本報告では, 通信波長で閉じた検出ループホールを用いた非局所性ステアリングの初の実演を報告する。 本研究では,低損失シリコンチップを設計・製造し,その光ポンプに直接変調技術を適用し,ステアリング側での位相符号化損失を解消する。 新たに提案した位相符号化測定設定は、超高速変調率(GHz)に適応する。 その結果、複数の測定設定を持つ量子ステアリングで必要となる検出効率を克服できる光ファイバー装置を構築した。 我々のセットアップは、非局所性、特に量子通信を操るアプリケーションを探すための即時プラットフォームを提供する。

Nonlocal correlation represents the key feature of quantum mechanics, which is exploited as a resource in quantum information processing. However, the loophole issues hamper the practical applications. We report the first demonstration of steering nonlocality with detection loophole closed at telecommunication wavelengths. In this endeavour, we design and fabricate a low-loss silicon chip for efficient entanglement generation, and further apply the direct modulation technique to its optical pump to eliminate phase-encoding loss at the steering side. The newly proposed phase-encoding measurement setting adapts to an ultra-fast modulation rate (GHz). Consequently, we build a fiber-optic setup that can overcome the detection efficiency that is required by quantum steering with multiple measurement settings. Our setup provides an immediate platform for exploring applications based on steering nonlocality, especially for quantum communication.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 学びたいことを学ぶ:機械学習の非学習に対する非学習の逆攻撃

Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning ( http://arxiv.org/abs/2404.03233v1 )

ライセンス: Link先を確認
Hongsheng Hu, Shuo Wang, Tian Dong, Minhui Xue, (参考訳) 機械学習は、個人が機械学習モデルからデータの削除を要求できる「忘れられる権利」を満たすための有望なソリューションとなっている。 しかし、機械学習の既存の研究は、未学習の過程におけるプライバシーの脆弱性の調査を無視しながら、主に未学習の手法の有効性と効率性に焦点を当てている。 敵に利用可能なモデルの2つのバージョン、すなわち原型モデルと未学習モデルにより、機械学習は新たな攻撃面を開く。 本稿では,機械学習が未学習データの機密内容をどの程度漏洩させるかを理解するために,最初の調査を行う。 具体的には、マシンラーニング・アズ・ア・サービス設定の下で、元のモデルと未学習モデルにのみアクセスすることで、未学習のサンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。 提案したアンラーニング・インバージョン攻撃の有効性は、様々なモデルアーキテクチャにわたるベンチマークデータセットと、正確かつ近似的な非ラーニング・アプローチによる広範な実験によって評価される。 実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。 そこで我々は,未学習モデルの実用性を低減しつつ,提案した攻撃を緩和する上で有効な3つの防御策を見出した。 本研究は,未学習データの情報を漏らさずに,未学習を実現するためのメカニズムを慎重に設計する必要性を浮き彫りにした。

Machine unlearning has become a promising solution for fulfilling the "right to be forgotten", under which individuals can request the deletion of their data from machine learning models. However, existing studies of machine unlearning mainly focus on the efficacy and efficiency of unlearning methods, while neglecting the investigation of the privacy vulnerability during the unlearning process. With two versions of a model available to an adversary, that is, the original model and the unlearned model, machine unlearning opens up a new attack surface. In this paper, we conduct the first investigation to understand the extent to which machine unlearning can leak the confidential content of the unlearned data. Specifically, under the Machine Learning as a Service setting, we propose unlearning inversion attacks that can reveal the feature and label information of an unlearned sample by only accessing the original and unlearned model. The effectiveness of the proposed unlearning inversion attacks is evaluated through extensive experiments on benchmark datasets across various model architectures and on both exact and approximate representative unlearning approaches. The experimental results indicate that the proposed attack can reveal the sensitive information of the unlearned data. As such, we identify three possible defenses that help to mitigate the proposed attacks, while at the cost of reducing the utility of the unlearned model. The study in this paper uncovers an underexplored gap between machine unlearning and the privacy of unlearned data, highlighting the need for the careful design of mechanisms for implementing unlearning without leaking the information of the unlearned data.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 縮退量子状態の幾何学、$m$平面の構成、複素グラスマン多様体上の不変量

Geometry of degenerate quantum states, configurations of $m$-planes and invariants on complex Grassmannians ( http://arxiv.org/abs/2404.03234v1 )

ライセンス: Link先を確認
Alexander Avdoshkin, (参考訳) 量子状態に含まれる幾何学的情報を理解することは物理学の様々な分野、特にブロッホ状態が重要な役割を果たすときの固体物理学において重要である。 フビニ・スタディ計量とベリー曲率形式は非退化量子状態の包括的記述を提供するが、退化状態に関する同様の記述は存在しなかった。 この研究では、退化状態の幾何を非アーベル(ウィルツェク=ゼー)接続$A$と以前に探索されなかった行列値計量テンソル$G$に還元する方法を示すことで、このギャップを埋める。 数学的には、この問題は$\mathbb{C}^n$ の部分空間の構成の $U(N)$不変量を見つけることと等価である。 2つの部分空間に対して、構成は量子距離の概念を一般化する$m$主角の集合によって記述されることが知られている。 さらなる部分空間について、3 m^2 - 3 m + 1$ の独立不変量と部分空間の3つの部分空間のそれぞれに付随する独立不変量を求める。 それらのいくつかはベリー・パンチャラトナム位相を一般化し、1次元部分空間の類似点を持たないものもある。 また、グラスマンネイン多様体上の測地線上での$A$と$G$の積分としてこれらの不変量を計算する手順も開発する。 最後に、これらの結果の量子状態準備および$PT$-symmetric Band構造への応用について簡単に論じる。

Understanding the geometric information contained in quantum states is valuable in various branches of physics, particularly in solid-state physics when Bloch states play a crucial role. While the Fubini-Study metric and Berry curvature form offer comprehensive descriptions of non-degenerate quantum states, a similar description for degenerate states did not exist. In this work, we fill this gap by showing how to reduce the geometry of degenerate states to the non-abelian (Wilczek-Zee) connection $A$ and a previously unexplored matrix-valued metric tensor $G$. Mathematically, this problem is equivalent to finding the $U(N)$ invariants of a configuration of subspaces in $\mathbb{C}^n$. For two subspaces, the configuration was known to be described by a set of $m$ principal angles that generalize the notion of quantum distance. For more subspaces, we find $3 m^2 - 3 m + 1$ additional independent invariants associated with each triple of subspaces. Some of them generalize the Berry-Pancharatnam phase, and some do not have analogues for 1-dimensional subspaces. We also develop a procedure for calculating these invariants as integrals of $A$ and $G$ over geodesics on the Grassmannain manifold. Finally, we briefly discuss possible application of these results to quantum state preparation and $PT$-symmetric band structures.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 理想の純度を持つ光沢のある単光子源

Bright Heralded Single-Photon Source with Ideal Purity ( http://arxiv.org/abs/2404.03236v1 )

ライセンス: Link先を確認
Haoyang Wang, Huihong Yuan, Qiang Zeng, Lai Zhou, Haiqiang Ma, Zhiliang Yuan, (参考訳) 理想的な単一光子純度を持つ、前例のない鮮やかな1光子源を実証する。 ソースは、2.5GHzの繰り返し速度でポンプによって励起されるシリコンスパイラル導波路の自発4波混合に基づいている。 除草された単一光子源の純度に関する明確な理論的限界は、それぞれポッソイニアンと熱様の光ポンプに依存する。 測定された一致カウントレートは1.5MHzを超え、2階相関関数によって推定される純度は0.000945(0.8kHz)の限界に達し、これはオンチップSFWMソースでは達成されていない。

We demonstrate an unprecedentedly bright heralded single-photon source with ideal single-photon purity. The source is based on spontaneous four-wave mixing in silicon spiral waveguide excited by a pump with a repetition rate of 2.5 GHz. An explicit theoretical limit of purity of heralded single-photon source is derived, depending on Possoinian and thermal-like light pump, respectively. The measured coincidence counting rate exceeds 1.5 MHz, and the purity estimated by the second-order correlation function reaches the limit with a lowest value of 0.000945 (at a coincidence rate of 0.8 kHz), which has never been achieved by on-chip SFWM sources.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# インタラクティブVRゲームを用いたマルチコンポーネント空間での感情探索

Exploring Emotions in Multi-componential Space using Interactive VR Games ( http://arxiv.org/abs/2404.03239v1 )

ライセンス: Link先を確認
Rukshani Somarathna, Gelareh Mohammadi, (参考訳) 感情理解は、複数のコンポーネントを含む複雑なプロセスである。 感情を認識する能力は、新しい文脈認識法をもたらすだけでなく、感情を知覚し表現することでシステム間相互作用の有効性を高める。 離散的、次元的なモデルに注意を払っているにもかかわらず、神経科学的証拠はこれらの感情が複雑で多面的であることを裏付けている。 このような発見とよく調和するフレームワークのひとつにコンポーネント・プロセス・モデル(CPM)がある。これは、評価、表現、モチベーション、生理学、感覚という5つの相互接続された要素による感情の複雑さを考える理論である。 しかし、CPMと離散感情の関係は、まだ完全には解明されていない。 そこで我々は,対話型バーチャルリアリティ(VR)ゲームを用いたデータ駆動型アプローチを運用し,39人の参加者からマルチモーダル測度(自己報告,生理的,顔的信号)を収集した。 機械学習(ML)手法を用いて、各コンポーネントの感情分化に対するユニークな貢献を識別した。 その結果、感情の分化における異なる要素の役割が示され、最も重要な寄与を示す全ての要素を含むモデルが得られた。 さらに、データセット内の感情の変化を表現するために、少なくとも5つの次元が必要であることがわかりました。 これらの知見は、感情研究におけるVR環境の利用にも影響し、そのような環境における感情認識における生理的シグナルの役割を強調している。

Emotion understanding is a complex process that involves multiple components. The ability to recognise emotions not only leads to new context awareness methods but also enhances system interaction's effectiveness by perceiving and expressing emotions. Despite the attention to discrete and dimensional models, neuroscientific evidence supports those emotions as being complex and multi-faceted. One framework that resonated well with such findings is the Component Process Model (CPM), a theory that considers the complexity of emotions with five interconnected components: appraisal, expression, motivation, physiology and feeling. However, the relationship between CPM and discrete emotions has not yet been fully explored. Therefore, to better understand emotions underlying processes, we operationalised a data-driven approach using interactive Virtual Reality (VR) games and collected multimodal measures (self-reports, physiological and facial signals) from 39 participants. We used Machine Learning (ML) methods to identify the unique contributions of each component to emotion differentiation. Our results showed the role of different components in emotion differentiation, with the model including all components demonstrating the most significant contribution. Moreover, we found that at least five dimensions are needed to represent the variation of emotions in our dataset. These findings also have implications for using VR environments in emotion research and highlight the role of physiological signals in emotion recognition within such environments.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 2相ダーシー流れのシミュレーションと予測のための知識に基づく畳み込みニューラルネットワーク

Knowledge-Based Convolutional Neural Network for the Simulation and Prediction of Two-Phase Darcy Flows ( http://arxiv.org/abs/2404.03240v1 )

ライセンス: Link先を確認
Zakaria Elabid, Daniel Busby, Abdenour Hadid, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、科学計算とシミュレーションの分野で強力なツールとして注目されている。 物理原理を深層学習アーキテクチャにシームレスに統合する能力は、物理学と工学の複雑な問題を解決するアプローチに革命をもたらした。 しかし、主流のPINNが直面する永続的な課題は、不連続な入力データを扱うことにある。 本研究では,これらの課題に対して,統制方程式の離散形式をPINNフレームワークに組み込むことで対処する。 本稿では、ニューラルネットワークのパワーと、離散化微分方程式によって課される力学を組み合わせることを提案する。 支配方程式を識別することにより、PINNは不連続性を考慮し、入力と出力の間の基礎となる関係を正確に把握し、従来の補間技術と比較して精度を向上させる。 さらに、ニューラルネットワークのパワーを活用することにより、数値シミュレーションに関連する計算コストを大幅に削減する。 本研究では,圧力場と飽和場の予測のための大規模データセットを用いて,非物理的に認識されたモデルと比較して高い精度を示す。

Physics-informed neural networks (PINNs) have gained significant prominence as a powerful tool in the field of scientific computing and simulations. Their ability to seamlessly integrate physical principles into deep learning architectures has revolutionized the approaches to solving complex problems in physics and engineering. However, a persistent challenge faced by mainstream PINNs lies in their handling of discontinuous input data, leading to inaccuracies in predictions. This study addresses these challenges by incorporating the discretized forms of the governing equations into the PINN framework. We propose to combine the power of neural networks with the dynamics imposed by the discretized differential equations. By discretizing the governing equations, the PINN learns to account for the discontinuities and accurately capture the underlying relationships between inputs and outputs, improving the accuracy compared to traditional interpolation techniques. Moreover, by leveraging the power of neural networks, the computational cost associated with numerical simulations is substantially reduced. We evaluate our model on a large-scale dataset for the prediction of pressure and saturation fields demonstrating high accuracies compared to non-physically aware models.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 深部生成モデルは将来のモデルでバイアスを増幅するか?

Would Deep Generative Models Amplify Bias in Future Models? ( http://arxiv.org/abs/2404.03242v1 )

ライセンス: Link先を確認
Tianwei Chen, Yusuke Hirota, Mayu Otani, Noa Garcia, Yuta Nakashima, (参考訳) 今後のコンピュータビジョンモデルにおいて、深層生成モデルが潜在的な社会的バイアスに与える影響について検討する。 インターネットがAI生成画像の流入を目撃するにつれ、それらに付随する固有のバイアスに関する懸念が生じ、有害なコンテンツの拡散につながる可能性がある。 本稿では,将来のモデルのトレーニングデータとして生成画像を使用した場合,バイアス増幅による有害フィードバックループが発生するかどうかを考察する。 我々は,COCOおよびCC3Mデータセットの原画像に,安定拡散により生成された画像とを段階的に置換してシミュレーションを行う。 修正データセットはOpenCLIPと画像キャプションモデルのトレーニングに使用され、品質とバイアスの観点から評価する。 予想とは対照的に、トレーニング中に生成された画像を導入することはバイアスを均一に増幅しないことを示す。 代わりに、特定のタスクにまたがるバイアス緩和の事例が観察される。 さらに、画像生成(例えば、ぼやけた顔)のアーティファクトや、元のデータセットの既存のバイアスなど、これらの現象に影響を与える可能性のある要因についても検討する。

We investigate the impact of deep generative models on potential social biases in upcoming computer vision models. As the internet witnesses an increasing influx of AI-generated images, concerns arise regarding inherent biases that may accompany them, potentially leading to the dissemination of harmful content. This paper explores whether a detrimental feedback loop, resulting in bias amplification, would occur if generated images were used as the training data for future models. We conduct simulations by progressively substituting original images in COCO and CC3M datasets with images generated through Stable Diffusion. The modified datasets are used to train OpenCLIP and image captioning models, which we evaluate in terms of quality and bias. Contrary to expectations, our findings indicate that introducing generated images during training does not uniformly amplify bias. Instead, instances of bias mitigation across specific tasks are observed. We further explore the factors that may influence these phenomena, such as artifacts in image generation (e.g., blurry faces) or pre-existing biases in the original datasets.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 観測可能なものに対するより強い速度限界:絡み合いの容量、モジュラーハミルトニアンおよび量子電池の充電のためのタイトバウンド

Stronger Speed Limit for Observables: Tight bound for Capacity of Entanglement, Modular Hamiltonian and Charging of Quantum Battery ( http://arxiv.org/abs/2404.03247v1 )

ライセンス: Link先を確認
Divyansh Shrimali, Biswaranjan Panda, Arun Pati, (参考訳) 観測可能な速度の限界は、観測可能な速度の限界と呼ばれる。 ここでは、観測可能な速度限界のより強いバージョンを証明し、得られた境界が新しい境界の特別な場合であることを示す。 状態に対する強い量子速度制限は、観測可能量に対する強い量子速度制限(SQSLO)からも従う。 これを応用して、エンタングルメントのキャパシティ(熱キャパシティの量子情報理論に匹敵する)の概念を用いて、エンタングルメントレートの強いバウンドを証明し、それ以前のバウンドよりも優れていることを示す。 さらに、モジュラーハミルトニアンの速度と量子バッテリの相互作用の文脈でSQSLOを適用する。 これらの図示的な例は、モジュラーエネルギーの速度制限とバッテリーの充電に必要な時間を、新しいバウンドを使って正確に予測できることを示している。 これは、量子バッテリSQSLOの充電時間の推定が実際にきついこと、すなわち飽和であることを示している。 我々の発見は、量子熱力学、演算子成長の複雑さ、量子相関成長の時間率と量子技術全般において重要な応用を持つことができる。

How fast an observable can evolve in time is answered by so-called the observable speed limit. Here, we prove a stronger version of the observable speed limit and show that the previously obtained bound is a special case of the new bound. The stronger quantum speed limit for the state also follows from the stronger quantum speed limit for observables (SQSLO). We apply this to prove a stronger bound for the entanglement rate using the notion of capacity of entanglement (the quantum information theoretic counterpart of the heat capacity) and show that it outperforms previous bounds. Furthermore, we apply the SQSLO for the rate of modular Hamiltonian and in the context of interacting qubits in a quantum battery. These illustrative examples reveal that the speed limit for the modular energy and the time required to charge the battery can be exactly predicted using the new bound. This shows that for estimating the charging time of quantum battery SQSLO is actually tight, i.e., it saturates. Our findings can have important applications in quantum thermodynamics, the complexity of operator growth, predicting the time rate of quantum correlation growth and quantum technology, in general.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# アウト・オブ・ディストリビューション検出のための伝達可能な負のプロンプトの学習

Learning Transferable Negative Prompts for Out-of-Distribution Detection ( http://arxiv.org/abs/2404.03248v1 )

ライセンス: Link先を確認
Tianqi Li, Guansong Pang, Xiao Bai, Wenjun Miao, Jin Zheng, (参考訳) 既存の素早い学習手法は、アウト・オブ・ディストリビューション(OOD)検出の特定の機能を示しているが、トレーニング中のターゲットデータセットにおけるOODイメージの欠如は、OODイメージとイン・ディストリビューション(ID)カテゴリのミスマッチを引き起こす可能性があるため、偽陽性率が高い。 この問題に対処するために,各クラスラベルの負の意味を表す負のプロンプトの集合を学習するために,新しいOOD検出手法「NegPrompt」を導入する。 外部の外れ値データに依存することなく、IDデータのみでそのような負のプロンプトを学習する。 さらに、現在の手法では、全てのIDクラスのサンプルが利用可能であると仮定し、推論段階がトレーニング中に存在しない新しいIDクラスを含むようなオープン語彙学習シナリオでは、それらが有効でないと仮定する。 対照的に、学習した負のプロンプトは、新しいクラスラベルに転送可能である。 さまざまなImageNetベンチマークの実験によると、NegPromptは最先端のプロンプトベースのOOD検出手法を超越し、クローズドおよびオープンボキャブラリ分類シナリオにおけるハードOOD検出において一貫したリードを維持している。 コードはhttps://github.com/mala-lab/negprompt.comで入手できる。

Existing prompt learning methods have shown certain capabilities in Out-of-Distribution (OOD) detection, but the lack of OOD images in the target dataset in their training can lead to mismatches between OOD images and In-Distribution (ID) categories, resulting in a high false positive rate. To address this issue, we introduce a novel OOD detection method, named 'NegPrompt', to learn a set of negative prompts, each representing a negative connotation of a given class label, for delineating the boundaries between ID and OOD images. It learns such negative prompts with ID data only, without any reliance on external outlier data. Further, current methods assume the availability of samples of all ID classes, rendering them ineffective in open-vocabulary learning scenarios where the inference stage can contain novel ID classes not present during training. In contrast, our learned negative prompts are transferable to novel class labels. Experiments on various ImageNet benchmarks show that NegPrompt surpasses state-of-the-art prompt-learning-based OOD detection methods and maintains a consistent lead in hard OOD detection in closed- and open-vocabulary classification scenarios. Code is available at https://github.com/mala-lab/negprompt.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 非凸群ペナルティを用いたロバスト正規化クラスタリングによるマルチタスク学習

Multi-task learning via robust regularized clustering with non-convex group penalties ( http://arxiv.org/abs/2404.03250v1 )

ライセンス: Link先を確認
Akira Okazaki, Shuichi Kawano, (参考訳) マルチタスク学習(MTL)は、関連するタスク間で共通情報を共有することにより、予測と予測性能を向上させることを目的としている。 MTLの自然な仮定の一つは、タスクはその特性に基づいてクラスタに分類されるということである。 しかし、この仮定に基づく既存のMTLメソッドは、大きなタスク固有のコンポーネントや他のタスクとは無関係なタスクを無視することが多い。 本稿では,ロバスト正規化クラスタリング(MTLRRC)を用いたマルチタスク学習手法を提案する。 MTLRRCはロバストな凸クラスタリングにインスパイアされたロバストな正則化項を取り入れており、非凸およびグループスパースなペナルティを扱うためにさらに拡張されている。 この拡張により、MTLRRCはロバストなタスククラスタリングとアウトリーなタスク検出を同時に行うことができる。 拡張ロバストクラスタリングと多変量M-推定器の接続も確立した。 このことは、MTLRRCが外れたタスクに対して頑健であることの解釈を提供する。 パラメータ推定のための乗算器の修正交互方向法に基づく効率的なアルゴリズムを開発した。 MTLRRCの有効性はシミュレーション研究と実データへの適用を通して実証される。

Multi-task learning (MTL) aims to improve estimation and prediction performance by sharing common information among related tasks. One natural assumption in MTL is that tasks are classified into clusters based on their characteristics. However, existing MTL methods based on this assumption often ignore outlier tasks that have large task-specific components or no relation to other tasks. To address this issue, we propose a novel MTL method called Multi-Task Learning via Robust Regularized Clustering (MTLRRC). MTLRRC incorporates robust regularization terms inspired by robust convex clustering, which is further extended to handle non-convex and group-sparse penalties. The extension allows MTLRRC to simultaneously perform robust task clustering and outlier task detection. The connection between the extended robust clustering and the multivariate M-estimator is also established. This provides an interpretation of the robustness of MTLRRC against outlier tasks. An efficient algorithm based on a modified alternating direction method of multipliers is developed for the estimation of the parameters. The effectiveness of MTLRRC is demonstrated through simulation studies and application to real data.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 画像とメタデータを用いたカメラシステムの実時間ノイズ源推定

Real-time Noise Source Estimation of a Camera System from an Image and Metadata ( http://arxiv.org/abs/2404.03251v1 )

ライセンス: Link先を確認
Maik Wischow, Patrick Irmisch, Anko Boerner, Guillermo Gallego, (参考訳) 自律機械は、人間と自己の安全を確保するために、適切な機能を自己維持しなければならない。 これは特に、そのカメラが環境を感知し、行動を支援する主要なセンサーとして関係している。 本研究で論じる基本的なカメラ問題はノイズである。 解決策は、しばしばイメージを後部、つまり根本原因ではなく、戦う症状に分解することに焦点を当てる。 しかし、根本原因に対処するには、モバイルプラットフォームの制限を考慮してノイズ源を特定する必要がある。 本研究では,データモデルと物理モデルを組み合わせたリアルタイム,メモリ効率,信頼性の高いノイズ源推定器について検討する。 この目的のために、主要なカメラノイズ源のためのカメラメタデータで画像を調べるDNNを構築し、訓練する。 さらに、画像ノイズやメタデータに影響を与える予期せぬ要因を定量化する。 本研究では,合成雑音,2つのカメラシステムからの実環境騒音,および実地運動を含む6つのデータセットに対する7つの異なる推定器について検討した。 これらに対して、ほとんどのメタデータを持つモデルのみが、個々のノイズコントリビューションを正確かつ堅牢に定量化することができる。 本手法は,全画像ノイズ推定器より優れ,プラグアンドプレイが可能である。 また、より高度なノイズ源や、完全に信頼性のあるマシンにアプローチするための自動対策フィードバックループの一部として機能する。

Autonomous machines must self-maintain proper functionality to ensure the safety of humans and themselves. This pertains particularly to its cameras as predominant sensors to perceive the environment and support actions. A fundamental camera problem addressed in this study is noise. Solutions often focus on denoising images a posteriori, that is, fighting symptoms rather than root causes. However, tackling root causes requires identifying the noise sources, considering the limitations of mobile platforms. This work investigates a real-time, memory-efficient and reliable noise source estimator that combines data- and physically-based models. To this end, a DNN that examines an image with camera metadata for major camera noise sources is built and trained. In addition, it quantifies unexpected factors that impact image noise or metadata. This study investigates seven different estimators on six datasets that include synthetic noise, real-world noise from two camera systems, and real field campaigns. For these, only the model with most metadata is capable to accurately and robustly quantify all individual noise contributions. This method outperforms total image noise estimators and can be plug-and-play deployed. It also serves as a basis to include more advanced noise sources, or as part of an automatic countermeasure feedback-loop to approach fully reliable machines.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 多指節分割を併用した原発性鼻咽喉頭癌MRIの1例

A dataset of primary nasopharyngeal carcinoma MRI with multi-modalities segmentation ( http://arxiv.org/abs/2404.03253v1 )

ライセンス: Link先を確認
Yin Li, Qi Chen, Kai Wang, Meige Li, Liping Si, Yingwei Guo, Yu Xiong, Qixing Wang, Yang Qin, Ling Xu, Patrick van der Smagt, Jun Tang, Nutan Chen, (参考訳) 鼻咽喉頭癌 (NPC) の早期診断, 腫瘍の分節化, ステージングを促進する多モード磁気共鳴画像データについて検討した。 公開されている包括的なデータセットの欠如は、診断、治療計画、NPCのための機械学習アルゴリズムの開発の進歩を制限する。 この重要なニーズに対処するため,277人の原発性NPC患者のMR軸画像を含む,初めての総合的NPC MRIデータセットを導入した。 このデータセットは、T1重み付き、T2重み付き、およびコントラスト強化T1重み付きシーケンスを含み、合計で831スキャンである。 対応する臨床データに加えて、経験者による手動注釈とラベル付きセグメンテーションは、未処理の一次NPCから高品質なデータ資源を提供する。

Multi-modality magnetic resonance imaging data with various sequences facilitate the early diagnosis, tumor segmentation, and disease staging in the management of nasopharyngeal carcinoma (NPC). The lack of publicly available, comprehensive datasets limits advancements in diagnosis, treatment planning, and the development of machine learning algorithms for NPC. Addressing this critical need, we introduce the first comprehensive NPC MRI dataset, encompassing MR axial imaging of 277 primary NPC patients. This dataset includes T1-weighted, T2-weighted, and contrast-enhanced T1-weighted sequences, totaling 831 scans. In addition to the corresponding clinical data, manually annotated and labeled segmentations by experienced radiologists offer high-quality data resources from untreated primary NPC.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# Pose-Consistent Generated Imageを用いたマルチポジティヴコントラスト学習

Multi Positive Contrastive Learning with Pose-Consistent Generated Images ( http://arxiv.org/abs/2404.03256v1 )

ライセンス: Link先を確認
Sho Inayoshi, Aji Resindra Widya, Satoshi Ozaki, Junji Otsuka, Takeshi Ohashi, (参考訳) モデル事前学習は、様々な認識タスクに欠かせないものとなっている。 一方、画像生成モデルの顕著な進歩に伴い、無制限のトレーニングデータを生成する能力から、生成画像を利用した事前学習方法も出現している。 しかし、既存の画像を用いた手法は分類において優れているが、人間のポーズ推定のようなより実践的なタスクでは不足している。 本稿では,それを実験的に実証し,同一の人間のポーズで視覚的に異なる画像を生成することを提案する。 そこで本研究では,これまでに生成した画像を用いて人体の構造的特徴を最適に学習する,新しいマルチ陽性コントラスト学習を提案する。 我々は学習パイプライン全体をGenPoCCLと呼んでいる。 GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉え、様々な人間中心の知覚タスクにおいて既存の手法を超越している。

Model pre-training has become essential in various recognition tasks. Meanwhile, with the remarkable advancements in image generation models, pre-training methods utilizing generated images have also emerged given their ability to produce unlimited training data. However, while existing methods utilizing generated images excel in classification, they fall short in more practical tasks, such as human pose estimation. In this paper, we have experimentally demonstrated it and propose the generation of visually distinct images with identical human poses. We then propose a novel multi-positive contrastive learning, which optimally utilize the previously generated images to learn structural features of the human body. We term the entire learning pipeline as GenPoCCL. Despite using only less than 1% amount of data compared to current state-of-the-art method, GenPoCCL captures structural features of the human body more effectively, surpassing existing methods in a variety of human-centric perception tasks.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# アスペクトベース感性分析システムの性能向上

Enhancing the Performance of Aspect-Based Sentiment Analysis Systems ( http://arxiv.org/abs/2404.03259v1 )

ライセンス: Link先を確認
Chen Li, Jinli Zhang, Huidong Tang, Peng Ju, Debo Cheng, Yasuhiko Morimoto, (参考訳) アスペクトベースの感情分析は、微粒度で感情極性を予測することを目的としている。 グラフ畳み込みネットワーク(GCN)は感傷的特徴抽出に広く利用されているが、その直感的な特徴抽出への応用は情報保存を損なう可能性がある。 本研究では,改良されたエッジ強化GCNであるSentiSysを導入し,特徴情報を保存しながら構文グラフをナビゲートし,性能を向上する。 具体的には、まず双方向長短期メモリ(Bi-LSTM)ネットワークと自己注意型トランスフォーマーを統合する。 この組み合わせは効果的なテキストエンコーディングを促進し、情報の喪失を防ぎ、長い依存テキストを予測する。 次に、メッセージパッシングを伴う双方向GCN(Bi-GCN)を使用して、エンティティ間の関係をエンコードする。 さらに、アスペクト固有のマスキング技術を用いて不要な情報をフィルタリングする。 提案モデルの有効性を検証するため,4つのベンチマークデータセットに対する広範囲な評価実験とアブレーション研究を行った。 その結果,SentiSysを用いたアスペクトベース感情分析では,常に改善が見られた。 本手法は,構文的特徴抽出に関わる課題に対処し,感情分析手法の進歩の可能性を強調した。

Aspect-based sentiment analysis aims to predict sentiment polarity with fine granularity. While Graph Convolutional Networks (GCNs) are widely utilized for sentimental feature extraction, their naive application for syntactic feature extraction can compromise information preservation. This study introduces an innovative edge-enhanced GCN, named SentiSys, to navigate the syntactic graph while preserving intact feature information, leading to enhanced performance. Specifically,we first integrate a bidirectional long short-term memory (Bi-LSTM) network and a self-attention-based transformer. This combination facilitates effective text encoding, preventing the loss of information and predicting long dependency text. A bidirectional GCN (Bi-GCN) with message passing is then employed to encode relationships between entities. Additionally, unnecessary information is filtered out using an aspect-specific masking technique. To validate the effectiveness of our proposed model, we conduct extensive evaluation experiments and ablation studies on four benchmark datasets. The results consistently demonstrate improved performance in aspect-based sentiment analysis when employing SentiSys. This approach successfully addresses the challenges associated with syntactic feature extraction, highlighting its potential for advancing sentiment analysis methodologies.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 時間的遅延を伴う量子アグリゲーション

Quantum aggregation with temporal delay ( http://arxiv.org/abs/2404.03262v1 )

ライセンス: Link先を確認
Nicolò Lo Piparo, William J. Munro, Kae Nemoto, (参考訳) 高度な量子ネットワークシステムは、最適な実現のために効率的な量子誤り訂正符号に依存している。 符号化された情報が送信される速度は、そのようなシステムの性能に影響を与える基本的な限界である。 量子アグリゲーションは、2人の遠いユーザーを結ぶ複数のパスを追加することで送信率を高めることができる。 異なる経路のチャネルを集約することで、より多くのユーザーがエンコードされた情報を同時に交換できる。 近年の研究では、量子アグリゲーションは、量子多重化技術と組み合わせることで、誤り訂正符号の物理資源数を減少させることができることが示されている。 しかし、様々な経路にまたがる異なるチャネル長は、符号化された量子情報のいくつかは他のものよりも早く到着し、量子メモリに格納する必要があることを意味する。 保存された情報は、最終的な量子状態の忠実性に対する有害な影響をもたらすデコヒーレンスプロセスによって劣化する。 本稿では,異なるチャネル長を含む量子アグリゲーションを用いた場合,量子リード・ソロモン符号に発生する分極チャネルの効果について検討する。 2つのリモートユーザを結ぶ様々なチャネル間のリソースの最適な分配を決定する。 さらに,一定の忠実度を達成するために必要なコヒーレンス時間を推定する。 私たちの結果は、物理リソースが量子ネットワークに分散する方法に大きな影響を与えます。

Advanced quantum networking systems rely on efficient quantum error correction codes for their optimal realization. The rate at which the encoded information is transmitted is a fundamental limit that affects the performance of such systems. Quantum aggregation allows one to increase the transmission rate by adding multiple paths connecting two distant users. Aggregating channels of different paths allows more users to simultaneously exchange the encoded information. Recent work has shown that quantum aggregation can also reduce the number of physical resources of an error correction code when it is combined with the quantum multiplexing technique. However, the different channel lengths across the various paths means some of the encoded quantum information will arrive earlier than others and it must be stored in quantum memories. The information stored will then deteriorate due to decoherence processes leading to detrimental effects for the fidelity of the final quantum state. Here, we explore the effects of a depolarization channel that occurs for the quantum Reed-Solomon code when quantum aggregation involving different channel lengths is used. We determine the best distribution of resources among the various channels connecting two remote users. Further we estimate the coherence time required to achieve a certain fidelity. Our results will have a significant impact on the ways physical resources are distributed across a quantum network.
翻訳日:2024-04-05 15:33:48 公開日:2024-04-04
# 予習型小型モデルの代替としての蒸留の有効性について

On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models ( http://arxiv.org/abs/2404.03263v1 )

ライセンス: Link先を確認
Sean Farhat, Deming Chen, (参考訳) 本稿では,小モデルがその利点を享受するために事前学習のコストを吸収する必要がないことを提案する。 むしろ彼らは、現代の巨大なモデルによって達成された驚くべき結果から驚くべき程度まで利益を得ることができる。 事前訓練された教師モデルからタスクを蒸留すると、そのタスクで事前訓練されたり微調整されたりした場合、小さなモデルで達成されるパフォーマンスを達成または超えることが観察された。 この現象を容易に活用するために,(1) 全く異なるモデルアーキテクチャペアリングが蒸留に有効であり,(2) ノイズコントラスト推定理論に根ざした最もコントラスト学習アルゴリズムが容易に適用され,利用することができる。 本稿では,Wang & Isola(2020)によるコントラスト学習のアライメント/ユニモーフィティの観点から,オープンソースモデルハブ,トランスフォーマーと畳み込みモデルの組み合わせによる事前学習モデル,および新しい蒸留アルゴリズムを用いて,このパラダイムを実証する。 計算コストの低いコントラスト学習のフレーバーを選択する。 また、タスクがデータ制限された場合、この現象は発生しない傾向にあることも観察する。 しかし、これは、データセット拡張のための大規模で事前訓練された生成モデルという、もう1つのスケールインスパイアされた開発を活用することで緩和できる。 繰り返すが、我々はオープンソースモデルを使い、初歩的なプロンプトは小さなモデルの性能を高めるのに十分である。 そこで本研究では,性能を犠牲にすることなく,従来の事前学習パラダイムよりも最大94%高速な小型モデルのトレーニング手法を強調した。 禁止スケールのため、実践者が新しい基礎データセットを自分たちの小さなモデルに完全に活用することを避けて、私たちの作業はそのドアを開いていると信じています。

In this paper, we propose that small models may not need to absorb the cost of pre-training to reap its benefits. Instead, they can capitalize on the astonishing results achieved by modern, enormous models to a surprising degree. We observe that, when distilled on a task from a pre-trained teacher model, a small model can achieve or surpass the performance it would achieve if it was pre-trained then finetuned on that task. To allow this phenomenon to be easily leveraged, we establish a connection reducing knowledge distillation to modern contrastive learning, opening two doors: (1) vastly different model architecture pairings can work for the distillation, and (2) most contrastive learning algorithms rooted in the theory of Noise Contrastive Estimation can be easily applied and used. We demonstrate this paradigm using pre-trained teacher models from open-source model hubs, Transformer and convolution based model combinations, and a novel distillation algorithm that massages the Alignment/Uniformity perspective of contrastive learning by Wang & Isola (2020) into a distillation objective. We choose this flavor of contrastive learning due to its low computational cost, an overarching theme of this work. We also observe that this phenomenon tends not to occur if the task is data-limited. However, this can be alleviated by leveraging yet another scale-inspired development: large, pre-trained generative models for dataset augmentation. Again, we use an open-source model, and our rudimentary prompts are sufficient to boost the small model`s performance. Thus, we highlight a training method for small models that is up to 94% faster than the standard pre-training paradigm without sacrificing performance. For practitioners discouraged from fully utilizing modern foundation datasets for their small models due to the prohibitive scale, we believe our work keeps that door open.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# 医療振興のための基盤モデル--課題,機会,今後の方向性

Foundation Model for Advancing Healthcare: Challenges, Opportunities, and Future Directions ( http://arxiv.org/abs/2404.03264v1 )

ライセンス: Link先を確認
Yuting He, Fuxiang Huang, Xinrui Jiang, Yuxiang Nie, Minghao Wang, Jiguang Wang, Hao Chen, (参考訳) 幅広いデータに基づいて事前訓練され、幅広いタスクに適応できるファンデーションモデルは、医療を進歩させています。 医療人工知能(AI)モデルの開発を促進し、限られたAIモデルと多様な医療プラクティスの矛盾を解消する。 より広範な医療シナリオは、医療基盤モデル(HFM)の開発から恩恵を受け、先進的なインテリジェントヘルスケアサービスを改善する。 HFMの展開が間近に迫っているにもかかわらず、現在、医療分野における彼らの働き方、現在の課題、そして将来の方向性について、明確な理解が欠けている。 これらの疑問に答えるために,HFMの課題,機会,今後の方向性を包括的かつ深く調査した。 最初にHFMの概要を概観し、現在の進捗を素早く把握するための方法、データ、アプリケーションについて概説した。 そして、医療における基礎モデルの構築と普及のためのデータ、アルゴリズム、コンピューティングインフラストラクチャーにおける課題を詳細に調査した。 この調査はまた、今後の発展に向けて、この分野における新興かつ有望な方向性を明らかにしている。 我々は,この調査がHFMの現在の進歩に対するコミュニティの理解を高め,今後の発展のための貴重なガイダンスの源泉となると信じている。 最新のHFM論文と関連するリソースは、私たちのWebサイトで管理されています。

Foundation model, which is pre-trained on broad data and is able to adapt to a wide range of tasks, is advancing healthcare. It promotes the development of healthcare artificial intelligence (AI) models, breaking the contradiction between limited AI models and diverse healthcare practices. Much more widespread healthcare scenarios will benefit from the development of a healthcare foundation model (HFM), improving their advanced intelligent healthcare services. Despite the impending widespread deployment of HFMs, there is currently a lack of clear understanding about how they work in the healthcare field, their current challenges, and where they are headed in the future. To answer these questions, a comprehensive and deep survey of the challenges, opportunities, and future directions of HFMs is presented in this survey. It first conducted a comprehensive overview of the HFM including the methods, data, and applications for a quick grasp of the current progress. Then, it made an in-depth exploration of the challenges present in data, algorithms, and computing infrastructures for constructing and widespread application of foundation models in healthcare. This survey also identifies emerging and promising directions in this field for future development. We believe that this survey will enhance the community's comprehension of the current progress of HFM and serve as a valuable source of guidance for future development in this field. The latest HFM papers and related resources are maintained on our website: https://github.com/YutingHe-list/Awesome-Foundation-Models-for-Advancing-Healthcare.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# 一般化Hund's Ruleを用いた効率的な地盤状態推定

Efficient Ground State Estimation Using Generalized Hund's Rule ( http://arxiv.org/abs/2404.03268v1 )

ライセンス: Link先を確認
Leo Chiang, Ching-Jui Lai, (参考訳) 量子コンピュータは分子の基底状態をシミュレートするための有望なアプローチを提供する。 しかし、現在のデバイスで利用可能なキュービットの数が限られているため、シミュレーションには困難が伴う。 本稿では,Hundの法則に従って特定のフェルミオン状態を調べることにより,分子シミュレーションのキュービット使用量を削減する可能性について検討する。 量子ビット効率エンコーディングに基づく新しいフレームワークを提案する。 この枠組みに基づき、ハミルトニアンはハウンド部分空間に制限される。 粒子保存のみと比較して、提案法は、M$軌道とN$電子分子が$M\gg N$の場合には、$N$量子ビットの使用を削減できる。 さらに、STO-3G基底集合を用いる場合、提案法により与えられた分子形状を持つ15ドル分子のシミュレーションは、完全な構成相互作用に近くなる。 絶対差は0.121 %$である。 一方、提案手法を用いたポテンシャルエネルギー表面からの予測は、少なくとも4.1\%$の絶対差を持つ。

Quantum computers offer a promising approach to simulate the ground state of molecules, which is crucial for understanding molecular properties and chemical reactions. However, the limited number of available qubits on current devices poses a challenge for simulation. This paper investigates the feasibility of reducing the qubit usage of molecular simulation by examining specific fermionic states according to Hund's rule. We introduced a new framework based on qubit efficiency encoding. Based on this framework, the Hamiltonian is restricted to the Hund subspace. Compared to only concerned particle conservation, the proposed method can reduce $N$ qubit usage for an $M$ orbitals and $N$ electrons molecule when $M\gg N$. Additionally, when using the STO-3G basis sets, the simulations of the $15$ molecules with given molecular geometry by the proposed method are close to the full configuration interaction. The absolute difference is at most $0.121\%$. Meanwhile, predictions from potential energy surfaces using the proposed method have an absolute difference at most $4.1\%$.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# スコア推定の暗号ハードネス

Cryptographic Hardness of Score Estimation ( http://arxiv.org/abs/2404.03272v1 )

ライセンス: Link先を確認
Min Jae Song, (参考訳) L^2$-accurate score Estimation, in without the strong assumptions on the data distribution, is calculatedly hard in if sample complexity is polynomial in the relevant problem parameters。 削減はChen et al (ICLR 2023)の結果に基づいており、未知のデータ分布からサンプルを生成する問題は、$L^2$-精度のスコア推定に還元されることを示した。 この分布は、格子ベースの暗号(Bruna et al , STOC 2021; Gupte et al , FOCS 2022)から広く信じられている硬さ仮定の下で、標準ガウスと計算的に区別できないことが示されている。

We show that $L^2$-accurate score estimation, in the absence of strong assumptions on the data distribution, is computationally hard even when sample complexity is polynomial in the relevant problem parameters. Our reduction builds on the result of Chen et al. (ICLR 2023), who showed that the problem of generating samples from an unknown data distribution reduces to $L^2$-accurate score estimation. Our hard-to-estimate distributions are the "Gaussian pancakes" distributions, originally due to Diakonikolas et al. (FOCS 2017), which have been shown to be computationally indistinguishable from the standard Gaussian under widely believed hardness assumptions from lattice-based cryptography (Bruna et al., STOC 2021; Gupte et al., FOCS 2022).
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# ガウススムースススライスススライス確率分岐

Gaussian-Smoothed Sliced Probability Divergences ( http://arxiv.org/abs/2404.03273v1 )

ライセンス: Link先を確認
Mokhtar Z. Alaya, Alain Rakotomamonjy, Maxime Berar, Gilles Gasso, (参考訳) ガウススムースにスライスされたワッサースタイン距離は、データ上のプライバシーを保ちながら確率分布を比較するために最近導入された。 これは、非平凡な(私的でない)パフォーマンスと同じようなパフォーマンスを提供することが示されている。 しかし、そのような計量の計算および統計的性質はまだ十分に確立されていない。 この研究は、この距離の理論的性質と、ガウススムーズスライスされた発散体として表される一般化されたバージョンの性質を考察する。 まず、滑らか化とスライシングが計量特性と弱位相を保存することを示す。 そのような発散のサンプル複雑性を研究するために、滑らかにプロジェクションされた$\mu$に対する二重経験分布に対して$\hat{\hat\mu}_{n} を導入する。 分布 $\hat{\hat\mu}_{n}$ は二重サンプリング過程の結果であり、原点分布 $\mu$ と、単位球面上の$\mu$ の射影の畳み込みとガウス滑らか化による2番目のサンプリングである。 特に、ガウスの滑らかなスライスされたワッサーシュタイン距離に注目し、それが$O(n^{-1/2})$で収束することを証明している。 また、滑らかなパラメータに関して異なる発散の連続性を含む他の性質も導出する。 プライバシ保護ドメイン適応の文脈における実証的研究で理論的知見を支持する。

Gaussian smoothed sliced Wasserstein distance has been recently introduced for comparing probability distributions, while preserving privacy on the data. It has been shown that it provides performances similar to its non-smoothed (non-private) counterpart. However, the computationaland statistical properties of such a metric have not yet been well-established. This work investigates the theoretical properties of this distance as well as those of generalized versions denoted as Gaussian-smoothed sliced divergences. We first show that smoothing and slicing preserve the metric property and the weak topology. To study the sample complexity of such divergences, we then introduce $\hat{\hat\mu}_{n}$ the double empirical distribution for the smoothed-projected $\mu$. The distribution $\hat{\hat\mu}_{n}$ is a result of a double sampling process: one from sampling according to the origin distribution $\mu$ and the second according to the convolution of the projection of $\mu$ on the unit sphere and the Gaussian smoothing. We particularly focus on the Gaussian smoothed sliced Wasserstein distance and prove that it converges with a rate $O(n^{-1/2})$. We also derive other properties, including continuity, of different divergences with respect to the smoothing parameter. We support our theoretical findings with empirical studies in the context of privacy-preserving domain adaptation.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# DELTA:大規模言語モデルを用いた分割型長期ロボットタスク計画

DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models ( http://arxiv.org/abs/2404.03275v1 )

ライセンス: Link先を確認
Yuchen Liu, Luigi Palmieri, Sebastian Koch, Ilche Georgievski, Marco Aiello, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な研究分野に革命をもたらした。 特に,LLMからの共通知識をロボットタスクや動作計画に統合することはゲームチェンジャーであり,説明可能性や下流タスク効率を前例のない高さまで向上させることが証明されている。 しかし、これらの大きなモデルにカプセル化されている膨大な知識の管理は、しばしば幻覚やドメイン情報の欠如によってLLMベースの計画システムによって実現不可能な計画が生み出される。 これらの課題を克服し、さらに計画の実現可能性と計算効率を向上させるために、DELTAと呼ばれる新しいLCM駆動タスク計画手法を提案する。 DELTAは環境トポロジから行動可能な知識へのより良い基盤化を実現するため、シーングラフのパワーをLCM内の環境表現として活用し、正確な計画問題記述を高速に生成する。 高い計画性能を得るためには,LLMを用いて長期タスク目標を自己回帰的なサブゴール列に分解し,タスクプランナが解決する。 我々の貢献により、より効率的で完全に自動化されたタスク計画パイプラインが実現され、より高い計画の成功率と、最先端の計画よりもはるかに短い計画時間を実現できます。

Recent advancements in Large Language Models (LLMs) have sparked a revolution across various research fields. In particular, the integration of common-sense knowledge from LLMs into robot task and motion planning has been proven to be a game-changer, elevating performance in terms of explainability and downstream task efficiency to unprecedented heights. However, managing the vast knowledge encapsulated within these large models has posed challenges, often resulting in infeasible plans generated by LLM-based planning systems due to hallucinations or missing domain information. To overcome these challenges and obtain even greater planning feasibility and computational efficiency, we propose a novel LLM-driven task planning approach called DELTA. For achieving better grounding from environmental topology into actionable knowledge, DELTA leverages the power of scene graphs as environment representations within LLMs, enabling the fast generation of precise planning problem descriptions. For obtaining higher planning performance, we use LLMs to decompose the long-term task goals into an autoregressive sequence of sub-goals for an automated task planner to solve. Our contribution enables a more efficient and fully automatic task planning pipeline, achieving higher planning success rates and significantly shorter planning times compared to the state of the art.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# IoTにおけるセキュリティ対応サービス獲得のための深層強化学習アプローチ

A Deep Reinforcement Learning Approach for Security-Aware Service Acquisition in IoT ( http://arxiv.org/abs/2404.03276v1 )

ライセンス: Link先を確認
Marco Arazzi, Serena Nicolazzo, Antonino Nocera, (参考訳) 新たなモノのインターネット(IoT)パラダイムは、アーキテクチャやアプリケーションをトランスフォーメーションし、システムの複雑さを増大させ、信頼性と自律性の必要性を増す、異質なスマートオブジェクトやサービスの増加によって構成されている。 この文脈では、スマートオブジェクトとサービスは、提供された機能のセキュリティとプライバシに関する完全な透明性を提供していないサードパーティによって提供されることが多い。 マシンラーニングベースのサービスレベルアグリーメント(SLA)は、最近、クラウドベースのシナリオやIoTコンテキストにおけるポリシの確立と共有に利用されていますが、システム全体のセキュリティレベルと、要求されたサービスの提供によるプライバシ要件の履行をエンドユーザに認識させるという問題は、依然として難しい課題です。 この問題に対処するために、ユーザニーズに応じて、IoTにおけるサービスの取得において適切なレベルのプライバシとセキュリティ要件を定義する完全なフレームワークを提案する。 強化学習ベースのソリューションを使用することで、環境内のユーザエージェントは、ターゲットサービスへのアクセスを許可する最適なスマートオブジェクトを選択するように訓練される。 さらに、ソリューションは、期限要件とユーザセキュリティとプライバシニーズを保証するように設計されている。 最後に,提案手法の正しさと性能を評価するため,広範囲な実験解析を行った。

The novel Internet of Things (IoT) paradigm is composed of a growing number of heterogeneous smart objects and services that are transforming architectures and applications, increasing systems' complexity, and the need for reliability and autonomy. In this context, both smart objects and services are often provided by third parties which do not give full transparency regarding the security and privacy of the features offered. Although machine-based Service Level Agreements (SLA) have been recently leveraged to establish and share policies in Cloud-based scenarios, and also in the IoT context, the issue of making end users aware of the overall system security levels and the fulfillment of their privacy requirements through the provision of the requested service remains a challenging task. To tackle this problem, we propose a complete framework that defines suitable levels of privacy and security requirements in the acquisition of services in IoT, according to the user needs. Through the use of a Reinforcement Learning based solution, a user agent, inside the environment, is trained to choose the best smart objects granting access to the target services. Moreover, the solution is designed to guarantee deadline requirements and user security and privacy needs. Finally, to evaluate the correctness and the performance of the proposed approach we illustrate an extensive experimental analysis.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# ストロークベース手書きグジャラートフォント生成フレームワークの設計と開発

Design and Development of a Framework For Stroke-Based Handwritten Gujarati Font Generation ( http://arxiv.org/abs/2404.03277v1 )

ライセンス: Link先を確認
Preeti P. Bhatt, Jitendra V. Nasriwala, Rakesh R. Savant, (参考訳) 手書きフォント生成は、文化的遺産を保存し、パーソナライズされたデザインを作成するために重要である。 印刷物に真正で表現力のあるタッチを追加し、視覚的にアピールし、観客とのより強いつながりを確立する。 本稿では,手書き文字のバリエーションを模倣して,手書きフォントをグジャラート文字で生成するための枠組みを設計することを目的とする。 提案するフォント生成モデルは,学習フェーズと生成フェーズから構成される。 学習段階では、Gujaratiスクリプトを解析し、各文字を設計するためのルールを定式化する。 このルールセットは、ストロークベースの方法でストロークを連結することを含み、結果として生じるグリフの視覚的一貫性を保証する。 生成フェーズでは、ユーザは文字の小さなサブセットを提供し、システムは抽出されたストロークと学習ルールに基づいて残りの文字グリフを自動的に生成し、手書きのGujaratiフォントを生成する。 生成された文字グリフはFontForgeツールを使用してオープン型フォントに変換され、任意のGujaratiエディタと互換性がある。 合成画像とフォントを評価するために,主観的および客観的評価を行った。 ユーザスタディによる主観評価は、品質と視覚的魅力に対するフィードバックを与え、全体の精度は84.84%である。 特に11文字が90%以上の成功率を示した。 既存の認識システムを用いた客観的評価は、OCR評価において全体の84.28%の精度を達成する。 特に15文字は80%以上の成功率であった。

Handwritten font generation is important for preserving cultural heritage and creating personalized designs. It adds an authentic and expressive touch to printed materials, making them visually appealing and establishing a stronger connection with the audience. This paper aims to design a framework for generating handwritten fonts in the Gujarati script, mimicking the variation of human handwriting. The proposed font generation model consists of a learning phase and a generation phase. In the learning phase, Gujarati scripts are analyzed, and rules for designing each character are formulated. This ruleset involves the concatenation of strokes in a stroke-based manner, ensuring visual consistency in the resulting glyphs. The generation phase involves the user providing a small subset of characters, and the system automatically generates the remaining character glyphs based on extracted strokes and learned rules, resulting in handwritten Gujarati fonts. The resulting character glyphs are converted into an open-type font using the FontForge tool, making them compatible with any Gujarati editor. Both subjective and objective evaluations are conducted to assess the synthesized images and fonts. Subjective evaluation through user studies provides feedback on quality and visual appeal, achieving an overall accuracy of 84.84%. Notably, eleven characters demonstrated a success ratio above 90%. Objective evaluation using an existing recognition system achieves an overall accuracy of 84.28% in OCR evaluation. Notably, fifteen characters had a success ratio of 80% or higher.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# 文書簡易化の評価 : 単純さと保存の意味を別々に評価することの重要性について

Evaluating Document Simplification: On the Importance of Separately Assessing Simplicity and Meaning Preservation ( http://arxiv.org/abs/2404.03278v1 )

ライセンス: Link先を確認
Liam Cripwell, Joël Legrand, Claire Gardent, (参考訳) テキストの単純化は、中核的な意味を保ちながらテキストを読みやすくすることを目的としている。 直感的に、以前の研究で示されているように、これらの2次元(単純化と保存の意味)はしばしば逆相関する。 過度に保守的なテキストは十分に単純化できないが、極端な単純化は保存の意味を低下させる。 しかし、一般的な評価指標は、単一のスコア(SARI, LENS)に集約された意味の保存と単純化、あるいは目標の意味の保存のみ(BERTScore, QuestEval)である。 さらに、これらのメトリクスは通常参照のセットを必要とし、以前のほとんどの研究は文レベルの単純化にのみ焦点をあてている。 本稿では,文書レベルのテキストの簡易化の評価に焦点をあて,意味の保存と簡易化のために異なる指標を用いて既存のモデルと比較する。 我々は、類似したタスクから既存のメトリクスを活用し、シンプルさのために参照なしのメトリクス変種を導入し、モデルは、単純化または保存の意味の両方に偏りがあり、両方の次元でうまく機能することがほとんどないことを示す。 私たちが使用しているメトリクスがすべて参照レスであるという事実を利用して、未確認のデータに適用する場合(参照の単純化が不可能な場合)に既存のモデルのパフォーマンスも調査します。

Text simplification intends to make a text easier to read while preserving its core meaning. Intuitively and as shown in previous works, these two dimensions (simplification and meaning preservation) are often-times inversely correlated. An overly conservative text will fail to simplify sufficiently, whereas extreme simplification will degrade meaning preservation. Yet, popular evaluation metrics either aggregate meaning preservation and simplification into a single score (SARI, LENS), or target meaning preservation alone (BERTScore, QuestEval). Moreover, these metrics usually require a set of references and most previous work has only focused on sentence-level simplification. In this paper, we focus on the evaluation of document-level text simplification and compare existing models using distinct metrics for meaning preservation and simplification. We leverage existing metrics from similar tasks and introduce a reference-less metric variant for simplicity, showing that models are mostly biased towards either simplification or meaning preservation, seldom performing well on both dimensions. Making use of the fact that the metrics we use are all reference-less, we also investigate the performance of existing models when applied to unseen data (where reference simplifications are unavailable).
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# ハミルトンシミュレーション回路の高速かつ短時間合成

Faster and shorter synthesis of Hamiltonian simulation circuits ( http://arxiv.org/abs/2404.03280v1 )

ライセンス: Link先を確認
Timothée Goubault de Brugière, Simon Martiel, (参考訳) 特定のパウリ回転の集合を実装した量子回路の合成に適したグリーディヒューリスティックスを考案する。 我々のヒューリスティックスは、絡み合うゲートの数や絡み合うゲートの深さを最小にするために設計されており、回転の順序を維持または緩めるように調整することができる。 本研究では,ハミルトンシミュレーション回路を合成するための最先端のヒューリスティックスと比較して,最大4倍の深さ低減効果を示すベンチマーク結果を示す。 また、これらのヒューリスティックスは、それらを分解して再合成することで、汎用量子回路の最適化に利用できることを示す。

We devise greedy heuristics tailored for synthesizing quantum circuits that implement a specified set of Pauli rotations. Our heuristics are designed to minimize either the count of entangling gates or the depth of entangling gates, and they can be adjusted to either maintain or loosen the ordering of rotations. We present benchmark results demonstrating a depth reduction of up to a factor of 4 compared to the current state-of-the-art heuristics for synthesizing Hamiltonian simulation circuits. We also show that these heuristics can be used to optimize generic quantum circuits by decomposing and resynthesizing them.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# PAC-Bayesian Guaranteesによる学習と最適化:理論的考察と実践

Learning-to-Optimize with PAC-Bayesian Guarantees: Theoretical Considerations and Practical Implementation ( http://arxiv.org/abs/2404.03290v1 )

ライセンス: Link先を確認
Michael Sucker, Jalal Fadili, Peter Ochs, (参考訳) 我々は、学習と最適化の設定にPAC-ベイズ理論を用いる。 我々の知る限り、我々は最適化アルゴリズムを証明可能な一般化保証(PAC-Bayesian bounds)で学習し、収束保証と収束速度の明確なトレードオフを明示する最初のフレームワークを提示する。 学習した最適化アルゴリズムは、(決定論的)最悪のケース分析から導出した関連アルゴリズムよりも確実に優れている。 結果は一般にPAC-ベイズ境界に依存しており、指数族に基づく非有界な損失函数である。 そして,学習手順を1次元の最小化問題に再構成し,世界最小化の可能性を検討する。 さらに,本フレームワークの具体的アルゴリズム化と学習・最適化のための新しい手法を提供し,本理論を支援するために4つの実践的な実験を行った。 これにより,提案した学習フレームワークが,最先端のアルゴリズムを桁違いに向上させる最適化アルゴリズムを実現できることを示す。

We use the PAC-Bayesian theory for the setting of learning-to-optimize. To the best of our knowledge, we present the first framework to learn optimization algorithms with provable generalization guarantees (PAC-Bayesian bounds) and explicit trade-off between convergence guarantees and convergence speed, which contrasts with the typical worst-case analysis. Our learned optimization algorithms provably outperform related ones derived from a (deterministic) worst-case analysis. The results rely on PAC-Bayesian bounds for general, possibly unbounded loss-functions based on exponential families. Then, we reformulate the learning procedure into a one-dimensional minimization problem and study the possibility to find a global minimum. Furthermore, we provide a concrete algorithmic realization of the framework and new methodologies for learning-to-optimize, and we conduct four practically relevant experiments to support our theory. With this, we showcase that the provided learning framework yields optimization algorithms that provably outperform the state-of-the-art by orders of magnitude.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# 単一ハールランダム状態のパワー--量子擬似ランダム性の構築と分離

The power of a single Haar random state: constructing and separating quantum pseudorandomness ( http://arxiv.org/abs/2404.03295v1 )

ライセンス: Link先を確認
Boyang Chen, Andrea Coladangelo, Or Sattath, (参考訳) 本研究では,1つのHaarランダム量子状態を提供する託宣にアクセスできるという暗号的意味は何か,という問いに焦点をあてる。 このようなオラクルが量子擬似ランダム性を構築するのに十分であることを示す。 Pseudorandom state (PRS) は、族から一様にサンプリングされた状態の多項式的に多くのコピーとハールランダム状態の区別が難しい状態の族である。 シングルコピー擬似ランダム状態 (1PRS) と呼ばれるより弱い概念は、単一コピーに関してこの性質を満たす。 我々の主な結果は、1PRS(およびビットコミット)が1つのハールランダム状態を提供するオラクルに対して存在することである。 我々はこの結果に基づいて,1PRS が存在するオラクルの存在を示すが,PSS は存在しない。 これは、異なる形の量子擬似ランダム性の間の最初のブラックボックス分離の1つである。

In this work, we focus on the following question: what are the cryptographic implications of having access to an oracle that provides a single Haar random quantum state? We show, perhaps surprisingly, that such an oracle is sufficient to construct quantum pseudorandomness. Pseudorandom states (PRS) are a family of states for which it is hard to distinguish between polynomially many copies of either a state sampled uniformly from the family or a Haar random state. A weaker notion, called single-copy pseudorandom states (1PRS), satisfies this property with respect to a single copy. Our main result is that 1PRS (as well as bit-commitments) exist relative to an oracle that provides a single Haar random state. We build on this result to show the existence of an oracle relative to which 1PRS exist, but PRS do not. This provides one of the first black-box separations between different forms of quantum pseudorandomness.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# AdaBM:画像超解像のためのオンザフライ適応ビットマッピング

AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution ( http://arxiv.org/abs/2404.03296v1 )

ライセンス: Link先を確認
Cheeun Hong, Kyoung Mu Lee, (参考訳) 画像超解像(SR)問題は、ディープニューラルネットワークで前例のない復元精度を経験してきたが、計算コストがかなり大きいため、応用範囲は限られている。 SRの異なる入力画像は、異なる復元困難に直面しているため、適応推論と呼ばれる入力画像に基づいて計算コストを適用することが、SRネットワークを圧縮するための有望な解決策として浮上している。 具体的には、量子化ビット幅を適用することで、精度を犠牲にすることなく、推論とメモリコストを削減できる。 しかし、適応ネットワークの利点にもかかわらず、既存の研究は、そのユビキタスな使用を制限する適切なビット割り当てポリシーを学ぶために、元のトレーニングペアに完全にアクセスできる時間集約的な量子化学習に依存している。 そこで本研究では,処理時間を数時間から秒に短縮する,最初のオンザフライ適応量子化フレームワークを提案する。 ビット割り当て問題を2つのビットマッピングモジュールで定式化し、入力画像を画像ワイドビット適応係数にマッピングし、レイヤワイド適応係数を得る。 これらのビットマッピングは、少数のキャリブレーション画像のみを使用して、キャリブレーションされ、微調整される。 我々は,従来の適応量子化法と競合する性能を達成し,処理時間をx2000で高速化する。 コードはhttps://github.com/Cheeun/AdaBMで入手できる。

Although image super-resolution (SR) problem has experienced unprecedented restoration accuracy with deep neural networks, it has yet limited versatile applications due to the substantial computational costs. Since different input images for SR face different restoration difficulties, adapting computational costs based on the input image, referred to as adaptive inference, has emerged as a promising solution to compress SR networks. Specifically, adapting the quantization bit-widths has successfully reduced the inference and memory cost without sacrificing the accuracy. However, despite the benefits of the resultant adaptive network, existing works rely on time-intensive quantization-aware training with full access to the original training pairs to learn the appropriate bit allocation policies, which limits its ubiquitous usage. To this end, we introduce the first on-the-fly adaptive quantization framework that accelerates the processing time from hours to seconds. We formulate the bit allocation problem with only two bit mapping modules: one to map the input image to the image-wise bit adaptation factor and one to obtain the layer-wise adaptation factors. These bit mappings are calibrated and fine-tuned using only a small number of calibration images. We achieve competitive performance with the previous adaptive quantization methods, while the processing time is accelerated by x2000. Codes are available at https://github.com/Cheeun/AdaBM.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# SiloFuse: ラテントタブラル拡散モデルを用いたクロスサイロ合成データ生成

SiloFuse: Cross-silo Synthetic Data Generation with Latent Tabular Diffusion Models ( http://arxiv.org/abs/2404.03299v1 )

ライセンス: Link先を確認
Aditya Shankar, Hans Brouwer, Rihan Hai, Lydia Chen, (参考訳) 合成表データはサイロ全体、特にプロプライエタリなデータを持つ企業におけるデータの共有と拡張に不可欠である。 しかし、既存のシンセサイザーは中央に保存されたデータのために設計されている。 そのため、複数のサイロに分散して、オンプレミスのデータストレージを必要とする、現実世界のシナリオに苦労する。 クロスサイロ表データから高品質な合成を行うための新しい生成フレームワークであるSiloFuseを紹介する。 プライバシを確保するため、SiloFuseは分散遅延表分散アーキテクチャを使用している。 オートエンコーダを通じて、各クライアントの特徴について潜在表現が学習され、実際の値を隠蔽する。 スタック化された分散トレーニングを使用して通信効率を改善し、ラウンドの数を1ステップに減らします。 The impossibility of data reconstruction for vertically partitioned synthesis and Quantify privacy risk through three attack using our benchmark framework。 9つのデータセットの実験結果は、集中拡散に基づくシンセサイザーに対するSiroFuseの能力を示す。 特に、SiroFuseはGANよりも43.8ポイント、29.8ポイント高い。 コミュニケーションの実験では、トレーニングのイテレーション数が増加するにつれて、エンドツーエンドトレーニングのコストが増大するのに対して、トレーニングの固定コストが上昇した。 さらに、SiloFuseは、機能順応とさまざまな数のクライアントに対して堅牢であることを証明している。

Synthetic tabular data is crucial for sharing and augmenting data across silos, especially for enterprises with proprietary data. However, existing synthesizers are designed for centrally stored data. Hence, they struggle with real-world scenarios where features are distributed across multiple silos, necessitating on-premise data storage. We introduce SiloFuse, a novel generative framework for high-quality synthesis from cross-silo tabular data. To ensure privacy, SiloFuse utilizes a distributed latent tabular diffusion architecture. Through autoencoders, latent representations are learned for each client's features, masking their actual values. We employ stacked distributed training to improve communication efficiency, reducing the number of rounds to a single step. Under SiloFuse, we prove the impossibility of data reconstruction for vertically partitioned synthesis and quantify privacy risks through three attacks using our benchmark framework. Experimental results on nine datasets showcase SiloFuse's competence against centralized diffusion-based synthesizers. Notably, SiloFuse achieves 43.8 and 29.8 higher percentage points over GANs in resemblance and utility. Experiments on communication show stacked training's fixed cost compared to the growing costs of end-to-end training as the number of training iterations increases. Additionally, SiloFuse proves robust to feature permutations and varying numbers of clients.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# スカラー形形容詞の語彙意味論とスカラー多様性プラグマティクスのための大規模言語モデルの提案

Probing Large Language Models for Scalar Adjective Lexical Semantics and Scalar Diversity Pragmatics ( http://arxiv.org/abs/2404.03301v1 )

ライセンス: Link先を確認
Fangru Lin, Daniel Altshuler, Janet B. Pierrehumbert, (参考訳) スカラー形容詞は様々な領域スケールに関係し、各スケールで強度が異なる(例えば、確率スケールではより強い)。 Scalar命令は、実行された可能性のある代替ステートメントを考慮することで発生します。 それらはスカラー形容詞によって引き起こされ、リスナーに現実的な推論を要求する。 いくつかのスカラー形容詞は、他のスカラー形容詞よりもスカラー形容詞を誘発する傾向がある。 この現象はスカラー多様性と呼ばれる。 本研究では, GPT-4 のような大規模言語モデルの語彙的意味論の知識と,その実用性,すなわちスカラー多様性の1つの側面を探索する。 それらがスカラー形容詞に関する豊富な語彙・意味情報を符号化していることがわかった。 しかし、豊かな語彙-意味の知識は、スカラーの多様性を十分に理解する必要はない。 私たちはまた、異なるサイズと複雑さの現在のモデルを比較し、より大きなモデルは必ずしも良いとは限らないことに気付きます。 最後に,言語的直観とモデル学習の目的を活用することで,探索結果を説明する。

Scalar adjectives pertain to various domain scales and vary in intensity within each scale (e.g. certain is more intense than likely on the likelihood scale). Scalar implicatures arise from the consideration of alternative statements which could have been made. They can be triggered by scalar adjectives and require listeners to reason pragmatically about them. Some scalar adjectives are more likely to trigger scalar implicatures than others. This phenomenon is referred to as scalar diversity. In this study, we probe different families of Large Language Models such as GPT-4 for their knowledge of the lexical semantics of scalar adjectives and one specific aspect of their pragmatics, namely scalar diversity. We find that they encode rich lexical-semantic information about scalar adjectives. However, the rich lexical-semantic knowledge does not entail a good understanding of scalar diversity. We also compare current models of different sizes and complexities and find that larger models are not always better. Finally, we explain our probing results by leveraging linguistic intuitions and model training objectives.
翻訳日:2024-04-05 15:24:04 公開日:2024-04-04
# 大規模言語モデルの応答をいかに簡単に入力するか?

How Easily do Irrelevant Inputs Skew the Responses of Large Language Models? ( http://arxiv.org/abs/2404.03302v1 )

ライセンス: Link先を確認
Siye Wu, Jian Xie, Jiangjie Chen, Tinghui Zhu, Kai Zhang, Yanghua Xiao, (参考訳) 外部知識データベースからの情報検索を活用することで、Large Language Models (LLMs)は、多くの知識集約的なタスクを達成するための拡張された能力を示す。 しかし、現在の検索システムに固有の欠陥があるため、検索する上位のパスには無関係な情報が存在する可能性がある。 本研究では,様々な条件下での異なる種類の無関係情報に対するLSMの堅牢性に関する包括的調査を行う。 まず、意味的に無関係で、部分的に関連があり、質問に関係のある高品質な無関係な情報を構築するための枠組みを導入する。 さらに, 構築した無関係情報は, 類似度測定値に高いスコアを付けるだけでなく, 既存のシステムによって高い精度で検索されるだけでなく, 文脈とのセマンティックな関連性も持つことを示す。 我々の研究は、現在のLLMは、非常に意味論的に関連のある情報を識別する上で依然として課題に直面しており、これら無関係で誤解を招く内容に容易に気を散らすことができることを明らかにしている。 また、関連のない情報を扱うための現在の解決策は、そのような注意をそらすためにLLMの堅牢性を改善するのに限界があることも見出した。 リソースはhttps://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Informationで入手できる。

By leveraging the retrieval of information from external knowledge databases, Large Language Models (LLMs) exhibit enhanced capabilities for accomplishing many knowledge-intensive tasks. However, due to the inherent flaws of current retrieval systems, there might exist irrelevant information within those retrieving top-ranked passages. In this work, we present a comprehensive investigation into the robustness of LLMs to different types of irrelevant information under various conditions. We initially introduce a framework to construct high-quality irrelevant information that ranges from semantically unrelated, partially related, and related to questions. Furthermore, our analysis demonstrates that the constructed irrelevant information not only scores highly on similarity metrics, being highly retrieved by existing systems, but also bears semantic connections to the context. Our investigation reveals that current LLMs still face challenges in discriminating highly semantically related information and can be easily distracted by these irrelevant yet misleading contents. Besides, we also find that current solutions for handling irrelevant information have limitations in improving the robustness of LLMs to such distractions. Resources are available at https://github.com/Di-viner/LLM-Robustness-to-Irrelevant-Information.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# 混合整数ブラックボックス最適化のための微分進化におけるベンチマークパラメータ制御法

Benchmarking Parameter Control Methods in Differential Evolution for Mixed-Integer Black-Box Optimization ( http://arxiv.org/abs/2404.03303v1 )

ライセンス: Link先を確認
Ryoji Tanabe, (参考訳) 微分進化(DE)は一般に、スケール係数とクロスオーバー率のパラメータ制御法(PCM)を必要とする。 PCMsをよりよく理解することは、効率的なDEを設計する上で有用な手がかりとなるが、それらの効果は混合整数ブラックボックス最適化ではよく理解されていない。 本稿では,混合整数ブラックボックス最適化ベンチマーク関数 (bbob-mixint) 上で,DEMのPCMをコンポーネント的にベンチマークする。 まず、最も優れたPCMは、突然変異戦略と修復法の組み合わせに大きく依存していることを示す。 SHADEのPCMは数値ブラックボックス最適化の最先端技術であるが, 混合整数ブラックボックス最適化の性能は低かった。 対照的に,本研究の結果は,いくつかの単純なPCM (例えば,CoDEのPCM) が,ほとんどの場合において最善であることを示している。 次に,PCM に適した DE が CMA-ES よりも有意に優れ,整数処理により関数評価の予算が大きくなることを示した。 最後に、SHADEのPCMの適応がいかに失敗するかを示す。

Differential evolution (DE) generally requires parameter control methods (PCMs) for the scale factor and crossover rate. Although a better understanding of PCMs provides a useful clue to designing an efficient DE, their effectiveness is poorly understood in mixed-integer black-box optimization. In this context, this paper benchmarks PCMs in DE on the mixed-integer black-box optimization benchmarking function (bbob-mixint) suite in a component-wise manner. First, we demonstrate that the best PCM significantly depends on the combination of the mutation strategy and repair method. Although the PCM of SHADE is state-of-the-art for numerical black-box optimization, our results show its poor performance for mixed-integer black-box optimization. In contrast, our results show that some simple PCMs (e.g., the PCM of CoDE) perform the best in most cases. Then, we demonstrate that a DE with a suitable PCM performs significantly better than CMA-ES with integer handling for larger budgets of function evaluations. Finally, we show how the adaptation in the PCM of SHADE fails.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# 概念 -- システムとユーザ中心の要素を持つ会話レコメンダシステムの評価プロトコル

Concept -- An Evaluation Protocol on Conversation Recommender Systems with System- and User-centric Factors ( http://arxiv.org/abs/2404.03304v1 )

ライセンス: Link先を確認
Chen Huang, Peixin Qin, Yang Deng, Wenqiang Lei, Jiancheng Lv, Tat-Seng Chua, (参考訳) 会話レコメンデーションシステム(CRS)は,近年の学界の進歩にもかかわらず,現実のシナリオにおけるユーザエクスペリエンスについて批判されている。 既存のCRSの評価プロトコルは、ユーザ中心の側面を無視しながら、会話の有効性や流布度などのシステム中心の要素を優先することができる。 そこで本研究では,システムとユーザ中心の要素を統合した新しい包括的評価プロトコルであるConceptを提案する。 我々はこれらの要因を表現する上で重要な3つの特徴を概念化し、それらをさらに6つの一次能力に分割する。 Conceptを実装するために,LLMベースのユーザシミュレータと評価器を採用し,各プライマリ能力に適合したブラスリックをスコアリングする。 私たちのプロトコルであるConceptは、二重目的に役立ちます。 まず、現在のCRSモデルの長所と短所の概要を提供する。 第二に、「全能」なChatGPTにおける低ユーザビリティの問題を特定し、CRSを評価するための包括的なリファレンスガイドを提供し、CRSの改善の基礎を定めている。

The conversational recommendation system (CRS) has been criticized regarding its user experience in real-world scenarios, despite recent significant progress achieved in academia. Existing evaluation protocols for CRS may prioritize system-centric factors such as effectiveness and fluency in conversation while neglecting user-centric aspects. Thus, we propose a new and inclusive evaluation protocol, Concept, which integrates both system- and user-centric factors. We conceptualise three key characteristics in representing such factors and further divide them into six primary abilities. To implement Concept, we adopt a LLM-based user simulator and evaluator with scoring rubrics that are tailored for each primary ability. Our protocol, Concept, serves a dual purpose. First, it provides an overview of the pros and cons in current CRS models. Second, it pinpoints the problem of low usability in the "omnipotent" ChatGPT and offers a comprehensive reference guide for evaluating CRS, thereby setting the foundation for CRS improvement.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# FTRLによる最適オンライン非確率制御

Optimistic Online Non-stochastic Control via FTRL ( http://arxiv.org/abs/2404.03309v1 )

ライセンス: Link先を確認
Naram Mhaisen, George Iosifidis, (参考訳) 本稿では、オンライン非確率制御(NSC)の新しいフレームワークに「最適化」の概念をもたらす。 すなわち,将来的なコスト予測に寄与する未知品質の予測オラクルから,NSCがどのような恩恵を受けられるかを検討する。 提案した問題はまず遅延フィードバック問題による楽観的な学習に還元され、OFTRLアルゴリズムファミリによって処理される。 この削減により、楽観的な政策後悔境界を持つ最初の外乱行動制御器(DAC)であるOPtFTRL-Cの設計が可能になる。 これらの新しい境界は、完全予測の$\mathcal{O}(1)$から、全ての予測が失敗しても順序最適化の$\mathcal{O}(\sqrt{T})$まで、オラクルの精度と相容れない。 制御システムに信頼できない予測を組み込むことの課題に対処することにより、NSCフレームワークの進歩に寄与し、効果的で堅牢な学習ベースコントローラへの道を開く。

This paper brings the concept of "optimism" to the new and promising framework of online Non-stochastic Control (NSC). Namely, we study how can NSC benefit from a prediction oracle of unknown quality responsible for forecasting future costs. The posed problem is first reduced to an optimistic learning with delayed feedback problem, which is handled through the Optimistic Follow the Regularized Leader (OFTRL) algorithmic family. This reduction enables the design of OptFTRL-C, the first Disturbance Action Controller (DAC) with optimistic policy regret bounds. These new bounds are commensurate with the oracle's accuracy, ranging from $\mathcal{O}(1)$ for perfect predictions to the order-optimal $\mathcal{O}(\sqrt{T})$ even when all predictions fail. By addressing the challenge of incorporating untrusted predictions into control systems, our work contributes to the advancement of the NSC framework and paves the way towards effective and robust learning-based controllers.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# 説明可能で信頼性の高い機械学習を用いたサイト固有の決定論的温度と湿度予測

Site-specific Deterministic Temperature and Humidity Forecasts with Explainable and Reliable Machine Learning ( http://arxiv.org/abs/2404.03310v1 )

ライセンス: Link先を確認
MengMeng Han, Tennessee Leeuwenburg, Brad Murphy, (参考訳) サイト固有の天気予報は電力需要の正確な予測に不可欠であり、結果としてエネルギー運用者に大きな関心を寄せている。 しかし、現在の数値天気予報(NWP)モデルから得られた天気予報には、局部的な現実世界の全ての重要な特徴を捉えるための詳細な詳細が欠けている。 代わりに、長方形グリッドボックス(通常はキロメートルの大きさ)を表す気象情報を提供する。 後処理やバイアス補正の後にも、地域平均情報は通常特定の場所では最適ではない。 サイト最適化予測の以前の研究は、線形メソッド、重み付けされたコンセンサス平均化、時系列メソッドなどに焦点を当てていた。 近年の機械学習(ML)の発展により、この問題に対する新しいアプローチとしてMLを適用することへの関心が高まっている。 本研究では,XGBoostパッケージのPythonバージョンでサポートされている一般的な機械学習モデル勾配向上決定木を用いて,サイトにおける予測の最適化の実現可能性を検討する。 回帰木は、オーストラリアの複数の場所における温度と露点の予測を目的とした、歴史的NWPとサイト観測のトレーニングデータとして訓練されてきた。 我々は'Multi-SiteBoost'というMLフレームワークを開発し、初期テストの結果はバイアス補正NWPモデルのグリッド値と比較して大幅に改善された。 XGBoostの改善は、文献で報告されている非MLメソッドに匹敵するものである。 SHAP(SHapley Additive exPlanations)の知見により,MLの予測を理解し,MLが生成する予測の信頼性を高めるために,さまざまなアプローチを検証した。

Site-specific weather forecasts are essential to accurate prediction of power demand and are consequently of great interest to energy operators. However, weather forecasts from current numerical weather prediction (NWP) models lack the fine-scale detail to capture all important characteristics of localised real-world sites. Instead they provide weather information representing a rectangular gridbox (usually kilometres in size). Even after post-processing and bias correction, area-averaged information is usually not optimal for specific sites. Prior work on site optimised forecasts has focused on linear methods, weighted consensus averaging, time-series methods, and others. Recent developments in machine learning (ML) have prompted increasing interest in applying ML as a novel approach towards this problem. In this study, we investigate the feasibility of optimising forecasts at sites by adopting the popular machine learning model gradient boosting decision tree, supported by the Python version of the XGBoost package. Regression trees have been trained with historical NWP and site observations as training data, aimed at predicting temperature and dew point at multiple site locations across Australia. We developed a working ML framework, named 'Multi-SiteBoost' and initial testing results show a significant improvement compared with gridded values from bias-corrected NWP models. The improvement from XGBoost is found to be comparable with non-ML methods reported in literature. With the insights provided by SHapley Additive exPlanations (SHAP), this study also tests various approaches to understand the ML predictions and increase the reliability of the forecasts generated by ML.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# M3TCM:モチベーションインタビューにおける発話分類のためのマルチモーダルマルチタスクコンテキストモデル

M3TCM: Multi-modal Multi-task Context Model for Utterance Classification in Motivational Interviews ( http://arxiv.org/abs/2404.03312v1 )

ライセンス: Link先を確認
Sayed Muddashir Hossain, Jan Alexandersson, Philipp Müller, (参考訳) モチベーションインタビューにおける正確な発話分類は、顧客とセラピストの相互作用の質やダイナミクスを自動的に理解するために不可欠であり、そのような相互作用を仲介するシステムにとって重要な入力として機能する。 モチベーション・インタビューには3つの重要な特徴がある。 まず、クライアントとセラピストという2つの異なる役割がある。 第二に、しばしば感情的に強く充電され、テキストと韻律の両方で表現される。 最後に、コンテキストは任意の発話を分類する上で重要である。 過去の研究は、これらの特徴をすべてメンタルヘルス対話のための発話分類アプローチに適切に組み入れていなかった。 対照的に、発話分類のためのマルチモーダルマルチタスクコンテキストモデルであるM3TCMを提案する。 われわれのアプローチでは、マルチタスク学習を用いて、セラピストとクライアントの振る舞いのジョイントコンポーネントと個別コンポーネントの両方を効果的にモデル化する。 さらに、M3TCMは、テキストと音声のモダリティと会話コンテキストからの情報を統合する。 新たなアプローチでは、最近導入されたAnnoMIデータセットの発話分類における最先端の手法よりも、クライアントで20%、セラピストで15%向上した。 広範囲にわたるアブレーション研究において、各コントリビューションによる改善の定量化を行う。

Accurate utterance classification in motivational interviews is crucial to automatically understand the quality and dynamics of client-therapist interaction, and it can serve as a key input for systems mediating such interactions. Motivational interviews exhibit three important characteristics. First, there are two distinct roles, namely client and therapist. Second, they are often highly emotionally charged, which can be expressed both in text and in prosody. Finally, context is of central importance to classify any given utterance. Previous works did not adequately incorporate all of these characteristics into utterance classification approaches for mental health dialogues. In contrast, we present M3TCM, a Multi-modal, Multi-task Context Model for utterance classification. Our approach for the first time employs multi-task learning to effectively model both joint and individual components of therapist and client behaviour. Furthermore, M3TCM integrates information from the text and speech modality as well as the conversation context. With our novel approach, we outperform the state of the art for utterance classification on the recently introduced AnnoMI dataset with a relative improvement of 20% for the client- and by 15% for therapist utterance classification. In extensive ablation studies, we quantify the improvement resulting from each contribution.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# 分散負荷予測のための軽量フェデレーション学習の探索

Exploring Lightweight Federated Learning for Distributed Load Forecasting ( http://arxiv.org/abs/2404.03320v1 )

ライセンス: Link先を確認
Abhishek Duttagupta, Jin Zhao, Shanker Shreejith, (参考訳) Federated Learning(FL)は、ディープラーニングを機密データストリームやアプリケーションに対して、プライバシ保護の方法で適用するための分散学習スキームである。 本稿では,各メータデータのプライバシを確保しつつ,負荷予測の最先端手法に匹敵する精度を実現することを目的とした,スマートエネルギメータデータ解析のためのFLの利用に焦点を当てた。 我々は、軽量で完全に接続されたディープニューラルネットワークにより、FLフレームワークを利用することで、各メーターソースとアグリゲータの両方で既存のスキームに匹敵する予測精度を達成することができることを示す。 軽量モデルを使用することで、複雑なディープラーニングモデルによるエネルギーとリソース消費をさらに削減し、リソースに制約のあるスマートメーターシステムへのデプロイに理想的になる。 提案した軽量モデルにより,Arduino Unoプラットフォーム上でのトレーニングおよび推論を行う際に,エネルギーオーバーヘッドが50mWhと無視できる平均負荷予測RMSEの0.17を達成することができる。

Federated Learning (FL) is a distributed learning scheme that enables deep learning to be applied to sensitive data streams and applications in a privacy-preserving manner. This paper focuses on the use of FL for analyzing smart energy meter data with the aim to achieve comparable accuracy to state-of-the-art methods for load forecasting while ensuring the privacy of individual meter data. We show that with a lightweight fully connected deep neural network, we are able to achieve forecasting accuracy comparable to existing schemes, both at each meter source and at the aggregator, by utilising the FL framework. The use of lightweight models further reduces the energy and resource consumption caused by complex deep-learning models, making this approach ideally suited for deployment across resource-constrained smart meter systems. With our proposed lightweight model, we are able to achieve an overall average load forecasting RMSE of 0.17, with the model having a negligible energy overhead of 50 mWh when performing training and inference on an Arduino Uno platform.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# Sparse Concept Bottleneck Models: コントラスト学習におけるGumbel Tricks

Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning ( http://arxiv.org/abs/2404.03323v1 )

ライセンス: Link先を確認
Andrei Semenov, Vladimir Ivanov, Aleksandr Beznosikov, Alexander Gasnikov, (参考訳) 本稿では,Concept Bottleneck Models (CBM) を用いた新しいアーキテクチャと説明可能な分類法を提案する。 SOTAはイメージ分類タスクをブラックボックスとして動作させるが、解釈結果を提供するモデルに対する需要が増えている。 このようなモデルはしばしば、概念と呼ばれるこのターゲットインスタンスのさらなる記述を使用して、クラスラベル上の分布を予測することを学習する。 しかし、既存のBottleneck法にはいくつかの制限があり、その精度は標準モデルよりも低く、CBMにはさらなる概念セットが必要である。 我々は、事前訓練されたマルチモーダルエンコーダと新しいCLIPのようなアーキテクチャからConcept Bottleneck Modelを作成するためのフレームワークを提供する。 Concept Bottleneck Layersと呼ばれる新しいタイプのレイヤを導入することで、それらをトレーニングするための3つの方法を概説する:$$\ell_1$-loss、Gumbel-Softmaxディストリビューション(Sparse-CBM)に基づく対照的な損失と損失関数。 CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。 つまり、概念活性化ベクトルのスパース表現は概念ボトルネックモデルにおいて有意義である。 さらに,概念行列探索アルゴリズムにより,追加のトレーニングや微調整を行うことなく,複雑なデータセット上でのCLIP予測を改善することができる。 コードは以下の通り。 https://github.com/Andron00e/SparseCBM。

We propose a novel architecture and method of explainable classification with Concept Bottleneck Models (CBMs). While SOTA approaches to Image Classification task work as a black box, there is a growing demand for models that would provide interpreted results. Such a models often learn to predict the distribution over class labels using additional description of this target instances, called concepts. However, existing Bottleneck methods have a number of limitations: their accuracy is lower than that of a standard model and CBMs require an additional set of concepts to leverage. We provide a framework for creating Concept Bottleneck Model from pre-trained multi-modal encoder and new CLIP-like architectures. By introducing a new type of layers known as Concept Bottleneck Layers, we outline three methods for training them: with $\ell_1$-loss, contrastive loss and loss function based on Gumbel-Softmax distribution (Sparse-CBM), while final FC layer is still trained with Cross-Entropy. We show a significant increase in accuracy using sparse hidden layers in CLIP-based bottleneck models. Which means that sparse representation of concepts activation vector is meaningful in Concept Bottleneck Models. Moreover, with our Concept Matrix Search algorithm we can improve CLIP predictions on complex datasets without any additional training or fine-tuning. The code is available at: https://github.com/Andron00e/SparseCBM.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# ワードレベル距離差分プライバシーの比較分析:プライバシとユーティリティのトレードオフのベンチマーク

A Comparative Analysis of Word-Level Metric Differential Privacy: Benchmarking The Privacy-Utility Trade-off ( http://arxiv.org/abs/2404.03324v1 )

ライセンス: Link先を確認
Stephen Meisenbacher, Nihildev Nandakumar, Alexandra Klymenko, Florian Matthes, (参考訳) 自然言語処理技術への差別化プライバシの適用は近年,既存のNLPメディアで発表される研究の増加とともに,関連性が高まっている。 特に、NLPタスクで使用する微分プライバシーの適応は、最初に$\textit{word-level}$に焦点が当てられ、そこでは「ノイズ」表現を達成するために単語埋め込みベクトルに校正ノイズが付加される。 この目的のために、複数の実装が文献に登場し、それぞれが単語レベルの微分プライバシーを達成するための代替方法を提示している。 それぞれが独自の評価を含むが, 相互に比較評価を行うための比較分析は行われていない。 本研究では,2つのNLPタスクの7つのアルゴリズムを,パラメータ$\textit{epsilon$\varepsilon$)} やプライバシ予算など,さまざまなハイパーパラメータと比較する。 さらに、プライバシーとユーティリティのトレードオフに焦点を当てた結果の詳細な分析と、さらなる複製のための実装コードをオープンソース化する。 分析の結果,単語レベルの差分プライバシーのメリットと課題について考察し,研究分野への具体的な一歩を提案する。

The application of Differential Privacy to Natural Language Processing techniques has emerged in relevance in recent years, with an increasing number of studies published in established NLP outlets. In particular, the adaptation of Differential Privacy for use in NLP tasks has first focused on the $\textit{word-level}$, where calibrated noise is added to word embedding vectors to achieve "noisy" representations. To this end, several implementations have appeared in the literature, each presenting an alternative method of achieving word-level Differential Privacy. Although each of these includes its own evaluation, no comparative analysis has been performed to investigate the performance of such methods relative to each other. In this work, we conduct such an analysis, comparing seven different algorithms on two NLP tasks with varying hyperparameters, including the $\textit{epsilon ($\varepsilon$)}$ parameter, or privacy budget. In addition, we provide an in-depth analysis of the results with a focus on the privacy-utility trade-off, as well as open-source our implementation code for further reproduction. As a result of our analysis, we give insight into the benefits and challenges of word-level Differential Privacy, and accordingly, we suggest concrete steps forward for the research field.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# ロボットのための身体型ニューロモルフィック人工知能 : 展望,課題,研究開発スタック

Embodied Neuromorphic Artificial Intelligence for Robotics: Perspectives, Challenges, and Research Development Stack ( http://arxiv.org/abs/2404.03325v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Fakhreddine Zayer, Jorge Dias, Muhammad Shafique, (参考訳) ロボット技術は、人類が多種多様で複雑で集中的なタスクを迅速かつ効率的な方法で完成させるのを助けてきたため、人間の生産性を向上させるのに欠かせない部分だった。 そのため、ロボット技術は個人用から工業用まで幅広い用途に展開されてきた。 しかし、現在のロボット技術とそのコンピューティングパラダイムには、運用環境と効率的に対話し、正しい/予測されたアクションに反応し、環境の変化に適応するインテリジェンスがない。 これに向けて、スパイキングニューラルネットワーク(SNN)によるニューロモーフィックコンピューティングの最近の進歩は、「ニューロモーフィック人工知能(Neuromorphic Artificial Intelligence, AI)」として知られる生物学的脳の動作を模倣した、生物学的に証明可能なコンピューティングパラダイムを通じて、ロボット工学の具体化インテリジェンスを可能にする可能性を実証している。 しかし、ニューロモルフィックAIベースのロボティクスの分野はまだ初期段階であり、現実世界の問題を解決するための開発と展開は、正確性、適応性、効率性、信頼性、セキュリティなど、さまざまな設計面での新たな課題を浮き彫りにしている。 これらの課題に対処するために,本論文では, ロボットシステムに対して, (P1) 効果的な学習規則, トレーニング機構, 適応性に基づく身体的知性, (P2) エネルギー効率の高いニューロモルフィックコンピューティングのための層間最適化, (P3) 代表的および公正なベンチマーク, (P4) 低コストの信頼性と安全性の向上, (P5) ニューロモルフィックコンピューティングのためのセキュリティとプライバシ, (P6) エネルギー効率と堅牢なニューロモルフィックベースのロボティクスのための相乗的開発について論じる。 さらに,本論文は研究課題と機会を明らかにするとともに,ロボット工学におけるニューロモーフィックAIの具体化に向けた今後の研究の展望を詳述する。

Robotic technologies have been an indispensable part for improving human productivity since they have been helping humans in completing diverse, complex, and intensive tasks in a fast yet accurate and efficient way. Therefore, robotic technologies have been deployed in a wide range of applications, ranging from personal to industrial use-cases. However, current robotic technologies and their computing paradigm still lack embodied intelligence to efficiently interact with operational environments, respond with correct/expected actions, and adapt to changes in the environments. Toward this, recent advances in neuromorphic computing with Spiking Neural Networks (SNN) have demonstrated the potential to enable the embodied intelligence for robotics through bio-plausible computing paradigm that mimics how the biological brain works, known as "neuromorphic artificial intelligence (AI)". However, the field of neuromorphic AI-based robotics is still at an early stage, therefore its development and deployment for solving real-world problems expose new challenges in different design aspects, such as accuracy, adaptability, efficiency, reliability, and security. To address these challenges, this paper will discuss how we can enable embodied neuromorphic AI for robotic systems through our perspectives: (P1) Embodied intelligence based on effective learning rule, training mechanism, and adaptability; (P2) Cross-layer optimizations for energy-efficient neuromorphic computing; (P3) Representative and fair benchmarks; (P4) Low-cost reliability and safety enhancements; (P5) Security and privacy for neuromorphic computing; and (P6) A synergistic development for energy-efficient and robust neuromorphic-based robotics. Furthermore, this paper identifies research challenges and opportunities, as well as elaborates our vision for future research development toward embodied neuromorphic AI for robotics.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# DI-Retinex:低照度画像強調のためのディジタルイメージング網膜理論

DI-Retinex: Digital-Imaging Retinex Theory for Low-Light Image Enhancement ( http://arxiv.org/abs/2404.03327v1 )

ライセンス: Link先を確認
Shangquan Sun, Wenqi Ren, Jingyang Peng, Fenglong Song, Xiaochun Cao, (参考訳) レチネックス理論に基づく多くの低照度画像強調法(LLIE)は、ノイズ、量子化誤差、非線形性、ダイナミックレンジオーバーフローなどのデジタル画像におけるこの理論の有効性に影響を与える重要な要素を無視している。 本稿では,デジタル画像におけるRetinex理論の理論的および実験的解析を通して,Digital-Imaging Retinex theory(DI-Retinex)と呼ばれる新しい表現を提案する。 我々の新しい表現はエンハンスメントモデルにおけるオフセット項を含み、非線型写像関数を用いた画素ワイドの輝度コントラスト調整を可能にする。 さらに,低照度化問題を教師なしで解くために,ガンマ空間における画像適応マスクによる逆劣化損失を提案する。 また、追加のオフセット項を制御するために分散抑制損失を設計する。 広汎な実験により,提案手法は視覚的品質,モデルサイズ,速度の観点から,既存の教師なし手法よりも優れていた。 提案アルゴリズムは,低照度化後の低照度化後の性能向上を示すため,低照度における下流面検出器のアシストも可能である。

Many existing methods for low-light image enhancement (LLIE) based on Retinex theory ignore important factors that affect the validity of this theory in digital imaging, such as noise, quantization error, non-linearity, and dynamic range overflow. In this paper, we propose a new expression called Digital-Imaging Retinex theory (DI-Retinex) through theoretical and experimental analysis of Retinex theory in digital imaging. Our new expression includes an offset term in the enhancement model, which allows for pixel-wise brightness contrast adjustment with a non-linear mapping function. In addition, to solve the lowlight enhancement problem in an unsupervised manner, we propose an image-adaptive masked reverse degradation loss in Gamma space. We also design a variance suppression loss for regulating the additional offset term. Extensive experiments show that our proposed method outperforms all existing unsupervised methods in terms of visual quality, model size, and speed. Our algorithm can also assist downstream face detectors in low-light, as it shows the most performance gain after the low-light enhancement compared to other methods.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# MPOFI: 深いメトリック学習による不均衡データセットによる欠陥分類のための多チャンネル部分的機能モデリング

MPOFI: Multichannel Partially Observed Functional Modeling for Defect Classification with Imbalanced Dataset via Deep Metric Learning ( http://arxiv.org/abs/2404.03329v1 )

ライセンス: Link先を確認
Yukun Xie, Juan Du, Chen Zhang, (参考訳) 現代の製造業では、ほとんどの製品ラインが適合している。 非コンフォーミングな製品はほとんどないが、欠陥タイプが異なる。 欠陥型の同定は、生産ラインのさらなる根本原因診断に役立つ。 センサの開発により、プロセス変数の連続的な信号を高分解能で収集することができ、マルチチャネル機能データと見なすことができる。 プロセスの特徴と欠陥のタイプを特定するのに役立つ、豊富な情報があります。 パイプの締め付けプロセスの実際の例に触発され,各サンプルが多チャンネル機能データである場合に,分類を目標とする。 しかし、各欠陥タイプのサンプルは制限され、不均衡である。 また、パイプの締め付け前の事前密閉工程が観察されないため、機能の一部が観察される。 不均衡、マルチチャネル、そして部分的に観察された機能データに基づいて欠陥サンプルを分類することは非常に重要であるが困難である。 そこで本稿では,MPOFI (Multi channel partial Observed Functional Modeling for Defect Classification with an Im Balanced Dataset) と呼ばれる革新的なフレームワークを提案する。 このフレームワークは、関数データを処理するために特別に作られたニューラルネットワークと組み合わせて、ディープメトリック学習のパワーを活用する。 本稿では,多チャンネルおよび部分的に観測される機能的データを扱うためのニューラルネットワークを提案し,不均衡なデータセットをトレーニングするための対応する損失関数の開発を補完する。 実世界のケーススタディの結果は、既存のベンチマークと比較すると、我々のフレームワークの精度が優れていることを示している。

In modern manufacturing, most of the product lines are conforming. Few products are nonconforming but with different defect types. The identification of defect types can help further root cause diagnosis of production lines. With the sensing development, continuous signals of process variables can be collected in high resolution, which can be regarded as multichannel functional data. They have abundant information to characterize the process and help identify the defect types. Motivated by a real example from the pipe tightening process, we target at detect classification when each sample is a multichannel functional data. However, the available samples for each defect type are limited and imbalanced. Moreover, the functions are partially observed since the pre-tightening process before the pipe tightening process is unobserved. To classify the defect samples based on imbalanced, multichannel, and partially observed functional data is very important but challenging. Thus, we propose an innovative framework known as "Multichannel Partially Observed Functional Modeling for Defect Classification with an Imbalanced Dataset" (MPOFI). The framework leverages the power of deep metric learning in conjunction with a neural network specially crafted for processing functional data. This paper introduces a neural network explicitly tailored for handling multichannel and partially observed functional data, complemented by developing a corresponding loss function for training on imbalanced datasets. The results from a real-world case study demonstrate the superior accuracy of our framework when compared to existing benchmarks.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# LancBiO: Krylov部分空間による動的Laczos支援バイレベル最適化

LancBiO: dynamic Lanczos-aided bilevel optimization via Krylov subspace ( http://arxiv.org/abs/2404.03331v1 )

ライセンス: Link先を確認
Bin Gao, Yan Yang, Ya-xiang Yuan, (参考訳) 機械学習に広く応用されたバイレベル最適化は、複雑な階層構造を持つ。 大規模二段階問題に対する一般的なアプローチとしてグラディエントベースの手法が登場している。 しかし、ヘッセン逆ベクトル積を含む超勾配の計算は効率を抑え、ボトルネックと見なされる。 逆を回避するために、ランツォス過程の助けを借りて、低次元近似クリロフ部分空間の列を構築する。 結果として、構築された部分空間は、より少ない労力でヘッセン逆ベクトル積を動的かつ漸進的に近似することができ、したがって超次数の推定に有利な結果をもたらす。 さらに,小さな三角形線形系を解くための中心ステップが1つある二段階問題に対して,証明可能な部分空間ベースのフレームワークを提案する。 我々の知る限りでは、サブスペース技術が双レベル最適化に取り入れられるのはこれが初めてである。 この成功した試行は、$\mathcal{O}(\epsilon^{-1})$収束率を楽しむだけでなく、合成問題と2つのディープラーニングタスクの効率も示す。

Bilevel optimization, with broad applications in machine learning, has an intricate hierarchical structure. Gradient-based methods have emerged as a common approach to large-scale bilevel problems. However, the computation of the hyper-gradient, which involves a Hessian inverse vector product, confines the efficiency and is regarded as a bottleneck. To circumvent the inverse, we construct a sequence of low-dimensional approximate Krylov subspaces with the aid of the Lanczos process. As a result, the constructed subspace is able to dynamically and incrementally approximate the Hessian inverse vector product with less effort and thus leads to a favorable estimate of the hyper-gradient. Moreover, we propose a~provable subspace-based framework for bilevel problems where one central step is to solve a small-size tridiagonal linear system. To the best of our knowledge, this is the first time that subspace techniques are incorporated into bilevel optimization. This successful trial not only enjoys $\mathcal{O}(\epsilon^{-1})$ convergence rate but also demonstrates efficiency in a synthetic problem and two deep learning tasks.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# 未知の敵攻撃に対する一般化可能なロバスト性に向けたメタ不変防衛

Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks ( http://arxiv.org/abs/2404.03340v1 )

ライセンス: Link先を確認
Lei Zhang, Yuhang Zhou, Yi Yang, Xinbo Gao, (参考訳) コンピュータビジョンタスクの高性能ソリューションを提供するにもかかわらず、ディープニューラルネットワーク(DNN)モデルは敵の攻撃に対して極めて脆弱であることが証明されている。 現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。 また、適応学習や微調整技術は本質的にはゼロショット問題であるため、敵の防御には適さない。 そこで本研究では,メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃に依存しない防衛手法を提案する。 具体的には、手動で構築したアタッカープールから様々な対向攻撃の組み合わせをランダムにサンプリングし、未知のアタックに対する異なる防御タスクを構成する。 提案されたMIDには2つのメリットがある。 1) 良性試料と逆性試料との画素, 特徴, 予測レベルの完全蒸留は, 攻撃不変性の発見を促進する。 2)高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対する頑健さを同時に達成する。 ImageNetのような多数のベンチマークに関する理論的および実証的研究は、様々な攻撃下でのMIDの一般化可能な堅牢性と優越性を検証している。

Despite providing high-performance solutions for computer vision tasks, the deep neural network (DNN) model has been proved to be extremely vulnerable to adversarial attacks. Current defense mainly focuses on the known attacks, but the adversarial robustness to the unknown attacks is seriously overlooked. Besides, commonly used adaptive learning and fine-tuning technique is unsuitable for adversarial defense since it is essentially a zero-shot problem when deployed. Thus, to tackle this challenge, we propose an attack-agnostic defense method named Meta Invariance Defense (MID). Specifically, various combinations of adversarial attacks are randomly sampled from a manually constructed Attacker Pool to constitute different defense tasks against unknown attacks, in which a student encoder is supervised by multi-consistency distillation to learn the attack-invariant features via a meta principle. The proposed MID has two merits: 1) Full distillation from pixel-, feature- and prediction-level between benign and adversarial samples facilitates the discovery of attack-invariance. 2) The model simultaneously achieves robustness to the imperceptible adversarial perturbations in high-level image classification and attack-suppression in low-level robust image regeneration. Theoretical and empirical studies on numerous benchmarks such as ImageNet verify the generalizable robustness and superiority of MID under various attacks.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# Schroedinger氏の主張: AUCが正確性を予測していない場合

Schroedinger's Threshold: When the AUC doesn't predict Accuracy ( http://arxiv.org/abs/2404.03344v1 )

ライセンス: Link先を確認
Juri Opitz, (参考訳) エリアアンダーカーブ測度(AUC)は、おそらくキャリブレーションなしで様々なモデルを評価し比較する傾向にある。 AUCアプリケーションの重要な例は、生成されたテキストの忠実度を予測するモデルの評価とベンチマークである。 しかし、AUCは、アプリケーションで観測される実際の精度に悪影響を及ぼし得る、学術的で楽観的な精度の概念を示し、ベンチマークのランキングに大きな変化をもたらす。 下流モデルの性能のより現実的な図を描く(実際の応用のためのモデルを作成する)ために、異なるキャリブレーションモード、キャリブレーションデータおよびメソッドを探索する。

The Area Under Curve measure (AUC) seems apt to evaluate and compare diverse models, possibly without calibration. An important example of AUC application is the evaluation and benchmarking of models that predict faithfulness of generated text. But we show that the AUC yields an academic and optimistic notion of accuracy that can misalign with the actual accuracy observed in application, yielding significant changes in benchmark rankings. To paint a more realistic picture of downstream model performance (and prepare a model for actual application), we explore different calibration modes, testing calibration data and method.
翻訳日:2024-04-05 15:14:12 公開日:2024-04-04
# 知識蒸留に基づく私的対実的説明を用いたモデル抽出攻撃

Knowledge Distillation-Based Model Extraction Attack using Private Counterfactual Explanations ( http://arxiv.org/abs/2404.03348v1 )

ライセンス: Link先を確認
Fatima Ezzeddine, Omran Ayoub, Silvia Giordano, (参考訳) 近年、さまざまなプロダクションソフトウェアアプリケーションにまたがる機械学習(ML)モデルのサービス(MLaaS)への展開が顕著に増加している。 並行して、説明可能なAI(XAI)は進化を続け、MLモデルにおける透明性と信頼性の必要性に対処する。 XAI技術は、モデルの説明の観点から、意思決定プロセスに洞察を提供することにより、MLモデルの透明性を高めることを目的としている。 同時に、MLaaSプラットフォームの一部では、ML予測出力とともに説明が提供されている。 このセットアップはMLaaSの脆弱性、特にモデル抽出攻撃(MEA)などのプライバシリーク攻撃に関する懸念を高める。 これは、悪意のあるユーザによって悪用される可能性のあるモデルの内部動作に関する洞察を説明できるためである。 本研究では,モデル説明,特にGAN(Generative Adversarial Network)に基づく対実的説明(CF)をMLaaSプラットフォーム内でMEAを実行するためにどのように活用するかを検討する。 また,ディファレンシャルプライバシ(DP)を緩和戦略として組み込むことの有効性について検討した。 そこで本研究では,CFを用いた対象モデルの代替モデル抽出の効率を高めるために,知識蒸留(KD)に基づく新しいMEA手法を提案する。 そこで我々は,DPを取り入れたCFジェネレータを訓練してプライベートCFを生成する手法を提案する。 実世界のデータセットに対して徹底的な実験的な評価を行い、提案したKDベースのMEAが、ベースラインアプローチに対するクエリを削減した高忠実度代用モデルが得られることを示す。 さらに,プライバシ層が組み込まれていることが,説明器の性能,CFの品質に影響を及ぼし,MEA性能が低下することが明らかとなった。

In recent years, there has been a notable increase in the deployment of machine learning (ML) models as services (MLaaS) across diverse production software applications. In parallel, explainable AI (XAI) continues to evolve, addressing the necessity for transparency and trustworthiness in ML models. XAI techniques aim to enhance the transparency of ML models by providing insights, in terms of the model's explanations, into their decision-making process. Simultaneously, some MLaaS platforms now offer explanations alongside the ML prediction outputs. This setup has elevated concerns regarding vulnerabilities in MLaaS, particularly in relation to privacy leakage attacks such as model extraction attacks (MEA). This is due to the fact that explanations can unveil insights about the inner workings of the model which could be exploited by malicious users. In this work, we focus on investigating how model explanations, particularly Generative adversarial networks (GANs)-based counterfactual explanations (CFs), can be exploited for performing MEA within the MLaaS platform. We also delve into assessing the effectiveness of incorporating differential privacy (DP) as a mitigation strategy. To this end, we first propose a novel MEA methodology based on Knowledge Distillation (KD) to enhance the efficiency of extracting a substitute model of a target model exploiting CFs. Then, we advise an approach for training CF generators incorporating DP to generate private CFs. We conduct thorough experimental evaluations on real-world datasets and demonstrate that our proposed KD-based MEA can yield a high-fidelity substitute model with reduced queries with respect to baseline approaches. Furthermore, our findings reveal that the inclusion of a privacy layer impacts the performance of the explainer, the quality of CFs, and results in a reduction in the MEA performance.
翻訳日:2024-04-05 15:01:16 公開日:2024-04-04
# VF-NeRF: Rigid NeRF登録のための視野

VF-NeRF: Viewshed Fields for Rigid NeRF Registration ( http://arxiv.org/abs/2404.03349v1 )

ライセンス: Link先を確認
Leo Segre, Shai Avidan, (参考訳) 3Dシーンの登録は、コンピュータビジョンの基本的な問題であり、2つのシーン間で最高の6-DoFアライメントを求める。 この問題は点雲やメッシュの場合に広く研究されたが、ニューラル放射場(NeRF)に関する研究は比較的限られている。 本稿では,オリジナルカメラの位置が与えられない場合の2つのNeRF間の剛性登録の問題について考察する。 これは暗黙の関数で、3Dポイントごとに元のカメラで見る確率を決定するものです。 我々は,VFがNeRF登録の様々な段階においてどのように役立つかを示し,VF-NeRFがLLFFやObjavereseなどの異なるキャプチャ手法を用いて,様々なデータセット上でSOTA結果を達成することを示す。

3D scene registration is a fundamental problem in computer vision that seeks the best 6-DoF alignment between two scenes. This problem was extensively investigated in the case of point clouds and meshes, but there has been relatively limited work regarding Neural Radiance Fields (NeRF). In this paper, we consider the problem of rigid registration between two NeRFs when the position of the original cameras is not given. Our key novelty is the introduction of Viewshed Fields (VF), an implicit function that determines, for each 3D point, how likely it is to be viewed by the original cameras. We demonstrate how VF can help in the various stages of NeRF registration, with an extensive evaluation showing that VF-NeRF achieves SOTA results on various datasets with different capturing approaches such as LLFF and Objaverese.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# 小言語モデルにおけるパレート最適処理に向けて

Towards Pareto Optimal Throughput in Small Language Model Serving ( http://arxiv.org/abs/2404.03353v1 )

ライセンス: Link先を確認
Pol G. Recasens, Yue Zhu, Chen Wang, Eun Kyung Lee, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral, (参考訳) 大規模言語モデル(LLM)は多くの異なる自然言語処理タスクの最先端技術に革命をもたらした。 LLMは計算量とメモリ需要があるが、Small Language Models(SLM)の台頭は、リソース制約のあるユーザにとって新たな機会を提供する。 本稿では,SLM推論を性能およびエネルギーレベルでベンチマークするための一連の実験について述べる。 我々の分析は、SLMの小さなメモリフットプリントによって、単一のアクセラレーターのリソース容量内でパレート最適スループットに到達することができる、という新しい視点を提供する。 そこで本研究では,モデル複製がSLMの資源利用を効果的に改善できることを示す。

Large language models (LLMs) have revolutionized the state-of-the-art of many different natural language processing tasks. Although serving LLMs is computationally and memory demanding, the rise of Small Language Models (SLMs) offers new opportunities for resource-constrained users, who now are able to serve small models with cutting-edge performance. In this paper, we present a set of experiments designed to benchmark SLM inference at performance and energy levels. Our analysis provides a new perspective in serving, highlighting that the small memory footprint of SLMs allows for reaching the Pareto-optimal throughput within the resource capacity of a single accelerator. In this regard, we present an initial set of findings demonstrating how model replication can effectively improve resource utilization for serving SLMs.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# 自己指導型リコメンデーション学習に関する総合的調査

A Comprehensive Survey on Self-Supervised Learning for Recommendation ( http://arxiv.org/abs/2404.03354v1 )

ライセンス: Link先を確認
Xubin Ren, Wei Wei, Lianghao Xia, Chao Huang, (参考訳) レコメンダシステムは、個々のユーザの好みに基づいてパーソナライズされたレコメンデーションを提供することによって、情報過負荷の課題に取り組む上で重要な役割を果たす。 RNN、GNN、Transformerアーキテクチャといったディープラーニング技術は、ユーザの行動や好みの理解を深めることで、推奨システムの進歩を著しく促進している。 しかし,教師付き学習手法は,データ疎性による現実シナリオの課題に遭遇し,表現を効果的に学習する能力に限界が生じる。 これを解決するために、自己教師付き学習(SSL)技術がソリューションとして登場し、ラベル付きデータのみに頼ることなく、固有のデータ構造を利用して監視信号を生成する。 ラベルのないデータを活用して意味のある表現を抽出することにより、SSLを利用するレコメンダシステムは、データの疎さに直面した場合でも、正確な予測とレコメンデーションを行うことができる。 本稿では,レコメンダシステム用に設計された自己教師型学習フレームワークの総合的なレビューを行い,約170件の論文を網羅的に分析する。 9つの異なるシナリオを探索し、異なるコンテキストにおけるSSL強化レコメンデータの包括的な理解を可能にします。 各ドメインについて,異なる自己指導型学習パラダイム,すなわちコントラスト学習,生成学習,対人学習について詳述し,SSLが様々なコンテキストにおいてレコメンダシステムをどのように強化するかの技術的詳細を述べる。 私たちは、関連するオープンソース資料をhttps://github.com/HKUDS/Awesome-SSLRec-Papersで一貫して管理しています。

Recommender systems play a crucial role in tackling the challenge of information overload by delivering personalized recommendations based on individual user preferences. Deep learning techniques, such as RNNs, GNNs, and Transformer architectures, have significantly propelled the advancement of recommender systems by enhancing their comprehension of user behaviors and preferences. However, supervised learning methods encounter challenges in real-life scenarios due to data sparsity, resulting in limitations in their ability to learn representations effectively. To address this, self-supervised learning (SSL) techniques have emerged as a solution, leveraging inherent data structures to generate supervision signals without relying solely on labeled data. By leveraging unlabeled data and extracting meaningful representations, recommender systems utilizing SSL can make accurate predictions and recommendations even when confronted with data sparsity. In this paper, we provide a comprehensive review of self-supervised learning frameworks designed for recommender systems, encompassing a thorough analysis of over 170 papers. We conduct an exploration of nine distinct scenarios, enabling a comprehensive understanding of SSL-enhanced recommenders in different contexts. For each domain, we elaborate on different self-supervised learning paradigms, namely contrastive learning, generative learning, and adversarial learning, so as to present technical details of how SSL enhances recommender systems in various contexts. We consistently maintain the related open-source materials at https://github.com/HKUDS/Awesome-SSLRec-Papers.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# REACT:解釈型強化学習のための進化的行動系列軌道の解明

REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning ( http://arxiv.org/abs/2404.03359v1 )

ライセンス: Link先を確認
Philipp Altmann, Céline Davignon, Maximilian Zorn, Fabian Ritz, Claudia Linnhoff-Popien, Thomas Gabor, (参考訳) 強化学習(RL)の解釈可能性を高めるため,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。 トレーニング中に学習した最適な振る舞いに基づいてRLモデルを検証するという一般的な実践とは対照的に,エッジケースの軌道の幅を考慮すると,RLモデル固有の振る舞いをより包括的に理解することができると仮定する。 このようなシナリオを導き出すため、進化的アルゴリズムによって初期状態に乱れを導入し、多様な人口のデモを生成する。 トラジェクトリーの適合性を評価するために、REACTは、遭遇した状態と選択された行動の局所的およびグローバルな多様性を促進する共同フィットネス機能を組み込んだ。 離散的かつ連続的な環境において、様々な期間で訓練された政策による評価を通じて、REACTの記述力を示す。 本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。

To enhance the interpretability of Reinforcement Learning (RL), we propose Revealing Evolutionary Action Consequence Trajectories (REACT). In contrast to the prevalent practice of validating RL models based on their optimal behavior learned during training, we posit that considering a range of edge-case trajectories provides a more comprehensive understanding of their inherent behavior. To induce such scenarios, we introduce a disturbance to the initial state, optimizing it through an evolutionary algorithm to generate a diverse population of demonstrations. To evaluate the fitness of trajectories, REACT incorporates a joint fitness function that encourages both local and global diversity in the encountered states and chosen actions. Through assessments with policies trained for varying durations in discrete and continuous environments, we demonstrate the descriptive power of REACT. Our results highlight its effectiveness in revealing nuanced aspects of RL models' behavior beyond optimal performance, thereby contributing to improved interpretability.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# SemEval-2024 Task 3: Using Flan-T5 for Reasoning Emotion caused in talking with Chain-of-Thought on Emotion States (英語)

nicolay-r at SemEval-2024 Task 3: Using Flan-T5 for Reasoning Emotion Cause in Conversations with Chain-of-Thought on Emotion States ( http://arxiv.org/abs/2404.03361v1 )

ライセンス: Link先を確認
Nicolay Rusnachenko, Huizhi Liang, (参考訳) 感情表現は会話の本質的な特徴の1つである。 自己関係があるか、別の話者によって引き起こされる可能性がある。 様々な理由が、会話の歴史、話者の感情状態など、さらなる感情の原因の源となっている可能性がある。 直近のChain-of-Thoughtの進歩に触発されて、我々は既存の3つのホップ推論アプローチ(THOR)を利用して、感情状態(THOR-state)と、ある話者が他方の話者に与える感情(THOR-cause)の答えを大規模言語モデルで指導する。 我々は、微調整における推論パスを考案するための推論リビジョン(rr)が原因で、ThORを装備する。 特に、アノテートされた話者感情状態に頼り、推論経路を改訂する。 最終提出は,Flan-T5ベース(250M)とルールベースのスパン補正技術に基づいて,THOR-stateで予備調整し,THOR-cause-rrで競技トレーニングデータに微調整し,第3位と第4位(F1-proportional)と第5位(F1-strict)を15チームで実施した。 私たちのTHOR実装フォークは、https://github.com/nicolay-r/THOR-ECACで公開されています。

Emotion expression is one of the essential traits of conversations. It may be self-related or caused by another speaker. The variety of reasons may serve as a source of the further emotion causes: conversation history, speaker's emotional state, etc. Inspired by the most recent advances in Chain-of-Thought, in this work, we exploit the existing three-hop reasoning approach (THOR) to perform large language model instruction-tuning for answering: emotion states (THOR-state), and emotion caused by one speaker to the other (THOR-cause). We equip THOR-cause with the reasoning revision (rr) for devising a reasoning path in fine-tuning. In particular, we rely on the annotated speaker emotion states to revise reasoning path. Our final submission, based on Flan-T5-base (250M) and the rule-based span correction technique, preliminary tuned with THOR-state and fine-tuned with THOR-cause-rr on competition training data, results in 3rd and 4th places (F1-proportional) and 5th place (F1-strict) among 15 participating teams. Our THOR implementation fork is publicly available: https://github.com/nicolay-r/THOR-ECAC
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# 光量子コンピューティング

Photonic Quantum Computing ( http://arxiv.org/abs/2404.03367v1 )

ライセンス: Link先を確認
Jacquiline Romero, Gerard Milburn, (参考訳) フォトニック量子計算(英: Photonic quantum computing)とは、量子計算を行う物理系として光子を用いる量子計算のこと。 光子は室温で動くため理想的な量子系であり、フォトニック技術は比較的成熟している。 場は主に離散変数と連続変数のフォトニック量子計算に分けられる。 離散可変(DV)フォトニック量子計算において、量子情報は、有限集合から異なる値を取る1つ以上の変調特性(例えば偏光)で表される。 量子情報はこれらの変調特性の操作によって処理され、最終的には単一の光子検出器を用いて測定される。 連続可変(CV)フォトニック量子計算では、量子情報は間隔(eg位置)で値を取る電磁場の特性によって表される。 電磁場はガウス演算と非ガウス演算によって変換され、ホモダイン検出によって検出される。 CVとDVの両方のフォトニック量子計算は実験的に実現されており、それぞれにスケーラブルなフォトニック普遍量子計算を実現するために克服すべき難題がいくつかある。 本稿は光量子コンピューティングの紹介であり、線形光量子コンピューティングの初期から最近の量子機械学習の発展までの展開をグラフ化したものである。

Photonic quantum computation refers to quantum computation that uses photons as the physical system for doing the quantum computation. Photons are ideal quantum systems because they operate at room temperature, and photonic technologies are relatively mature. The field is largely divided between discrete- and continuous-variable photonic quantum computation. In discrete-variable (DV) photonic quantum computation, quantum information is represented by one or more modal properties (e.g. polarization) that take on distinct values from a finite set. Quantum information is processed via operations on these modal properties and eventually measured using single photon detectors. In continuous-variable (CV) photonic quantum computation, quantum information is represented by properties of the electromagnetic field that take on any value in an interval (e.g. position). The electromagnetic field is transformed via Gaussian and non-Gaussian operations, and then detected via homodyne detection. Both CV and DV photonic quantum computation have been realized experimentally and they each have a unique set of challenges that need to be overcome to achieve scalable photonic universal quantum computation. This article is an introduction to photonic quantum computing, charting its development from the early days of linear optical quantum computing to recent developments in quantum machine learning.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# 電気・油圧データ融合のためのグラフニューラルネットワークによる揚水型水力発電の短期予測

Graph Neural Networks for Electric and Hydraulic Data Fusion to Enhance Short-term Forecasting of Pumped-storage Hydroelectricity ( http://arxiv.org/abs/2404.03368v1 )

ライセンス: Link先を確認
Raffael Theiler, Olga Fink, (参考訳) 揚水型水力発電所(PSH)はグリッド電力周波数制御に積極的に参加し、しばしば動的条件下で稼働する。 これらの動的に変化する状態を予測することは、基礎となるセンサーとマシンの状態を理解するために不可欠である。 この理解は異常や故障を検出し、接続された電力網の信頼性を確保し、故障や誤校正されたセンサーを識別するのに役立つ。 PSHは、電気と油圧のサブシステムを含む複雑で高度に相互接続されたシステムであり、それぞれがグラフとして個別に表現できる基本ネットワークによって特徴づけられる。 この関係帰納バイアスを利用するために、グラフニューラルネットワーク(GNN)は個々のサブシステムの状態予測タスクに別々に適用されているが、それらの相互依存は考慮していない。 しかしながら、PSHでは、これらのサブシステムは同じ制御入力に依存しており、それらの操作は相互に依存し、相互接続される。 これにより、PSHサブシステム間で油圧センサと電気センサデータを融合させ、状態予測精度を向上させることができる。 このアプローチはGNNの文献ではまだ検討されていないが、多くの利用可能なPSHグラフはそれぞれのサブシステムの境界に制限されているため、直接適用するのは不適当である。 本研究では,電気・油圧センサで観測される有意義なサブシステム相互依存性と動的パターンを同時に捕捉し,学習するための自己認識機構を利用したスペクトル時間グラフニューラルネットワークの適用について紹介する。 本手法は,PSHのサブシステムからのデータを統合されたシステムワイドグラフで操作し,直接データから学習することで効果的に融合する。

Pumped-storage hydropower plants (PSH) actively participate in grid power-frequency control and therefore often operate under dynamic conditions, which results in rapidly varying system states. Predicting these dynamically changing states is essential for comprehending the underlying sensor and machine conditions. This understanding aids in detecting anomalies and faults, ensuring the reliable operation of the connected power grid, and in identifying faulty and miscalibrated sensors. PSH are complex, highly interconnected systems encompassing electrical and hydraulic subsystems, each characterized by their respective underlying networks that can individually be represented as graphs. To take advantage of this relational inductive bias, graph neural networks (GNNs) have been separately applied to state forecasting tasks in the individual subsystems, but without considering their interdependencies. In PSH, however, these subsystems depend on the same control input, making their operations highly interdependent and interconnected. Consequently, hydraulic and electrical sensor data should be fused across PSH subsystems to improve state forecasting accuracy. This approach has not been explored in GNN literature yet because many available PSH graphs are limited to their respective subsystem boundaries, which makes the method unsuitable to be applied directly. In this work, we introduce the application of spectral-temporal graph neural networks, which leverage self-attention mechanisms to concurrently capture and learn meaningful subsystem interdependencies and the dynamic patterns observed in electric and hydraulic sensors. Our method effectively fuses data from the PSH's subsystems by operating on a unified, system-wide graph, learned directly from the data, This approach leads to demonstrably improved state forecasting performance and enhanced generalizability.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# 政策勾配法の基本解析

Elementary Analysis of Policy Gradient Methods ( http://arxiv.org/abs/2404.03372v1 )

ライセンス: Link先を確認
Jiacai Liu, Wenye Li, Ke Wei, (参考訳) 単純なパラメータ化, 方針勾配, およびソフトマックスパラメータ化の下での自然政策勾配の予測は, 強化学習の基本的なアルゴリズムである。 理論的な側面からこれらのアルゴリズムを研究する活動は、近年急増している。 それにもかかわらず、正確な政策評価にアクセスできたとしても、それらの収束挙動は未だ完全には理解されていない。 本稿では,割引MDPの設定に焦点をあて,前述の政策最適化手法の体系的研究を行う。 いくつかの新しい結果が提示され、その中には 1) 任意の一定のステップサイズに対する計画的方針勾配の大域的線形収束 2) 任意のステップサイズに対するソフトマックスポリシー勾配のサブ線形収束 3) 任意のステップサイズに対するソフトマックス自然方針勾配の大域的線形収束 4) エントロピー正則化ソフトマックス政策勾配の大域的線形収束は, 既存の結果よりも広い段差を持つ。 5) エントロピー規則化自然政策勾配の厳密な局所線形収束率、及び 6) 最適条件下での定常分布を仮定することなく, ソフトポリシー反復の局所的局所的2次収束率を推定した。 これらの結果を確立するため, 新たな基礎解析技術が開発されている。

Projected policy gradient under the simplex parameterization, policy gradient and natural policy gradient under the softmax parameterization, are fundamental algorithms in reinforcement learning. There have been a flurry of recent activities in studying these algorithms from the theoretical aspect. Despite this, their convergence behavior is still not fully understood, even given the access to exact policy evaluations. In this paper, we focus on the discounted MDP setting and conduct a systematic study of the aforementioned policy optimization methods. Several novel results are presented, including 1) global linear convergence of projected policy gradient for any constant step size, 2) sublinear convergence of softmax policy gradient for any constant step size, 3) global linear convergence of softmax natural policy gradient for any constant step size, 4) global linear convergence of entropy regularized softmax policy gradient for a wider range of constant step sizes than existing result, 5) tight local linear convergence rate of entropy regularized natural policy gradient, and 6) a new and concise local quadratic convergence rate of soft policy iteration without the assumption on the stationary distribution under the optimal policy. New and elementary analysis techniques have been developed to establish these results.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# 高次グラフ変換器の理論的表現力と設計空間について

On the Theoretical Expressive Power and the Design Space of Higher-Order Graph Transformers ( http://arxiv.org/abs/2404.03380v1 )

ライセンス: Link先を確認
Cai Zhou, Rose Yu, Yusu Wang, (参考訳) グラフトランスフォーマーは最近、グラフ学習において大きな注目を集めている。 しかしながら、高階グラフニューラルネットワークは合理的に研究されているものの、高階変種へのグラフトランスフォーマーの拡張の探索は始まったばかりである。 理論的な理解と経験的な結果の両方が限られている。 本稿では,次数k$のグラフ変換器とスパース変種の理論的表現力に関する体系的研究を行う。 まず、計算コストが高いにもかかわらず、追加構造情報を持たないオーダー-$k$グラフ変換器は、$k$-Weisfeiler Lehman(k$-WL)テストよりも表現力が少ないことを示す。 次に,高階グラフ変換器の分散化と拡張を両立させ,その効率性と表現性の向上を図る。 実際、周辺情報に基づくスパーシフィケーションは、入力グラフ構造に関する追加情報を提供するため、表現力を高めることができる。 特に、自然近傍に基づくスパース次数-$k$変換モデルは、計算効率だけでなく、k$-WLテストのような表現力も有することを示す。 さらに、計算効率が良く、表現性解析を提供するスパースグラフアテンションモデルについても検討する。 最後に,異なるスペーシフィケーション戦略の有効性を示す実験結果を示す。

Graph transformers have recently received significant attention in graph learning, partly due to their ability to capture more global interaction via self-attention. Nevertheless, while higher-order graph neural networks have been reasonably well studied, the exploration of extending graph transformers to higher-order variants is just starting. Both theoretical understanding and empirical results are limited. In this paper, we provide a systematic study of the theoretical expressive power of order-$k$ graph transformers and sparse variants. We first show that, an order-$k$ graph transformer without additional structural information is less expressive than the $k$-Weisfeiler Lehman ($k$-WL) test despite its high computational cost. We then explore strategies to both sparsify and enhance the higher-order graph transformers, aiming to improve both their efficiency and expressiveness. Indeed, sparsification based on neighborhood information can enhance the expressive power, as it provides additional information about input graph structures. In particular, we show that a natural neighborhood-based sparse order-$k$ transformer model is not only computationally efficient, but also expressive -- as expressive as $k$-WL test. We further study several other sparse graph attention models that are computationally efficient and provide their expressiveness analysis. Finally, we provide experimental results to show the effectiveness of the different sparsification strategies.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# ケーションによるテキストの計画と生成の学習

Learning to Plan and Generate Text with Citations ( http://arxiv.org/abs/2404.03381v1 )

ライセンス: Link先を確認
Constanza Fierro, Reinald Kim Amplayo, Fantine Huot, Nicola De Cao, Joshua Maynez, Shashi Narayan, Mirella Lapata, (参考訳) 情報検索のシナリオにおけるLCMの展開に対する需要が高まり、検証可能なシステムの構築への取り組みが加速し、クエリに対する応答と証拠が生成されるようになった。 本稿では、最近明らかになったプランベースモデルの帰属能力について検討し、生成したテキストの忠実性、接地性、制御性を改善することを目的としている。 我々は、生成したコンテンツとその組織の青写真として機能する一連の質問として、プランを概念化します。 本稿では,異なるブループリントの変種を利用する帰属モデルと,質問をゼロから生成する抽象モデルと,質問を入力からコピーする抽出モデルを提案する。 ロングフォームな質問応答実験は、計画が帰属品質を継続的に改善することを示している。 さらに、ブループリントモデルにより生成された励起は、計画部品を欠いたLLMパイプラインの励起よりも精度が高い。

The increasing demand for the deployment of LLMs in information-seeking scenarios has spurred efforts in creating verifiable systems, which generate responses to queries along with supporting evidence. In this paper, we explore the attribution capabilities of plan-based models which have been recently shown to improve the faithfulness, grounding, and controllability of generated text. We conceptualize plans as a sequence of questions which serve as blueprints of the generated content and its organization. We propose two attribution models that utilize different variants of blueprints, an abstractive model where questions are generated from scratch, and an extractive model where questions are copied from the input. Experiments on long-form question-answering show that planning consistently improves attribution quality. Moreover, the citations generated by blueprint models are more accurate compared to those obtained from LLM-based pipelines lacking a planning component.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# DIDA:ドメイン適応に基づく模倣学習

DIDA: Denoised Imitation Learning based on Domain Adaptation ( http://arxiv.org/abs/2404.03382v1 )

ライセンス: Link先を確認
Kaichen Huang, Hai-Hang Sun, Shenghua Wan, Minghao Shao, Shuai Feng, Le Gan, De-Chuan Zhan, (参考訳) 準最適デモンストレーションや邪魔者による観察といった低品質データセットからのスキルの排除は、現実世界のアプリケーションでは一般的である。 本研究では,データ収集や送信のプロセスでしばしば発生するノイズを伴うデータから,模倣者が学習するために必要となる,雑音からの学習(LND)の問題に焦点を当てる。 従来のIL法は、逆学習したガウスノイズを純粋な専門家データに注入したり、追加のランキング情報を利用したりすることで、学習ポリシーの堅牢性を向上させるが、LND設定では失敗する可能性がある。 上記の問題を緩和するため、ドメイン適応(DIDA)に基づくDenoized Imitation Learningを提案し、ノイズレベルと専門知識レベルを区別する2つの識別器を設計し、機能エンコーダがタスク関連だがドメインに依存しない表現を学習できるようにする。 MuJoCoの実験結果は、DIDAが様々な種類のノイズを持つデモから挑戦的な模倣タスクをうまく処理できることを示した。

Imitating skills from low-quality datasets, such as sub-optimal demonstrations and observations with distractors, is common in real-world applications. In this work, we focus on the problem of Learning from Noisy Demonstrations (LND), where the imitator is required to learn from data with noise that often occurs during the processes of data collection or transmission. Previous IL methods improve the robustness of learned policies by injecting an adversarially learned Gaussian noise into pure expert data or utilizing additional ranking information, but they may fail in the LND setting. To alleviate the above problems, we propose Denoised Imitation learning based on Domain Adaptation (DIDA), which designs two discriminators to distinguish the noise level and expertise level of data, facilitating a feature encoder to learn task-related but domain-agnostic representations. Experiment results on MuJoCo demonstrate that DIDA can successfully handle challenging imitation tasks from demonstrations with various types of noise, outperforming most baseline methods.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# LongVLM: 大規模言語モデルによる効率的なロングビデオ理解

LongVLM: Efficient Long Video Understanding via Large Language Models ( http://arxiv.org/abs/2404.03384v1 )

ライセンス: Link先を確認
Yuetian Weng, Mingfei Han, Haoyu He, Xiaojun Chang, Bohan Zhuang, (参考訳) 大規模言語モデル (LLMs) を取り入れた最近のビデオLLMの進歩は、様々なビデオ理解タスクの進歩を促している。 これらのモデルは、膨大な数のビジュアルトークンにプールやクエリアグリゲーションを通じてビデオ表現をエンコードし、計算とメモリのコストを安くする。 ビデオコンテンツの全体的な理解を成功させたにもかかわらず、既存のビデオLLMは、長期的なビデオのローカル情報を見渡すことによって、ビデオの詳細な理解を達成する上で、依然として課題に直面している。 この課題に対処するために、LongVLMは、長いビデオを理解するための単純だが強力なビデオLLMであり、長いビデオは、しばしばシーケンシャルなキーイベント、複雑なアクション、カメラの動きで構成されている、という観測に基づいて構築されている。 提案手法では,長い動画を複数の短期セグメントに分割し,階層的なトークンマージモジュールを通じて各局所セグメントの局所的特徴を符号化する。 これらの特徴は、逐次的な短期セグメント間のストーリーラインを維持するために、時間順に連結される。 さらに,グローバルなセマンティクスを各ローカル機能に統合し,コンテキスト理解を強化することを提案する。 このようにして、ローカル情報とグローバル情報の両方を包含した映像表現を符号化し、LLMが長期ビデオに対して包括的な応答を生成できるようにする。 VideoChatGPTベンチマークとゼロショットビデオ質問応答データセットによる実験結果から,従来の最先端手法に比べて,我々のモデルが優れていることを示す。 定性的な例は、我々のモデルが長いビデオ理解のためにより正確な応答を生成することを示している。 コードは \url{https://github.com/ziplab/LongVLM} で公開されている。

Empowered by Large Language Models (LLMs), recent advancements in VideoLLMs have driven progress in various video understanding tasks. These models encode video representations through pooling or query aggregation over a vast number of visual tokens, making computational and memory costs affordable. Despite successfully providing an overall comprehension of video content, existing VideoLLMs still face challenges in achieving detailed understanding in videos due to overlooking local information in long-term videos. To tackle this challenge, we introduce LongVLM, a straightforward yet powerful VideoLLM for long video understanding, building upon the observation that long videos often consist of sequential key events, complex actions, and camera movements. Our approach proposes to decompose long videos into multiple short-term segments and encode local features for each local segment via a hierarchical token merging module. These features are concatenated in temporal order to maintain the storyline across sequential short-term segments. Additionally, we propose to integrate global semantics into each local feature to enhance context understanding. In this way, we encode video representations that incorporate both local and global information, enabling the LLM to generate comprehensive responses for long-term videos. Experimental results on the VideoChatGPT benchmark and zero-shot video question-answering datasets demonstrate the superior capabilities of our model over the previous state-of-the-art methods. Qualitative examples demonstrate that our model produces more precise responses for long videos understanding. Code is available at \url{https://github.com/ziplab/LongVLM}.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# SENSOR:アクティブセンシングによる第3者専門家の行動の軽減

SENSOR: Imitate Third-Person Expert's Behaviors via Active Sensoring ( http://arxiv.org/abs/2404.03386v1 )

ライセンス: Link先を確認
Kaichen Huang, Minghao Shao, Shenghua Wan, Hai-Hang Sun, Shuai Feng, Le Gan, De-Chuan Zhan, (参考訳) 多くの実世界のビジュアル・イミテーション・ラーニング(IL)のシナリオでは、エージェントと専門家の視点の相違があり、模倣の失敗につながる可能性がある。 従来の手法は一般にドメインアライメントによってこの問題を解決しており、これは余分な計算とストレージコストを発生させ、これらの手法は視点ギャップが大きすぎるような \textit{hard case} を扱うのに失敗する。 上記の問題を緩和するために、視覚的IL設定にアクティブセンサーを導入し、モデルに基づくSensory mimicor(SENSOR)を提案し、エージェントの視点を専門家の視点に合わせるように自動的に変更する。 SENSORは、潜伏状態のダイナミクスを捉えるための世界モデル、カメラを制御するためのセンサーポリシー、エージェントを制御するためのモーターポリシーを共同で学習する。 視覚的移動タスクの実験は、SENSORが専門家の視点と戦略を効率的にシミュレートし、ほとんどのベースライン手法より優れていることを示している。

In many real-world visual Imitation Learning (IL) scenarios, there is a misalignment between the agent's and the expert's perspectives, which might lead to the failure of imitation. Previous methods have generally solved this problem by domain alignment, which incurs extra computation and storage costs, and these methods fail to handle the \textit{hard cases} where the viewpoint gap is too large. To alleviate the above problems, we introduce active sensoring in the visual IL setting and propose a model-based SENSory imitatOR (SENSOR) to automatically change the agent's perspective to match the expert's. SENSOR jointly learns a world model to capture the dynamics of latent states, a sensor policy to control the camera, and a motor policy to control the agent. Experiments on visual locomotion tasks show that SENSOR can efficiently simulate the expert's perspective and strategy, and outperforms most baseline methods.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# Heckler: 悪意のある中断で信頼できるVMを壊す

Heckler: Breaking Confidential VMs with Malicious Interrupts ( http://arxiv.org/abs/2404.03387v1 )

ライセンス: Link先を確認
Benedict Schlüter, Supraja Sridhara, Mark Kuhne, Andrin Bertschi, Shweta Shinde, (参考訳) ハードウェアベースのTrusted execution Environment(TEE)は、仮想マシンの抽象化を分離した粒度を提供する。 セキュリティに敏感なコードとデータをホストする機密VM(CVM)を提供する。 AMD SEV-SNPとIntel TDXはCVMを有効化しており、現在は人気のあるクラウドプラットフォームで利用可能である。 これらの設定における信頼できないハイパーバイザは、割り込みを含むいくつかのリソース管理と設定タスクを制御する。 これは、ハイパーバイザが悪意のある非タイマー割り込みを注入し、CVMの機密性と整合性を壊す新たな攻撃である。 我々の洞察は、グローバルな影響を持つ割り込みハンドラを使用することで、CVMのレジスタ状態を操作してデータを変更し、フローを制御することができます。 In AMD SEV-SNP and Intel TDX, we demonstrate Heckler on OpenSSH and sudo to bypass authentication。 AMD SEV-SNPでは、統計およびテキスト分析を行うC、Java、Juliaアプリケーションの実行の整合性を断ち切る。 現状の防衛のギャップについて説明するとともに,今後の防衛の指針を概説する。

Hardware-based Trusted execution environments (TEEs) offer an isolation granularity of virtual machine abstraction. They provide confidential VMs (CVMs) that host security-sensitive code and data. AMD SEV-SNP and Intel TDX enable CVMs and are now available on popular cloud platforms. The untrusted hypervisor in these settings is in control of several resource management and configuration tasks, including interrupts. We present Heckler, a new attack wherein the hypervisor injects malicious non-timer interrupts to break the confidentiality and integrity of CVMs. Our insight is to use the interrupt handlers that have global effects, such that we can manipulate a CVM's register states to change the data and control flow. With AMD SEV-SNP and Intel TDX, we demonstrate Heckler on OpenSSH and sudo to bypass authentication. On AMD SEV-SNP we break execution integrity of C, Java, and Julia applications that perform statistical and text analysis. We explain the gaps in current defenses and outline guidelines for future defenses.
翻訳日:2024-04-05 15:01:15 公開日:2024-04-04
# 教師なしセグメンテーション学習を改善するための2つの試み

Two Tricks to Improve Unsupervised Segmentation Learning ( http://arxiv.org/abs/2404.03392v1 )

ライセンス: Link先を確認
Alp Eren Sari, Francesco Locatello, Paolo Favar, (参考訳) 教師なしセグメンテーション学習のための2つの実践的改善手法を提案する。 これらの技術は、最新の最先端手法の予測セグメンテーションマップの解像度と精度の限界に対処する。 まず、ガイドフィルタなどの画像後処理技術を利用して出力マスクを洗練し、計算コストを大幅に削減しつつ精度を向上する。 第2に,教師学生の学習計画に基づく複数スケールの一貫性基準を導入する。 この基準は、異なる解像度で抽出された入力画像の領域から予測されるセグメンテーションマスクと異なる解像度で一致する。 教師なしセグメンテーション学習におけるいくつかのベンチマーク実験の結果,提案手法の有効性が示された。

We present two practical improvement techniques for unsupervised segmentation learning. These techniques address limitations in the resolution and accuracy of predicted segmentation maps of recent state-of-the-art methods. Firstly, we leverage image post-processing techniques such as guided filtering to refine the output masks, improving accuracy while avoiding substantial computational costs. Secondly, we introduce a multi-scale consistency criterion, based on a teacher-student training scheme. This criterion matches segmentation masks predicted from regions of the input image extracted at different resolutions to each other. Experimental results on several benchmarks used in unsupervised segmentation learning demonstrate the effectiveness of our proposed techniques.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# 弱教師付きセマンティックセグメンテーションにおけるアテンションマップの背景雑音低減

Background Noise Reduction of Attention Map for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2404.03394v1 )

ライセンス: Link先を確認
Izumi Fujimori, Masaki Oono, Masami Shishibori, (参考訳) CNNベースのクラスアクティベーションマップ (Class Activation Maps, CAM) では、画像レベルのラベルのみを用いたWSSS(弱教師付きセマンティックセマンティックセグメンテーション)では、オブジェクトの最も差別的な局所領域を活性化する傾向がある。 一方、トランスフォーマーに基づく手法は、グローバルな特徴を学習するが、背景騒音汚染の問題に悩まされる。 本稿では,TransCAM として知られる Conformer をベースとした既存 WSSS 法における注目重みの背景雑音問題に対処することに焦点を当てた。 提案手法は,背景雑音の低減に成功し,擬似ラベルの精度が向上した。 実験の結果,PASCAL VOC 2012バリデーションデータでは70.5%,テストデータでは71.1%,MS COCO 2014では45.9%,セグメンテーション性能ではTransCAMを上回った。

In weakly-supervised semantic segmentation (WSSS) using only image-level class labels, a problem with CNN-based Class Activation Maps (CAM) is that they tend to activate the most discriminative local regions of objects. On the other hand, methods based on Transformers learn global features but suffer from the issue of background noise contamination. This paper focuses on addressing the issue of background noise in attention weights within the existing WSSS method based on Conformer, known as TransCAM. The proposed method successfully reduces background noise, leading to improved accuracy of pseudo labels. Experimental results demonstrate that our model achieves segmentation performance of 70.5% on the PASCAL VOC 2012 validation data, 71.1% on the test data, and 45.9% on MS COCO 2014 data, outperforming TransCAM in terms of segmentation performance.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# 超伝導量子回路における制御可能な非エルミート量子ビット結合

Controllable non-Hermitian qubit-qubit Coupling in Superconducting quantum Circuit ( http://arxiv.org/abs/2404.03397v1 )

ライセンス: Link先を確認
Hui Wang, Yan-Jun Zhao, Xun-Wei Xu, (参考訳) 非ハーミティシティを供給する高損失共振器を用いて、可変結合超伝導量子回路におけるエネルギーレベル縮退と量子状態の進化について検討する。 量子ビットの有効エネルギーレベルと減衰速度は超伝導回路で連続的に調整でき、レベル退化点の位置と数は制御可能である。 量子状態交換の効率と量子状態進化の非対称性は、2つの量子ビット間の非エルミート的および非相互結合で調整することができる。 制御不能な非ハーミティシティは超伝導量子回路における非伝統的な量子効果を探索するための新しい洞察と方法を提供する。

With a high-loss resonator supplying the non-Hermiticity, we study the Energy level degeneracy and quantum state evolution in tunable coupling superconducting quantum circuit. The qubit's effective energy level and damping rate can be continually tuned in superconducting circuit, and the positions and numbers of level degenerate points are controllable. The efficient of quantum state exchange and the asymmetry of quantum state evolution can be tuned with non-hermitian and nonreciprocal coupling between two qubits. The controllable non-Hermiticity provides new insights and methods for exploring the unconventional quantum effects in superconducting quantum circuit.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# 大規模言語モデルによるビデオ要約事前学習のスケールアップ

Scaling Up Video Summarization Pretraining with Large Language Models ( http://arxiv.org/abs/2404.03398v1 )

ライセンス: Link先を確認
Dawit Mureja Argaw, Seunghyun Yoon, Fabian Caba Heilbron, Hanieh Deilamsalehy, Trung Bui, Zhaowen Wang, Franck Dernoncourt, Joon Son Chung, (参考訳) 長大なビデオコンテンツはインターネットトラフィックの重要な部分を占めており、自動的なビデオ要約が重要な研究課題となっている。 しかし、既存のビデオ要約データセットは、そのサイズが特に限られており、一般化のための最先端の手法の有効性が制限されている。 本研究の目的は, 音声と映像のアライメントが密集した長文ビデオの多さと, 長文要約における最近の大規模言語モデル(LLM)の顕著な機能を活用して, この制限を克服することである。 我々は,LLMをOracleの要約として使用した大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを紹介した。 生成されたデータセットを利用することで、既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。 この分野のさらなる研究を促進するために,我々は,プロが注釈付けした高品質な要約付き1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。 大規模な実験により,提案手法が複数のベンチマークでビデオ要約の新たな最先端を図っていることが明らかとなった。

Long-form video content constitutes a significant portion of internet traffic, making automated video summarization an essential research problem. However, existing video summarization datasets are notably limited in their size, constraining the effectiveness of state-of-the-art methods for generalization. Our work aims to overcome this limitation by capitalizing on the abundance of long-form videos with dense speech-to-video alignment and the remarkable capabilities of recent large language models (LLMs) in summarizing long text. We introduce an automated and scalable pipeline for generating a large-scale video summarization dataset using LLMs as Oracle summarizers. By leveraging the generated dataset, we analyze the limitations of existing approaches and propose a new video summarization model that effectively addresses them. To facilitate further research in the field, our work also presents a new benchmark dataset that contains 1200 long videos each with high-quality summaries annotated by professionals. Extensive experiments clearly indicate that our proposed approach sets a new state-of-the-art in video summarization across several benchmarks.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# AI生成画像品質評価のための大規模データベースAIIQA-20K

AIGIQA-20K: A Large Database for AI-Generated Image Quality Assessment ( http://arxiv.org/abs/2404.03407v1 )

ライセンス: Link先を確認
Chunyi Li, Tengchuan Kou, Yixuan Gao, Yuqin Cao, Wei Sun, Zicheng Zhang, Yingjie Zhou, Zhichao Zhang, Weixia Zhang, Haoning Wu, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai, (参考訳) AIGC(AI-Generated Content)の急速な進歩に伴い、AIGI(AI-Generated Images)はエンターテイメント、教育、ソーシャルメディアに広く応用されている。 しかし、異なるAIGI間で品質が著しく異なるため、人間の主観的評価に一貫して適合するモデルが緊急に必要となる。 NTIRE 2024におけるAIGC品質評価の課題は、ダイナミックなハイパーパラメータ(分類自由誘導、反復エポック、出力画像解像度を含む)を活用し、21人の被験者を包括的に含む知覚的品質とテキスト・ツー・イメージのアライメントを考慮した主観的スコアを収集することである。 このアプローチは、これまでに2万のAIGIと420,000の主観評価(AIIGIQA-20Kとして知られる)で、最もきめ細かなAIGI主観的品質データベースの作成に成功している。 さらに、本データベース上でベンチマーク実験を行い、16の主流AIGI品質モデルと人間の知覚との対応性を評価する。 我々は、この大規模品質データベースがAIGIの堅牢な品質指標を刺激し、ビジョンのためのAIGCの進化を促進することを期待する。 データベースはhttps://www.modelscope.cn/datasets/lcysyzxdxc/AIGCQA-30K-Imageで公開されている。

With the rapid advancements in AI-Generated Content (AIGC), AI-Generated Images (AIGIs) have been widely applied in entertainment, education, and social media. However, due to the significant variance in quality among different AIGIs, there is an urgent need for models that consistently match human subjective ratings. To address this issue, we organized a challenge towards AIGC quality assessment on NTIRE 2024 that extensively considers 15 popular generative models, utilizing dynamic hyper-parameters (including classifier-free guidance, iteration epochs, and output image resolution), and gather subjective scores that consider perceptual quality and text-to-image alignment altogether comprehensively involving 21 subjects. This approach culminates in the creation of the largest fine-grained AIGI subjective quality database to date with 20,000 AIGIs and 420,000 subjective ratings, known as AIGIQA-20K. Furthermore, we conduct benchmark experiments on this database to assess the correspondence between 16 mainstream AIGI quality models and human perception. We anticipate that this large-scale quality database will inspire robust quality indicators for AIGIs and propel the evolution of AIGC for vision. The database is released on https://www.modelscope.cn/datasets/lcysyzxdxc/AIGCQA-30K-Image.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# Red Teaming GPT-4V: GPT-4VはUni/Multi-Modal Jailbreak攻撃に対して安全か?

Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks? ( http://arxiv.org/abs/2404.03411v1 )

ライセンス: Link先を確認
Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu, (参考訳) 様々なジェイルブレイク攻撃がレッドチーム大規模言語モデル (LLM) に提案され、LSMの脆弱なセーフガードが明らかにされた。 さらに、いくつかの手法はテキストのモダリティに制限されず、視覚入力を摂動することでジェイルブレイク攻撃をマルチモーダル大言語モデル(MLLM)に拡張する。 しかし、普遍的な評価ベンチマークがないと、性能の再現と公正な比較が複雑になる。 さらに、GPT-4V など、特に MLLM のクローズドソース・ステート・オブ・ザ・アート(SOTA)モデルに対する包括的な評価が欠如している。 これらの問題に対処するため、この研究はまず、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築した。 このデータセットに基づいて、SOTAプロプライエタリモデルとオープンソースモデルの両方を含む11の異なるLLMとMLLMで、広範なレッドチーム実験が実施されている。 その結果,(1) GPT4 と GPT-4V は,オープンソースの LLM や MLLM と比較して,脱獄攻撃に対するロバスト性が高いことがわかった。 2) Llama2 と Qwen-VL-Chat は他のオープンソースモデルよりも堅牢である。 3) 視覚ジェイルブレイク法は, テキストジェイルブレイク法に比べて比較的限定的である。 データセットとコードは、https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md で見ることができる。

Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# MiniGPT4-Video:インターリーブ・ビジュアル・テクスチュアル・トークンによるビデオ理解のためのマルチモーダルLLMの改善

MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens ( http://arxiv.org/abs/2404.03413v1 )

ライセンス: Link先を確認
Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny, (参考訳) 本稿では,ビデオ理解に特化した多モード大言語モデル(LLM)であるMiniGPT4-Videoを紹介する。 このモデルは、時間的視覚データとテキストデータの両方を処理することができ、ビデオの複雑さを理解するのに適している。 単一の画像に対して視覚的特徴をLLM空間に翻訳し、様々な画像テキストベンチマークで印象的な結果を得るMiniGPT-v2の成功に基づいて、本論文は、フレーム列を処理するモデルの能力を拡張し、ビデオの理解を可能にした。 MiniGPT4-videoは、視覚的コンテンツだけでなく、テキストによる会話も含んでいるため、モデルが視覚的コンポーネントとテキストコンポーネントの両方を含むクエリに効果的に答えることができる。 提案したモデルは、MSVD、MSRVTT、TGIF、TVQAのベンチマークでそれぞれ4.22%、1.13%、20.82%、13.1%のゲインを登録し、既存の最先端手法よりも優れている。 私たちのモデルとコードは、https://vision-cair.github.io/MiniGPT4-video/で公開されています。

This paper introduces MiniGPT4-Video, a multimodal Large Language Model (LLM) designed specifically for video understanding. The model is capable of processing both temporal visual and textual data, making it adept at understanding the complexities of videos. Building upon the success of MiniGPT-v2, which excelled in translating visual features into the LLM space for single images and achieved impressive results on various image-text benchmarks, this paper extends the model's capabilities to process a sequence of frames, enabling it to comprehend videos. MiniGPT4-video does not only consider visual content but also incorporates textual conversations, allowing the model to effectively answer queries involving both visual and text components. The proposed model outperforms existing state-of-the-art methods, registering gains of 4.22%, 1.13%, 20.82%, and 13.1% on the MSVD, MSRVTT, TGIF, and TVQA benchmarks respectively. Our models and code have been made publicly available here https://vision-cair.github.io/MiniGPT4-video/
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# 小言語モデルは大規模言語モデルの改善に役立つか?:LM-Guided Chain-of-Thought

Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought ( http://arxiv.org/abs/2404.03414v1 )

ライセンス: Link先を確認
Jooyoung Lee, Fan Yang, Thanh Tran, Qian Hu, Emre Barut, Kai-Wei Chang, Chengwei Su, (参考訳) そこで我々は,軽量な (<1B) 言語モデル (LM) を利用して,ブラックボックスの大きい (>10B) LM を推論タスクに導く新しいフレームワーク LM-Guided CoT を提案する。 具体的には、軽量LMはまず、入力インスタンス毎に論理を生成する。 凍結された大きなLMは、軽量LMが生成した論理に基づいてタスク出力を予測するように促される。 私たちのアプローチは、軽量LMのトレーニングのみを必要とするという意味で、リソース効率が高いのです。 私たちはモデルを最適化します 1【知識の蒸留・蒸留】 2)理性指向とタスク指向の報酬信号からの強化学習。 提案手法をマルチホップ抽出質問応答(QA)ベンチマーク,HotpotQA,2WikiMultiHopQAを用いて評価する。 実験結果から,本手法は解答精度に関して,すべてのベースラインに優れることがわかった。 また、強化学習はQA性能を向上させることで、モデルが高品質な合理性を生み出すのに役立ちます。

We introduce a novel framework, LM-Guided CoT, that leverages a lightweight (i.e., <1B) language model (LM) for guiding a black-box large (i.e., >10B) LM in reasoning tasks. Specifically, the lightweight LM first generates a rationale for each input instance. The Frozen large LM is then prompted to predict a task output based on the rationale generated by the lightweight LM. Our approach is resource-efficient in the sense that it only requires training the lightweight LM. We optimize the model through 1) knowledge distillation and 2) reinforcement learning from rationale-oriented and task-oriented reward signals. We assess our method with multi-hop extractive question answering (QA) benchmarks, HotpotQA, and 2WikiMultiHopQA. Experimental results show that our approach outperforms all baselines regarding answer prediction accuracy. We also find that reinforcement learning helps the model to produce higher-quality rationales with improved QA performance.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# 長期ロボット作業における将来予測的成功・失敗の分類

Future Predictive Success-or-Failure Classification for Long-Horizon Robotic Tasks ( http://arxiv.org/abs/2404.03415v1 )

ライセンス: Link先を確認
Naoya Sogi, Hiroyuki Oyama, Takashi Shibata, Makoto Terao, (参考訳) ロボットアームによる長距離タスクの自動化は、ロボット工学における中心的な研究トピックである。 最適化に基づくアクションプランニングは、与えられたタスクを完了するためのアクションプランを作成するための効率的なアプローチである。 信頼性の高い計画手法の構築には、オブジェクト間の衝突を避けるために、例えば、条件の設計プロセスが必要である。 しかし、設計プロセスには2つの重要な問題がある。 1)反復的試行--条件の変更の試行錯誤による設計プロセスに要する時間、 2)手作業の再設計 - 必要なすべての条件を手作業でカバーすることは困難である。 これらの課題に対処するため,本稿では,将来予測的成功・失敗分類手法を提案する。 提案手法の背景にある重要な考え方は、手動で条件を再設計する代わりに、アクションプランが与えられたタスクを完了できるかどうかを決定するエンドツーエンドアプローチである。 提案手法は,行動計画の実行を伴わずに成功・失敗分類を可能にするために,長期予測法を用いている。 また,遷移整合性正規化(transition consistency regularization)と呼ばれる正規化項を提案し,特徴分布の予測を容易にする。 正規化項は将来の予測と分類性能を改善する。 本手法の有効性は分類とロボットマニピュレーション実験を通じて実証した。

Automating long-horizon tasks with a robotic arm has been a central research topic in robotics. Optimization-based action planning is an efficient approach for creating an action plan to complete a given task. Construction of a reliable planning method requires a design process of conditions, e.g., to avoid collision between objects. The design process, however, has two critical issues: 1) iterative trials--the design process is time-consuming due to the trial-and-error process of modifying conditions, and 2) manual redesign--it is difficult to cover all the necessary conditions manually. To tackle these issues, this paper proposes a future-predictive success-or-failure-classification method to obtain conditions automatically. The key idea behind the proposed method is an end-to-end approach for determining whether the action plan can complete a given task instead of manually redesigning the conditions. The proposed method uses a long-horizon future-prediction method to enable success-or-failure classification without the execution of an action plan. This paper also proposes a regularization term called transition consistency regularization to provide easy-to-predict feature distribution. The regularization term improves future prediction and classification performance. The effectiveness of our method is demonstrated through classification and robotic-manipulation experiments.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# NMFを用いた移動眼球追跡データの解析

NMF-Based Analysis of Mobile Eye-Tracking Data ( http://arxiv.org/abs/2404.03417v1 )

ライセンス: Link先を確認
Daniel Klötzl, Tim Krake, Frank Heyen, Michael Becher, Maurice Koch, Daniel Weiskopf, Kuno Kurzhals, (参考訳) 刺激からのサムネイルによる移動眼球追跡記録からのスキャンパスの描写により、視覚コンピューティングの応用により、教師なしの方法で関心のある領域を検出することができる。 非負行列因子化(NMF)を用いて刺激領域を同定することを提案する。 ユーザ定義整数 k に対して、NMF は k 成分への説明可能な分解を生成する。 複数の視線追跡記録の文脈では、これはk個の空間的表現につながり、時間的指標は記録内の外観を強調する。 k の選択は分解の洗練、すなわち検出する領域の数を制御する機会を与える。 我々はNMFベースの手法と可視化技術を組み合わせて、複数の録音の探索的分析を可能にする。 最後に,アートギャラリーの移動眼球追跡データを用いたアプローチの有用性を示す。

The depiction of scanpaths from mobile eye-tracking recordings by thumbnails from the stimulus allows the application of visual computing to detect areas of interest in an unsupervised way. We suggest using nonnegative matrix factorization (NMF) to identify such areas in stimuli. For a user-defined integer k, NMF produces an explainable decomposition into k components, each consisting of a spatial representation associated with a temporal indicator. In the context of multiple eye-tracking recordings, this leads to k spatial representations, where the temporal indicator highlights the appearance within recordings. The choice of k provides an opportunity to control the refinement of the decomposition, i.e., the number of areas to detect. We combine our NMF-based approach with visualization techniques to enable an exploratory analysis of multiple recordings. Finally, we demonstrate the usefulness of our approach with mobile eye-tracking data of an art gallery.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# 許容可能な知識プール

Permissible Knowledge Pooling ( http://arxiv.org/abs/2404.03418v1 )

ライセンス: Link先を確認
Huimin Dong, (参考訳) 情報プーリングは、様々な情報共有パターンを特徴とする、分散システムの様々な論理的フレームワークで広く形式化されてきた。 これらのアプローチは一般的に、エージェントが知っているか知らないかに関わらず、すべての可能な情報を集約する、交差点の観点を採用する。 対照的に、この著作は独特なスタンスを採用し、知識の共有とは、何が不確実であるかではなく、既知のものを配布することである、と強調している。 本稿では,知識プーリングや共有のための動的論理を導入し,許容可能な知識プーリングの枠組みをさらに議論する。

Information pooling has been extensively formalised across various logical frameworks in distributed systems, characterized by diverse information-sharing patterns. These approaches generally adopt an intersection perspective, aggregating all possible information, regardless of whether it is known or unknown to the agents. In contrast, this work adopts a unique stance, emphasising that sharing knowledge means distributing what is known, rather than what remains uncertain. This paper introduces a dynamic logic for knowledge pooling or sharing and further discusses a potential framework for permissible knowledge pooling.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# ハイパーパラメータ検索をGramMLに統合する

Integrating Hyperparameter Search into GramML ( http://arxiv.org/abs/2404.03419v1 )

ライセンス: Link先を確認
Hernán Ceferino Vázquez, Jorge Sanchez, Rafael Carrascosa, (参考訳) 機械学習(Automated Machine Learning, 自動機械学習)は、機械学習システムの設計と開発に必要な時間と専門知識を減らし、近年人気が高まっている。 これは、強力なベースラインを迅速に構築し、データサイエンティストの効率を改善し、生産までの時間を短縮できるため、機械学習の実践にとって非常に重要である。 しかし、AutoMLの利点にもかかわらず、ソリューション空間の定義や効率的な探索など、いくつかの課題に直面している。 近年,木に基づく探索アルゴリズムや文脈自由文法を用いた手法が提案されている。 特にGramMLは,パイプライン構成文法を利用してモンテカルロ木探索を行うモデルフリー強化学習手法を提案する。 しかし、GramMLの制限の1つは、デフォルトのハイパーパラメータを使用し、検索問題を、利用可能なデータプリプロセッサとモデルのための最適なパイプライン構造を見つけることに制限することである。 本研究では,超パラメータ探索を含む大規模検索空間をサポートするGramMLの拡張を提案する。 提案手法をOpenMLベンチマークを用いて評価した結果,他の最先端技術と比較して大幅な改善が得られた。

Automated Machine Learning (AutoML) has become increasingly popular in recent years due to its ability to reduce the amount of time and expertise required to design and develop machine learning systems. This is very important for the practice of machine learning, as it allows building strong baselines quickly, improving the efficiency of the data scientists, and reducing the time to production. However, despite the advantages of AutoML, it faces several challenges, such as defining the solutions space and exploring it efficiently. Recently, some approaches have been shown to be able to do it using tree-based search algorithms and context-free grammars. In particular, GramML presents a model-free reinforcement learning approach that leverages pipeline configuration grammars and operates using Monte Carlo tree search. However, one of the limitations of GramML is that it uses default hyperparameters, limiting the search problem to finding optimal pipeline structures for the available data preprocessors and models. In this work, we propose an extension to GramML that supports larger search spaces including hyperparameter search. We evaluated the approach using an OpenML benchmark and found significant improvements compared to other state-of-the-art techniques.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# 単一視点からの分割とコンカーによる3次元シーンの汎用化

Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View ( http://arxiv.org/abs/2404.03421v1 )

ライセンス: Link先を確認
Andreea Dogaru, Mert Özer, Bernhard Egger, (参考訳) 単一視点の3D再構成は2つの主要な視点からアプローチされている: 3次元データ監督を用いた限られた多様性を持つシーンの再構成、または大きな画像先行による多様な特異物体の再構成である。 しかし、現実世界のシナリオはより複雑で、これらの手法の能力を超えています。 そこで本研究では,分割・分散戦略に基づくハイブリッド手法を提案する。 まず、シーンを全体的に処理し、深度と意味情報を抽出し、その後、個々のコンポーネントの詳細な再構築に単発のオブジェクトレベル手法を活用する。 合成処理アプローチに従えば,複雑な3Dシーンを1枚の画像から完全に再構築することが可能になる。 システム全体のエンドツーエンドのトレーニングを必要とせず、各処理ステップの特定の手順を慎重に統合することで、パイプラインを高度にモジュール化するように設計する。 これにより、将来のメソッドが個々のモジュールを置き換えることができるため、パイプラインは自然に改善される。 提案手法の再現性能を,先行作品と比較して,合成シーンと実世界のシーンの両方で実証する。 プロジェクトページ: https://andreeadogaru.github.io/Gen3DSR

Single-view 3D reconstruction is currently approached from two dominant perspectives: reconstruction of scenes with limited diversity using 3D data supervision or reconstruction of diverse singular objects using large image priors. However, real-world scenarios are far more complex and exceed the capabilities of these methods. We therefore propose a hybrid method following a divide-and-conquer strategy. We first process the scene holistically, extracting depth and semantic information, and then leverage a single-shot object-level method for the detailed reconstruction of individual components. By following a compositional processing approach, the overall framework achieves full reconstruction of complex 3D scenes from a single image. We purposely design our pipeline to be highly modular by carefully integrating specific procedures for each processing step, without requiring an end-to-end training of the whole system. This enables the pipeline to naturally improve as future methods can replace the individual modules. We demonstrate the reconstruction performance of our approach on both synthetic and real-world scenes, comparing favorable against prior works. Project page: https://andreeadogaru.github.io/Gen3DSR.
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# ChangeMamba:時空間空間モデルによるリモートセンシング変化検出

ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model ( http://arxiv.org/abs/2404.03425v1 )

ライセンス: Link先を確認
Hongruixuan Chen, Jian Song, Chengxi Han, Junshi Xia, Naoto Yokoya, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、リモートセンシング変化検出(CD)の分野で目覚ましい進歩を遂げた。 しかし、両方のアーキテクチャには固有の欠点がある。 近年、空間状態モデルに基づくMambaアーキテクチャは、上記の2つのアーキテクチャの欠点を効果的に補うことができる一連の自然言語処理タスクにおいて、顕著な性能を示している。 本稿では,リモートセンシングによる変化検出タスクにおけるMambaアーキテクチャの可能性について検討する。 我々は,2値変化検出 (BCD), 意味変化検出 (SCD), 建物損傷評価 (BDA) に対応するフレームワークであるMambaBCD, MambaSCD, MambaBDAを調整した。 3つのフレームワークはいずれも、入力画像からグローバルな空間的情報を完全に学習できるエンコーダとして、最先端の視覚的マンバアーキテクチャを採用している。 3つのアーキテクチャで利用可能な変更デコーダについて,Mambaアーキテクチャと自然に結合可能な3つの時空間関係モデリング機構を提案し,その特性をフル活用して複数時空間特徴の時空間相互作用を実現し,正確な変更情報を得る。 5つのベンチマークデータセットにおいて、提案するフレームワークは、複雑な戦略やトリックを使わずに、現在のCNNおよびTransformerベースのアプローチより優れており、Mambaアーキテクチャの可能性を完全に実証している。 具体的には、3つのBCDデータセットSYSU, LEVIR-CD+, WHU-CDに対して83.11%, 88.39%, 94.19%のF1スコアを取得し, SCDデータセットSECONDでは24.04%のSeK, xBDデータセットでは81.41%のF1スコアを得た。 ソースコードはhttps://github.com/ChenHongruixuan/MambaCDで入手できる。

Convolutional neural networks (CNN) and Transformers have made impressive progress in the field of remote sensing change detection (CD). However, both architectures have their inherent shortcomings. Recently, the Mamba architecture, based on spatial state models, has shown remarkable performance in a series of natural language processing tasks, which can effectively compensate for the shortcomings of the above two architectures. In this paper, we explore for the first time the potential of the Mamba architecture for remote sensing change detection tasks. We tailor the corresponding frameworks, called MambaBCD, MambaSCD, and MambaBDA, for binary change detection (BCD), semantic change detection (SCD), and building damage assessment (BDA), respectively. All three frameworks adopt the cutting-edge visual Mamba architecture as the encoder, which allows full learning of global spatial contextual information from the input images. For the change decoder, which is available in all three architectures, we propose three spatio-temporal relationship modeling mechanisms, which can be naturally combined with the Mamba architecture and fully utilize its attribute to achieve spatio-temporal interaction of multi-temporal features and obtain accurate change information. On five benchmark datasets, our proposed frameworks outperform current CNN- and Transformer-based approaches without using any complex strategies or tricks, fully demonstrating the potential of the Mamba architecture. Specifically, we obtained 83.11%, 88.39% and 94.19% F1 scores on the three BCD datasets SYSU, LEVIR-CD+, and WHU-CD; on the SCD dataset SECOND, we obtained 24.04% SeK; and on the xBD dataset, we obtained 81.41% overall F1 score. The source code will be available in https://github.com/ChenHongruixuan/MambaCD
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# 樹木モデルにおける特徴重要忠実度の推定精度

Accurate estimation of feature importance faithfulness for tree models ( http://arxiv.org/abs/2404.03426v1 )

ライセンス: Link先を確認
Mateusz Gajewski, Adam Karczmarz, Mateusz Rapicki, Piotr Sankowski, (参考訳) 本稿では,PGI四角形と呼ばれる特徴ランク(あるいは属性)の予測忠実度を摂動に基づく尺度として考察する。 決定木に基づく回帰モデルに適用すると、任意の独立な特徴摂動分布に対して、メトリックを正確かつ効率的に計算することができる。 特に、計算はモンテカルロサンプリングを含まないが、これは典型的には同様のメトリクスの計算に使われ、本質的に不正確である。 さらに,PGI2乗に基づく木モデルの予測において重要となる特徴のランク付け手法を提案する。 実験結果から,本手法は最先端のSHAP説明器よりもグローバルに重要な特徴を識別できる可能性が示唆された。

In this paper, we consider a perturbation-based metric of predictive faithfulness of feature rankings (or attributions) that we call PGI squared. When applied to decision tree-based regression models, the metric can be computed accurately and efficiently for arbitrary independent feature perturbation distributions. In particular, the computation does not involve Monte Carlo sampling that has been typically used for computing similar metrics and which is inherently prone to inaccuracies. Moreover, we propose a method of ranking features by their importance for the tree model's predictions based on PGI squared. Our experiments indicate that in some respects, the method may identify the globally important features better than the state-of-the-art SHAP explainer
翻訳日:2024-04-05 14:51:30 公開日:2024-04-04
# Edisum: Wikipedia編集の要約と解説

Edisum: Summarizing and Explaining Wikipedia Edits at Scale ( http://arxiv.org/abs/2404.03428v1 )

ライセンス: Link先を確認
Marija Šakota, Isaac Johnson, Guosheng Feng, Robert West, (参考訳) 編集要約はウィキペディアの編集者が書いた簡潔なコメントで、ウィキペディアのページへの編集の性質と理由を説明する。 編集サマリーは、百科事典を維持するために不可欠である。コンテンツモデレーターが最初に見るもので、編集を受理するか拒否するかを決めるのに役立つ。 さらに、要約編集は研究者にとって貴重なデータソースとなっている。 残念なことに、多くの編集では要約が欠落しているか不完全である。 この問題を克服し、編集者が有用な編集要約を書くのを助けるために、編集差分を表現して優れた編集要約を生成するために訓練された言語モデルによって生成された編集要約を推薦するモデルを提案する。 これは、混成品質のトレーニングデータ、記事の中で何が変更されたのかだけでなく、なぜ変更されたのかを理解する必要があること、ウィキペディアの規模によって課される効率要件など、さまざまな理由から難しいタスクである。 これらの課題に対処するために、人間と合成されたトレーニングデータの混在をキュレートし、ウィキペディアで大規模に使用するのに十分小さい生成言語モデルを微調整する。 我々のモデルは人間の編集者と同等に機能する。 商用の大規模言語モデルは、このタスクを人間のエディタよりもうまく解決することができるが、Wikipediaで大規模に実行するには高すぎるだろう。 より広範に、Web上で最大かつ最も目に見えるプロジェクトの1つを維持する上で、言語モデリング技術がどのように人間をサポートするかを示す。

An edit summary is a succinct comment written by a Wikipedia editor explaining the nature of, and reasons for, an edit to a Wikipedia page. Edit summaries are crucial for maintaining the encyclopedia: they are the first thing seen by content moderators and help them decide whether to accept or reject an edit. Additionally, edit summaries constitute a valuable data source for researchers. Unfortunately, as we show, for many edits, summaries are either missing or incomplete. To overcome this problem and help editors write useful edit summaries, we propose a model for recommending edit summaries generated by a language model trained to produce good edit summaries given the representation of an edit diff. This is a challenging task for multiple reasons, including mixed-quality training data, the need to understand not only what was changed in the article but also why it was changed, and efficiency requirements imposed by the scale of Wikipedia. We address these challenges by curating a mix of human and synthetically generated training data and fine-tuning a generative language model sufficiently small to be used on Wikipedia at scale. Our model performs on par with human editors. Commercial large language models are able to solve this task better than human editors, but would be too expensive to run on Wikipedia at scale. More broadly, this paper showcases how language modeling technology can be used to support humans in maintaining one of the largest and most visible projects on the Web.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# Pedagogical Instructions を用いたマルチモーダルテュータリングシステムによるスキャッフィング言語学習

Scaffolding Language Learning via Multi-modal Tutoring Systems with Pedagogical Instructions ( http://arxiv.org/abs/2404.03429v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Stella Xin Yin, Carolyn Lee, Nancy F. Chen, (参考訳) インテリジェント・チュータリング・システム(ITS)は,教師を模倣し,学習者に対して即時かつカスタマイズされた指導やフィードバックを提供することを目的としている。 生成的人工知能の出現に伴い、大規模言語モデル(LLM)は、より複雑でコヒーレントな対話的相互作用をシステムに付与する。 これらのシステムは、コミュニケーションのスキルを発達させるため、言語教育において大きな助けとなるだろう。 また、若年期の認知発達が複雑化しているため、実用化にはより多くの努力が必要である。 スカッフルディング(英語: Scaffolding)とは、教師が生徒に新しい概念やスキルを学習し開発するための支援と指導を与える教育技法である。 多様な学習ニーズ、目標、プロセス、成果をサポートする効果的な方法です。 本研究では,子どもに言語学習のための画像記述を指導するケーススタディにより,ITSにおける教育指導が足場形成にどのように役立つかを検討する。 本研究では,知識構築,探索型学習,対話型教育,近位発達のゾーンという,4つの基本的学習理論に基づく足場学習システムを構築した。 質的,定量的な分析のために,足場形成過程を評価するために7次元ルーブリックを構築し,精製する。 GPT-4Vで行った実験では,LLMが教育指導に追従し,学生集団の自画期学習を達成できる可能性を示した。 さらに、評価フレームワークをマニュアルから自動的なアプローチに拡張し、様々な対話型チューリングシステムのベンチマークを行う方法について検討する。

Intelligent tutoring systems (ITSs) that imitate human tutors and aim to provide immediate and customized instructions or feedback to learners have shown their effectiveness in education. With the emergence of generative artificial intelligence, large language models (LLMs) further entitle the systems to complex and coherent conversational interactions. These systems would be of great help in language education as it involves developing skills in communication, which, however, drew relatively less attention. Additionally, due to the complicated cognitive development at younger ages, more endeavors are needed for practical uses. Scaffolding refers to a teaching technique where teachers provide support and guidance to students for learning and developing new concepts or skills. It is an effective way to support diverse learning needs, goals, processes, and outcomes. In this work, we investigate how pedagogical instructions facilitate the scaffolding in ITSs, by conducting a case study on guiding children to describe images for language learning. We construct different types of scaffolding tutoring systems grounded in four fundamental learning theories: knowledge construction, inquiry-based learning, dialogic teaching, and zone of proximal development. For qualitative and quantitative analyses, we build and refine a seven-dimension rubric to evaluate the scaffolding process. In our experiment on GPT-4V, we observe that LLMs demonstrate strong potential to follow pedagogical instructions and achieve self-paced learning in different student groups. Moreover, we extend our evaluation framework from a manual to an automated approach, paving the way to benchmark various conversational tutoring systems.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# 超解像型圧電量子望遠鏡

Piecemeal Quantum Telescope with Superresolution ( http://arxiv.org/abs/2404.03432v1 )

ライセンス: Link先を確認
Jian Leng, Yi-Xin Shen, Zhou-Kai Cao, Xiang-Bin Wang, (参考訳) 高精度かつ高解像度の遠隔物体の検出は、天文学的な観測など多くの科学的課題において重要な役割を担っている。 古典的な望遠鏡と比較すると、量子望遠鏡は単一星の目標に対してより正確な角度の値を検出することができる。 既存の量子望遠鏡の精度は、入射単光子の平方根のスケールで改善されている。 本稿では,ビット・バイ・ビット・イテレーションを用いた量子望遠鏡を提案する。 恒星の角を検知する際、単光子数で指数関数的に精度を向上する。 その結果、古典的極限を4~5等級の精度で破るために、数百個の光子しか検出できないことが要求された。 さらに、未知の数の恒星からなる一般的な天体を検出できる。

Detecting remote objects with higher precision and resolution takes a crucial role in many scientific tasks, such as astronomical observation. Compared with classical telescopes, quantum telescopes can detect more precise angle value for single-star target. The precision of existing quantum telescopes is improved in the scale of square root of incident single photons. Here we propose the piecemeal quantum telescope with bit-by-bit iteration. It improves precision exponentially with number of nincident single-photons in detecting the star angle. As a result, it requests to detect only a few hundreds of photons for a precision breaking classical limit by 4 to 5 magnitude orders. Moreover, it can detect a general astronomical target consisting of unknown number of stars.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# ランダムウォークと1次元畳み込みに基づく単純なデータからの学習

Learning From Simplicial Data Based on Random Walks and 1D Convolutions ( http://arxiv.org/abs/2404.03434v1 )

ライセンス: Link先を確認
Florian Frantzen, Michael T. Schaub, (参考訳) 計算表現率とモデル柔軟性の観点からグラフベースのディープラーニング手法の限界により、近年、ハイパーグラフや単純複体のような高階トポロジカルドメインで動作する計算モデルへの関心が高まっている。 これらのモデルの表現性の向上は、確かにより優れた分類性能と基礎システムのより忠実な表現をもたらすが、これらの高次モデルの計算コストは劇的に増大する。 そこで我々は,ランダムウォークと高速1D畳み込み(SCRaWl)に基づく,単純な複雑なニューラルネットワーク学習アーキテクチャについて検討する。 重要なことは、ランダムなウォークベース設計のため、提案されたアーキテクチャの表現性は、既存のメッセージパスの単純なニューラルネットワークの表現と確実に相容れないことである。 実世界のデータセット上でSCRaWlを実証的に評価し、他の単純なニューラルネットワークよりも優れていることを示す。

Triggered by limitations of graph-based deep learning methods in terms of computational expressivity and model flexibility, recent years have seen a surge of interest in computational models that operate on higher-order topological domains such as hypergraphs and simplicial complexes. While the increased expressivity of these models can indeed lead to a better classification performance and a more faithful representation of the underlying system, the computational cost of these higher-order models can increase dramatically. To this end, we here explore a simplicial complex neural network learning architecture based on random walks and fast 1D convolutions (SCRaWl), in which we can adjust the increase in computational cost by varying the length and number of random walks considered while accounting for higher-order relationships. Importantly, due to the random walk-based design, the expressivity of the proposed architecture is provably incomparable to that of existing message-passing simplicial neural networks. We empirically evaluate SCRaWl on real-world datasets and show that it outperforms other simplicial neural networks.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# 政治情報ソースのための知識グラフ表現

Knowledge Graph Representation for Political Information Sources ( http://arxiv.org/abs/2404.03437v1 )

ライセンス: Link先を確認
Tinatin Osmonova, Alexey Tikhonov, Ivan P. Yamshchikov, (参考訳) 計算社会科学の台頭に伴い、多くの学者は、データ分析と自然言語処理ツールを使用して、ソーシャルメディア、ニュース記事、その他のアクセス可能なデータソースを分析し、政治的・社会的談話を調べる。 特に,特定の情報の拡散に伴うエコーチャンバの出現に関する研究が,混合手法研究分野における関心の対象となっている。 本稿では、Breitbart News(BN)とNew York Times(NYT)の2つのニュースポータルから収集したデータを分析し、個人のソーシャルネットワークの集合的トポロジではなく、個人の情報消費のレベルについて、エコーチャンバの形成を部分的に説明できるという仮説を証明する。 本研究は,BNおよびNYTメディアポータルから収集した11.5年間のデータセットを用いて,知識グラフを用いて行った。 上記のニュースストリームに対する知識表現手法の適用は、一般的な仮定とは対照的に、両方のソースの相対的な「内部」中立性を示し、少数のエンティティに対して偏極的態度を示す。 さらに,情報ソースのこのような特徴が聴衆の世界観の基本的な相違を招き,エコーチャンバの形成の触媒として機能する可能性も指摘されている。

With the rise of computational social science, many scholars utilize data analysis and natural language processing tools to analyze social media, news articles, and other accessible data sources for examining political and social discourse. Particularly, the study of the emergence of echo-chambers due to the dissemination of specific information has become a topic of interest in mixed methods research areas. In this paper, we analyze data collected from two news portals, Breitbart News (BN) and New York Times (NYT) to prove the hypothesis that the formation of echo-chambers can be partially explained on the level of an individual information consumption rather than a collective topology of individuals' social networks. Our research findings are presented through knowledge graphs, utilizing a dataset spanning 11.5 years gathered from BN and NYT media portals. We demonstrate that the application of knowledge representation techniques to the aforementioned news streams highlights, contrary to common assumptions, shows relative "internal" neutrality of both sources and polarizing attitude towards a small fraction of entities. Additionally, we argue that such characteristics in information sources lead to fundamental disparities in audience worldviews, potentially acting as a catalyst for the formation of echo-chambers.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# アルゴリズム推論におけるChatGPTのベンチマーク

Benchmarking ChatGPT on Algorithmic Reasoning ( http://arxiv.org/abs/2404.03441v1 )

ライセンス: Link先を確認
Sean McLeish, Avi Schwarzschild, Tom Goldstein, (参考訳) GNN向けに設計されたCLRSベンチマークスイートからChatGPTのアルゴリズム問題を解く能力を評価する。 このベンチマークでは、与えられた問題を解決するために、指定された古典的アルゴリズムを使用する必要がある。 ChatGPTは、Pythonを使ってこれらの問題を解決することで、専門家のGNNモデルより優れています。 これにより、ニューラルネットワークによるアルゴリズムの学習に関する議論において、新たなポイントが生まれている。

We evaluate ChatGPT's ability to solve algorithm problems from the CLRS benchmark suite that is designed for GNNs. The benchmark requires the use of a specified classical algorithm to solve a given problem. We find that ChatGPT outperforms specialist GNN models, using Python to successfully solve these problems. This raises new points in the discussion about learning algorithms with neural networks.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# 原則から実践へのプライバシエンジニアリング: ロードマップ

Privacy Engineering From Principles to Practice: A Roadmap ( http://arxiv.org/abs/2404.03442v1 )

ライセンス: Link先を確認
Frank Pallas, Katharina Koerner, Isabel Barberá, Jaap-Henk Hoepman, Meiko Jensen, Nandita Rao Narla, Nikita Samarin, Max-R. Ulbricht, Isabel Wagner, Kim Wuyts, Christian Zimmermann, (参考訳) プライバシーエンジニアリングは、業界やアカデミックでも勢いを増している。 これまでのところ、多様体の低レベルプリミティブと高レベルメソッドと戦略が確立されている。 それでも、現実世界の情報システムの採用を促進するためには、研究や実践において意識的に考慮すべき追加の側面が必要である。

Privacy engineering is gaining momentum in industry and academia alike. So far, manifold low-level primitives and higher-level methods and strategies have successfully been established. Still, fostering adoption in real-world information systems calls for additional aspects to be consciously considered in research and practice.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# パートアテンションに基づくモデルにより、付加した人物の認識をより強くする

Part-Attention Based Model Make Occluded Person Re-Identification Stronger ( http://arxiv.org/abs/2404.03443v1 )

ライセンス: Link先を確認
Zhihao Chen, Yiyuan Ge, (参考訳) 密閉者再識別(ReID)の目的は、密閉された状況下で特定の歩行者を回収することである。 しかし、隠された人物であるReIDは、モデルの性能を制限する、バックグラウンドの乱雑さと低品質なローカル特徴表現に悩まされている。 本研究では, 上記の課題に効果的に取り組むために, パートアテンション機構を組み込んだ新しいReIDモデルであるPAB-ReIDを提案する。 まず、より正確な人的部分注意マップの生成を導くために、人間のパーシングラベルを導入する。 また、背景干渉を抑えつつ、きめ細かい人間の局所的特徴表現を生成するための細粒度特徴焦点器を提案する。 さらに,クラス内/クラス間距離を最適化する局所特徴の学習を監督するために,部分三重項損失を設計する。 我々は、特殊閉塞とレギュラーReIDデータセットに関する広範な実験を行い、我々のアプローチが既存の最先端手法よりも優れていることを示した。

The goal of occluded person re-identification (ReID) is to retrieve specific pedestrians in occluded situations. However, occluded person ReID still suffers from background clutter and low-quality local feature representations, which limits model performance. In our research, we introduce a new framework called PAB-ReID, which is a novel ReID model incorporating part-attention mechanisms to tackle the aforementioned issues effectively. Firstly, we introduce the human parsing label to guide the generation of more accurate human part attention maps. In addition, we propose a fine-grained feature focuser for generating fine-grained human local feature representations while suppressing background interference. Moreover, We also design a part triplet loss to supervise the learning of human local features, which optimizes intra/inter-class distance. We conducted extensive experiments on specialized occlusion and regular ReID datasets, showcasing that our approach outperforms the existing state-of-the-art methods.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# SP$^2$OT:非バランスクラスタリングのためのセマンティック規則化プログレッシブ部分最適輸送

SP$^2$OT: Semantic-Regularized Progressive Partial Optimal Transport for Imbalanced Clustering ( http://arxiv.org/abs/2404.03446v1 )

ライセンス: Link先を確認
Chuyu Zhang, Hui Ren, Xuming He, (参考訳) ラベル情報なしで表現とセマンティッククラスタリングを学習するディープクラスタリングは、ディープラーニングベースのアプローチにおいて大きな課題となる。 近年の進歩にもかかわらず、既存のほとんどの手法は均一に分散したデータセットに重点を置いており、それらの手法の実用性を大幅に制限している。 本稿では,より実践的な「深層不均衡クラスタリング」手法を提案する。 この課題に対処するために,我々は,トランスポートをベースとした新しい擬似ラベル学習フレームワークを提案する。 本フレームワークは, 擬似ラベル生成をセマンティック規則化されたプログレッシブ部分最適輸送(SP$^2$OT)問題として定式化し, それぞれのサンプルを複数の事前分布と意味的関係制約の下で不均衡クラスタに段階的に輸送することにより, 高品質で不均衡な擬似ラベルを生成する。 SP$2$OT を解くため,行列最小化に基づく最適化アルゴリズムを開発した。 より正確には、SP$2$OT問題をプログレッシブな部分的最適輸送問題に再構成する偏化戦略を採用し、これは拡張制約付き不均衡な最適輸送問題に変換でき、高速行列スケーリングアルゴリズムにより効率的に解ける。 CIFAR100、ImageNet-R、細粒度iNaturalist2018データセットの大規模サブセットなど、さまざまなデータセットの実験は、我々の方法の優位性を実証している。

Deep clustering, which learns representation and semantic clustering without labels information, poses a great challenge for deep learning-based approaches. Despite significant progress in recent years, most existing methods focus on uniformly distributed datasets, significantly limiting the practical applicability of their methods. In this paper, we propose a more practical problem setting named deep imbalanced clustering, where the underlying classes exhibit an imbalance distribution. To address this challenge, we introduce a novel optimal transport-based pseudo-label learning framework. Our framework formulates pseudo-label generation as a Semantic-regularized Progressive Partial Optimal Transport (SP$^2$OT) problem, which progressively transports each sample to imbalanced clusters under several prior distribution and semantic relation constraints, thus generating high-quality and imbalance-aware pseudo-labels. To solve SP$^2$OT, we develop a Majorization-Minimization-based optimization algorithm. To be more precise, we employ the strategy of majorization to reformulate the SP$^2$OT problem into a Progressive Partial Optimal Transport problem, which can be transformed into an unbalanced optimal transport problem with augmented constraints and can be solved efficiently by a fast matrix scaling algorithm. Experiments on various datasets, including a human-curated long-tailed CIFAR100, challenging ImageNet-R, and large-scale subsets of fine-grained iNaturalist2018 datasets, demonstrate the superiority of our method.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# どれくらいのデータがあるか? パッチベース脳MRI分割作業におけるデータセット要件の検討

How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks ( http://arxiv.org/abs/2404.03451v1 )

ライセンス: Link先を確認
Dongang Wang, Peilin Liu, Hengrui Wang, Heidi Beadnall, Kain Kyle, Linda Ly, Mariano Cabezas, Geng Zhan, Ryan Sullivan, Weidong Cai, Wanli Ouyang, Fernando Calamante, Michael Barnett, Chenyu Wang, (参考訳) ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。 しかし,そのようなデータセットの取得は,特に画像取得やアノテーションに関連するコストが禁じられるニューロイメージング解析タスクの文脈において困難である。 モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。 本稿では、モデル開発に先立って、ディープラーニング研究の初期段階に焦点をあて、パッチベースのセグメンテーションネットワークのトレーニングに必要な注釈付きデータの量を推定するための戦略的枠組みを提案する。 このフレームワークは、新しいMinBAT(Minor boundary Adjustment for Threshold)メソッドによるパフォーマンス期待の設定と、ROIベースの拡張パッチ選択(REPS)メソッドによるパッチ選択の標準化を含む。 実験の結果,異なる大きさや形状の関心領域(ROI)を含むタスクが,DSC(Dice similarity Coefficient)スコアを可変的に許容できる可能性が示唆された。 許容可能なDSCを目標とすることにより、データが蓄積されると、必要なトレーニングデータの量を推定し、予測することができる。 このアプローチは、ディープニューラルネットワークに基づいた新しいセグメンテーションタスクを定義する際に、データ収集とアノテーションに関連するコストを見積もることを支援する。

Training deep neural networks reliably requires access to large-scale datasets. However, obtaining such datasets can be challenging, especially in the context of neuroimaging analysis tasks, where the cost associated with image acquisition and annotation can be prohibitive. To mitigate both the time and financial costs associated with model development, a clear understanding of the amount of data required to train a satisfactory model is crucial. This paper focuses on an early stage phase of deep learning research, prior to model development, and proposes a strategic framework for estimating the amount of annotated data required to train patch-based segmentation networks. This framework includes the establishment of performance expectations using a novel Minor Boundary Adjustment for Threshold (MinBAT) method, and standardizing patch selection through the ROI-based Expanded Patch Selection (REPS) method. Our experiments demonstrate that tasks involving regions of interest (ROIs) with different sizes or shapes may yield variably acceptable Dice Similarity Coefficient (DSC) scores. By setting an acceptable DSC as the target, the required amount of training data can be estimated and even predicted as data accumulates. This approach could assist researchers and engineers in estimating the cost associated with data collection and annotation when defining a new segmentation task based on deep neural networks, ultimately contributing to their efficient translation to real-world applications.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# バナッハ空間値ガウス確率変数の条件付け:マルティンガレスに基づく近似的アプローチ

Conditioning of Banach Space Valued Gaussian Random Variables: An Approximation Approach Based on Martingales ( http://arxiv.org/abs/2404.03453v1 )

ライセンス: Link先を確認
Ingo Steinwart, (参考訳) 本稿では,2つのバナッハ空間の条件分布について検討する。 これらの条件分布は再びガウス的であり、その手段と共分散はマルティンゲールのアイデアに基づく一般近似スキームによって決定される。 次に、連続経路のガウス過程の場合には、その経路の部分的な観察を条件とした一般結果を適用する。

In this paper we investigate the conditional distributions of two Banach space valued, jointly Gaussian random variables. These conditional distributions are again Gaussian and their means and covariances are determined by a general approximation scheme based upon a martingale idea. We then apply our general results to the case of Gaussian processes with continuous paths conditioned to partial observations of their paths.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# 一度だけスキャンする:新しい物体の6自由度ロボットグラスピングのための動的シーン再構築パイプライン

You Only Scan Once: A Dynamic Scene Reconstruction Pipeline for 6-DoF Robotic Grasping of Novel Objects ( http://arxiv.org/abs/2404.03462v1 )

ライセンス: Link先を確認
Lei Zhou, Haozhe Wang, Zhengshen Zhang, Zhiyang Liu, Francis EH Tay, adn Marcelo H. Ang. Jr, (参考訳) ロボットの把握という領域では、環境との正確で信頼性の高い対話を実現することが重要な課題である。 奥行き画像から得られる部分点雲を利用した従来の把握手法は、閉塞によるシーン理解の低下に悩まされることが多く、最終的にはその把握精度を損なう。 さらに,シーン再構築手法は主に静的手法に依存しており,操作過程における環境変化の影響を受けやすいため,リアルタイム把握作業における有効性は制限されている。 これらの制約に対処するために,動的シーン再構築のための新しい2段階パイプラインを提案する。 最初の段階では,各対象物をメッシュ再構成と新規オブジェクトポーズトラッキングで登録するために,シーンスキャンを入力として利用する。 第2段階では、オブジェクトのポーズをリアルタイムで提供し、再構成されたオブジェクトポイントの雲をシーンに戻せるようにします。 静的なシーンスナップショットに依存する従来の手法とは異なり、我々の手法は進化するシーンの形状を連続的にキャプチャし、包括的で最新のポイントクラウド表現をもたらす。 閉塞による制約を回避することで、全体の把握計画プロセスを強化し、最先端の6-DoFロボット把握アルゴリズムを有効活用し、精度を大幅に向上させる。

In the realm of robotic grasping, achieving accurate and reliable interactions with the environment is a pivotal challenge. Traditional methods of grasp planning methods utilizing partial point clouds derived from depth image often suffer from reduced scene understanding due to occlusion, ultimately impeding their grasping accuracy. Furthermore, scene reconstruction methods have primarily relied upon static techniques, which are susceptible to environment change during manipulation process limits their efficacy in real-time grasping tasks. To address these limitations, this paper introduces a novel two-stage pipeline for dynamic scene reconstruction. In the first stage, our approach takes scene scanning as input to register each target object with mesh reconstruction and novel object pose tracking. In the second stage, pose tracking is still performed to provide object poses in real-time, enabling our approach to transform the reconstructed object point clouds back into the scene. Unlike conventional methodologies, which rely on static scene snapshots, our method continuously captures the evolving scene geometry, resulting in a comprehensive and up-to-date point cloud representation. By circumventing the constraints posed by occlusion, our method enhances the overall grasp planning process and empowers state-of-the-art 6-DoF robotic grasping algorithms to exhibit markedly improved accuracy.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# 言語モデルにおけるバイアス検出の再評価:暗黙的ノルムの役割

Reevaluating Bias Detection in Language Models: The Role of Implicit Norm ( http://arxiv.org/abs/2404.03471v1 )

ライセンス: Link先を確認
Farnaz Kohankhaki, Jacob-Junqi Tian, David Emerson, Laleh Seyyed-Kalantari, Faiza Khan Khattak, (参考訳) 膨大なデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、過度な差別から暗黙的なステレオタイプに至るまで、さまざまな形式で現れるバイアスを運ぶことができる。 偏見の1つの側面は、LLMのパフォーマンス格差であり、しばしば人種的少数派のような未成年集団に害を与える。 バイアスを定量化するための一般的なアプローチは、テンプレートベースのバイアスプローブを使用することであり、これは明示的にグループメンバーシップ(例えばホワイト)をステートし、タスクの結果、例えば感情分析(英語版)がグループメンバーシップの変更(例えばホワイトレースをブラックに変更)に不変であるかどうかを評価する。 このアプローチはバイアス定量化に広く用いられている。 しかし,本研究では,LCMの偏差定量化にテンプレートベースのプローブを用いることで,予期せぬ見過ごされた結果の証拠を見出した。 その結果、白人の民族に関連するテキストの例は、高い率で否定的な感情を示すものとして分類されていることが判明した。 我々は, LLMの事前学習テキストと, 明示的な言明を伴わずにグループメンバシップを示唆する未定の規範である報告バイアスによってバイアスを測定するテンプレートとのミスマッチによって, シナリオが人工的に発生すると仮定する。 我々の発見は、偏見定量化における明示的な言及を通して、様々なグループメンバーシップの潜在的な誤解を招く影響を浮き彫りにする。

Large language models (LLMs), trained on vast datasets, can carry biases that manifest in various forms, from overt discrimination to implicit stereotypes. One facet of bias is performance disparities in LLMs, often harming underprivileged groups, such as racial minorities. A common approach to quantifying bias is to use template-based bias probes, which explicitly state group membership (e.g. White) and evaluate if the outcome of a task, sentiment analysis for instance, is invariant to the change of group membership (e.g. change White race to Black). This approach is widely used in bias quantification. However, in this work, we find evidence of an unexpectedly overlooked consequence of using template-based probes for LLM bias quantification. We find that in doing so, text examples associated with White ethnicities appear to be classified as exhibiting negative sentiment at elevated rates. We hypothesize that the scenario arises artificially through a mismatch between the pre-training text of LLMs and the templates used to measure bias through reporting bias, unstated norms that imply group membership without explicit statement. Our finding highlights the potential misleading impact of varying group membership through explicit mention in bias quantification
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# グラフの混合によるメッセージパッシングネットワークの一般化境界

Generalization Bounds for Message Passing Networks on Mixture of Graphons ( http://arxiv.org/abs/2404.03473v1 )

ライセンス: Link先を確認
Sohir Maskey, Gitta Kutyniok, Ron Levie, (参考訳) 本稿では,グラフニューラルネットワーク(GNN)の一般的なクラスであるMPNN(Message Passing Neural Networks)の一般化機能について検討する。 正規化和アグリゲーションと平均アグリゲーションを持つMPNNに対して、特に一般化バウンダリを導出する。 本分析は,テンプレートグラフの有限セットを組み込んだデータ生成モデルに基づく。 このフレームワーク内の各グラフは、ある程度の摂動で1つのグラフからサンプリングすることで生成される。 特に、これまでのMPNNの一般化結果を、以下の変更を含むより現実的な設定に拡張する。 1) 重み付きグラフの代わりにベルヌーイ分布エッジを用いた単純なランダムグラフを解析する。 2)清潔なグラフの代わりに乱れたグラフからグラフ信号とグラフ信号の両方をサンプリングする。 3) 密度グラフの代わりにスパースグラフを解析する。 このより現実的で挑戦的なシナリオでは、グラフの平均ノード数が増加するにつれて減少する一般化境界を提供する。 その結果,グラフが十分に大きければ,トレーニングセットのサイズよりも複雑なMPNNを効果的に一般化できることが示唆された。

We study the generalization capabilities of Message Passing Neural Networks (MPNNs), a prevalent class of Graph Neural Networks (GNN). We derive generalization bounds specifically for MPNNs with normalized sum aggregation and mean aggregation. Our analysis is based on a data generation model incorporating a finite set of template graphons. Each graph within this framework is generated by sampling from one of the graphons with a certain degree of perturbation. In particular, we extend previous MPNN generalization results to a more realistic setting, which includes the following modifications: 1) we analyze simple random graphs with Bernoulli-distributed edges instead of weighted graphs; 2) we sample both graphs and graph signals from perturbed graphons instead of clean graphons; and 3) we analyze sparse graphs instead of dense graphs. In this more realistic and challenging scenario, we provide a generalization bound that decreases as the average number of nodes in the graphs increases. Our results imply that MPNNs with higher complexity than the size of the training set can still generalize effectively, as long as the graphs are sufficiently large.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# クラウドソーシングされた昆虫画像を用いた微粒化分類のためのコンピュータビジョンアルゴリズムの性能

Performance of computer vision algorithms for fine-grained classification using crowdsourced insect images ( http://arxiv.org/abs/2404.03474v1 )

ライセンス: Link先を確認
Rita Pucci, Vincent J. Kalkman, Dan Stowell, (参考訳) きめ細かい分類では、同一のスーパークラスのクラスを区別する特徴を識別する。 生物多様性のモニタリングや多くの生態系の基盤となるため、Insectaの種認識に重点を置いている。 市民科学のキャンペーンでは、何十億もの画像が野生で収集されている。 ラベル付けされたら、専門家はこれらを使って配布マップを作成することができる。 しかし、ラベリングプロセスは時間がかかり、コンピュータビジョンが登場する。 コンピュータビジョンの分野は幅広いアルゴリズムを提供しており、それぞれに長所と短所がある。 そこで本研究では,CNN(Deep Convolutional Network),ViT(Vit),LBVT(Locality-based Vision Transformer)の9つのアルゴリズムについて,分類性能,埋め込み品質,計算コスト,勾配活動の4つの側面について,完全かつ詳細な評価を行った。 私たちは、これらのアルゴリズムがInsectaのきめ細かいタスクをどの程度解決しているかを、この領域でまだ証明していない洞察を提供しています。 We found that the ViT are the best on inference speed and compute cost while the LBVT while the other performance on performance and embedded quality; the CNN provide a trade-off among the metrics。

With fine-grained classification, we identify unique characteristics to distinguish among classes of the same super-class. We are focusing on species recognition in Insecta, as they are critical for biodiversity monitoring and at the base of many ecosystems. With citizen science campaigns, billions of images are collected in the wild. Once these are labelled, experts can use them to create distribution maps. However, the labelling process is time-consuming, which is where computer vision comes in. The field of computer vision offers a wide range of algorithms, each with its strengths and weaknesses; how do we identify the algorithm that is in line with our application? To answer this question, we provide a full and detailed evaluation of nine algorithms among deep convolutional networks (CNN), vision transformers (ViT), and locality-based vision transformers (LBVT) on 4 different aspects: classification performance, embedding quality, computational cost, and gradient activity. We offer insights that we haven't yet had in this domain proving to which extent these algorithms solve the fine-grained tasks in Insecta. We found that the ViT performs the best on inference speed and computational cost while the LBVT outperforms the others on performance and embedding quality; the CNN provide a trade-off among the metrics.
翻訳日:2024-04-05 14:41:45 公開日:2024-04-04
# 映画トレーサの自動生成に向けて

Towards Automated Movie Trailer Generation ( http://arxiv.org/abs/2404.03477v1 )

ライセンス: Link先を確認
Dawit Mureja Argaw, Mattia Soldan, Alejandro Pardo, Chen Zhao, Fabian Caba Heilbron, Joon Son Chung, Bernard Ghanem, (参考訳) 映画の予告編は映画を宣伝し、観客を惹きつけるのに欠かせない道具である。 しかし、トレーラーの製作には時間と費用がかかる。 このプロセスを合理化するために,撮影選択と合成の自動化により,全作品から可塑性トレーラを生成する自動トレーラ生成フレームワークを提案する。 提案手法は,映画やトレーラーを映像のシーケンスとしてモデル化する機械翻訳技術からインスピレーションを得て,トレーラー生成問題をシークエンス・ツー・シークエンス・タスクとして定式化する。 本稿では,エンコーダ・デコーダアーキテクチャを利用したディープラーニングフレームワークTGTを紹介する。 TGTフィルムエンコーダは、自動回帰トレーラーデコーダが、トレーラーにおけるショットの時間的順序の関連性を考慮して、次のトレーラーショットの特徴表現を予測する。 当社のTGTは、総合的なメトリクススイートにおいて、従来の方法よりも大幅に優れています。

Movie trailers are an essential tool for promoting films and attracting audiences. However, the process of creating trailers can be time-consuming and expensive. To streamline this process, we propose an automatic trailer generation framework that generates plausible trailers from a full movie by automating shot selection and composition. Our approach draws inspiration from machine translation techniques and models the movies and trailers as sequences of shots, thus formulating the trailer generation problem as a sequence-to-sequence task. We introduce Trailer Generation Transformer (TGT), a deep-learning framework utilizing an encoder-decoder architecture. TGT movie encoder is tasked with contextualizing each movie shot representation via self-attention, while the autoregressive trailer decoder predicts the feature representation of the next trailer shot, accounting for the relevance of shots' temporal order in trailers. Our TGT significantly outperforms previous methods on a comprehensive suite of metrics.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# 無限量の量子コヒーレンスを必要とするギブス保存演算

Gibbs-preserving operations requiring infinite amount of quantum coherence ( http://arxiv.org/abs/2404.03479v1 )

ライセンス: Link先を確認
Hiroyasu Tajima, Ryuji Takagi, (参考訳) ギブス保存操作は量子熱力学における標準自由過程の1つとして研究されている。 単純な数学的構造は認めているが、熱操作のようなオペティオアンリーに動機づけられた操作を用いてそれらを実装するための潜在的な隠れたコストのために、その運用上の重要性は明らかでない。 ここでは、この隠れたコストが無限であることを示し、有限量の量子コヒーレンスによって支援される熱的操作によって実現できないギブス保存操作の族を示す。 以上の結果から,非有界熱力学資源を必要とするギブス保存操作が無数に存在することが示唆され,ギブス保存操作を利用可能な熱力学プロセスとして利用することに関する疑問が提起された。 この発見は、所望の精度でギブス保存操作のクラスを概ね実装するコヒーレンスコストに対して提供される一般的な下界の結果である。 我々の下限はほぼ厳密であり、チャネルが実装するエネルギー変化に関連する量を、ギブス保存操作の近似的な実装のコヒーレンスコストを特徴付ける基本的な量化器として同定する。

Gibbs-preserving operations have been studied as one of the standard free processes in quantum thermodynamics. Although they admit a simple mathematical structure, their operational significance has been unclear due to the potential hidden cost to implement them using an operatioanlly motivated class of operations, such as thermal operations. Here, we show that this hidden cost can be infinite -- we present a family of Gibbs-preserving operations that cannot be implemented by thermal operations aided by any finite amount of quantum coherence. Our result implies that there are uncountably many Gibbs-preserving operations that require unbounded thermodynamic resources to implement, raising a question about employing Gibbs-preserving operations as available thermodynamics processes. This finding is a consequence of the general lower bounds we provide for the coherence cost of approximately implementing a certain class of Gibbs-preserving operations with a desired accuracy. We find that our lower bound is almost tight, identifying a quantity -- related to the energy change caused by the channel to implement -- as a fundamental quantifier characterizing the coherence cost for the approximate implementation of Gibbs-preserving operations.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# AdaGlimpse: 任意傾斜位とスケールによるアクティブビジュアル探索

AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and Scale ( http://arxiv.org/abs/2404.03482v1 )

ライセンス: Link先を確認
Adam Pardyl, Michał Wronka, Maciej Wołczyk, Kamil Adamczewski, Tomasz Trzciński, Bartosz Zieliński, (参考訳) アクティブ・ビジュアル・エクスプロレーション(AVE)は、環境内の理解とナビゲーションを容易にするために重要である観察(グランプ)を動的に選択するタスクである。 現代のAVE法は目覚ましい性能を示しているが、剛性グリッドからの固定スケールの視線に制約されている。 対照的に、光学ズーム機能を備えた既存のモバイルプラットフォームは、任意の位置とスケールを垣間見ることができる。 ソフトウェアとハードウェアのこのギャップに対処するために、AdaGlimpseを紹介します。 探索作業に適した強化学習アルゴリズムであるSoft Actor-Criticを使って、任意の位置とスケールを垣間見る。 このアプローチにより,詳細な分析のためにズームインする前に,我々のモデルは環境に対する一般的な認識を迅速に確立することができる。 実験結果から,AdaGlimpseは現実的なAVEシナリオにおいて適用性を高めつつ,様々な視覚的タスクにまたがる従来の手法を超越していることが示された。

Active Visual Exploration (AVE) is a task that involves dynamically selecting observations (glimpses), which is critical to facilitate comprehension and navigation within an environment. While modern AVE methods have demonstrated impressive performance, they are constrained to fixed-scale glimpses from rigid grids. In contrast, existing mobile platforms equipped with optical zoom capabilities can capture glimpses of arbitrary positions and scales. To address this gap between software and hardware capabilities, we introduce AdaGlimpse. It uses Soft Actor-Critic, a reinforcement learning algorithm tailored for exploration tasks, to select glimpses of arbitrary position and scale. This approach enables our model to rapidly establish a general awareness of the environment before zooming in for detailed analysis. Experimental results demonstrate that AdaGlimpse surpasses previous methods across various visual tasks while maintaining greater applicability in realistic AVE scenarios.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# ジェネレーティブAIと教師--ユーザと対決? : ケーススタディ

Generative AI and Teachers -- For Us or Against Us? A Case Study ( http://arxiv.org/abs/2404.03486v1 )

ライセンス: Link先を確認
Jenny Pettersson, Elias Hult, Tim Eriksson, Tosin Adewumi, (参考訳) 大学教員の授業活動における生成的人工知能(GenAI)の導入に関する調査結果について報告する。 GenAIによる教育の変容、特に大きな言語モデル(LLM)は、学生による不正行為を含む機会と課題の両方を提示している。 オンライン調査をベストプラクティスに従って準備し,実践経験のある著者による質問を作成した。 調査には12の質問があり、まず試験的な調査が行われた。 調査はスウェーデンにあるスウェーデン工科大学(Lule{\aa} University of Technology)の様々なキャンパスにまたがる複数の学部の教師に送られた。 調査はスウェーデン語と英語の両方で実施された。 その結果,67名中35名(半数以上)がGenAIを利用していることがわかった。 準備は、GenAIが使用する頻度が最も多く、ChatGPTは最も一般的に使用されるGenAIである。 しかし55%はGenAIの使用に関する法律があるべきだと答えており、特に不正確さや不正が最大の懸念事項だ。

We present insightful results of a survey on the adoption of generative artificial intelligence (GenAI) by university teachers in their teaching activities. The transformation of education by GenAI, particularly large language models (LLMs), has been presenting both opportunities and challenges, including cheating by students. We prepared the online survey according to best practices and the questions were created by the authors, who have pedagogy experience. The survey contained 12 questions and a pilot study was first conducted. The survey was then sent to all teachers in multiple departments across different campuses of the university of interest in Sweden: Lule{\aa} University of Technology. The survey was available in both Swedish and English. The results show that 35 teachers (more than half) use GenAI out of 67 respondents. Preparation is the teaching activity with the most frequency that GenAI is used for and ChatGPT is the most commonly used GenAI. 59% say it has impacted their teaching, however, 55% say there should be legislation around the use of GenAI, especially as inaccuracies and cheating are the biggest concerns.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# 知識接地対話生成のハロシン化を緩和する要因

A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation ( http://arxiv.org/abs/2404.03491v1 )

ライセンス: Link先を確認
Jifan Yu, Xiaohan Zhang, Yifan Xu, Xuanyu Lei, Zijun Yao, Jing Zhang, Lei Hou, Juanzi Li, (参考訳) 既存の対話システムは,大規模な事前学習型言語モデルを活用して,流動的で自然な会話を行うという印象的なパフォーマンスを実証している。 しかし、それらはまだ幻覚の問題に悩まされており、生成した応答において予測不可能な事実エラーを引き起こしている。 近年,外部知識資源を故意に呼び起こしてより情報的応答を与える知識接地対話生成モデルも,幻覚の低減に有効であることが証明されている。 高品質な知識を得るというアイデアに続き、いくつかの取り組みがこの問題でかなり優れたパフォーマンスを実現しています。 必然的な知識ノイズも幻覚を引き起こす可能性があるため、KGDタスクにおけるノイズ耐性手法の構築の理由と今後の方向性を調査することが急務である。 本稿では,この問題の背後にある因果関係を,反実的推論手法を用いて分析する。 因果効果分析に基づいて,対話と知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。 本手法は,異なる世代モデルに適応しながら,他の対話性能を損なうことなく幻覚を低減できることを示す。 我々は、堅牢で信頼性の高い対話システムに向けた軽量な技術開発に、我々の取り組みを支援し、より注意を喚起することを願っている。

Empowered by the large-scale pretrained language models, existing dialogue systems have demonstrated impressive performance conducting fluent and natural-sounding conversations. However, they are still plagued by the hallucination problem, causing unpredictable factual errors in the generated responses. Recently, knowledge-grounded dialogue generation models, that intentionally invoke external knowledge resources to more informative responses, are also proven to be effective in reducing hallucination. Following the idea of getting high-quality knowledge, a few efforts have achieved pretty good performance on this issue. As some inevitable knowledge noises may also lead to hallucinations, it is emergent to investigate the reason and future directions for building noise-tolerant methods in KGD tasks. In this paper, we analyze the causal story behind this problem with counterfactual reasoning methods. Based on the causal effect analysis, we propose a possible solution for alleviating the hallucination in KGD by exploiting the dialogue-knowledge interaction. Experimental results of our example implementation show that this method can reduce hallucination without disrupting other dialogue performance, while keeping adaptive to different generation models. We hope our efforts can support and call for more attention to developing lightweight techniques towards robust and trusty dialogue systems.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# 非エルミート二状態系におけるエントロピー力学の3つの視点

Three perspectives on entropy dynamics in a non-Hermitian two-state system ( http://arxiv.org/abs/2404.03492v1 )

ライセンス: Link先を確認
Alexander Felski, Alireza Beygi, Christos Karapoulitidis, S. P. Klevansky, (参考訳) 利得と損失のバランスが取れた開放二状態系における物理挙動の指標としてのエントロピー力学の比較研究を示す。 我々は,従来のHermitian-adjoint状態の枠組みを利用する際の視点を,biorthogonal-adjoint状態に基づくアプローチ,およびアイソスペクトルマッピングに基づく第3のケースと区別する。 本研究は, 環境結合モードの処理において, その差異が根付いていることを実証する。 系の非破壊$\mathcal{PT}$対称性について、視点の顕著な特徴は純度振動の有無であり、関連するエントロピー再生である。 系の記述は、$\mathcal{PT}$-対称擬エルミート相から自然に壊れた対称性の体制へと続き、後者の2つのアプローチは非解析的作用素に基づく継続を通して、$\mathcal{PT}$チャージ作用素$\mathcal{C}$に基づいてリンドブラッドマスター方程式を生成する。 この相転移は、擬エルミート閉系とリンドブラディアン開系形式とが、基礎となる物理反射対称性の自発的な分解によって結びつくことを示す。

A comparative study of entropy dynamics as an indicator of physical behavior in an open two-state system with balanced gain and loss is presented. We distinguish the perspective taken in utilizing the conventional framework of Hermitian-adjoint states from an approach that is based on biorthogonal-adjoint states and a third case based on an isospectral mapping. In this it is demonstrated that their differences are rooted in the treatment of the environmental coupling mode. For unbroken $\mathcal{PT}$ symmetry of the system, a notable characteristic feature of the perspective taken is the presence or absence of purity oscillations, with an associated entropy revival. The description of the system is then continued from its $\mathcal{PT}$-symmetric pseudo-Hermitian phase into the regime of spontaneously broken symmetry, in the latter two approaches through a non-analytic operator-based continuation, yielding a Lindblad master equation based on the $\mathcal{PT}$ charge operator $\mathcal{C}$. This phase transition indicates a general connection between the pseudo-Hermitian closed-system and the Lindbladian open-system formalism through a spontaneous breakdown of the underlying physical reflection symmetry.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# イベントベース自動車データを考慮したスパイクニューラルネットワークパラメータの影響に関する一検討

A Methodology to Study the Impact of Spiking Neural Network Parameters considering Event-Based Automotive Data ( http://arxiv.org/abs/2404.03493v1 )

ライセンス: Link先を確認
Iqra Bano, Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Muhammad Shafique, (参考訳) 自律運転(AD)システムは、人間の移動と交通の未来と見なされている。 リアルタイムのADシステムを実現するためには,画像分類や物体検出・分離などのコンピュータビジョンタスクを高精度かつ低消費電力で解決する必要がある。 これらの要件は、スパイキングニューラルネットワーク(SNN)によって満たされる可能性がある。 しかしながら、SNNベースのADシステムにおける最先端の作業は、精度の高いネットワークモデルの提案に重点を置いており、イベントベースの自動車データ学習において、SNNパラメータの役割を体系的に研究していない。 したがって、ADシステムのためのSNNモデルを効果的に開発する方法については、まだ理解されていない。 そこで本稿では,イベントベース自動車データを考慮したSNNパラメータの影響を体系的に研究し,分析する手法を提案する。 そこで我々はまず,学習メカニズム(バッチサイズ,学習速度,ニューロン閾値電位,体重減衰など)に直接影響を及ぼすSNNパラメータの異なる設定を探索し,精度を解析する。 その後,SNNの精度を向上し,トレーニング時間を短縮する手法を提案する。 実験結果から,NCARSデータセットの精度は86%,等精度(標準偏差0.5%以下で約85%)を達成でき,トレーニング時間を1.9倍に向上できることがわかった。 このようにして、本研究は、SNNパラメータ拡張のための一連のガイドラインを提供し、SNNベースのADシステムの実用的な開発を可能にする。

Autonomous Driving (AD) systems are considered as the future of human mobility and transportation. Solving computer vision tasks such as image classification and object detection/segmentation, with high accuracy and low power/energy consumption, is highly needed to realize AD systems in real life. These requirements can potentially be satisfied by Spiking Neural Networks (SNNs). However, the state-of-the-art works in SNN-based AD systems still focus on proposing network models that can achieve high accuracy, and they have not systematically studied the roles of SNN parameters when used for learning event-based automotive data. Therefore, we still lack understanding of how to effectively develop SNN models for AD systems. Toward this, we propose a novel methodology to systematically study and analyze the impact of SNN parameters considering event-based automotive data, then leverage this analysis for enhancing SNN developments. To do this, we first explore different settings of SNN parameters that directly affect the learning mechanism (i.e., batch size, learning rate, neuron threshold potential, and weight decay), then analyze the accuracy results. Afterward, we propose techniques that jointly improve SNN accuracy and reduce training time. Experimental results show that our methodology can improve the SNN models for AD systems than the state-of-the-art, as it achieves higher accuracy (i.e., 86%) for the NCARS dataset, and it can also achieve iso-accuracy (i.e., ~85% with standard deviation less than 0.5%) while speeding up the training time by 1.9x. In this manner, our research work provides a set of guidelines for SNN parameter enhancements, thereby enabling the practical developments of SNN-based AD systems.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# 外乱検出のためのテストタイムトレーニングについて

About Test-time training for outlier detection ( http://arxiv.org/abs/2404.03495v1 )

ライセンス: Link先を確認
Simon Klüttermann, Emmanuel Müller, (参考訳) 本稿では,外乱検出にテスト時間トレーニングを適用したDOUSTを導入し,検出性能を大幅に改善する。 一般的なベンチマークデータセットでアルゴリズムを徹底的に評価した後、一般的な問題について議論し、十分に大きなテストセットで消滅することを示す。 したがって、合理的な条件下では、ラベル付き外れ値が与えられなくても、我々のアルゴリズムはほぼ教師付き性能に達することができる。

In this paper, we introduce DOUST, our method applying test-time training for outlier detection, significantly improving the detection performance. After thoroughly evaluating our algorithm on common benchmark datasets, we discuss a common problem and show that it disappears with a large enough test set. Thus, we conclude that under reasonable conditions, our algorithm can reach almost supervised performance even when no labeled outliers are given.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# 境界付き古典的コミュニケーションを許容する自己検証グラフ状態

Self-Testing Graph States Permitting Bounded Classical Communication ( http://arxiv.org/abs/2404.03496v1 )

ライセンス: Link先を確認
Uta Isabella Meyer, Ivan Šupić, Frédéric Grosshans, Damian Markham, (参考訳) 自己検査は、他の量子状態から局所的な変換まで、非局所性を示す量子状態と相関を識別する。 強い非局所性のため、全てのグラフ状態は厳密な局所測定装置で自己検査することができる。 さらに、グラフ状態は、基礎となるグラフ上の制限付き古典的通信が許可された場合でも非局所的相関を示す。 有界古典通信の枠組みでは、円グラフ状態とハニカムクラスタ状態に対する明示的な自己テストを提供することにより、適切な対称性を持つグラフ状態が堅牢に自己テスト可能であることを示す。 コミュニケーションは一般にグラフ状態の自己テストを妨げるため、通信シナリオにおいて非局所的相関を示す大きなグラフ状態から、任意のグラフ状態を堅牢に自己テストする手順を提供する。 さらに、古典的通信のない標準設定では、少なくとも3つの頂点を持つ基礎となる連結グラフから得られるグラフ状態は、パウリ測度のみを用いて頑健に自己検定できることを示す。

Self-testing identifies quantum states and correlations that exhibit non-locality, distinguishing them, up to local transformations, from other quantum states. Due to their strong non-locality, all graph states can be self-tested with strictly local measurement devices. Moreover, graph states display non-local correlations even when bounded classical communication on the underlying graph is permitted, a feature that has found applications in proving a circuit-depth separation between classical and quantum computing. In the framework of bounded classical communication, we show that certain graph states with appropriate symmetry can be robustly self-tested, by providing an explicit self-test for the circular graph state and the honeycomb cluster state. Since communication generally obstructs self-testing of graph states, we further provide a procedure to robustly self-test any graph state from larger ones that exhibit non-local correlations in the communication scenario. Furthermore, in the standard setup without classical communication, we demonstrate that any graph state from an underlying connected graph with at least three vertices can be robustly self-tested using only Pauli measurements.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# 知識グラフの理解可能な人工知能:サーベイ

Comprehensible Artificial Intelligence on Knowledge Graphs: A survey ( http://arxiv.org/abs/2404.03499v1 )

ライセンス: Link先を確認
Simon Schramm, Christoph Wehner, Ute Schmid, (参考訳) 人工知能のアプリケーションは、研究施設の安全な壁の外に徐々に移動し、私たちの日常生活に侵入する。 これは知識グラフの機械学習手法にも当てはまり、21世紀初頭からその応用が着実に増加している。 しかし、多くのアプリケーションでは、ユーザーは人工知能の決定を説明する必要がある。 これにより、包括的人工知能への需要が増加した。 知識グラフ(Knowledge Graphs)は、人間だけでなく機械で読める方法で、接続されたデータ、すなわち知識を表示する能力から、包括的人工知能のための肥大した土壌をエピトマイズする。 このサーベイは知識グラフに関する理解可能な人工知能に短い歴史を与えている。 さらに、説明可能な人工知能の概念は、解釈可能な機械学習によって過負荷され、重複していると主張することで貢献する。 包括的人工知能(Comprehensible Artificial Intelligence)という親の概念を導入することで、両者の類似性を考慮しつつ、その概念を明確に区別する。 そこで本研究では,知識グラフの解釈可能な機械学習と知識グラフの説明可能な人工知能からなる,知識グラフの理解可能な人工知能の事例について紹介する。 これにより、知識グラフに関する理解可能な人工知能のための新しい分類法が導入された。 さらに、知識グラフに関する包括的人工知能研究の概要を述べ、分類学の文脈に組み込んだ。 最後に、知識グラフに関する理解可能な人工知能の分野における研究ギャップを将来の研究のために特定する。

Artificial Intelligence applications gradually move outside the safe walls of research labs and invade our daily lives. This is also true for Machine Learning methods on Knowledge Graphs, which has led to a steady increase in their application since the beginning of the 21st century. However, in many applications, users require an explanation of the Artificial Intelligences decision. This led to increased demand for Comprehensible Artificial Intelligence. Knowledge Graphs epitomize fertile soil for Comprehensible Artificial Intelligence, due to their ability to display connected data, i.e. knowledge, in a human- as well as machine-readable way. This survey gives a short history to Comprehensible Artificial Intelligence on Knowledge Graphs. Furthermore, we contribute by arguing that the concept Explainable Artificial Intelligence is overloaded and overlapping with Interpretable Machine Learning. By introducing the parent concept Comprehensible Artificial Intelligence, we provide a clear-cut distinction of both concepts while accounting for their similarities. Thus, we provide in this survey a case for Comprehensible Artificial Intelligence on Knowledge Graphs consisting of Interpretable Machine Learning on Knowledge Graphs and Explainable Artificial Intelligence on Knowledge Graphs. This leads to the introduction of a novel taxonomy for Comprehensible Artificial Intelligence on Knowledge Graphs. In addition, a comprehensive overview of the research on Comprehensible Artificial Intelligence on Knowledge Graphs is presented and put into the context of the taxonomy. Finally, research gaps in the field of Comprehensible Artificial Intelligence on Knowledge Graphs are identified for future research.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# 偽デバイスを用いたQAOAアプローチ:リンググラフの最大カットのケーススタディ

A QAOA approach with fake devices: A case study for the maximum cut in ring graphs ( http://arxiv.org/abs/2404.03501v1 )

ライセンス: Link先を確認
Wilson R. M. Rabelo, Sandra D. Prado, Leonardo G. Brunnet, (参考訳) 量子近似最適化アルゴリズム(QAOA)は、開発者が高価な量子デバイス上でコードをテストしデバッグするのにかなりの処理時間を必要とする可能性がある。 この困難を回避する方法の1つは、量子デバイスのエラーマップを使用することで、ローカルシミュレータを自動的に設定して、実際のデバイスのバックエンドを模倣することが可能になる。 我々の研究で、我々は、クラウドで自由に利用できるフェイクデバイスとして知られる量子デバイスのエラーマップを評価した。 ノイズ解析のツールとしてQAOAと2正規連結グラフの最大カットの問題(不一致リング)が用いられた。 この問題の近似比、予測エネルギー、成功確率は2つのシナリオで評価されている。 まず,フェイクデバイスを用いたノイズシミュレーションにより,その量について検討した。 第二に、元の問題の最適化レベルや変換(接続性マッピング)などの誤差軽減手法を適用した。 これらの結果は、リンググラフの分析解と比較された。 本研究は, 予測値, 近似比, リンググラフの成功確率について, 誤差緩和法がより良い結果を得る上で重要であることを示した。

The quantum approximate optimization algorithm (QAOA) can require considerable processing time for developers to test and debug their codes on expensive quantum devices. One avenue to circumvent this difficulty is to use the error maps of quantum devices, where a local simulator can be automatically configured to mimic an actual device backend. In our work, we evaluated some error maps of quantum devices, known as fake devices, that are freely available in the cloud. The QAOA and the problem of maximum cut in 2-regular connected graphs, known as ring of disagrees, were used as tools for the noise analysis. The approximation ratio, the expectation energy and the probability of success for this problem have been evaluated in two scenarios. First, the quantities were studied through noisy simulations using fake devices. Second, error mitigation methods such as optimization levels and translation (connectivity mapping) of the original problem were applied. These results were then compared with the analytical solution of the ring graph. The study shows that error mitigation methods were crucial in obtaining better results for the expectation value of the energy, the approximation ratio, and the probability of success for the ring graphs.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# AIと知識崩壊の問題

AI and the Problem of Knowledge Collapse ( http://arxiv.org/abs/2404.03502v1 )

ライセンス: Link先を確認
Andrew J. Peterson, (参考訳) 人工知能は膨大な量のデータを処理し、新たな洞察を生み出し、生産性を高める可能性があるが、その普及は予期せぬ結果を招く可能性がある。 特定の知識モードへのアクセスコストを削減することにより、AIが公衆の理解をパラドックス的に損なう可能性のある条件を特定する。 大規模言語モデルは大量の多様なデータに基づいて訓練されているが、分布の「中心」に向けて自然に出力を生成する。 これは一般的に有用だが、再帰的なAIシステムへの広範な依存は、私たちが"知識の崩壊"と定義するプロセスにつながる可能性がある。 しかし、トレーニング対象のデータを選択できないAIモデルとは異なり、人間は価値あると認識すれば、さまざまな種類の知識を戦略的に探すことができる。 これを調べるために、学習者やイノベーターのコミュニティが従来の手法を使うか、割引されたAI支援プロセスに頼るかを選択し、知識崩壊が起こる条件を特定するための簡単なモデルを提供する。 我々のデフォルトモデルでは、AI生成コンテンツに対する20%の割引は、ディスカウントがない場合よりも真実から2.3倍の信条を生成する。 最後に,これらの結果に対処するためのさらなる研究の方向性を検討する。

While artificial intelligence has the potential to process vast amounts of data, generate new insights, and unlock greater productivity, its widespread adoption may entail unforeseen consequences. We identify conditions under which AI, by reducing the cost of access to certain modes of knowledge, can paradoxically harm public understanding. While large language models are trained on vast amounts of diverse data, they naturally generate output towards the 'center' of the distribution. This is generally useful, but widespread reliance on recursive AI systems could lead to a process we define as "knowledge collapse", and argue this could harm innovation and the richness of human understanding and culture. However, unlike AI models that cannot choose what data they are trained on, humans may strategically seek out diverse forms of knowledge if they perceive them to be worthwhile. To investigate this, we provide a simple model in which a community of learners or innovators choose to use traditional methods or to rely on a discounted AI-assisted process and identify conditions under which knowledge collapse occurs. In our default model, a 20% discount on AI-generated content generates public beliefs 2.3 times further from the truth than when there is no discount. Finally, based on the results, we consider further research directions to counteract such outcomes.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# マルコフ雑音の存在下での絡み合い劣化の統計的解析

Entanglement Degradation in the Presence of Markovian Noise: a Statistical Analysis ( http://arxiv.org/abs/2404.03505v1 )

ライセンス: Link先を確認
Nunzia Cerrato, Giacomo De Palma, Vittorio Giovannetti, (参考訳) 統計的アプローチを採用することで、ランダムに分散されたマルコフ雑音のアンサンブルの作用下での量子系の絡み合いの劣化を研究する。 これにより、モデルのノイズの多い進化を規定するメカニズムにおいて、限られた情報しか利用できないシナリオに対処できる。 応用として、ランダムに分散した局所的均一なマルコフ雑音の進化を行う$n$ quditsで形成された量子メモリの絡み合い劣化統計を特徴付ける。

Adopting a statistical approach we study the degradation of entanglement of a quantum system under the action of an ensemble of randomly distributed Markovian noise. This enables us to address scenarios where only limited information is available on the mechanisms that rule the noisy evolution of the model. As an application, we characterize the statistic of entanglement deterioration for a quantum memory formed by $n$ qudits that undergo randomly distributed local, uniform, Markovian noise evolution.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# CountARFactuals -- 対向無作為林による可塑性モデル非依存の反実的説明の生成

CountARFactuals -- Generating plausible model-agnostic counterfactual explanations with adversarial random forests ( http://arxiv.org/abs/2404.03506v1 )

ライセンス: Link先を確認
Susanne Dandl, Kristin Blesch, Timo Freiesleben, Gunnar König, Jan Kapar, Bernd Bischl, Marvin Wright, (参考訳) 対実的な説明は、別の望ましい結果につながるであろうシナリオを指して、アルゴリズム的な決定を解明する。 モデルの振る舞いに関する洞察を与えると、ユーザを行動の可能性を示唆し、競合する決定の根拠を与える。 これらの目標を達成する上で重要な要素として、反事実は、すなわち、データ多様体内の現実的な代替シナリオを記述することが妥当でなければならない。 本稿では,最近開発された逆乱林 (ARF) をモデルに依存しない方法で効率よく生成する生成モデリング手法を利用する。 ARFは可視性尺度として機能するか、あるいは反現実的な説明を直接生成することができる。 トレーニングと計算が簡単で,連続的・カテゴリー的なデータを自然に処理し,空間性などのデシラタを直接的な方法で統合することが可能です。

Counterfactual explanations elucidate algorithmic decisions by pointing to scenarios that would have led to an alternative, desired outcome. Giving insight into the model's behavior, they hint users towards possible actions and give grounds for contesting decisions. As a crucial factor in achieving these goals, counterfactuals must be plausible, i.e., describing realistic alternative scenarios within the data manifold. This paper leverages a recently developed generative modeling technique -- adversarial random forests (ARFs) -- to efficiently generate plausible counterfactuals in a model-agnostic way. ARFs can serve as a plausibility measure or directly generate counterfactual explanations. Our ARF-based approach surpasses the limitations of existing methods that aim to generate plausible counterfactual explanations: It is easy to train and computationally highly efficient, handles continuous and categorical data naturally, and allows integrating additional desiderata such as sparsity in a straightforward manner.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# DQ-DETR: ティニーオブジェクト検出のための動的クエリ付きDTR

DQ-DETR: DETR with Dynamic Query for Tiny Object Detection ( http://arxiv.org/abs/2404.03507v1 )

ライセンス: Link先を確認
Yi-Xin Huang, Hou-I Liu, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) 従来のDETRのような手法がジェネリックオブジェクト検出に成功しているにも関わらず、オブジェクトクエリの位置情報は、通常オブジェクトよりもスケールが極端に小さい小さなオブジェクトを検出するためにカスタマイズされていないため、小さなオブジェクト検出は依然として難しい課題である。 また、一定の数のクエリを使用したDETRライクなメソッドは、小さなオブジェクトのみを含む空中データセットには適せず、インスタンスの数は異なるイメージ間で不均衡である。 そこで本稿では,DQ-DETRという,分類的カウントモジュール,カウント誘導機能拡張,動的クエリ選択という,3つのコンポーネントから構成されるシンプルなモデルを提案する。 DQ-DETRは、カテゴリカウントモジュールからの予測と密度マップを使用して、オブジェクトクエリの数を動的に調整し、クエリの位置情報を改善する。 我々のモデルDQ-DETRは従来のCNNやDETRのような手法より優れており、AI-TOD-V2データセット上で最先端のmAPを30.2%達成している。

Despite previous DETR-like methods having performed successfully in generic object detection, tiny object detection is still a challenging task for them since the positional information of object queries is not customized for detecting tiny objects, whose scale is extraordinarily smaller than general objects. Also, DETR-like methods using a fixed number of queries make them unsuitable for aerial datasets, which only contain tiny objects, and the numbers of instances are imbalanced between different images. Thus, we present a simple yet effective model, named DQ-DETR, which consists of three different components: categorical counting module, counting-guided feature enhancement, and dynamic query selection to solve the above-mentioned problems. DQ-DETR uses the prediction and density maps from the categorical counting module to dynamically adjust the number of object queries and improve the positional information of queries. Our model DQ-DETR outperforms previous CNN-based and DETR-like methods, achieving state-of-the-art mAP 30.2% on the AI-TOD-V2 dataset, which mostly consists of tiny objects.
翻訳日:2024-04-05 14:31:56 公開日:2024-04-04
# 人工知能システムのためのプライバシ・エンハンシング技術

Privacy-Enhancing Technologies for Artificial Intelligence-Enabled Systems ( http://arxiv.org/abs/2404.03509v1 )

ライセンス: Link先を確認
Liv d'Aliberti, Evan Gronberg, Joseph Kovba, (参考訳) 人工知能(AI)モデルは、システムにプライバシーの脆弱性を導入する。 これらの脆弱性は、モデルオーナーやシステムユーザに影響を与える可能性がある。それらは、モデル開発、デプロイ、推論フェーズの間に存在する。 本稿では、潜在的な脅威を調査し、AI対応システムを保護するためにいくつかのプライバシー強化技術(PET)の使用を提案する。 次に、AI対応システムのPET評価のためのフレームワークを提供し、PETがシステムレベル変数に与える影響について議論する。

Artificial intelligence (AI) models introduce privacy vulnerabilities to systems. These vulnerabilities may impact model owners or system users; they exist during model development, deployment, and inference phases, and threats can be internal or external to the system. In this paper, we investigate potential threats and propose the use of several privacy-enhancing technologies (PETs) to defend AI-enabled systems. We then provide a framework for PETs evaluation for a AI-enabled systems and discuss the impact PETs may have on system-level variables.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# SCIM MILQ: HPC量子スケジューリング器

SCIM MILQ: An HPC Quantum Scheduler ( http://arxiv.org/abs/2404.03512v1 )

ライセンス: Link先を確認
Philipp Seitz, Manuel Geiger, Christian Ufrecht, Axel Plinge, Christopher Mutschler, Daniel . D Scherer, Christian B. Mendl, (参考訳) 量子ハードウェアの高度化と能力向上に伴い、その統合とハイパフォーマンスコンピューティング(HPC)インフラでの雇用が重要となる。 これにより、現在のクラウドアクセスモデルを超えて、量子古典コンピューティング環境で、ほとんど探索されていないアクセスモデルとスケジューリングの質問が開きます。 SCIM MILQは、HPCインフラにおける量子タスクのスケジューラである。 確立されたスケジューリング技術と、回路切断のような量子コンピューティング特有の手法を組み合わせる。 SCIM MILQは、作業開始から終了までの時間の長さを最小化し、平均25%改善しながらタスクをスケジュールすることができる。 さらに、回路内のノイズを10%まで低減し、結果の信頼性を高める。 既存のベースラインと比較し、HPC環境での生存可能性を示す。

With the increasing sophistication and capability of quantum hardware, its integration, and employment in high performance computing (HPC) infrastructure becomes relevant. This opens largely unexplored access models and scheduling questions in such quantum-classical computing environments, going beyond the current cloud access model. SCIM MILQ is a scheduler for quantum tasks in HPC infrastructure. It combines well-established scheduling techniques with methods unique to quantum computing, such as circuit cutting. SCIM MILQ can schedule tasks while minimizing the makespan, i.e., the length of time that elapses from the start of work to the end, improving on average 25%. Additionally it reduces noise in the circuit up to 10%, increasing the outcome's reliability. We compare it against an existing baseline and show its viability in an HPC environment.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# 信頼できる言語モデルを学ぶ:プライバシ中心の適応型モデル認識アプローチ

Learn When (not) to Trust Language Models: A Privacy-Centric Adaptive Model-Aware Approach ( http://arxiv.org/abs/2404.03514v1 )

ライセンス: Link先を確認
Chengkai Huang, Rui Wang, Kaige Xie, Tong Yu, Lina Yao, (参考訳) Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。 彼らの大きな成功にもかかわらず、検索プロセスが提供する知識はモデル予測を改善するのに必ずしも有用ではない。 検索コストの削減を目的とした従来の研究では,LLMの事前学習データを解析することにより,データ認識による検索をいつ行うかを決定することが提案されている。 しかし、これらのデータ認識手法はプライバシー上のリスクとメモリ制限をもたらし、特に機密データや広範囲の事前学習データにアクセスする必要がある。 さらに、これらの手法は微調整や連続的な学習環境下での適応性に制限を与える。 我々は、トークンの埋め込みがモデルの本質的な知識を捉えることができると仮定し、事前学習データへのアクセスに関連するプライバシーリスクを伴わずに、検索の必要性を判断するためのより安全で簡単な方法を提供する。 さらに、モデルの事前トレーニングで使用されるすべてのデータを保持する必要がなくなり、トークンの埋め込みのアップキープのみが必要になる。 広範囲な実験と詳細な分析は、我々のモデル認識アプローチの優位性を実証している。

Retrieval-augmented large language models (LLMs) have been remarkably competent in various NLP tasks. Despite their great success, the knowledge provided by the retrieval process is not always useful for improving the model prediction, since in some samples LLMs may already be quite knowledgeable and thus be able to answer the question correctly without retrieval. Aiming to save the cost of retrieval, previous work has proposed to determine when to do/skip the retrieval in a data-aware manner by analyzing the LLMs' pretraining data. However, these data-aware methods pose privacy risks and memory limitations, especially when requiring access to sensitive or extensive pretraining data. Moreover, these methods offer limited adaptability under fine-tuning or continual learning settings. We hypothesize that token embeddings are able to capture the model's intrinsic knowledge, which offers a safer and more straightforward way to judge the need for retrieval without the privacy risks associated with accessing pre-training data. Moreover, it alleviates the need to retain all the data utilized during model pre-training, necessitating only the upkeep of the token embeddings. Extensive experiments and in-depth analyses demonstrate the superiority of our model-aware approach.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# SDPose:循環誘導自己蒸留によるトークンポス推定

SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation ( http://arxiv.org/abs/2404.03518v1 )

ライセンス: Link先を確認
Sichen Chen, Yingyi Zhang, Siming Huang, Ran Yi, Ke Fan, Ruixin Zhang, Peixian Chen, Jun Wang, Shouhong Ding, Lizhuang Ma, (参考訳) 近年,ヒトのポーズ推定(HPE)において,トランスフォーマーに基づく手法が最先端の予測品質を実現している。 しかしながら、これらのトップパフォーマンスのトランスフォーマーベースのモデルのほとんどは、エッジコンピューティングプラットフォームにデプロイするには計算に時間がかかりすぎるため、ストレージの要求が高すぎる。 より少ないリソースを必要とするトランスフォーマーベースのモデルは、規模が小さいため不適合になりがちである。 そこで本研究では,小型変圧器モデルの性能向上のための自己蒸留法であるSDPoseを紹介する。 マルチサイクル変換器(MCT)と呼ばれるトランスモジュールを複数サイクルのフォワードに基づいて設計し,小型モデルパラメータのポテンシャルをより十分に活用する。 さらに, MCTによる追加の推論計算消費を防止するため, MCTモジュールからナイーブフォワードモデルに知識を抽出する自己蒸留方式を導入する。 具体的には、MSCOCO検証データセット上で、SDPose-Tは4.4Mパラメータと1.8GFLOPを持つ69.7%のmAPを得る。 さらに、SDPose-S-V2は6.2Mパラメータと4.7GFLOPを持つMSCOCO検証データセット上で73.5%のmAPを取得し、主に小さなニューラルネットワーク手法の中で新しい最先端の手法を実現する。 私たちのコードはhttps://github.com/MartyrPenink/SDPose.comで利用可能です。

Recently, transformer-based methods have achieved state-of-the-art prediction quality on human pose estimation(HPE). Nonetheless, most of these top-performing transformer-based models are too computation-consuming and storage-demanding to deploy on edge computing platforms. Those transformer-based models that require fewer resources are prone to under-fitting due to their smaller scale and thus perform notably worse than their larger counterparts. Given this conundrum, we introduce SDPose, a new self-distillation method for improving the performance of small transformer-based models. To mitigate the problem of under-fitting, we design a transformer module named Multi-Cycled Transformer(MCT) based on multiple-cycled forwards to more fully exploit the potential of small model parameters. Further, in order to prevent the additional inference compute-consuming brought by MCT, we introduce a self-distillation scheme, extracting the knowledge from the MCT module to a naive forward model. Specifically, on the MSCOCO validation dataset, SDPose-T obtains 69.7% mAP with 4.4M parameters and 1.8 GFLOPs. Furthermore, SDPose-S-V2 obtains 73.5% mAP on the MSCOCO validation dataset with 6.2M parameters and 4.7 GFLOPs, achieving a new state-of-the-art among predominant tiny neural network methods. Our code is available at https://github.com/MartyrPenink/SDPose.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# 非IIDデータを用いたプライバシフレキシブルフェデレーション学習のための近似勾配符号化

Approximate Gradient Coding for Privacy-Flexible Federated Learning with Non-IID Data ( http://arxiv.org/abs/2404.03524v1 )

ライセンス: Link先を確認
Okko Makkonen, Sampo Niemelä, Camilla Hollanti, Serge Kas Hanna, (参考訳) この研究は、フェデレートラーニングにおける非IIDデータとストラグラー/ドロップアウトの課題に焦点を当てる。 我々は、クライアントのローカルデータの一部を非プライベートとしてモデル化し、プライバシーに関するより汎用的でビジネス指向の視点を提供する、プライバシフレキシブルなパラダイムを導入し、探求する。 本フレームワークでは,ラベルの不均一性とクライアントの階層化がフェデレート学習に与える影響を緩和するためのデータ駆動型戦略を提案する。 我々のソリューションは、オフラインデータ共有と近似勾配符号化の両方を組み合わせている。 MNISTデータセットを用いた数値シミュレーションにより,本手法はプライバシとユーティリティの意図的にトレードオフを実現し,非プライバシデータの適応的な部分を用いてモデル収束と精度を向上させることができることを示した。

This work focuses on the challenges of non-IID data and stragglers/dropouts in federated learning. We introduce and explore a privacy-flexible paradigm that models parts of the clients' local data as non-private, offering a more versatile and business-oriented perspective on privacy. Within this framework, we propose a data-driven strategy for mitigating the effects of label heterogeneity and client straggling on federated learning. Our solution combines both offline data sharing and approximate gradient coding techniques. Through numerical simulations using the MNIST dataset, we demonstrate that our approach enables achieving a deliberate trade-off between privacy and utility, leading to improved model convergence and accuracy while using an adaptable portion of non-private data.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# 悪質な#VC中断でAMD SEV-SNPを破る

WeSee: Using Malicious #VC Interrupts to Break AMD SEV-SNP ( http://arxiv.org/abs/2404.03526v1 )

ライセンス: Link先を確認
Benedict Schlüter, Supraja Sridhara, Andrin Bertschi, Shweta Shinde, (参考訳) AMD SEV-SNPは、機密性の高いクラウドワークロードの機密性と整合性を保護するために、VMレベルの信頼できる実行環境(TEE)を提供する。 AMDは、VMと信頼できないハイパーバイザ間の通信を容易にするために、新しい例外#VCを導入した。 WeSee攻撃では、ハイパーバイザが悪意のある#VCを被害者VMのCPUに注入し、AMD SEV-SNPのセキュリティ保証を侵害する。 具体的には、WeSeeは割り込み番号29を注入し、VMに#VC例外を提供する。 WeSeeは、よく作られた#VCインジェクションを使うことで、攻撃者はVM内で任意の振る舞いを誘導できることを示している。 我々のケーススタディは、WeSeeが機密VM情報(NGINX用のkTLSキー)を漏洩し、カーネルデータ(ファイアウォールルール)を破損させ、任意のコード(カーネル空間からルートシェルを起動する)を注入できることを示しています。

AMD SEV-SNP offers VM-level trusted execution environments (TEEs) to protect the confidentiality and integrity for sensitive cloud workloads from untrusted hypervisor controlled by the cloud provider. AMD introduced a new exception, #VC, to facilitate the communication between the VM and the untrusted hypervisor. We present WeSee attack, where the hypervisor injects malicious #VC into a victim VM's CPU to compromise the security guarantees of AMD SEV-SNP. Specifically, WeSee injects interrupt number 29, which delivers a #VC exception to the VM who then executes the corresponding handler that performs data and register copies between the VM and the hypervisor. WeSee shows that using well-crafted #VC injections, the attacker can induce arbitrary behavior in the VM. Our case-studies demonstrate that WeSee can leak sensitive VM information (kTLS keys for NGINX), corrupt kernel data (firewall rules), and inject arbitrary code (launch a root shell from the kernel space).
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# HAPNet:ハイブリッド・非対称・プログレッシブ・ヘテロジニアス・フュージョンによるRGB-サーマル・シーン・パーシングに向けて

HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion ( http://arxiv.org/abs/2404.03527v1 )

ライセンス: Link先を確認
Jiahang Li, Peng Yun, Qijun Chen, Rui Fan, (参考訳) データ融合ネットワークは、RGB熱水シーン解析において大きな可能性を示している。 しかし、既存の研究の大部分は、不均一な特徴抽出と融合のための対称二重複素エンコーダに依存しており、RGBと熱モダリティの固有の相違に不適切な注意を払っている。 近年の視覚基礎モデル(VFM)の進歩は、膨大な量のラベルのないデータを自己監督することで、情報的、汎用的な特徴を抽出する能力が証明されている。 しかし、このポテンシャルはドメイン内ではまだ完全に活用されていない。 本研究では,本研究領域に向けて,RGB熱水シーン解析のためのVFM機能をフル活用するための実行可能な戦略を探究する。 具体的には、RGBと熱モダリティの特徴を深く掘り下げ、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。 この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。 さらに,融合した特徴の局所的意味論をさらに強化する補助的タスクを導入し,RGB熱水シーン解析の全体的な性能を向上させる。 提案するHAPNetは, 従来のRGB熱水シーン解析ネットワークに比べて優れた性能を示し, 広く利用されている3つのRGB熱水シーン解析データセットの上位に位置する。 我々は,この新たなパラダイムが,データ融合シーン解析手法の今後の発展に新たな機会をもたらすと信じている。

Data-fusion networks have shown significant promise for RGB-thermal scene parsing. However, the majority of existing studies have relied on symmetric duplex encoders for heterogeneous feature extraction and fusion, paying inadequate attention to the inherent differences between RGB and thermal modalities. Recent progress in vision foundation models (VFMs) trained through self-supervision on vast amounts of unlabeled data has proven their ability to extract informative, general-purpose features. However, this potential has yet to be fully leveraged in the domain. In this study, we take one step toward this new research area by exploring a feasible strategy to fully exploit VFM features for RGB-thermal scene parsing. Specifically, we delve deeper into the unique characteristics of RGB and thermal modalities, thereby designing a hybrid, asymmetric encoder that incorporates both a VFM and a convolutional neural network. This design allows for more effective extraction of complementary heterogeneous features, which are subsequently fused in a dual-path, progressive manner. Moreover, we introduce an auxiliary task to further enrich the local semantics of the fused features, thereby improving the overall performance of RGB-thermal scene parsing. Our proposed HAPNet, equipped with all these components, demonstrates superior performance compared to all other state-of-the-art RGB-thermal scene parsing networks, achieving top ranks across three widely used public RGB-thermal scene parsing datasets. We believe this new paradigm has opened up new opportunities for future developments in data-fusion scene parsing approaches.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# BanglaAutoKG:意味的ニューラルグラフフィルタリングによるバングラ知識グラフの自動構築

BanglaAutoKG: Automatic Bangla Knowledge Graph Construction with Semantic Neural Graph Filtering ( http://arxiv.org/abs/2404.03528v1 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Taki Hasan Rafi, Raima Islam, Dong-Kyu Chae, (参考訳) 知識グラフ(KG)は、関連エンティティをリンクし、コンテキストに富んだ情報を提供し、効率的な情報検索と知識発見をサポートし、情報フローを極めて効果的な方法で提示するため、情報処理や推論アプリケーションにおいて必須であることが証明されている。 世界中で広く使われているにもかかわらず、バングラは包括的データセット、エンコーダ、NER(エンティティ認識)モデル、POS(part-of-speech)タグガー、レムマタイザの欠如、言語における効率的な情報処理と推論を妨げているため、KGでは比較的不足している。 ベンガルにおけるKG不足に対処し、バングラテキストからベンガルKGを自動構築できる先駆的なフレームワークであるBanglaAutoKGを提案する。 我々は多言語LLMを用いて様々な言語を理解し、エンティティと関係を普遍的に関連付ける。 翻訳辞書を用いて、英語の等価部分を識別し、事前学習されたBERTモデルから単語の特徴を抽出することにより、基礎的なKGを構築する。 雑音を低減し、単語の埋め込みをゴールに合わせるために、グラフベースの多項式フィルタを用いる。 最後に、文脈的理解を高め、不要なエッジをトリムするGNNベースのセマンティックフィルタを実装し、決定的なKGを形成する。 実験的な結果とケーススタディにより,任意のテキストから意味豊かなKGを自律的に構築できるモデルの有効性が実証された。

Knowledge Graphs (KGs) have proven essential in information processing and reasoning applications because they link related entities and give context-rich information, supporting efficient information retrieval and knowledge discovery; presenting information flow in a very effective manner. Despite being widely used globally, Bangla is relatively underrepresented in KGs due to a lack of comprehensive datasets, encoders, NER (named entity recognition) models, POS (part-of-speech) taggers, and lemmatizers, hindering efficient information processing and reasoning applications in the language. Addressing the KG scarcity in Bengali, we propose BanglaAutoKG, a pioneering framework that is able to automatically construct Bengali KGs from any Bangla text. We utilize multilingual LLMs to understand various languages and correlate entities and relations universally. By employing a translation dictionary to identify English equivalents and extracting word features from pre-trained BERT models, we construct the foundational KG. To reduce noise and align word embeddings with our goal, we employ graph-based polynomial filters. Lastly, we implement a GNN-based semantic filter, which elevates contextual understanding and trims unnecessary edges, culminating in the formation of the definitive KG. Empirical findings and case studies demonstrate the universal effectiveness of our model, capable of autonomously constructing semantically enriched KGs from any text.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# 開量子系における作用素成長と拡散複雑性

Operator growth and spread complexity in open quantum systems ( http://arxiv.org/abs/2404.03529v1 )

ライセンス: Link先を確認
Eoin Carolan, Anthony Kiely, Steve Campbell, Sebastian Deffner, (参考訳) 一般に「量子カオス」という概念は、ユニタリ進化中の複雑な量子系全体にわたる情報の高速なスクランブルを指す。 Krylov複雑性と演算子成長仮説に動機付けられ、演算子に対する集団分布のエントロピーは、環境に従えばシステムの内部情報力学の複雑さを捉えるのに有用な方法であり、原理的には演算子基底の特定の選択に非依存であることを示す。 そこで我々は,Sachdev-Ye-Kitaev (SYK) モデルの有効性を示す。 後者は高散逸のための固有基底であるのに対し、前者の基底最小化は複雑さを拡大することを示す。 どちらの場合も、モデルの長期的ダイナミクスとデコヒーレンスの現象学的影響を考察する。

Commonly, the notion of "quantum chaos'' refers to the fast scrambling of information throughout complex quantum systems undergoing unitary evolution. Motivated by the Krylov complexity and the operator growth hypothesis, we demonstrate that the entropy of the population distribution for an operator in time is a useful way to capture the complexity of the internal information dynamics of a system when subject to an environment and is, in principle, agnostic to the specific choice of operator basis. We demonstrate its effectiveness for the Sachdev-Ye-Kitaev (SYK) model, examining the dynamics of the system in both its Krylov basis and the basis of operator strings. We prove that the former basis minimises spread complexity while the latter is an eigenbasis for high dissipation. In both cases, we probe the long-time dynamics of the model and the phenomenological effects of decoherence on the complexity of the dynamics.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# アフィン半正則多項式列のグレーブナー基底を計算する解次数

The solving degrees for computing Gröbner bases of affine semi-regular polynomial sequences ( http://arxiv.org/abs/2404.03530v1 )

ライセンス: Link先を確認
Momonari Kudo, Kazuhiro Yokoyama, (参考訳) Gr\"{o}bner 基底の計算の複雑さを決定することは、理論と実際の両方において重要な問題であり、解度が重要な役割を果たす。 本稿では,アフィン半規則配列とその同種配列の解度について検討する。 いくつかの結果は、アフィン半正則列によって生成されるイデアルのGr\"{o}bner基底を計算する方法の正しさの数学的に厳密な証明を与えると考えられる。 本論文は,著者の過去の研究の続編であり,Gr\の解度と重要な挙動に関する追加的な結果を与える。

Determining the complexity of computing Gr\"{o}bner bases is an important problem both in theory and in practice, and for that the solving degree plays a key role. In this paper, we study the solving degrees of affine semi-regular sequences and their homogenized sequences. Some of our results are considered to give mathematically rigorous proofs of the correctness of methods for computing Gr\"{o}bner bases of the ideal generated by an affine semi-regular sequence. This paper is a sequel of the authors' previous work and gives additional results on the solving degrees and important behaviors of Gr\"obner basis computation.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# COMO:コンパクトマッピングとオドメトリー

COMO: Compact Mapping and Odometry ( http://arxiv.org/abs/2404.03531v1 )

ライセンス: Link先を確認
Eric Dexheimer, Andrew J. Davison, (参考訳) 我々は3次元アンカー点のコンパクトな集合を通して密度幾何学を符号化する実時間単分子マッピングおよびオドメトリーシステムであるCOMOを提案する。 アンカー点射影をキーフレーム毎の深さ共分散関数を介して密度幾何学に復号することで、深さ写像が可視アンカー点で結合されることが保証される。 この表現は、カメラポーズと密な幾何学、本質的な3次元一貫性、効率的な2階推論の合同最適化を可能にする。 コンパクトで表現力のある地図を維持するために,フレーム間の視覚的に不明瞭な3D点の追跡と初期化に共分散関数を利用するフロントエンドを導入する。 また、正確なポーズと一貫した幾何を推定できるリアルタイムシステムを導入する。

We present COMO, a real-time monocular mapping and odometry system that encodes dense geometry via a compact set of 3D anchor points. Decoding anchor point projections into dense geometry via per-keyframe depth covariance functions guarantees that depth maps are joined together at visible anchor points. The representation enables joint optimization of camera poses and dense geometry, intrinsic 3D consistency, and efficient second-order inference. To maintain a compact yet expressive map, we introduce a frontend that leverages the covariance function for tracking and initializing potentially visually indistinct 3D points across frames. Altogether, we introduce a real-time system capable of estimating accurate poses and consistent geometry.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# 主観的質問訂正としての情報抽出における生成言語モデルの評価

Evaluating Generative Language Models in Information Extraction as Subjective Question Correction ( http://arxiv.org/abs/2404.03532v1 )

ライセンス: Link先を確認
Yuchen Fan, Yantao Liu, Zijun Yao, Jifan Yu, Lei Hou, Juanzi Li, (参考訳) 現代の大規模言語モデル(LLM)は、洗練された認知行動を必要とする様々なタスクにおいて顕著な進歩を見せている。 それにもかかわらず、従来の評価では2つの問題により、関係抽出やイベント抽出といった一見基本的なタスクでは、これらのモデルの性能が劣るパラドックス的な性能差が観察されている。 1) モデル出力と地上の真理のセマンティック一貫性を効果的に評価するのに苦慮する既存の評価指標のインプレクション, (2) 評価ベンチマークの固有の不完全性は, 主に限定的な人間のアノテーションスキーマによるものであり, 結果としてLLM性能が過小評価される。 主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 この方法は, モデル出力とゴールデンラベルのマッチングを洗練するために, 主観的質問訂正データを通じて微調整されたLPMを革新的に利用する。 さらに、自然言語推論(NLI)モデルを導入することで、SQC-Scoreはゴールデンラベルを豊かにし、以前に省略された回答を正しく認めることで、ベンチマークの不完全性に対処する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。 我々は,SQC-Scoreを用いて,最先端のLCMの総合的な評価を行い,今後の情報抽出研究への洞察を提供する。 データセットと関連するコードはhttps://github.com/THU-KEG/SQC-Scoreでアクセスすることができる。

Modern Large Language Models (LLMs) have showcased remarkable prowess in various tasks necessitating sophisticated cognitive behaviors. Nevertheless, a paradoxical performance discrepancy is observed, where these models underperform in seemingly elementary tasks like relation extraction and event extraction due to two issues in conventional evaluation. (1) The imprecision of existing evaluation metrics that struggle to effectively gauge semantic consistency between model outputs and ground truth, and (2) The inherent incompleteness of evaluation benchmarks, primarily due to restrictive human annotation schemas, resulting in underestimated LLM performances. Inspired by the principles in subjective question correction, we propose a new evaluation method, SQC-Score. This method innovatively utilizes LLMs, fine-tuned through subjective question correction data, to refine matching between model outputs and golden labels. Additionally, by incorporating a Natural Language Inference (NLI) model, SQC-Score enriches golden labels, addressing benchmark incompleteness by acknowledging correct yet previously omitted answers. Results on three information extraction tasks show that SQC-Score is more preferred by human annotators than the baseline metrics. Utilizing SQC-Score, we conduct a comprehensive evaluation of the state-of-the-art LLMs and provide insights for future research for information extraction. Dataset and associated codes can be accessed at https://github.com/THU-KEG/SQC-Score.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# 十分でないなら、そのようにしよう:合成顔を通して顔認識における認証データの需要を減らす

If It's Not Enough, Make It So: Reducing Authentic Data Demand in Face Recognition through Synthetic Faces ( http://arxiv.org/abs/2404.03537v1 )

ライセンス: Link先を確認
Andrea Atzori, Fadi Boutros, Naser Damer, Gianni Fenu, Mirko Marras, (参考訳) 近年の深層顔認識の進歩は、大規模で多様で手動で注釈付けされた顔データセットの需要を増大させてきた。 顔認識のための真正で高品質なデータを取得することは、主にプライバシー上の懸念から、困難であることが証明されている。 大規模な顔データセットは、主にWebベースのイメージから作成され、明示的なユーザの同意が欠如している。 本稿では,合成顔データを用いて実画像に頼らずに効果的な顔認識モデルを訓練し,データ収集の懸念を緩和する方法について検討する。 まず,最新の顔認識モデルの性能ギャップについて検討し,合成データのみと認証データのみを用いて訓練した。 そこで我々は,最先端のバックボーンを様々な合成データと認証データの組み合わせで訓練することにより,分析をより深め,検証精度の確保のために,後者の限られた使用法を最適化するための洞察を得た。 最後に、同じ目的を念頭において、データ拡張アプローチが合成データおよび認証データに与える影響を評価した。 以上の結果から,統合データセットでトレーニングしたFRの有効性,特に適切な拡張手法と組み合わせた場合のFRの有効性が明らかとなった。

Recent advances in deep face recognition have spurred a growing demand for large, diverse, and manually annotated face datasets. Acquiring authentic, high-quality data for face recognition has proven to be a challenge, primarily due to privacy concerns. Large face datasets are primarily sourced from web-based images, lacking explicit user consent. In this paper, we examine whether and how synthetic face data can be used to train effective face recognition models with reduced reliance on authentic images, thereby mitigating data collection concerns. First, we explored the performance gap among recent state-of-the-art face recognition models, trained with synthetic data only and authentic (scarce) data only. Then, we deepened our analysis by training a state-of-the-art backbone with various combinations of synthetic and authentic data, gaining insights into optimizing the limited use of the latter for verification accuracy. Finally, we assessed the effectiveness of data augmentation approaches on synthetic and authentic data, with the same goal in mind. Our results highlighted the effectiveness of FR trained on combined datasets, particularly when combined with appropriate augmentation techniques.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# CLIPは、きめ細かいオープンワールド認識の主要な障害か?

Is CLIP the main roadblock for fine-grained open-world perception? ( http://arxiv.org/abs/2404.03539v1 )

ライセンス: Link先を確認
Lorenzo Bianchi, Fabio Carrara, Nicola Messina, Fabrizio Falchi, (参考訳) 現代のアプリケーションでは、トレーニング中に遭遇しない新しい概念に適応する柔軟なコンピュータビジョンモデルがますます求められている。 この必要性は、拡張現実、ロボティクス、自動運転といった、オープンワールドの刺激に反応する能力を必要とする新興分野において重要なものだ。 キーとなる要素は、推論時に定義された自由形式のテキストクエリに基づいてオブジェクトを識別する能力である。 CLIPのようなマルチモーダルバックボーンは、現在のオープンワールド認識ソリューションの主要な実現技術である。 ジェネリッククエリでうまく機能したにもかかわらず、最近の研究では、オープン語彙設定における微妙な認識能力の制限、すなわち色、形状、材料などの微妙なオブジェクトの特徴を区別することを強調している。 本稿では,これらの開語彙オブジェクト認識の制約を詳細に検討し,根本原因を見いだす。 我々は,最も一般的に使用されている視覚言語バックボーンであるCLIPの性能を,粒度の細かいオブジェクトマッチングベンチマークと比較し,オープン語彙オブジェクト検出器の限界と背骨との間の興味深い類似点を明らかにした。 実験結果から,CLIP潜伏空間における物体特性の分離性の欠如に起因する細粒度理解の欠如が示唆された。 そこで我々は,CLIP埋め込みに詳細な知識が存在するが,例えば,重要な対象特性を放棄するコサイン類似性マッチング関数の不適合性に対して,推論時に利用されていないことを理解しようと試みる。 予備実験では、単純なCLIP遅延空間再射は、きめ細かい概念を分離し、本質的にきめ細かい詳細を処理できるバックボーンの開発への道を開くのに役立ちます。 これらの実験を再現するためのコードはhttps://github.com/lorebianchi98/FG-CLIPで公開されている。

Modern applications increasingly demand flexible computer vision models that adapt to novel concepts not encountered during training. This necessity is pivotal in emerging domains like extended reality, robotics, and autonomous driving, which require the ability to respond to open-world stimuli. A key ingredient is the ability to identify objects based on free-form textual queries defined at inference time - a task known as open-vocabulary object detection. Multimodal backbones like CLIP are the main enabling technology for current open-world perception solutions. Despite performing well on generic queries, recent studies highlighted limitations on the fine-grained recognition capabilities in open-vocabulary settings - i.e., for distinguishing subtle object features like color, shape, and material. In this paper, we perform a detailed examination of these open-vocabulary object recognition limitations to find the root cause. We evaluate the performance of CLIP, the most commonly used vision-language backbone, against a fine-grained object-matching benchmark, revealing interesting analogies between the limitations of open-vocabulary object detectors and their backbones. Experiments suggest that the lack of fine-grained understanding is caused by the poor separability of object characteristics in the CLIP latent space. Therefore, we try to understand whether fine-grained knowledge is present in CLIP embeddings but not exploited at inference time due, for example, to the unsuitability of the cosine similarity matching function, which may discard important object characteristics. Our preliminary experiments show that simple CLIP latent-space re-projections help separate fine-grained concepts, paving the way towards the development of backbones inherently able to process fine-grained details. The code for reproducing these experiments is available at https://github.com/lorebianchi98/FG-CLIP.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# 条件拡散モデルを用いたセグメンテーション誘導膝X線生成

Segmentation-Guided Knee Radiograph Generation using Conditional Diffusion Models ( http://arxiv.org/abs/2404.03541v1 )

ライセンス: Link先を確認
Siyuan Mei, Fuxin Fan, Fabian Wagner, Mareike Thies, Mingxuan Gu, Yipeng Sun, Andreas Maier, (参考訳) 深層学習に基づく医療画像処理アルゴリズムは、開発中に代表データを必要とする。 特に、外科的データは入手が困難であり、高品質な公開データセットは限られている。 この制限と拡張データセットを克服するために、広く採用されている解決策は合成画像の生成である。 本研究では条件拡散モデルを用いて輪郭線と骨のセグメンテーションから膝のX線画像を生成する。 注目すべきは、セグメンテーションを条件としてサンプリングおよびトレーニングプロセス、すなわち条件付きサンプリングと条件付きトレーニングに組み込むことによって、2つの異なる戦略が提示されることである。 その結果,両手法は条件付きセグメンテーションに固執しながらリアルな画像を生成することができることがわかった。 条件付き学習法は、条件付きサンプリング法と従来のU-Netより優れる。

Deep learning-based medical image processing algorithms require representative data during development. In particular, surgical data might be difficult to obtain, and high-quality public datasets are limited. To overcome this limitation and augment datasets, a widely adopted solution is the generation of synthetic images. In this work, we employ conditional diffusion models to generate knee radiographs from contour and bone segmentations. Remarkably, two distinct strategies are presented by incorporating the segmentation as a condition into the sampling and training process, namely, conditional sampling and conditional training. The results demonstrate that both methods can generate realistic images while adhering to the conditioning segmentation. The conditional training method outperforms the conditional sampling method and the conventional U-Net.
翻訳日:2024-04-05 14:22:11 公開日:2024-04-04
# CodeEditorBench: 大規模言語モデルのコード編集能力を評価する

CodeEditorBench: Evaluating Code Editing Capability of Large Language Models ( http://arxiv.org/abs/2404.03543v1 )

ライセンス: Link先を確認
Jiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu, (参考訳) コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。 我々はCodeEditorBenchを紹介した。これは、デバッグ、翻訳、研磨、要求切替を含むコード編集タスクにおけるLLMのパフォーマンスを厳格に評価するために設計された評価フレームワークである。 コード生成のみに焦点を当てた既存のベンチマークとは異なり、CodeEditorBenchは実際のシナリオとソフトウェア開発の実践的な側面を強調している。 5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。 19のLCMの評価によると、クローズドソースモデル(特にGemini-UltraとGPT-4)はCodeEditorBenchのオープンソースモデルよりも優れており、問題タイプに基づいたモデルパフォーマンスの違いと、感性の向上が強調されている。 CodeEditorBenchは、コード編集機能を評価する堅牢なプラットフォームを提供することで、LLMの進歩を触媒することを目指している。 コミュニティがデータセットを拡張し、新興LLMをベンチマークできるように、すべてのプロンプトとデータセットをリリースします。 CodeEditorBenchを導入することで、コード編集におけるLLMの進歩に貢献し、研究者や実践者にとって貴重なリソースを提供する。

Large Language Models (LLMs) for code are rapidly evolving, with code editing emerging as a critical capability. We introduce CodeEditorBench, an evaluation framework designed to rigorously assess the performance of LLMs in code editing tasks, including debugging, translating, polishing, and requirement switching. Unlike existing benchmarks focusing solely on code generation, CodeEditorBench emphasizes real-world scenarios and practical aspects of software development. We curate diverse coding challenges and scenarios from five sources, covering various programming languages, complexity levels, and editing tasks. Evaluation of 19 LLMs reveals that closed-source models (particularly Gemini-Ultra and GPT-4), outperform open-source models in CodeEditorBench, highlighting differences in model performance based on problem types and prompt sensitivities. CodeEditorBench aims to catalyze advancements in LLMs by providing a robust platform for assessing code editing capabilities. We will release all prompts and datasets to enable the community to expand the dataset and benchmark emerging LLMs. By introducing CodeEditorBench, we contribute to the advancement of LLMs in code editing and provide a valuable resource for researchers and practitioners.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# 因果ファインマンループ構成と有向非巡回グラフのための多制御トフォリゲートに基づく量子クエリ

Quantum querying based on multicontrolled Toffoli gates for causal Feynman loop configurations and directed acyclic graphs ( http://arxiv.org/abs/2404.03544v1 )

ライセンス: Link先を確認
Selomit Ramírez-Uribe, Andrés E. Rentería-Olivo, Germán Rodrigo, (参考訳) 量子アルゴリズムは、明らかに因果表現のシナリオが存在するため、ファインマンループ積分を適切に扱う上で有望なフレームワークである。 特に、マルチループファインマン図形の展開因果構成は、グラフ理論における無向グラフの \textit{directed acyclic graph} (DAG) 構成を問うものとして理解される。 本稿では,多ループファインマン図の因果関係を探索する量子アルゴリズムを提案する。 量子オラクルの構成は驚くほど、多制御トフォリゲートとXNOTゲートのみに基づいている。 アルゴリズムの効率を二項節に基づく量子アルゴリズムとの比較により評価する。 さらに,3,4,5ループのトポロジを明示的に解析した。

Quantum algorithms are a promising framework for a proper treatment of Feynman loop integrals due to the existence of a manifestly causal representation scenario. Particularly, unfolding causal configurations of multiloop Feynman diagrams is understood as querying \textit{directed acyclic graph} (DAG) configurations of undirected graphs in graph theory. In this paper we present a quantum algorithm for querying causality of multiloop Feynman diagrams using an ingenious change in the logic of the design of the oracle operator. The construction of the quantum oracle is surprisingly based exclusively on multicontrolled Toffoli gates and XNOT gates. The efficiency of the algorithm is evaluated performing a comparison with a quantum algorithm based on binary clauses. Additionally, we explicitly analise several three-, four- and five-eloop topologies, which have not been previously explored due to their higher complexity.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# PSG信号におけるアルツハイマー病の検出

Alzheimer's disease detection in PSG signals ( http://arxiv.org/abs/2404.03549v1 )

ライセンス: Link先を確認
Lorena Gallego-Viñarás, Juan Miguel Mira-Tomás, Anna Michela-Gaeta, Gerard Pinol-Ripoll, Ferrán Barbé, Pablo M. Olmos, Arrate Muñoz-Barrutia, (参考訳) アルツハイマー病(AD)と睡眠障害は密接に関連しており、睡眠パターンの混乱は軽度認知障害(MCI)と早期ADの発症に先行することが多い。 本研究は,睡眠関連脳波(EEG)信号の早期検出にPSG(Polysomnography)による利用の可能性について検討した。 本研究は,脳波信号の分類のための半教師付き深層学習技術を検討することを目的としている。 この手法は、半教師付きSMATEモデルとTapNetモデルの試験と比較を行い、教師付きXCMモデルと教師なしHMM(Hidden Markov Models)とをベンチマークする。 この研究は、各睡眠段階の独立した分析を行い、空間的および時間的分析能力の重要性を強調した。 その結果,限定ラベル付きデータを活用する上でSMATEの有効性が示され,すべての睡眠段階にわたって安定した測定値が得られ,90%の精度が得られた。 比較分析では、TapNetとHMMよりもSMATEの方が優れた性能を示し、XCMは92~94%の精度で教師付きシナリオに優れている。 これらの結果から,早期AD検出における半教師付きモデルの可能性,特にラベル付きデータの不足に伴う課題を克服する可能性が示唆された。 アブレーション試験では,半教師付き予測性能における時空間特徴抽出の重要性が確認され,t-SNE視覚化によりADパターンの識別精度が検証された。 全体として、この研究は、革新的なディープラーニングアプローチによるAD検出の進歩に寄与し、データ制限に対処する上で、半教師付き学習が果たす重要な役割を強調している。

Alzheimer's disease (AD) and sleep disorders exhibit a close association, where disruptions in sleep patterns often precede the onset of Mild Cognitive Impairment (MCI) and early-stage AD. This study delves into the potential of utilizing sleep-related electroencephalography (EEG) signals acquired through polysomnography (PSG) for the early detection of AD. Our primary focus is on exploring semi-supervised Deep Learning techniques for the classification of EEG signals due to the clinical scenario characterized by the limited data availability. The methodology entails testing and comparing the performance of semi-supervised SMATE and TapNet models, benchmarked against the supervised XCM model, and unsupervised Hidden Markov Models (HMMs). The study highlights the significance of spatial and temporal analysis capabilities, conducting independent analyses of each sleep stage. Results demonstrate the effectiveness of SMATE in leveraging limited labeled data, achieving stable metrics across all sleep stages, and reaching 90% accuracy in its supervised form. Comparative analyses reveal SMATE's superior performance over TapNet and HMM, while XCM excels in supervised scenarios with an accuracy range of 92 - 94%. These findings underscore the potential of semi-supervised models in early AD detection, particularly in overcoming the challenges associated with the scarcity of labeled data. Ablation tests affirm the critical role of spatio-temporal feature extraction in semi-supervised predictive performance, and t-SNE visualizations validate the model's proficiency in distinguishing AD patterns. Overall, this research contributes to the advancement of AD detection through innovative Deep Learning approaches, highlighting the crucial role of semi-supervised learning in addressing data limitations.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# ニュースから要約へ - 抽出的・抽象的要約のためのハンガリー語コーパスの構築

From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization ( http://arxiv.org/abs/2404.03555v1 )

ライセンス: Link先を確認
Botond Barta, Dorina Lakatos, Attila Nagy, Milán Konor Nyist, Judit Ács, (参考訳) 要約モデルのトレーニングには、かなりの量のトレーニングデータが必要である。 しかし、ハンガリー語のようなリソースの少ない言語では、オープンに利用可能なモデルやデータセットは特に少ない。 このギャップに対処するために,本稿では,抽象的および抽出的要約モデルのトレーニングに適したオープンソースのハンガリー語コーパスであるHunSum-2を紹介する。 データセットは、徹底的なクリーニング、前処理、重複処理を行うCommon Crawlコーパスのセグメントから組み立てられる。 抽象要約に加えて,文類似性を用いた抽出要約のための文レベルラベルを生成する。 収集したデータセットを用いて抽出および抽象的な要約のためのベースラインモデルを訓練する。 トレーニングモデルの有効性を示すため,定量的および定性的な評価を行った。 私たちのデータセット、モデル、コードは公開されており、様々なドメインにわたるレプリケーション、さらなる研究、および現実世界のアプリケーションを促進しています。

Training summarization models requires substantial amounts of training data. However for less resourceful languages like Hungarian, openly available models and datasets are notably scarce. To address this gap our paper introduces HunSum-2 an open-source Hungarian corpus suitable for training abstractive and extractive summarization models. The dataset is assembled from segments of the Common Crawl corpus undergoing thorough cleaning, preprocessing and deduplication. In addition to abstractive summarization we generate sentence-level labels for extractive summarization using sentence similarity. We train baseline models for both extractive and abstractive summarization using the collected dataset. To demonstrate the effectiveness of the trained models, we perform both quantitative and qualitative evaluation. Our dataset, models and code are publicly available, encouraging replication, further research, and real-world applications across various domains.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# マルチタスク学習が変圧器のインコンテキスト能力に与える影響 : 機能授業による検討

How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes ( http://arxiv.org/abs/2404.03558v1 )

ライセンス: Link先を確認
Harmon Bhasin, Timothy Ossowski, Yiqiao Zhong, Junjie Hu, (参考訳) 大規模言語モデル(LLM)は、テキストとして提供される数少ない例(in-context learning (ICL)としても知られる)に基づいて、目に見えないタスクを実行する能力を示した。 最近の研究はICLを駆動するメカニズムを理解しようと試みているが、これらのモデルを複数のタスクに一般化するための訓練戦略を探求する者はほとんどいない。 汎用モデルのためのマルチタスク学習(MTL)は、伝達学習の可能性を提供する有望な方向であり、より単純な関連するタスクから大きなパラメータ化モデルを訓練することができる。 本研究では,MLL と ICL を組み合わせることで,タスクを効率的に学習し,アウト・オブ・ディストリビューションの例に頑健なモデルを構築する。 我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。 実験の結果, ICLモデルでは, 従来の課題を混在させながら, 難易度の高い課題を学習することで, 難易度の高い課題を効果的に学習できることが判明した。 私たちのコードとモデルはhttps://github.com/harmonbhasin/curriculum_learning_icl で利用可能です。

Large language models (LLM) have recently shown the extraordinary ability to perform unseen tasks based on few-shot examples provided as text, also known as in-context learning (ICL). While recent works have attempted to understand the mechanisms driving ICL, few have explored training strategies that incentivize these models to generalize to multiple tasks. Multi-task learning (MTL) for generalist models is a promising direction that offers transfer learning potential, enabling large parameterized models to be trained from simpler, related tasks. In this work, we investigate the combination of MTL with ICL to build models that efficiently learn tasks while being robust to out-of-distribution examples. We propose several effective curriculum learning strategies that allow ICL models to achieve higher data efficiency and more stable convergence. Our experiments reveal that ICL models can effectively learn difficult tasks by training on progressively harder tasks while mixing in prior tasks, denoted as mixed curriculum in this work. Our code and models are available at https://github.com/harmonbhasin/curriculum_learning_icl .
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# 量子パスカルピラミッドと拡張 de Moivre-Laplace 定理

A quantum Pascal pyramid and an extended de Moivre-Laplace theorem ( http://arxiv.org/abs/2404.03560v1 )

ライセンス: Link先を確認
Mohamed Sabba, (参考訳) パスカルの三角形は、磁気共鳴において$I_N S$結合スピン-1/2系のスペクトルに生じる「一階の」多重パターンを説明するための教育ツールとして広く用いられている。 量子力学の幅広い分野でよく知られる様々な組み合わせ構造は、潜在的な有用性にもかかわらず、いくつかの例外を除いて、磁気共鳴コミュニティの注意をほとんど逃がしたようである。 この短い講義ノートでは、「量子パスカルピラミッド」(OEIS $\href{https://oeis.org/A268533}{A268533}$)をパスカルの三角形の一般化として記述し、これは任意のスピン積ランク$q$$\hat{Z}_N^q$のマルチスピン作用素と磁気量子数$m$$\hat{S}_N^m$を持つ状態の集団作用素の関係を直接写像し、結果として、反相単量子コヒーレンスに関連する多重項の強度比の一般形式を得る。 デ・モイブル=ラプラスの定理の拡張は、自明な場合の$q=0$を超えて、量子パスカルピラミッドの$q$-番目の列に適用され、$q$-階エルミート多項式の積とガウス分布の項で与えられ、量子調和振動子の解のよく知られた関数形式とレーザー物理学におけるエルミート-ガウスモードの古典的な極限を再現する(Allen et al , $\textit{Phys)。 略称A。 }$, $\textbf{45}$, 1992)。 これは、任意の複雑性の$\hat{Z}_N^q$-associated multipletsのフーリエ変換スペクトルを近似するために用いられる。 最後に、量子パスカルピラミッドの最初の2つの列を用いて、スピン系における$I_N S_z$偏極転移の既知対称性制約上界を計算する運動が示される。

Pascal's triangle is widely used as a pedagogical tool to explain the "first-order" multiplet patterns that arise in the spectra of $I_N S$ coupled spin-1/2 systems in magnetic resonance. Various other combinatorial structures, which may be well-known in the broader field of quantum dynamics, appear to have largely escaped the attention of the magnetic resonance community with a few exceptions, despite potential usefulness. In this brief set of lecture notes, we describe a "quantum Pascal pyramid" (OEIS $\href{https://oeis.org/A268533}{A268533}$) as a generalization of Pascal's triangle, which is shown to directly map the relationship between multispin operators of arbitrary spin product rank $q$ ($\hat{Z}_N^q$) and population operators for states with magnetic quantum number $m$ ($\hat{S}_N^m$), and - as a consequence - obtain the general form of the intensity ratios of multiplets associated with antiphase single-quantum coherences, with an expression given in terms of the Jacobi polynomials. An extension of the de Moivre-Laplace theorem, beyond the trivial case $q=0$, is applied to the $q$-th columns of the quantum Pascal pyramid, and is given in terms of a product of the $q$-th order Hermite polynomials and a Gaussian distribution, reproducing the well-known functional forms of the solutions of the quantum harmonic oscillator and the classical limit of Hermite-Gaussian modes in laser physics (Allen et al., $\textit{Phys. Rev. A.}$, $\textbf{45}$, 1992). This is used to approximate the Fourier-transformed spectra of $\hat{Z}_N^q$-associated multiplets of arbitrary complexity. Finally, an exercise is shown in which the first two columns of the quantum Pascal pyramid are used to calculate the previously known symmetry-constrained upper bound on $I_z \rightarrow S_z$ polarization transfer in $I_N S$ spin systems.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# Select and Summarize:Scene Saliency for Movie Script Summarization

Select and Summarize: Scene Saliency for Movie Script Summarization ( http://arxiv.org/abs/2404.03561v1 )

ライセンス: Link先を確認
Rohit Saxena, Frank Keller, (参考訳) 映画脚本などの長文物語テキストの抽象的要約は、現在の言語モデルにおける計算的制約とメモリ的制約のために困難である。 映画脚本は典型的には多数の場面から構成されるが、これらのシーンのごく一部、すなわち全体の物語を理解する上で重要なものである。 要約に言及すれば、シーンのサリエンスをサリエントとして考えることで、シーンのサリエンスを運用することができる。 適切なデータセットがないため、適切なシーンを自動的に識別することは困難である。 そこで本研究では,100本の映画に対して,人間による注釈付きサリエントシーンからなるシーン・サリエンシ・データセットを提案する。 そこで本研究では,まずスクリプト中の健全なシーンを識別し,そのシーンのみを用いて要約を生成する2段階の抽象要約手法を提案する。 そこで本研究では,QAに基づく評価により,従来の要約手法よりも優れた性能を示し,映画の情報内容をより正確に反映することを示した。

Abstractive summarization for long-form narrative texts such as movie scripts is challenging due to the computational and memory constraints of current language models. A movie script typically comprises a large number of scenes; however, only a fraction of these scenes are salient, i.e., important for understanding the overall narrative. The salience of a scene can be operationalized by considering it as salient if it is mentioned in the summary. Automatically identifying salient scenes is difficult due to the lack of suitable datasets. In this work, we introduce a scene saliency dataset that consists of human-annotated salient scenes for 100 movies. We propose a two-stage abstractive summarization approach which first identifies the salient scenes in script and then generates a summary using only those scenes. Using QA-based evaluation, we show that our model outperforms previous state-of-the-art summarization methods and reflects the information content of a movie more accurately than a model that takes the whole movie script as input.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# EASSE-DE:ドイツ語の自動文簡易化評価

EASSE-DE: Easier Automatic Sentence Simplification Evaluation for German ( http://arxiv.org/abs/2404.03563v1 )

ライセンス: Link先を確認
Regina Stodden, (参考訳) 本研究では,英語以外の言語での文の自動評価を容易にするフレームワークであるEASSE-multiを提案する。 オリジナルのEASSEフレームワークと比較して、EASSE-multiは英語のみに焦点を当てていない。 トークン化器と、複数の言語に適したテキスト単純化評価メトリクスのバージョンを含んでいる。 本稿では、ドイツ語TSにおけるEASSE-multiの使用例を示し、その結果、EASSE-DEとなる。 さらに、異なる言語での評価やメトリクスのトークン化設定において、テキストの単純化結果を比較する。 これに基づいて、我々は(ドイツ)TSモデルの評価をより透明化し、比較しやすくする方法に関する勧告を定式化する。 EASSE-multiとそのドイツの特殊化(EASSE-DE)のコードはhttps://github.com/rstodden/easse-deにある。

In this work, we propose EASSE-multi, a framework for easier automatic sentence evaluation for languages other than English. Compared to the original EASSE framework, EASSE-multi does not focus only on English. It contains tokenizers and versions of text simplification evaluation metrics which are suitable for multiple languages. In this paper, we exemplify the usage of EASSE-multi for German TS, resulting in EASSE-DE. Further, we compare text simplification results when evaluating with different language or tokenization settings of the metrics. Based on this, we formulate recommendations on how to make the evaluation of (German) TS models more transparent and better comparable. The code of EASSE-multi and its German specialisation (EASSE-DE) can be found at https://github.com/rstodden/easse-de.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# パラメータ化メモリインジェクションを用いたパーソナライズLDM応答生成

Personalized LLM Response Generation with Parameterized Memory Injection ( http://arxiv.org/abs/2404.03565v1 )

ライセンス: Link先を確認
Kai Zhang, Lizhi Qing, Yangyang Kang, Xiaozhong Liu, (参考訳) 大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。 一方、パーソナライズされたLDM応答生成は、医療などの重要な分野の個人に多大な利益をもたらす可能性がある。 既存の研究では、新しいクエリの点から、パーソナライズされた応答生成のためのユーザー固有の知識を予め蓄積したLLMに促すためのメモリ拡張手法が検討されている。 このようなパラダイムは、微粒な粒度情報を知覚できない、と我々は主張する。 本研究では,パラメータ係数ファインチューニング(PEFT)とベイズ最適化探索戦略を併用して,新しい「textbf{M}emory-\textbf{i}njected approach」を提案し,それを用いて「textbf{L}LM \textbf{P}ersonalization(\textbf{MiLP})」を実現する。

Large Language Models (LLMs) have exhibited remarkable proficiency in comprehending and generating natural language. On the other hand, personalized LLM response generation holds the potential to offer substantial benefits for individuals in critical areas such as medical. Existing research has explored memory-augmented methods to prompt the LLM with pre-stored user-specific knowledge for personalized response generation in terms of new queries. We contend that such paradigm is unable to perceive fine-granularity information. In this study, we propose a novel \textbf{M}emory-\textbf{i}njected approach using parameter-efficient fine-tuning (PEFT) and along with a Bayesian Optimisation searching strategy to achieve \textbf{L}LM \textbf{P}ersonalization(\textbf{MiLP}).
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# 点無限性:分解能不変点拡散モデル

PointInfinity: Resolution-Invariant Point Diffusion Models ( http://arxiv.org/abs/2404.03566v1 )

ライセンス: Link先を確認
Zixuan Huang, Justin Johnson, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu, (参考訳) 我々は、点雲拡散モデルの効率的なファミリーであるポイントインフィニティを提示する。 私たちの中核的な考え方は、固定サイズ、解像度不変の潜在表現を備えたトランスフォーマーベースのアーキテクチャを使用することです。 これにより、低解像度の点雲による効率的なトレーニングを可能にし、推論中に高解像度の点雲を生成することができる。 さらに重要なことは、トレーニングの解像度を超えてテスト時間の解決をスケールすることで、生成された点雲と表面の忠実度が向上することを示している。 この現象を解析し,拡散モデルでよく用いられる分類器フリーガイダンスへのリンクを抽出し,両者が推論中に不確かさと変動性を取引できることを実証した。 CO3Dの実験により、ポイントインフィニティは最先端の品質を持つ高解像度の点雲(最大131k、ポイントEの31倍)を効率的に生成できることが示された。

We present PointInfinity, an efficient family of point cloud diffusion models. Our core idea is to use a transformer-based architecture with a fixed-size, resolution-invariant latent representation. This enables efficient training with low-resolution point clouds, while allowing high-resolution point clouds to be generated during inference. More importantly, we show that scaling the test-time resolution beyond the training resolution improves the fidelity of generated point clouds and surfaces. We analyze this phenomenon and draw a link to classifier-free guidance commonly used in diffusion models, demonstrating that both allow trading off fidelity and variability during inference. Experiments on CO3D show that PointInfinity can efficiently generate high-resolution point clouds (up to 131k points, 31 times more than Point-E) with state-of-the-art quality.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# 信号分解による地形点雲の塗布

Terrain Point Cloud Inpainting via Signal Decomposition ( http://arxiv.org/abs/2404.03572v1 )

ライセンス: Link先を確認
Yizhou Xie, Xiangning Xie, Yuran Wang, Yanci Zhang, Zejun Lv, (参考訳) 3D取得技術の急速な発展により、現実世界の地形の点雲の取得が可能になった。 しかし、センサー取得技術や特定の要件に制限があるため、ポイントクラウドには、欠落したデータの穴のような欠陥がしばしば含まれている。 塗装アルゴリズムはこれらの穴にパッチを当てるために広く使われている。 しかし、既存の塗装アルゴリズムは正確な穴の境界に依存しており、境界が明確に定義されていないケースを扱う能力を制限する。 一方、学習ベースの補完手法では、穴埋めのみに焦点をあてるのではなく、ポイントクラウド全体の再構築を優先することが多い。 実世界の地形がグローバルな滑らかさとリッチな局部的詳細の両方を示すという事実に基づいて,地形点雲の表現を新たに提案する。 この表現は、明確な境界なしに穴を修復するのに役立ちます。 具体的には、地形を低周波成分と高周波成分に分解し、それぞれB-スプライン面と相対高さマップで表される。 このように、地形点雲の塗布問題は、Bスプライン表面の嵌合と2次元画像の塗布問題に変換される。 この2つの問題を解くことで、地形点の雲の非常に複雑で不規則な穴を十分に埋めることができ、地球上の地形の起伏を満足するだけでなく、リッチな幾何学的詳細も示せる。 また,本手法の有効性を実験的に検証した。

The rapid development of 3D acquisition technology has made it possible to obtain point clouds of real-world terrains. However, due to limitations in sensor acquisition technology or specific requirements, point clouds often contain defects such as holes with missing data. Inpainting algorithms are widely used to patch these holes. However, existing traditional inpainting algorithms rely on precise hole boundaries, which limits their ability to handle cases where the boundaries are not well-defined. On the other hand, learning-based completion methods often prioritize reconstructing the entire point cloud instead of solely focusing on hole filling. Based on the fact that real-world terrain exhibits both global smoothness and rich local detail, we propose a novel representation for terrain point clouds. This representation can help to repair the holes without clear boundaries. Specifically, it decomposes terrains into low-frequency and high-frequency components, which are represented by B-spline surfaces and relative height maps respectively. In this way, the terrain point cloud inpainting problem is transformed into a B-spline surface fitting and 2D image inpainting problem. By solving the two problems, the highly complex and irregular holes on the terrain point clouds can be well-filled, which not only satisfies the global terrain undulation but also exhibits rich geometric details. The experimental results also demonstrate the effectiveness of our method.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# TinyVQA:資源制約デバイスに対する視覚質問応答のための小型マルチモーダルディープニューラルネットワーク

TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices ( http://arxiv.org/abs/2404.03574v1 )

ライセンス: Link先を確認
Hasib-Al Rashid, Argho Sarkar, Aryya Gangopadhyay, Maryam Rahnemoonfar, Tinoosh Mohsenin, (参考訳) 従来の機械学習モデルは、しばしば強力なハードウェアを必要とするため、リソース制限されたデバイスへのデプロイには適さない。 Tiny Machine Learning(tinyML)は、これらのデバイス上で機械学習モデルを実行するための有望なアプローチとして登場したが、複雑さ、レイテンシ、消費電力の増加により、複数のデータモダリティを小さなMLモデルに統合することは依然として課題である。 本稿では、リソース制約の小さなMLハードウェアにデプロイ可能な視覚質問応答タスクのための、新しいマルチモーダルディープニューラルネットワークTinyVQAを提案する。 TinyVQAは、教師付きアテンションベースのモデルを利用して、視覚と言語の両方のモダリティを使用して、画像に関する質問に答える方法を学ぶ。 教師付き注意に基づくVQAモデルからの希薄な知識は、メモリを意識したコンパクトTinyVQAモデルを訓練し、低ビット幅量子化技術を用いて、小型MLデバイスに展開するためのモデルをさらに圧縮する。 The TinyVQA model were evaluate on the FloodNet dataset, which is used for post-disaster damage Assessment。 小型モデルは79.5%の精度を達成し、現実の応用にTinyVQAの有効性を示した。 さらにこのモデルは、AIデッキとGAP8マイクロプロセッサを備えたCrzyflie 2.0ドローンに配備された。 TinyVQAモデルは56ミリ秒の低レイテンシを実現し、小型ドローンに配備されている間は693ミリワットの電力を消費する。

Traditional machine learning models often require powerful hardware, making them unsuitable for deployment on resource-limited devices. Tiny Machine Learning (tinyML) has emerged as a promising approach for running machine learning models on these devices, but integrating multiple data modalities into tinyML models still remains a challenge due to increased complexity, latency, and power consumption. This paper proposes TinyVQA, a novel multimodal deep neural network for visual question answering tasks that can be deployed on resource-constrained tinyML hardware. TinyVQA leverages a supervised attention-based model to learn how to answer questions about images using both vision and language modalities. Distilled knowledge from the supervised attention-based VQA model trains the memory aware compact TinyVQA model and low bit-width quantization technique is employed to further compress the model for deployment on tinyML devices. The TinyVQA model was evaluated on the FloodNet dataset, which is used for post-disaster damage assessment. The compact model achieved an accuracy of 79.5%, demonstrating the effectiveness of TinyVQA for real-world applications. Additionally, the model was deployed on a Crazyflie 2.0 drone, equipped with an AI deck and GAP8 microprocessor. The TinyVQA model achieved low latencies of 56 ms and consumes 693 mW power while deployed on the tiny drone, showcasing its suitability for resource-constrained embedded systems.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# DreamScene: フォーメーションパターンサンプリングによる3Dガウスに基づくテキストから3Dのシーン生成

DreamScene: 3D Gaussian-based Text-to-3D Scene Generation via Formation Pattern Sampling ( http://arxiv.org/abs/2404.03575v1 )

ライセンス: Link先を確認
Haoran Li, Haolin Shi, Wenli Zhang, Wenjun Wu, Yong Liao, Lin Wang, Lik-hang Lee, Pengyuan Zhou, (参考訳) テキストから3Dのシーン生成は、ゲーム、映画、建築の分野で大きな可能性を秘めている。 大幅な進歩にもかかわらず、既存のメソッドは高品質、一貫性、編集の柔軟性を維持するのに苦労している。 本稿では,前述の3つの課題に主に2つの戦略を用いて取り組むために,3次元ガウスに基づく新しい3次元シーン生成フレームワークであるDreamSceneを提案する。 まずDreamSceneは、3Dオブジェクトの生成パターンによってガイドされるマルチステップサンプリング戦略であるFormation Pattern Smpling(FPS)を採用して、高速でセマンティックにリッチで高品質な表現を形成する。 FPSは最適化安定性のために3Dガウスフィルタを使用し、再現技術を活用して可塑性テクスチャを生成する。 第二に、DreamSceneは、屋内と屋外の両方に特化して設計されたプログレッシブな3段階カメラサンプリング戦略を採用しており、オブジェクト環境統合とシーン全体の3D一貫性を効果的に確保している。 最後にDreamSceneは、オブジェクトと環境を統合することでシーン編集の柔軟性を高め、ターゲットの調整を可能にする。 広範囲にわたる実験は、現在の最先端技術よりもドリームシーンの優位性を検証し、幅広い応用の可能性を強調した。 コードとデモはhttps://dreamscene-project.github.ioで公開される。

Text-to-3D scene generation holds immense potential for the gaming, film, and architecture sectors. Despite significant progress, existing methods struggle with maintaining high quality, consistency, and editing flexibility. In this paper, we propose DreamScene, a 3D Gaussian-based novel text-to-3D scene generation framework, to tackle the aforementioned three challenges mainly via two strategies. First, DreamScene employs Formation Pattern Sampling (FPS), a multi-timestep sampling strategy guided by the formation patterns of 3D objects, to form fast, semantically rich, and high-quality representations. FPS uses 3D Gaussian filtering for optimization stability, and leverages reconstruction techniques to generate plausible textures. Second, DreamScene employs a progressive three-stage camera sampling strategy, specifically designed for both indoor and outdoor settings, to effectively ensure object-environment integration and scene-wide 3D consistency. Last, DreamScene enhances scene editing flexibility by integrating objects and environments, enabling targeted adjustments. Extensive experiments validate DreamScene's superiority over current state-of-the-art techniques, heralding its wide-ranging potential for diverse applications. Code and demos will be released at https://dreamscene-project.github.io .
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# KNOTのアンタングル:大言語モデルにおける矛盾する知識と推論スキルの相互作用

Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models ( http://arxiv.org/abs/2404.03577v1 )

ライセンス: Link先を確認
Yantao Liu, Zijun Yao, Xin Lv, Yuchen Fan, Shulin Cao, Jifan Yu, Lei Hou, Juanzi Li, (参考訳) 大規模言語モデル(LLM)の知識ドキュメントの提供は,パラメータに固有の静的知識を更新するための,有望なソリューションとして現れている。 しかし、文書内の知識は、LLMのパラメータにおける時代遅れまたは誤った知識のため、LLMの記憶と矛盾する可能性がある。 これにより、LLMが記憶と矛盾する補足的外部知識を同化させる能力を調べる必要がある。 以前の研究では、LLMが提供された文章から矛盾する知識をどの程度抽出するかが説明されているが、矛盾する知識を推論する必要性は無視されている。 さらに、LLMがインプロンプト、デコード戦略、教師付き微調整を通じて矛盾する知識を解決できる戦略に関する詳細な分析は存在しない。 これらの制約に対処するため,知識紛争解決のための新しいデータセットKNOTを構築した。 KNOTは、矛盾する知識と推論を3つのレベルに分割することで、深い分析を促進する。 2) 説明推論(Explicit Reasoning)とは,質問において推論パスが明示的に提供される場合に,知識が矛盾する理由である。 3) 矛盾する知識を推論するためには, LLMが独立して推論経路を推測し, 疑問に答える必要がある。 我々はまた、複雑な状況下での矛盾する知識を活用するためのLLMの実証的ガイドラインを確立するために、KNOTに関する広範な実験を行った。 データセットと関連するコードはhttps://github.com/THU-KEG/KNOT でアクセスできる。

Providing knowledge documents for large language models (LLMs) has emerged as a promising solution to update the static knowledge inherent in their parameters. However, knowledge in the document may conflict with the memory of LLMs due to outdated or incorrect knowledge in the LLMs' parameters. This leads to the necessity of examining the capability of LLMs to assimilate supplemental external knowledge that conflicts with their memory. While previous studies have explained to what extent LLMs extract conflicting knowledge from the provided text, they neglect the necessity to reason with conflicting knowledge. Furthermore, there lack a detailed analysis on strategies to enable LLMs to resolve conflicting knowledge via prompting, decoding strategy, and supervised fine-tuning. To address these limitations, we construct a new dataset, dubbed KNOT, for knowledge conflict resolution examination in the form of question answering. KNOT facilitates in-depth analysis by dividing reasoning with conflicting knowledge into three levels: (1) Direct Extraction, which directly extracts conflicting knowledge to answer questions. (2) Explicit Reasoning, which reasons with conflicting knowledge when the reasoning path is explicitly provided in the question. (3) Implicit Reasoning, where reasoning with conflicting knowledge requires LLMs to infer the reasoning path independently to answer questions. We also conduct extensive experiments on KNOT to establish empirical guidelines for LLMs to utilize conflicting knowledge in complex circumstances. Dataset and associated codes can be accessed at https://github.com/THU-KEG/KNOT .
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# 対話型データ収集によるロバスト強化学習:基本硬さと近似アルゴリズム

Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm ( http://arxiv.org/abs/2404.03578v1 )

ライセンス: Link先を確認
Miao Lu, Han Zhong, Tong Zhang, Jose Blanchet, (参考訳) 訓練環境とテスト環境の相違を表すsim-to-realギャップは、強化学習(RL)において大きな課題となる。 この課題に対処するための有望なアプローチは分布的に堅牢なRLであり、しばしばロバストなマルコフ決定プロセス(RMDP)としてフレーム化されている。 本フレームワークでは,トレーニング環境を中心とした不確実性設定において,すべての環境の中で最悪のシナリオ下での良好なパフォーマンスを実現するための堅牢なポリシを見つけることを目的とする。 学習者が学習環境のみと対話し、試行錯誤によってポリシーを洗練する、インタラクティブなデータ収集を通じてロバストなRLに取り組む。 この堅牢なRLパラダイムでは、2つの大きな課題が浮かび上がっています。 当初,追加の仮定のないサンプル効率学習は,サポートシフトの呪い,すなわちトレーニング環境とテスト環境の間の分散サポートの潜在的不整合性によって達成不可能であることが確認された。 このような難易度を回避すべく、最適なロバスト値関数の最小値がゼロであることを仮定して、全変量(TV)距離ロバストセットを持つRMDPに最小値仮定を導入する。 このような仮定は、テレビ距離ロバストなセットを持つRMDPのサポートシフト問題を効果的に排除し、証明可能なサンプル複雑性保証付きアルゴリズムを提案する。 我々の研究は、インタラクティブなデータ収集と、シャープなサンプル複雑性解析を伴うサンプル効率アルゴリズムを設計するための十分な条件によって、ロバストなRLの本質的な難しさを明らかにするための最初のステップである。

The sim-to-real gap, which represents the disparity between training and testing environments, poses a significant challenge in reinforcement learning (RL). A promising approach to addressing this challenge is distributionally robust RL, often framed as a robust Markov decision process (RMDP). In this framework, the objective is to find a robust policy that achieves good performance under the worst-case scenario among all environments within a pre-specified uncertainty set centered around the training environment. Unlike previous work, which relies on a generative model or a pre-collected offline dataset enjoying good coverage of the deployment environment, we tackle robust RL via interactive data collection, where the learner interacts with the training environment only and refines the policy through trial and error. In this robust RL paradigm, two main challenges emerge: managing distributional robustness while striking a balance between exploration and exploitation during data collection. Initially, we establish that sample-efficient learning without additional assumptions is unattainable owing to the curse of support shift; i.e., the potential disjointedness of the distributional supports between the training and testing environments. To circumvent such a hardness result, we introduce the vanishing minimal value assumption to RMDPs with a total-variation (TV) distance robust set, postulating that the minimal value of the optimal robust value function is zero. We prove that such an assumption effectively eliminates the support shift issue for RMDPs with a TV distance robust set, and present an algorithm with a provable sample complexity guarantee. Our work makes the initial step to uncovering the inherent difficulty of robust RL via interactive data collection and sufficient conditions for designing a sample-efficient algorithm accompanied by sharp sample complexity analysis.
翻訳日:2024-04-05 14:12:26 公開日:2024-04-04
# 動き調整に着目したよりリアルな人間の動き予測に向けて

Towards more realistic human motion prediction with attention to motion coordination ( http://arxiv.org/abs/2404.03584v1 )

ライセンス: Link先を確認
Pengxiang Ding, Jianqin Yin, (参考訳) 関節関係モデリングは人間の動作予測におけるキュリアルな要素である。 既存のほとんどの手法は、共同関係を構築するために骨格に基づくグラフに依存しており、そこでは、共同ペア間の局所的な相互関係がよく学習されている。 しかしながら、すべての関節の同時協調を反映した大域的な関節関係である運動調整は、部分的に、全体、非同期的に学習されるため、通常は弱められる。 したがって、最終的な予測運動は通常非現実的なように見える。 この課題に対処するために、我々は運動の時空間的特徴からコーディネート・アトラクション(CA)と呼ばれる媒体を学習し、その後、新たな相対的関節関係を構築するために使用されるグローバルな運動特徴を特徴付ける。 CAを通して、全ての関節は同時に関連しているので、全ての関節の運動調整をよりよく学べる。 さらに, この動き調整と, 結合対間の局所的相互作用を統一的に組み合わせた新しい結合関係モデリングモジュールであるComprehensive Joint Relation Extractor (CJRE)を提案する。 さらに,実測位置情報からリッチなダイナミクスを抽出し,効果的な予測を行うためのMTDE(Multi-timescale Dynamics Extractor)を提案する。 大規模な実験の結果,提案手法はH3.6M, CMU-Mocap, 3DPWの短期および長期予測において, 最先端の手法よりも優れていた。

Joint relation modeling is a curial component in human motion prediction. Most existing methods rely on skeletal-based graphs to build the joint relations, where local interactive relations between joint pairs are well learned. However, the motion coordination, a global joint relation reflecting the simultaneous cooperation of all joints, is usually weakened because it is learned from part to whole progressively and asynchronously. Thus, the final predicted motions usually appear unrealistic. To tackle this issue, we learn a medium, called coordination attractor (CA), from the spatiotemporal features of motion to characterize the global motion features, which is subsequently used to build new relative joint relations. Through the CA, all joints are related simultaneously, and thus the motion coordination of all joints can be better learned. Based on this, we further propose a novel joint relation modeling module, Comprehensive Joint Relation Extractor (CJRE), to combine this motion coordination with the local interactions between joint pairs in a unified manner. Additionally, we also present a Multi-timescale Dynamics Extractor (MTDE) to extract enriched dynamics from the raw position information for effective prediction. Extensive experiments show that the proposed framework outperforms state-of-the-art methods in both short- and long-term predictions on H3.6M, CMU-Mocap, and 3DPW.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# 自由フェルミオン状態のPAC学習はNPハードである

PAC-learning of free-fermionic states is NP-hard ( http://arxiv.org/abs/2404.03585v1 )

ライセンス: Link先を確認
Lennart Bittel, Antonio A. Mele, Jens Eisert, Lorenzo Leone, (参考訳) フリーフェルミオン状態(英: Free-fermionic state)またはマッチゲート状態(英: matchgates)またはガウス状態(英: Gaussian state)は、量子状態の基本クラスである。 量子デバイスが出現すると、期待値の推定を含む量子状態からデータが得られるようになった。 いくつかのマヨラナ相関関数によって生成される与えられたデータセットが、自由フェルミオン状態と整合可能であるかどうかがNP完全問題であることを示す。 この結果は,パウリ予想値の推定値から得られたデータセットにも拡張される。 これは、同種の問題を効率的に解ける安定化状態の場合とは対照的である。 さらに, 量子状態のPAC学習は, アーロンソンが導入した学習フレームワークであり, 自由フェルミオン状態は計算的にPAC学習が困難であることを示す。 注目すべきことに、これは古典的にシミュレート可能な量子状態の最初のクラスである。

Free-fermionic states, also known as matchgates or Gaussian states, are a fundamental class of quantum states due to their efficient classical simulability and their crucial role across various domains of Physics. With the advent of quantum devices, experiments now yield data from quantum states, including estimates of expectation values. We establish that deciding whether a given dataset, formed by a few Majorana correlation functions estimates, can be consistent with a free-fermionic state is an NP-complete problem. Our result also extends to datasets formed by estimates of Pauli expectation values. This is in stark contrast to the case of stabilizer states, where the analogous problem can be efficiently solved. Moreover, our results directly imply that free-fermionic states are computationally hard to properly PAC-learn, where PAC-learning of quantum states is a learning framework introduced by Aaronson. Remarkably, this is the first class of classically simulable quantum states shown to have this property.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# 科学的機械学習のための補間モデルと誤り境界の活用

Leveraging Interpolation Models and Error Bounds for Verifiable Scientific Machine Learning ( http://arxiv.org/abs/2404.03586v1 )

ライセンス: Link先を確認
Tyler Chang, Andrew Gillette, Romit Maulik, (参考訳) 現代の科学的機械学習ワークフローに対する効果的な検証と検証のテクニックを考案することは困難である。 統計手法は豊富で容易に展開できるが、しばしば関連するデータや方法に関する投機的な仮定に依存する。 古典的補間技法の誤差境界は、数学的に厳密な精度の推定を提供することができるが、しばしば計算的に決定することが困難または非現実的である。 本研究では,(1)複数の標準補間手法が効率よく計算あるいは推定できる情報的エラー境界を持つことを示すことによって,検証可能な科学的機械学習のベストプラクティスを提案する。(2)異なる補間剤の比較性能は,検証目標に役立ち,(3)深層学習技術によって生成された潜時空間に補間手法を配置することで,ブラックボックスモデルに対するある程度の解釈可能性を実現する。 本稿では,エアフォイル画像からリフト・ドラッグ比を予測するためのアプローチの詳細なケーススタディを示す。 この作業のために開発されたコードは、公開のGithubリポジトリで公開されている。

Effective verification and validation techniques for modern scientific machine learning workflows are challenging to devise. Statistical methods are abundant and easily deployed, but often rely on speculative assumptions about the data and methods involved. Error bounds for classical interpolation techniques can provide mathematically rigorous estimates of accuracy, but often are difficult or impractical to determine computationally. In this work, we present a best-of-both-worlds approach to verifiable scientific machine learning by demonstrating that (1) multiple standard interpolation techniques have informative error bounds that can be computed or estimated efficiently; (2) comparative performance among distinct interpolants can aid in validation goals; (3) deploying interpolation methods on latent spaces generated by deep learning techniques enables some interpretability for black-box models. We present a detailed case study of our approach for predicting lift-drag ratios from airfoil images. Code developed for this work is available in a public Github repository.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# 予測と協調:人間-ロボット協調のためのデータ駆動型タスク予測と知識駆動型計画

Anticipate & Collab: Data-driven Task Anticipation and Knowledge-driven Planning for Human-robot Collaboration ( http://arxiv.org/abs/2404.03587v1 )

ライセンス: Link先を確認
Shivam Singh, Karthik Swaminathan, Raghav Arora, Ramandeep Singh, Ahana Datta, Dipanjan Das, Snehasis Banerjee, Mohan Sridharan, Madhava Krishna, (参考訳) 日々の生活活動において人間を支援するエージェントは、今後の課題を予測してより効果的に協力することができる。 データ駆動型手法はタスク予測、計画、関連する問題の最先端を表現しているが、これらの手法は資源不足と不透明である。 我々の以前の研究は、LLMを使用して、エージェントがこれらの目標を達成するための一連の低レベルアクションを計算した古典的計画システムの目標となる3つの高レベルタスクを予想する概念実証フレームワークを導入しました。 本稿では,人間とロボットのコラボレーションに向けたこれまでの取り組みを大幅に拡張するフレームワークであるDaTAPlanについて述べる。 特に、DATAPlanプランナーは、エージェントと人間に対するアクションを計算し、LLMが期待するタスクを協調的かつ共同的に達成し、エージェントは人間の行動結果や嗜好の予期せぬ変化に自動的に適応する。 本研究では,現実的なシミュレーション環境でのDaTAPlan機能の評価を行い,正確なタスク予測,効果的な人間とロボットの協調,予期せぬ変化に対応する能力について検証した。 プロジェクトウェブサイト:https://dataplan-hrc.github.io

An agent assisting humans in daily living activities can collaborate more effectively by anticipating upcoming tasks. Data-driven methods represent the state of the art in task anticipation, planning, and related problems, but these methods are resource-hungry and opaque. Our prior work introduced a proof of concept framework that used an LLM to anticipate 3 high-level tasks that served as goals for a classical planning system that computed a sequence of low-level actions for the agent to achieve these goals. This paper describes DaTAPlan, our framework that significantly extends our prior work toward human-robot collaboration. Specifically, DaTAPlan planner computes actions for an agent and a human to collaboratively and jointly achieve the tasks anticipated by the LLM, and the agent automatically adapts to unexpected changes in human action outcomes and preferences. We evaluate DaTAPlan capabilities in a realistic simulation environment, demonstrating accurate task anticipation, effective human-robot collaboration, and the ability to adapt to unexpected changes. Project website: https://dataplan-hrc.github.io
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# SemGrasp: 言語適応型離散化によるセマンティックグラフ生成

SemGrasp: Semantic Grasp Generation via Language Aligned Discretization ( http://arxiv.org/abs/2404.03590v1 )

ライセンス: Link先を確認
Kailin Li, Jingbo Wang, Lixin Yang, Cewu Lu, Bo Dai, (参考訳) 自然な人間の把握を生成するには、対象の幾何学だけでなく意味情報も考慮する必要がある。 オブジェクトの形状に大きく依存して把握生成は、下流タスクにおける先行手法の適用を限定する。 本稿では,意味情報をグリップ表現に組み込んで静的な人間のグリップポーズを生成する,セマンティックベースのグリップ生成手法であるSemGraspを提案する。 そこで本研究では,言語指示に従って,把握空間を意味空間に整合させる離散表現を導入し,把握姿勢の生成を可能にする。 その後、MLLM(Multimodal Large Language Model)が微調整され、オブジェクト、把握、言語を統一意味空間内で統合する。 SemGraspのトレーニングを容易にするために、CapGraspという大規模で把握可能なテキスト整列データセットをコンパイルした。 実験結果から,SemGraspは言語意図に沿った自然な人間の握りを効率よく生成することが明らかとなった。 私たちのコード、モデル、データセットは、https://kailinli.github.io/SemGrasp.orgで公開されています。

Generating natural human grasps necessitates consideration of not just object geometry but also semantic information. Solely depending on object shape for grasp generation confines the applications of prior methods in downstream tasks. This paper presents a novel semantic-based grasp generation method, termed SemGrasp, which generates a static human grasp pose by incorporating semantic information into the grasp representation. We introduce a discrete representation that aligns the grasp space with semantic space, enabling the generation of grasp postures in accordance with language instructions. A Multimodal Large Language Model (MLLM) is subsequently fine-tuned, integrating object, grasp, and language within a unified semantic space. To facilitate the training of SemGrasp, we have compiled a large-scale, grasp-text-aligned dataset named CapGrasp, featuring about 260k detailed captions and 50k diverse grasps. Experimental findings demonstrate that SemGrasp efficiently generates natural human grasps in alignment with linguistic intentions. Our code, models, and dataset are available publicly at: https://kailinli.github.io/SemGrasp.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# ReFT:言語モデルのための表現ファインタニング

ReFT: Representation Finetuning for Language Models ( http://arxiv.org/abs/2404.03592v1 )

ライセンス: Link先を確認
Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts, (参考訳) パラメータ効率のよい微調整法(PEFT)は、少数の重みを更新することで大きなモデルを適応させようとする。 しかし、それ以前の解釈可能性の研究は、表現がリッチな意味情報をエンコードしていることを示し、表現の編集がより強力な代替手段である可能性を示唆している。 ここでは、$\textbf{Representation Finetuning (ReFT)$メソッドのファミリーを開発することで、この仮説を追求する。 ReFTメソッドはフリーズベースモデル上で動作し、隠れた表現に対するタスク固有の介入を学ぶ。 本稿では,低ランク線形部分空間 ReFT (LoReFT) を強く定義する。 LoReFTは既存のPEFTの代替品であり、従来の最先端PEFTよりも10x-50倍高いパラメータ効率の介入を学ぶ。 本稿では,8つのコモンセンス推論タスク,4つの算術推論タスク,Alpaca-Eval v1.0,GLUEについて紹介する。 これらすべての評価において、LoReFTは効率と性能の最良のバランスを提供し、ほぼ常に最先端のPEFTよりも優れています。 ReFTトレーニングライブラリをhttps://github.com/stanfordnlp/pyreft.comで公開しています。

Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via updates to a small number of weights. However, much prior interpretability work has shown that representations encode rich semantic information, suggesting that editing representations might be a more powerful alternative. Here, we pursue this hypothesis by developing a family of $\textbf{Representation Finetuning (ReFT)}$ methods. ReFT methods operate on a frozen base model and learn task-specific interventions on hidden representations. We define a strong instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is a drop-in replacement for existing PEFTs and learns interventions that are 10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks, Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best balance of efficiency and performance, and almost always outperforms state-of-the-art PEFTs. We release a generic ReFT training library publicly at https://github.com/stanfordnlp/pyreft.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# レーザー学習環境 : 協調クリティカルなマルチエージェントタスクのための新しい環境

Laser Learning Environment: A new environment for coordination-critical multi-agent tasks ( http://arxiv.org/abs/2404.03596v1 )

ライセンス: Link先を確認
Yannick Molinghen, Raphaël Avalos, Mark Van Achter, Ann Nowé, Tom Lenaerts, (参考訳) 本稿では,協調型マルチエージェント強化学習環境であるLaser Learning Environment (LLE)を紹介する。 LLEでは、エージェントはお互いに依存して進行(相互依存)し、成功するための特定のアクションのシーケンスを共同で取らなければならない(完全な調整)。 このような問題の課題は、それらのボトルネックを逃れることが報われないので、相互依存ステップによって引き起こされる状態空間のボトルネックを逃れることの難しさにある。 我々は、複数の最先端値ベースMARLアルゴリズムをLLEに対してテストし、完全な調整を達成できたとしても、状態空間のボトルネックから逃れることができないため、協調作業で一貫して失敗することを示した。 優先体験リプレイやnステップのようなQラーニング拡張は、ゼロインセンティブのダイナミックスを持つ環境での探索を妨げることが示され、ランダムなネットワーク蒸留による固有好奇性は、それらのボトルネックを回避するには不十分であることがわかった。 本稿では,この問題を解決するための新しい手法の必要性と,協調型MARLベンチマークとしてのLLEの妥当性を示す。

We introduce the Laser Learning Environment (LLE), a collaborative multi-agent reinforcement learning environment in which coordination is central. In LLE, agents depend on each other to make progress (interdependence), must jointly take specific sequences of actions to succeed (perfect coordination), and accomplishing those joint actions does not yield any intermediate reward (zero-incentive dynamics). The challenge of such problems lies in the difficulty of escaping state space bottlenecks caused by interdependence steps since escaping those bottlenecks is not rewarded. We test multiple state-of-the-art value-based MARL algorithms against LLE and show that they consistently fail at the collaborative task because of their inability to escape state space bottlenecks, even though they successfully achieve perfect coordination. We show that Q-learning extensions such as prioritized experience replay and n-steps return hinder exploration in environments with zero-incentive dynamics, and find that intrinsic curiosity with random network distillation is not sufficient to escape those bottlenecks. We demonstrate the need for novel methods to solve this problem and the relevance of LLE as cooperative MARL benchmark.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# 医学文献からのインテント検出とエンティティ抽出

Intent Detection and Entity Extraction from BioMedical Literature ( http://arxiv.org/abs/2404.03598v1 )

ライセンス: Link先を確認
Ankan Mullick, Mukur Gupta, Pawan Goyal, (参考訳) バイオメディカルクエリは、Web検索においてますます普及し、バイオメディカル文献へのアクセスに対する関心が高まりつつあることを反映している。 近年の大規模言語モデル(LLM)の研究は、一般化された知性を達成するための努力によって動機付けられているが、タスクやドメイン固有の自然言語理解アプローチを置き換える効果は疑問視されている。 本稿では,バイオメディカルテキストから意図検出と名前付きエンティティ認識(NER)タスクを包括的に評価することにより,この問題に対処する。 スーパーバイザード・ファイン・チューン(Supervised Fine Tuned)アプローチは, 汎用LLMよりも有用であり, 有効であることを示す。 PubMedBERTのようなバイオメディカルトランスフォーマーモデルは、NERタスクでChatGPTを超えることができる。

Biomedical queries have become increasingly prevalent in web searches, reflecting the growing interest in accessing biomedical literature. Despite recent research on large-language models (LLMs) motivated by endeavours to attain generalized intelligence, their efficacy in replacing task and domain-specific natural language understanding approaches remains questionable. In this paper, we address this question by conducting a comprehensive empirical evaluation of intent detection and named entity recognition (NER) tasks from biomedical text. We show that Supervised Fine Tuned approaches are still relevant and more effective than general-purpose LLMs. Biomedical transformer models such as PubMedBERT can surpass ChatGPT on NER task with only 5 supervised examples.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# LLM応答における誤差検出のためのLLMの評価

Evaluating LLMs at Detecting Errors in LLM Responses ( http://arxiv.org/abs/2404.03602v1 )

ライセンス: Link先を確認
Ryo Kamoi, Sarkar Snigdha Sarathi Das, Renze Lou, Jihyun Janice Ahn, Yilun Zhao, Xiaoxin Lu, Nan Zhang, Yusen Zhang, Ranran Haoran Zhang, Sujeeth Reddy Vummanthala, Salika Dave, Shaobo Qin, Arman Cohan, Wenpeng Yin, Rui Zhang, (参考訳) 大きな言語モデル(LLM)が様々なタスクで広く使われているため、その応答におけるエラーの検出はますます重要になっている。 しかし,LSM応答の誤り検出についてはほとんど研究されていない。 LLM応答に対するエラーアノテーションの収集は、多くのNLPタスクの主観的な性質のため困難であり、これまでの研究では、実用的価値の少ないタスク(例えば、単語ソート)や限られたエラータイプ(例えば、要約における忠実さ)に焦点を当てていた。 この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。 ReaLMistakeは、4つのカテゴリで客観的に評価可能なエラー(正当性、命令追従性、文脈忠実性、パラメータ化知識)を導入し、専門家によって注釈されたGPT-4とLlama 270Bの応答において自然に観察され多様なエラーを誘発する、困難で有意義な3つのタスクを含んでいる。 我々はReaLMistakeを用いて12個のLDMに基づいて誤差検出を行う。 私たちの発見は以下のとおりです。 1) GPT-4 や Claude 3 のような最上位の LLM は LLM のエラーを極めて少ないリコールで検出し、全ての LLM ベースのエラー検出器は人間よりもはるかにひどい性能を発揮する。 2)LLMに基づく誤り検出装置による説明は信頼性に欠ける。 3) LLMによる誤り検出は, プロンプトの小さな変化に敏感であるが, 改善は困難である。 4) 自己整合性や多数決を含むLCMの改善に対する一般的なアプローチは, エラー検出性能を向上しない。 ベンチマークとコードはhttps://github.com/psunlpgroup/ReaLMistake.comで公開されています。

With Large Language Models (LLMs) being widely used across various tasks, detecting errors in their responses is increasingly crucial. However, little research has been conducted on error detection of LLM responses. Collecting error annotations on LLM responses is challenging due to the subjective nature of many NLP tasks, and thus previous research focuses on tasks of little practical value (e.g., word sorting) or limited error types (e.g., faithfulness in summarization). This work introduces ReaLMistake, the first error detection benchmark consisting of objective, realistic, and diverse errors made by LLMs. ReaLMistake contains three challenging and meaningful tasks that introduce objectively assessable errors in four categories (reasoning correctness, instruction-following, context-faithfulness, and parameterized knowledge), eliciting naturally observed and diverse errors in responses of GPT-4 and Llama 2 70B annotated by experts. We use ReaLMistake to evaluate error detectors based on 12 LLMs. Our findings show: 1) Top LLMs like GPT-4 and Claude 3 detect errors made by LLMs at very low recall, and all LLM-based error detectors perform much worse than humans. 2) Explanations by LLM-based error detectors lack reliability. 3) LLMs-based error detection is sensitive to small changes in prompts but remains challenging to improve. 4) Popular approaches to improving LLMs, including self-consistency and majority vote, do not improve the error detection performance. Our benchmark and code are provided at https://github.com/psunlpgroup/ReaLMistake.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# アクティベーション規則化による言語モデル量子化における外部チャネルの影響の緩和

Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization ( http://arxiv.org/abs/2404.03605v1 )

ライセンス: Link先を確認
Aniruddha Nrusimha, Mayank Mishra, Naigang Wang, Dan Alistarh, Rameswar Panda, Yoon Kim, (参考訳) 重みとアクティベーションが一様にパラメータ毎に4ビットに量子化され、GPUハードウェアがネイティブにサポートしている最下位ビット幅フォーマットである言語モデルの正確な量子化の問題を考察する。 この文脈では、アクティベーション量子化が鍵となる課題である: 言語モデルには、平均値が他のチャネルよりも桁違いに高い外部チャネルが含まれていることが知られており、既知の技術による正確な低ビット幅量子化を防止する。 我々はこの現象を体系的に研究し、トレーニングの初期段階にこれらの異常チャネルが出現し、残留ストリームを持つ層でより頻繁に発生することを発見した。 そこで我々は,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する簡単な戦略を提案する。 入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"することを防ぐために重要であり、これにより重みのポストトレーニング量子化(PTQ)がより困難になることを示す。 重み付きPTQと組み合わせることで,標準精度のW16A16ベースラインと競合するW4A4モデルが得られることを示す。

We consider the problem of accurate quantization for language models, where both the weights and activations are uniformly quantized to 4 bits per parameter, the lowest bitwidth format natively supported by GPU hardware. In this context, the key challenge is activation quantization: it is known that language models contain outlier channels whose values on average are orders of magnitude higher than than other channels, which prevents accurate low-bitwidth quantization with known techniques. We systematically study this phenomena and find that these outlier channels emerge early in training, and that they occur more frequently in layers with residual streams. We then propose a simple strategy which regularizes a layer's inputs via quantization-aware training (QAT) and its outputs via activation kurtosis regularization. We show that regularizing both the inputs and outputs is crucial for preventing a model's "migrating" the difficulty in input quantization to the weights, which makes post-training quantization (PTQ) of weights more difficult. When combined with weight PTQ, we show that our approach can obtain a W4A4 model that performs competitively to the standard-precision W16A16 baseline.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# 国歌の楽譜特性のグローバル指標による分析

Analyzing Musical Characteristics of National Anthems in Relation to Global Indices ( http://arxiv.org/abs/2404.03606v1 )

ライセンス: Link先を確認
S M Rakib Hasan, Aakar Dhakal, Ms. Ayesha Siddiqua, Mohammad Mominur Rahman, Md Maidul Islam, Mohammed Arfat Raihan Chowdhury, S M Masfequier Rahman Swapno, SM Nuruzzaman Nobel, (参考訳) 音楽は人々の心理と行動パターンを形成する上で大きな役割を果たす。 本稿では,国歌と異なるグローバル指標の関連性について,計算音楽分析と統計的相関分析を用いて検討する。 国歌音楽データを分析し、特定の音楽特性が平和、幸福、自殺率、犯罪率などと関連しているかどうかを判定する。 これを実現するため、169か国から国歌を収集し、音高、テンポ、ビート、その他の関連する音声特徴を抽出するために計算音楽分析技術を用いる。 次に、これらの音楽特性と異なるグローバル指標のデータを比較し、有意な相関が存在するかどうかを確かめる。 以上の結果から,国歌の楽曲的特徴と,調査対象の指標との間には相関があることが示唆された。 音楽心理学や社会福祉の推進に関心を持つ政策立案者に対して,本研究の意義について考察した。 本稿では,社会研究における音楽データ分析の可能性を強調し,音楽と社会指標の関係について新たな視点を提供する。 ソースコードとデータは、再現性と将来の研究努力のためにオープンアクセスされる。 http://bit.ly/na_code.comからアクセスすることができる。

Music plays a huge part in shaping peoples' psychology and behavioral patterns. This paper investigates the connection between national anthems and different global indices with computational music analysis and statistical correlation analysis. We analyze national anthem musical data to determine whether certain musical characteristics are associated with peace, happiness, suicide rate, crime rate, etc. To achieve this, we collect national anthems from 169 countries and use computational music analysis techniques to extract pitch, tempo, beat, and other pertinent audio features. We then compare these musical characteristics with data on different global indices to ascertain whether a significant correlation exists. Our findings indicate that there may be a correlation between the musical characteristics of national anthems and the indices we investigated. The implications of our findings for music psychology and policymakers interested in promoting social well-being are discussed. This paper emphasizes the potential of musical data analysis in social research and offers a novel perspective on the relationship between music and social indices. The source code and data are made open-access for reproducibility and future research endeavors. It can be accessed at http://bit.ly/na_code.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# Sailor: 東南アジアのオープン言語モデル

Sailor: Open Language Models for South-East Asia ( http://arxiv.org/abs/2404.03608v1 )

ライセンス: Link先を確認
Longxu Dou, Qian Liu, Guangtao Zeng, Jia Guo, Jiahui Zhou, Wei Lu, Min Lin, (参考訳) 東南アジア(SEA)言語に適した0.5Bから7Bパラメータのオープン言語モデルであるSailorを提示する。 これらのモデルは、多言語ユースケースのための優れた言語モデルであるQwen1.5から継続的に事前訓練されている。 Qwen1.5以降、セイラーは200Bから400Bのトークンを受け取り、主に英語、中国語、ベトナム語、タイ語、インドネシア語、マレー語、ラオス語をカバーしている。 トレーニングには、モデルロバスト性向上のためのBPEドロップアウト、アグレッシブなデータクリーニングと重複解消のための小さなプロキシモデル、データミックスを最適化する小さなプロキシモデルなど、いくつかのテクニックが使用されている。 4つの典型的なタスクに対する実験結果から、Sailorモデルは、常識推論、質問応答、理解、検証など、様々なベンチマークで強い性能を示すことが示された。 オープンソース精神を受け入れることで、このレポートを通じて洞察を共有し、多言語ユースケースのための大規模言語モデルの開発に対するより広範な関心を喚起します。

We present Sailor, a family of open language models ranging from 0.5B to 7B parameters, tailored for South-East Asian (SEA) languages. These models are continually pre-trained from Qwen1.5, a great language model for multilingual use cases. From Qwen1.5, Sailor models accept 200B to 400B tokens, primarily covering the languages of English, Chinese, Vietnamese, Thai, Indonesian, Malay, and Lao. The training leverages several techniques, including BPE dropout for improving the model robustness, aggressive data cleaning and deduplication, and small proxy models to optimize data mixture. Experimental results on four typical tasks indicate that Sailor models demonstrate strong performance across different benchmarks, including commonsense reasoning, question answering, reading comprehension and examination. Embracing the open-source spirit, we share our insights through this report to spark a wider interest in developing large language models for multilingual use cases.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# マルチレベル制約変換によるコンパクトQUBOモデルの導出

Deriving Compact QUBO Models via Multilevel Constraint Transformation ( http://arxiv.org/abs/2404.03610v1 )

ライセンス: Link先を確認
Oksana Pichugina, Yingcong Tan, Christopher Beck, (参考訳) 量子アニーリングとデジタル/CMOSアニーリングのためのカスタマイズハードウェアの進歩により、Quadratic Unconstrained Binary Optimization (QUBO)モデルは最適化の文献で注目を集めている。 従来の2進線形プログラム(BLP)からQUBOモデルを導出する汎用的アプローチにより、我々はより少ない二進変数を持つQUBOモデルを導出する新しいマルチレベル制約変換スキーム(MLCTS)を提案する。 本稿では, コンパクトなQUBO定式化(すなわち, 元のBLP決定空間における)の存在を制約レベルの観点から定式化し, MLCTSの合成例に対する柔軟性と適用性, 最大2-満足性問題, 線形順序問題, コミュニティ検出問題, 最大独立性設定問題など, 良く知られた組合せ最適化問題について述べる。 概念実証では、後者の問題に対する2つのQUBOモデルの性能を、汎用ソフトウェアベースソルバとハードウェアベースのQUBOソルバで比較する。 MLCTS由来のモデルは、ハードウェアベースのアプローチで最大7倍のインスタンスを解くことで、両方のソルバのパフォーマンスを著しく向上させる。

With the advances in customized hardware for quantum annealing and digital/CMOS Annealing, Quadratic Unconstrained Binary Optimization (QUBO) models have received growing attention in the optimization literature. Motivated by an existing general-purpose approach that derives QUBO models from binary linear programs (BLP), we propose a novel Multilevel Constraint Transformation Scheme (MLCTS) that derives QUBO models with fewer ancillary binary variables. We formulate sufficient conditions for the existence of a compact QUBO formulation (i.e., in the original BLP decision space) in terms of constraint levelness and demonstrate the flexibility and applicability of MLCTS on synthetic examples and several well-known combinatorial optimization problems, i.e., the Maximum 2-Satisfiability Problem, the Linear Ordering Problem, the Community Detection Problem, and the Maximum Independence Set Problem. For a proof-of-concept, we compare the performance of two QUBO models for the latter problem on both a general-purpose software-based solver and a hardware-based QUBO solver. The MLCTS-derived models demonstrate significantly better performance for both solvers, in particular, solving up to seven times more instances with the hardware-based approach.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# InsectMamba: 状態空間モデルによる昆虫害虫の分類

InsectMamba: Insect Pest Classification with State Space Model ( http://arxiv.org/abs/2404.03611v1 )

ライセンス: Link先を確認
Qianning Wang, Chenglin Wang, Zhixin Lai, Yucheng Zhou, (参考訳) 昆虫害虫の分類は農業技術において重要な課題であり、食料の安全と環境の持続可能性を確保するのに不可欠である。 しかし、カモフラージュや種多様性などの要因による害虫の同定の複雑さは、重大な障害を引き起こす。 既存の方法は、近縁な害虫種を識別するために必要な微細な特徴抽出に苦慮している。 近年,ネットワーク構造の改良と深層学習の併用による精度向上が進んでいるが,害虫と周辺環境の類似性から課題が続いている。 InsectMambaは、状態空間モデル(SSM)、畳み込みニューラルネットワーク(CNN)、マルチヘッド自己保持機構(MSA)、マルチレイヤパーセプトロン(MLP)をミックスSSMブロックに統合する新しいアプローチである。 この統合により、各エンコーディング戦略の強みを活用することにより、包括的視覚特徴の抽出が容易になる。 また、これらの特徴を適応的に集約し、害虫の特性を識別する能力を高めるために、選択的モジュールも提案されている。 InsectMambaは5種の害虫分類データセットの強力な競合相手に対して評価された。 その結果, 優れた性能を示し, アブレーション実験により各モデル成分の意義を検証した。

The classification of insect pests is a critical task in agricultural technology, vital for ensuring food security and environmental sustainability. However, the complexity of pest identification, due to factors like high camouflage and species diversity, poses significant obstacles. Existing methods struggle with the fine-grained feature extraction needed to distinguish between closely related pest species. Although recent advancements have utilized modified network structures and combined deep learning approaches to improve accuracy, challenges persist due to the similarity between pests and their surroundings. To address this problem, we introduce InsectMamba, a novel approach that integrates State Space Models (SSMs), Convolutional Neural Networks (CNNs), Multi-Head Self-Attention mechanism (MSA), and Multilayer Perceptrons (MLPs) within Mix-SSM blocks. This integration facilitates the extraction of comprehensive visual features by leveraging the strengths of each encoding strategy. A selective module is also proposed to adaptively aggregate these features, enhancing the model's ability to discern pest characteristics. InsectMamba was evaluated against strong competitors across five insect pest classification datasets. The results demonstrate its superior performance and verify the significance of each model component by an ablation study.
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# 変形可能な3次元ガウス平滑化のためのガウス内包型変形

Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2404.03613v1 )

ライセンス: Link先を確認
Jeongmin Bae, Seoha Kim, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh, (参考訳) 3D Gaussian Splatting (3DGS) は高速かつ高品質なノベルビュー合成を提供するため、カノニカルな3DGSを複数のフレームに変形させる自然な拡張である。 しかし、それまでの作品は、特にダイナミックなシーンを正確に再構築することができなかった。 1)近くの動的部分に沿って動く静的部分、及び 2) いくつかの動的領域はぼやけている。 本稿では, 座標関数として構築された変形場の誤った設計を原因とする。 3DGSは1つの座標ベースのフレームワークではなく、ガウシアンを中心とする複数のフィールドの混合であるため、このアプローチは問題となる。 この問題を解決するために、変形をガウス毎の埋め込みと時間的埋め込みの関数として定義する。 さらに, 変形を粗く, 微細な変形として分解し, 遅い動きと速い動きをモデル化する。 また,より高速な収束と高品質な学習戦略も導入する。 プロジェクトページ: https://jeongminb.github.io/e-d3dgs/

As 3D Gaussian Splatting (3DGS) provides fast and high-quality novel view synthesis, it is a natural extension to deform a canonical 3DGS to multiple frames. However, previous works fail to accurately reconstruct dynamic scenes, especially 1) static parts moving along nearby dynamic parts, and 2) some dynamic areas are blurry. We attribute the failure to the wrong design of the deformation field, which is built as a coordinate-based function. This approach is problematic because 3DGS is a mixture of multiple fields centered at the Gaussians, not just a single coordinate-based framework. To resolve this problem, we define the deformation as a function of per-Gaussian embeddings and temporal embeddings. Moreover, we decompose deformations as coarse and fine deformations to model slow and fast movements, respectively. Also, we introduce an efficient training strategy for faster convergence and higher quality. Project page: https://jeongminb.github.io/e-d3dgs/
翻訳日:2024-04-05 14:02:35 公開日:2024-04-04
# 駆動型多層原子の集合結合と4波混合効果

Collective coupling of driven multilevel atoms and its effect on four-wave mixing ( http://arxiv.org/abs/2404.03615v1 )

ライセンス: Link先を確認
P. Yanes-Thomas, R. Gutiérrez-Jáuregui, P. Barberis-Blostein, D. Sahagún-Sánchez, R. Jáuregui, A. Kunold, (参考訳) マルチレベル原子に基づく顕微鏡モデルは、非線形光学応答の制御と光のコヒーレント制御の中心である。 これらのモデルは伝統的に単原子反応に基づいており、その後パラメトリック的に外挿され、媒体内での応答の増強や伝播のような集合的な効果を含む。 本研究では, 電磁環境に結合した多層原子からなる駆動系における協調効果の系統的解析を行う。 この分析は、駆動場、光子交換、および集団崩壊チャネルによって誘導される着衣状態間の相互作用に基づいている。 この理論は、ダイヤモンド構成の原子対によって媒介される4波混合の場合、相関光子対を作るのに一般的に使用される非線形過程に適用される。 次に、外部光子に対する原子間相関と集団崩壊チャネルの影響について検討する。 この相関関数は、独立原子のローレンツ分布から双極子-双極子相互作用を含む場合の2ピーク分布に変化する。 2つのピーク構造は、着飾った状態と集合的な崩壊チャネルの間の共同作用に関係している。 これらのプロセスの署名は、既存の実験的な実現のために識別される。 この接続から得られる直感は、多レベルシステムにおける分散的および散逸的協調効果に基づいて量子制御プロトコルに活用できる関連するパラメータを明らかにするのに役立つ。

Microscopic models based on multilevel atoms are central to controlling non-linear optical responses and coherent control of light. These models are traditionally based on single-atom responses that are then parametrically extrapolated to include collective effects, such as an enhanced response or propagation within the medium. In this work we present a systematic analysis of the cooperative effects arising in driven systems composed of multi-level atoms coupled by a common electromagnetic environment. The analysis is based on an interplay between dressed states induced by the driving field, photon exchanges, and the collective decay channels. This theory is applied to the case of four-wave mixing mediated by a pair of atoms in the diamond configuration, a nonlinear process commonly used to create correlated photon pairs. The effects of inter-atomic correlations and collective decay channels over outgoing photons are then explored. We find that the resulting correlation function changes from a Lorentzian distribution for independent atoms to a two-peaked distribution when dipole-dipole interactions are included. The two-peak structure is related to a joint action between the dressed states and the collective decay channels. Signatures of these processes are identified for existing experimental realizations. The intuition obtained from this connection helps to uncover relevant parameters that could be exploited for quantum control protocols based on dispersive and dissipative cooperative effects in multi-level systems.
翻訳日:2024-04-05 13:52:39 公開日:2024-04-04
# 畳み込みニューラルネットワークの効率性について

On the Efficiency of Convolutional Neural Networks ( http://arxiv.org/abs/2404.03617v1 )

ライセンス: Link先を確認
Andrew Lavin, (参考訳) 2012年のAlexNetのブレークスルー以降、畳み込みニューラルネットワーク(convnet)は、非常に強力なビジョンモデルへと成長してきた。 深層学習の研究者たちは、10年前には不可能だった正確な結果を得るために、コンブネットを使ってきた。 しかし、計算機科学者は計算効率を第一の目的としています。 余剰コストの精度は許容されない; アルゴリズムはその計算要求を最小化しなければならない。 深層学習の研究者は、コブネットが使用する膨大な計算と相まって、効率性にも関心を持つようになった。 研究者たちは、最も効率のよいコンブネットアーキテクチャを見つけるために、多大な努力を払っています。 しかし、研究者や技術者の間では、算術複雑性の関連性に関して懐疑論が高まった。 レイテンシと算術の複雑さは相容れないという一般的な見方とは対照的に、単純な公式は計算効率によって関連付けられる。 この洞察により、レイテンシを決定する別の要因を共同最適化することが可能になりました。 また, 高い精度・複雑なトレードオフをもたらす縮退したconv2d層は, 操作強度が低いことも観察した。 したがって、これらのレイヤを実装するカーネルは、重要なメモリリソースを使用する。 我々は,残余ブロックのすべての層を実装し,時間的局所性を生成し,通信を回避し,ワークスペースサイズを小さくするブロック融合カーネルを用いて,この最適化問題を解決した。 ブロック融合カーネルを用いたConvFirstモデルは,ImageNet-1K分類タスクにおいて,PyTorchインダクタを用いたConvNeXtベースラインの約4倍の速度で動作した。 コンブネット効率に対する我々の統一的なアプローチは、より低コストでより精度の高いモデルとカーネルの新しい時代を思い描いている。

Since the breakthrough performance of AlexNet in 2012, convolutional neural networks (convnets) have grown into extremely powerful vision models. Deep learning researchers have used convnets to produce accurate results that were unachievable a decade ago. Yet computer scientists make computational efficiency their primary objective. Accuracy with exorbitant cost is not acceptable; an algorithm must also minimize its computational requirements. Confronted with the daunting computation that convnets use, deep learning researchers also became interested in efficiency. Researchers applied tremendous effort to find the convnet architectures that have the greatest efficiency. However, skepticism grew among researchers and engineers alike about the relevance of arithmetic complexity. Contrary to the prevailing view that latency and arithmetic complexity are irreconcilable, a simple formula relates both through computational efficiency. This insight enabled us to co-optimize the separate factors that determine latency. We observed that the degenerate conv2d layers that produce the best accuracy-complexity trade-off also have low operational intensity. Therefore, kernels that implement these layers use significant memory resources. We solved this optimization problem with block-fusion kernels that implement all layers of a residual block, thereby creating temporal locality, avoiding communication, and reducing workspace size. Our ConvFirst model with block-fusion kernels ran approximately four times as fast as the ConvNeXt baseline with PyTorch Inductor, at equal accuracy on the ImageNet-1K classification task. Our unified approach to convnet efficiency envisions a new era of models and kernels that achieve greater accuracy at lower cost.
翻訳日:2024-04-05 13:52:39 公開日:2024-04-04
# DeViDe:医療視力向上のための対面医療知識

DeViDe: Faceted medical knowledge for improved medical vision-language pre-training ( http://arxiv.org/abs/2404.03618v1 )

ライセンス: Link先を確認
Haozhe Luo, Ziyu Zhou, Corentin Royer, Anjany Sekuboyina, Bjoern Menze, (参考訳) 胸部X線に対する視覚言語による事前訓練は、主にペアのX線写真とラジオグラフィーレポートを活用することで大きな進歩を遂げた。 しかし、既存のアプローチは医療知識を効果的に符号化する際の課題に直面していることが多い。 放射線医学の報告が現在の病気の症状についての洞察を提供する一方で、医学的定義(現代の方法で用いられる)は過度に抽象的であり、知識のギャップを生じさせる。 そこで本研究では,オープンWebからのラジオグラフィ記述を活用するトランスフォーマーベースの新しい手法であるDeViDeを提案する。 これらの記述は、X線写真における疾患の一般的な視覚的特徴を概説し、抽象的な定義や放射線学の報告と組み合わせることで、知識の全体像を提供する。 DeViDeは知識強化された視覚言語アライメントの3つの重要な特徴を取り入れている。 第二に、この知識は様々なレベルの粒度の画像情報と一致している。 第3に、複数ラベル設定で生じる複数の記述と各画像の整合性を扱うため、新しいプロジェクション層を提案する。 ゼロショット設定では、DeViDeは外部データセットの完全な教師付きモデルと互換性があり、3つの大規模データセットの最先端結果を達成する。 さらに、下流の4つのタスクと6つのセグメンテーションタスクを微調整したDeViDeは、多様なディストリビューションのデータ間での優れたパフォーマンスを示している。

Vision-language pre-training for chest X-rays has made significant strides, primarily by utilizing paired radiographs and radiology reports. However, existing approaches often face challenges in encoding medical knowledge effectively. While radiology reports provide insights into the current disease manifestation, medical definitions (as used by contemporary methods) tend to be overly abstract, creating a gap in knowledge. To address this, we propose DeViDe, a novel transformer-based method that leverages radiographic descriptions from the open web. These descriptions outline general visual characteristics of diseases in radiographs, and when combined with abstract definitions and radiology reports, provide a holistic snapshot of knowledge. DeViDe incorporates three key features for knowledge-augmented vision language alignment: First, a large-language model-based augmentation is employed to homogenise medical knowledge from diverse sources. Second, this knowledge is aligned with image information at various levels of granularity. Third, a novel projection layer is proposed to handle the complexity of aligning each image with multiple descriptions arising in a multi-label setting. In zero-shot settings, DeViDe performs comparably to fully supervised models on external datasets and achieves state-of-the-art results on three large-scale datasets. Additionally, fine-tuning DeViDe on four downstream tasks and six segmentation tasks showcases its superior performance across data from diverse distributions.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# 絡み合いコストによる頭上スケーリングによる指数サンプリング面の回路編み

Circuit Knitting Faces Exponential Sampling Overhead Scaling Bounded by Entanglement Cost ( http://arxiv.org/abs/2404.03619v1 )

ライセンス: Link先を確認
Mingrui Jing, Chengkai Zhu, Xin Wang, (参考訳) 回路編み込み(Circuit knitting)は、複数のプロセッサで量子回路を接続して非局所的な量子演算をシミュレートする手法であり、分散量子コンピューティングにおいて有望なアプローチである。 回路編み物のための様々な技術が開発されているが、我々はこの技術のスケーラビリティに対する根本的な限界を明らかにする。 回路編み物のサンプリングオーバーヘッドは, 並列切断方式の漸近的オーバーヘッドであっても, ターゲット二部体の正確な絡み合いコストによって指数的に小さくなることを示す。 具体的には、局所的な演算と古典的通信(LOCC)を補助する正規化サンプリングオーバーヘッドが、分離可能な保存操作の下での正確な絡み合いコストの指数関数によって、どの二部量子チャネルにおいても低く抑えられることを示す。 さらに,LOCCを経由した一般的なバイパルタイトチャネルをシミュレーションするための正規化サンプリングオーバーヘッドは,$\kappa$-entanglementとmax-Rainsの情報によって制限され,効率よく計算可能なベンチマークを提供する。 我々の研究は、準確率分解による仮想量子情報処理と量子シャノン理論との深い関係を明らかにし、分散量子コンピューティングにおける絡み合いの重要な役割を明らかにする。

Circuit knitting, a method for connecting quantum circuits across multiple processors to simulate nonlocal quantum operations, is a promising approach for distributed quantum computing. While various techniques have been developed for circuit knitting, we uncover fundamental limitations to the scalability of this technology. We prove that the sampling overhead of circuit knitting is exponentially lower bounded by the exact entanglement cost of the target bipartite dynamic, even for asymptotic overhead in the parallel cut regime. Specifically, we prove that the regularized sampling overhead assisted with local operations and classical communication (LOCC), of any bipartite quantum channel is lower bounded by the exponential of its exact entanglement cost under separable preserving operations. Furthermore, we show that the regularized sampling overhead for simulating a general bipartite channel via LOCC is lower bounded by $\kappa$-entanglement and max-Rains information, providing efficiently computable benchmarks. Our work reveals a profound connection between virtual quantum information processing via quasi-probability decomposition and quantum Shannon theory, highlighting the critical role of entanglement in distributed quantum computing.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# エンコーダを用いたテキスト-画像パーソナライズのためのLCM-Lookahead

LCM-Lookahead for Encoder-based Text-to-Image Personalization ( http://arxiv.org/abs/2404.03620v1 )

ライセンス: Link先を確認
Rinon Gal, Or Lichter, Elad Richardson, Or Patashnik, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or, (参考訳) 拡散モデルの最近の進歩は、高速サンプリング法を導入し、1つか数ステップで高品質な画像を効果的に生成することができる。 興味深いことに、これらを既存の拡散モデルから蒸留すると、しばしば元のモデルと整合し、同様のプロンプトや種子の出力を保持する。 これらの特性は、高速サンプリング手法をショートカット機構として活用し、画像空間損失をバックプロパゲート可能なデノライズアウトプットのプレビューを作成する機会を与える。 本研究では、このようなショートカット機構を用いて、テキスト・ツー・イメージの個人化を特定の顔のアイデンティティに導く可能性について検討する。 我々は,エンコーダに基づくパーソナライズアプローチに注目し,ルックアヘッドのアイデンティティ損失を調整することによって,レイアウトの多様性を犠牲にしたり,アライメントを早めることなく,より高いアイデンティティの忠実度を達成できることを実証した。 さらに、パーソナライズ作業におけるアテンション共有機構と一貫性のあるデータ生成の利用について検討し、エンコーダのトレーニングが双方の恩恵を受けることを確かめる。

Recent advancements in diffusion models have introduced fast sampling methods that can effectively produce high-quality images in just one or a few denoising steps. Interestingly, when these are distilled from existing diffusion models, they often maintain alignment with the original model, retaining similar outputs for similar prompts and seeds. These properties present opportunities to leverage fast sampling methods as a shortcut-mechanism, using them to create a preview of denoised outputs through which we can backpropagate image-space losses. In this work, we explore the potential of using such shortcut-mechanisms to guide the personalization of text-to-image models to specific facial identities. We focus on encoder-based personalization approaches, and demonstrate that by tuning them with a lookahead identity loss, we can achieve higher identity fidelity, without sacrificing layout diversity or prompt alignment. We further explore the use of attention sharing mechanisms and consistent data generation for the task of personalization, and find that encoder training can benefit from both.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# 大規模言語モデルにおける空間推論の可視化

Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models ( http://arxiv.org/abs/2404.03622v1 )

ライセンス: Link先を確認
Wenshan Wu, Shaoguang Mao, Yadong Zhang, Yan Xia, Li Dong, Lei Cui, Furu Wei, (参考訳) 大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。 しかし、人間の認知の重要な側面である空間的推論におけるそれらの能力は、いまだに未解明のままである。 人間は「textbf{the Mind's Eye}」と呼ばれるプロセスを通じて、目に見えない物体や行動の心的イメージを作成する能力を有しており、目に見えない世界の想像力を可能にしている。 この認知能力に触発されて、我々は「視力の可視化(\textbf{VoT})」プロンプトを提案する。 VoTは、LLMの空間的推論を、その推論トレースを可視化することによって引き起こし、その後の推論ステップを導くことを目的としている。 自然言語ナビゲーションや視覚ナビゲーション,視覚タイリングなど,マルチホップ空間推論タスクにVoTを用いた。 実験により,VoTはLLMの空間推論能力を著しく向上することが示された。 特に、VoTはこれらのタスクにおいて既存のマルチモーダル・大規模言語モデル(MLLM)よりも優れていた。 VoT は LLM で驚くほどうまく機能するが、空間的推論を促進するために \textit{mental image} を生成する能力は心の眼のプロセスに似ており、MLLM におけるその可能性を示している。

Large language models (LLMs) have exhibited impressive performance in language comprehension and various reasoning tasks. However, their abilities in spatial reasoning, a crucial aspect of human cognition, remain relatively unexplored. Human possess a remarkable ability to create mental images of unseen objects and actions through a process known as \textbf{the Mind's Eye}, enabling the imagination of the unseen world. Inspired by this cognitive capacity, we propose Visualization-of-Thought (\textbf{VoT}) prompting. VoT aims to elicit spatial reasoning of LLMs by visualizing their reasoning traces, thereby guiding subsequent reasoning steps. We employed VoT for multi-hop spatial reasoning tasks, including natural language navigation, visual navigation, and visual tiling in 2D grid worlds. Experimental results demonstrated that VoT significantly enhances the spatial reasoning abilities of LLMs. Notably, VoT outperformed existing multimodal large language models (MLLMs) in these tasks. While VoT works surprisingly well on LLMs, the ability to generate \textit{mental images} to facilitate spatial reasoning resembles the mind's eye process, suggesting its potential viability in MLLMs.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# LLMの展開: 時間的知識グラフにおける潜在表現の進化

Unveiling LLMs: The Evolution of Latent Representations in a Temporal Knowledge Graph ( http://arxiv.org/abs/2404.03623v1 )

ライセンス: Link先を確認
Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini, (参考訳) 大規模言語モデル(LLM)は、幅広い事実知識情報を思い出すための印象的な能力を示している。 しかし、LLMの根底にある理由を解明し、これらの事実的知識を活用するための内部メカニズムを説明することは、研究の活発な領域に留まっている。 我々の研究は、事実的クレームの真偽を評価するよう促されたLLMの潜在表現に符号化された事実的知識を分析する。 本稿では,LLMの潜在空間に埋め込まれた事実知識をベクトル空間から基底の集合に共同で復号し,時間的知識グラフを用いて各層を横断する進化を表現したエンドツーエンドフレームワークを提案する。 本フレームワークは,モデルの推論計算に係わるアクティベーションパッチの手法に依存し,その潜在表現を動的に変更する。 その結果、私たちは外部モデルやトレーニングプロセスに依存していません。 本稿では,FEVERとCLIMATE-FEVERという2つのクレーム検証データセットを用いて,局所的およびグローバルな解釈可能性分析を行った。 局所的解釈可能性解析は、表現からマルチホップ推論エラーまで、様々な潜時誤差を露呈する。 一方、グローバル分析では、モデルの事実知識(例えば、保存と検索の事実情報)の根本的な進化のパターンが明らかになった。 グラフに基づく潜在表現の分析を可能にすることにより、この研究はLLMの機械的解釈可能性への一歩となる。

Large Language Models (LLMs) demonstrate an impressive capacity to recall a vast range of common factual knowledge information. However, unravelling the underlying reasoning of LLMs and explaining their internal mechanisms of exploiting this factual knowledge remain active areas of investigation. Our work analyzes the factual knowledge encoded in the latent representation of LLMs when prompted to assess the truthfulness of factual claims. We propose an end-to-end framework that jointly decodes the factual knowledge embedded in the latent space of LLMs from a vector space to a set of ground predicates and represents its evolution across the layers using a temporal knowledge graph. Our framework relies on the technique of activation patching which intervenes in the inference computation of a model by dynamically altering its latent representations. Consequently, we neither rely on external models nor training processes. We showcase our framework with local and global interpretability analyses using two claim verification datasets: FEVER and CLIMATE-FEVER. The local interpretability analysis exposes different latent errors from representation to multi-hop reasoning errors. On the other hand, the global analysis uncovered patterns in the underlying evolution of the model's factual knowledge (e.g., store-and-seek factual information). By enabling graph-based analyses of the latent representations, this work represents a step towards the mechanistic interpretability of LLMs.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# 参照アーキテクチャによる知識工学の実践の標準化

Standardizing Knowledge Engineering Practices with a Reference Architecture ( http://arxiv.org/abs/2404.03624v1 )

ライセンス: Link先を確認
Bradley P. Allen, Filip Ilievski, (参考訳) 知識工学は知識を生み出すシステムを作成し維持する過程である。 コンピュータ科学とAIの歴史を通じて、信頼できる知的エージェントに対する高品質な知識の重要性から、知識工学のワークフローが広く使われている。 一方、目標とするタスクやユースケースから明らかなように、知識工学の範囲は、エキスパートシステム、セマンティックウェブ、言語モデリングといったパラダイムとともにシフトしている。 これらのパラダイム間のユースケースとサポートされたユーザ要件は、世界中で分析されていない。 最近のボックスロジーへの体系的パターンの抽象化は、知識工学の要件とユースケースを、それらを最も満足できるシステム、コンポーネント、ソフトウェアと整合させるための開口部を提供する。 本稿では,参照アーキテクチャを作成するソフトウェア工学手法を活用することにより,知識工学の分野でのベストプラクティスを調和させるというビジョンを提案する。 本稿では,既存の知識工学ワークフローとボックスロジに基づいて,ユーザニーズと繰り返し発生するシステムパターンを関連付けるために,参照アーキテクチャを反復的に設計,実装する方法について述べる。 このようなアーキテクチャの開発を可能にする6段階のロードマップを提供し、アーキテクチャの範囲の定義、情報ソースの選択、分析の初期設計と結果を提供する。 このビジョンに従うことで、知識工学のためのしっかりとした参照アーキテクチャが実現し、ニューロシンボリックな知識工学分野を組織化するための継続的なイニシアチブを前進させ、ソフトウェアアーキテクチャやデータサイエンスコミュニティへの新たなリンクを構築することを期待しています。

Knowledge engineering is the process of creating and maintaining knowledge-producing systems. Throughout the history of computer science and AI, knowledge engineering workflows have been widely used given the importance of high-quality knowledge for reliable intelligent agents. Meanwhile, the scope of knowledge engineering, as apparent from its target tasks and use cases, has been shifting, together with its paradigms such as expert systems, semantic web, and language modeling. The intended use cases and supported user requirements between these paradigms have not been analyzed globally, as new paradigms often satisfy prior pain points while possibly introducing new ones. The recent abstraction of systemic patterns into a boxology provides an opening for aligning the requirements and use cases of knowledge engineering with the systems, components, and software that can satisfy them best. This paper proposes a vision of harmonizing the best practices in the field of knowledge engineering by leveraging the software engineering methodology of creating reference architectures. We describe how a reference architecture can be iteratively designed and implemented to associate user needs with recurring systemic patterns, building on top of existing knowledge engineering workflows and boxologies. We provide a six-step roadmap that can enable the development of such an architecture, providing an initial design and outcome of the definition of architectural scope, selection of information sources, and analysis. We expect that following through on this vision will lead to well-grounded reference architectures for knowledge engineering, will advance the ongoing initiatives of organizing the neurosymbolic knowledge engineering space, and will build new links to the software architectures and data science communities.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# オープン量子システムにおける普遍的時間エンタングルメントトレードオフ

Universal Time-Entanglement Trade-off in Open Quantum Systems ( http://arxiv.org/abs/2404.03625v1 )

ライセンス: Link先を確認
Andrew Pocklington, Aashish A. Clerk, (参考訳) マルコフ開系の極端に広いクラスにおいて、純粋な定常状態絡み合いと緩和時間スケールの間の驚くべき関係を示し、そこでは、2つの(おそらく多体)システム$A$と$B$が共通の散逸環境と局所的に相互作用する。 このセットアップはまた、継続的な測定とフィードバックに基づいて、適応量子力学の幅広いクラスを補完する。 定常状態の絡み合いが増大するにつれて、一般的な強い対称性が出現し、動的に減速する。 これを用いることで、定常状態絡みによって設定された緩和時間に厳密な境界を証明できる。 また、この時間は必ずしも最大絡み合わなければならない。 我々の境界をテストするために、純粋な定常状態をサポートする局所リンドブラディアンのランダムアンサンブルの力学を考察し、この境界がエンタングルメントの量とともに散逸的ギャップがどのように変化するかを予測する優れた働きをすることを示した。 我々の研究は、動的および絡み合いがオープンシステムでどのように接続されているかに関する一般的な洞察を与え、量子貯水池工学に特に関係している。

We demonstrate a surprising connection between pure steady state entanglement and relaxation timescales in an extremely broad class of Markovian open systems, where two (possibly many-body) systems $A$ and $B$ interact locally with a common dissipative environment. This setup also encompases a broad class of adaptive quantum dynamics based on continuous measurement and feedback. As steady state entanglement increases, there is generically an emergent strong symmetry that leads to a dynamical slow down. Using this we can prove rigorous bounds on relaxation times set by steady state entanglement. We also find that this time must necessarily diverge for maximal entanglement. To test our bound, we consider the dynamics of a random ensemble of local Lindbladians that support pure steady states, finding that the bound does an excellent job of predicting how the dissipative gap varies with the amount of entanglement. Our work provides general insights into how dynamics and entanglement are connected in open systems, and has specific relevance to quantum reservoir engineering.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# ニューラルネットワークによるLLMの学習

Training LLMs over Neurally Compressed Text ( http://arxiv.org/abs/2404.03626v1 )

ライセンス: Link先を確認
Brian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant, (参考訳) 本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。 標準的なサブワードトークンはテキストを小さな要因で圧縮するが、ニューラルテキスト圧縮機は圧縮率をはるかに高いものにすることができる。 もしLLMをニューラルネットワークで圧縮したテキストで直接訓練できたら、トレーニングとサービス効率の利点と、長いテキストスパンの扱いがより簡単になる。 この目標の主な障害は、強い圧縮が学習に適さない不透明な出力を生成する傾向があることである。 特に、Arithmetic Codingを介して「圧縮」されたテキストは、LLMによって容易には学習できない。 そこで本研究では,テキストを同じビット長のブロックに分割する新しい圧縮手法であるEqual-Info Windowsを提案する。 提案手法を用いて, 大規模化により向上するニューラル圧縮テキスト上での効果的な学習を実演し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインを広いマージンで上回った。 提案手法は,同じパラメータ数で訓練されたモデルに対するサブワードトークン化器よりも難易度が高いが,短いシーケンス長の利点がある。 短いシーケンス長では、自動回帰生成ステップが少なくなり、レイテンシが削減される。 最後に,学習性に寄与する特性を広範囲に解析し,高圧縮トークン化器の性能向上のための具体的な提案を行う。

In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na\"ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# 実数および複素乱数テンソルの単射ノルム I:スピングラスから幾何学的絡み合いへ

Injective norm of real and complex random tensors I: From spin glasses to geometric entanglement ( http://arxiv.org/abs/2404.03627v1 )

ライセンス: Link先を確認
Stephane Dartois, Benjamin McKenna, (参考訳) 射影ノルムは行列の作用素ノルムのテンソルへの自然な一般化である。 量子情報において、射影ノルム(英: injective norm)は、量子状態の真の多部絡み合いの重要な尺度の一つであり、幾何学的絡み合いとして知られている。 本稿では,実数および複素ガウス乱数テンソルの射影ノルム上の高確率上界を,ランダムな量子状態の幾何学的絡み合い上の下界と,特定の多種球状スピングラスモデルの基底状態エネルギー上の上限とする。 我々のモデルの一部のケースでは、以前の研究は$\epsilon$-net のテクニックを使って正しい大きさの順序を同定し、本研究では Kac--Rice の公式を用いて、きつくある定数の片側境界を与える。

The injective norm is a natural generalization to tensors of the operator norm of a matrix. In quantum information, the injective norm is one important measure of genuine multipartite entanglement of quantum states, where it is known as the geometric entanglement. In this paper, we give a high-probability upper bound on the injective norm of real and complex Gaussian random tensors, corresponding to a lower bound on the geometric entanglement of random quantum states, and to a bound on the ground-state energy of a particular multispecies spherical spin glass model. For some cases of our model, previous work used $\epsilon$-net techniques to identify the correct order of magnitude; in the present work, we use the Kac--Rice formula to give a one-sided bound on the constant which we believe to be tight.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# ROBUST:ロボットオペレーティングシステムにおける221個のバグ

ROBUST: 221 Bugs in the Robot Operating System ( http://arxiv.org/abs/2404.03629v1 )

ライセンス: Link先を確認
Christopher S. Timperley, Gijs van der Hoorn, André Santos, Harshavardhan Deshpande, Andrzej Wąsowski, (参考訳) 自律走行車や配送ドローンなどのロボットシステムが社会の中でより大きな役割と責任を担っているため、ロボット工学ソフトウェアの安全性と品質を計測・保証する新たな手法の開発を支援するために、ロボットオペレーティング・システム(ROS)を介して実装された7つの人気かつ多様なソフトウェアシステムに対して、221のバグのデータセットを体系的にキュレートした。 私たちは、Dockerイメージの形で221の欠陥のあるソフトウェアバージョンを、歴史的に正確なレクリエーションを生成し、基盤理論アプローチを使用して、対応する障害、障害、修正を調べ、分類します。 最後に,本研究の意義を考察し,今後の研究の方向性について概説する。

As robotic systems such as autonomous cars and delivery drones assume greater roles and responsibilities within society, the likelihood and impact of catastrophic software failure within those systems is increased.To aid researchers in the development of new methods to measure and assure the safety and quality of robotics software, we systematically curated a dataset of 221 bugs across 7 popular and diverse software systems implemented via the Robot Operating System (ROS). We produce historically accurate recreations of each of the 221 defective software versions in the form of Docker images, and use a grounded theory approach to examine and categorize their corresponding faults, failures, and fixes. Finally, we reflect on the implications of our findings and outline future research directions for the community.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# WorDepth: 単眼深度推定に先立つ変分言語

WorDepth: Variational Language Prior for Monocular Depth Estimation ( http://arxiv.org/abs/2404.03635v1 )

ライセンス: Link先を確認
Ziyao Zeng, Daniel Wang, Fengyu Yang, Hyoungseob Park, Yangchao Wu, Stefano Soatto, Byung-Woo Hong, Dong Lao, Alex Wong, (参考訳) 単一画像からの3次元3次元再構成は、固有の曖昧さ、すなわちスケールに関する不適切な問題である。 テキスト記述(s)から3Dシーンを予測するのも同様に、例えば、記述されたオブジェクトの空間配置が不適切である。 本研究では,2つの本質的にあいまいなモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。 これをテストするために、単眼深度推定(単眼深度推定)、一眼画像から深度マップを予測する問題、シーンを記述した追加のテキストキャプションに焦点をあてる。 この目的のために,テキストキャプションを平均および標準偏差として符号化することから始め,変分フレームワークを用いて,テキストキャプションに対応する3次元シーンの可算的再現の分布を先行として学習する。 特定の再構成や深度マップを「選択」するために、与えられた画像を条件付きサンプルにより符号化し、変分テキストエンコーダの潜時空間からサンプリングし、出力深度マップに復号する。 1つの最適化ステップでは、標準ガウス語からのテキスト記述とサンプルからの平均偏差と標準偏差を予測し、もう1つは(画像)条件付きサンプルを用いてサンプルをサンプリングする。 トレーニングが完了すると、条件付きサンプルを用いて、エンコードされたテキストから深度を直接予測する。 室内(NYUv2)と屋外(KITTI)のシナリオに対する我々のアプローチを実証する。

Three-dimensional (3D) reconstruction from a single image is an ill-posed problem with inherent ambiguities, i.e. scale. Predicting a 3D scene from text description(s) is similarly ill-posed, i.e. spatial arrangements of objects described. We investigate the question of whether two inherently ambiguous modalities can be used in conjunction to produce metric-scaled reconstructions. To test this, we focus on monocular depth estimation, the problem of predicting a dense depth map from a single image, but with an additional text caption describing the scene. To this end, we begin by encoding the text caption as a mean and standard deviation; using a variational framework, we learn the distribution of the plausible metric reconstructions of 3D scenes corresponding to the text captions as a prior. To "select" a specific reconstruction or depth map, we encode the given image through a conditional sampler that samples from the latent space of the variational text encoder, which is then decoded to the output depth map. Our approach is trained alternatingly between the text and image branches: in one optimization step, we predict the mean and standard deviation from the text description and sample from a standard Gaussian, and in the other, we sample using a (image) conditional sampler. Once trained, we directly predict depth from the encoded text using the conditional sampler. We demonstrate our approach on indoor (NYUv2) and outdoor (KITTI) scenarios, where we show that language can consistently improve performance in both.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# CoMat: 画像-テキスト概念マッチングによるテキスト-画像拡散モデルの調整

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching ( http://arxiv.org/abs/2404.03653v1 )

ライセンス: Link先を確認
Dongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li, (参考訳) 拡散モデルはテキスト・画像生成の分野で大きな成功を収めている。 しかし,テキストプロンプトと画像の不一致を緩和することは依然として困難である。 この不一致の根本原因については、広くは調査されていない。 誤認識はトークン注意のアクティベーションが不十分なことに起因することが観察された。 さらに、この現象は、その訓練パラダイムによって引き起こされる拡散モデルの条件利用の不十分さに起因している。 この問題に対処するために,画像からテキストまでの概念マッチング機構を備えたエンドツーエンド拡散モデル微調整戦略であるCoMatを提案する。 画像キャプションモデルを利用して画像とテキストのアライメントを測定し、拡散モデルを導いて無視トークンを再検討する。 属性結合問題に対処するために、新しい属性集中モジュールも提案されている。 画像や人間の好みのデータがなければ、20KテキストプロンプトだけでSDXLを微調整し、CoMat-SDXLを得る。 大規模な実験により、CoMat-SDXLは2つのテキスト・画像アライメントベンチマークにおいてベースラインモデルSDXLを著しく上回り、最先端のパフォーマンスを達成することが示された。

Diffusion models have demonstrated great success in the field of text-to-image generation. However, alleviating the misalignment between the text prompts and images is still challenging. The root reason behind the misalignment has not been extensively investigated. We observe that the misalignment is caused by inadequate token attention activation. We further attribute this phenomenon to the diffusion model's insufficient condition utilization, which is caused by its training paradigm. To address the issue, we propose CoMat, an end-to-end diffusion model fine-tuning strategy with an image-to-text concept matching mechanism. We leverage an image captioning model to measure image-to-text alignment and guide the diffusion model to revisit ignored tokens. A novel attribute concentration module is also proposed to address the attribute binding problem. Without any image or human preference data, we use only 20K text prompts to fine-tune SDXL to obtain CoMat-SDXL. Extensive experiments show that CoMat-SDXL significantly outperforms the baseline model SDXL in two text-to-image alignment benchmarks and achieves start-of-the-art performance.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# OW-VISCap: オープンワールドビデオインスタンスのセグメンテーションとキャプション

OW-VISCap: Open-World Video Instance Segmentation and Captioning ( http://arxiv.org/abs/2404.03657v1 )

ライセンス: Link先を確認
Anwesa Choudhuri, Girish Chowdhary, Alexander G. Schwing, (参考訳) オープンワールドビデオインスタンスのセグメンテーションは重要なビデオ理解タスクである。 しかし、ほとんどのメソッドはクローズドワールド環境で動作し、追加のユーザインプットを必要とするか、あるいは古典的なリージョンベースの提案を使用して、見たことのないオブジェクトを識別する。 さらに、これらのメソッドは検出されたオブジェクトにワンワードラベルのみを割り当て、リッチなオブジェクト中心の記述を生成しない。 また、しばしば重なり合う予測に悩まされる。 これらの課題に対処するため、我々は、以前に見た、あるいは見えないオブジェクトを共同でセグメント化、追跡、キャプションするOpen-World Video Instance Segmentation and Captioning (OW-VISCap)を提案する。 このために,オープンワールドなオブジェクトクエリを導入して,ユーザ入力を必要とせずに,これまで見たことのないオブジェクトを検出する。 検出対象ごとのリッチで記述的オブジェクト中心のキャプションを,マスク付注意強調LDM入力により生成する。 オブジェクトクエリが互いに異なることを保証するために、クエリ間のコントラスト損失を導入します。 我々の一般化されたアプローチは、BURSTデータセットのオープンワールドビデオインスタンスセグメンテーション、VidSTGデータセットの高密度ビデオオブジェクトキャプション、OVISデータセットのクローズワールドビデオインスタンスセグメンテーションの3つのタスクにおいて、最先端の課題と一致または超えている。

Open-world video instance segmentation is an important video understanding task. Yet most methods either operate in a closed-world setting, require an additional user-input, or use classic region-based proposals to identify never before seen objects. Further, these methods only assign a one-word label to detected objects, and don't generate rich object-centric descriptions. They also often suffer from highly overlapping predictions. To address these issues, we propose Open-World Video Instance Segmentation and Captioning (OW-VISCap), an approach to jointly segment, track, and caption previously seen or unseen objects in a video. For this, we introduce open-world object queries to discover never before seen objects without additional user-input. We generate rich and descriptive object-centric captions for each detected object via a masked attention augmented LLM input. We introduce an inter-query contrastive loss to ensure that the object queries differ from one another. Our generalized approach matches or surpasses state-of-the-art on three tasks: open-world video instance segmentation on the BURST dataset, dense video object captioning on the VidSTG dataset, and closed-world video instance segmentation on the OVIS dataset.
翻訳日:2024-04-05 13:52:38 公開日:2024-04-04
# U(1)等方性を持つリー代数ケーラーシグマモデル

Lie-algebraic Kähler sigma models with the U(1) isotropy ( http://arxiv.org/abs/2404.03630v1 )

ライセンス: Link先を確認
Chao-Hsiang Sheu, Mikhail Shifman, (参考訳) 2次元における$\mathbb{CP}^1$シグマモデルのリー代数変形に関連して現れる様々な疑問について議論する。 まず、最小の${\cal N}=(0,2)$と拡張された${\cal N}=(2,2)$スーパー対称性を持つ元のモデルを超対称性化する。 両症例とも, 全般的過電流異常を導出する。 後者の場合、この異常は1ループであるが、対象多様体が非対称であるため、文献で見られる標準表現とは多少異なる。 また、ツイスト質量と$\theta$項を導入する方法を示し、特にトポロジカル電荷の値であるインスタントンに対するBPS方程式を研究する。 次に、非超対称リー代数シグマモデルの$\beta$関数の第2ループは赤外効果によるものであることを示す。 この目的のために超対称正則化を用いる。 また、上記の主張は4次元の${\cal N}=1$ Super-Yang-Millsの並列現象と同様、より高いループに対しても有効であると予想する。 論文の第2部では、特殊次元の還元、すなわち2次元リー代数モデルから始めて、Lam\'e型の準正確に解ける量子力学的問題に到達する。

We discuss various questions which emerge in connection with the Lie-algebraic deformation of $\mathbb{CP}^1$ sigma model in two dimensions. First we supersymmetrize the original model endowing it with the minimal ${\cal N}=(0,2)$ and extended ${\cal N}=(2,2)$ supersymmetries. Then we derive the general hypercurrent anomaly in the both cases. In the latter case this anomaly is one-loop but is somewhat different from the standard expressions one can find in the literature because the target manifold is non-symmetric. We also show how to introduce the twisted masses and the $\theta$ term, and study the BPS equation for instantons, in particular the value of the topological charge. Then we demonstrate that the second loop in the $\beta$ function of the non-supersymmetric Lie-algebraic sigma model is due to an infrared effect. To this end we use a supersymmetric regularization. We also conjecture that the above statement is valid for higher loops too, similar to the parallel phenomenon in four-dimensional ${\cal N}=1$ super-Yang-Mills. In the second part of the paper we develop a special dimensional reduction -- namely, starting from the two-dimensional Lie-algebraic model we arrive at a quasi-exactly solvable quantum-mechanical problem of the Lam\'e type.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# タスクベクトルを用いたロバスト概念消去

Robust Concept Erasure Using Task Vectors ( http://arxiv.org/abs/2404.03631v1 )

ライセンス: Link先を確認
Minh Pham, Kelly O. Marshall, Chinmay Hegde, Niv Cohen, (参考訳) テキスト・ツー・イメージ・モデルの急速な成長に伴い、望ましくない画像生成を防止するために様々な手法が提案されている。 しかし、これらの方法はしばしば特定のユーザープロンプトに対してのみ保護され、他の入力で安全でない世代を許可することが示されている。 ここでは、ユーザのプロンプトの消去を条件にするのではなく、テキスト・ツー・イメージモデルから概念を無条件に消去することに焦点を当てる。 まず, 入力依存消去法と比較して, タスクベクトル(TV)を用いた概念消去は, トレーニング中ではなく, 予期せぬユーザ入力に対してより堅牢であることを示す。 しかし、テレビベースの消去は、特に必要な編集強度が不明な場合には、編集モデルのコアパフォーマンスにも影響を及ぼす可能性がある。 そこで我々は,テレビ編集に必要な強度を推定するために,ディバース・インバージョン(Diverse Inversion)という手法を提案する。 ディヴァース・インバージョンは、モデル入力空間内に大量の単語の埋め込みを見つけ、それぞれがターゲット概念の生成を誘導する。 セットの多様性を奨励することで、予想外のプロンプトに対する評価がより堅牢になることが分かりました。 最後に、Diverse Inversionにより、モデルの重みのサブセットにのみTV編集を適用することができ、モデルのコア機能を維持しつつ、消去能力を向上できることを示す。

With the rapid growth of text-to-image models, a variety of techniques have been suggested to prevent undesirable image generations. Yet, these methods often only protect against specific user prompts and have been shown to allow unsafe generations with other inputs. Here we focus on unconditionally erasing a concept from a text-to-image model rather than conditioning the erasure on the user's prompt. We first show that compared to input-dependent erasure methods, concept erasure that uses Task Vectors (TV) is more robust to unexpected user inputs, not seen during training. However, TV-based erasure can also affect the core performance of the edited model, particularly when the required edit strength is unknown. To this end, we propose a method called Diverse Inversion, which we use to estimate the required strength of the TV edit. Diverse Inversion finds within the model input space a large set of word embeddings, each of which induces the generation of the target concept. We find that encouraging diversity in the set makes our estimation more robust to unexpected prompts. Finally, we show that Diverse Inversion enables us to apply a TV edit only to a subset of the model weights, enhancing the erasure capabilities while better maintaining the core functionality of the model.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# Triplaneによる参照型3次元画像編集

Reference-Based 3D-Aware Image Editing with Triplane ( http://arxiv.org/abs/2404.03632v1 )

ライセンス: Link先を確認
Bahri Batuhan Bilecen, Yigit Yalin, Ning Yu, Aysegul Dundar, (参考訳) GAN(Generative Adversarial Networks)は、高品質な画像生成だけでなく、解釈可能な潜在空間の操作による実際の画像編集のための強力なツールとして登場した。 GANの最近の進歩には、EG3Dのような3次元認識モデルの開発が含まれており、単一の画像から3次元幾何学を再構築できる効率的な三面体ベースのアーキテクチャが特徴である。 しかし、この領域内では、高品質な参照ベースの3D画像編集のための統合フレームワークを提供することに注意が向けられている。 本研究は,EG3Dの3次元平面空間による高度な参照ベース編集の実現効果を探索・実証することにより,このギャップを解消し,新しいパイプラインによる3次元画像編集におけるユニークな視点を示す。 提案手法は,三面体特徴の符号化,空間的ゆがみ,三面体領域の特徴の自動局在化,および所望の画像編集のための融合学習を統合する。 さらに,本フレームワークはドメイン間の汎用性を実証し,その効果を動物顔の編集や漫画肖像画の部分的スタイリゼーションにまで拡張する。 本手法は,定性的にも定量的にも,関連する3D対応潜時編集や2D参照ベース編集よりも大幅に改善されている。 プロジェクトページ:https://three-bee.github.io/triplane_edit

Generative Adversarial Networks (GANs) have emerged as powerful tools not only for high-quality image generation but also for real image editing through manipulation of their interpretable latent spaces. Recent advancements in GANs include the development of 3D-aware models such as EG3D, characterized by efficient triplane-based architectures enabling the reconstruction of 3D geometry from single images. However, scant attention has been devoted to providing an integrated framework for high-quality reference-based 3D-aware image editing within this domain. This study addresses this gap by exploring and demonstrating the effectiveness of EG3D's triplane space for achieving advanced reference-based edits, presenting a unique perspective on 3D-aware image editing through our novel pipeline. Our approach integrates the encoding of triplane features, spatial disentanglement and automatic localization of features in the triplane domain, and fusion learning for desired image editing. Moreover, our framework demonstrates versatility across domains, extending its effectiveness to animal face edits and partial stylization of cartoon portraits. The method shows significant improvements over relevant 3D-aware latent editing and 2D reference-based editing methods, both qualitatively and quantitatively. Project page: https://three-bee.github.io/triplane_edit
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# PreAfford: 分散オブジェクトと環境のためのユニバーサルアクダクタンスベースのプレグラッピング

PreAfford: Universal Affordance-Based Pre-Grasping for Diverse Objects and Environments ( http://arxiv.org/abs/2404.03634v1 )

ライセンス: Link先を確認
Kairui Ding, Boyuan Chen, Ruihai Wu, Yuyang Li, Zongzheng Zhang, Huan-ang Gao, Siqi Li, Yixin Zhu, Guyue Zhou, Hao Dong, Hao Zhao, (参考訳) 2本のフィンガーグリップパーを持つ非重力物体のロボット操作は、つかみやすい特徴の不明瞭さによる重要な課題を呈する一方、従来のプレグラスピング技術は、オブジェクトの再配置に依存し、テーブルエッジのような外部のエイズを活用するが、オブジェクトカテゴリやシーン間の適応性が欠如している。 このような問題に対処するために,P PreAfford はポイントレベルのアベイランス表現とリレートレーニングアプローチを利用して,これまで見つからなかった幅広い環境やオブジェクトタイプへの適応性を向上する,新しいプレグラッピング計画フレームワークである。 ShapeNet-v2データセットで実証されたPreAffordは、成功率の把握を69%改善し、実世界の実験を通じてその実用性を検証する。 この作業は、不安定なオブジェクトを操作するための堅牢で適応可能なソリューションを提供する。

Robotic manipulation of ungraspable objects with two-finger grippers presents significant challenges due to the paucity of graspable features, while traditional pre-grasping techniques, which rely on repositioning objects and leveraging external aids like table edges, lack the adaptability across object categories and scenes. Addressing this, we introduce PreAfford, a novel pre-grasping planning framework that utilizes a point-level affordance representation and a relay training approach to enhance adaptability across a broad range of environments and object types, including those previously unseen. Demonstrated on the ShapeNet-v2 dataset, PreAfford significantly improves grasping success rates by 69% and validates its practicality through real-world experiments. This work offers a robust and adaptable solution for manipulating ungraspable objects.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# DiffBody: Imagining with Generative Diffusion Prior

DiffBody: Human Body Restoration by Imagining with Generative Diffusion Prior ( http://arxiv.org/abs/2404.03642v1 )

ライセンス: Link先を確認
Yiming Zhang, Zhe Wang, Xinjie Li, Yunchen Yuan, Chengsong Zhang, Xiao Sun, Zhihang Zhong, Jian Wang, (参考訳) 人体修復は、人体に関する様々な応用において重要な役割を担っている。 一般的な画像修復の進歩にもかかわらず、人体修復におけるパフォーマンスは概して穏やかであり、しばしば前景と背景のブレンディング、表面テクスチャの過度な平滑化、アクセサリーの欠如、変形した手足が生じる。 これらの課題に対処するため、我々は、ドメイン固有の知識を活用して性能を向上させる人体認識拡散モデルを構築することによって、新しいアプローチを提案する。 具体的には,事前学習したボディアテンションモジュールを用いて,拡散モデルの焦点を前景に誘導し,対象と背景の混在に起因する問題に対処する。 また,テキストプロンプトをシームレスに組み込んで表面テクスチャの質を向上させることで,修復作業における拡散モデルの言語モダリティを再考する価値を示す。 さらに,手足の歪みを補正するための局所的意味情報を利用して,人体部位の微粒化に適した拡散サンプリング装置を提案する。 最後に、人体修復の分野をベンチマークし、前進させるための包括的なデータセットを収集する。 大規模な実験的検証は,既存手法よりも定量的にも質的にも,我々のアプローチの優位性を示すものである。

Human body restoration plays a vital role in various applications related to the human body. Despite recent advances in general image restoration using generative models, their performance in human body restoration remains mediocre, often resulting in foreground and background blending, over-smoothing surface textures, missing accessories, and distorted limbs. Addressing these challenges, we propose a novel approach by constructing a human body-aware diffusion model that leverages domain-specific knowledge to enhance performance. Specifically, we employ a pretrained body attention module to guide the diffusion model's focus on the foreground, addressing issues caused by blending between the subject and background. We also demonstrate the value of revisiting the language modality of the diffusion model in restoration tasks by seamlessly incorporating text prompt to improve the quality of surface texture and additional clothing and accessories details. Additionally, we introduce a diffusion sampler tailored for fine-grained human body parts, utilizing local semantic information to rectify limb distortions. Lastly, we collect a comprehensive dataset for benchmarking and advancing the field of human body restoration. Extensive experimental validation showcases the superiority of our approach, both quantitatively and qualitatively, over existing methods.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# 最適時間依存性を持つ低エネルギー状態に対するハミルトンシミュレーション

Hamiltonian simulation for low-energy states with optimal time dependence ( http://arxiv.org/abs/2404.03644v1 )

ライセンス: Link先を確認
Alexander Zlokapa, Rolando D. Somma, (参考訳) 低エネルギー部分空間内のハミルトン$H$の下で時間発展をシミュレートする作業を考える。 ブロックエンコーディングを$H'=(H-E)/\lambda$ for some $E \in \mathbb R$と仮定すると、初期状態が固有値$[-1, -1+\Delta/\lambda]$のサブスペースに制限されたときに、$\epsilon$-approximation to $e^{-itH}$を実装することが目標である。 我々は、$O(t\sqrt{\lambda\Gamma} + \sqrt{\lambda/\Gamma}\log(1/\epsilon))$のブロックエンコーディングに対して$\Gamma$を$\Delta \leq \Gamma \lambda$とする量子アルゴリズムを提案する。 $\log(1/\epsilon) = o(t\lambda)$ と $\Delta/\lambda = o(1)$ とすると、クエリ複雑性を持つジェネリックメソッドよりも改善される。 我々の量子アルゴリズムはスペクトルギャップ増幅と量子特異値変換を利用する。 H$の標準的なアクセスモデルを用いて、$H'$を効率的にブロックエンコードする能力は、"ギャップアンプリケート"ハミルトニアンと呼ばれるものと同じであることを示す。 これにはフラストレーションのないシステムのような物理的に関係のある例が含まれており、これまで考慮されていた低エネルギーシミュレーションアルゴリズムのすべての設定を含んでいる。 また、低エネルギーシミュレーションのための下限も提供する。 最悪の場合、ハミルトニアンシミュレーションのランタイムを改善するために低エネルギー状態は利用できない。 ギャップを増幅するハミルトニアンに対しては、我々のアルゴリズムが$t$, $\Delta$, $\lambda$に関するクエリモデルに密着していることを証明する。 例えば、$\log (1/\epsilon) = o(t\Delta)$ と $\Delta/\lambda = o(1)$ は、ゲートの複雑さ(ログファクタまで)が一致することを証明する。 クエリの下界を確立するために、$\mathrm{PARITY}\circ\mathrm{OR}$ および三角多項式上の次数境界を考える。 ゲート複雑性の低い境界を確立するために、低エネルギー状態に作用するサーキット・ト・ハミルトニアン還元を用いる。

We consider the task of simulating time evolution under a Hamiltonian $H$ within its low-energy subspace. Assuming access to a block-encoding of $H'=(H-E)/\lambda$ for some $E \in \mathbb R$, the goal is to implement an $\epsilon$-approximation to $e^{-itH}$ when the initial state is confined to the subspace corresponding to eigenvalues $[-1, -1+\Delta/\lambda]$ of $H'$. We present a quantum algorithm that uses $O(t\sqrt{\lambda\Gamma} + \sqrt{\lambda/\Gamma}\log(1/\epsilon))$ queries to the block-encoding for any $\Gamma$ such that $\Delta \leq \Gamma \leq \lambda$. When $\log(1/\epsilon) = o(t\lambda)$ and $\Delta/\lambda = o(1)$, this result improves over generic methods with query complexity $\Omega(t\lambda)$. Our quantum algorithm leverages spectral gap amplification and the quantum singular value transform. Using standard access models for $H$, we show that the ability to efficiently block-encode $H'$ is equivalent to $H$ being what we refer to as a "gap-amplifiable" Hamiltonian. This includes physically relevant examples such as frustration-free systems, and it encompasses all previously considered settings of low-energy simulation algorithms. We also provide lower bounds for low-energy simulation. In the worst case, we show that the low-energy condition cannot be used to improve the runtime of Hamiltonian simulation. For gap-amplifiable Hamiltonians, we prove that our algorithm is tight in the query model with respect to $t$, $\Delta$, and $\lambda$. In the practically relevant regime where $\log (1/\epsilon) = o(t\Delta)$ and $\Delta/\lambda = o(1)$, we also prove a matching lower bound in gate complexity (up to log factors). To establish the query lower bounds, we consider $\mathrm{PARITY}\circ\mathrm{OR}$ and degree bounds on trigonometric polynomials. To establish the lower bound on gate complexity, we use a circuit-to-Hamiltonian reduction acting on a low-energy state.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# ビデオセグメンテーション参照のための静的・階層的動作知覚の分離

Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation ( http://arxiv.org/abs/2404.03645v1 )

ライセンス: Link先を確認
Shuting He, Henghui Ding, (参考訳) ビデオセグメンテーションの参照は、オブジェクトの識別とセグメンテーションに自然言語表現に依存しており、しばしば動きの手がかりを強調する。 従来の作業は文全体を扱い、ビデオレベルで直接識別を行い、静的な画像レベルのキューと時間的な動きのキューを混ぜる。 しかし、画像レベルの特徴は文中の動きの手がかりを十分に理解することができず、静的な手がかりは時間的知覚には不可欠ではない。 実際、静的な手がかりは時相的な知覚に干渉することがある。 本研究では,映像レベルの参照表現理解を静的および運動知覚に分離し,時間的理解の強化に重点を置くことを提案する。 まず、静的なキューとモーションキューがそれぞれ異なる役割を果たすように表現分離モジュールを導入し、モーションキューを見下ろす文埋め込みの問題を軽減する。 第2に,時間スケールの異なる時間領域において,時間的情報を効果的に捕捉する階層的動き知覚モジュールを提案する。 さらに、視覚的に類似した物体の動きを区別するために、コントラスト学習を用いる。 これらのコントリビューションは、5つのデータセットにまたがって最先端のパフォーマンスをもたらし、注目すべき$\textbf{9.2%}$ $\mathcal{J\&F}$データセットは、挑戦的な$\textbf{MeViS}$データセットを改善した。 コードはhttps://github.com/heshuting555/DsHmpで入手できる。

Referring video segmentation relies on natural language expressions to identify and segment objects, often emphasizing motion clues. Previous works treat a sentence as a whole and directly perform identification at the video-level, mixing up static image-level cues with temporal motion cues. However, image-level features cannot well comprehend motion cues in sentences, and static cues are not crucial for temporal perception. In fact, static cues can sometimes interfere with temporal perception by overshadowing motion cues. In this work, we propose to decouple video-level referring expression understanding into static and motion perception, with a specific emphasis on enhancing temporal comprehension. Firstly, we introduce an expression-decoupling module to make static cues and motion cues perform their distinct role, alleviating the issue of sentence embeddings overlooking motion cues. Secondly, we propose a hierarchical motion perception module to capture temporal information effectively across varying timescales. Furthermore, we employ contrastive learning to distinguish the motions of visually similar objects. These contributions yield state-of-the-art performance across five datasets, including a remarkable $\textbf{9.2%}$ $\mathcal{J\&F}$ improvement on the challenging $\textbf{MeViS}$ dataset. Code is available at https://github.com/heshuting555/DsHmp.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# マンバにおけるファクチュアル・アソシエーションの立地と編集

Locating and Editing Factual Associations in Mamba ( http://arxiv.org/abs/2404.03646v1 )

ライセンス: Link先を確認
Arnab Sen Sharma, David Atkinson, David Bau, (参考訳) 本研究では,マンバ状態空間モデルにおける事実的リコールのメカニズムについて検討する。 我々の研究は, 自己回帰型トランスフォーマー言語モデルにおける過去の知見に触発されて, それらの知識リコールが特定のトークン位置の特定のモジュールに局所化されていることを示唆し, マンバにおける事実リコールが同様に局所化可能であるかどうかを問う。 これを調べるために,マンバで4行の実験を行う。 まず,中間層内の特定の成分が被写体の最後のトークンにおいて強い因果効果を示すのに対して,後層の介入による因果効果は,前者のトークンにおいて最も顕著であり,自己回帰トランスフォーマーにおける前の結果と一致する。 第二に、ランクワンモデル編集手法は、トランスフォーマーモデルの発見とよく似た、特定の場所で事実を挿入できることを示す。 第3に,マンバの事実関係表現の線型性について検討する。 最後に,マムバに注意ノックアウト手法を適用し,事実リコール時の情報の流れを識別する。 我々は、Mambaを同様の大きさのトランスフォーマーと直接比較し、アーキテクチャアプローチに大きな違いがあるにもかかわらず、事実的リコールに関しては、2つのアーキテクチャが多くの類似点を共有していると結論付けている。

We investigate the mechanisms of factual recall in the Mamba state space model. Our work is inspired by previous findings in autoregressive transformer language models suggesting that their knowledge recall is localized to particular modules at specific token locations; we therefore ask whether factual recall in Mamba can be similarly localized. To investigate this, we conduct four lines of experiments on Mamba. First, we apply causal tracing or interchange interventions to localize key components inside Mamba that are responsible for recalling facts, revealing that specific components within middle layers show strong causal effects at the last token of the subject, while the causal effect of intervening on later layers is most pronounced at the last token of the prompt, matching previous findings on autoregressive transformers. Second, we show that rank-one model editing methods can successfully insert facts at specific locations, again resembling findings on transformer models. Third, we examine the linearity of Mamba's representations of factual relations. Finally we adapt attention-knockout techniques to Mamba to dissect information flow during factual recall. We compare Mamba directly to a similar-sized transformer and conclude that despite significant differences in architectural approach, when it comes to factual recall, the two architectures share many similarities.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# 制御工学における大規模言語モデルの能力: GPT-4, Claude 3 Opus, Gemini 1.0 Ultraに関するベンチマーク研究

Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra ( http://arxiv.org/abs/2404.03647v1 )

ライセンス: Link先を確認
Darioush Kevian, Usman Syed, Xingang Guo, Aaron Havens, Geir Dullerud, Peter Seiler, Lianhui Qin, Bin Hu, (参考訳) 本稿では,GPT-4,Claude 3 Opus,Gemini 1.0 Ultraといった最先端の大規模言語モデル(LLM)による学部レベルの制御問題の解法について検討する。 制御は、数学的理論と工学設計の組み合わせによるLSM推論の興味深いケーススタディを提供する。 古典的な制御設計の幅、深さ、複雑さを反映したベンチマークデータセットであるControlBenchを紹介する。 このデータセットを用いて、制御工学の文脈において、これらのLCMの問題解決能力について研究し、評価する。 制御工学におけるLSMの精度, 推論, 説明力について, 人間の専門家による評価を行った。 分析の結果,古典的制御の文脈における各LLMの長所と短所が明らかとなり,Claude 3 Opus が学部制御問題の解法として最先端の LLM となったことが示唆された。 我々の研究は、制御工学に人工知能を採用するという、より広い目標に向けた最初のステップとなる。

In this paper, we explore the capabilities of state-of-the-art large language models (LLMs) such as GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra in solving undergraduate-level control problems. Controls provides an interesting case study for LLM reasoning due to its combination of mathematical theory and engineering design. We introduce ControlBench, a benchmark dataset tailored to reflect the breadth, depth, and complexity of classical control design. We use this dataset to study and evaluate the problem-solving abilities of these LLMs in the context of control engineering. We present evaluations conducted by a panel of human experts, providing insights into the accuracy, reasoning, and explanatory prowess of LLMs in control engineering. Our analysis reveals the strengths and limitations of each LLM in the context of classical control, and our results imply that Claude 3 Opus has become the state-of-the-art LLM for solving undergraduate control problems. Our study serves as an initial step towards the broader goal of employing artificial general intelligence in control engineering.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# AutoWebGLM:Bootstrapと大規模言語モデルベースのWebナビゲーションエージェント強化

AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent ( http://arxiv.org/abs/2404.03648v1 )

ライセンス: Link先を確認
Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang, (参考訳) 大きな言語モデル(LLM)は、Webナビゲーションのような多くのインテリジェントなエージェントタスクを刺激してきた -- しかし、既存のエージェントのほとんどは、(1)Webページ上のアクションの汎用性、(2)モデル処理能力を超えたHTMLテキスト、(3)Webのオープンドメインの性質による意思決定の複雑さの3つの要因により、現実世界のWebページで満足できないようにしている。 この課題を考慮して,ChatGLM3-6B上に構築されたGPT-4出力自動ナビゲーションエージェントであるAutoWebGLMを開発した。 人間のブラウジングパターンにインスパイアされた我々は、Webページを表現するためのHTML単純化アルゴリズムを設計し、重要な情報を簡潔に保存する。 カリキュラム学習のためのWebブラウジングデータ構築には,ハイブリッドなヒューマンAI手法を用いる。 そして、強化学習と拒絶サンプリングによりモデルをブートストラップし、Webページの理解、ブラウザ操作、タスクの効率的な分解をより容易にする。 テストのために、現実世界のWebブラウジングタスクのためのバイリンガルベンチマーク -- AutoWebBench -- を確立しました。 我々は、さまざまなWebナビゲーションベンチマークでAutoWebGLMを評価し、その改善だけでなく、実際の環境に取り組むための根本的な課題も明らかにした。 関連コード、モデル、データは \url{https://github.com/THUDM/AutoWebGLM} でリリースされる。

Large language models (LLMs) have fueled many intelligent agent tasks, such as web navigation -- but most existing agents perform far from satisfying in real-world webpages due to three factors: (1) the versatility of actions on webpages, (2) HTML text exceeding model processing capacity, and (3) the complexity of decision-making due to the open-domain nature of web. In light of the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns, we design an HTML simplification algorithm to represent webpages, preserving vital information succinctly. We employ a hybrid human-AI method to build web browsing data for curriculum training. Then, we bootstrap the model by reinforcement learning and rejection sampling to further facilitate webpage comprehension, browser operations, and efficient task decomposition by itself. For testing, we establish a bilingual benchmark -- AutoWebBench -- for real-world web browsing tasks. We evaluate AutoWebGLM across diverse web navigation benchmarks, revealing its improvements but also underlying challenges to tackle real environments. Related code, model, and data will be released at \url{https://github.com/THUDM/AutoWebGLM}.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# OpenNeRF:Pixel-Wise機能とレンダリングされた新しいビューを備えたオープンセット3Dニューラルシーンセグメンテーション

OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views ( http://arxiv.org/abs/2404.03650v1 )

ライセンス: Link先を確認
Francis Engelmann, Fabian Manhardt, Michael Niemeyer, Keisuke Tateno, Marc Pollefeys, Federico Tombari, (参考訳) 大規模な視覚言語モデル(VLM)は、CLIPと同様に、ゼロショット方式で任意の概念をイメージからセグメント化するためのオープンセットイメージセグメンテーションを可能にする。 これは、モデルが事前に定義されたトレーニングセットからのみクラスをセグメントできるような、伝統的なクローズドセットの仮定を超えたものである。 最近では3Dシーンにおけるオープンセットセグメンテーションに関する最初の研究が文献に登場している。 これらの手法は、点雲やポリゴンメッシュを処理するクローズドセットの3D畳み込みアプローチの影響を強く受けている。 しかし、これらの3次元シーン表現は、視覚言語モデルのイメージベースの性質とうまく一致しない。 実際、ポイントクラウドと3Dメッシュは通常、画像よりも解像度が低く、再構成された3Dシーンの幾何学は、ピクセル対応のCLIP機能を計算するために使用される2Dイメージシーケンスによく似ていないかもしれない。 これらの課題に対処するため,ポーズ画像上で自然に動作し,NeRF内のVLM機能を直接符号化するOpenNeRFを提案する。 これはLERFと精神的に似ているが、我々の研究は、ピクセルワイドのVLM機能(グローバルCLIP機能の代わりに)を使用することで、DINO正規化を必要とせずに、全体的なより複雑なアーキテクチャが得られることを示している。 我々のOpenNeRFは、NeRFの新たなビューを描画し、初期画像でよく観察されていない領域からオープンセットのVLM特徴を抽出する能力を活用している。 Replicaデータセット上の3Dポイントクラウドセグメンテーションでは、OpenNeRFはLERFやOpenSceneといった最近のオープン語彙法を少なくとも4.9 mIoUで上回っている。

Large visual-language models (VLMs), like CLIP, enable open-set image segmentation to segment arbitrary concepts from an image in a zero-shot manner. This goes beyond the traditional closed-set assumption, i.e., where models can only segment classes from a pre-defined training set. More recently, first works on open-set segmentation in 3D scenes have appeared in the literature. These methods are heavily influenced by closed-set 3D convolutional approaches that process point clouds or polygon meshes. However, these 3D scene representations do not align well with the image-based nature of the visual-language models. Indeed, point cloud and 3D meshes typically have a lower resolution than images and the reconstructed 3D scene geometry might not project well to the underlying 2D image sequences used to compute pixel-aligned CLIP features. To address these challenges, we propose OpenNeRF which naturally operates on posed images and directly encodes the VLM features within the NeRF. This is similar in spirit to LERF, however our work shows that using pixel-wise VLM features (instead of global CLIP features) results in an overall less complex architecture without the need for additional DINO regularization. Our OpenNeRF further leverages NeRF's ability to render novel views and extract open-set VLM features from areas that are not well observed in the initial posed images. For 3D point cloud segmentation on the Replica dataset, OpenNeRF outperforms recent open-vocabulary methods such as LERF and OpenScene by at least +4.9 mIoU.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# 2Dで見るほど3Dで知覚されるものが増えます

The More You See in 2D, the More You Perceive in 3D ( http://arxiv.org/abs/2404.03652v1 )

ライセンス: Link先を確認
Xinyang Han, Zelin Gao, Angjoo Kanazawa, Shubham Goel, Yossi Gandelsman, (参考訳) 人間は過去の経験に基づいて物体の2D画像から3D構造を推測し、より多くの画像を見ることで3D理解を改善することができる。 この振る舞いに触発されて、任意の数の未提示画像から3次元再構成と新しいビュー合成を行うシステムであるSAP3Dを紹介した。 対象物の未提示画像がいくつかある場合、テストタイムの微調整により、事前学習したビュー条件拡散モデルと画像のカメラポーズを適応させる。 適応拡散モデルと得られたカメラポーズは、3次元再構成および新規なビュー合成のためのインスタンス固有の先行モデルとして利用される。 入力画像の数が増えるにつれて,提案手法の性能が向上し,最適化に基づく先行3次元再構成法と単一画像から3次元拡散法とのギャップを埋めることを示す。 実画像と標準合成ベンチマークで本システムを実証する。 我々のアブレーション研究は、この適応行動がより正確な3D理解の鍵であることを確認した。

Humans can infer 3D structure from 2D images of an object based on past experience and improve their 3D understanding as they see more images. Inspired by this behavior, we introduce SAP3D, a system for 3D reconstruction and novel view synthesis from an arbitrary number of unposed images. Given a few unposed images of an object, we adapt a pre-trained view-conditioned diffusion model together with the camera poses of the images via test-time fine-tuning. The adapted diffusion model and the obtained camera poses are then utilized as instance-specific priors for 3D reconstruction and novel view synthesis. We show that as the number of input images increases, the performance of our approach improves, bridging the gap between optimization-based prior-less 3D reconstruction methods and single-image-to-3D diffusion-based methods. We demonstrate our system on real images as well as standard synthetic benchmarks. Our ablation studies confirm that this adaption behavior is key for more accurate 3D understanding.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# RaFE: 生成放射界の復元

RaFE: Generative Radiance Fields Restoration ( http://arxiv.org/abs/2404.03654v1 )

ライセンス: Link先を確認
Zhongkai Wu, Ziyu Wan, Jing Zhang, Jing Liao, Dong Xu, (参考訳) NeRF(Neural Radiance Fields)は、新しいビュー合成と3次元再構成において大きな可能性を示しているが、その性能は入力画像の品質に敏感であり、低品質のスパース入力視点で高忠実なレンダリングを実現するのに苦慮している。 従来のNeRF修復法は、回復の一般性を無視して、特定の劣化タイプに合わせて調整されている。 この制限を克服するために、低分解能、ぼかし、ノイズ、圧縮アーティファクト、またはそれらの組み合わせなど、様々な種類の劣化に適用できる、RaFEと呼ばれる一般的な放射場復元パイプラインを提案する。 提案手法は,市販の2D復元手法の成功を利用して,個別に多視点画像を復元する手法である。 不整合を平均化することによって、ぼやけたNeRFを再構築する代わりに、多視点画像に現れる幾何的および外観上の不整合をよりよく適合させるために、GAN(Generative Adversarial Networks)を用いて新しいアプローチを導入する。 具体的には、低品質のNeRFを表すために粗面が固定されている2層三面体アーキテクチャを採用し、粗面に付加される微細な残留三面体をGANによる分布としてモデル化し、復元における潜在的変動を捉える。 各種修復作業におけるRaFEの有効性を検証し, 定量評価と定性評価の両方において優れた性能を示し, 単独作業に特有な他の3次元修復方法を上回った。 プロジェクトのWebサイト https://zkaiwu.github.io/RaFE-Project/をご覧ください。

NeRF (Neural Radiance Fields) has demonstrated tremendous potential in novel view synthesis and 3D reconstruction, but its performance is sensitive to input image quality, which struggles to achieve high-fidelity rendering when provided with low-quality sparse input viewpoints. Previous methods for NeRF restoration are tailored for specific degradation type, ignoring the generality of restoration. To overcome this limitation, we propose a generic radiance fields restoration pipeline, named RaFE, which applies to various types of degradations, such as low resolution, blurriness, noise, compression artifacts, or their combinations. Our approach leverages the success of off-the-shelf 2D restoration methods to recover the multi-view images individually. Instead of reconstructing a blurred NeRF by averaging inconsistencies, we introduce a novel approach using Generative Adversarial Networks (GANs) for NeRF generation to better accommodate the geometric and appearance inconsistencies present in the multi-view images. Specifically, we adopt a two-level tri-plane architecture, where the coarse level remains fixed to represent the low-quality NeRF, and a fine-level residual tri-plane to be added to the coarse level is modeled as a distribution with GAN to capture potential variations in restoration. We validate RaFE on both synthetic and real cases for various restoration tasks, demonstrating superior performance in both quantitative and qualitative evaluations, surpassing other 3D restoration methods specific to single task. Please see our project website https://zkaiwu.github.io/RaFE-Project/.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# MVDフュージョン:深部連続多視点生成によるシングルビュー3D

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation ( http://arxiv.org/abs/2404.03656v1 )

ライセンス: Link先を確認
Hanzhe Hu, Zhizhuo Zhou, Varun Jampani, Shubham Tulsiani, (参考訳) 本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。 3D推論を追求する最近の手法は、新しいビュー生成モデルを学ぶことを提唱しているが、これらの世代は3D一貫性がなく、3D出力を生成するには蒸留プロセスが必要である。 その代わりに、3D推論のタスクを、相互に一貫性のある複数のビューを直接生成し、さらに深度を推定することで、この一貫性を強制するメカニズムを提供するという洞察の上に構築した。 具体的には,1つのRGB入力画像が与えられたマルチビューRGB-D画像を生成するためにデノナイズ拡散モデルを訓練し,(中間雑音の)深さ推定を利用して,複数ビューの整合性を維持するためのリジェクションベース条件付けを得る。 我々は、大規模合成データセットObajverseと、汎用カメラ視点からなる実世界のCO3Dデータセットを用いてモデルを訓練する。 提案手法は, 蒸留に基づく3D推論や, 先行した多視点生成手法を含む最近の最先端技術と比較して, より正確な合成が得られることを示す。 また,多視点深度予測によって誘導される幾何も評価し,他の直接的3次元推論手法よりも正確な表現が得られることを示した。

We present MVD-Fusion: a method for single-view 3D inference via generative modeling of multi-view-consistent RGB-D images. While recent methods pursuing 3D inference advocate learning novel-view generative models, these generations are not 3D-consistent and require a distillation process to generate a 3D output. We instead cast the task of 3D inference as directly generating mutually-consistent multiple views and build on the insight that additionally inferring depth can provide a mechanism for enforcing this consistency. Specifically, we train a denoising diffusion model to generate multi-view RGB-D images given a single RGB input image and leverage the (intermediate noisy) depth estimates to obtain reprojection-based conditioning to maintain multi-view consistency. We train our model using large-scale synthetic dataset Obajverse as well as the real-world CO3D dataset comprising of generic camera viewpoints. We demonstrate that our approach can yield more accurate synthesis compared to recent state-of-the-art, including distillation-based 3D inference and prior multi-view generation methods. We also evaluate the geometry induced by our multi-view depth prediction and find that it yields a more accurate representation than other direct 3D inference approaches.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# 隣人を知る:空間的視覚ランゲージ推論による単一視点再構成の改善

Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning ( http://arxiv.org/abs/2404.03658v1 )

ライセンス: Link先を確認
Rui Li, Tobias Fischer, Mattia Segu, Marc Pollefeys, Luc Van Gool, Federico Tombari, (参考訳) 単一の視点から3Dシーンの幾何学を復元することは、コンピュータビジョンの基本的な問題である。 古典的な深度推定法では、画像平面に限定した2.5次元シーン表現しか推定できないが、放射場に基づく最近のアプローチでは、完全な3次元表現が再構成されている。 しかし、これらの手法は、視覚的観察を必要としない幾何を推定するため、隠蔽領域といまだに苦労している。 一 周囲の意味知識、及び (二)空間的文脈を推論すること。 KYNは,各点の密度を予測するために,意味的・空間的文脈を考慮した一視点シーン再構築手法を提案する。 細かな意味情報を持つ点特徴を豊かにするための視覚言語変調モジュールを提案する。 言語誘導型空間アテンション機構によってシーン全体にわたってポイント表現を集約し,3次元意味的文脈を意識したポイントごとの密度予測を行う。 その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。 我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。 プロジェクトページ: https://ruili3.github.io/kyn.com

Recovering the 3D scene geometry from a single view is a fundamental yet ill-posed problem in computer vision. While classical depth estimation methods infer only a 2.5D scene representation limited to the image plane, recent approaches based on radiance fields reconstruct a full 3D representation. However, these methods still struggle with occluded regions since inferring geometry without visual observation requires (i) semantic knowledge of the surroundings, and (ii) reasoning about spatial context. We propose KYN, a novel method for single-view scene reconstruction that reasons about semantic and spatial context to predict each point's density. We introduce a vision-language modulation module to enrich point features with fine-grained semantic information. We aggregate point representations across the scene through a language-guided spatial attention mechanism to yield per-point density predictions aware of the 3D semantic context. We show that KYN improves 3D shape recovery compared to predicting density for each 3D point in isolation. We achieve state-of-the-art results in scene and object reconstruction on KITTI-360, and show improved zero-shot generalization compared to prior work. Project page: https://ruili3.github.io/kyn.
翻訳日:2024-04-05 13:42:53 公開日:2024-04-04
# サブミクロン4H-SiC膜におけるV2中心のスペクトル安定性

Spectral stability of V2 centres in sub-micron 4H-SiC membranes ( http://arxiv.org/abs/2310.12617v3 )

ライセンス: Link先を確認
Jonah Heiler, Jonathan Körber, Erik Hesselmeier, Pierre Kuna, Rainer Stöhr, Philipp Fuchs, Misagh Ghezellou, Jawad Ul-Hassan, Wolfgang Knolle, Christoph Becher, Florian Kaiser, Jörg Wrachtrup, (参考訳) 炭化ケイ素中の色中心は、優れたスピン光学コヒーレンスを持つ有望な半導体量子技術プラットフォームとして出現するが、近年のナノフォトニック構造への集積による光効率の最大化への取り組みは、スペクトル安定性の低下により困難であることが判明した。 ここでは, 厚さが0.25\,\rm\mu m$までの炭化ケイ素薄膜中のシリコン空孔中心を大規模に解析する。 製膜工程は, 化学機械研磨, 反応性イオンエッチング, およびその後の熱処理を組み合わせた。 これにより、粗さ値が3-4\,\rm\r{A}$の高再現性膜と、無視可能な表面蛍光が生じる。 シリコン空孔中心は、波長が0.7 \,\rm\mu m$の膜厚までさまようスペクトルの兆候がほとんどない、光線幅がほぼ一生に限られていることが判明した。 薄膜中のシリコン空孔中心が0.25\,\rm\mu m$以下の場合、光線幅は200\,\rm MHz$以下であり、スピン選択励起スキームと互換性がある。 本研究は, シリコン空孔中心をサブミクロンシリコン炭化物膜に統合し, ナノフォトニック構造に基づく光子抽出効率の向上に向けての道を開くことを明らかにした。

Colour centres in silicon carbide emerge as a promising semiconductor quantum technology platform with excellent spin-optical coherences.However, recent efforts towards maximising the photonic efficiency via integration into nanophotonic structures proved to be challenging due to reduced spectral stabilities. Here, we provide a large-scale systematic investigation on silicon vacancy centres in thin silicon carbide membranes with thicknesses down to $0.25\,\rm\mu m$. Our membrane fabrication process involves a combination of chemical mechanical polishing, reactive ion etching, and subsequent annealing. This leads to highly reproducible membranes with roughness values of $3-4\,\rm\r{A}$, as well as negligible surface fluorescence. We find that silicon vacancy centres show close-to lifetime limited optical linewidths with almost no signs of spectral wandering down to membrane thicknesses of $0.7 \,\rm\mu m$. For silicon vacancy centres in thinner membranes down to $0.25\,\rm\mu m$, we observe spectral wandering, however, optical linewidths remain below $200\,\rm MHz$, which is compatible with spin-selective excitation schemes. Our work clearly shows that silicon vacancy centres can be integrated into sub-micron silicon carbide membranes, which opens the avenue towards obtaining the necessary improvements in photon extraction efficiency based on nanophotonic structuring.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# UINav: デバイス上で自動化エージェントをトレーニングするための実践的アプローチ

UINav: A Practical Approach to Train On-Device Automation Agents ( http://arxiv.org/abs/2312.10170v3 )

ライセンス: Link先を確認
Wei Li, Fu-Lin Hsu, Will Bishop, Folawiyo Campbell-Ajala, Max Lin, Oriana Riva, (参考訳) アプリケーションユーザインターフェースを自律的に実行してユーザタスクを完了させる自動化システムは,特にユーザが状況的にあるいは永続的に障害を受けた場合,大きなメリットがあります。 従来の自動化システムは一般化可能なモデルを生成していないが、AIベースの自動化エージェントは単純で手作りのアプリケーションでのみ確実に機能し、高い計算コストがかかる。 UINavは、モバイルデバイスに適合する自動化エージェントを訓練するが、デモ数が少なくて高い成功率を達成するための、デモベースのアプローチである。 デモンストレーションのオーバーヘッドを軽減するために、UINavでは、エージェントが失敗するタスクに対する即時にフィードバックを提供するリファインダーモデルを使用して、トレーニングデータの多様性を高めるために、人間のデモを自動的に強化する。 評価の結果,UINavは10のデモで70%の精度を達成でき,十分なデモで90%以上の精度を達成できることがわかった。

Automation systems that can autonomously drive application user interfaces to complete user tasks are of great benefit, especially when users are situationally or permanently impaired. Prior automation systems do not produce generalizable models while AI-based automation agents work reliably only in simple, hand-crafted applications or incur high computation costs. We propose UINav, a demonstration-based approach to train automation agents that fit mobile devices, yet achieving high success rates with modest numbers of demonstrations. To reduce the demonstration overhead, UINav uses a referee model that provides users with immediate feedback on tasks where the agent fails, and automatically augments human demonstrations to increase diversity in training data. Our evaluation shows that with only 10 demonstrations UINav can achieve 70% accuracy, and that with enough demonstrations it can surpass 90% accuracy.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# 初期量子コヒーレンスをもつ仕事のゆらぎ定理

Work fluctuation theorems with initial quantum coherence ( http://arxiv.org/abs/2312.16227v3 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna, (参考訳) ゆらぎ定理は、線形反応則を超えた非平衡熱力学の基本的な結果である。 これらのうち、パラダイム的タサキ・クルークスの揺らぎ定理は、フォワード・オブ・平衡量子過程および対応する後方量子過程においてなされた仕事の統計を関連づける。 特に、2つの過程の初期状態は熱状態であり、したがってエネルギーベースでは不整合である。 本稿では、作業の準確率分布を考慮し、作業変動定理における初期量子コヒーレンスの役割を検討することを目的とする。 これを実現するために、初期量子コヒーレンスがない場合に、タサキ・クルークスの揺らぎ定理を再現する詳細なゆらぎ定理の意義を定式化し、検証する。

Fluctuation theorems are fundamental results in nonequilibrium thermodynamics beyond the linear response regime. Among these, the paradigmatic Tasaki-Crooks fluctuation theorem relates the statistics of the works done in a forward out-of-equilibrium quantum process and in a corresponding backward one. In particular, the initial states of the two processes are thermal states and thus incoherent in the energy basis. Here, we aim to investigate the role of initial quantum coherence in work fluctuation theorems, by considering a quasiprobability distribution of work. To do this, we formulate and examine the implications of a detailed fluctuation theorem, which reproduces the Tasaki-Crooks fluctuation theorem in the absence of initial quantum coherence.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# Infini-gram:非有界n-gram言語モデルからトリリオントークンへのスケーリング

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens ( http://arxiv.org/abs/2401.17377v3 )

ライセンス: Link先を確認
Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi, (参考訳) LLM(Neural Large Language Model)の時代において、$n$-gramの言語モデルはいまだに関係しているのだろうか? 我々の答えはイエスであり、テキスト分析とニューラルLLMの改善の両方でそれらの値を示す。 これは2つの面で$n$-gramのLMを近代化することで実現された。 まず、ニューラルネットワークLLMと同じデータスケールでトレーニングします。 これは過去最大の$n$-gram LMである。 第二に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。 プリ計算で$n$-gramのカウントテーブル(非常に高価な)を使わずに、ミリ秒レベルのレイテンシで$\infty$-gram(および$n$-gramの任意の$n$-gram)の確率を計算できるInfini-gramというエンジンを開発しました。 例えば、$\infty$-gramフレームワークとinfini-gramエンジンは、人間の書き起こしおよび機械生成テキストの新規かつ興味深い分析を可能にします:$\infty$-gram LMは次のトーケン予測(47%)に対してかなり高い精度を持ち、ニューラルLLMを補完することで、その複雑さを大幅に低減できる。 また,機械生成テキストを解析する際には,機械の接尾辞長に対する$$\infty$-gramの一致レベルの不規則性も観察し,ニューラルLLM事前学習の欠陥とトランスフォーマーの位置埋め込みを示す。

Are $n$-gram language models still relevant in this era of neural large language models (LLMs)? Our answer is yes, and we showcase their values in both text analysis and improving neural LLMs. This was done by modernizing $n$-gram LMs in two aspects. First, we train them at the same data scale as neural LLMs -- 5 trillion tokens. This is the largest $n$-gram LM ever built. Second, existing $n$-gram LMs use small $n$ which hinders their performance; we instead allow $n$ to be arbitrarily large, by introducing a new $\infty$-gram LM with backoff. Instead of pre-computing $n$-gram count tables (which would be very expensive), we develop an engine named infini-gram -- powered by suffix arrays -- that can compute $\infty$-gram (as well as $n$-gram with arbitrary $n$) probabilities with millisecond-level latency. The $\infty$-gram framework and infini-gram engine enable us to conduct many novel and interesting analyses of human-written and machine-generated text: we find that the $\infty$-gram LM has fairly high accuracy for next-token prediction (47%), and can complement neural LLMs to greatly reduce their perplexity. When analyzing machine-generated text, we also observe irregularities in the machine--$\infty$-gram agreement level with respect to the suffix length, which indicates deficiencies in neural LLM pretraining and the positional embeddings of Transformers.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# SemEval Task 1: アフリカ・アジア言語における意味的テキスト関連性

SemEval Task 1: Semantic Textual Relatedness for African and Asian Languages ( http://arxiv.org/abs/2403.18933v4 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Meriem Beloucif, Christine De Kock, Oumaima Hourrane, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Krishnapriya Vishnubhotla, Seid Muhie Yimam, Saif M. Mohammad, (参考訳) セマンティックテキスト関連性(STR)に関する最初の共有タスクを提示する。 以前の共有タスクは、主に意味的類似性に焦点を当てていたが、代わりに、アフリカーンス、アルジェリア語、アラビア語、アムハラ語、英語、ハウサ語、ヒンディー語、インドネシア語、キンヤルワンダ語、マラティー語、モロッコ語、現代標準アラビア語、パンジャビ語、スペイン語、テルグ語など、14言語にわたる意味的関連性の広範な現象を調査した。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 データセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 参加型システムでは, 文の親密性(意味的関係の程度)によって, 3つの主要なトラックにおいて, 14言語で文対をランク付けするよう求められた。 a) 監督; 監督; 監督 (b)監督なし、及び (c)クロスリンガル。 参加者数は163名。 51の異なるチームから合計70の応募(全タスク)と38のシステム記述書類を受け取りました。 我々は,3つの異なるトラックに対して,最高の性能システムと,最も一般的かつ最も効果的なアプローチについて報告する。

We present the first shared task on Semantic Textual Relatedness (STR). While earlier shared tasks primarily focused on semantic similarity, we instead investigate the broader phenomenon of semantic relatedness across 14 languages: Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by the relatively limited availability of NLP resources. Each instance in the datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. Participating systems were asked to rank sentence pairs by their closeness in meaning (i.e., their degree of semantic relatedness) in the 14 languages in three main tracks: (a) supervised, (b) unsupervised, and (c) crosslingual. The task attracted 163 participants. We received 70 submissions in total (across all tasks) from 51 different teams, and 38 system description papers. We report on the best-performing systems as well as the most common and the most effective approaches for the three different tracks.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# データサイエンスにおける予測的語彙課題に対する大規模言語モデルの可能性

Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science ( http://arxiv.org/abs/2403.20208v3 )

ライセンス: Link先を確認
Yazheng Yang, Yuqi Wang, Sankalok Sen, Lei Li, Qi Liu, (参考訳) データサイエンスの分野において、欠落した値の分類、回帰、計算の予測タスクは、表型データに関連する問題によく遭遇する。 この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。 自然言語を解釈する能力にもかかわらず、LLMは構造化された表データを扱うには不十分である。 この制限は、基礎的なトレーニング中に表データの複雑さに欠けることに起因する。 本研究の目的は、この拡張データセット上で、注釈付きテーブルの包括的コーパスをコンパイルし、Llama-2の大規模トレーニングを実行することにより、このギャップを軽減することである。 さらに、訓練されたモデルをゼロショット予測、少数ショット予測、文脈内学習シナリオに適用する実践的応用について検討する。 大規模な実験を通じて、我々の方法論は既存のベンチマークよりも大幅に改善されている。 これらの進歩は、データサイエンスにおけるテーブル関連問題を解決するためのLLMトレーニングの調整の有効性を強調し、表知性を高めるためにLLMを利用するための新しいベンチマークを確立する。

In the domain of data science, the predictive tasks of classification, regression, and imputation of missing values are commonly encountered challenges associated with tabular data. This research endeavors to apply Large Language Models (LLMs) towards addressing these predictive tasks. Despite their proficiency in comprehending natural language, LLMs fall short in dealing with structured tabular data. This limitation stems from their lacking exposure to the intricacies of tabular data during their foundational training. Our research aims to mitigate this gap by compiling a comprehensive corpus of tables annotated with instructions and executing large-scale training of Llama-2 on this enriched dataset. Furthermore, we investigate the practical application of applying the trained model to zero-shot prediction, few-shot prediction, and in-context learning scenarios. Through extensive experiments, our methodology has shown significant improvements over existing benchmarks. These advancements highlight the efficacy of tailoring LLM training to solve table-related problems in data science, thereby establishing a new benchmark in the utilization of LLMs for enhancing tabular intelligence.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# ツール学習の強化を目的とした検索項目の計画と編集

Planning and Editing What You Retrieve for Enhanced Tool Learning ( http://arxiv.org/abs/2404.00450v2 )

ライセンス: Link先を確認
Tenghao Huang, Dongwon Jung, Muhao Chen, (参考訳) 外部ツールをLLM(Large Language Models)に統合する最近の進歩は、数学的推論、コードジェネレータ、スマートアシスタントなど、新たなフロンティアを開拓している。 しかし、既存の手法は、単純なワンタイム検索戦略に依存しており、関連ツールを効果的かつ正確にショートリスト化するには不十分である。 本稿では,「Plan-and-Retrieve (P&R)」「Edit-and-Ground (E&G)」といったパラダイムを取り入れた,新しいPLUTO(Planning, Learning, and Understanding for TOols)アプローチを提案する。 P&Rパラダイムは、関連するツールをショートリストするニューラル検索モジュールと、複雑なクエリを実行可能なタスクに分解し、ツール利用の有効性を高めるLLMベースのクエリプランナで構成されている。 E&GパラダイムはLLMを利用して、ユーザシナリオに基づいたツール記述を強化し、ユーザクエリとツール機能のギャップを埋める。 実験の結果、これらのパラダイムはツール検索タスクにおけるリコールとNDCGを大幅に改善し、現在の最先端モデルを大きく上回っていることがわかった。

Recent advancements in integrating external tools with Large Language Models (LLMs) have opened new frontiers, with applications in mathematical reasoning, code generators, and smart assistants. However, existing methods, relying on simple one-time retrieval strategies, fall short on effectively and accurately shortlisting relevant tools. This paper introduces a novel PLUTO (Planning, Learning, and Understanding for TOols) approach, encompassing `Plan-and-Retrieve (P&R)` and `Edit-and-Ground (E&G)` paradigms. The P&R paradigm consists of a neural retrieval module for shortlisting relevant tools and an LLM-based query planner that decomposes complex queries into actionable tasks, enhancing the effectiveness of tool utilization. The E&G paradigm utilizes LLMs to enrich tool descriptions based on user scenarios, bridging the gap between user queries and tool functionalities. Experiment results demonstrate that these paradigms significantly improve the recall and NDCG in tool retrieval tasks, significantly surpassing current state-of-the-art models.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# 大規模言語モデルを用いた小児科患者の健康決定要因の抽出:新しいコーパスと方法

Extracting Social Determinants of Health from Pediatric Patient Notes Using Large Language Models: Novel Corpus and Methods ( http://arxiv.org/abs/2404.00826v2 )

ライセンス: Link先を確認
Yujuan Fu, Giridhar Kaushik Ramachandran, Nicholas J Dobbins, Namu Park, Michael Leu, Abby R. Rosenberg, Kevin Lybarger, Fei Xia, Ozlem Uzuner, Meliha Yetisgen, (参考訳) 健康の社会的決定因子(SDoH)は、特に介入が長期に影響を及ぼすおそれのある小児において、健康結果を形成する上で重要な役割を担っている。 SDoHは電子健康記録 (Electronic Health Record, EHR) で頻繁に研究されている。 本研究では,新たな注釈付きコーパスであるPedSHAC(Pediatric Social History Annotation Corpus)を提案し,Large Language Models(LLMs)を用いた微調整および文脈内学習手法を用いて,詳細なSDoH表現の自動抽出を評価する。 PedSHACは、ワシントン大学病院システム内の小児患者から得られた1,260の臨床ノートから注釈付き社会史セクションを含む。 イベントベースのアノテーションスキームを用いることで、PedSHACは生活と経済の安定性、先行トラウマ、教育アクセス、物質使用履歴、精神健康などを含む10の異なる健康決定因子を81.9 F1のアノテータ契約で取得する。 提案手法は,イベント引数に対して78.4 F1で高い性能を実現する。 GPT-4を用いたインコンテキスト学習手法は、イベントトリガの82.3 F1の抽出性能を持つ限定的な注釈付き例で、信頼性の高いSDoH抽出を約束する。

Social determinants of health (SDoH) play a critical role in shaping health outcomes, particularly in pediatric populations where interventions can have long-term implications. SDoH are frequently studied in the Electronic Health Record (EHR), which provides a rich repository for diverse patient data. In this work, we present a novel annotated corpus, the Pediatric Social History Annotation Corpus (PedSHAC), and evaluate the automatic extraction of detailed SDoH representations using fine-tuned and in-context learning methods with Large Language Models (LLMs). PedSHAC comprises annotated social history sections from 1,260 clinical notes obtained from pediatric patients within the University of Washington (UW) hospital system. Employing an event-based annotation scheme, PedSHAC captures ten distinct health determinants to encompass living and economic stability, prior trauma, education access, substance use history, and mental health with an overall annotator agreement of 81.9 F1. Our proposed fine-tuning LLM-based extractors achieve high performance at 78.4 F1 for event arguments. In-context learning approaches with GPT-4 demonstrate promise for reliable SDoH extraction with limited annotated examples, with extraction performance at 82.3 F1 for event triggers.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# 2次元検出プロンプティングによる路面単分子3次元検出

Roadside Monocular 3D Detection via 2D Detection Prompting ( http://arxiv.org/abs/2404.01064v2 )

ライセンス: Link先を確認
Yechi Ma, Shuoquan Wei, Churun Zhang, Wei Hua, Yanan Li, Shu Kong, (参考訳) 道路側モノクル3D検出の問題は、2D RGBフレーム内の興味あるクラスのオブジェクトを検出し、鳥の目視(BEV)の場所のようなそれらの3D情報を予測することである。 交通制御、車両と車両の通信、車両とインフラの協調的な知覚に広く応用されている。 この問題に対処するために, 2次元検出を用いて3次元検出器を誘導し, 新規かつ簡便な手法を提案する。 提案手法は,3次元検出器と比較して2次元検出器の訓練がはるかに容易であり,2次元画像平面上でのWr.t検出の精度が著しく向上する,という重要な知見に基づいている。 とはいえ、よく訓練された2D検出器の2D検出を3D検出器に誘導し、そのような2D検出を3D検出に向けて膨らませる方法で訓練することができる。 2D検出器を用いてより優れたプロンプトを構築するために、3つの手法を探索する。 (a)2D検出器と3D検出器の両方の特徴を連結すること。 (b)2次元・3次元検出器の特徴を注意深く融合させ、 (c) 予測された2Dボックス x, y, 幅, 高さ, ラベルを3D検出器の特徴と密接に融合させる。 意外なことに、三人目は最高の成績を収めている。 さらに,これらの手法により3次元検出性能が向上し,それらの機能に基づいてクラスをマージするヨウチューニング戦略とクラスグループ化戦略を提案する。 包括的アブレーション研究と広範囲な実験により,本手法は従来の手法よりも優れており,大規模道路側3次元検出ベンチマークの最先端を達成できた。

The problem of roadside monocular 3D detection requires detecting objects of interested classes in a 2D RGB frame and predicting their 3D information such as locations in bird's-eye-view (BEV). It has broad applications in traffic control, vehicle-vehicle communication, and vehicle-infrastructure cooperative perception. To approach this problem, we present a novel and simple method by prompting the 3D detector using 2D detections. Our method builds on a key insight that, compared with 3D detectors, a 2D detector is much easier to train and performs significantly better w.r.t detections on the 2D image plane. That said, one can exploit 2D detections of a well-trained 2D detector as prompts to a 3D detector, being trained in a way of inflating such 2D detections to 3D towards 3D detection. To construct better prompts using the 2D detector, we explore three techniques: (a) concatenating both 2D and 3D detectors' features, (b) attentively fusing 2D and 3D detectors' features, and (c) encoding predicted 2D boxes x, y, width, height, label and attentively fusing such with the 3D detector's features. Surprisingly, the third performs the best. Moreover, we present a yaw tuning tactic and a class-grouping strategy that merges classes based on their functionality; these techniques improve 3D detection performance further. Comprehensive ablation studies and extensive experiments demonstrate that our method resoundingly outperforms prior works, achieving the state-of-the-art on two large-scale roadside 3D detection benchmarks.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# LLMをクロスモーダルおよびクロスランガル検索システムに変換する

Transforming LLMs into Cross-modal and Cross-lingual Retrieval Systems ( http://arxiv.org/abs/2404.01616v2 )

ライセンス: Link先を確認
Frank Palma Gomez, Ramon Sanabria, Yun-hsuan Sung, Daniel Cer, Siddharth Dalmia, Gustavo Hernandez Abrego, (参考訳) 大規模言語モデル(LLM)は、ペア化された音声とテキストデータを持つ言語を超えた、テキストのみのデータに基づいて訓練される。 同時に、Dual Encoder (DE) ベースの検索システムは、クエリとドキュメントを同じ埋め込み空間に投影し、検索とバイテキストマイニングの成功を実証している。 多くの言語における音声とテキストを一致させるため,マルチモーダルD検索システムを初期化するLLMを提案する。 従来の手法とは異なり,本システムはLLM事前学習中に音声データを必要とせず,LLMの多言語テキスト理解機能を利用して検索訓練中に見つからない言語における音声とテキストのマッチングを行うことができる。 マルチモーダルLLMに基づく検索システムでは,21言語でのみ学習しながら102言語で音声とテキストをマッチングできる。 我々のシステムは、すべての102言語で明示的に訓練された以前のシステムより優れています。 これらの言語で平均されるRecall@1の10%の絶対的な改善を実現しています。 さらに,本モデルでは,機械翻訳データによってさらに拡張された言語間音声とテキストマッチングを実証する。

Large language models (LLMs) are trained on text-only data that go far beyond the languages with paired speech and text data. At the same time, Dual Encoder (DE) based retrieval systems project queries and documents into the same embedding space and have demonstrated their success in retrieval and bi-text mining. To match speech and text in many languages, we propose using LLMs to initialize multi-modal DE retrieval systems. Unlike traditional methods, our system doesn't require speech data during LLM pre-training and can exploit LLM's multilingual text understanding capabilities to match speech and text in languages unseen during retrieval training. Our multi-modal LLM-based retrieval system is capable of matching speech and text in 102 languages despite only training on 21 languages. Our system outperforms previous systems trained explicitly on all 102 languages. We achieve a 10% absolute improvement in Recall@1 averaged across these languages. Additionally, our model demonstrates cross-lingual speech and text matching, which is further enhanced by readily available machine translation data.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# CMAT: 小規模言語モデルの強化のためのマルチエージェントコラボレーションチューニングフレームワーク

CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models ( http://arxiv.org/abs/2404.01663v2 )

ライセンス: Link先を確認
Xuechen Liang, Meiling Tao, Tianyu Shi, Yiting Xie, (参考訳) オープンな大規模言語モデル(LLM)は、自然言語処理の分野を著しく進歩させ、様々なタスクにおいて印象的なパフォーマンスを示しているが、LLMの大幅な進歩にもかかわらず、その効果的な操作は、対話の流れを正確に導くために人間の入力に大きく依存している。 また,環境フィードバックに基づく適応重み更新による言語エージェントの能力向上を目的とした,協調型マルチエージェントチューニング(CMAT)フレームワークを提案する。 このフレームワークは、複数の知的エージェント間の協調学習とリアルタイム適応を促進し、コンテキスト認識と長期記憶を高める。 本研究では,マルチエージェントシステムと環境フィードバック機構を統合し,協調動作を探索するスケーラブルな手法を提供する通信エージェントフレームワークを提案する。 特に,我々のTinyAgent-7Bモデルは,パラメータが少ないにもかかわらず,GPT-3.5と同等の性能を示し,LCMの効率と有効性を大幅に向上させることを示す。

Open large language models (LLMs) have significantly advanced the field of natural language processing, showcasing impressive performance across various tasks.Despite the significant advancements in LLMs, their effective operation still relies heavily on human input to accurately guide the dialogue flow, with agent tuning being a crucial optimization technique that involves human adjustments to the model for better response to such guidance.Addressing this dependency, our work introduces the TinyAgent model, trained on a meticulously curated high-quality dataset. We also present the Collaborative Multi-Agent Tuning (CMAT) framework, an innovative system designed to augment language agent capabilities through adaptive weight updates based on environmental feedback. This framework fosters collaborative learning and real-time adaptation among multiple intelligent agents, enhancing their context-awareness and long-term memory. In this research, we propose a new communication agent framework that integrates multi-agent systems with environmental feedback mechanisms, offering a scalable method to explore cooperative behaviors. Notably, our TinyAgent-7B model exhibits performance on par with GPT-3.5, despite having fewer parameters, signifying a substantial improvement in the efficiency and effectiveness of LLMs.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# タスク駆動型知覚損失の画像認識のための超解像の超解像を超えて

Beyond Image Super-Resolution for Image Recognition with Task-Driven Perceptual Loss ( http://arxiv.org/abs/2404.01692v2 )

ライセンス: Link先を確認
Jaeha Kim, Junghun Oh, Kyoung Mu Lee, (参考訳) 現実のシナリオでは、セマンティックセグメンテーションやオブジェクト検出といった画像認識タスクは、低解像度(LR)コンテンツで利用可能な情報がないため、より大きな課題を生じることが多い。 画像超解像(SR)は課題に対処するための有望な解決策の1つである。 しかし,SR法の特徴が乏しいため,タスク関連高頻度コンテンツを復元することは,SR法の利点を損なう可能性がある。 そこで本稿では,LR画像の処理において,良好な画像認識性能を実現するのに有用なSR画像の生成を効果的にガイドする超解像画像認識(SR4IR)を提案する。 我々のSR4IRの重要な構成要素はタスク駆動型知覚障害(TDP)であり、SRネットワークは特定のタスクに適したネットワークからタスク固有の知識を取得することができる。 さらに,TDP損失を利用した場合の潜在的な問題に対処することにより,TDP損失の有効性を大幅に向上させる,クロス品質パッチミックスと代替トレーニングフレームワークを提案する。 広範にわたる実験により、SR4IRは、セマンティックセグメンテーション、オブジェクト検出、画像分類を含む、特定の画像認識タスクに有用なSR画像を生成することで、優れたタスク性能を達成できることを実証した。 実装コードはhttps://github.com/JaehaKim97/SR4IRで公開されている。

In real-world scenarios, image recognition tasks, such as semantic segmentation and object detection, often pose greater challenges due to the lack of information available within low-resolution (LR) content. Image super-resolution (SR) is one of the promising solutions for addressing the challenges. However, due to the ill-posed property of SR, it is challenging for typical SR methods to restore task-relevant high-frequency contents, which may dilute the advantage of utilizing the SR method. Therefore, in this paper, we propose Super-Resolution for Image Recognition (SR4IR) that effectively guides the generation of SR images beneficial to achieving satisfactory image recognition performance when processing LR images. The critical component of our SR4IR is the task-driven perceptual (TDP) loss that enables the SR network to acquire task-specific knowledge from a network tailored for a specific task. Moreover, we propose a cross-quality patch mix and an alternate training framework that significantly enhances the efficacy of the TDP loss by addressing potential problems when employing the TDP loss. Through extensive experiments, we demonstrate that our SR4IR achieves outstanding task performance by generating SR images useful for a specific image recognition task, including semantic segmentation, object detection, and image classification. The implementation code is available at https://github.com/JaehaKim97/SR4IR.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# GEARS:局所幾何学的手・物体間相互作用合成

GEARS: Local Geometry-aware Hand-object Interaction Synthesis ( http://arxiv.org/abs/2404.01758v2 )

ライセンス: Link先を確認
Keyang Zhou, Bharat Lal Bhatnagar, Jan Eric Lenssen, Gerard Pons-moll, (参考訳) 物体との相互作用における現実的な手の動き列の生成は、デジタル人間への関心の高まりとともに注目を集めている。 以前の研究は、手動物体の相互作用の特徴を抽出するために、占有率に基づくまたは距離に基づく仮想センサを使うことの有効性を実証してきた。 にもかかわらず、これらの手法は対象圏、形状、大きさにまたがる限定的な一般化性を示す。 これは2つの理由によるものと仮定する。 1)使用済み仮想センサの限られた表現性、及び 2) 利用可能なトレーニングデータの不足。 この課題に対処するために、我々は、潜在的な相互作用領域近傍の局所物体形状を推論する新しい共同中心センサを導入する。 各手関節近傍の物体表面点に対するセンサクエリ 学習の複雑さを軽減するための重要なステップとして、グローバルフレームからハンドテンプレートフレームへポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。 その後、異なる次元の関節間の相関を捉えることを目的とした時空間変圧器ネットワークが続く。 さらに,手幅の広い静的握りサンプルを用いて,限られたトレーニングシーケンスを増強するための単純なヒューリスティックなルールを考案した。 これにより、トレーニング中に観察される把握タイプの幅広いスペクトルが導かれ、それによってモデルの一般化能力が向上する。 GRABとInterCapの2つの公開データセットについて評価し,本手法はベースラインよりも定量的かつ知覚的に優れていることを示す。

Generating realistic hand motion sequences in interaction with objects has gained increasing attention with the growing interest in digital humans. Prior work has illustrated the effectiveness of employing occupancy-based or distance-based virtual sensors to extract hand-object interaction features. Nonetheless, these methods show limited generalizability across object categories, shapes and sizes. We hypothesize that this is due to two reasons: 1) the limited expressiveness of employed virtual sensors, and 2) scarcity of available training data. To tackle this challenge, we introduce a novel joint-centered sensor designed to reason about local object geometry near potential interaction regions. The sensor queries for object surface points in the neighbourhood of each hand joint. As an important step towards mitigating the learning complexity, we transform the points from global frame to hand template frame and use a shared module to process sensor features of each individual joint. This is followed by a spatio-temporal transformer network aimed at capturing correlation among the joints in different dimensions. Moreover, we devise simple heuristic rules to augment the limited training sequences with vast static hand grasping samples. This leads to a broader spectrum of grasping types observed during training, in turn enhancing our model's generalization capability. We evaluate on two public datasets, GRAB and InterCap, where our method shows superiority over baselines both quantitatively and perceptually.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# CARLOS: C-ITS用ソフトウェアの開発とテストのためのオープンでモジュール化されたスケーラブルなシミュレーションフレームワーク

CARLOS: An Open, Modular, and Scalable Simulation Framework for the Development and Testing of Software for C-ITS ( http://arxiv.org/abs/2404.01836v2 )

ライセンス: Link先を確認
Christian Geller, Benedikt Haas, Amarin Kloeker, Jona Hermens, Bastian Lampe, Lutz Eckstein, (参考訳) 将来のモビリティシステムとそのコンポーネントは、ソフトウェアによってますます定義される。 これらの協調的インテリジェントトランスポートシステム(C-ITS)の複雑さと、ソフトウェアで引き起こされる絶え間ない要求は、継続的なソフトウェア更新を必要とする。 システムの動的な性質と、異なるソフトウェアコンポーネントが一緒に動作する事実上無数のシナリオは、シミュレーションを1つのコア方法論として使用する、効率的で自動化された開発およびテスト手順を必要とします。 このようなシミュレーションアーキテクチャが利用できることは、特に自動運転の分野で多くの利害関係者の間で共通の関心を集めている。 CARLOS - C-ITSでソフトウェアの開発とテストを行うためのオープンでモジュール化されたスケーラブルなシミュレーションフレームワークで、リッチなCARLAとROSエコシステムを活用しています。 このフレームワークの中核となるビルディングブロックを提供し、コミュニティによってどのように利用され、拡張されるかを説明します。 そのアーキテクチャは、コンテナ化や継続的インテグレーションといった現代的なマイクロサービスとDevOpsの原則の上に構築されている。 この記事では、重要な設計原則を説明し、ソフトウェアプロトタイピング、データ駆動開発、自動テストの3つの主要なユースケースを示します。 CARLOSと、github.com/ika-rwth-aachen/carlosで公開されている3つのユースケースの実装例を作成します。

Future mobility systems and their components are increasingly defined by their software. The complexity of these cooperative intelligent transport systems (C-ITS) and the everchanging requirements posed at the software require continual software updates. The dynamic nature of the system and the practically innumerable scenarios in which different software components work together necessitate efficient and automated development and testing procedures that use simulations as one core methodology. The availability of such simulation architectures is a common interest among many stakeholders, especially in the field of automated driving. That is why we propose CARLOS - an open, modular, and scalable simulation framework for the development and testing of software in C-ITS that leverages the rich CARLA and ROS ecosystems. We provide core building blocks for this framework and explain how it can be used and extended by the community. Its architecture builds upon modern microservice and DevOps principles such as containerization and continuous integration. In our paper, we motivate the architecture by describing important design principles and showcasing three major use cases - software prototyping, data-driven development, and automated testing. We make CARLOS and example implementations of the three use cases publicly available at github.com/ika-rwth-aachen/carlos
翻訳日:2024-04-05 13:33:07 公開日:2024-04-04
# 持続可能なディープラーニングのためのAutoMLの活用に向けて:Deep Shift Neural Networksにおける多目的HPOアプローチ

Towards Leveraging AutoML for Sustainable Deep Learning: A Multi-Objective HPO Approach on Deep Shift Neural Networks ( http://arxiv.org/abs/2404.01965v2 )

ライセンス: Link先を確認
Leona Hennig, Tanja Tornede, Marius Lindauer, (参考訳) ディープラーニング(DL)は、大規模なデータセットから複雑なパターンを抽出することで、様々な分野を進化させた。 しかし、DLモデルの計算要求は環境と資源の課題を引き起こす。 ディープシフトニューラルネットワーク(DSNN)は、シフト演算を活用して推論時の計算複雑性を低減するソリューションを提供する。 標準DNNからの洞察に従い、私たちはAutoML技術を用いてDSNNの潜在能力を最大限活用することに興味を持っています。 本研究では,資源消費を最小化しつつ,DSNNの性能を最大化するためのハイパーパラメータ最適化(HPO)の影響について検討する。 これは、多目的最適化(MO)と精度とエネルギー消費を相補的な目的として組み合わせたものであるので、現状の多目的最適化(MF)HPOと多目的最適化(MF)HPOを組み合わせることを提案する。 実験の結果,提案手法の有効性が示され,精度が80%以上,計算コストが低いモデルが得られた。 全体として,本手法は,持続可能なAIアプリケーションを実現しつつ,効率的なモデル開発を促進する。

Deep Learning (DL) has advanced various fields by extracting complex patterns from large datasets. However, the computational demands of DL models pose environmental and resource challenges. Deep shift neural networks (DSNNs) offer a solution by leveraging shift operations to reduce computational complexity at inference. Following the insights from standard DNNs, we are interested in leveraging the full potential of DSNNs by means of AutoML techniques. We study the impact of hyperparameter optimization (HPO) to maximize DSNN performance while minimizing resource consumption. Since this combines multi-objective (MO) optimization with accuracy and energy consumption as potentially complementary objectives, we propose to combine state-of-the-art multi-fidelity (MF) HPO with multi-objective optimization. Experimental results demonstrate the effectiveness of our approach, resulting in models with over 80\% in accuracy and low computational cost. Overall, our method accelerates efficient model development while enabling sustainable AI applications.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# BERTopicが株価予測を下方修正

BERTopic-Driven Stock Market Predictions: Unraveling Sentiment Insights ( http://arxiv.org/abs/2404.02053v2 )

ライセンス: Link先を確認
Enmin Zhu, Jerome Yen, (参考訳) 本稿では,自然言語処理(NLP)と財務分析の共通点について考察し,株価予測における感情分析の影響に着目した。 NLP技術であるBERTopicを用いて、株式市場のコメントから派生したトピックの感情を分析する。 本手法は,この感情分析と様々な深層学習モデルを統合し,時系列およびストック予測タスクの有効性で有名である。 総合的な実験を通して、話題の感情を取り入れることで、これらのモデルの性能が顕著に向上することを示した。 その結果、株式市場のコメントの話題は、株式市場のボラティリティと価格トレンドに関する暗黙の貴重な洞察を提供することを示している。 本研究は、金融分析の充実におけるNLPの可能性を示すとともに、リアルタイムの感情分析と市場感情の感情的・文脈的側面の探究に関するさらなる研究の道を開くことにより、この分野に寄与する。 BERTopicのような先進的なNLP技術と従来の財務分析手法を統合することは、市場行動を理解し予測するためのより高度なツールを開発するための一歩となる。

This paper explores the intersection of Natural Language Processing (NLP) and financial analysis, focusing on the impact of sentiment analysis in stock price prediction. We employ BERTopic, an advanced NLP technique, to analyze the sentiment of topics derived from stock market comments. Our methodology integrates this sentiment analysis with various deep learning models, renowned for their effectiveness in time series and stock prediction tasks. Through comprehensive experiments, we demonstrate that incorporating topic sentiment notably enhances the performance of these models. The results indicate that topics in stock market comments provide implicit, valuable insights into stock market volatility and price trends. This study contributes to the field by showcasing the potential of NLP in enriching financial analysis and opens up avenues for further research into real-time sentiment analysis and the exploration of emotional and contextual aspects of market sentiment. The integration of advanced NLP techniques like BERTopic with traditional financial analysis methods marks a step forward in developing more sophisticated tools for understanding and predicting market behaviors.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# QDarts: 有限トンネル結合、非定常帯電エネルギー、センサドットの存在下での電荷遷移を求める量子ドット配列遷移シミュレータ

QDarts: A Quantum Dot Array Transition Simulator for finding charge transitions in the presence of finite tunnel couplings, non-constant charging energies and sensor dots ( http://arxiv.org/abs/2404.02064v2 )

ライセンス: Link先を確認
Jan A. Krzywda, Weikun Liu, Evert van Nieuwenburg, Oswin Krause, (参考訳) 平衡状態における量子ドットアレイ(QDA)デバイスの実効電荷安定性図の効率的なシミュレータであるQDartを提案する。 これは、高次元の電圧空間における(任意の2次元切断によって)コンクリートの電荷状態とその遷移の位置をピンポイントし、有限トンネル結合、非定常充電エネルギー、ノイズの多いセンサドットのシミュレーションを含む。 これらの機能は、文献における様々な実験結果の密なマッチングを可能にし、パッケージは、QDA実験をテストするための柔軟なツールを提供するとともに、新しいデバイスチューニング手法を開発するための道を開く。

We present QDarts, an efficient simulator for realistic charge stability diagrams of quantum dot array (QDA) devices in equilibrium states. It allows for pinpointing the location of concrete charge states and their transitions in a high-dimensional voltage space (via arbitrary two-dimensional cuts through it), and includes effects of finite tunnel coupling, non-constant charging energy and a simulation of noisy sensor dots. These features enable close matching of various experimental results in the literature, and the package hence provides a flexible tool for testing QDA experiments, as well as opening the avenue for developing new methods of device tuning.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# 物理誤差率より優れた論理量子ビットの証明と繰り返し誤差補正

Demonstration of logical qubits and repeated error correction with better-than-physical error rates ( http://arxiv.org/abs/2404.02280v2 )

ライセンス: Link先を確認
M. P. da Silva, C. Ryan-Anderson, J. M. Bello-Rivas, A. Chernoguzov, J. M. Dreiling, C. Foltz, F. Frachon, J. P. Gaebler, T. M. Gatterman, L. Grans-Samuelsson, D. Hayes, N. Hewitt, J. Johansen, D. Lucchetti, M. Mills, S. A. Moses, B. Neyenhuis, A. Paz, J. Pino, P. Siegfried, J. Strabley, A. Sundaram, D. Tom, S. J. Wernli, M. Zanner, R. P. Stutz, K. M. Svore, (参考訳) 量子コンピュータの約束は、例えば1億以上の演算からなる量子計算をフォールトトレラントに実行する大規模システムサイズにスケールする能力に基づいている。 これにより、計算のサイズに反比例するレベルのエラーを抑える必要がある。 この野心的な目標に向けて、我々は、フォールトトレラントエンコーディングとエラー訂正を用いることで、物理誤差率以下のレベルまで論理誤差率を抑えることができる、トラップイオンQCCDプロセッサの実験を行う。 特に, [[7,1,3] 符号で符号化された論理量子ビットと, [[12,2,4] 符号で符号化された論理量子ビットと,[[12,2,4] 符号で符号化された論理量子ビットは, 選択後の司法的利用によって, 物理レベルでの4.7倍から800倍の誤差で符号化された。 さらに、[12,2,4]符号で繰り返し誤り訂正を行い、物理回路ベースライン以下で繰り返しCNOTに対応する論理誤差率を示し、100以上の物理CNOTからなる誤り訂正サイクル当たりの誤差率が2つの物理CNOTの誤差率に近づくことを示す。 これらの結果は、ノイズの多い中間量子コンピューティングから信頼性のある量子コンピューティングへの重要な移行を示し、大規模フォールトトレラント量子コンピューティングへの高度な能力を示す。

The promise of quantum computers hinges on the ability to scale to large system sizes, e.g., to run quantum computations consisting of more than 100 million operations fault-tolerantly. This in turn requires suppressing errors to levels inversely proportional to the size of the computation. As a step towards this ambitious goal, we present experiments on a trapped-ion QCCD processor where, through the use of fault-tolerant encoding and error correction, we are able to suppress logical error rates to levels below the physical error rates. In particular, we entangled logical qubits encoded in the [[7,1,3]] code with error rates 9.8 times to 500 times lower than at the physical level, and entangled logical qubits encoded in a [[12,2,4]] code with error rates 4.7 times to 800 times lower than at the physical level, depending on the judicious use of post-selection. Moreover, we demonstrate repeated error correction with the [[12,2,4]] code, with logical error rates below physical circuit baselines corresponding to repeated CNOTs, and show evidence that the error rate per error correction cycle, which consists of over 100 physical CNOTs, approaches the error rate of two physical CNOTs. These results signify an important transition from noisy intermediate scale quantum computing to reliable quantum computing, and demonstrate advanced capabilities toward large-scale fault-tolerant quantum computing.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# Smooth Deep Saliency

Smooth Deep Saliency ( http://arxiv.org/abs/2404.02282v2 )

ライセンス: Link先を確認
Rudolf Herdt, Maximilian Schmidt, Daniel Otero Baguer, Peter Maaß, (参考訳) 本研究では, 深層学習モデルを用いて, 組織組織試料中の腫瘍を検出する方法を説明するとともに, 畳み込みによる深層唾液濃度マップのノイズ低減手法について検討した。 これらの手法により,隠れ層で計算した勾配に基づく塩分濃度マップをより解釈しやすくする。 我々は、ImageNet1Kで画像分類を訓練した異なるモデルと、Camelyon16で腫瘍検出を訓練したモデル、および染色組織サンプルの実世界でのデジタル病理検査について検討した。 以上の結果から,勾配のチェッカーボードノイズは減少し,スムーズになり,従ってサリエンシマップの解釈が容易になることがわかった。

In this work, we investigate methods to reduce the noise in deep saliency maps coming from convolutional downsampling, with the purpose of explaining how a deep learning model detects tumors in scanned histological tissue samples. Those methods make the investigated models more interpretable for gradient-based saliency maps, computed in hidden layers. We test our approach on different models trained for image classification on ImageNet1K, and models trained for tumor detection on Camelyon16 and in-house real-world digital pathology scans of stained tissue samples. Our results show that the checkerboard noise in the gradient gets reduced, resulting in smoother and therefore easier to interpret saliency maps.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# CAPE: 拡張DNN解釈のための確率的アンサンブルとしてのCAM

CAPE: CAM as a Probabilistic Ensemble for Enhanced DNN Interpretation ( http://arxiv.org/abs/2404.02388v2 )

ライセンス: Link先を確認
Townim Faisal Chowdhury, Kewen Liao, Vu Minh Hieu Phan, Minh-Son To, Yutong Xie, Kevin Hung, David Ross, Anton van den Hengel, Johan W. Verjans, Zhibin Liao, (参考訳) ディープニューラルネットワーク(DNN)は視覚的分類タスクに広く利用されているが、複雑な計算プロセスとブラックボックスの性質は、決定の透明性と解釈可能性を妨げる。 クラスアクティベーションマップ(CAM)と最近の変種は、DNNの'アテンション'ヒートマップを表示することで、DNNの決定過程を視覚的に説明する方法を提供する。 それにもかかわらず、CAMの説明は相対的な注意情報のみを提供しており、注意ヒートマップでは、どの画像領域が他よりも重要か、それともあまり重要かを解釈することができる。 しかし、これらの領域はクラス間で有意に比較することはできず、モデルのクラス予測に対する各領域の貢献は明らかにされていない。 本稿では,DNN解釈の改善につながるこれらの課題に対処するため,画像領域のコントリビューションを統一的かつ確率論的に有意義に評価するCAMの新たな再構成であるCAPEを提案する。 我々はCAPEとCUBおよびImageNetベンチマークデータセットの最先端CAM手法を定量的に定性的に比較し、拡張された解釈可能性を示す。 また,慢性骨髄単球性白血病(CMML)の診断に苦慮した細胞診データセットについても検討した。 コードは、https://github.com/AIML-MED/CAPE.comで入手できる。

Deep Neural Networks (DNNs) are widely used for visual classification tasks, but their complex computation process and black-box nature hinder decision transparency and interpretability. Class activation maps (CAMs) and recent variants provide ways to visually explain the DNN decision-making process by displaying 'attention' heatmaps of the DNNs. Nevertheless, the CAM explanation only offers relative attention information, that is, on an attention heatmap, we can interpret which image region is more or less important than the others. However, these regions cannot be meaningfully compared across classes, and the contribution of each region to the model's class prediction is not revealed. To address these challenges that ultimately lead to better DNN Interpretation, in this paper, we propose CAPE, a novel reformulation of CAM that provides a unified and probabilistically meaningful assessment of the contributions of image regions. We quantitatively and qualitatively compare CAPE with state-of-the-art CAM methods on CUB and ImageNet benchmark datasets to demonstrate enhanced interpretability. We also test on a cytology imaging dataset depicting a challenging Chronic Myelomonocytic Leukemia (CMML) diagnosis problem. Code is available at: https://github.com/AIML-MED/CAPE.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# サブワードトークン化の再検討:大言語モデルにおける接尾辞否定の事例研究

Revisiting subword tokenization: A case study on affixal negation in large language models ( http://arxiv.org/abs/2404.02421v2 )

ライセンス: Link先を確認
Thinh Hung Truong, Yulia Otmakhova, Karin Verspoor, Trevor Cohn, Timothy Baldwin, (参考訳) 本研究では,現代英語大言語モデル (LLM) に対する近似否定の影響を計測する。 接尾辞では、否定的な意味は否定的な形態素を通して表現されるが、トークン化剤は形態学的に妥当でないことが多いため、LSMにとって潜在的に困難である。 我々は,異なるサブワードのトークン化手法を用いたLLMを用いた広範囲な実験を行い,トークン化性能と否定感度の相互作用についていくつかの知見を得た。 トークン化精度と否定検出性能の間にはいくつかの興味深いミスマッチがあるが、全体としては、近似否定の意味を確実に認識できることが示されている。

In this work, we measure the impact of affixal negation on modern English large language models (LLMs). In affixal negation, the negated meaning is expressed through a negative morpheme, which is potentially challenging for LLMs as their tokenizers are often not morphologically plausible. We conduct extensive experiments using LLMs with different subword tokenization methods, which lead to several insights on the interaction between tokenization performance and negation sensitivity. Despite some interesting mismatches between tokenization accuracy and negation detection performance, we show that models can, on the whole, reliably recognize the meaning of affixal negation.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# CSE Prompts: コンピュータサイエンス入門のベンチマーク

CSEPrompts: A Benchmark of Introductory Computer Science Prompts ( http://arxiv.org/abs/2404.02540v2 )

ライセンス: Link先を確認
Nishat Raihan, Dhiman Goswami, Sadiya Sayara Chowdhury Puspo, Christian Newman, Tharindu Ranasinghe, Marcos Zampieri, (参考訳) AI、機械学習、NLPの最近の進歩は、大量のデータに基づいて訓練され、しばしば数兆のパラメータを持つ新しい世代のLarge Language Models(LLM)の開発につながっている。 商用アプリケーション(例えばChatGPT)は、この技術を一般向けに提供し、学術的・専門的な目的のために高品質なテキストを作成するためにLLMを使用することを可能にした。 学校や大学は、学生によるAI生成コンテンツの利用の増加に気づいており、この新しい技術とその潜在的な誤用の影響を調査している。 コンピュータサイエンス(CS)および関連分野の教育プログラムは、LLMが様々なプログラミング言語でプログラムコードを生成することができるため、特に影響を受けている。 CS教育におけるLLMの潜在的影響を理解するために,CSEPromptsを紹介した。 また, CSE Prompts を用いて,Python コードの生成や基礎的なコンピュータ科学やプログラミング問題への回答に関して,いくつかの LLM の性能評価を行った。

Recent advances in AI, machine learning, and NLP have led to the development of a new generation of Large Language Models (LLMs) that are trained on massive amounts of data and often have trillions of parameters. Commercial applications (e.g., ChatGPT) have made this technology available to the general public, thus making it possible to use LLMs to produce high-quality texts for academic and professional purposes. Schools and universities are aware of the increasing use of AI-generated content by students and they have been researching the impact of this new technology and its potential misuse. Educational programs in Computer Science (CS) and related fields are particularly affected because LLMs are also capable of generating programming code in various programming languages. To help understand the potential impact of publicly available LLMs in CS education, we introduce CSEPrompts, a framework with hundreds of programming exercise prompts and multiple-choice questions retrieved from introductory CS and programming courses. We also provide experimental results on CSEPrompts to evaluate the performance of several LLMs with respect to generating Python code and answering basic computer science and programming questions.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# LightFAt:軽量PMUを用いた制御フロー試験による制御フロー爆発の軽減

LightFAt: Mitigating Control-flow Explosion via Lightweight PMU-based Control-flow Attestation ( http://arxiv.org/abs/2404.02608v2 )

ライセンス: Link先を確認
Jeferson Gonzalez-Gomez, Hassan Nassar, Lars Bauer, Jorg Henkel, (参考訳) 計算機器の継続的な進化により、ますます多くのアプリケーションがリモートで実行されるようになった。 アプリケーションは、計算能力の低いIoTノードから、高機能な大規模クラウドプロバイダまで、幅広いデバイスで動作する。 リモート実行はしばしば機密データを扱うか、プロプライエタリなソフトウェアを実行する。 したがって、コード実行が妥協されないことを保証するという課題が持ち上がります。 リモートテストはこの課題に対処します。 暗号化ハッシュ値の潜在的に大きなシーケンスを計算することで、コードが非コンパイル環境で実行されることを保証する。 各ハッシュ計算は計算集約的であり、大きなシーケンスでオーバーヘッドは非常に高い。 本稿では,軽量制御フロー検証方式LightFAtを提案する。 高価な暗号ハッシュ計算に頼る代わりに、LightFAtは、プロセッサのPerformance Monitor Unit(PMU)と軽量な教師なし機械学習(ML)分類器を併用して、ターゲットアプリケーションの制御フローが損なわれているかどうかを検知し、システムのセキュリティを改善している。 検証者の側では、LightFAtは95%以上の検出精度に達し、偽陰性率と偽陽性率が低い。

With the continuous evolution of computational devices, more and more applications are being executed remotely. The applications operate on a wide spectrum of devices, ranging from IoT nodes with low computational capabilities to large cloud providers with high capabilities. Remote execution often deals with sensitive data or executes proprietary software. Hence, the challenge of ensuring that the code execution will not be compromised rises. Remote Attestation deals with this challenge. It ensures the code is executed in a non-compromised environment by calculating a potentially large sequence of cryptographic hash values. Each hash calculation is computationally intensive and over a large sequence the overhead becomes extremely high. In this work, we propose LightFAt: a Lightweight Control Flow Attestation scheme. Instead of relying on the expensive cryptographic hash calculation, LightFAt leverages the readings from the processor's Performance Monitor Unit (PMU) in conjunction with a lightweight unsupervised machine learning (ML) classifier to detect whether a target application's control flow is compromised, hence improving the system's security. On the verifier's side, LightFAt reaches a detection accuracy of over 95%, with low false-negative and false-positive rates.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# 経時的MRIによる前庭神経スワノーマ成長予測

Vestibular schwannoma growth prediction from longitudinal MRI by time conditioned neural fields ( http://arxiv.org/abs/2404.02614v2 )

ライセンス: Link先を確認
Yunjie Chen, Jelmer M. Wolterink, Olaf M. Neve, Stephan R. Romeijn, Berit M. Verbist, Erik F. Hensen, Qian Tao, Marius Staring, (参考訳) 前庭神経腫瘍 (VS) は良性腫瘍であり, 一般的にはMRI検査による能動的監視によって管理される。 臨床的な意思決定を補助し、過剰治療を避けるために、縦断的画像に基づく腫瘍増殖の正確な予測が極めて望ましい。 本稿では,ニューラルフィールドとリカレントニューラルネットワークを組み込んだ深層学習手法であるDeepGrowthを紹介する。 提案手法では,各腫瘍は低次元潜伏符号に条件付き符号付き距離関数(SDF)として表現される。 画像空間で腫瘍の形状を直接予測する従来の研究とは異なり、我々はその代わりに潜伏符号を予測し、将来の形状を再構成する。 本研究では,不規則な時間間隔を扱うために,ConvLSTMと新しい時間的符号化戦略に基づく時間条件リカレントモジュールを導入する。 社内の縦断的VSデータセットを用いた実験の結果,提案したモデルでは,最も大きく成長または縮小した上位20倍の腫瘍に対して,Diceスコア(\ge 1.6\%,Hausdorff距離)が有意に改善した($\ge 0.73$ mm 95\%,Husdorff距離)。 私たちのコードは ~\burl{https://github.com/cyjdswx/DeepGrowth} で利用可能です。

Vestibular schwannomas (VS) are benign tumors that are generally managed by active surveillance with MRI examination. To further assist clinical decision-making and avoid overtreatment, an accurate prediction of tumor growth based on longitudinal imaging is highly desirable. In this paper, we introduce DeepGrowth, a deep learning method that incorporates neural fields and recurrent neural networks for prospective tumor growth prediction. In the proposed method, each tumor is represented as a signed distance function (SDF) conditioned on a low-dimensional latent code. Unlike previous studies that perform tumor shape prediction directly in the image space, we predict the latent codes instead and then reconstruct future shapes from it. To deal with irregular time intervals, we introduce a time-conditioned recurrent module based on a ConvLSTM and a novel temporal encoding strategy, which enables the proposed model to output varying tumor shapes over time. The experiments on an in-house longitudinal VS dataset showed that the proposed model significantly improved the performance ($\ge 1.6\%$ Dice score and $\ge0.20$ mm 95\% Hausdorff distance), in particular for top 20\% tumors that grow or shrink the most ($\ge 4.6\%$ Dice score and $\ge 0.73$ mm 95\% Hausdorff distance). Our code is available at ~\burl{https://github.com/cyjdswx/DeepGrowth}
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# 医用画像におけるFew-shot Learningのための非負のサブスペース特徴表現

Non-negative Subspace Feature Representation for Few-shot Learning in Medical Imaging ( http://arxiv.org/abs/2404.02656v2 )

ライセンス: Link先を確認
Keqiang Fan, Xiaohao Cai, Mahesan Niranjan, (参考訳) 大規模なデータセットがディープニューラルネットワークにアクセスできる典型的な視覚的シーン認識ドメインとは異なり、医療画像の解釈は、しばしばデータのあいまいさによって妨げられる。 本稿では,低次元空間におけるデータ属性の異なる表現を探索することにより,医用画像におけるデータに基づく少ショット学習の有効性について検討する。 医用画像分類におけるデータ不足問題に対処するため,NMF (Non- negative matrix factorization) とNMF (Non- negative matrix factorization) を多種に導入した。 NMFの有効性、特にその教師付き変異(例えば、識別的NMF、スパースネスによる教師付きおよび制約付きNMF)の検証、および主成分分析(PCA)との比較、すなわち固有ベクトルから導かれる協調表現に基づく次元減少技術の比較において、広範囲にわたる実証研究が行われた。 11の異なる疾患カテゴリをカバーする14の異なるデータセット、徹底的な実験結果、および関連する技術との比較により、NMFは医療画像における数ショット学習のためのPCAの代替品であり、教師付きNMFアルゴリズムはサブスペースにおいてより差別的であり、より有効であることが示された。 さらに,NMFのパートベース表現,特にその教師付き変異体は,限られた試料を用いた医用画像の病変領域の検出に劇的に影響していることが示唆された。

Unlike typical visual scene recognition domains, in which massive datasets are accessible to deep neural networks, medical image interpretations are often obstructed by the paucity of data. In this paper, we investigate the effectiveness of data-based few-shot learning in medical imaging by exploring different data attribute representations in a low-dimensional space. We introduce different types of non-negative matrix factorization (NMF) in few-shot learning, addressing the data scarcity issue in medical image classification. Extensive empirical studies are conducted in terms of validating the effectiveness of NMF, especially its supervised variants (e.g., discriminative NMF, and supervised and constrained NMF with sparseness), and the comparison with principal component analysis (PCA), i.e., the collaborative representation-based dimensionality reduction technique derived from eigenvectors. With 14 different datasets covering 11 distinct illness categories, thorough experimental results and comparison with related techniques demonstrate that NMF is a competitive alternative to PCA for few-shot learning in medical imaging, and the supervised NMF algorithms are more discriminative in the subspace with greater effectiveness. Furthermore, we show that the part-based representation of NMF, especially its supervised variants, is dramatically impactful in detecting lesion areas in medical imaging with limited samples.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# AQuA - LLMを用いたオンラインディスカッションにおける専門家と非専門家の考察

AQuA - Combining Experts' and Non-Experts' Views To Assess Deliberation Quality in Online Discussions Using LLMs ( http://arxiv.org/abs/2404.02761v2 )

ライセンス: Link先を確認
Maike Behrendt, Stefan Sylvius Wagner, Marc Ziegele, Lena Wilms, Anke Stoll, Dominique Heinbach, Stefan Harmeling, (参考訳) 政治オンライン議論におけるコントリビューションの質の測定は、熟考研究とコンピュータ科学において不可欠である。 オンラインの議論の質を評価するためのさまざまな指標が研究によって特定され、深層学習の進歩により、これらの手段の自動化が実現可能になった。 特定の品質指標の分析に焦点が当てられている研究もあるが、様々な熟考的な側面を取り入れた総合的な品質スコアが好まれる。 本稿では,各議論記事の複数の指標から,統一された熟考品質スコアを算出する付加的なスコアであるAQuAを紹介する。 他の特異点とは異なり、AQuAはコメントに存在する熟考的な側面に関する情報を保持し、モデルの透明性を高める。 我々は,20の熟考指標に対する適応モデルを開発し,専門家のアノテーションと認識された熟考度との相関係数を非専門家によって計算し,各指標を1つの熟考スコアに重み付けする。 AQuAスコアは、事前トレーニング済みのアダプタから簡単に計算でき、トレーニング中に見られていない他のデータセットのアノテーションとよく一致します。 専門家と非専門家のアノテーションの分析は、社会科学文学における理論的発見を裏付けるものである。

Measuring the quality of contributions in political online discussions is crucial in deliberation research and computer science. Research has identified various indicators to assess online discussion quality, and with deep learning advancements, automating these measures has become feasible. While some studies focus on analyzing specific quality indicators, a comprehensive quality score incorporating various deliberative aspects is often preferred. In this work, we introduce AQuA, an additive score that calculates a unified deliberative quality score from multiple indices for each discussion post. Unlike other singular scores, AQuA preserves information on the deliberative aspects present in comments, enhancing model transparency. We develop adapter models for 20 deliberative indices, and calculate correlation coefficients between experts' annotations and the perceived deliberativeness by non-experts to weigh the individual indices into a single deliberative score. We demonstrate that the AQuA score can be computed easily from pre-trained adapters and aligns well with annotations on other datasets that have not be seen during training. The analysis of experts' vs. non-experts' annotations confirms theoretical findings in the social science literature.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# 波面フォトニックギアを用いた量子強化メカニカルローテーションセンシング

Quantum enhanced mechanical rotation sensing using wavefront photonic gears ( http://arxiv.org/abs/2404.02797v2 )

ライセンス: Link先を確認
Ofir Yesharim, Guy Tshuva, Ady Arie, (参考訳) 量子距離論は、拡張されたパラメータ推定に量子相関を利用する。 近年、構造光は量子力学系における分解能と感度の向上を可能にした。 しかし、光子束の損失と複雑な構成は、高次元構造光を使用しながら真の量子優位性を妨げている。 我々は,高次元構造光と,N=2のN00N状態源のコンパクトな高フラックス(45,000個の偶然数)を用いて,簡単な機械的回転量子センシング機構を導入する。 このシステムは、2つの対向スパイラル位相板と最大で l=16 のトポロジカル電荷を使い、機械回転を波面位相シフトに変換し、異なるトポロジカル電荷間の16倍の超解像と25倍の高感度を示す。 さらに、高光子フラックスにより、リアルタイムで機械的な角加速度を検出することができる。 提案手法は、様々な干渉計測手法に適用可能な、高感度な量子計測方法である。

Quantum metrology leverages quantum correlations for enhanced parameter estimation. Recently, structured light enabled increased resolution and sensitivity in quantum metrology systems. However, lossy and complex setups impacting photon flux, hinder true quantum advantage while using high dimensional structured light. We introduce a straightforward mechanical rotation quantum sensing mechanism, employing high-dimensional structured light and a compact high-flux (45,000 coincidence counts per second) N00N state source with N=2. The system utilizes two opposite spiral phase plates with topological charge of up to l=16 that convert mechanical rotation into wavefront phase shifts, and exhibit a 16-fold enhanced super-resolution and 25-fold enhanced sensitivity between different topological charges, while retaining the acquisition times and with negligible change in coincidence count. Furthermore, the high photon flux enables to detect mechanical angular acceleration in real-time. Our approach paves the way for highly sensitive quantum measurements, applicable to various interferometric schemes.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# パッシブ心臓力学をパーソナライズするための最適化フレームワーク

An Optimization Framework to Personalize Passive Cardiac Mechanics ( http://arxiv.org/abs/2404.02807v2 )

ライセンス: Link先を確認
Lei Shi, Ian Chen, Hiroo Takayama, Vijay Vedula, (参考訳) パーソナライズされた心臓力学モデリングは、健康と疾患における心臓機能の生体力学を理解し、治療計画を支援する強力なツールである。 しかし、現在のモデルでは、単一の心臓で取得した医療画像のみに制限されており、動的画像取得処理に適用性に制限があることが多い。 本研究では、時間依存医療画像データを用いて、心臓組織の受動力学的特性を推定する逆有限要素解析(iFEA)フレームワークを提案する。 iFEAフレームワークは、新しいネスト最適化方式に依存しており、外部イテレーションは従来の最適化手法を使用して画像データに適合するパラメータを近似し、内部イテレーションはSellierのアルゴリズムを用いてストレスのない参照構成を推定する。 受動的機械的挙動を特徴づけることに焦点をあてて、このフレームワークは構造に基づく異方性超弾性構成モデルと生理学的に関連する境界条件を用いて心筋力学をシミュレートする。 安定な変分多スケールの定式化を用いて, 非線形エラストダイナミックス方程式を解析し, 心臓力学への応用を検証した。 健常者および肥大型閉塞性心筋症(HOCM)3例の心相分解CT像から得られた心室および左心房の心筋モデルを用いて検討した。 繊維方向パラメータ,メッシュサイズ,最適材料パラメータに対する初期パラメータ,摂動の影響を,厳密な感度解析を用いて評価した。 現在のiFEAの性能は、典型的には単相画像取得に使用される電力法に基づく圧力-体積関係と比較される。

Personalized cardiac mechanics modeling is a powerful tool for understanding the biomechanics of cardiac function in health and disease and assisting in treatment planning. However, current models are limited to using medical images acquired at a single cardiac phase, often limiting their applicability for processing dynamic image acquisitions. This study introduces an inverse finite element analysis (iFEA) framework to estimate the passive mechanical properties of cardiac tissue using time-dependent medical image data. The iFEA framework relies on a novel nested optimization scheme, in which the outer iterations utilize a traditional optimization method to best approximate material parameters that fit image data, while the inner iterations employ an augmented Sellier's algorithm to estimate the stress-free reference configuration. With a focus on characterizing the passive mechanical behavior, the framework employs structurally based anisotropic hyperelastic constitutive models and physiologically relevant boundary conditions to simulate myocardial mechanics. We use a stabilized variational multiscale formulation for solving the governing nonlinear elastodynamics equations, verified for cardiac mechanics applications. The framework is tested in myocardium models of biventricle and left atrium derived from cardiac phase-resolved computed tomographic (CT) images of a healthy subject and three patients with hypertrophic obstructive cardiomyopathy (HOCM). The impact of the choice of optimization methods and other numerical settings, including fiber direction parameters, mesh size, initial parameters for optimization, and perturbations to optimal material parameters, is assessed using a rigorous sensitivity analysis. The performance of the current iFEA is compared against an assumed power-law-based pressure-volume relation, typically used for single-phase image acquisition.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# 機械学習を用いた国家法・政策における気候目標の特定

Identifying Climate Targets in National Laws and Policies using Machine Learning ( http://arxiv.org/abs/2404.02822v2 )

ライセンス: Link先を確認
Matyas Juhasz, Tina Marchand, Roshan Melwani, Kalyan Dutia, Sarah Goodenough, Harrison Pim, Henry Franks, (参考訳) 定量化政策の対象は気候政策の基本的な要素であり、典型的にはドメイン特化言語と技術言語によって特徴づけられる。 地球温暖化対策の総合的な展望を養うための現在の手法は、かなりの手作業を必要とする。 現在,国家法や政策から気候目標を抽出するスケーラブルな方法はほとんどなく,政策立案者や研究者が(1)世界目標と民間・公共セクターの整合性を評価し,(2)政策決定を通知する能力を制限する。 本稿では,国家法と政策から気候目標の言及を抽出するアプローチを提案する。 我々は、ターゲットの3つのカテゴリ("Net Zero"、"Reduction"、"Other"(例えば再生可能エネルギーのターゲット))を識別する専門家アノテートデータセットを作成し、テキストでそれらを確実に識別するように分類器を訓練する。 我々は、我々のモデルに関連するバイアスと株式の影響を調査し、問題のある特徴として特定の年と国名を特定する。 最後に、この分類器を世界各国の気候法と政策のデータセット(CPR)とUNFCCCに提出し、既存の気候政策データベースの自動化されたスケーラブルなデータ収集の可能性を強調し、さらなる研究を支援する。 私たちの研究は、政策立案者や研究者にとって重要な気候政策要素のアクセシビリティーが大幅に向上したことを示している。 私たちは、https://huggingface.co/ClimatePolicyRadar/ National-climate-targetsと関連するデータセットをhttps://huggingface.co/datasets/ClimatePolicyRadar/ national-climate-targetsで公開しています。

Quantified policy targets are a fundamental element of climate policy, typically characterised by domain-specific and technical language. Current methods for curating comprehensive views of global climate policy targets entail significant manual effort. At present there are few scalable methods for extracting climate targets from national laws or policies, which limits policymakers' and researchers' ability to (1) assess private and public sector alignment with global goals and (2) inform policy decisions. In this paper we present an approach for extracting mentions of climate targets from national laws and policies. We create an expert-annotated dataset identifying three categories of target ('Net Zero', 'Reduction' and 'Other' (e.g. renewable energy targets)) and train a classifier to reliably identify them in text. We investigate bias and equity impacts related to our model and identify specific years and country names as problematic features. Finally, we investigate the characteristics of the dataset produced by running this classifier on the Climate Policy Radar (CPR) dataset of global national climate laws and policies and UNFCCC submissions, highlighting the potential of automated and scalable data collection for existing climate policy databases and supporting further research. Our work represents a significant upgrade in the accessibility of these key climate policy elements for policymakers and researchers. We publish our model at https://huggingface.co/ClimatePolicyRadar/national-climate-targets and related dataset at https://huggingface.co/datasets/ClimatePolicyRadar/national-climate-targets.
翻訳日:2024-04-05 13:23:19 公開日:2024-04-04
# 時間反転対称光子輸送に基づく単一光子波束のパッシブおよび決定論的制御相ゲート

Passive and Deterministic Controlled-phase Gate for Single-photon Wavepackets Based on Time-reversal Symmetric Photon Transport ( http://arxiv.org/abs/2312.10719v4 )

ライセンス: Link先を確認
Zhaohua Tian, Xue-Wen Chen, (参考訳) 本稿では,2レベルエミッタと少数のキャビティからなるノードを持つ単一光子ウェーブパケットに対して,受動的,決定論的,ほぼ均一性制御された$$\pi$相ゲートの構築について報告する。 提案されたゲートは、光子輸送過程全体を完全な吸収・再放出プロセスにする時間反転対称光子輸送の概念に根ざしている。 これにより、非線形媒体を用いたフォトニック位相ゲートに固有のウェーブパレット歪みの長年の問題を回避することができる。 さらに、このような時間反転対称輸送により、2光子の場合の1つの2レベルエミッタによる非線形$\pi$位相シフトが保証される。 我々は非線形光子輸送の時間的ダイナミクスを明らかにするための解析解を開発し、ゲート構造を最適化する。 特に、ゲート忠実度は、単一光子と2光子の両方で4つのキャビティしか持たないノードに対して99\%を超える。 さらに、ゲートアーキテクチャは、統合フォトニクスのプラットフォームと互換性がある。

We report the construction of a passive, deterministic and near-unity-fidelity controlled-$\pi$-phase gate for single-photon wavepackets with a node comprising a two-level emitter and a small number of cavities. The proposed gate is rooted in the concept of time-reversal symmetric photon transport, which makes the entire photon transport process into a perfect absorption and re-emission process. Consequently, it can circumvent the longstanding issue of wavepacket distortion inherent in photonic phase gates employing nonlinear media. Moreover, such time-reversal symmetric transport ensures the nonlinear $\pi$ phase shift by a single two-level emitter for the two-photon case. We develop analytical solutions to reveal the temporal dynamics of the nonlinear photon transport and to optimize the gate structure. Notably, the gate fidelity can exceed 99\% for a node with only four cavities for both single-photon and two-photon operations. Moreover, the proposed gate architecture is compatible with the platforms of integrated photonics.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-04
# 非教師的行動セグメンテーションのための時間的一貫した不均衡最適輸送

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation ( http://arxiv.org/abs/2404.01518v2 )

ライセンス: Link先を確認
Ming Xu, Stephen Gould, (参考訳) 本稿では,最適な移動問題の解法を基礎として,長編未編集ビデオのためのアクションセグメンテーションタスクを提案する。 時間的一貫性をGromov-Wasserstein問題に符号化することにより、ビデオフレームとアクションクラス間のノイズ親和性/マッチングコスト行列から時間的整合セグメンテーションをデコードすることができる。 従来の手法とは異なり,ビデオが時間的整合性を達成するためには,動作順序を知る必要はない。 さらに、得られた(融合した)グロモフ=ワッサーシュタイン問題は、プロジェクションミラー降下を数回繰り返してGPU上で効率的に解ける。 自己学習のための擬似ラベルを生成するための教師なし学習環境において,本手法の有効性を実証する。 我々は、Breakfast、50-Salads、YouTube Instructions、Desktop Assemblyデータセットのセグメンテーションアプローチと教師なし学習パイプラインを評価し、教師なしビデオアクションセグメンテーションタスクの最先端結果を得た。

We propose a novel approach to the action segmentation task for long, untrimmed videos, based on solving an optimal transport problem. By encoding a temporal consistency prior into a Gromov-Wasserstein problem, we are able to decode a temporally consistent segmentation from a noisy affinity/matching cost matrix between video frames and action classes. Unlike previous approaches, our method does not require knowing the action order for a video to attain temporal consistency. Furthermore, our resulting (fused) Gromov-Wasserstein problem can be efficiently solved on GPUs using a few iterations of projected mirror descent. We demonstrate the effectiveness of our method in an unsupervised learning setting, where our method is used to generate pseudo-labels for self-training. We evaluate our segmentation approach and unsupervised learning pipeline on the Breakfast, 50-Salads, YouTube Instructions and Desktop Assembly datasets, yielding state-of-the-art results for the unsupervised video action segmentation task.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-04
# カーネルサイズスケーリングによる埋め込みスパイクニューラルネットワークの精度向上手法

A Methodology for Improving Accuracy of Embedded Spiking Neural Networks through Kernel Size Scaling ( http://arxiv.org/abs/2404.01685v2 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique, (参考訳) Spiking Neural Networks (SNN) は、スパーススパイクベースの操作のため、機械学習ベースのアプリケーションに対して、超低電力/エネルギー消費を提供することができる。 現在、ほとんどのSNNアーキテクチャは、より精度の高いモデルサイズを必要とするが、リソース制約のある組み込みアプリケーションには適さない。 そのため,メモリフットプリントを許容できる精度の高いSNNの開発が不可欠である。 そこで本研究では,カーネルサイズスケーリングによるSNNの精度向上手法を提案する。 その重要なステップは、異なるカーネルサイズが精度に与える影響を調査し、新しいカーネルサイズを考案し、選択したカーネルサイズに基づいてSNNアーキテクチャを生成し、SNNモデル選択の精度-メモリトレードオフを分析することである。 実験の結果,CIFAR10では93.24%,CIFAR100では70.84%,探索時間の最大3.45倍の高速化を実現し,組込みアプリケーションに適していることがわかった。

Spiking Neural Networks (SNNs) can offer ultra low power/ energy consumption for machine learning-based applications due to their sparse spike-based operations. Currently, most of the SNN architectures need a significantly larger model size to achieve higher accuracy, which is not suitable for resource-constrained embedded applications. Therefore, developing SNNs that can achieve high accuracy with acceptable memory footprint is highly needed. Toward this, we propose a novel methodology that improves the accuracy of SNNs through kernel size scaling. Its key steps include investigating the impact of different kernel sizes on the accuracy, devising new sets of kernel sizes, generating SNN architectures based on the selected kernel sizes, and analyzing the accuracy-memory trade-offs for SNN model selection. The experimental results show that our methodology achieves higher accuracy than state-of-the-art (93.24% accuracy for CIFAR10 and 70.84% accuracy for CIFAR100) with less than 10M parameters and up to 3.45x speed-up of searching time, thereby making it suitable for embedded applications.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-04
# 長文内学習を用いた長文LLMスラグル

Long-context LLMs Struggle with Long In-context Learning ( http://arxiv.org/abs/2404.02060v2 )

ライセンス: Link先を確認
Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen, (参考訳) 大規模言語モデル(LLM)は32Kトークンを超える長いシーケンスを扱うために大きな進歩を遂げた。 しかし、それらのパフォーマンス評価は、複雑度や合成タスクのようなメトリクスに限られており、より微妙で現実的なシナリオでは、その能力を完全には捉えられない可能性がある。 本研究は,極端ラベル分類の領域内での長い文脈内学習に焦点を当てた特殊なベンチマーク(LongICLBench)を提案する。 ラベル範囲が28から174の6つのデータセットを慎重に選択した。 我々のベンチマークでは、LLMが入力全体を理解し、巨大なラベル空間を認識し、正確な予測を行う必要がある。 13個の長文LLMをベンチマークで評価した。 長いコンテキストウィンドウを効果的に活用することにより、短い実演長で難解でないタスクに対して、LLMは比較的よく機能することがわかった。 しかし、174のラベルを持つ最も難しいタスクディスカバリでは、全てのLLMはタスク定義を理解するのに苦労し、パフォーマンスはゼロに近い。 これは、長いコンテキストに富んだシーケンスを処理および理解するための現在のLLM機能に顕著なギャップがあることを示唆している。 さらに分析した結果,配列の最後に提示されたラベルの予測が好まれる傾向が示された。 長いシーケンスで複数の部品を推論する能力はまだ改善されていない。 本研究は,LLMの長期的理解と推論が依然として課題であることを示す。 我々は、LongICLBenchが将来のLLMのより現実的な評価に役立つと考えている。

Large Language Models (LLMs) have made significant strides in handling long sequences exceeding 32K tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their abilities in more nuanced, real-world scenarios. This study introduces a specialized benchmark (LongICLBench) focusing on long in-context learning within the realm of extreme-label classification. We meticulously selected six datasets with a label range spanning 28 to 174 classes covering different input (few-shot demonstration) lengths from 2K to 50K tokens. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct predictions. We evaluate 13 long-context LLMs on our benchmarks. We find that the long-context LLMs perform relatively well on less challenging tasks with shorter demonstration lengths by effectively utilizing the long context window. However, on the most challenging task Discovery with 174 labels, all the LLMs struggle to understand the task definition, thus reaching a performance close to zero. This suggests a notable gap in current LLM capabilities for processing and understanding long, context-rich sequences. Further analysis revealed a tendency among models to favor predictions for labels presented toward the end of the sequence. Their ability to reason over multiple pieces in the long sequence is yet to be improved. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LongICLBench could serve as a more realistic evaluation for the future long-context LLMs.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-04
# EGTR:Scene Graph 生成のための Transformer からのグラフ抽出

EGTR: Extracting Graph from Transformer for Scene Graph Generation ( http://arxiv.org/abs/2404.02072v2 )

ライセンス: Link先を確認
Jinbae Im, JeongYeon Nam, Nokyung Park, Hyungmin Lee, Seunghyun Park, (参考訳) SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。 DETRの開発後、一段物体検出器に基づく一段SGGモデルが活発に研究されている。 しかし、オブジェクト間の関係を予測するために複雑なモデリングが使用され、オブジェクト検出器のマルチヘッド自己アテンションで学習したオブジェクトクエリー間の固有の関係は無視されている。 本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。 自己注意副産物を十分に活用することにより、浅い関係抽出ヘッドで関係グラフを効果的に抽出することができる。 対象検出タスクにおける関係抽出タスクの依存性を考慮して,検出対象の品質に応じて関係ラベルを適応的に調整する新しい関係平滑化手法を提案する。 関係の平滑化により、モデルは訓練開始時の対象検出タスクに焦点を当てた連続カリキュラムに従って訓練され、対象検出性能が徐々に向上するにつれてマルチタスク学習を行う。 さらに,関係抽出の補助タスクとして,オブジェクトペア間に関係が存在するかどうかを予測する接続予測タスクを提案する。 本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。 私たちのコードはhttps://github.com/naver-ai/egtr.comで公開されています。

Scene Graph Generation (SGG) is a challenging task of detecting objects and predicting relationships between objects. After DETR was developed, one-stage SGG models based on a one-stage object detector have been actively studied. However, complex modeling is used to predict the relationship between objects, and the inherent relationship between object queries learned in the multi-head self-attention of the object detector has been neglected. We propose a lightweight one-stage SGG model that extracts the relation graph from the various relationships learned in the multi-head self-attention layers of the DETR decoder. By fully utilizing the self-attention by-products, the relation graph can be extracted effectively with a shallow relation extraction head. Considering the dependency of the relation extraction task on the object detection task, we propose a novel relation smoothing technique that adjusts the relation label adaptively according to the quality of the detected objects. By the relation smoothing, the model is trained according to the continuous curriculum that focuses on object detection task at the beginning of training and performs multi-task learning as the object detection performance gradually improves. Furthermore, we propose a connectivity prediction task that predicts whether a relation exists between object pairs as an auxiliary task of the relation extraction. We demonstrate the effectiveness and efficiency of our method for the Visual Genome and Open Image V6 datasets. Our code is publicly available at https://github.com/naver-ai/egtr.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-04
# TE-TAD:時間的協調表現による終端から終端までの時間的行動検出に向けて

TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression ( http://arxiv.org/abs/2404.02405v2 )

ライセンス: Link先を確認
Ho-Joong Kim, Jung-Ho Hong, Heejo Kong, Seong-Whan Lee, (参考訳) 本稿では,時間的行動検出(TAD)のための問合せ型検出器において,手作り部品に依存した正規化座標式が重要な要素であることを示す。 オブジェクト検出におけるエンドツーエンドフレームワークへの大きな進歩にもかかわらず、クエリベースの検出器は、TADで完全なエンドツーエンドモデリングを実現するために制限されている。 この問題に対処するために、時間に整合した座標式を統合するフルエンド・ツー・エンドの時間的行動検出変換器である \modelname{} を提案する。 我々は、実際のタイムライン値を利用して座標表現を再構成し、非常に多様なビデオ時間環境から長さ不変表現を確実にする。 さらに,提案した適応クエリ選択は,ビデオ長に基づくクエリ数を動的に調整し,固定されたクエリセットと比較して,ビデオ長の変化に対する適切な解決策を提供する。 本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。 我々のTE-TADは、従来のクエリベースの検出器よりも優れており、一般的なベンチマークデータセットの最先端手法と比較して、競合的な性能を実現しています。 コードは、https://github.com/Dotori-HJ/TE-TADで入手できる。

In this paper, we investigate that the normalized coordinate expression is a key factor as reliance on hand-crafted components in query-based detectors for temporal action detection (TAD). Despite significant advancements towards an end-to-end framework in object detection, query-based detectors have been limited in achieving full end-to-end modeling in TAD. To address this issue, we propose \modelname{}, a full end-to-end temporal action detection transformer that integrates time-aligned coordinate expression. We reformulate coordinate expression utilizing actual timeline values, ensuring length-invariant representations from the extremely diverse video duration environment. Furthermore, our proposed adaptive query selection dynamically adjusts the number of queries based on video length, providing a suitable solution for varying video durations compared to a fixed query set. Our approach not only simplifies the TAD process by eliminating the need for hand-crafted components but also significantly improves the performance of query-based detectors. Our TE-TAD outperforms the previous query-based detectors and achieves competitive performance compared to state-of-the-art methods on popular benchmark datasets. Code is available at: https://github.com/Dotori-HJ/TE-TAD
翻訳日:2024-04-05 11:20:41 公開日:2024-04-04